Penerapan Spatial Decision Tree untuk Identifikasi

advertisement
Penerapan Spatial Decision Tree
untuk Identifikasi Lahan Mangrove
Menggunakan Algoritme C4.5
Oleh :
Napthalena G64052303
Pembimbing :
Imas S. Sitanggang, S.Si, M.Kom
Sony H. Wijaya, S.Kom, M.Kom
Departemen Ilmu Komputer
Institut Pertanian Bogor
Outline
•
•
•
•
•
•
•
•
Latar Belakang
Tujuan
Ruang Lingkup
Tinjaun Pustaka
Metode
Hasil dan Pembahasan
Kesimpulan dan Saran
Daftar Pustaka
Latar Belakang
• Manfaat hutan mangrove bagi kehidupan
• Persebaran hutan mangrove yang tidak
merata
Membutuhkan analisis spasial untuk mengetahui
deskripsi wilayah hutan mangrove
A
pertumbuhan
mangrove yang tidak
merata
c
B
D
mangrove
A,B,C,D : Wilayah
Tujuan
• Menerapkan teknik klasifikasi pada data spasial
mangrove menggunakan Algoritme C4.5.
• Membuat Spatial Classifier untuk mendeskripsikan
wilayah yang memiliki lahan mangrove.
Ruang Lingkup
• Data spasial wilayah Kabupaten Kutai Timur dan Kota
Tarakan
• Metode yang digunakan adalah Algoritme C4.5
Tinjauan Pustaka
Data Spasial
• Merepresentasikan aspek-aspek keruangan
dari fenomena yang terdapat di dunia nyata.
• Direpresentasikan di dalam basis data sebagai
raster atau vektor.
Model Raster
Model Vektor
(Prahasta 2001)
Data Spasial (lanjutan…)
• Model informasi Spasial
 Field
 Object
• Hubungan Topological pada model object
overlap
inside
contains
(Sekhar & Chawla 2003)
Spatial Join Index
• Hubungan spasial bersifat implicit
(tersembunyi) dan memerlukan banyak
operasi spatial join.
• Metode untuk menyederhanakan proses ini
menggunakan struktur yang disebut Spatial
Join Index (SJI).
• SJI menghitung secara tepat hubungan spasial
antara dua objek.
Spatial Join Index (lanjutan…)
(Zeitouni & Chelgoum 2004)
Operator Complete
• Mengatur kembali data di dalam tabel unik
dari gabungan tiga tabel termasuk tabel SJI.
• Menghindari adanya duplikasi analisis objek
(Chelgoum & Zeitouni 2004)
Algoritme C4.5
• Pengembangan dari Algoritme ID3
• Menggunakan konsep dari information gain untuk
memilih pemisahan (split) yang optimal.
• Memilih split yang memiliki information gain terbesar .
(Larose 2005)
Algoritma C4.5
1.Build the decision tree form the training set (conventional ID3).
2.Convert the resulting tree into an equivalent set of rules. The
number of rules is equivalent to the number of possible paths
from the root to a leaf node.
3.Prune (generalize) each rule by removing preconditions that
increase classification accuracy.
4.Sort pruned rules by their accuracy, and use them in this order
when classifying future test example
(Quinlan 1993)
Confusion Matrix
• Evaluasi dari kinerja model didasarkan pada banyaknya
(count) dari test record secara benar dan secara tidak benar
oleh model.
• Count ini ditabulasikan ke dalam matrik.
Predicted Class
Actual Class
Class =1
Class =0
Class = 1
f11
f01
Class =0
f10
f00
Akurasi = banyaknya total prediksi yang benar
Total banyaknya prediksi
=
f11 + f00
(Tan et. Al 2006)
f11 +f10 +f01 +f00
Metode
Tahapan
Data dan seleksi data
• Data spasial wilayah kabupaten Kutai Timur  42 wilayah kelurahan
dan 39 objek spasial
• Data spasial wilayah kota tarakan  19 wilayah kelurahan dan 60
objek spasial
• Data yang terseleksi :
 Batas wilayah Kabupeten Kutai Timur
 Batas wilayah Kota Tarakan
 Data landuse
 Data topografi
 Data sungai
 Data lereng
 Data substrat
 Data tanah
 Data geologi
 Data geomorfologi
Praproses
Contoh SJI dan Operator Complete
R1
C4
ID1
ID1
Nama
…
R1
A
…
R2
B
…
Kelurahan
C2
C3
R2
C5
C1
Spatial
Relationships
ID2
R1
Inside
C4
50
R2
Overlap
C1
23
R2
Overlap
C2
40
R2
Overlap
C3
30
R2
Contains
C5
35
Spatial Join Index
Area
ID2
nama
…
C1
belukar
…
C2
hutan
…
C3
belukar
…
C4
rumput
…
C5
hutan
…
Landuse
Contoh SJI dan Operator Complete
(lanjutan…)
ID1
ID1
Nama
R1
A
…
R2
B
…
Kelurahan
Spatial
Relationships
ID2
Area
R1
Inside
C4
50
R2
Overlap
C1
23
R2
Overlap
C2
40
R2
Overlap
C3
30
R2
Contains
C5
35
Spatial Join Index
ID2
nama
…
C1
belukar
…
C2
hutan
…
C3
belukar
…
C4
rumput
…
C5
hutan
…
Landuse
ID1
nama
Spatial Relationships
ID2
Nama
Area
R1
A
Inside
C4
rumput
50
R2
B
Overlap
C1
belukar
23
R2
B
Overlap
C2
hutan
40
R2
B
Overlap
C3
belukar
30
R2
B
Contains
C5
hutan
35
Contoh SJI dan Operator Complete
(lanjutan…)
ID1
nama
Spatial
Relationships
Nama
Area
R1
A
Inside
belukar
50
R2
B
Overlap
belukar
53
R2
B
Contains
Hutan
40
R2
B
Overlap
hutan
35
%area= (area/area kelurahan) *100%
COMPLETE ( aggregate= {Max} )
ID1
Nama ….
R1
A
R2
B
…..
% area yang
beroverlap
landuse
jenis
0
bot contains
53
Belukar
Praproses (lanjutan…)
• Penentuan dan pemberian label kategori
Menggunakan teknik clustering, Algoritme K-means
ID1
Nama
….
R1
A
…..
R2
B
ID1
% area yang
beroverlap
landuse
Nama
….
R1
A
…..
R2
B
jenis
0
Not contains
53
Belukar
Jenis landuse yang
beroverlap
Ncl
B1
Praproses (lanjutan…)
• Penentuan kelas target
- Menggunakan K-means
- 3 cluster (sedikit,
sedang, banyak)
Penambahan atribut
kelas
Pengembangan Sistem
Perangkat Lunak
Perangkat Keras
ArcView 3.3
Processor Intel(R)pentium 4
CPU 3.06 Ghz
Memory 1280 MB RAM
Mouse
Keyboard
Matlab 7.0
Weka 3.6.0
Microsoft Excell 2007
Hasil dan Pembahasan
Praproses
• Perhitungan luas area
 didapatkan 61 wilayah kelurahan yang telah
dihitung luas areanya dengan satuan m2
• Penentuan hubungan spasial
Objek spasial
Hubungan spasial
Jumlah record
mangrove
Contains, overlap
122
topografi
Contains
227
Landuse
Contains, overlap
431
substrat
Overlap
92
geologi
Contains, inside, overlap
290
geomorfologi
Contains, inside, overlap
477
lereng
Contains, inside, overlap
296
tanah
Contains, inside, overlap
352
Penentuan hubungan spasial
(lanjutan…)
• 16 wilayah tidak memiliki topografi  0
• 12 wilayah menggunakan operasi buffer
 operasi buffer
Wilayah yang menggunakan operasi buffer
Praproses (lanjutan…)
• Penyederhanaan tabel SJI
 Luas area pada tabel SJI data mangrove dijumlahkan semua
 data yang memiliki 3 hubungan spasial  2 hubungan spasial (inside =
tidak ada)
 jumlah record semua objek spasial masing-masing menjadi 61 record.
• Penentuan dan pemberian label kategori
 406 data luas area (%) dikelompokkan ke dalam 3 cluster
 Hasil clustering luas area (%)
Objek spasial Jumlah kategori
Cluster 1
Cluster 2
Cluster 3
0.01 – 30.16
30.87 – 70.75
71.2 - 100
Landuse
10
Substrat
6
Geomorfologi
14
Geologi
13
Lereng
4
Tanah
5
Praproses (lanjutan..)
• Penentuan kelas target
 Clustering rasio luas area
Cluster 1
Cluster 2
Cluster 3
Interval (%)
0.0346 – 8.17
9.6871 –
26.968
48.641 – 66.775
kelas
sedikit
sedang
Banyak
Kelas
tidak
Jumlah record 24
sedikit
22
sedang
13
banyak
2
Praproses (lanjutan..)
Atribut data latih
Penggabungan tabel
Atribut Nama
1
Topografi
2
Sungai
3
Jenis landuse yang terkandung
Atribut
Tipe
4
Jenis landuse yang beroverlap
Topografi
Numeric
5
Jenis substrat yang beroverlap
Sungai
Numeric
6
Jenis geologi yang terkandung
Landuse
Kategori
7
Jenis geologi yang beroverlap
Geologi
Kategori
8
Jenis geomorfologi yang terkandung
9
Jenis geomorfologi yang beroverlap
Geomorfologi
Kategori
10
Jenis lereng yang terkandung
susbtrat
Kategori
11
Jenis lereng yang beroverlap
Lereng
Kategori
12
Jenis tanah yang terkandung
Tanah
Kategori
13
Jenis tanah yang beroverlap
14
Label kelas
transformasi
Klasifikasi menggunakan Spatial Decision Tree
• Model yang dihasilkan
10-fold cross validation
Algoritme J.48
Test atribut : co_lereng, ov_susbtrat, topografi
dan co_landuse
Menghasilkan 23 aturan
Rules 1 : JIKA 0.01% - 30.16% area
memiliki lereng agak curam MAKA
area tersebut TIDAK memiliki
mangrove.
Contoh aturan
Rules 2 : JIKA 0.01% - 30.16% area memiliki lereng datar MAKA
area tersebut memiliki mangrove dalam kelas SEDANG.
Rules 3: JIKA area tidak memiliki lereng DAN 0.01% - 30.16%
area bertumpang tindih dengan substrat pasir DAN area
memiliki ketinggian > 23 MAKA area tersebut memiliki mangrove
dalam kelas SEDIKIT.
Rules 4 : JIKA area tidak memiliki lereng DAN tidak memiliki area
yang bertumpang tindih dengan substrat DAN 30.87% - 70.75%
area memiliki landuse belukar MAKA area tersebut TIDAK
memiliki mangrove.
Rules 5 : JIKA area tidak memiliki lereng DAN tidak memiliki area
yang bertumpang tindih dengan substrat DAN 0.01% - 30.16%
area memiliki landuse pemukiman MAKA area tersebut memiliki
mangrove dalam kelas SEDIKIT.
Akurasi classifier
Kelas hasil prediksi
Kelas
aktual
Kelas 0 : tidak
Kelas 1 : sedikit
Kelas 2 : sedang
Kelas 3 : banyak
K0
K1
K2
K3
K0
20
3
0
1
K1
6
13
3
0
K2
3
6
4
0
K3
1
1
0
0
Akurasi = banyaknya total prediksi yang benar
Total banyaknya prediksi
= 37/61 = 0.6066
Penggunaan classifier pada data baru
• Contoh data yang belum memiliki label kelas
Record Topografi … … Substsrat
Id
beroverlap
1
2
30
200
3
127
… …
. ..
.
… …
ps1
ncs
ncs
Landuse … Lereng
… Kelas
yang
yang
terkandung
terkandung
h1
…
nclr
…
?
b2
…
nclr
…
?
pm1
Keterangan :
ps1
= pasir dengan area (0.01% -30.16%)
ncs
= area tidak memiliki substrat
H1
= hutan dengan area (0.01% -30.16%)
B2
= belukar dengan area (30.87%- 70.75%)
pm1
= pemukiman dengan area (0.01% - 30.16%)
Ncl
= area tidak memiliki landuse
nclr
= area tidak memiliki lereng
…
nclr
…
?
Penggunaan classifier pada data baru
(lanjutan..)
• Pengisian label kelas
 record 1  Rules 3 dengan nilai test atribut tidak memiliki lereng
(nclr), bertumpang tindih dengan substrat pasir (ps1), dan
ketinggian wilayah > 23 (30).
record 1label kelas sedikit.
 record 2  Rules 4 dengan nilai test atribut tidak memiliki lereng
(nclr), tidak bertumpang tindih dengan substrat (ncs), dan memiliki
landuse belukar (b2).
record 2  label kelas tidak.
 record 3  Rules 5 dengan nilai test atribut tidak memiliki lereng
(nclr), tidak bertumpang tindih dengan substrat (ncs), dan memiliki
landuse pemukiman (pm1).
record 3  label kelas sedikit.
Kesimpulan dan saran
Kesimpulan
• Terbentuknya spasial classifier yang terdiri dari 23
aturan dengan akurasi 60.66%.
• Dari penelitian ini kategori luas area mangrove
dideskripsikan oleh area yang mengandung
lereng, area yang beroverlap dengan substrat,
topografi, dan area yang mengandung landuse.
• Penggunaan spatial join index dan operator
complete dalam menentukan hubungan spasial
antara objek spasial menghasilkan dataset yang
dapat diolah menggunakan teknik klasifikasi
konvensional.
Saran
• Untuk memodelkan area mangrove diperlukan
keseimbangan dalam jumlah kelas target.
• Perlu dibuat aplikasi komputer untuk
mengimplementasikan proses spatial join
index dan operator complete, terutama untuk
data spasial berukuran besar.
Daftar Pustaka
•
•
•
•
•
•
•
•
•
•
Chelghoum N, Zeitouni K. 2004. Spatial Data Mining Implementation : Alternatives
and performance. Versailles. Prism Laboratory University of Versailles.
Dahuri, R. 2003. Keanekaragaman Hayati Laut : Aset Pembangunan Berkelanjutan
Indonesia. Jakarta. PT Gramedia Indonesia Pustaka.
Han J, Kamber M. 2006. Data Mining Concepts and Techniques. San Diego, USA:
Morgan-Kaufmann.
Larose, T Daniel. 2005. Discovering Knowledge In Data : An Introduction To Data
Mining. New Jersey. Wiley-Interscience.
Prahasta E. 2001. Konsep-konsep Dasar Sistem Informasi Geografis. Bandung.
Informatika.
Quinlan, J.R. 1993. C4.5: Programs For Machine Learning. San Mateo. CA: Morgan
Kaufmann.
Sekhar S, Chawla S.2003. Spatial Databases a Tour. New Jersey. Prentice Hall.
Tan P, Michael S. dan Vipin K. 2006. Introduction to Data Mining. Addison Wesley.
Zeitouni K, Chelghoum N. 2001. Spatial Decision Tree – Applications to Traffic Risk
Analysis. IEEE International Conference on Computer Systems and Applications.
Lebanon.
Zeitouni K, Yeh L, Aufaure MA. 2000. Join Indices as a Tool for Spatial Data Mining.
International Workshop on Temporal, Spatial and Spatio-Temporal Data Mining,
Lecture Notes in Artificial Intelligence, 102-114, 2007.
Terima Kasih
Download