Penerapan Spatial Decision Tree untuk Identifikasi Lahan Mangrove Menggunakan Algoritme C4.5 Oleh : Napthalena G64052303 Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Sony H. Wijaya, S.Kom, M.Kom Departemen Ilmu Komputer Institut Pertanian Bogor Outline • • • • • • • • Latar Belakang Tujuan Ruang Lingkup Tinjaun Pustaka Metode Hasil dan Pembahasan Kesimpulan dan Saran Daftar Pustaka Latar Belakang • Manfaat hutan mangrove bagi kehidupan • Persebaran hutan mangrove yang tidak merata Membutuhkan analisis spasial untuk mengetahui deskripsi wilayah hutan mangrove A pertumbuhan mangrove yang tidak merata c B D mangrove A,B,C,D : Wilayah Tujuan • Menerapkan teknik klasifikasi pada data spasial mangrove menggunakan Algoritme C4.5. • Membuat Spatial Classifier untuk mendeskripsikan wilayah yang memiliki lahan mangrove. Ruang Lingkup • Data spasial wilayah Kabupaten Kutai Timur dan Kota Tarakan • Metode yang digunakan adalah Algoritme C4.5 Tinjauan Pustaka Data Spasial • Merepresentasikan aspek-aspek keruangan dari fenomena yang terdapat di dunia nyata. • Direpresentasikan di dalam basis data sebagai raster atau vektor. Model Raster Model Vektor (Prahasta 2001) Data Spasial (lanjutan…) • Model informasi Spasial Field Object • Hubungan Topological pada model object overlap inside contains (Sekhar & Chawla 2003) Spatial Join Index • Hubungan spasial bersifat implicit (tersembunyi) dan memerlukan banyak operasi spatial join. • Metode untuk menyederhanakan proses ini menggunakan struktur yang disebut Spatial Join Index (SJI). • SJI menghitung secara tepat hubungan spasial antara dua objek. Spatial Join Index (lanjutan…) (Zeitouni & Chelgoum 2004) Operator Complete • Mengatur kembali data di dalam tabel unik dari gabungan tiga tabel termasuk tabel SJI. • Menghindari adanya duplikasi analisis objek (Chelgoum & Zeitouni 2004) Algoritme C4.5 • Pengembangan dari Algoritme ID3 • Menggunakan konsep dari information gain untuk memilih pemisahan (split) yang optimal. • Memilih split yang memiliki information gain terbesar . (Larose 2005) Algoritma C4.5 1.Build the decision tree form the training set (conventional ID3). 2.Convert the resulting tree into an equivalent set of rules. The number of rules is equivalent to the number of possible paths from the root to a leaf node. 3.Prune (generalize) each rule by removing preconditions that increase classification accuracy. 4.Sort pruned rules by their accuracy, and use them in this order when classifying future test example (Quinlan 1993) Confusion Matrix • Evaluasi dari kinerja model didasarkan pada banyaknya (count) dari test record secara benar dan secara tidak benar oleh model. • Count ini ditabulasikan ke dalam matrik. Predicted Class Actual Class Class =1 Class =0 Class = 1 f11 f01 Class =0 f10 f00 Akurasi = banyaknya total prediksi yang benar Total banyaknya prediksi = f11 + f00 (Tan et. Al 2006) f11 +f10 +f01 +f00 Metode Tahapan Data dan seleksi data • Data spasial wilayah kabupaten Kutai Timur 42 wilayah kelurahan dan 39 objek spasial • Data spasial wilayah kota tarakan 19 wilayah kelurahan dan 60 objek spasial • Data yang terseleksi : Batas wilayah Kabupeten Kutai Timur Batas wilayah Kota Tarakan Data landuse Data topografi Data sungai Data lereng Data substrat Data tanah Data geologi Data geomorfologi Praproses Contoh SJI dan Operator Complete R1 C4 ID1 ID1 Nama … R1 A … R2 B … Kelurahan C2 C3 R2 C5 C1 Spatial Relationships ID2 R1 Inside C4 50 R2 Overlap C1 23 R2 Overlap C2 40 R2 Overlap C3 30 R2 Contains C5 35 Spatial Join Index Area ID2 nama … C1 belukar … C2 hutan … C3 belukar … C4 rumput … C5 hutan … Landuse Contoh SJI dan Operator Complete (lanjutan…) ID1 ID1 Nama R1 A … R2 B … Kelurahan Spatial Relationships ID2 Area R1 Inside C4 50 R2 Overlap C1 23 R2 Overlap C2 40 R2 Overlap C3 30 R2 Contains C5 35 Spatial Join Index ID2 nama … C1 belukar … C2 hutan … C3 belukar … C4 rumput … C5 hutan … Landuse ID1 nama Spatial Relationships ID2 Nama Area R1 A Inside C4 rumput 50 R2 B Overlap C1 belukar 23 R2 B Overlap C2 hutan 40 R2 B Overlap C3 belukar 30 R2 B Contains C5 hutan 35 Contoh SJI dan Operator Complete (lanjutan…) ID1 nama Spatial Relationships Nama Area R1 A Inside belukar 50 R2 B Overlap belukar 53 R2 B Contains Hutan 40 R2 B Overlap hutan 35 %area= (area/area kelurahan) *100% COMPLETE ( aggregate= {Max} ) ID1 Nama …. R1 A R2 B ….. % area yang beroverlap landuse jenis 0 bot contains 53 Belukar Praproses (lanjutan…) • Penentuan dan pemberian label kategori Menggunakan teknik clustering, Algoritme K-means ID1 Nama …. R1 A ….. R2 B ID1 % area yang beroverlap landuse Nama …. R1 A ….. R2 B jenis 0 Not contains 53 Belukar Jenis landuse yang beroverlap Ncl B1 Praproses (lanjutan…) • Penentuan kelas target - Menggunakan K-means - 3 cluster (sedikit, sedang, banyak) Penambahan atribut kelas Pengembangan Sistem Perangkat Lunak Perangkat Keras ArcView 3.3 Processor Intel(R)pentium 4 CPU 3.06 Ghz Memory 1280 MB RAM Mouse Keyboard Matlab 7.0 Weka 3.6.0 Microsoft Excell 2007 Hasil dan Pembahasan Praproses • Perhitungan luas area didapatkan 61 wilayah kelurahan yang telah dihitung luas areanya dengan satuan m2 • Penentuan hubungan spasial Objek spasial Hubungan spasial Jumlah record mangrove Contains, overlap 122 topografi Contains 227 Landuse Contains, overlap 431 substrat Overlap 92 geologi Contains, inside, overlap 290 geomorfologi Contains, inside, overlap 477 lereng Contains, inside, overlap 296 tanah Contains, inside, overlap 352 Penentuan hubungan spasial (lanjutan…) • 16 wilayah tidak memiliki topografi 0 • 12 wilayah menggunakan operasi buffer operasi buffer Wilayah yang menggunakan operasi buffer Praproses (lanjutan…) • Penyederhanaan tabel SJI Luas area pada tabel SJI data mangrove dijumlahkan semua data yang memiliki 3 hubungan spasial 2 hubungan spasial (inside = tidak ada) jumlah record semua objek spasial masing-masing menjadi 61 record. • Penentuan dan pemberian label kategori 406 data luas area (%) dikelompokkan ke dalam 3 cluster Hasil clustering luas area (%) Objek spasial Jumlah kategori Cluster 1 Cluster 2 Cluster 3 0.01 – 30.16 30.87 – 70.75 71.2 - 100 Landuse 10 Substrat 6 Geomorfologi 14 Geologi 13 Lereng 4 Tanah 5 Praproses (lanjutan..) • Penentuan kelas target Clustering rasio luas area Cluster 1 Cluster 2 Cluster 3 Interval (%) 0.0346 – 8.17 9.6871 – 26.968 48.641 – 66.775 kelas sedikit sedang Banyak Kelas tidak Jumlah record 24 sedikit 22 sedang 13 banyak 2 Praproses (lanjutan..) Atribut data latih Penggabungan tabel Atribut Nama 1 Topografi 2 Sungai 3 Jenis landuse yang terkandung Atribut Tipe 4 Jenis landuse yang beroverlap Topografi Numeric 5 Jenis substrat yang beroverlap Sungai Numeric 6 Jenis geologi yang terkandung Landuse Kategori 7 Jenis geologi yang beroverlap Geologi Kategori 8 Jenis geomorfologi yang terkandung 9 Jenis geomorfologi yang beroverlap Geomorfologi Kategori 10 Jenis lereng yang terkandung susbtrat Kategori 11 Jenis lereng yang beroverlap Lereng Kategori 12 Jenis tanah yang terkandung Tanah Kategori 13 Jenis tanah yang beroverlap 14 Label kelas transformasi Klasifikasi menggunakan Spatial Decision Tree • Model yang dihasilkan 10-fold cross validation Algoritme J.48 Test atribut : co_lereng, ov_susbtrat, topografi dan co_landuse Menghasilkan 23 aturan Rules 1 : JIKA 0.01% - 30.16% area memiliki lereng agak curam MAKA area tersebut TIDAK memiliki mangrove. Contoh aturan Rules 2 : JIKA 0.01% - 30.16% area memiliki lereng datar MAKA area tersebut memiliki mangrove dalam kelas SEDANG. Rules 3: JIKA area tidak memiliki lereng DAN 0.01% - 30.16% area bertumpang tindih dengan substrat pasir DAN area memiliki ketinggian > 23 MAKA area tersebut memiliki mangrove dalam kelas SEDIKIT. Rules 4 : JIKA area tidak memiliki lereng DAN tidak memiliki area yang bertumpang tindih dengan substrat DAN 30.87% - 70.75% area memiliki landuse belukar MAKA area tersebut TIDAK memiliki mangrove. Rules 5 : JIKA area tidak memiliki lereng DAN tidak memiliki area yang bertumpang tindih dengan substrat DAN 0.01% - 30.16% area memiliki landuse pemukiman MAKA area tersebut memiliki mangrove dalam kelas SEDIKIT. Akurasi classifier Kelas hasil prediksi Kelas aktual Kelas 0 : tidak Kelas 1 : sedikit Kelas 2 : sedang Kelas 3 : banyak K0 K1 K2 K3 K0 20 3 0 1 K1 6 13 3 0 K2 3 6 4 0 K3 1 1 0 0 Akurasi = banyaknya total prediksi yang benar Total banyaknya prediksi = 37/61 = 0.6066 Penggunaan classifier pada data baru • Contoh data yang belum memiliki label kelas Record Topografi … … Substsrat Id beroverlap 1 2 30 200 3 127 … … . .. . … … ps1 ncs ncs Landuse … Lereng … Kelas yang yang terkandung terkandung h1 … nclr … ? b2 … nclr … ? pm1 Keterangan : ps1 = pasir dengan area (0.01% -30.16%) ncs = area tidak memiliki substrat H1 = hutan dengan area (0.01% -30.16%) B2 = belukar dengan area (30.87%- 70.75%) pm1 = pemukiman dengan area (0.01% - 30.16%) Ncl = area tidak memiliki landuse nclr = area tidak memiliki lereng … nclr … ? Penggunaan classifier pada data baru (lanjutan..) • Pengisian label kelas record 1 Rules 3 dengan nilai test atribut tidak memiliki lereng (nclr), bertumpang tindih dengan substrat pasir (ps1), dan ketinggian wilayah > 23 (30). record 1label kelas sedikit. record 2 Rules 4 dengan nilai test atribut tidak memiliki lereng (nclr), tidak bertumpang tindih dengan substrat (ncs), dan memiliki landuse belukar (b2). record 2 label kelas tidak. record 3 Rules 5 dengan nilai test atribut tidak memiliki lereng (nclr), tidak bertumpang tindih dengan substrat (ncs), dan memiliki landuse pemukiman (pm1). record 3 label kelas sedikit. Kesimpulan dan saran Kesimpulan • Terbentuknya spasial classifier yang terdiri dari 23 aturan dengan akurasi 60.66%. • Dari penelitian ini kategori luas area mangrove dideskripsikan oleh area yang mengandung lereng, area yang beroverlap dengan substrat, topografi, dan area yang mengandung landuse. • Penggunaan spatial join index dan operator complete dalam menentukan hubungan spasial antara objek spasial menghasilkan dataset yang dapat diolah menggunakan teknik klasifikasi konvensional. Saran • Untuk memodelkan area mangrove diperlukan keseimbangan dalam jumlah kelas target. • Perlu dibuat aplikasi komputer untuk mengimplementasikan proses spatial join index dan operator complete, terutama untuk data spasial berukuran besar. Daftar Pustaka • • • • • • • • • • Chelghoum N, Zeitouni K. 2004. Spatial Data Mining Implementation : Alternatives and performance. Versailles. Prism Laboratory University of Versailles. Dahuri, R. 2003. Keanekaragaman Hayati Laut : Aset Pembangunan Berkelanjutan Indonesia. Jakarta. PT Gramedia Indonesia Pustaka. Han J, Kamber M. 2006. Data Mining Concepts and Techniques. San Diego, USA: Morgan-Kaufmann. Larose, T Daniel. 2005. Discovering Knowledge In Data : An Introduction To Data Mining. New Jersey. Wiley-Interscience. Prahasta E. 2001. Konsep-konsep Dasar Sistem Informasi Geografis. Bandung. Informatika. Quinlan, J.R. 1993. C4.5: Programs For Machine Learning. San Mateo. CA: Morgan Kaufmann. Sekhar S, Chawla S.2003. Spatial Databases a Tour. New Jersey. Prentice Hall. Tan P, Michael S. dan Vipin K. 2006. Introduction to Data Mining. Addison Wesley. Zeitouni K, Chelghoum N. 2001. Spatial Decision Tree – Applications to Traffic Risk Analysis. IEEE International Conference on Computer Systems and Applications. Lebanon. Zeitouni K, Yeh L, Aufaure MA. 2000. Join Indices as a Tool for Spatial Data Mining. International Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, Lecture Notes in Artificial Intelligence, 102-114, 2007. Terima Kasih