KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN GAMBUT DI SUMATERA DAN KALIMANTAN MENGGUNAKAN ALGORITME NAIVE BAYES YEVILINA AULIA RIZKA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Desember 2015 Yevilina Aulia Rizka NIM G64134006 ABSTRAK YEVILINA AULIA RIZKA. Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes. Dibimbing oleh IMAS SUKAESIH SITANGGANG. Dampak kebakaran hutan di lahan gambut lebih berbahaya dibandingkan pada lahan kering, karena selain terbakarnya vegetasi di permukaan, lapisan serasah dan meterial gambut ikut terbakar sehingga menghasilkan karbon (CO2) ke atmosfer. Hal ini akan berdampak buruk pada kesehatan manusia, peningkatan gas emisi rumah kaca, dan kegiatan perekonomian masyarakat. Salah satu indikator terjadinya kebakaran hutan yaitu kemunculan titik panas. Kemunculan titik panas dapat memprediksi terjadinya kebakaran hutan. Penelitian ini menggunakan salah satu teknik data mining yaitu klasifikasi untuk memodelkan kemunculan titik panas pada lahan gambut di Sumatera dan Kalimantan. Permodelan klasifikasi ini dilakukan pada dataset titik panas periode 2001 sampai 2015 dan data lahan gambut menggunakan algoritme Naive Bayes. Karakteristik lahan gambut yang akan dianalisis terdiri dari lahan gambut, kedalaman gambut, dan tutupan lahan. Akurasi tertinggi dari model klasifikasi untuk memprediksi kemunculan titik panas pada lahan gambut pada dataset tahun 2006 untuk Kalimantan dan dataset tahun 2014 untuk Sumatera sebesar 100%. Model klasifikasi yang telah diklasifikasikan dapat digunakan untuk memprediksi kemunculan titik panas di masa yang akan datang. Informasi ini dapat digunakan untuk pencegahan kebakaran hutan dan lahan. Kata kunci: kebakaran hutan, klasifikasi, naive bayes, titik panas ABSTRACT YEVILINA AULIA RIZKA. Classification of Hotspots Occurance on Peatland in Sumatera and Kalimantan Using Naive Bayes Algorithm. Supervised by IMAS SUKAESIH SITANGGANG. The impact of forest fires in peatland is more dangerous than in dryland, because in addition to the burning of vegetation on the surface, a layer of materials organic of peat are burned producing carbon dioxide (CO2) into the atmosphere. This situation has negative impacts on human health and economic activities, and increase greenhouse gas emissions. One indicator of forest fires occurrence is hotspots. Hotspots occurrences can predict forest fire events. This research applied a data mining technique to classify hotspots occurrences on peatlands in Sumatra and Kalimantan. Classification models on hotspots datasets in the period 2001 to 2015 were determined using the Naive Bayes algorithm. Peatland characteristics to be analyzed consist of type of peatland, peatland depth, and land cover. The highest accuracy of classification model to predict the hotspot on peatland is 100% that is obtained in dataset 2006 for Kalimantan and 2014 for Sumatera. The classification model can be used to predict possibility of hotspots occurrences in the future. This information can be used to prevent the forest fire and peatland fire. Keywords: classification, forest fire, hotspots, naive bayes KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN GAMBUT DI SUMATERA DAN KALIMANTAN MENGGUNAKAN ALGORITME NAIVE BAYES YEVILINA AULIA RIZKA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 Penguji : 1 Aziz Kustiyo, SSi MKom 2 Muhammad Asyhar Agmalaro, SSi MKom Judul Skripsi : Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes Nama : Yevilina Aulia Rizka NIM : G64134006 Disetujui oleh Dr Imas Sukaesih Sitanggang, SSi MKom Pembimbing Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus: PRAKATA Puji dan syukur penulis panjatkan kepada Allah Subhana wa ta'ala. Shalawat serta salam semoga senantiasa dilimpahkan kepada Nabi Muhammad, keluarganya, sahabatnya, dan kepada kita yang selau berusaha menggapai ridha Allah. Alhamdulillah atas bimbingan dan petunjuk dari Allah Subhana wa ta'ala serta bimbingan dari semua pihak, penyusunan tugas akhir yang berjudul “Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naïve Bayes” dapat diselesaikan. Tugas akhir ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai pihak. Oleh karena itu, penulis ingin mengucapkan terimakasih dan penghargaan yang setinggi-tingginya kepada: Ayah, Ibu dan keluarga yang selalu mendoakan, memberi nasihat, kasih sayang, semangat, dan dukungan sehingga penelitian ini bisa diselesaikan. Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku pembimbing yang telah memberi saran, masukan dan ide-ide dalam penelitian ini. Bapak Aziz Kustiyo, SSi MKom dan Bapak Muhammad Asyhar Agmalaro, SSi MKom sebagai penguji. Pihak Wetlands yang telah memberikan data lahan gambut untuk wilayah Sumatera dan Kalimantan. Teman seperjuangan Resa, Fitri dan Dhita yang telah memberikan semangat dan masukan. Departemen Ilmu Komputer IPB, staf dan dosen yang telah banyak membantu selama masa perkuliahan hingga penelitian. Semoga penelitian ini bermanfaat. Bogor, Desember 2015 Yevilina Aulia Rizka DAFTAR ISI DAFTAR TABEL vi DAFTAR GAMBAR vi DAFTAR LAMPIRAN ix PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 2 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 METODE 3 Data Penelitian 3 Praproses Data 6 Pembagian Data 6 Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes 6 Perhitungan Akurasi Model 8 Penerapan pada Model Data Baru 8 Lingkungan Pengembangan 8 HASIL DAN PEMBAHASAN 9 Praproses Data 9 Seleksi Data 9 Pembersihan Data 12 Transformasi Format 14 Pembagian Data 14 Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes 14 Perhitungan Akurasi 15 Penerapan Model pada Data Baru 17 SIMPULAN DAN SARAN 18 Simpulan 18 Saran 18 DAFTAR PUSTAKA 19 RIWAYAT HIDUP 23 DAFTAR TABEL 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Atribut dari titik panas Luas lahan gambut Kalimantan Luas lahan Gambut Sumatera Dataset 2 Jumlah missing value dataset Pulau Kalimantan dan Sumatera Akurasi model pada dataset Sumatera Akurasi model pada dataset Kalimantan Akurasi dan Kappa untuk model pada dataset Sumatera Akurasi dan Kappa untuk model pada dataset Kalimantan Matrik confusion untuk dataset Sumatera Matrik confusion untuk dataset Kalimantan 4 5 5 12 13 15 16 16 17 18 18 DAFTAR GAMBAR 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. Tahapan penelitian Peta data lahan gambut di Kalimantan Peta data lahan gambut di Sumatera Struktur dari Bayes Network Titik panas di Pulau Kalimantan Jumlah titik panas Sumatera dan Kalimantan tahun 2001-2014 Buffer untuk titik panas Titik non hotspot Titik panas dan non titik panan tahun 2010 Plot data titik panas Kalimantan sebelum dibersihkan Akurasi Naive Bayes pada R 3 4 5 7 9 10 10 11 12 13 15 DAFTAR LAMPIRAN 1. 2. 3. Luas lahan gambut Kalimantan berdasarkan kedalaman gambut Luas lahan gambut Sumatera berdasarkan tutupan lahan gambut Ilustrasi perhitungan Naive Bayes 20 20 21 PENDAHULUAN Latar Belakang Indonesia merupakan salah satu negara tropis yang memiliki wilayah hutan terluas ketiga di dunia setelah Republik Demokrasi Kongo dan Brazil. Selain sebagai habitat flora dan fauna, hutan memilki fungsi lain yaitu sebagai fungsi keseimbangan alam. Kebakaran hutan yang terjadi akhir-akhir ini menjadi masalah global yang yang perlu diperhatikan karena dampaknya tidak hanya dirasakan oleh penduduk Indonesia melainkan hingga penduduk negara tetangga seperti Malaysia dan Singapura. Faktor penyebab terjadinya kebakaran hutan bisa beragam yang dibagi dalam dua kelompok utama, yaitu faktor alam dan campur tangan manusia. Salah satu faktor campur tangan manusia adalah pengeringan lahan gambut yang disengaja. Hal ini dapat memicu terjadinya kebakaran hutan di lahan gambut karena karakteristik lahan gambut yang salah satunya jika lapisan-lapisan organiknya menjadi kering maka akan mudah terbakar. Asap dari bara api kebakaran gambut menandung banyak partikel halus dari pecahan-pecahan bahan organik yang berbahaya bagi kesehatan (Levine 1998). Selain itu ada beberapa dampak dari polusi yang melewati perbatasan dalam segi kesehatan dan perekonomian akibat kebakaran hutan dan lahan (Dieterle dan Heil 1998). Sumatera dan Kalimantan merupakan daerah kawasan persebaran ekosistem lahan gambut di Indonesia dengan luas 7.2 juta ha untuk Pulau Sumatera dan 5.7 juta ha untuk Pulau Kalimantan. Menurut (LAPAN 2014), hotspot (titik panas) di wilayah Sumatera dan Kalimantan mengalami peningkatan tajam sejak akhir Januari 2014 dengan puncaknya terjadi pada Maret 2014. Berdasarkan data MODIS yang diterima oleh stasiun bumi Lapan di Parepare pada 1-28 September 2014, akumulasi titik panas tertinggi terdapat di wilayah Provinsi Kalimantan Tengah, yang diikuti oleh Provinsi Sumatera Selatan, dan Kalimantan Barat (LAPAN 2014). Menurut Adinugroho et al. (2005), data titik panas dapat dijadikan sebagai salah satuindikator mengenai terjadinya kebakaran hutan dan lahan. Salah satu cara untuk mencegah masalah kebakaran hutan ini yaitu dengan cara membuat suatu model. Permodelan ini dapat menerapkan salah satu teknik data mining yaitu klasifikasi. Pada penelitian sebelumnya, Sitanggang et al. (2012) menggunakan aplikasi Weka dalam teknik pengklasifikasiannya dan menggunakan beberapa algoritme untuk dibandingkan tingkat akurasinya serta menggunakan Provinsi Riau sebagai objek yang digunakan dalam penelitian. Terdapat 3 algoritme yang dibandingkan tingkat akurasinya yaitu algoritme J48, SimpleCart, dan Naïve Bayes. Penelitian selanjutnya (Fernando dan Sitanggang 2014) yang terkait dengan klasifikasi data spasial kemunculan titik panas di Provinsi Riau menggunakan algoritme ID3 dengan hasil akurasi tertinggi yaitu 70.80%. Penelitian yang akan dilakukuan ini menggunakan metode Naive Bayes untuk mengklasifikasikan penentuan kemunculan titik panas di lahan gambut Pulau Sumatera dan Kalimantan. Aplikasi yang digunakan untuk mengolah data dan membuat model klasifikasi adalah R. Penggunaan Naive Bayes dalam penelitian ini berdasarkan ketergantungan dalam hal akurasi pada model probabilitas, Naive Bayes classifier dapat dilatih dengan sangat efisien pada teknik supervised learning. Meskipun Naive Bayes terlihat sederhana pada desain dan asumsinya, namun Naive Bayes classifier dapat 2 bekerja lebih baik pada masalah yang kompleks. Pada penelitian sebelumnya, masalah analisis pada klasifikasi Naive Bayes menunjukan bahwa ada beberapa alasan secara teoritis yang menunjukan bahwa klasifikasi Naive Bayes efektif (Witten dan Frank 2000). Keuntungan menggunakan klasifikasi Naive Bayes adalah penggunaan jumlah data training yang sedikit dapat mengestimasikan parameter yang dibutuhkan dalam klasifikasi. Dengan dibuatnya permodelan ini diharapkan dapat menghasilkan model yang akurat untuk memprediksi kemungkinan munculnya titik panas dimasa yang akan datang sehingga pihak yang berwenang dapat melakukan tindakan pencegahan terjadinya kebakaran hutan. Perumusan Masalah Rumusan masalah pada penelitian ini adalah bagaimana membuat model klasifikasi menggunakan algoritme Naive Bayes untuk data kebakaran hutan dan lahan di Pulau Sumatera dan Kalimantan tahun 2001-2015. Tujuan Penelitian Tujuan dari penelitian ini adalah: 1 Membangun model klasifikasi kemunculan titik panas di lahan gambut Sumatera dan Kalimantan dengan menggunakan metode Naive Bayes. 2 Evaluasi model klasifikasi untuk memprediksi kemunculan titik panas menggunakan Naive Bayes. Manfaat Penelitian Penelitian ini diharapkan dapat menghasilkan model yang akurat untuk memprediksi kemungkinan munculnya titik panas di masa yang akan datang. Titik panas merupakan salah satu indikator terjadi kebakaran hutan dan lahan. Model prediksi tersebut dapat digunakan oleh pihak yang berwenang dalam mengidentifikasi terjadi kebakaran hutan dan lahan, khususnya di lahan gambut sehingga dapat dilakukan tindakan pencegahan terjadinya kebakaran hutan. Ruang Lingkup Penelitian Ruang lingkup dari penelitian ini adalah: 1. Data yang digunakan merupakan data titik panas di Pulau Kalimantan dan Sumatera dari tahun 2001 sampai 2015 yang diperoleh dari FIRMS (Fire Information for Resource Management System) MODIS NASA. 2. Penelitian ini mengimplementasikan model klasifikasi Naive Bayes dengan menggunakan aplikasi dan package yang terdapat pada R, yaitu caret, gmodels, e1071, dan klaR. Package caret, e1071, dan klaR merupakan package yang digunakan untuk membangun model klasifikasi menggunakan Naive Bayes, sedangkan package gmodels digunkan untuk membangun matrik confusion. 3. Karakteristik lahan gambut yang dianalisis dalam penelitian ini adalah tipe lahan gambut, kedalaman gambut, dan tutupan lahan. 3 METODE Tahapan penelitian terdiri atas lima tahapan, yaitu: pengumpulan data, praproses data, pembagian data, membuat model klasifikasi, perhitungan akurasi, dan penerapan pada model data baru. Gambar 1 menunjukkan diagram alir penelitian yang dilakukan. Gambar 1 Tahapan penelitian Data Penelitian Data yang digunakan pada penelitian ini adalah data titik panas Pulau Sumatera dan Kalimantan tahun 2001 sampai 2015. Data tersebut didapatkan dari National Aeronautics and Space Administration (NASA) Fire Information for Resource Management System (FIRMS) dalam format csv. Data titik panas ini terdiri dari 12 atribut. Atribut ini dapat dilihat pada Tabel 1. Selain itu, terdapat data lahan gambut dari tahun 1990-2002 dengan 3 variabel yang akan dianalisis yaitu, tipe lahan gambut, kedalaman gambut, dan tutupan lahan. Pemilihan atribut ini berdasarkan pada penelitian yang sebelumnya Sitanggang et al. (2012) yaitu, memilih kedalaman gambut, tutupan lahan, dan tipe lahan gambut sebagai atribut. Wilayah Kalimantan memiliki atribut tipe lahan gambut dan kedalaman gambut untuk dianalisis, sedangkan wilayah Sumatera memiliki atribut tipe lahan gambut, 4 kedalaman gambut, dan tutupan lahan. Data tersebut didapatkan dari Wetlands Internasional dalam format shp. Tabel 1 Atribut dari titik panas No 1 2 3 4 5 Atribut Latitude Longitude Acq_date Acq_time Confidence Tipe Numeric Numeric Date Character varying (5) Integer Peta lahan gambut di Pulau Kalimantan dan Sumatera dapat dilihat pada Gambar 2 dan Gambar 3. Peta tersebut menunjukan tipe lahan gambut yang terdapat di Sumatera dan Kalimantan. Lahan gambut memiliki beberapa tipe yaitu hemists, fibrists, saprists, dan mineral. Wilayah Kalimantan memiliki luas lahan gambut 5.7 juta ha dan untuk wilayah Sumatera 7.2 juta ha. Luas lahan gambut di Sumatera dan Kalimantan dapat dilihat pada Tabel 2 dan Tabel 3. Berikut sintaks SQL untuk mengetahui luas lahan gambut di Kalimantan: SELECT soil AS type, sum(ST_Area(geom))/10000 AS surface FROM all _kalimantan_island_peatland GROUP BY soil HAVING soil=’Hemists/Fibrists’; Gambar 2 Peta data lahan gambut di Kalimantan 5 Gambar 3 Peta data lahan gambut di Sumatera Tabel 2 Luas lahan gambut Kalimantan No 1 2 3 4 5 6 7 Tipe Gambut Hemists/Fibrists Hemists/Fibrists/Mineral Hemists/Mineral Saprists/Hemists/Mineral Saprists/Hemists/Mineral Hemists/Saprists/Mineral Hemists/Fibrists/Saprists Luas(ha) 4070888.40 388442.91 922584.24 108626.03 132833.31 133670.39 3028.58 Tabel 3 Luas lahan Gambut Sumatera No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Tipe Gambut Hemists/Saprists (60/40)sedang Saprists/min (50/50)dangkal Saprists/Hemists (60/40)sedang Saprists/min (30/70)sedang Saprists/min (90/10)sedang Hemists (100)dalam Hemists/Saprists (60/40)dalam Hemists (100)sedang Saprists/min (50/50)dalam Hemists/min(90/10)sangat dalam Hemists/Saprists (60/40)sedang Hemists/min (30/70)dangkal Hemists/Saprists (60/40)sangat dalam Saprists/Hemists (60/40)dalam Saprists/Hemists (60/40)sedang Luas(ha) 1490145.51 16859.44 18698.37 9911.09 178408.66 2200.51 639263.33 86697.37 7748.18 30179.83 211082.30 308112.73 957561.63 553762.96 236659.27 6 16 17 18 19 20 21 22 23 24 25 26 27 28 Hemists/min (90/10)dangkal Hemists/Saprists (60/40)dangkal Hemists/min (70/30)sedang Saprists/min (30/70)dalam Hemists/min (90/10)sedang Hemists/min (50/50)dangkal Saprists/min (50/50)sedang Hemists/min (90/10)sedang Fibrists/Saprists (60/40)sedang Saprists/Hemists (60/40)sangat dalam Hemists/min (30/70)sedang Saprists (100)sedang Saprists (100)dalam 7950.20 49355.05 91797.22 12671.89 0.62 2218.85 118152.45 578525.93 10721.83 1181264.69 308958.76 87885.62 35182.64 Praproses Data Pada tahap praproses data, dilakukan tahapan seleksi data. Pemilihan data dalam proses seleksi menggunakan 3 atribut yaitu longtitude, latitude dan acq_date. Latitude dan longitude digunakan untuk menentukan posisi titik panas berdasarkan koordinat garis lintang dan bujur. Acq_date digunakan untuk mengetahui frekuensi kemunculan titik panas berdasarkan tanggal. Dalam tahapan ini dilakukan operasi spasial pada data lahan gambut untuk mendapatkan data titik panas di lahan gambut. Pembagian Data Pada tahapan ini, data dibagi menjadi 2, yaitu data latih dan data uji. Data latih dan data uji menggunakan data titik panas tahun 2001-2014 dan data lahan gambut tahun 2002. Dalam penelitian, metode yang digunakan dalam proses pemisahan data latih dan data uji ini adalah metode K-fold cross validation dengan nilai K=10. Menurut Fu (1994) K-fold cross validation merupakan metode yang membagi himpunan contoh secara acak menjadi K himpunan bagian. Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes Tahapan ini menggunakan model klasifikasi Naive Bayes. Pembentukan model klasifikasi menggunakan package yang tersedia pada R. Package tersebut adalah caret, klaR, e071, dan gmodels. Naive Bayes merupakan classifier yang bersifat statistik yang mana dapat memprediksi probabilitas masing-masing kelas seperti probabilitas suatu kelas tertentu. Keunggulan dari pengelompokan Bayes ini yaitu terdapat pada tingkat akurasinya yang tinggi serta kecepatannya dalam penggunaan basis data yang besar. Pengelompokan Naive Bayes mengasumsikan bahwa nilai atribut pada setiap kelas bersifat independen (tidak ada ketergantungan antar kelas) dimana dapat memudahkan dalam perhitungannya (Han et al. 2012). Pengelompokan ini berdasarkan dengan data training dari probabilitas masing-masing atribut A dengan label kelas C. Klasifikasi dilakukan dengan menerapkan aturan Bayes untuk menghitung probabilitas C terhadap masing-masing atribut A1, A2, …, An, kemudian memprediksi kelas berdasarkan probabilitas prior yang tertinggi. Gambar 1 menjelaskan bahwa Naive Bayes classifier memiliki struktur yang sederhana. 7 Gambar 4 mengasumsikan bahwa setiap atribut (setiap daun pada jaringan) independen terhadap atribut lainnya (Friedman et al. 1997). Ilustrasi perhitungan menggunakan Naïve Bayes dapat dilihat pada Lampiran 3. Gambar 4 Struktur dari Bayes Network Algoritme klasifikasi Naive Bayes adalah sebagai berikut (Han et al. 2012): 1. Asumsikan D adalah training set dengan label kelas yang terkait. Setiap tupel dalam training set diwakili oleh atribut vektor n-dimensi, X = (x1, x2, ..., xn), menggambarkan pengukuran yang dilakukan pada tupel dari n atribut, masingmasing A1, A2,…, An. 2. Misalkan terdapat kelas m, C1, C2,…, Cm. Jika diberikan tupel, X, classifier akan memprediksi bahwa X termasuk ke dalam kelas yang memilik probabilitas posterior yang tinggi. Oleh karena itu, Naïve Bayes classifier memprediksi bahwa tupel X termasuk ke dalam kelas Ci jika dan hanya jika P(Ci | X) ≤ P(Cj | X) untuk 1 ≤ j ≤ m, j ≠ i (1) Kemudian, untuk memaksimalkan P(Ci | X). Kelas C1 yang mana P(Cj | X) maksimal disebut dengan maximum posteriori hypothesis, dengan teorma Bayes, P(Ci | X) = P(X |Ci )P(Ci ) P(X) (2) 3. Jika P(X) bernilai konstan untuk semua kelas, hanya P(X | Ci)P(Ci) yang harus dimaksimalkan. Kelas probabilitas prior tidak diketahui, maka diasumsikan kelasnya sama, yaitu, P(C1) = P(C2) = … = P(Cm) dan P(X | Ci) harus dimaksimalkan. Kelas probabilitas prior dapat diestimasikan dengan P(C1) = |Ci, D| / | D |, dimana |Ci, D| merupakan training tuples dari kelas Ci di D. 4. Membuat kelas yang independen untuk mengurangi perhitungan dalam mengevaluasi P(C | C1). n P(X | Ci ) = ∏ P(xk |Ci ) k=1 = P(x1 | Ci ) × (x2 | Ci )× …×(xn | Ci ) (3) 8 Kita dapat mengestimasikan dengan mudah probabilitas P(x1 | Ci), P(x2 | Ci), …, P(xn | Ci) dari training tuples, Jika xk merupakan nilai dari atribut Ak untuk tuple X. Untuk atribut categorical, maka P(xk | Ci) merupakan tupel dari kelas Ci dan D yang memiliki nilai xk untuk Ak, dibagi dengan |Ci, D|, tupel dari kelas Ci di D. 5. Untuk memprediksi kelas label X, P(X | Ci)P(Ci) dievaluasi pada masing-masing kelas Ci. Classifier memprediksi kelas label dari tupel X merupakan kelas Ci jika dan hanya jika P(X | Ci)P(Ci) > P(X | Cj)P(Cj) untuk 1 ≠ j ≤ m, j ≠ i (4) 6. Untuk perhitungan akurasi dapat menggunakan rumus sebagai berikut: Akurasi = ∑ data uji benar klasifikasi ∑ jumlah total data uji (5) Perhitungan Akurasi Model Akurasi diperoleh berdasarkan data pengujian terhadap model klasifikasi. Untuk menghitung akurasi digunakan rumus yang terdapat pada persamaan 5. Setelah nilai akurasi didapatkan dari tahun 2001-2014, maka dataset dengan nilai tertinggi pada masing-masing wilayah akan digunakan sebagai data latih dalam penerapan klasifikasi pada data baru. Penerapan pada Model Data Baru Pada tahapan ini dilakukan penggunaan model pada data baru, yaitu data titik panas tahun 2015. Pada tahap ini akan digunakan beberapa record data contoh untuk menunjukkan bagaimana penggunaan klasifikasi pada data baru yang belum memiliki label kelas. Lingkungan Pengembangan • • • • • • Perangkat lunak yang digunakan dalam penelitian ini adalah: Sistem operasi Windows 8.1 Bahasa pemrograman R-3.1.6 dengan package caret, klaR, e1071, dan gmodels R Studio versi 0.98.1091 Microsoft Excel 2007 untuk membaca data titik panas Quantum GIS 2.6.0 untuk melihat plot data titik panas dan analisis spasial PostgreSQL versi 9.1 sebagai system manajemen basis data (pengolahan kueri data lahan gambut) Perangkat keras yang digunakan dalam penelitian ini adalah komputer personal dengan spesifikasi: • Prosesor Intel Core i3 @1.8 GHz • RAM 2 GB • Monitor LCD 14.0” HD 9 • Harddisk 500 GB HDD HASIL DAN PEMBAHASAN Praproses Data Dalam tahapan ini dilakukan beberapa proses dalam praproses data, yaitu: seleksi data, pembersihan data, dan transformasi data. Seleksi Data Hal pertama yang dilakukan dalam dalam proses ini adalah melakukan overlay data lahan gambut dengan titik panas menggunakan operasi spasial, yaitu ST_WITHIN di Quantum GIS atau di PostgreSQL. Tujuan dilakukan overlay adalah untuk memproyeksikan data titik panas terhadap lahan gambut. Selain itu sistem referensi koordinat harus disesuaikan, untuk wilayah Kalimantan menggunakan UTM Zona 49S (WGS84 / UTM Zone 49S / EPSG:32649) sedangkan wilayah Sumatera WGS84 UTM Zone 47S. Selanjutnya memisahkan data titik panas pertahun. Data titik panas yang digunakan adalah data titik panas tahun 2001-2014. Gambar 5 menunjukkan jumlah atribut titik panas Sumatera dan Kalimantan tahun 2001 sampai dengan 2014, sedangkan Gambar 6 menunjukkan grafik jumlah atribut titik panas Sumatera dan Kalimantan ahun 2001-2014. Gambar 5 Titik panas di Pulau Kalimantan 10 Gambar 6 Jumlah titik panas Sumatera dan Kalimantan tahun 2001-2014 Langkah selanjutnya adalah pembangkitan titik non hotspot. Ada beberapa hal yang harus dilakukan dalam membangkitkan non titik panas yaitu melakukan beberapa operasi geoprocessing seperti buffer, dissolve, difference, dan random point. Pembuatan buffer menggunakan radius 0.01. Ukuran tersebut didapatkan dari konversi pengolahan citra satelit sebesar 0.907374 (Km). Hasil buffer titik panas dapat dilihat pada Gambar 7. Gambar 7 Buffer untuk titik panas Setelah itu dilakukan operasi dissolve untuk menggabungkan fitur yang memiliki kesamaan atribut, yaitu hasil buffer. Hasil dari buffer dissolve digunakan untuk memotong atau menghapus area lahan gambut yang tidak overlap dengan menggunakan operasi difference. Titik non hotspot dibangkitkan dengan membuat random point, jumlah titik disesuaikan dengan titik panas pertahun. Hasil dari random point dapat dilihat pada Gambar 8. 11 Gambar 8 Titik non hotspot Tahapan selanjutnya adalah membuat tabel target2010. Proses ini dilakukan menggunakan postgreSQL dengan menggunakan pernyataan SQL. Tujuan dibuatnya tabel target2010 untuk melihat data titik panas dan bukan titik panas. Berikut adalah kueri untuk menambahkan kelas T dan F: ALTER TABLE kal2_false_alarm 2010 ADD COLUMN class char DEFAULT ’F’; ALTER TABLE kal2_false_alarm_2010 DROP COLUMN id; ALTER TABLE kal2_within_2010_rep ADD COLUMN class char DEFAULT ’T’; Tahapan selanjutnya adalah membuat tabel target dengan kueri sebagai berikut: CREATE TABLE target2010 AS SELECT gid, geom, longitude, latitude, acq date, acq time, confidence, class FROM hotspot_kalimantan_island_peatland WHERE confidence >=70; Data titik panas yang diambil pada tabel target adalah titik panas dengan nilai confidence ≥ 70. Proses selanjutnya yaitu menggabungkan data false alarm ke dalam tabel target. INSERT INTO target2010 (gid, geom, class) SELECT gid, geom, class FROM false_alarm_2010_rep; Rename gid pada target2010 menjdi gid0, lalu tambahkan gid autonumber. Hasil dari pembuatan layer target dapat dilihat pada Gambar 9. ALTER TABLE target2010 RENAME COLUMN gid TO gid0; ALTER TABLE target2010 ADD COLUMN gid SERIAL; ALTER TABLE target2010 ADD PRIMARY KEY (gid); 12 Gambar 9 Titik panas dan non titik panan tahun 2010 Setelah tabel target2010 dibuat, tahapan selanjutnya adalah pembuatan dataset 1 dan 2. Dataset 1 merupakan gabungan data dari data target2010 dan data lahan gambut Kalimantan, sedangkan dataset 2 merupakan dataset yang akan digunakan pada proses klasifikasi, ilustrasi dataset 2 yang digunakan dapat dilihat pada Tabel 4. Berikut pernyataan SQL untuk membuat dataset 1 dan dataset 2: CREATE TABLE dataset1 AS SELECT t.gid, t.gid0, t.geom, t.confidence, t.class, g.DEPTH, g.SOIL FROM target2010 AS t, all_kalimantan_island_peatland AS g WHERE ST_Within(t.geom,g.geom) ORDER BY gid; CREATE TABLE dataset2 AS SELECT t.class, g.DEPTH, g.SOIL FROM target2010 AS t, all_kalimantan_island_peatland as g WHERE ST Within(t.geom,g.geom); Tabel 4 Dataset 2 Kelas T T T T T Kedalaman gambut(cm) 50-100 100-200 50-100 100-200 100-200 Tipe gambut Hemists/Fibrists Hemists/Fibrists Hemists/Fibrists/Mineral Hemists/Fibrists Hemists/Fibrists Pembersihan Data Dalam proses ini dilakukan salah satu operasi spasial yaitu st_within untuk membersihkan data titik panas. Setelah dibersihkan, jumlah data tereduksi dari 326866 menjadi 98666. Data titik panas sebelum dibersihkan pada wilayah 13 Kalimantan dapat dilihat pada Gambar 10 dan setalah dibersihkan dapat dilihat pada Gambar 5. Gambar 10 Plot data titik panas Kalimantan sebelum dibersihkan Proses pembersihan data juga dilakukan terhadap data yang tidak memiliki atribut yang lengkap (missing value). Pada tahapan pembersihan ini data dengan atribut yang kosong akan dihapus, karena presentasenya berkisar dari 0-2%. Grafik jumlah missing value pada wilayah Kalimantan dan Sumatera dapat dilihat pada Tabel 5. Tabel 5 Jumlah missing value dataset Pulau Kalimantan dan Sumatera Dataset Sumatera2001 Sumatera2002 Sumatera2003 Sumatera2004 Sumatera2005 Sumatera2006 Sumatera2007 Sumatera2008 Sumatera2009 Sumatera2010 Sumatera2011 Sumatera2012 Sumatera2013 Sumatera2014 Kalimantan2001 Kalimantan2002 Kalimantan2003 Missing Value 2 35 8 15 18 33 5 8 21 2 10 13 21 43 35 332 80 Data 3509 20212 10331 16030 30172 29471 5517 7535 15572 4897 13506 14556 18548 41254 2880 23005 6578 Presentase 0.06% 0.17% 0.08% 0.09% 0.06% 0.11% 0.09% 0.11% 0.13% 0.04% 0.07% 0.09% 0.11% 0.10% 1.22% 1.44% 1.22% 14 Kalimantan2004 Kalimantan2005 Kalimantan2006 Kalimantan2007 Kalimantan2008 Kalimantan2009 Kalimantan2010 Kalimantan2011 Kalimantan2012 Kalimantan2013 Kalimantan2014 153 79 460 19 21 247 5 111 99 51 232 13612 5736 30413 2074 1441 20803 570 7900 8493 3571 18457 1.12% 1.36% 1.51% 0.92% 1.46% 1.19% 0.88% 1.41% 1.17% 1.43% 1.26% Transformasi Format Dalam proses ini dilakukan proses transformasi format dari csv ke .shp untuk data titik panas dari FIRMS Modis NASA. Kemudian dilakukan tranformasi format dari dbf ke csv untuk dataset 2 yang akan digunakan untuk klasifikasi. Pembagian Data Proses pembagian data latih dan data uji dilakukan di RStudio dengan menggunakan metode K-fold cross validation dengan nilai K=10. Proses pembagian data dilakukan secara otomatis dengan menggunakan salah satu metode yang terdapat pada package klaR yaitu cv. Package ini membagi data dengan menggunakan K-fold cross validation dengan nilai K yang dapat ditentukan oleh pengguna. Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes Dalam pembuatan model klasifikasi ini, menggunakan beberapa package yaitu klaR dan caret. Model yang telah dibangun dapat memprediksi model berdasarkan kelas dan dapat menunjukkan nilai akurasi terhadap model tersebut. Nilai akurasi terhadap model dapat dilihat pada Gambar 11. Berikut adalah kode yang digunakan untuk membangun model menggunakan algoritme Naive Bayes: library(klaR) library(caret) x = dataset2_try_edited y = dataset2_try_edited$V3 model=train(x,y,’nb’,trControl=trainControl(method=’cv’ ,number=10)) model predict(model$finalModel,x) predict(model$finalModel,x)$class Package yang digunakan untuk mengklasifikasikan titik panas adalah package klaR dan caret. Package caret merupakan package yang bagus untuk mengklasifikasikan data menggunakan Naive Bayes, karena memiliki fitur yang bagus sedangkan package klaR memiliki Naive Bayes classifier. Baris kelima dari program merupakan kode program untuk melatih model. Baris program ini akan memproses model Naive Bayes menggunakan 10-fold cross validation. X dan y 15 merupakan label, sedangkan ’nb’ menerangkan bahwa model yang digunakan adalah Naive Bayes. TrainController merupakan bagian bahwa proses pembagian data menggunakan 10-fold cross validation (’cv’). Sintaks model berfungsi untuk mencetak hasil model klasifikasi yang berisi nilai akurasi dan kappa, dapat dilihat pada Gambar 11. Selain itu juga terdapat sintaks predict yang dapat menampilkan beberapa kelas yang dapat dipreksi berdasarkan peluang posterior. Gambar 11 Akurasi Naive Bayes pada R Perhitungan Akurasi Setelah mendapatkan model Naive Bayes, proses selanjutnya adalah melakukan perhitungan akurasi. Perhitungan akurasi dapat dilakukan dengan menggunakan matrik confusion, berdasarkan rumus (5). Hasil akurasi dari data uji sebesar 100%. Berikut sintaks untuk membangun matriks confusion dalam R: table(predict(model$finalModel,x)$class,y) Pada Tabel 6 dan 7 terlihat bahwa nilai akurasi tertinggi terdapat pada dataset 2006, akurasi terbaik untuk wilayah Sumatera sebesar 100% sedangkan untuk wilayah Kalimantan sebesar 100%. Untuk dataset Sumatera terdapat 19369 data bukan titik panas yang diklasifikasikan sebagai data bukan titik panas sedangkan terdapat 10075 data titik panas yang diklasifikasikan sebagai data titik panas dan tidak ada data yang salah dalam proses klasifkasi. Sedangkan untuk dataset Kalimantan terdapat 19992 data bukan titik panas yang diklasifikasikan sebagai data bukan titik panas sedangkan terdapat 9961 data titik panas yang diklasifikasikan sebagai data titik panas dan tidak ada data yang salah dalam proses klasifkasi. Tabel 6 Akurasi model pada dataset Sumatera Dataset Sumatera2001 Sumatera2002 Sumatera2003 Sumatera2004 Sumatera2005 Sumatera2006 Sumatera2007 Sumatera2008 TP 587 3838 3300 5268 10456 10075 1607 2449 TN 587 3838 3300 5268 10456 10075 1607 2449 FP 0 0 0 0 0 0 0 0 FN 0 0 0 0 0 0 0 0 Akurasi(%) 100 100 100 100 100 100 100 100 16 Dataset Sumatera2009 Sumatera2010 Sumatera2011 Sumatera2012 Sumatera2013 Sumatera2014 TP 4711 1347 4244 4614 6188 14245 TN 4711 1347 4244 4614 6188 14245 FP 0 0 0 0 0 0 FN 0 0 0 0 0 0 Akurasi(%) 100 100 100 100 100 100 Tabel 7 Akurasi model pada dataset Kalimantan Dataset Kalimantan2001 Kalimantan2002 Kalimantan2003 Kalimantan2004 Kalimantan2005 Kalimantan2006 Kalimantan2007 Kalimantan2008 Kalimantan2009 Kalimantan2010 Kalimantan2011 Kalimantan2012 Kalimantan2013 Kalimantan2014 TP 889 7477 2005 4311 1815 9961 609 405 6505 136 2404 2548 1106 5995 TN 889 7477 2005 4311 1815 9961 609 405 6505 136 2404 2548 1106 5995 FP 0 0 0 0 0 0 0 0 0 0 0 0 0 0 FN 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Akurasi(%) 100 100 100 100 100 100 100 100 100 100 100 100 100 100 Untuk menentukan dataset terbaik, hasil pengukuran akurasi model dan kappa statistik dapat digunakan untuk mencari model dengan dataset terbaik. Berdasarkan Tabel 8 dan Tabel 9 dapat disimpulkan bahwa model dengan dataset terbaik adalah dataset tahun 2006 untuk wilayah Kalimantan dan dataset tahun 2014 untuk wilayah Sumatera. Nilai akuasi model dan kappa statistik untuk wilayah Sumatera adalah 99.996% dan 99.993%. Sedangkan untuk Kalimantan 99.994% dan 99.989%. Nilai akurasi ini menunjukkan hasil yang lebih baik dari penelitian sebelumnya (Sitanggang et al. 2012), yaitu 62.8667% untuk Naive Bayes. Tabel 8 Akurasi dan Kappa untuk model pada dataset Sumatera Dataset Sumatera2001 Sumatera2002 Sumatera2003 Sumatera2004 Sumatera2005 Sumatera2006 Sumatera2007 Sumatera2008 Sumatera2009 Sumatera2010 Sumatera2011 Akurasi(%) 99.915 99.986 99.984 99.990 99.966 99.995 99.969 99.814 99.989 99.963 99.988 Kappa(%) 99.831 99.973 99.969 99.981 99.933 99.990 99.938 99.636 99.978 99.926 99.976 17 Sumatera2012 Sumatera2013 Sumatera2014 99.989 99.991 99.996 99.978 99.983 99.993 Tabel 9 Akurasi dan Kappa untuk model pada dataset Kalimantan Dataset Kalimantan2001 Kalimantan2002 Kalimantan2003 Kalimantan2004 Kalimantan2005 Kalimantan2006 Kalimantan2007 Kalimantan2008 Kalimantan2009 Kalimantan2010 Kalimantan2011 Kalimantan2012 Kalimantan2013 Kalimantan2014 Akurasi(%) 99.944 99.993 99.955 99.988 99.972 99.994 99.918 99.876 99.972 99.655 99.979 99.980 99.955 99.991 Kappa(%) 99.888 99.986 99.910 99.976 99.945 99.989 99.838 99.756 99.945 99.333 99.958 99.960 99.910 99.983 Penerapan Model pada Data Baru Dalam tahapan ini akan dilakukan validasi model terhadap dataset dari tahun 2001-2014. Kemudian akan diterapkam model dengan akurasi tertinggi pada dataset baru 2015. Model dengan akurasi tertinggi terdapat pada tahun 2006 untuk wilayah Kalimantan dan tahun 2014 untuk wilayah Kalimantan. Oleh karena itu data yang digunakan sebagai data latih merupakan dataset tahun 2006 untuk Sumatera dan dataset 2014 untuk Kalimantan, dan data yang digunakan sebagai data uji merupakan dataset tahun 2015 untuk kedua wilayah. Berikut sintaks untuk memvalidasi model: library(e1071) data_train<-sumatera[1:29445, ] data_test<-sumatera[29445:31298, ] prop.table(table(data_train$V4)) prop.table(table(data_test$V4)) data_classifier<-naiveBayes(data_train,cl<-data _train[1:29445,4]) data_prediction<-predict(data classifier,data test) library(gmodels) CrossTable(data prediction,data_test$V4, prop.chisq = FALSE,prop.t = FALSE, dnn = c(’predicted’,’actual’)) Package yang digunakan merupakan e1071. Package ini membangun model menggunakan fungsi naiveBayes yang terdapat pada baris keenam program. Pembagian data dilakukan secara manual. Untuk membangun matrik confusion diperlukan package tambahan yaitu gmodel. Akurasi hasil penerapan model pada 18 data titik panas baru untuk wilayah Sumatera dan Kalimantan adalah 100%. Hasilnya dapat dilihat pada Tabel 10 dan Tabel 11. Pada Tabel 10 dan 11 menunjukkan matrik confusion wilayah Sumatera dan Kalimantan. Untuk dataset Sumatera terdapat 1307 data bukan titik panas yang diklasifikasikan sebagai data bukan titik panas sedangkan terdapat 528 data titik panas yang diklasifikasikan sebagai data titik panas dan juga tedapat 18 data titik panas yang diklasifikasikan sebagai data bukan titik panas. Sedangkan untuk dataset Kalimantan terdapat 77 data bukan titik panas yang diklasifikasikan sebagai data bukan titik panas sedangkan terdapat 23 data titik panas yang diklasifikasikan sebagai data titik panas dan tidak ada data yang salah dalam proses klasifkasi. Dari hasil ini dapat disimpulkan bahwa kinerja Naive Bayes terhadap data titik panas dan lahan gambut di Sumatera dan Kalimantan sangat baik. Tabel 10 Matrik confusion untuk dataset Sumatera predictive/actual F T F 1307 18 T 0 528 Tabel 11 Matrik confusion untuk dataset Kalimantan predictive/actual F T F 77 0 T 0 23 SIMPULAN DAN SARAN Simpulan Pada penelitian ini menggunakan data lahan gambut di Sumatera dan Kalimantan untuk klasifikasi kemunculan titik panas. Dataset yang digunakan untuk klasifikasi terdiri dari tutupan lahan, tipe lahan gambut, kedalaman gambut, dan kelas. Dataset dengan nilai akurasi model tertinggi untuk wilayah Kalimantan dan Sumatera adalah dataset tahun 2006 dengan nilai akurasi model 99.996% untuk Kalimantan dan 99.992% untuk Sumatera. Model dengan dengan akurasi tertinggi berhasil diterapkan pada dataset 2015 dengan akurasi 100% untuk Kalimantan dan 99.02% untuk Sumatera. Dengan demikian model klasifikasi menggunakan algoritme Naive Bayes dapat digunakan untuk memprediksi kemunculan titik panas. Saran Saran yang dapat dilakukan untuk penelitian selanjutnya adalah membangun suatu aplikasi berbasis web untuk menampilkan hasil dari klasifikasi titik panas menggunakan algoritme Naive Bayes. Selain itu sistem dapat menampilkan visualisasi dalam bentuk peta. 19 DAFTAR PUSTAKA Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan Pengendalian Kebakaran Hutan dan Lahan Gambut. Proyek Climate Change, Forests and Peatlands in Indonesia. Bogor(ID):Wetlands InternationalIndonesianProgramme and Wildlife Habitat Canada. Dieterle G, Heil A. 1998. Impacts of Large Scale Forest and Land Fires in Indonesia 1997 on Regional Air Pollution. Di dalam: Chokkalingam U, Suyanto, Wibowo P, editor. Kebakaran di Lahan Rawa/Gambut di Sumatera : Masalah dan Solusi; 2003 Desember 10-11; Palembang, Indonesia. Bogor(ID): Center For International Forestry Research. Fernando V, Sitanggang IS. 2014. Klasifikasi Data Spasial untuk Kemunculan Hotspot di Provinsi Riau Menggunakan Algoritme ID3. Integrasi Sains MIPA untuk Mengatasi Masalah Pangan, Energi, Kesehatan, Reklamasi, dan Lingkungan; 09-11 Mei 2014; Bogor, Indonesia. Bogor (ID): SEMIRATA. hlm 428-436. ISBN: 978-602-70491-0-9. Friedman, N., Geiger, D., Goldszmidt, M.,1997. Bayesian network classifiers. Kluwer Academic Publishers, Boston, pp. 1-37. Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques 3rd ed. United States of America:Morgan Kaufmann Publishers. LAPAN. 2014. KEKERINGAN TAHUN 2014: NORMAL ATAUKAH EKSTRIM [Internet]. [diunduh 2015 April 23]. Tersedia pada: http://lapan.go.id/index.php/subblog/read/2014/838/KEKERINGAN-TAHUN2014-NORMAL-ATAUKAH-EKSTRIM/932 Levine. 1998. Gaseous and particulate emissions released to the atmosphere during forest fires: a case study of Kalimantan and Sumatra, Indonesia in 1997. Di dalam: Chokkalingam U, Suyanto, Wibowo P, editor. Kebakaran di Lahan Rawa/Gambut di Sumatera : Masalah dan Solusi; 2003 Desember 10-11; Palembang, Indonesia. Bogor(ID): Center For International Forestry Research. Sitanggang IS, Yaakob R, Mustapha N, Ainuddin AN. 2012. Application of Classification Algorithms in Data Mining for Hotspots Occurance Prediction in Riau Province Indonesia. Journal of Theoretical and Applied Information Technology. 43(2): 214-221. ISSN: 1992-8645, E-ISSN: 1817-3195. Wibowo, P dan N Suyatno. 1998. An Overview of Indonesian Wetlands Sites – II. Wetlands International Indonesia Programme (WI-IP) Witten H, Frank E. 2000. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. United States of America:Ac ademic Press. 20 Lampiran 1 Luas lahan gambut Kalimantan berdasarkan kedalaman gambut No 1 2 3 4 5 Kedalaman gambut 50-100 100-200 200-400 400-800 800-1200 Luas(ha) 1922748.40 1260926.73 1146082.39 1065640.91 364675.44 Lampiran 2 Luas lahan gambut Sumatera berdasarkan tutupan lahan gambut No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Tutupan Lahan Gambut Hutan rawa Belukar rawa Kelapa sawit pada bekas hutan rawa < 5 th Kelapa sawit pada bekas hutan rawa > 5 th Kelapa pada bekas hutan rawa > 5 th Sawah intensif (padi-palawija/bera), jeruk Belukar pada bekas sawah Semak, rumput pada bekas sawah Lahan terbuka/persiapan perkebunan Sawah dan kelapa Lahan hutan konsesi penebangan Sawah tadah hujan (padi, palawija/bera) Kelapa pada bekas hutan rawa > 5 Semak dan rumput rawa bekas kebakaran Kebun karet Kelapa pada bekas hutan rawa > 5 th Sawah tadah hujan (padi, palawija, bera) Kelapa sawit pada bekas hutan rawa > 5 th Semak rumput pada bekas sawah Lahan penanaman tanaman industry Kelapa sawit bekas hutan rawa Sawah intensif (padi-padi) Kebun campuran Tambak Sawah pasang surut Semak dan rumput rawa dan beka Semak dan rumput dan bekas kebakaran Sawah tadah hujan (padi-pala) Kelapa sawit pada bekas hutan Kelapa pada bekas huta rawa > 5 th Sawah intensif (padi-palawija) Luas(ha) 3489404.14 718566.35 250036.40 407214.51 761830.36 307587.60 1179.60 19982.90 29410.10 332407.67 137988.98 130134.57 373.37 235355.99 83640.16 761830.36 1105865.13 407214.51 5009.43 43891.88 1032.31 18094.84 10721.04 9447.26 15202.54 11471.98 2706.00 3671.44 14765.14 7193.15 3403.85 21 Lampiran 3 Ilustrasi perhitungan Naive Bayes Ide utama dari rumus Bayes yang dapat dilihat pada persamaan (2), yaitu suatu hipotesis atau kejadian (Ci) dapat diprediksi berdasarkan beberapa buktu (X) yang dapat diobservasi. Dari rumus Bayes dapat disimpulkan: 1. Peluang prior dari Ci atau P(Ci) : merupakan dari suatu kejadian sebelum bukti diobservasi. 2. Peluang posterior dari Ci atau P(Ci | X) : merupakan peluang dari suatu kejadian setelah bukti diobservasi. Tipe Gambut Kedalaman Gambut (cm) Kelas Hemists/Saprists/Mineral 50-100 T Hemists/Saprists/Mineral 50-100 T Hemists/Fibrists/Saprists 100-200 T Saprists/Mineral 50-100 T Hemists/Fibrists 200-400 F Hemists/Mineral 50-100 F Hemists/Fibrists 100-200 F Hemists/Fibrists/Mineral 50-100 F Saprists/Hemists/Mineral 200-400 F Hemists/Fibrists 800-1200 F No 1 2 3 4 5 6 7 1 2 3 4 5 6 7 Tipe gambut Ket Hemists/Saprists/Mineral Hemists/Fibrists/Saprists Saprists/Mineral Hemists/Fibrists Hemists/Mineral Hemists/Fibrists/Mineral Saprists/Hemists/Mineral Hemists/Saprists/Mineral Hemists/Fibrists/Saprists Saprists/Mineral Hemists/Fibrists Hemists/Mineral Hemists/Fibrists/Mineral Saprists/Hemists/Mineral T 2 1 1 0 0 0 0 2/4 1/4 1/4 0/4 0/4 0/4 0/4 F 0 0 0 3 1 1 1 0/6 0/6 0/6 3/6 1/6 1/6 1/6 Kedalaman gambut Ket T F 50-100 3 2 100-200 1 1 200-400 0 2 800-1200 0 1 50-100 100-200 200-400 800-1200 3/4 1/4 0/4 0/4 2/6 1/6 2/6 1/6 Kelas T 4 F 6 4/10 6/10 Tabel diatas menunjukkan frekuensi dari masing-masing kejadian. Seperti contohnya, terdapat 2 contoh dari dataset pada Tabel 12 (tipegambut = Hemists/Saprists/Mineral | kelas = T). Setelah menghitung semua frekuensi, tahapan berikutnya adalah membangun model Naïve Bayes pada Tabel 13 dengan menghitung P(X|Ci) dan P(Ci), sebagi berikut : P(tipe gambut = Hemists/Saprists/Mineral | kelas = T) = 2/4 P(kelas = T) = 4/10 Setelah membangun model Naive Bayes, model tersebut dapat digunakan untuk memprediksi berbagai kejadian, seperti “T” berdasarkan fakta-fakta yang 22 ada. Jika dilakukan observasi terhadap (tipe gambut = Hemists/Saprists/Mineral) dan (kedalaman gambut = 800-1200), maka peluang posterior dapat diestimasikan: P[T|X] = P[tipe gambut = Hemists/Saprists/Mineral|T] × P[kedalaman gambut = 800-1200|T] × P[T] =18/28 × 1/4 × 2/5 Peluang untuk T = 18/28 × 1/4 × 4/10 = 0.0642 Peluang untuk F = 1/7 × 5/12 × 6/10 = 0.0357 Pada model Naive Bayes terdapat nilai peluang nol. Untuk menangani kasus ini dapat digunakan salah satu teknik smoothing yaitu Laplace estimation. Berikut implementasi Laplace estimation untuk atribut “Hemists/Saprists/Mineral” ketika kelas = F dan kelas = T: 0 + μp1 P(tipe gambut=Hemists/Saprists/Mineral|kelas=F) = 6+μ 0 + μp2 P(tipe gambut=Hemists/Fibrists/Saprists|kelas=F) = 6+μ 0 + μp3 P(tipe gambut=Saprists/Mineral|kelas=F) = 6+μ 3 + μp4 P(tipe gambut=Hemists/Fibrists|kelas=F) = 6+μ 1 + μp5 P(tipe gambut=Hemists/Mineral|kelas=F) = 6+μ 1 + μp6 P(tipe gambut=Hemists/Fibrists/Mineral|kelas=F) = 6+μ 1 + μp7 P(tipe gambut=Saprists/Hemists/Mineral|kelas=F) = 6+μ Dimana (p1 + p2 + p3 + p4 + p5 + p6 + p7) = 1. Oleh karena itu, p1 = p2 = p3 = p4 = p5 = p6 = p7 = 1/7 6 0 + μ/7 0 + 1/7 = = 42 6+μ 6+7 1 + 1/4 1 + μ/4 5 P(kedalaman gambut=800-1200|kelas=F) = = = 6+4 6+μ 12 18 2 + μ/7 2 + 1/7 P(tipe = = = gambut=Hemists/Saprists/Mineral|kelas=T) 24 4+μ 4+7 1 0 + μ/4 0 + 1/4 P(kedalaman gambut=800-1200|kelas=T) = = = 4 4+μ 4+4 Berdasarkan perhitungan nilai peluang terhadap (tipe gambut=Hemists/Saprists/Mineral) dan (kedalaman gambut=800-1200) dapat disimpulkan bahwa data tersebut masuk kedalam kelas T. P(tipe gambut=Hemists/Saprists/Mineral|kelas=F) = 23 RIWAYAT HIDUP Penulis dilahirkan pada tanggal 26 Januari 1993 di Jakarta. Penulis merupakan anak pertama dari tiga bersaudara dari pasangan Cendra Yevil dan Herlina. Pada tahun 2010, penulis lulus dari SMA Negeri 1 Cilegon dan diterima di Diploma Institut Pertanian Bogor melalui jalur SNMPTN Undangan di Program Keahlian Teknik Komputer. Penulis lulus dari Diploma IPB tahun 2013. Pada tahun 2013, penulis lulus seleksi masuk program Sarjana Alih Jenis, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.