Templat tugas akhir S1

advertisement
KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME NAIVE BAYES
YEVILINA AULIA RIZKA
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Klasifikasi Kemunculan
Titik Panas pada Lahan Gambut di Sumatera dan Kalimantan Menggunakan
Algoritme Naive Bayes adalah benar karya saya dengan arahan dari komisi
pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi
mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan
maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan
dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Desember 2015
Yevilina Aulia Rizka
NIM G64134006
ABSTRAK
YEVILINA AULIA RIZKA. Klasifikasi Kemunculan Titik Panas pada Lahan
Gambut di Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes.
Dibimbing oleh IMAS SUKAESIH SITANGGANG.
Dampak kebakaran hutan di lahan gambut lebih berbahaya dibandingkan
pada lahan kering, karena selain terbakarnya vegetasi di permukaan, lapisan serasah
dan meterial gambut ikut terbakar sehingga menghasilkan karbon (CO2) ke
atmosfer. Hal ini akan berdampak buruk pada kesehatan manusia, peningkatan gas
emisi rumah kaca, dan kegiatan perekonomian masyarakat. Salah satu indikator
terjadinya kebakaran hutan yaitu kemunculan titik panas. Kemunculan titik panas
dapat memprediksi terjadinya kebakaran hutan. Penelitian ini menggunakan salah
satu teknik data mining yaitu klasifikasi untuk memodelkan kemunculan titik panas
pada lahan gambut di Sumatera dan Kalimantan. Permodelan klasifikasi ini
dilakukan pada dataset titik panas periode 2001 sampai 2015 dan data lahan gambut
menggunakan algoritme Naive Bayes. Karakteristik lahan gambut yang akan
dianalisis terdiri dari lahan gambut, kedalaman gambut, dan tutupan lahan. Akurasi
tertinggi dari model klasifikasi untuk memprediksi kemunculan titik panas pada
lahan gambut pada dataset tahun 2006 untuk Kalimantan dan dataset tahun 2014
untuk Sumatera sebesar 100%. Model klasifikasi yang telah diklasifikasikan dapat
digunakan untuk memprediksi kemunculan titik panas di masa yang akan datang.
Informasi ini dapat digunakan untuk pencegahan kebakaran hutan dan lahan.
Kata kunci: kebakaran hutan, klasifikasi, naive bayes, titik panas
ABSTRACT
YEVILINA AULIA RIZKA. Classification of Hotspots Occurance on Peatland in
Sumatera and Kalimantan Using Naive Bayes Algorithm. Supervised by IMAS
SUKAESIH SITANGGANG.
The impact of forest fires in peatland is more dangerous than in dryland,
because in addition to the burning of vegetation on the surface, a layer of materials
organic of peat are burned producing carbon dioxide (CO2) into the atmosphere.
This situation has negative impacts on human health and economic activities, and
increase greenhouse gas emissions. One indicator of forest fires occurrence is
hotspots. Hotspots occurrences can predict forest fire events. This research applied
a data mining technique to classify hotspots occurrences on peatlands in Sumatra
and Kalimantan. Classification models on hotspots datasets in the period 2001 to
2015 were determined using the Naive Bayes algorithm. Peatland characteristics to
be analyzed consist of type of peatland, peatland depth, and land cover. The highest
accuracy of classification model to predict the hotspot on peatland is 100% that is
obtained in dataset 2006 for Kalimantan and 2014 for Sumatera. The classification
model can be used to predict possibility of hotspots occurrences in the future. This
information can be used to prevent the forest fire and peatland fire.
Keywords: classification, forest fire, hotspots, naive bayes
KLASIFIKASI KEMUNCULAN TITIK PANAS PADA LAHAN
GAMBUT DI SUMATERA DAN KALIMANTAN
MENGGUNAKAN ALGORITME NAIVE BAYES
YEVILINA AULIA RIZKA
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer
pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2015
Penguji :
1 Aziz Kustiyo, SSi MKom
2 Muhammad Asyhar Agmalaro, SSi MKom
Judul Skripsi : Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di
Sumatera dan Kalimantan Menggunakan Algoritme Naive Bayes
Nama
: Yevilina Aulia Rizka
NIM
: G64134006
Disetujui oleh
Dr Imas Sukaesih Sitanggang, SSi MKom
Pembimbing
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah Subhana wa ta'ala. Shalawat
serta salam semoga senantiasa dilimpahkan kepada Nabi Muhammad, keluarganya,
sahabatnya, dan kepada kita yang selau berusaha menggapai ridha Allah.
Alhamdulillah atas bimbingan dan petunjuk dari Allah Subhana wa ta'ala
serta bimbingan dari semua pihak, penyusunan tugas akhir yang berjudul
“Klasifikasi Kemunculan Titik Panas pada Lahan Gambut di Sumatera dan
Kalimantan Menggunakan Algoritme Naïve Bayes” dapat diselesaikan. Tugas akhir
ini tidak mungkin dapat diselesaikan tanpa adanya bantuan dari berbagai pihak.
Oleh karena itu, penulis ingin mengucapkan terimakasih dan penghargaan yang
setinggi-tingginya kepada:
 Ayah, Ibu dan keluarga yang selalu mendoakan, memberi nasihat, kasih sayang,
semangat, dan dukungan sehingga penelitian ini bisa diselesaikan.
 Ibu Dr Imas Sukaesih Sitanggang, SSi MKom selaku pembimbing yang telah
memberi saran, masukan dan ide-ide dalam penelitian ini.
 Bapak Aziz Kustiyo, SSi MKom dan Bapak Muhammad Asyhar Agmalaro, SSi
MKom sebagai penguji.
 Pihak Wetlands yang telah memberikan data lahan gambut untuk wilayah
Sumatera dan Kalimantan.
 Teman seperjuangan Resa, Fitri dan Dhita yang telah memberikan semangat dan
masukan.
 Departemen Ilmu Komputer IPB, staf dan dosen yang telah banyak membantu
selama masa perkuliahan hingga penelitian.
Semoga penelitian ini bermanfaat.
Bogor, Desember 2015
Yevilina Aulia Rizka
DAFTAR ISI
DAFTAR TABEL
vi
DAFTAR GAMBAR
vi
DAFTAR LAMPIRAN
ix
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
2
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
METODE
3
Data Penelitian
3
Praproses Data
6
Pembagian Data
6
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
6
Perhitungan Akurasi Model
8
Penerapan pada Model Data Baru
8
Lingkungan Pengembangan
8
HASIL DAN PEMBAHASAN
9
Praproses Data
9
Seleksi Data
9
Pembersihan Data
12
Transformasi Format
14
Pembagian Data
14
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
14
Perhitungan Akurasi
15
Penerapan Model pada Data Baru
17
SIMPULAN DAN SARAN
18
Simpulan
18
Saran
18
DAFTAR PUSTAKA
19
RIWAYAT HIDUP
23
DAFTAR TABEL
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Atribut dari titik panas
Luas lahan gambut Kalimantan
Luas lahan Gambut Sumatera
Dataset 2
Jumlah missing value dataset Pulau Kalimantan dan Sumatera
Akurasi model pada dataset Sumatera
Akurasi model pada dataset Kalimantan
Akurasi dan Kappa untuk model pada dataset Sumatera
Akurasi dan Kappa untuk model pada dataset Kalimantan
Matrik confusion untuk dataset Sumatera
Matrik confusion untuk dataset Kalimantan
4
5
5
12
13
15
16
16
17
18
18
DAFTAR GAMBAR
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
Tahapan penelitian
Peta data lahan gambut di Kalimantan
Peta data lahan gambut di Sumatera
Struktur dari Bayes Network
Titik panas di Pulau Kalimantan
Jumlah titik panas Sumatera dan Kalimantan tahun 2001-2014
Buffer untuk titik panas
Titik non hotspot
Titik panas dan non titik panan tahun 2010
Plot data titik panas Kalimantan sebelum dibersihkan
Akurasi Naive Bayes pada R
3
4
5
7
9
10
10
11
12
13
15
DAFTAR LAMPIRAN
1.
2.
3.
Luas lahan gambut Kalimantan berdasarkan kedalaman gambut
Luas lahan gambut Sumatera berdasarkan tutupan lahan gambut
Ilustrasi perhitungan Naive Bayes
20
20
21
PENDAHULUAN
Latar Belakang
Indonesia merupakan salah satu negara tropis yang memiliki wilayah hutan
terluas ketiga di dunia setelah Republik Demokrasi Kongo dan Brazil. Selain
sebagai habitat flora dan fauna, hutan memilki fungsi lain yaitu sebagai fungsi
keseimbangan alam. Kebakaran hutan yang terjadi akhir-akhir ini menjadi masalah
global yang yang perlu diperhatikan karena dampaknya tidak hanya dirasakan oleh
penduduk Indonesia melainkan hingga penduduk negara tetangga seperti Malaysia
dan Singapura. Faktor penyebab terjadinya kebakaran hutan bisa beragam yang
dibagi dalam dua kelompok utama, yaitu faktor alam dan campur tangan manusia.
Salah satu faktor campur tangan manusia adalah pengeringan lahan gambut yang
disengaja. Hal ini dapat memicu terjadinya kebakaran hutan di lahan gambut karena
karakteristik lahan gambut yang salah satunya jika lapisan-lapisan organiknya
menjadi kering maka akan mudah terbakar. Asap dari bara api kebakaran gambut
menandung banyak partikel halus dari pecahan-pecahan bahan organik yang
berbahaya bagi kesehatan (Levine 1998). Selain itu ada beberapa dampak dari
polusi yang melewati perbatasan dalam segi kesehatan dan perekonomian akibat
kebakaran hutan dan lahan (Dieterle dan Heil 1998).
Sumatera dan Kalimantan merupakan daerah kawasan persebaran ekosistem
lahan gambut di Indonesia dengan luas 7.2 juta ha untuk Pulau Sumatera dan 5.7
juta ha untuk Pulau Kalimantan. Menurut (LAPAN 2014), hotspot (titik panas) di
wilayah Sumatera dan Kalimantan mengalami peningkatan tajam sejak akhir
Januari 2014 dengan puncaknya terjadi pada Maret 2014. Berdasarkan data MODIS
yang diterima oleh stasiun bumi Lapan di Parepare pada 1-28 September 2014,
akumulasi titik panas tertinggi terdapat di wilayah Provinsi Kalimantan Tengah,
yang diikuti oleh Provinsi Sumatera Selatan, dan Kalimantan Barat (LAPAN 2014).
Menurut Adinugroho et al. (2005), data titik panas dapat dijadikan sebagai salah
satuindikator mengenai terjadinya kebakaran hutan dan lahan.
Salah satu cara untuk mencegah masalah kebakaran hutan ini yaitu dengan
cara membuat suatu model. Permodelan ini dapat menerapkan salah satu teknik data
mining yaitu klasifikasi. Pada penelitian sebelumnya, Sitanggang et al. (2012)
menggunakan aplikasi Weka dalam teknik pengklasifikasiannya dan menggunakan
beberapa algoritme untuk dibandingkan tingkat akurasinya serta menggunakan
Provinsi Riau sebagai objek yang digunakan dalam penelitian. Terdapat 3 algoritme
yang dibandingkan tingkat akurasinya yaitu algoritme J48, SimpleCart, dan Naïve
Bayes. Penelitian selanjutnya (Fernando dan Sitanggang 2014) yang terkait dengan
klasifikasi data spasial kemunculan titik panas di Provinsi Riau menggunakan
algoritme ID3 dengan hasil akurasi tertinggi yaitu 70.80%. Penelitian yang akan
dilakukuan ini menggunakan metode Naive Bayes untuk mengklasifikasikan
penentuan kemunculan titik panas di lahan gambut Pulau Sumatera dan Kalimantan.
Aplikasi yang digunakan untuk mengolah data dan membuat model klasifikasi
adalah R.
Penggunaan Naive Bayes dalam penelitian ini berdasarkan ketergantungan
dalam hal akurasi pada model probabilitas, Naive Bayes classifier dapat dilatih
dengan sangat efisien pada teknik supervised learning. Meskipun Naive Bayes
terlihat sederhana pada desain dan asumsinya, namun Naive Bayes classifier dapat
2
bekerja lebih baik pada masalah yang kompleks. Pada penelitian sebelumnya,
masalah analisis pada klasifikasi Naive Bayes menunjukan bahwa ada beberapa
alasan secara teoritis yang menunjukan bahwa klasifikasi Naive Bayes efektif
(Witten dan Frank 2000). Keuntungan menggunakan klasifikasi Naive Bayes
adalah penggunaan jumlah data training yang sedikit dapat mengestimasikan
parameter yang dibutuhkan dalam klasifikasi. Dengan dibuatnya permodelan ini
diharapkan dapat menghasilkan model yang akurat untuk memprediksi
kemungkinan munculnya titik panas dimasa yang akan datang sehingga pihak yang
berwenang dapat melakukan tindakan pencegahan terjadinya kebakaran hutan.
Perumusan Masalah
Rumusan masalah pada penelitian ini adalah bagaimana membuat model
klasifikasi menggunakan algoritme Naive Bayes untuk data kebakaran hutan dan
lahan di Pulau Sumatera dan Kalimantan tahun 2001-2015.
Tujuan Penelitian
Tujuan dari penelitian ini adalah:
1 Membangun model klasifikasi kemunculan titik panas di lahan gambut Sumatera
dan Kalimantan dengan menggunakan metode Naive Bayes.
2 Evaluasi model klasifikasi untuk memprediksi kemunculan titik panas
menggunakan Naive Bayes.
Manfaat Penelitian
Penelitian ini diharapkan dapat menghasilkan model yang akurat untuk
memprediksi kemungkinan munculnya titik panas di masa yang akan datang. Titik
panas merupakan salah satu indikator terjadi kebakaran hutan dan lahan. Model
prediksi tersebut dapat digunakan oleh pihak yang berwenang dalam
mengidentifikasi terjadi kebakaran hutan dan lahan, khususnya di lahan gambut
sehingga dapat dilakukan tindakan pencegahan terjadinya kebakaran hutan.
Ruang Lingkup Penelitian
Ruang lingkup dari penelitian ini adalah:
1. Data yang digunakan merupakan data titik panas di Pulau Kalimantan dan
Sumatera dari tahun 2001 sampai 2015 yang diperoleh dari FIRMS (Fire
Information for Resource Management System) MODIS NASA.
2. Penelitian ini mengimplementasikan model klasifikasi Naive Bayes dengan
menggunakan aplikasi dan package yang terdapat pada R, yaitu caret, gmodels,
e1071, dan klaR. Package caret, e1071, dan klaR merupakan package yang
digunakan untuk membangun model klasifikasi menggunakan Naive Bayes,
sedangkan package gmodels digunkan untuk membangun matrik confusion.
3. Karakteristik lahan gambut yang dianalisis dalam penelitian ini adalah tipe
lahan gambut, kedalaman gambut, dan tutupan lahan.
3
METODE
Tahapan penelitian terdiri atas lima tahapan, yaitu: pengumpulan data,
praproses data, pembagian data, membuat model klasifikasi, perhitungan akurasi,
dan penerapan pada model data baru. Gambar 1 menunjukkan diagram alir
penelitian yang dilakukan.
Gambar 1 Tahapan penelitian
Data Penelitian
Data yang digunakan pada penelitian ini adalah data titik panas Pulau
Sumatera dan Kalimantan tahun 2001 sampai 2015. Data tersebut didapatkan dari
National Aeronautics and Space Administration (NASA) Fire Information for
Resource Management System (FIRMS) dalam format csv. Data titik panas ini
terdiri dari 12 atribut. Atribut ini dapat dilihat pada Tabel 1. Selain itu, terdapat data
lahan gambut dari tahun 1990-2002 dengan 3 variabel yang akan dianalisis yaitu,
tipe lahan gambut, kedalaman gambut, dan tutupan lahan. Pemilihan atribut ini
berdasarkan pada penelitian yang sebelumnya Sitanggang et al. (2012) yaitu,
memilih kedalaman gambut, tutupan lahan, dan tipe lahan gambut sebagai atribut.
Wilayah Kalimantan memiliki atribut tipe lahan gambut dan kedalaman gambut
untuk dianalisis, sedangkan wilayah Sumatera memiliki atribut tipe lahan gambut,
4
kedalaman gambut, dan tutupan lahan. Data tersebut didapatkan dari Wetlands
Internasional dalam format shp.
Tabel 1 Atribut dari titik panas
No
1
2
3
4
5
Atribut
Latitude
Longitude
Acq_date
Acq_time
Confidence
Tipe
Numeric
Numeric
Date
Character varying (5)
Integer
Peta lahan gambut di Pulau Kalimantan dan Sumatera dapat dilihat pada
Gambar 2 dan Gambar 3. Peta tersebut menunjukan tipe lahan gambut yang terdapat
di Sumatera dan Kalimantan. Lahan gambut memiliki beberapa tipe yaitu hemists,
fibrists, saprists, dan mineral. Wilayah Kalimantan memiliki luas lahan gambut 5.7
juta ha dan untuk wilayah Sumatera 7.2 juta ha. Luas lahan gambut di Sumatera dan
Kalimantan dapat dilihat pada Tabel 2 dan Tabel 3. Berikut sintaks SQL untuk
mengetahui luas lahan gambut di Kalimantan:
SELECT soil AS type, sum(ST_Area(geom))/10000 AS surface
FROM all _kalimantan_island_peatland GROUP BY soil
HAVING soil=’Hemists/Fibrists’;
Gambar 2 Peta data lahan gambut di Kalimantan
5
Gambar 3 Peta data lahan gambut di Sumatera
Tabel 2 Luas lahan gambut Kalimantan
No
1
2
3
4
5
6
7
Tipe Gambut
Hemists/Fibrists
Hemists/Fibrists/Mineral
Hemists/Mineral
Saprists/Hemists/Mineral
Saprists/Hemists/Mineral
Hemists/Saprists/Mineral
Hemists/Fibrists/Saprists
Luas(ha)
4070888.40
388442.91
922584.24
108626.03
132833.31
133670.39
3028.58
Tabel 3 Luas lahan Gambut Sumatera
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Tipe Gambut
Hemists/Saprists (60/40)sedang
Saprists/min (50/50)dangkal
Saprists/Hemists (60/40)sedang
Saprists/min (30/70)sedang
Saprists/min (90/10)sedang
Hemists (100)dalam
Hemists/Saprists (60/40)dalam
Hemists (100)sedang
Saprists/min (50/50)dalam
Hemists/min(90/10)sangat dalam
Hemists/Saprists (60/40)sedang
Hemists/min (30/70)dangkal
Hemists/Saprists (60/40)sangat dalam
Saprists/Hemists (60/40)dalam
Saprists/Hemists (60/40)sedang
Luas(ha)
1490145.51
16859.44
18698.37
9911.09
178408.66
2200.51
639263.33
86697.37
7748.18
30179.83
211082.30
308112.73
957561.63
553762.96
236659.27
6
16
17
18
19
20
21
22
23
24
25
26
27
28
Hemists/min (90/10)dangkal
Hemists/Saprists (60/40)dangkal
Hemists/min (70/30)sedang
Saprists/min (30/70)dalam
Hemists/min (90/10)sedang
Hemists/min (50/50)dangkal
Saprists/min (50/50)sedang
Hemists/min (90/10)sedang
Fibrists/Saprists (60/40)sedang
Saprists/Hemists (60/40)sangat dalam
Hemists/min (30/70)sedang
Saprists (100)sedang
Saprists (100)dalam
7950.20
49355.05
91797.22
12671.89
0.62
2218.85
118152.45
578525.93
10721.83
1181264.69
308958.76
87885.62
35182.64
Praproses Data
Pada tahap praproses data, dilakukan tahapan seleksi data. Pemilihan data
dalam proses seleksi menggunakan 3 atribut yaitu longtitude, latitude dan acq_date.
Latitude dan longitude digunakan untuk menentukan posisi titik panas berdasarkan
koordinat garis lintang dan bujur. Acq_date digunakan untuk mengetahui frekuensi
kemunculan titik panas berdasarkan tanggal. Dalam tahapan ini dilakukan operasi
spasial pada data lahan gambut untuk mendapatkan data titik panas di lahan gambut.
Pembagian Data
Pada tahapan ini, data dibagi menjadi 2, yaitu data latih dan data uji. Data
latih dan data uji menggunakan data titik panas tahun 2001-2014 dan data lahan
gambut tahun 2002. Dalam penelitian, metode yang digunakan dalam proses
pemisahan data latih dan data uji ini adalah metode K-fold cross validation dengan
nilai K=10. Menurut Fu (1994) K-fold cross validation merupakan metode yang
membagi himpunan contoh secara acak menjadi K himpunan bagian.
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
Tahapan ini menggunakan model klasifikasi Naive Bayes. Pembentukan
model klasifikasi menggunakan package yang tersedia pada R. Package tersebut
adalah caret, klaR, e071, dan gmodels.
Naive Bayes merupakan classifier yang bersifat statistik yang mana dapat
memprediksi probabilitas masing-masing kelas seperti probabilitas suatu kelas
tertentu. Keunggulan dari pengelompokan Bayes ini yaitu terdapat pada tingkat
akurasinya yang tinggi serta kecepatannya dalam penggunaan basis data yang besar.
Pengelompokan Naive Bayes mengasumsikan bahwa nilai atribut pada setiap kelas
bersifat independen (tidak ada ketergantungan antar kelas) dimana dapat
memudahkan dalam perhitungannya (Han et al. 2012). Pengelompokan ini
berdasarkan dengan data training dari probabilitas masing-masing atribut A dengan
label kelas C. Klasifikasi dilakukan dengan menerapkan aturan Bayes untuk
menghitung probabilitas C terhadap masing-masing atribut A1, A2, …, An,
kemudian memprediksi kelas berdasarkan probabilitas prior yang tertinggi. Gambar
1 menjelaskan bahwa Naive Bayes classifier memiliki struktur yang sederhana.
7
Gambar 4 mengasumsikan bahwa setiap atribut (setiap daun pada jaringan)
independen terhadap atribut lainnya (Friedman et al. 1997). Ilustrasi perhitungan
menggunakan Naïve Bayes dapat dilihat pada Lampiran 3.
Gambar 4 Struktur dari Bayes Network
Algoritme klasifikasi Naive Bayes adalah sebagai berikut (Han et al. 2012):
1. Asumsikan D adalah training set dengan label kelas yang terkait. Setiap tupel
dalam training set diwakili oleh atribut vektor n-dimensi, X = (x1, x2, ..., xn),
menggambarkan pengukuran yang dilakukan pada tupel dari n atribut, masingmasing A1, A2,…, An.
2. Misalkan terdapat kelas m, C1, C2,…, Cm. Jika diberikan tupel, X, classifier akan
memprediksi bahwa X termasuk ke dalam kelas yang memilik probabilitas
posterior yang tinggi. Oleh karena itu, Naïve Bayes classifier memprediksi
bahwa tupel X termasuk ke dalam kelas Ci jika dan hanya jika
P(Ci | X) ≤ P(Cj | X) untuk 1 ≤ j ≤ m, j ≠ i
(1)
Kemudian, untuk memaksimalkan P(Ci | X). Kelas C1 yang mana P(Cj | X)
maksimal disebut dengan maximum posteriori hypothesis, dengan teorma Bayes,
P(Ci | X) =
P(X |Ci )P(Ci )
P(X)
(2)
3. Jika P(X) bernilai konstan untuk semua kelas, hanya P(X | Ci)P(Ci) yang harus
dimaksimalkan. Kelas probabilitas prior tidak diketahui, maka diasumsikan
kelasnya sama, yaitu, P(C1) = P(C2) = … = P(Cm) dan P(X | Ci) harus
dimaksimalkan. Kelas probabilitas prior dapat diestimasikan dengan P(C1) = |Ci,
D| / | D |, dimana |Ci, D| merupakan training tuples dari kelas Ci di D.
4. Membuat kelas yang independen untuk mengurangi perhitungan dalam
mengevaluasi P(C | C1).
n
P(X | Ci ) = ∏ P(xk |Ci )
k=1
= P(x1 | Ci ) × (x2 | Ci )× …×(xn | Ci )
(3)
8
Kita dapat mengestimasikan dengan mudah probabilitas P(x1 | Ci), P(x2 | Ci), …,
P(xn | Ci) dari training tuples, Jika xk merupakan nilai dari atribut Ak untuk tuple
X. Untuk atribut categorical, maka P(xk | Ci) merupakan tupel dari kelas Ci dan
D yang memiliki nilai xk untuk Ak, dibagi dengan |Ci, D|, tupel dari kelas Ci di D.
5. Untuk memprediksi kelas label X, P(X | Ci)P(Ci) dievaluasi pada masing-masing
kelas Ci. Classifier memprediksi kelas label dari tupel X merupakan kelas Ci jika
dan hanya jika
P(X | Ci)P(Ci) > P(X | Cj)P(Cj) untuk 1 ≠ j ≤ m, j ≠ i
(4)
6. Untuk perhitungan akurasi dapat menggunakan rumus sebagai berikut:
Akurasi =
∑ data uji benar klasifikasi
∑ jumlah total data uji
(5)
Perhitungan Akurasi Model
Akurasi diperoleh berdasarkan data pengujian terhadap model klasifikasi.
Untuk menghitung akurasi digunakan rumus yang terdapat pada persamaan 5.
Setelah nilai akurasi didapatkan dari tahun 2001-2014, maka dataset dengan nilai
tertinggi pada masing-masing wilayah akan digunakan sebagai data latih dalam
penerapan klasifikasi pada data baru.
Penerapan pada Model Data Baru
Pada tahapan ini dilakukan penggunaan model pada data baru, yaitu data titik
panas tahun 2015. Pada tahap ini akan digunakan beberapa record data contoh
untuk menunjukkan bagaimana penggunaan klasifikasi pada data baru yang belum
memiliki label kelas.
Lingkungan Pengembangan
•
•
•
•
•
•
Perangkat lunak yang digunakan dalam penelitian ini adalah:
Sistem operasi Windows 8.1
Bahasa pemrograman R-3.1.6 dengan package caret, klaR, e1071, dan gmodels
R Studio versi 0.98.1091
Microsoft Excel 2007 untuk membaca data titik panas
Quantum GIS 2.6.0 untuk melihat plot data titik panas dan analisis spasial
PostgreSQL versi 9.1 sebagai system manajemen basis data (pengolahan kueri
data lahan gambut)
Perangkat keras yang digunakan dalam penelitian ini adalah komputer
personal dengan spesifikasi:
• Prosesor Intel Core i3 @1.8 GHz
• RAM 2 GB
• Monitor LCD 14.0” HD
9
• Harddisk 500 GB HDD
HASIL DAN PEMBAHASAN
Praproses Data
Dalam tahapan ini dilakukan beberapa proses dalam praproses data, yaitu:
seleksi data, pembersihan data, dan transformasi data.
Seleksi Data
Hal pertama yang dilakukan dalam dalam proses ini adalah melakukan
overlay data lahan gambut dengan titik panas menggunakan operasi spasial, yaitu
ST_WITHIN di Quantum GIS atau di PostgreSQL. Tujuan dilakukan overlay
adalah untuk memproyeksikan data titik panas terhadap lahan gambut. Selain itu
sistem referensi koordinat harus disesuaikan, untuk wilayah Kalimantan
menggunakan UTM Zona 49S (WGS84 / UTM Zone 49S / EPSG:32649)
sedangkan wilayah Sumatera WGS84 UTM Zone 47S. Selanjutnya memisahkan
data titik panas pertahun. Data titik panas yang digunakan adalah data titik panas
tahun 2001-2014.
Gambar 5 menunjukkan jumlah atribut titik panas Sumatera dan Kalimantan
tahun 2001 sampai dengan 2014, sedangkan Gambar 6 menunjukkan grafik jumlah
atribut titik panas Sumatera dan Kalimantan ahun 2001-2014.
Gambar 5 Titik panas di Pulau Kalimantan
10
Gambar 6 Jumlah titik panas Sumatera dan Kalimantan tahun 2001-2014
Langkah selanjutnya adalah pembangkitan titik non hotspot. Ada beberapa
hal yang harus dilakukan dalam membangkitkan non titik panas yaitu melakukan
beberapa operasi geoprocessing seperti buffer, dissolve, difference, dan random
point. Pembuatan buffer menggunakan radius 0.01. Ukuran tersebut didapatkan dari
konversi pengolahan citra satelit sebesar 0.907374 (Km). Hasil buffer titik panas
dapat dilihat pada Gambar 7.
Gambar 7 Buffer untuk titik panas
Setelah itu dilakukan operasi dissolve untuk menggabungkan fitur yang
memiliki kesamaan atribut, yaitu hasil buffer. Hasil dari buffer dissolve digunakan
untuk memotong atau menghapus area lahan gambut yang tidak overlap dengan
menggunakan operasi difference. Titik non hotspot dibangkitkan dengan membuat
random point, jumlah titik disesuaikan dengan titik panas pertahun. Hasil dari
random point dapat dilihat pada Gambar 8.
11
Gambar 8 Titik non hotspot
Tahapan selanjutnya adalah membuat tabel target2010. Proses ini dilakukan
menggunakan postgreSQL dengan menggunakan pernyataan SQL. Tujuan
dibuatnya tabel target2010 untuk melihat data titik panas dan bukan titik panas.
Berikut adalah kueri untuk menambahkan kelas T dan F:
ALTER TABLE kal2_false_alarm 2010 ADD COLUMN class char
DEFAULT ’F’;
ALTER TABLE kal2_false_alarm_2010 DROP COLUMN id;
ALTER TABLE kal2_within_2010_rep ADD COLUMN class char
DEFAULT ’T’;
Tahapan selanjutnya adalah membuat tabel target dengan kueri sebagai
berikut:
CREATE TABLE target2010 AS SELECT gid, geom, longitude,
latitude, acq date, acq time, confidence, class FROM
hotspot_kalimantan_island_peatland
WHERE
confidence
>=70;
Data titik panas yang diambil pada tabel target adalah titik panas dengan
nilai confidence ≥ 70. Proses selanjutnya yaitu menggabungkan data false alarm
ke dalam tabel target.
INSERT INTO target2010 (gid, geom, class) SELECT gid,
geom, class FROM false_alarm_2010_rep;
Rename gid pada target2010 menjdi gid0, lalu tambahkan gid autonumber.
Hasil dari pembuatan layer target dapat dilihat pada Gambar 9.
ALTER TABLE target2010 RENAME COLUMN gid TO gid0;
ALTER TABLE target2010 ADD COLUMN gid SERIAL;
ALTER TABLE target2010 ADD PRIMARY KEY (gid);
12
Gambar 9 Titik panas dan non titik panan tahun 2010
Setelah tabel target2010 dibuat, tahapan selanjutnya adalah pembuatan
dataset 1 dan 2. Dataset 1 merupakan gabungan data dari data target2010 dan data
lahan gambut Kalimantan, sedangkan dataset 2 merupakan dataset yang akan
digunakan pada proses klasifikasi, ilustrasi dataset 2 yang digunakan dapat dilihat
pada Tabel 4. Berikut pernyataan SQL untuk membuat dataset 1 dan dataset 2:
CREATE TABLE dataset1 AS SELECT t.gid, t.gid0, t.geom,
t.confidence, t.class, g.DEPTH, g.SOIL FROM target2010
AS
t,
all_kalimantan_island_peatland
AS
g
WHERE
ST_Within(t.geom,g.geom) ORDER BY gid;
CREATE TABLE dataset2 AS SELECT t.class, g.DEPTH, g.SOIL
FROM target2010 AS t, all_kalimantan_island_peatland as
g WHERE ST Within(t.geom,g.geom);
Tabel 4 Dataset 2
Kelas
T
T
T
T
T
Kedalaman gambut(cm)
50-100
100-200
50-100
100-200
100-200
Tipe gambut
Hemists/Fibrists
Hemists/Fibrists
Hemists/Fibrists/Mineral
Hemists/Fibrists
Hemists/Fibrists
Pembersihan Data
Dalam proses ini dilakukan salah satu operasi spasial yaitu st_within untuk
membersihkan data titik panas. Setelah dibersihkan, jumlah data tereduksi dari
326866 menjadi 98666. Data titik panas sebelum dibersihkan pada wilayah
13
Kalimantan dapat dilihat pada Gambar 10 dan setalah dibersihkan dapat dilihat pada
Gambar 5.
Gambar 10 Plot data titik panas Kalimantan sebelum dibersihkan
Proses pembersihan data juga dilakukan terhadap data yang tidak memiliki
atribut yang lengkap (missing value). Pada tahapan pembersihan ini data dengan
atribut yang kosong akan dihapus, karena presentasenya berkisar dari 0-2%. Grafik
jumlah missing value pada wilayah Kalimantan dan Sumatera dapat dilihat pada
Tabel 5.
Tabel 5 Jumlah missing value dataset Pulau Kalimantan dan Sumatera
Dataset
Sumatera2001
Sumatera2002
Sumatera2003
Sumatera2004
Sumatera2005
Sumatera2006
Sumatera2007
Sumatera2008
Sumatera2009
Sumatera2010
Sumatera2011
Sumatera2012
Sumatera2013
Sumatera2014
Kalimantan2001
Kalimantan2002
Kalimantan2003
Missing Value
2
35
8
15
18
33
5
8
21
2
10
13
21
43
35
332
80
Data
3509
20212
10331
16030
30172
29471
5517
7535
15572
4897
13506
14556
18548
41254
2880
23005
6578
Presentase
0.06%
0.17%
0.08%
0.09%
0.06%
0.11%
0.09%
0.11%
0.13%
0.04%
0.07%
0.09%
0.11%
0.10%
1.22%
1.44%
1.22%
14
Kalimantan2004
Kalimantan2005
Kalimantan2006
Kalimantan2007
Kalimantan2008
Kalimantan2009
Kalimantan2010
Kalimantan2011
Kalimantan2012
Kalimantan2013
Kalimantan2014
153
79
460
19
21
247
5
111
99
51
232
13612
5736
30413
2074
1441
20803
570
7900
8493
3571
18457
1.12%
1.36%
1.51%
0.92%
1.46%
1.19%
0.88%
1.41%
1.17%
1.43%
1.26%
Transformasi Format
Dalam proses ini dilakukan proses transformasi format dari csv ke .shp untuk
data titik panas dari FIRMS Modis NASA. Kemudian dilakukan tranformasi format
dari dbf ke csv untuk dataset 2 yang akan digunakan untuk klasifikasi.
Pembagian Data
Proses pembagian data latih dan data uji dilakukan di RStudio dengan
menggunakan metode K-fold cross validation dengan nilai K=10. Proses
pembagian data dilakukan secara otomatis dengan menggunakan salah satu metode
yang terdapat pada package klaR yaitu cv. Package ini membagi data dengan
menggunakan K-fold cross validation dengan nilai K yang dapat ditentukan oleh
pengguna.
Pembuatan Model Klasifikasi Menggunakan Algoritme Naive Bayes
Dalam pembuatan model klasifikasi ini, menggunakan beberapa package
yaitu klaR dan caret. Model yang telah dibangun dapat memprediksi model
berdasarkan kelas dan dapat menunjukkan nilai akurasi terhadap model tersebut.
Nilai akurasi terhadap model dapat dilihat pada Gambar 11. Berikut adalah kode
yang digunakan untuk membangun model menggunakan algoritme Naive Bayes:
library(klaR)
library(caret)
x = dataset2_try_edited
y = dataset2_try_edited$V3
model=train(x,y,’nb’,trControl=trainControl(method=’cv’
,number=10))
model
predict(model$finalModel,x)
predict(model$finalModel,x)$class
Package yang digunakan untuk mengklasifikasikan titik panas adalah
package klaR dan caret. Package caret merupakan package yang bagus untuk
mengklasifikasikan data menggunakan Naive Bayes, karena memiliki fitur yang
bagus sedangkan package klaR memiliki Naive Bayes classifier. Baris kelima dari
program merupakan kode program untuk melatih model. Baris program ini akan
memproses model Naive Bayes menggunakan 10-fold cross validation. X dan y
15
merupakan label, sedangkan ’nb’ menerangkan bahwa model yang digunakan
adalah Naive Bayes. TrainController merupakan bagian bahwa proses pembagian
data menggunakan 10-fold cross validation (’cv’). Sintaks model berfungsi untuk
mencetak hasil model klasifikasi yang berisi nilai akurasi dan kappa, dapat dilihat
pada Gambar 11. Selain itu juga terdapat sintaks predict yang dapat menampilkan
beberapa kelas yang dapat dipreksi berdasarkan peluang posterior.
Gambar 11 Akurasi Naive Bayes pada R
Perhitungan Akurasi
Setelah mendapatkan model Naive Bayes, proses selanjutnya adalah
melakukan perhitungan akurasi. Perhitungan akurasi dapat dilakukan dengan
menggunakan matrik confusion, berdasarkan rumus (5). Hasil akurasi dari data uji
sebesar 100%. Berikut sintaks untuk membangun matriks confusion dalam R:
table(predict(model$finalModel,x)$class,y)
Pada Tabel 6 dan 7 terlihat bahwa nilai akurasi tertinggi terdapat pada dataset
2006, akurasi terbaik untuk wilayah Sumatera sebesar 100% sedangkan untuk
wilayah Kalimantan sebesar 100%. Untuk dataset Sumatera terdapat 19369 data
bukan titik panas yang diklasifikasikan sebagai data bukan titik panas sedangkan
terdapat 10075 data titik panas yang diklasifikasikan sebagai data titik panas dan
tidak ada data yang salah dalam proses klasifkasi. Sedangkan untuk dataset
Kalimantan terdapat 19992 data bukan titik panas yang diklasifikasikan sebagai
data bukan titik panas sedangkan terdapat 9961 data titik panas yang
diklasifikasikan sebagai data titik panas dan tidak ada data yang salah dalam proses
klasifkasi.
Tabel 6 Akurasi model pada dataset Sumatera
Dataset
Sumatera2001
Sumatera2002
Sumatera2003
Sumatera2004
Sumatera2005
Sumatera2006
Sumatera2007
Sumatera2008
TP
587
3838
3300
5268
10456
10075
1607
2449
TN
587
3838
3300
5268
10456
10075
1607
2449
FP
0
0
0
0
0
0
0
0
FN
0
0
0
0
0
0
0
0
Akurasi(%)
100
100
100
100
100
100
100
100
16
Dataset
Sumatera2009
Sumatera2010
Sumatera2011
Sumatera2012
Sumatera2013
Sumatera2014
TP
4711
1347
4244
4614
6188
14245
TN
4711
1347
4244
4614
6188
14245
FP
0
0
0
0
0
0
FN
0
0
0
0
0
0
Akurasi(%)
100
100
100
100
100
100
Tabel 7 Akurasi model pada dataset Kalimantan
Dataset
Kalimantan2001
Kalimantan2002
Kalimantan2003
Kalimantan2004
Kalimantan2005
Kalimantan2006
Kalimantan2007
Kalimantan2008
Kalimantan2009
Kalimantan2010
Kalimantan2011
Kalimantan2012
Kalimantan2013
Kalimantan2014
TP
889
7477
2005
4311
1815
9961
609
405
6505
136
2404
2548
1106
5995
TN
889
7477
2005
4311
1815
9961
609
405
6505
136
2404
2548
1106
5995
FP
0
0
0
0
0
0
0
0
0
0
0
0
0
0
FN
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Akurasi(%)
100
100
100
100
100
100
100
100
100
100
100
100
100
100
Untuk menentukan dataset terbaik, hasil pengukuran akurasi model dan
kappa statistik dapat digunakan untuk mencari model dengan dataset terbaik.
Berdasarkan Tabel 8 dan Tabel 9 dapat disimpulkan bahwa model dengan dataset
terbaik adalah dataset tahun 2006 untuk wilayah Kalimantan dan dataset tahun
2014 untuk wilayah Sumatera. Nilai akuasi model dan kappa statistik untuk wilayah
Sumatera adalah 99.996% dan 99.993%. Sedangkan untuk Kalimantan 99.994%
dan 99.989%. Nilai akurasi ini menunjukkan hasil yang lebih baik dari penelitian
sebelumnya (Sitanggang et al. 2012), yaitu 62.8667% untuk Naive Bayes.
Tabel 8 Akurasi dan Kappa untuk model pada dataset Sumatera
Dataset
Sumatera2001
Sumatera2002
Sumatera2003
Sumatera2004
Sumatera2005
Sumatera2006
Sumatera2007
Sumatera2008
Sumatera2009
Sumatera2010
Sumatera2011
Akurasi(%)
99.915
99.986
99.984
99.990
99.966
99.995
99.969
99.814
99.989
99.963
99.988
Kappa(%)
99.831
99.973
99.969
99.981
99.933
99.990
99.938
99.636
99.978
99.926
99.976
17
Sumatera2012
Sumatera2013
Sumatera2014
99.989
99.991
99.996
99.978
99.983
99.993
Tabel 9 Akurasi dan Kappa untuk model pada dataset Kalimantan
Dataset
Kalimantan2001
Kalimantan2002
Kalimantan2003
Kalimantan2004
Kalimantan2005
Kalimantan2006
Kalimantan2007
Kalimantan2008
Kalimantan2009
Kalimantan2010
Kalimantan2011
Kalimantan2012
Kalimantan2013
Kalimantan2014
Akurasi(%)
99.944
99.993
99.955
99.988
99.972
99.994
99.918
99.876
99.972
99.655
99.979
99.980
99.955
99.991
Kappa(%)
99.888
99.986
99.910
99.976
99.945
99.989
99.838
99.756
99.945
99.333
99.958
99.960
99.910
99.983
Penerapan Model pada Data Baru
Dalam tahapan ini akan dilakukan validasi model terhadap dataset dari tahun
2001-2014. Kemudian akan diterapkam model dengan akurasi tertinggi pada
dataset baru 2015. Model dengan akurasi tertinggi terdapat pada tahun 2006 untuk
wilayah Kalimantan dan tahun 2014 untuk wilayah Kalimantan. Oleh karena itu
data yang digunakan sebagai data latih merupakan dataset tahun 2006 untuk
Sumatera dan dataset 2014 untuk Kalimantan, dan data yang digunakan sebagai
data uji merupakan dataset tahun 2015 untuk kedua wilayah. Berikut sintaks untuk
memvalidasi model:
library(e1071)
data_train<-sumatera[1:29445, ]
data_test<-sumatera[29445:31298, ]
prop.table(table(data_train$V4))
prop.table(table(data_test$V4))
data_classifier<-naiveBayes(data_train,cl<-data
_train[1:29445,4])
data_prediction<-predict(data classifier,data test)
library(gmodels)
CrossTable(data prediction,data_test$V4, prop.chisq =
FALSE,prop.t = FALSE, dnn = c(’predicted’,’actual’))
Package yang digunakan merupakan e1071. Package ini membangun model
menggunakan fungsi naiveBayes yang terdapat pada baris keenam program.
Pembagian data dilakukan secara manual. Untuk membangun matrik confusion
diperlukan package tambahan yaitu gmodel. Akurasi hasil penerapan model pada
18
data titik panas baru untuk wilayah Sumatera dan Kalimantan adalah 100%.
Hasilnya dapat dilihat pada Tabel 10 dan Tabel 11.
Pada Tabel 10 dan 11 menunjukkan matrik confusion wilayah Sumatera dan
Kalimantan. Untuk dataset Sumatera terdapat 1307 data bukan titik panas yang
diklasifikasikan sebagai data bukan titik panas sedangkan terdapat 528 data titik
panas yang diklasifikasikan sebagai data titik panas dan juga tedapat 18 data titik
panas yang diklasifikasikan sebagai data bukan titik panas. Sedangkan untuk
dataset Kalimantan terdapat 77 data bukan titik panas yang diklasifikasikan sebagai
data bukan titik panas sedangkan terdapat 23 data titik panas yang diklasifikasikan
sebagai data titik panas dan tidak ada data yang salah dalam proses klasifkasi. Dari
hasil ini dapat disimpulkan bahwa kinerja Naive Bayes terhadap data titik panas
dan lahan gambut di Sumatera dan Kalimantan sangat baik.
Tabel 10 Matrik confusion untuk dataset Sumatera
predictive/actual
F
T
F
1307
18
T
0
528
Tabel 11 Matrik confusion untuk dataset Kalimantan
predictive/actual
F
T
F
77
0
T
0
23
SIMPULAN DAN SARAN
Simpulan
Pada penelitian ini menggunakan data lahan gambut di Sumatera dan
Kalimantan untuk klasifikasi kemunculan titik panas. Dataset yang digunakan
untuk klasifikasi terdiri dari tutupan lahan, tipe lahan gambut, kedalaman gambut,
dan kelas. Dataset dengan nilai akurasi model tertinggi untuk wilayah Kalimantan
dan Sumatera adalah dataset tahun 2006 dengan nilai akurasi model 99.996% untuk
Kalimantan dan 99.992% untuk Sumatera. Model dengan dengan akurasi tertinggi
berhasil diterapkan pada dataset 2015 dengan akurasi 100% untuk Kalimantan dan
99.02% untuk Sumatera. Dengan demikian model klasifikasi menggunakan
algoritme Naive Bayes dapat digunakan untuk memprediksi kemunculan titik panas.
Saran
Saran yang dapat dilakukan untuk penelitian selanjutnya adalah membangun
suatu aplikasi berbasis web untuk menampilkan hasil dari klasifikasi titik panas
menggunakan algoritme Naive Bayes. Selain itu sistem dapat menampilkan
visualisasi dalam bentuk peta.
19
DAFTAR PUSTAKA
Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan
Pengendalian Kebakaran Hutan dan Lahan Gambut. Proyek Climate Change,
Forests and Peatlands in Indonesia. Bogor(ID):Wetlands InternationalIndonesianProgramme and Wildlife Habitat Canada.
Dieterle G, Heil A. 1998. Impacts of Large Scale Forest and Land Fires in
Indonesia 1997 on Regional Air Pollution. Di dalam: Chokkalingam U, Suyanto,
Wibowo P, editor. Kebakaran di Lahan Rawa/Gambut di Sumatera : Masalah
dan Solusi; 2003 Desember 10-11; Palembang, Indonesia. Bogor(ID): Center
For International Forestry Research.
Fernando V, Sitanggang IS. 2014. Klasifikasi Data Spasial untuk Kemunculan
Hotspot di Provinsi Riau Menggunakan Algoritme ID3. Integrasi Sains MIPA
untuk Mengatasi Masalah Pangan, Energi, Kesehatan, Reklamasi, dan
Lingkungan; 09-11 Mei 2014; Bogor, Indonesia. Bogor (ID): SEMIRATA. hlm
428-436. ISBN: 978-602-70491-0-9.
Friedman, N., Geiger, D., Goldszmidt, M.,1997. Bayesian network classifiers.
Kluwer Academic Publishers, Boston, pp. 1-37.
Han J, Kamber M, Pei J. 2012. Data Mining: Concepts and Techniques 3rd ed.
United States of America:Morgan Kaufmann Publishers.
LAPAN. 2014. KEKERINGAN TAHUN 2014: NORMAL ATAUKAH
EKSTRIM [Internet]. [diunduh 2015 April 23]. Tersedia pada:
http://lapan.go.id/index.php/subblog/read/2014/838/KEKERINGAN-TAHUN2014-NORMAL-ATAUKAH-EKSTRIM/932
Levine. 1998. Gaseous and particulate emissions released to the atmosphere during
forest fires: a case study of Kalimantan and Sumatra, Indonesia in 1997. Di
dalam: Chokkalingam U, Suyanto, Wibowo P, editor. Kebakaran di Lahan
Rawa/Gambut di Sumatera : Masalah dan Solusi; 2003 Desember 10-11;
Palembang, Indonesia. Bogor(ID): Center For International Forestry Research.
Sitanggang IS, Yaakob R, Mustapha N, Ainuddin AN. 2012. Application of
Classification Algorithms in Data Mining for Hotspots Occurance Prediction in
Riau Province Indonesia. Journal of Theoretical and Applied Information
Technology. 43(2): 214-221. ISSN: 1992-8645, E-ISSN: 1817-3195.
Wibowo, P dan N Suyatno. 1998. An Overview of Indonesian Wetlands Sites – II.
Wetlands International Indonesia Programme (WI-IP)
Witten H, Frank E. 2000. Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations. United States of America:Ac ademic
Press.
20
Lampiran 1 Luas lahan gambut Kalimantan berdasarkan kedalaman gambut
No
1
2
3
4
5
Kedalaman gambut
50-100
100-200
200-400
400-800
800-1200
Luas(ha)
1922748.40
1260926.73
1146082.39
1065640.91
364675.44
Lampiran 2 Luas lahan gambut Sumatera berdasarkan tutupan lahan gambut
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
Tutupan Lahan Gambut
Hutan rawa
Belukar rawa
Kelapa sawit pada bekas hutan rawa < 5 th
Kelapa sawit pada bekas hutan rawa > 5 th
Kelapa pada bekas hutan rawa > 5 th
Sawah intensif (padi-palawija/bera), jeruk
Belukar pada bekas sawah
Semak, rumput pada bekas sawah
Lahan terbuka/persiapan perkebunan
Sawah dan kelapa
Lahan hutan konsesi penebangan
Sawah tadah hujan (padi, palawija/bera)
Kelapa pada bekas hutan rawa > 5
Semak dan rumput rawa bekas kebakaran
Kebun karet
Kelapa pada bekas hutan rawa > 5 th
Sawah tadah hujan (padi, palawija, bera)
Kelapa sawit pada bekas hutan rawa > 5 th
Semak rumput pada bekas sawah
Lahan penanaman tanaman industry
Kelapa sawit bekas hutan rawa
Sawah intensif (padi-padi)
Kebun campuran
Tambak
Sawah pasang surut
Semak dan rumput rawa dan beka
Semak dan rumput dan bekas kebakaran
Sawah tadah hujan (padi-pala)
Kelapa sawit pada bekas hutan
Kelapa pada bekas huta rawa > 5 th
Sawah intensif (padi-palawija)
Luas(ha)
3489404.14
718566.35
250036.40
407214.51
761830.36
307587.60
1179.60
19982.90
29410.10
332407.67
137988.98
130134.57
373.37
235355.99
83640.16
761830.36
1105865.13
407214.51
5009.43
43891.88
1032.31
18094.84
10721.04
9447.26
15202.54
11471.98
2706.00
3671.44
14765.14
7193.15
3403.85
21
Lampiran 3 Ilustrasi perhitungan Naive Bayes
Ide utama dari rumus Bayes yang dapat dilihat pada persamaan (2), yaitu
suatu hipotesis atau kejadian (Ci) dapat diprediksi berdasarkan beberapa buktu
(X) yang dapat diobservasi. Dari rumus Bayes dapat disimpulkan:
1. Peluang prior dari Ci atau P(Ci) : merupakan dari suatu kejadian sebelum
bukti diobservasi.
2. Peluang posterior dari Ci atau P(Ci | X) : merupakan peluang dari suatu
kejadian setelah bukti diobservasi.
Tipe Gambut
Kedalaman Gambut (cm) Kelas
Hemists/Saprists/Mineral
50-100
T
Hemists/Saprists/Mineral
50-100
T
Hemists/Fibrists/Saprists
100-200
T
Saprists/Mineral
50-100
T
Hemists/Fibrists
200-400
F
Hemists/Mineral
50-100
F
Hemists/Fibrists
100-200
F
Hemists/Fibrists/Mineral
50-100
F
Saprists/Hemists/Mineral
200-400
F
Hemists/Fibrists
800-1200
F
No
1
2
3
4
5
6
7
1
2
3
4
5
6
7
Tipe gambut
Ket
Hemists/Saprists/Mineral
Hemists/Fibrists/Saprists
Saprists/Mineral
Hemists/Fibrists
Hemists/Mineral
Hemists/Fibrists/Mineral
Saprists/Hemists/Mineral
Hemists/Saprists/Mineral
Hemists/Fibrists/Saprists
Saprists/Mineral
Hemists/Fibrists
Hemists/Mineral
Hemists/Fibrists/Mineral
Saprists/Hemists/Mineral
T
2
1
1
0
0
0
0
2/4
1/4
1/4
0/4
0/4
0/4
0/4
F
0
0
0
3
1
1
1
0/6
0/6
0/6
3/6
1/6
1/6
1/6
Kedalaman gambut
Ket
T
F
50-100
3
2
100-200
1
1
200-400
0
2
800-1200 0
1
50-100
100-200
200-400
800-1200
3/4
1/4
0/4
0/4
2/6
1/6
2/6
1/6
Kelas
T
4
F
6
4/10
6/10
Tabel diatas menunjukkan frekuensi dari masing-masing kejadian. Seperti
contohnya, terdapat 2 contoh dari dataset pada Tabel 12 (tipegambut =
Hemists/Saprists/Mineral | kelas = T). Setelah menghitung semua frekuensi,
tahapan berikutnya adalah membangun model Naïve Bayes pada Tabel 13
dengan menghitung P(X|Ci) dan P(Ci), sebagi berikut :
P(tipe gambut = Hemists/Saprists/Mineral | kelas = T) = 2/4
P(kelas = T) = 4/10
Setelah membangun model Naive Bayes, model tersebut dapat digunakan
untuk memprediksi berbagai kejadian, seperti “T” berdasarkan fakta-fakta yang
22
ada. Jika dilakukan observasi terhadap (tipe gambut = Hemists/Saprists/Mineral)
dan (kedalaman gambut = 800-1200), maka peluang posterior dapat
diestimasikan:
P[T|X] = P[tipe gambut = Hemists/Saprists/Mineral|T] × P[kedalaman gambut =
800-1200|T] × P[T]
=18/28 × 1/4 × 2/5
Peluang untuk T = 18/28 × 1/4 × 4/10 = 0.0642
Peluang untuk F = 1/7 × 5/12 × 6/10 = 0.0357
Pada model Naive Bayes terdapat nilai peluang nol. Untuk menangani
kasus ini dapat digunakan salah satu teknik smoothing yaitu Laplace estimation.
Berikut
implementasi
Laplace
estimation
untuk
atribut
“Hemists/Saprists/Mineral” ketika kelas = F dan kelas = T:
0 + μp1
P(tipe gambut=Hemists/Saprists/Mineral|kelas=F) =
6+μ
0 + μp2
P(tipe gambut=Hemists/Fibrists/Saprists|kelas=F) =
6+μ
0 + μp3
P(tipe gambut=Saprists/Mineral|kelas=F)
=
6+μ
3 + μp4
P(tipe gambut=Hemists/Fibrists|kelas=F)
=
6+μ
1 + μp5
P(tipe gambut=Hemists/Mineral|kelas=F)
=
6+μ
1 + μp6
P(tipe gambut=Hemists/Fibrists/Mineral|kelas=F) =
6+μ
1 + μp7
P(tipe gambut=Saprists/Hemists/Mineral|kelas=F) =
6+μ
Dimana (p1 + p2 + p3 + p4 + p5 + p6 + p7) = 1. Oleh karena itu, p1 = p2 = p3 = p4 =
p5 = p6 = p7 = 1/7
6
0 + μ/7
0 + 1/7
=
=
42
6+μ
6+7
1 + 1/4
1 + μ/4
5
P(kedalaman gambut=800-1200|kelas=F)
=
=
=
6+4
6+μ
12
18
2
+
μ/7
2
+
1/7
P(tipe
=
=
=
gambut=Hemists/Saprists/Mineral|kelas=T)
24
4+μ
4+7
1
0 + μ/4
0 + 1/4
P(kedalaman gambut=800-1200|kelas=T)
=
=
=
4
4+μ
4+4
Berdasarkan
perhitungan
nilai
peluang
terhadap
(tipe
gambut=Hemists/Saprists/Mineral) dan (kedalaman gambut=800-1200) dapat
disimpulkan bahwa data tersebut masuk kedalam kelas T.
P(tipe
gambut=Hemists/Saprists/Mineral|kelas=F)
=
23
RIWAYAT HIDUP
Penulis dilahirkan pada tanggal 26 Januari 1993 di Jakarta. Penulis
merupakan anak pertama dari tiga bersaudara dari pasangan Cendra Yevil dan
Herlina. Pada tahun 2010, penulis lulus dari SMA Negeri 1 Cilegon dan diterima di
Diploma Institut Pertanian Bogor melalui jalur SNMPTN Undangan di Program
Keahlian Teknik Komputer. Penulis lulus dari Diploma IPB tahun 2013. Pada tahun
2013, penulis lulus seleksi masuk program Sarjana Alih Jenis, Departemen Ilmu
Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian
Bogor.
Download