Templat tugas akhir S1

advertisement
SPATIO-TEMPORAL CLUSTERING HOTSPOT DI SUMATERA
SELATAN TAHUN 2002-2003 MENGGUNAKAN ALGORITME
ST-DBSCAN DAN BAHASA PEMROGRAMAN R
NADINA ADELIA INDRAWAN
ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
PERNYATAAN MENGENAI SKRIPSI DAN
SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA
Dengan ini saya menyatakan bahwa skripsi berjudul Spatio-Temporal
Clustering Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan
Algoritme ST-DBSCAN dan Bahasa Pemrograman R adalah benar karya saya
dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun
kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari
karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan
dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini.
Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut
Pertanian Bogor.
Bogor, Juni 2014
Nadina Adelia Indrawan
NIM G64100091
ABSTRAK
NADINA ADELIA INDRAWAN. Spatio-Temporal Clustering Hotspot di
Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme ST-DBSCAN dan
Bahasa Pemrograman R. Dibimbing oleh HARI AGUNG ADRIANTO.
Kebakaran hutan merupakan permasalahan yang cukup serius di Indonesia.
Salah satu indikator kemungkinan terjadinya kebakaran hutan dapat diketahui
dengan kemunculan hotspot. Dataset hotspot merupakan data spasial yang
berukuran besar karena dicatat setiap waktu. ST-DBSCAN merupakan salah satu
algoritme yang mampu mengolah data spasial dan temporal. Penelitian ini
mengimplementasikan
algoritme
ST-DBSCAN
menggunakan
bahasa
pemrograman R. R adalah perangkat lunak komputasi statistik dan grafis. Bahasa
R digunakan di kalangan ahli statistik dan data mining untuk mengembangkan
perangkat lunak statistik dan analisis data. Clustering dilakukan terhadap dataset
hotspot di Sumatera Selatan pada periode tahun 2002-2003. Dengan menggunakan
parameter jarak spasial (Eps1) = 0.2, parameter jarak temporal (Eps2) = 7 dan
minimum anggota cluster (MinPts) = 7 didapatkan hasil 41 cluster dengan 712
noise.
Kata kunci: kebakaran hutan, R, spatio-temporal, ST-DBSCAN, titik panas
ABSTRACT
NADINA ADELIA INDRAWAN. Spatio-Temporal Clustering Hotspot in South
Sumatera from 2002 to 2003. Using ST-DBSCAN Algorithm and R
Programming Language. Supervised by HARI AGUNG ADRIANTO.
Forest fire is a serious problem in Indonesia. One indicator of forest fire
possibility can be seen through the occurence of hotspots. Hotspot dataset is large
spatial data because it is recorded continuously. ST-DBSCAN an algorithm that can
process spatial and temporal data. This study implement ST-DBSCAN algorithm
with R language programming. R is software environment for statistical computing
and graphics. The R language is widely used among statisticians and data miners
for developing statistical software. Clustering is performed on hotspots dataset in
South Sumatra in the period 2002-2003. By using the spatial distance parameter
(Eps1) = 0.2, the temporal distance parameters (Eps2) = 7 and a minimum cluster
members (MinPts) = 7 resulted in 41 clusters with 712 noises.
Keywords: forest fire, hotspot, R, spatio-temporal, ST-DBSCAN
SPATIO-TEMPORAL CLUSTERING HOTSPOT DI SUMATERA
SELATAN TAHUN 2002-2003 MENGGUNAKAN ALGORITME
ST-DBSCAN DAN BAHASA PEMROGRAMAN R
NADINA ADELIA INDRAWAN
Skripsi
sebagai salah satu syarat untuk memperoleh gelar
Sarjana Ilmu Komputer
pada
Departemen Ilmu Komputer
ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT PERTANIAN BOGOR
BOGOR
2014
Penguji:
1 Dr Imas Sukaesih Sitanggang, SSi MKom
2 Endang Purnama Giri, SKom MKom
Judul Skripsi : Spatio-Temporal Clustering Hotspot di Sumatera Selatan Tahun
2002-2003 Menggunakan Algoritme ST-DBSCAN dan Bahasa
Pemrograman R
Nama
: Nadina Adelia Indrawan
NIM
: G64100091
Disetujui oleh
Hari Agung Adrianto, SKom MSi
Pembimbing I
Diketahui oleh
Dr Ir Agus Buono, MSi MKom
Ketua Departemen
Tanggal Lulus:
PRAKATA
Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas
segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul penelitian
yang dilaksanakan sejak bulan Januari 2014 ini ialah Spatio-Temporal Clustering
Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme
ST-DBSCAN dan Bahasa Pemrograman R.
Terima kasih penulis ucapkan kepada Ayah dan Ibu serta keluarga atas doa
dan dukungannya. Ungkapan terimakasih juga disampaikan kepada Bapak Hari
Agung Adrianto selaku pembimbing, Ibu Imas Sukaesih Sitanggang dan Bapak
Endang Purnama Giri yang telah banyak memberi saran serta teman-teman
Departemen Ilmu Komputer. Semoga karya ilmiah ini bermanfaat.
Bogor, Juni 2014
Nadina Adelia Indrawan
DAFTAR ISI
DAFTAR TABEL
viii
DAFTAR GAMBAR
viii
DAFTAR LAMPIRAN
viii
PENDAHULUAN
1
Latar Belakang
1
Perumusan Masalah
1
Tujuan Penelitian
2
Manfaat Penelitian
2
Ruang Lingkup Penelitian
2
TINJAUAN PUSTAKA
2
METODE PENELITIAN
5
Data Penelitian
5
Tahapan Penelitian
6
Praproses Data
6
Implementasi Algoritme ST-DBSCAN Menggunakan R
6
Clustering Menggunakan ST-DBSCAN
7
Analisis Cluster
8
Visualisasi Cluster
8
Lingkupan Pengembangan
8
HASIL DAN PEMBAHASAN
8
Praproses Data
8
Implementasi Algoritme ST-DBSCAN Menggunakan R
10
Clustering Menggunakan ST-DBSCAN
13
Analisis Cluster
14
Visualisasi Cluster
16
SIMPULAN DAN SARAN
18
Simpulan
18
Saran
18
DAFTAR PUSTAKA
18
LAMPIRAN
20
RIWAYAT HIDUP
24
DAFTAR TABEL
1 Transformasi data mengubah format date menjadi number
2 Penjelasan source code ST-DBSCAN
3 Jumlah hotspot dalam cluster besar
9
12
14
DAFTAR GAMBAR
1 Core-point, border-point, dan noise.
3
2 Matriks jarak n × n
4
3 Peta Provinsi Sumatera Selatan (Purwanto 2012)
5
4 Diagram alir penelitian
6
5 Diagram alir algoritme
7
6 Grafik pergeseran penggerombolan (Purwanto 2012)
9
7 Hubungan titik noise dengan Eps1 (Purwanto 2012)
10
8 Directly density-reachable dan Density-reachable
11
9 Source code ST-DBSCAN menggunakan R
12
10 Jumlah titik per cluster
13
11 Runtime algoritme ST-DBSCAN menggunakan R
14
12 Ilustrasi pola spatio-temporal (Purwanto 2012)
15
13 Cluster 2 pada periode 1 (kiri-atas) dan periode 16 (kanan-bawah) 15
14 Visualisasi seluruh cluster di Sumatera Selatan
17
15 Grafik cluster 2 per-periode waktu 7 hari
17
16 Visualisasi pola cluster 22
17
DAFTAR LAMPIRAN
1 Peta pola hotspot yang ditemukan di Sumatera Selatan
2 Penjelasan pola hotspot dalam cluster besar
20
23
PENDAHULUAN
Latar Belakang
Kebakaran hutan di Indonesia merupakan masalah yang terus berulang dan
termasuk permasalahan yang serius. Peringatan titik api biasanya muncul cukup
banyak pada periode bulan Juni hingga September. Terdapat sekitar 60 persen
peringatan titik api yang terobservasi setiap tahunnya muncul pada periode waktu
4 bulan tersebut. Tercatat pada data historis antara tahun 2001 sampai 2012, terjadi
rata-rata sekitar 20,000 peringatan titik api setiap tahunnya di Sumatera dengan
tingkat keyakinan deteksi lebih dari 30 persen (Austin et al 2013).
Menurut Adinugroho (2005) salah satu indikator kemungkinan terjadinya
kebakaran hutan ialah hotspot. Dalam hal ini terdapat kemungkinan bahwa
persebaran titik api menggerombol dalam ruang secara alami tidak tersebar acak
sehingga data tersebut dapat dianalisis menggunakan teknik clustering.
Ada beberapa macam teknik clustering di antaranya k-means, hierachical
cluster, DBSCAN dan ST-DBSCAN. Di antara semua metode clustering, algoritme
DBSCAN merupakan salah satu metode yang paling baik untuk menemukan cluster
dari database spasial yang besar (Gaonkar dan Sawant, 2013). ST-DBSCAN
merupakan perluasan algoritme DBSCAN. Jika DBSCAN hanya mengolah data
spatial maka ST-DBSCAN mampu mengolah data temporal dengan menggunakan
nilai Eps1 (parameter jarak pada aspek spasial) dan nilai Eps2 (parameter jarak pada
aspek temporal). ST-DBSCAN memiliki kelebihan lebih fleksibel dengan ukuran
data yang besar karena merupakan teknik clustering yang berbasis kepadatan
(Birant dan Kut 2007).
R adalah perangkat lunak komputasi statistik dan grafis. R sangat efektif
dalam memvisualisasikan cluster dan dalam pengelolaan data serta fasilitas
penyimpanan. Selain itu R dapat dikembangkan sesuai kebutuhan dengan
menambah fitur-fitur tambahan dalam bentuk paket ke dalam software R yang
bersifat open source (Venables dan Smith 2009).
Pada penelitian diimplementasikan algoritme ST-DBSCAN menggunakan
bahasa pemrograman R. Data yang dipakai ialah dataset hotspot di Sumatera
Selatan tahun 2002-2003. Diharapkan implementasi ST-DBSCAN dapat
menghasilkan pola penyebaran hotspot sehingga kebakaran hutan di Indonesia
dapat dikendalikan.
Perumusan Masalah
Perumusan masalah dalam penelitian ini yaitu
1 Bagaimana
mengimplementasikan
algoritme
ST-DBSCAN
menggunakan bahasa pemograman R?
2 Apakah terdapat pola tertentu pada cluster yang dihasilkan?
2
Tujuan Penelitian
Tujuan dari penelitian ini adalah menemukan pola cluster dengan algoritme
clustering ST-DBSCAN yang diimplementasikan menggunakan bahasa
pemrograman R
Manfaat Penelitian
Hasil penelitian yang berupa pola penyebaran kebakaran hutan dan lahan
diharapkan dapat digunakan oleh pemerintah untuk mengendalikan kejadian
kebakaran hutan di Sumatera Selatan serta wawasan bagi masyarakat.
Ruang Lingkup Penelitian
1
2
3
Ruang lingkup dari penelitian ini adalah:
Penelitian ini dibatasi pada wilayah Sumatera Selatan, Indonesia.
Algoritme clustering yang akan digunakan untuk pengolahan dataset hotspot
adalah algoritme ST-DBSCAN.
Implementasi algoritme ST-DBSCAN dilakukan dalam bahasa pemrograman
R.
TINJAUAN PUSTAKA
Kebakaran Hutan
Kebakaran hutan adalah suatu proses reaksi yang menyebar secara bebas dari
perpaduan antar unsur oksigen, bahan bakar hutan dan panas yang mengkonsumsi
bahan bakar alam yang terdapat di hutan seperti serasah, rumput, humus, ranting –
ranting, kayu mati, tiang, gulma, semak, dedaunan, dan pohon segar lainnya untuk
tingkat terbatas yang ditandai dengan adanya panas, cahaya dan asap (Brown dan
Davis 1973).
Secara alami kebakaran dipengaruhi oleh beberapa faktor alam yang
berkaitan, yaitu iklim (kemarau panjang, petir dan daya alam lainnya), jenis
tanaman (misalnya pinus, mengandung resin), tipe vegetasi (alang-alang, hutan
terbakar, hutan-hutan monokultur tertentu), bahan-bahan sisa vegetasi (serasah,
ranting kering), humus dan sebagainya. Penyebab kebakaran hutan didefinisikan
sebagai sesuatu yang bersifat alami maupun perbuatan manusia yang menyebabkan
terjadinya proses penyalaan serta pembakaran bahan bakar hutan dan lahan
(Syaufina 2008).
Dataset Spatio-Temporal
Data spasial adalah suatu entitas data dalam sistem informasi geografis (SIG)
yang dapat dikelola, dianalisis, dan dapat memetakan informasi objek keruangan
beserta data atributnya. Data spasial juga dapat disimpan dalam basis data dan
3
ditampilkan ke dalam suatu sistem yang terpadu sehingga mendukung dalam
pengambilan keputusan (Shekhar dan Chawla 2003). Dalam data spasial, variabel
datanya merepresentasikan lokasi spasial dan tidak memberikan informasi apapun
tentang fitur lainnya sedangkan data spatio-temporal biasanya mengandung lokasi
dari suatu objek, kejadian, atau posisi dalam ruang selama suatu periode waktu.
Pada dasarnya, hal utama dari dataset spatio-temporal adalah memperhatikan
perubahan nilai dari atribut spasial selama satu periode waktu. Suatu kejadian pada
dataset spatio-temporal menggambarkan gejala spasial dan temporal yang mungkin
terjadi pada waktu dan lokasi tertentu. Contoh kejadian spatio-temporal adalah
gempa bumi, angin topan, kemacetan lalu lintas, kecelakaan, dan kebakaran hutan.
Menurut Rao et al (2012) banyak dari kejadian tersebut yang berinteraksi satu
sama lain serta menunjukkan pola spasial dan temporal yang dapat membantu untuk
memahami gejala fisik sebelumnya. Hotspot dapat dikatakan termasuk ke dalam
dataset spatio-temporal karena merupakan parameter yang diturunkan dari data
satelit yang mencakup aspek temporal (Thoha 2008).
Algoritme ST-DBSCAN
Konsep utama dari DBSCAN adalah suatu titik dikatakan anggota dari suatu
cluster jika memiliki setidaknya nilai minimum dari nilai-nilai tetangganya (minpts) pada jarak yang ditentukan (ɛ), dan dapat dikatakan bahwa kerapatan (density)
dalam jangkauannya harus lebih dari nilai ambang batasnya (threshold).
Berdasarkan pendekatan ini, terdapat tiga macam titik (Gambar 1). Epsneighborhood adalah sebuah titik yang didefinisikan dengan {q ϵ D | dist(p,q) ≤
Eps1 & dist(p,q) ≤ Eps2}. Sebuah titik dapat dikatakan sebagai core point jika
jumlah eps-neighborhood ≥ MinPts. Border point adalah titik yang bukan core
point tetapi density reachable dari core point lainnya, sedangkan noise point adalah
titik yang tidak termasuk ke dalam cluster manapun.
x
Noise point
x
MinPts = 4
Gambar 1 Core-point, border-point, dan noise.
Algoritme ST-DBSCAN dibangun dengan memodifikasi algoritme
DBSCAN. Berbeda dengan algoritme DBSCAN yang hanya membutuhkan dua
parameter, algoritme ST-DBSCAN membutuhkan empat parameter, yaitu Eps1 (ɛ1),
Eps2 (ɛ2), MinPts, dan . Eps1 adalah parameter jarak untuk atribut spasial
(latitude dan longitude). Eps2 adalah parameter jarak untuk atribut temporal.
Formula jarak yang dapat digunakan untuk Eps1 dan Eps2 adalah Euclidean,
4
Manhattan, Minkowski, atau lain sebagainya. MinPts adalah jumlah minimum
objek yang berada di dalam jarak Eps1 dan Eps2. Parameter terakhir  digunakan
untuk mencegah ditemukannya kombinasi cluster akibat perbedaan non-spasial
yang sangat tipis antar-tetangga (Birant dan Kut 2007).
Dissimilarity Matrix
Sebuah matriks perbedaan (dissimilarity matrix) menyimpan kedekatan atau
jarak untuk semua pasangan dari n objek. Hal ini dapat diilustrasikan dengan
matriks n × n seperti yang ditunjukkan oleh Gambar 2.
Gambar 2 Matriks jarak n × n
d(i,j) adalah jarak atau perbedaan antar objek i dan j. Pada umumnya, d(i,j)
adalah nilai postif yang mendekati 0 ketika objek i dan j sangat mirip atau “dekat”
satu sama lain dan menjadi lebih besar ketika kedua objek tersebut berbeda. Pada
Gambar 2 kita memiliki matriks segitiga atas karena d(i,j) = d(j,i) dan d(i,i) = 0.
Kedekatan dapat didefinisikan dalam metrik jarak. Fungsi jarak, d(i,j) harus
refleksif dan simetris. Salah satu perhitungan jarak yang populer adalah perhitungan
jarak euclidean. Jarak euclidean merupakan perhitungan jarak yang sensitive
terhadap outlier yang ditunjukkan pada persamaan 1:
Dist(i,j) = √(xlong - xlongj )2 +(xlati - xlatj )2
i
(1)
i dan j merupakan objek dua dimensi (Han dan Kamber 2006).
Pada penelitian ini fungsi metrik jarak digunakan untuk menghitung
kedekatan pada aspek spasial. Pada aspek temporal euclidean distance dapat
diterapkan namun kurang efisien karena aspek temporal hanya terdiri atas satu
dimensi digunakan persamaan 2:
Dist(i,j) = |xdatei - xdatei+1 |
(2)
xdate adalah objek pada kolom date dan merupakan objek satu dimensi.
Pola Penyebaran Hotspot
Menurut Pöelitz dan Andrienko (2010) terdapat kelompok tipe cluster yang
berbeda bentuk lokasi dan waktunya serta dapat dideteksi. Terdapat 4 tipe cluster
yaitu:
1 Reappearing
Cluster reappering merupakan tipe cluster temporal yang terjadi dalam lokasi
yang sama dan dipisahkan oleh interval waktu. Tipe cluster reappearing dibagi
menjadi dua:
5
a Regular (periodik)
Cluster regular memiliki interval waktu serta tempat kemunculan hotspot
yang sama. Sebagai contoh, kejadian hotspot terjadi pada lokasi x dan waktu
t0, t1, t2, …, tn dengan perbedaan waktu antara t0 dengan t1 adalah 3 hari, t1
dengan t2 adalah 3 hari, begitu seterusnya hingga tn-1 dengan tn.
b Irregular
Cluster irregular memiliki interval waktu yang berbeda namun tempat
kemunculan hotspot sama. Sebagai contoh, kejadian hotspot terjadi pada
lokasi x dan waktu t0, t1, t2, …, tn dimana perbedaan waktu antara t0 dengan
t1 adalah 3 hari, t1 dengan t2 adalah 8 hari, dan akan berbeda kembali saat tn1 dengan tn.
2 Stationary
Cluster diperluas secara temporal pada seluruh rentang waktu penelitian atau
dari saat tertentu sampai akhir waktu tertentu dalam rentang waktu penelitian
namun terbatas secara spasial.
3 Occasional
Cluster occasional memiliki perpindahan spasial dan perubahan temporal secara
bersamaan.
4 Tracks
Pola kejadian berikutnya pada cluster mengalami pergerakan secara spasial dan
memiliki temporal yang sangat padat. Contohnya adalah serangkaian foto yang
diambil oleh wisatawan dalam perjalanan.
METODE PENELITIAN
Data Penelitian
Wilayah penelitian melingkupi Provinsi Sumatera Selatan yang terletak
antara 5o10’ sampa 1o20’ Lintang Selatan dan 101o40’ sampai 106o30’ Bujur Timur
(Gambar 3). Penelitian ini menggunakan dataset hotspot tahun 2002-2003 dengan
1o mewakili jarak sekitar 110 km.
Gambar 3 Peta Provinsi Sumatera Selatan (Purwanto 2012)
6
Data penelitian diperoleh dari Fire Information for Resource Management
System (FIRMS) yang merupakan data hotspot MODIS yang disediakan oleh
National Aeronautics and Space Administration (NASA). Variabel yang terdapat
pada dataset meliputi titik spasial (latitude dan longitude), tingkat kecerahan pada
piksel hotspot (Kelvin), ukuran piksel sebenarnya (scan dan track), tanggal dan
waktu pengambilan data, satelit (Aqua dan Terra), confidence yang menunjukkan
ukuran kualitas piksel pada setiap hotspot (skala 0-100%), versi pengambilan data
(collection – angka sebelum desimal dan source – angka sesudah desimal yang
mengindikasikan sumber data), dan FRP (menunjukkan piksel yang terintegrasi
radiasi api dalam satuan MegaWatts).
Tahapan Penelitian
Tahapan penelitian yang dilakukan pada penelitian ini ditunjukkan pada
Gambar 4.
Pengumpulan Data
Mulai
Clustering
menggunakan
ST-DBSCAN
Hasil
Cluster
Implementasi
Algoritme
ST-DBSCAN
menggunakan R
Analisis Cluster
Visualisasi
Cluster
Praproses
Data
Data Hasil
Praproses
Selesai
Gambar 4 Diagram alir penelitian
Praproses Data
Tahap praproses data terdiri atas tahapan transformasi data dan reduksi data.
Pada tahap transformasi dilakukan perubahan tipe format data dengan merubah tipe
format date menjadi tipe format number. Selain itu dilakukan tahapan reduksi data
dengan melakukan pengurangan data dari 11 variabel menjadi 3 variabel yaitu
longitude, latitude, dan tanggal pemantauan hotspot.
Implementasi Algoritme ST-DBSCAN Menggunakan R
Pada tahapan ini dilakukan modifikasi fungsi dbscan yang terdapat pada
package fpc. Fungsi dbscan pada package fpc hanya menggunakan satu epsilon
kemudian dimodifikasi menjadi st-dbscan dengan dua epsilon. Alur algoritme
DBSCAN dan ST-DBSCAN dapat dilihat pada Gambar 5.
7
Mulai
Algoritme DBSCAN
Algoritme ST-DBSCAN
Membaca
Data
Menghitung Matriks Jarak
Matriks Jarak Spasial
Matriks Jarak Temporal
Mencari tetangga secara spasial
Mencari tetangga secara
temporal
Mencari tetangga dari
tetangga secara spasial
Mencari tetangga dari
tetangga secara temporal
Pembentukan
cluster
Tidak
Apakah semua
titik sudah ditandai?
Ya
Selesai
Gambar 5 Diagram alir algoritme
Clustering Menggunakan ST-DBSCAN
Algoritme ST-DBSCAN merupakan pengembangan dari algoritme
DBSCAN. Algoritme ST-DBSCAN membutuhkan empat parameter, yaitu Eps1
(parameter yang menyatakan jarak antar 2 objek di permukaan bumi), Eps2
(parameter yang menyatakan jarak antar kejadian waktu), MinPts (jumlah anggota
suatu cluster), dan  (Brian dan Kut 2007). Pada penelitian ini hanya tiga
parameter yang digunakan yaitu Eps1, Eps2 dan MinPts.
Penentuan nilai parameter merujuk pada penelitian Purwanto (2012). Pada
penelitian tersebut penentuan ketiga parameter dihitung menggunakan algoritme kdist. Penentuan nilai Eps1, Eps2, dan MinPts sangat berpengaruh terhadap cluster
yang akan dihasilkan. Nilai Eps1 dan Eps2 ditentukan guna mendapatkan total
cluster dalam jumlah sedikit sedangkan nilai MinPts untuk mendapatkan noise yang
8
sedikit. Sehingga penentuan nilai ketiga paramater tersebut dilakukan agar
mendapatkan total cluster dan noise dalam jumlah yang sedikit.
Analisis Cluster
Pada tahapan ini akan dianalisis apakah cluster tersebut memiliki pola
stasionary, reappearing (regular dan irregular), occasional, ataukah track (Pöelitz
dan Andrienko 2010).
Visualisasi Cluster
Visualisasi merupakan tahapan terakhir dari penelitian ini. Setelah
pembuatan model clustering serta analisis dan evaluasi model clustering berjalan
baik, selanjutnya adalah memvisualisasikan penelitian ini dalam bentuk peta
beserta titik hotspot-nya guna mengetahui wilayah penyebaran hotspot. Pada
tahapan ini digunakan fungsi maptools dalam package rworldmap dan rwolrdxtra
yang dapat menampilkan hasil cluster ke atas peta.
Lingkupan Pengembangan
Pembuatan model clustering dengan menggunakan algoritme ST-DBSCAN
ini menggunakan beberapa perangkat keras dan perangkat lunak dengan spesifikasi
sebagai berikut:
1 Perangkat Keras
 Processor: Intel(R) Core(TM) i3 CPU M 2330 @ 2.2GHz
 Memory: Sodim DDR3 2 GB RAM
 Monitor
2 Perangkat Lunak
 Sistem operasi Windows 7 Enterprise 64-bit
 Bahasa Pemrograman R-3.0.2 version of R64
 Microsoft Excel 2013
 Notepad++
HASIL DAN PEMBAHASAN
Praproses Data
1
Perubahan format pada kolom date
Data tanggal akan di ubah ke dalam format number menggunakan Microsoft
Excel, hari pertama dimulai dari 1 Januari 1900. Pengubahan format ini dilakukan
agar ketika terjadi penambahan data sebelum tanggal pertama data yang digunakan
9
saat ini tidak menyebabkan variabel tanggal bernilai -1 jika penanggalan dimulai
dari 1 Januari 2008.
Tabel 1 Transformasi data mengubah format date menjadi number
Tanggal
Tanggal
(mm/dd/yyyy)
(number)
11/05/2002
37387
22/05/2002
37398
29/05/2002
37405
03/06/2002
37410
2
Reduksi data
Penelitian ini hanya memerlukan aspek spasial dan aspek temporal untuk
proses mining sehingga reduksi data dilakukan dengan memilih 3 atribut dari 11
atribut. Atribut yang terdapat dalam dataset yaitu: longitude, latitude, acq_date,
acq_time, brightness, confidence, satelite, bright_t31, frp, scan dan track. Atribut
yang dipilih yaitu longitude, latitude yang merupakan aspek spasial dan tanggal
pemantauan hotspot sebagai aspek temporalnya.
Perhitungan nilai parameter
Pada penelitian Purwanto (2012) penentuan nilai Eps1 dan MinPts dilakukan
dengan perhitungan k-dist dengan nilai k yang bervariasi. Penggerombolan dapat
diidentifikasi jika k tetangga terdekat memiliki jarak yang sama dengan titik yang
lain atau dapat dikatakan bahwa titik dalam suatu penggerombolan secara kasar
memiliki jarak yang sama.
Optimalisasi nilai Eps1 dan MinPts (k) dilakukan dengan cara melakukan
pergeseran nilai Eps1 (Gambar 6). Pergeseran nilai Eps1 dilakukan pada nilai k=4,
k=7, k=15 dan k=18 dengan nilai Eps1 0.125 sampai 0.2. Dari pergeseran nilai Eps1
didapatkan nilai Eps1 = 0.2 dengan total hasil cluster paling sedikit sehingga pada
penelitian ini digunakan Eps1 = 0.2 yang mewakili jarak sekitar 22 km.
Banyak
Penggerombolan
3
100
80
60
40
20
0
Penggerombolan K=4
k
k
Penggerombolan K=7
k
Penggerombolan K=11
k
Penggerombolan K=15
0.125
0.175
0.2
k
Penggerombolan K=18
Nilai Eps1
Gambar 6 Grafik pergeseran penggerombolan (Purwanto 2012)
Gambar 7 menunjukkan jumlah titik yang tidak terdapat di cluster manapun
(noise) pada k=7 lebih stabil seiring penambahan nilai Eps1. Berdasarkan nilai
Eps1=0.2 diperoleh k = 4, k = 7 dan k = 11 memiliki noise paling sedikit sehingga
pada penelitian ini digunakan minpts =7 dan Eps1=0.2.
Banyak Noise
10
150
Noise k
K=4
100
Noise k
K=7
50
Noise k
K=11
0
Noise k
K=15
0.125
0.175
Nilai Eps1
0.2
Noise k
K=18
Gambar 7 Hubungan titik noise dengan Eps1 (Purwanto 2012)
Pada ST-DBSCAN selain parameter Eps1 dan MinPts juga digunakan parameter
Eps2. Pada penelitian ini nilai Eps2 yang dipakai adalah 7 meskipun Purwanto (2012)
menggunakan nilai 30 sebagai Eps2. Eps2 =7 bertujuan agar perubahan cuaca yang
terjadi tidak jauh berbeda dan untuk mendapatkan pola dalam rentang waktu yang
cenderung lebih kecil.
Implementasi Algoritme ST-DBSCAN Menggunakan R
Tahap ini dilakukan dengan mengimplementasikan algoritme ST-DBSCAN
ke dalam bahasa pemrograman R (Brian dan Kut 2007). Algoritme dimulai dengan
perhitungan matriks jarak euclidean pada aspek spasial dan aspek temporal
menggunakan fungsi dist. Fungsi cbind digunakan untuk menggabungkan kolom
longitude dan kolom latitude menjadi sebuah matriks. Setelah itu mengubah tipe
data “data_spasial dan data_temporal” menjadi matriks karena hasil dist berupa
matriks segitiga atas sehingga perlu dinormalisasi. Selanjutnya n(row) digunakan
untuk menghitung banyaknya baris yang terdapat pada data. Clustering dimulai dari
objek pertama (o1) di vektor cv. Objek o2 di D dipilih setelah objek o1 diproses. Jika
objek o1 belum termasuk ke dalam cluster, maka dicari irisan dari tetangga (oi, Eps1)
dan tetangga (oi, Eps2) menggunakan fungsi intersect yang kemudian hasil
irisannya dimasukkan ke dalam variabel reachables. Suatu objek dikatakan noise
jika jumlah objek yang dikembalikan dalam Eps-Neighborhood kurang dari
MinPts, dalam hal ini berarti oi tidak memliki cukup tetangga untuk membentuk
sebuah cluster. Eps-Neighborhood adalah objek yang terjangkau secara spasial dan
temporal oleh objek ke-i. Objek dengan label noise dapat berubah pada proses
selanjutnya jika objek tidak directly density-reachable namun density-reachable
dari objek-objek lain di D. Directly density-reachable merupakan objek yang
terjangkau langsung oleh objek ke-i sedangkan density-reachable adalah objek
yang terjangkau oleh tetangga dari objek ke-i (Gambar 8 yang diadopsi dari Brian
dan Kut 2007).
11
q1 = p
p
q
qi
qi+1
qn=p
Gambar 8 Directly density-reachable dan Density-reachable
Jika oi memiliki cukup tetangga dalam jangkauan Eps1 dan Eps2 (oi adalah
core-object), maka cluster baru dibuat. Semua objek yang directly densityreachable dari core-object tersebut juga ditandai sebagai label cluster baru. Setelah
itu algoritme mengumpulkan objek yang density-reachable secara iteratif
menggunakan vektor. Vektor digunakan untuk ekspansi cluster yaitu mencari objek
lain yang density-reachable dari objek directly density-reachable. Proses terus
berulang sampai semua objek di D selesai diproses.
Implementasi algoritme dilakukan dengan memodifikasi fungsi dbscan yang
terdapat pada package fpc. Source code dapat dilihat pada Gambar 9 dan penjelasan
source code modifikasi fungsi dbscan dapat dilihat pada Tabel 2.
12
Gambar 9 Source code ST-DBSCAN menggunakan R
Pada Gambar 9 modifikasi dilakukan pada beberapa baris awal. Modifikasi
pada baris ke-1 yaitu dengan menambahkan Eps2 (parameter jarak temporal).
Selanjutnya pada baris ke-4 dan baris ke-8 dilakukan dua kali perhitungan jarak
spasial dan jarak temporalnya dengan menggunakan fungsi dist. Hasil dari fungsi
dist ini berupa matriks segitiga bawah yang kemudian dijadikan matriks utuh
menggunakan fungsi as.matrix pada baris ke-7 dan baris ke-8. Dalam algoritme STDBSCAN titik yang menjadi tetangga titik ke-i adalah hasil irisan dari tetangga
aspek spasial dan tetangga temporal, proses ini ditunjukkan pada baris ke-20 dan
baris ke-35 yang dilakukan menggunakan fungsi intersect.
Tabel 2 Penjelasan source code ST-DBSCAN
Baris ke1-3
4-5
7-8
9
11-12
15-17
18
19-20
21-29
30-35
Keterangan
Penamaan fungsi dan parameter inputan
Perhitungan jarak euclid pada aspek spasial dan aspek temporal
Pengubahan bentuk dist menjadi matriks
Menghitung jumlah baris pada data
Membuat vector bertipe integer dan logical
Jika countmode = n maka akan keluar titik mana yang sedang
diproses
Membuat vector titik mana saja yang belum ditandai
Mencari tetangga secara spasial dan temporal dari titik ke-i
Proses penandaan titik dan tetangga dari titik tersebut jika ada
Mencari tetangga dari tetangga titik ke-i
13
36-44
45
50-52
54-56
Proses penandaan titik tetangga dari tetangga titik ke-i
Mencari titik yang belum ditandai
Proses selesai jika panjang kelas unclass (kelas titik mana saja yang
belum ditandai) = NULL
Mengganti penamaan label titik noise
Clustering Menggunakan ST-DBSCAN
1250
1200
1150
1100
1050
1000
950
900
850
800
750
700
650
600
550
500
450
400
350
300
250
200
150
100
50
0
2
22
0
34
31
26
32
23
38
3
17
6
16
27
18
5
33
39
11
4
13
28
1
7
41
24
36
19
25
35
15
20
21
30
8
9
14
29
37
40
10
12
Jumlah titik dalam cluster
Proses clustering berhasil dijalankan dengan nilai tiap parameter yaitu,
Eps1=0.2, Eps2=7 dan MinPts=7 serta menghasilkan 41 cluster dengan 712 noise.
Cluster ini kemudian dibagi menjadi cluster yang bisa dianalisis dengan cluster
yang tidak bisa dianalisis. Gambar 10 menunjukkan banyaknya titik per cluster
dimana garis abline vertikal merupakan garis perpotongan antar cluster yang bisa
dianalisis dengan yang tidak. Cluster yang dapat dianalisis merupakan cluster yang
setidaknya memiliki minimum 30 hotspot, hal ini dikarenakan pola cluster sudah
dapat dikategorikan tipe polanya menurut Pöelitz dan Andrienko (2010) sedangkan
cluster yang memiliki jumlah hotspot kurang dari 30, pola cluster dari cluster
tersebut tidak dapat terdeteksi. Cluster yang memiliki jumlah hotspot minimum 30
hotspot dapat dikatakan sebagai cluster besar.
Cluster
Gambar 10 Jumlah titik per cluster
Pada tahap ini juga dilakukan pengujian running time algoritme STDBSCAN di R. Waktu yang dibutuhkan untuk mengeksekusi algoritme STDBSCAN pada R adalah 1.14 detik. Tahapan ini juga menguji seberapa banyak
14
data yang bisa diolah dengan menggunakan RAM sebesar 2 GB. Hasil pengujian
runtime dapat dilihat pada Gambar 11.
2,80
WAKTU (S)
2,50
2,20
1,90
1,60
1,30
1,00
4821
5000
5500
6000
6500
7000
7300
BANYAK DATA
Gambar 11 Runtime algoritme ST-DBSCAN menggunakan R
Analisis Cluster
Implementasi algoritme ST-DBSCAN dengan menggunakan bahasa
pemrograman R yang diaplikasikan pada dataset hostspot di Sumatera Selatan
dilakukan untuk menemukan pola kebakaran hutan. Konsentrasi hotspot akan
mengindikasikan fenomena yang merupakan pola kemunculan yang sering terjadi
ataupun yang jarang terjadi. Pada hasil cluster didapatkan 13 cluster yang termasuk
ke dalam cluster besar yang dapat dianalisis polanya. Tabel 3 menunjukkan clustercluster yang masuk ke dalam cluster besar.
Tabel 3 Jumlah hotspot dalam cluster besar
Cluster ke- Jumlah hotspot Cluster ke- Jumlah hotspot
2
2029
38
39
22
1157
3
36
34
150
17
35
31
115
6
34
26
58
16
32
32
55
27
30
23
41
Cluster besar kemudian dianalisis polanya berdasarkan tipe pola data spatiotemporal menurut Pöelitz dan Andrienko (2010). Ilustrasi pola dapat dilihat pada
Gambar 12.
15
Gambar 12 Ilustrasi pola spatio-temporal (Purwanto 2012)
Tiap cluster besar akan dibagi menjadi per periode, yaitu tujuh hari untuk
perbandingan lokasi persebaran hotspot pada suatu periode dengan periode
selanjutnya. Waktu 7 hari dipilih karena kondisi cuaca yang hampir mirip dan
perubahan cuaca yang tidak signifikan. Sebagai contoh pada cluster 2 didapatkan
16 periode (Gambar 13).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Gambar 13 Cluster 2 pada periode 1 (kiri-atas) dan periode 16 (kanan-bawah)
Pada periode 7 hotspot muncul pada seluruh kabupaten kecuali kota.
Selanjutnya pada periode 10 dan 12 hotspot terpusat pada Kabupaten Ogan
Komering Ilir maka dapat dikatakan cluster 2 mempunyai pola occasional seperti
ditunjukkan pada Gambar 12.
16
Analisis 13 cluster besar pada penelitian ini menunjukkan bahwa tipe pola
spatio-temporal yang paling banyak muncul adalah pola stationary (Lampiran 2).
Terdapat 7 pola stationary yang muncul dan 4 diantaranya terdapat di kabupaten
Muara Banyu Asin. Dengan adanya hasil analisis berupa pola kebakaran hutan
diharapkan pemerintah dapat mengambil tindakan yang tepat untuk menangani
kejadian kebakaran hutan. Sebagai contoh, untuk pola stationary maka dapat
dilakukan pemberitahuan terhadap masyarakat sekitar dan pihak terkait untuk lebih
waspada terhadap kemunculan kebakaran hutan agar dapat meminimalisir dampak
yang terjadi.
Visualisasi Cluster
Visualisasi cluster dengan bahasa pemrograman R menggunakan package
rworldmap dan rworldxtra. Terdapat 3 hasil visualisasi pertama adalah visualisasi
seluruh cluster di atas peta Sumatera Selatan (Gambar 14), lalu visualisasi grafik
cluster tertentu dengan garis abline yang menunjukkan perpindahan periode 7 hari
(Gambar 15), dan visualisasi cluster tertentu di atas peta yang bisa digunakan untuk
menganalisis pola (Gambar 16 dan Lampiran 1).
Gambar 14 menampilkan 41 cluster dengan visualisasi berbagai warna.
Warna yang merepresentasikan setiap cluster di dapat dari fungsi rainbow.
Visualisasi peta Sumatera Selatan diambil dari package rworldmap dan rworldxtra.
Berikut adalah potongan program yang digunakan:
17
Gambar 14 Visualisasi seluruh cluster di Sumatera Selatan
Gambar 15 menampilkan grafik pada cluster 2 dimana kemunculan hotspot
per-periode. Satu periode adalah satu minggu sehingga kemunculan hotspot pada
cluster 2 sekitar 16 minggu (16 periode).
Waktu
Gambar 15 Grafik cluster 2 per-periode waktu 7 hari
Gambar 16 menampilkan peta cluster 2 per periode sehingga memudahkan
dalam menganalisis pola spatio-temporal yang muncul.
1
2
3
4
5
6
7
8
9
10
11
12
14
15
16
13
Gambar 16 Visualisasi pola cluster 22
18
SIMPULAN DAN SARAN
Simpulan
Bahasa pemrograman R mampu mengimplementasikan algoritme STDBSCAN. Dengan mengimplementasikan algoritme ST-DBSCAN menggunakan
R runtime yang didapatkan adalah 1.14 detik. Pada dataset Sumatera Selatan
ditemukan 41 cluster dengan 13 cluster besar yang dapat dianalisis. Tipe pola
spatio-temporal paling banyak ditemukan adalah tipe pola stationary yang banyak
muncul di Kabupaten Musi Banyu Asin.
Saran
R sudah terbukti dapat mengeksekusi algoritme ST-DBSCAN lebih cepat,
namun pada penelitian ini hanya dapat memroses data sebanyak 7300 untuk RAM
sebesar 2 GB. Untuk itu pada penelitian selanjutnya diharapkan mampu untuk
mengolah data yang lebih besar dan menambahkan parameter masukkan ∆ϵ untuk
mencegah ditemukannya kombinasi cluster akibat perbedaan non-spasial yang
sangat tipis antar-tetangga. Sebagai contoh menambahkan matriks untuk data nonspatial dari kolom suhu (brightness).
DAFTAR PUSTAKA
Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan
Pengendalian Kebakaran Hutan dan Lahan Gambut. Proyek Climate Change,
Forests and Peatlands in Indonesia. Bogor: Wetlands International-Indonesia
Programme dan Wildlife Habitat Canada.
Austin K, Alisjahbana A, Sizer N. 2013. Data Terbaru Menunjukkan Kebakaran
Hutan Di Indonesia Adalah Krisis Yang Telah Berlangsung Sejak Lama
[Internet].
[diunduh
2013
Oktober
20].
Tersedia
pada:
http://insights.wri.org/news/2013/06/data-terbaru-menunjukkan-kebakaranhutan-di-indonesia-adalah-krisis-yang-telah-berlangs#fire
Birant D, Kut A .2007. ST-DBSCAN: An Algorithm for Clustering Spatial-temporal
data. Data and Knowledge Engineering. 60:208-221.
Brown, A. A. dan K. P Davis. 1973. Forest Fire Control and Use. Toronto Canada:
McGraw Hill Inc. hlm 658.
Gaonkar M N, Sawant K. 2013. AutoEPsDBSCAN : DBSCAN with Eps Automatic
for Large Datase. 2:2319-2526.
Han J, Kamber M. 2006. Data Mining: Concepts and Techniques. San Francisco:
Morgan Kaufmann Publisher.
Pöelitz C dan Andrienko N. 2010. Finding Arbitrary Shaped Cluster with Related
Extents in Space and Time. IEEE-VGTC Simposium on Visualization.
Purwanto U Y, Barus B, dan Adrianto H A. 2012. Spatial clustering of hotspot
using DBSCAN and ST-DBSCAN. Bogor (ID): Institut Pertanian Bogor.
19
Rao K V, Govardhan A, dan Rao K V C. 2012. Spatiotemporal Data Mining: Issues,
Tasks and Applications. Chennai (IN): Engg Journals Publications.
Shekhar dan Chawla. 2003. Spatial Databases A Tour. New Jersey. Prentice Hall
Syaufina L. 2008. Kebakaran Hutan dan Lahan di Indonesia. Bogor: Bayumedia
Publishing.
Venables W N, Smith D M. 2009. An Introduction to R. Berlin Heidelberg (NY) :
Springer.
20
Lampiran 1 Peta pola hotspot yang ditemukan di Sumatera Selatan
Peta pola hotspot
Cluster ke-
Cluster 2
Cluster 3
Cluster 6
Cluster 16
21
Cluster 17
Cluster 22
Cluster 23
Cluster 26
Cluster 27
Cluster 31
22
Cluster 32
Cluster 34
Cluster 38
23
Lampiran 2 Penjelasan pola hotspot dalam cluster besar
Cluster ke2
3
6
16
17
22
23
26
27
31
32
34
38
Pola
Keterangan
Occasional Menyebar di seluruh kabupaten, kecuali kota. Hotspot yang
mucul pada periode 10 dan 12 terpusat pada daerah Ogan
Komering Ilir.
Stationary Hotspot terdapat Kabupaten Musi Banyu Asin.
Stationary Hotspot terdapat Kabupaten Musi Rawas
Track
Hotspot terjadi di Musi Banyu Asin dan kemudian bergerak ke
Muara Enim, lalu ke perbatasan Banyu Asin.
Stationary Hotspot terdapat Kabupaten Musi Banyu Asin.
Occasional Hotspot tidak terdapat di kota Palembang dan Pagar Alam.
Stationary Hotspot terdapat pada Kabupaten Musi Banyu Asin.
Occasional Hotspot terdapat pada kabupaten Lahat, Muara Enim, Oku
Timur, Ogan Ilir, Ogan Komening Ilir dan Ogan Komering
Ulu.
Stationary Hotspot terdapat Kabupaten Ogan Komering Ilir
Track
Pada awalnya hotspot berada di kabupaten Oku Selatan, Ogan
Komering Ulu, dan Muara Enim. Kemudian menyebar ke
kabupaten Lahat, Oku Timur, dan semakin membanyak di
Oku Selatan.
Stationary Hotspot terletak di kabupaten Lahat, Musi Rawas, Muara
Enim, dan pinggiran kota Pagar Alam.
Stationary Kemunculan hotspot terdapat di kabupaten Musi Banyu Asin,
Banyu Asin, dan Ogan Komering Ilir.
Occasional Hotspot terdapat pada kabupaten Muara Enim dan Ogan
Komering Ulu.
24
RIWAYAT HIDUP
Penulis dilahirkan di Bandung pada tanggal 29 Desember 1993, dari pasangan
Bapak Drs Dani Indrawan MA dan Ibu Anna Yulianti sebagai anak pertama dari tiga
bersaudara. Pada tahun 2010 penulis lulus dari SMA Negeri 3 Bogor dan lulus seleksi
masuk Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB dan
diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan
Alam.
Selama mengikuti perkuliahan, penulis pernah aktif menjadi anggota dan
pengibar bendera di paskibra IPB. Pada tahun 2013, penulis mengikuti kegiatan Praktik
Kerja Lapangan di PT INTI.
Download