SPATIO-TEMPORAL CLUSTERING HOTSPOT DI SUMATERA SELATAN TAHUN 2002-2003 MENGGUNAKAN ALGORITME ST-DBSCAN DAN BAHASA PEMROGRAMAN R NADINA ADELIA INDRAWAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Spatio-Temporal Clustering Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman R adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Juni 2014 Nadina Adelia Indrawan NIM G64100091 ABSTRAK NADINA ADELIA INDRAWAN. Spatio-Temporal Clustering Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman R. Dibimbing oleh HARI AGUNG ADRIANTO. Kebakaran hutan merupakan permasalahan yang cukup serius di Indonesia. Salah satu indikator kemungkinan terjadinya kebakaran hutan dapat diketahui dengan kemunculan hotspot. Dataset hotspot merupakan data spasial yang berukuran besar karena dicatat setiap waktu. ST-DBSCAN merupakan salah satu algoritme yang mampu mengolah data spasial dan temporal. Penelitian ini mengimplementasikan algoritme ST-DBSCAN menggunakan bahasa pemrograman R. R adalah perangkat lunak komputasi statistik dan grafis. Bahasa R digunakan di kalangan ahli statistik dan data mining untuk mengembangkan perangkat lunak statistik dan analisis data. Clustering dilakukan terhadap dataset hotspot di Sumatera Selatan pada periode tahun 2002-2003. Dengan menggunakan parameter jarak spasial (Eps1) = 0.2, parameter jarak temporal (Eps2) = 7 dan minimum anggota cluster (MinPts) = 7 didapatkan hasil 41 cluster dengan 712 noise. Kata kunci: kebakaran hutan, R, spatio-temporal, ST-DBSCAN, titik panas ABSTRACT NADINA ADELIA INDRAWAN. Spatio-Temporal Clustering Hotspot in South Sumatera from 2002 to 2003. Using ST-DBSCAN Algorithm and R Programming Language. Supervised by HARI AGUNG ADRIANTO. Forest fire is a serious problem in Indonesia. One indicator of forest fire possibility can be seen through the occurence of hotspots. Hotspot dataset is large spatial data because it is recorded continuously. ST-DBSCAN an algorithm that can process spatial and temporal data. This study implement ST-DBSCAN algorithm with R language programming. R is software environment for statistical computing and graphics. The R language is widely used among statisticians and data miners for developing statistical software. Clustering is performed on hotspots dataset in South Sumatra in the period 2002-2003. By using the spatial distance parameter (Eps1) = 0.2, the temporal distance parameters (Eps2) = 7 and a minimum cluster members (MinPts) = 7 resulted in 41 clusters with 712 noises. Keywords: forest fire, hotspot, R, spatio-temporal, ST-DBSCAN SPATIO-TEMPORAL CLUSTERING HOTSPOT DI SUMATERA SELATAN TAHUN 2002-2003 MENGGUNAKAN ALGORITME ST-DBSCAN DAN BAHASA PEMROGRAMAN R NADINA ADELIA INDRAWAN Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 Penguji: 1 Dr Imas Sukaesih Sitanggang, SSi MKom 2 Endang Purnama Giri, SKom MKom Judul Skripsi : Spatio-Temporal Clustering Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman R Nama : Nadina Adelia Indrawan NIM : G64100091 Disetujui oleh Hari Agung Adrianto, SKom MSi Pembimbing I Diketahui oleh Dr Ir Agus Buono, MSi MKom Ketua Departemen Tanggal Lulus: PRAKATA Puji dan syukur penulis panjatkan kepada Allah subhanahu wa ta’ala atas segala karunia-Nya sehingga karya ilmiah ini berhasil diselesaikan. Judul penelitian yang dilaksanakan sejak bulan Januari 2014 ini ialah Spatio-Temporal Clustering Hotspot di Sumatera Selatan Tahun 2002-2003 Menggunakan Algoritme ST-DBSCAN dan Bahasa Pemrograman R. Terima kasih penulis ucapkan kepada Ayah dan Ibu serta keluarga atas doa dan dukungannya. Ungkapan terimakasih juga disampaikan kepada Bapak Hari Agung Adrianto selaku pembimbing, Ibu Imas Sukaesih Sitanggang dan Bapak Endang Purnama Giri yang telah banyak memberi saran serta teman-teman Departemen Ilmu Komputer. Semoga karya ilmiah ini bermanfaat. Bogor, Juni 2014 Nadina Adelia Indrawan DAFTAR ISI DAFTAR TABEL viii DAFTAR GAMBAR viii DAFTAR LAMPIRAN viii PENDAHULUAN 1 Latar Belakang 1 Perumusan Masalah 1 Tujuan Penelitian 2 Manfaat Penelitian 2 Ruang Lingkup Penelitian 2 TINJAUAN PUSTAKA 2 METODE PENELITIAN 5 Data Penelitian 5 Tahapan Penelitian 6 Praproses Data 6 Implementasi Algoritme ST-DBSCAN Menggunakan R 6 Clustering Menggunakan ST-DBSCAN 7 Analisis Cluster 8 Visualisasi Cluster 8 Lingkupan Pengembangan 8 HASIL DAN PEMBAHASAN 8 Praproses Data 8 Implementasi Algoritme ST-DBSCAN Menggunakan R 10 Clustering Menggunakan ST-DBSCAN 13 Analisis Cluster 14 Visualisasi Cluster 16 SIMPULAN DAN SARAN 18 Simpulan 18 Saran 18 DAFTAR PUSTAKA 18 LAMPIRAN 20 RIWAYAT HIDUP 24 DAFTAR TABEL 1 Transformasi data mengubah format date menjadi number 2 Penjelasan source code ST-DBSCAN 3 Jumlah hotspot dalam cluster besar 9 12 14 DAFTAR GAMBAR 1 Core-point, border-point, dan noise. 3 2 Matriks jarak n × n 4 3 Peta Provinsi Sumatera Selatan (Purwanto 2012) 5 4 Diagram alir penelitian 6 5 Diagram alir algoritme 7 6 Grafik pergeseran penggerombolan (Purwanto 2012) 9 7 Hubungan titik noise dengan Eps1 (Purwanto 2012) 10 8 Directly density-reachable dan Density-reachable 11 9 Source code ST-DBSCAN menggunakan R 12 10 Jumlah titik per cluster 13 11 Runtime algoritme ST-DBSCAN menggunakan R 14 12 Ilustrasi pola spatio-temporal (Purwanto 2012) 15 13 Cluster 2 pada periode 1 (kiri-atas) dan periode 16 (kanan-bawah) 15 14 Visualisasi seluruh cluster di Sumatera Selatan 17 15 Grafik cluster 2 per-periode waktu 7 hari 17 16 Visualisasi pola cluster 22 17 DAFTAR LAMPIRAN 1 Peta pola hotspot yang ditemukan di Sumatera Selatan 2 Penjelasan pola hotspot dalam cluster besar 20 23 PENDAHULUAN Latar Belakang Kebakaran hutan di Indonesia merupakan masalah yang terus berulang dan termasuk permasalahan yang serius. Peringatan titik api biasanya muncul cukup banyak pada periode bulan Juni hingga September. Terdapat sekitar 60 persen peringatan titik api yang terobservasi setiap tahunnya muncul pada periode waktu 4 bulan tersebut. Tercatat pada data historis antara tahun 2001 sampai 2012, terjadi rata-rata sekitar 20,000 peringatan titik api setiap tahunnya di Sumatera dengan tingkat keyakinan deteksi lebih dari 30 persen (Austin et al 2013). Menurut Adinugroho (2005) salah satu indikator kemungkinan terjadinya kebakaran hutan ialah hotspot. Dalam hal ini terdapat kemungkinan bahwa persebaran titik api menggerombol dalam ruang secara alami tidak tersebar acak sehingga data tersebut dapat dianalisis menggunakan teknik clustering. Ada beberapa macam teknik clustering di antaranya k-means, hierachical cluster, DBSCAN dan ST-DBSCAN. Di antara semua metode clustering, algoritme DBSCAN merupakan salah satu metode yang paling baik untuk menemukan cluster dari database spasial yang besar (Gaonkar dan Sawant, 2013). ST-DBSCAN merupakan perluasan algoritme DBSCAN. Jika DBSCAN hanya mengolah data spatial maka ST-DBSCAN mampu mengolah data temporal dengan menggunakan nilai Eps1 (parameter jarak pada aspek spasial) dan nilai Eps2 (parameter jarak pada aspek temporal). ST-DBSCAN memiliki kelebihan lebih fleksibel dengan ukuran data yang besar karena merupakan teknik clustering yang berbasis kepadatan (Birant dan Kut 2007). R adalah perangkat lunak komputasi statistik dan grafis. R sangat efektif dalam memvisualisasikan cluster dan dalam pengelolaan data serta fasilitas penyimpanan. Selain itu R dapat dikembangkan sesuai kebutuhan dengan menambah fitur-fitur tambahan dalam bentuk paket ke dalam software R yang bersifat open source (Venables dan Smith 2009). Pada penelitian diimplementasikan algoritme ST-DBSCAN menggunakan bahasa pemrograman R. Data yang dipakai ialah dataset hotspot di Sumatera Selatan tahun 2002-2003. Diharapkan implementasi ST-DBSCAN dapat menghasilkan pola penyebaran hotspot sehingga kebakaran hutan di Indonesia dapat dikendalikan. Perumusan Masalah Perumusan masalah dalam penelitian ini yaitu 1 Bagaimana mengimplementasikan algoritme ST-DBSCAN menggunakan bahasa pemograman R? 2 Apakah terdapat pola tertentu pada cluster yang dihasilkan? 2 Tujuan Penelitian Tujuan dari penelitian ini adalah menemukan pola cluster dengan algoritme clustering ST-DBSCAN yang diimplementasikan menggunakan bahasa pemrograman R Manfaat Penelitian Hasil penelitian yang berupa pola penyebaran kebakaran hutan dan lahan diharapkan dapat digunakan oleh pemerintah untuk mengendalikan kejadian kebakaran hutan di Sumatera Selatan serta wawasan bagi masyarakat. Ruang Lingkup Penelitian 1 2 3 Ruang lingkup dari penelitian ini adalah: Penelitian ini dibatasi pada wilayah Sumatera Selatan, Indonesia. Algoritme clustering yang akan digunakan untuk pengolahan dataset hotspot adalah algoritme ST-DBSCAN. Implementasi algoritme ST-DBSCAN dilakukan dalam bahasa pemrograman R. TINJAUAN PUSTAKA Kebakaran Hutan Kebakaran hutan adalah suatu proses reaksi yang menyebar secara bebas dari perpaduan antar unsur oksigen, bahan bakar hutan dan panas yang mengkonsumsi bahan bakar alam yang terdapat di hutan seperti serasah, rumput, humus, ranting – ranting, kayu mati, tiang, gulma, semak, dedaunan, dan pohon segar lainnya untuk tingkat terbatas yang ditandai dengan adanya panas, cahaya dan asap (Brown dan Davis 1973). Secara alami kebakaran dipengaruhi oleh beberapa faktor alam yang berkaitan, yaitu iklim (kemarau panjang, petir dan daya alam lainnya), jenis tanaman (misalnya pinus, mengandung resin), tipe vegetasi (alang-alang, hutan terbakar, hutan-hutan monokultur tertentu), bahan-bahan sisa vegetasi (serasah, ranting kering), humus dan sebagainya. Penyebab kebakaran hutan didefinisikan sebagai sesuatu yang bersifat alami maupun perbuatan manusia yang menyebabkan terjadinya proses penyalaan serta pembakaran bahan bakar hutan dan lahan (Syaufina 2008). Dataset Spatio-Temporal Data spasial adalah suatu entitas data dalam sistem informasi geografis (SIG) yang dapat dikelola, dianalisis, dan dapat memetakan informasi objek keruangan beserta data atributnya. Data spasial juga dapat disimpan dalam basis data dan 3 ditampilkan ke dalam suatu sistem yang terpadu sehingga mendukung dalam pengambilan keputusan (Shekhar dan Chawla 2003). Dalam data spasial, variabel datanya merepresentasikan lokasi spasial dan tidak memberikan informasi apapun tentang fitur lainnya sedangkan data spatio-temporal biasanya mengandung lokasi dari suatu objek, kejadian, atau posisi dalam ruang selama suatu periode waktu. Pada dasarnya, hal utama dari dataset spatio-temporal adalah memperhatikan perubahan nilai dari atribut spasial selama satu periode waktu. Suatu kejadian pada dataset spatio-temporal menggambarkan gejala spasial dan temporal yang mungkin terjadi pada waktu dan lokasi tertentu. Contoh kejadian spatio-temporal adalah gempa bumi, angin topan, kemacetan lalu lintas, kecelakaan, dan kebakaran hutan. Menurut Rao et al (2012) banyak dari kejadian tersebut yang berinteraksi satu sama lain serta menunjukkan pola spasial dan temporal yang dapat membantu untuk memahami gejala fisik sebelumnya. Hotspot dapat dikatakan termasuk ke dalam dataset spatio-temporal karena merupakan parameter yang diturunkan dari data satelit yang mencakup aspek temporal (Thoha 2008). Algoritme ST-DBSCAN Konsep utama dari DBSCAN adalah suatu titik dikatakan anggota dari suatu cluster jika memiliki setidaknya nilai minimum dari nilai-nilai tetangganya (minpts) pada jarak yang ditentukan (ɛ), dan dapat dikatakan bahwa kerapatan (density) dalam jangkauannya harus lebih dari nilai ambang batasnya (threshold). Berdasarkan pendekatan ini, terdapat tiga macam titik (Gambar 1). Epsneighborhood adalah sebuah titik yang didefinisikan dengan {q ϵ D | dist(p,q) ≤ Eps1 & dist(p,q) ≤ Eps2}. Sebuah titik dapat dikatakan sebagai core point jika jumlah eps-neighborhood ≥ MinPts. Border point adalah titik yang bukan core point tetapi density reachable dari core point lainnya, sedangkan noise point adalah titik yang tidak termasuk ke dalam cluster manapun. x Noise point x MinPts = 4 Gambar 1 Core-point, border-point, dan noise. Algoritme ST-DBSCAN dibangun dengan memodifikasi algoritme DBSCAN. Berbeda dengan algoritme DBSCAN yang hanya membutuhkan dua parameter, algoritme ST-DBSCAN membutuhkan empat parameter, yaitu Eps1 (ɛ1), Eps2 (ɛ2), MinPts, dan . Eps1 adalah parameter jarak untuk atribut spasial (latitude dan longitude). Eps2 adalah parameter jarak untuk atribut temporal. Formula jarak yang dapat digunakan untuk Eps1 dan Eps2 adalah Euclidean, 4 Manhattan, Minkowski, atau lain sebagainya. MinPts adalah jumlah minimum objek yang berada di dalam jarak Eps1 dan Eps2. Parameter terakhir digunakan untuk mencegah ditemukannya kombinasi cluster akibat perbedaan non-spasial yang sangat tipis antar-tetangga (Birant dan Kut 2007). Dissimilarity Matrix Sebuah matriks perbedaan (dissimilarity matrix) menyimpan kedekatan atau jarak untuk semua pasangan dari n objek. Hal ini dapat diilustrasikan dengan matriks n × n seperti yang ditunjukkan oleh Gambar 2. Gambar 2 Matriks jarak n × n d(i,j) adalah jarak atau perbedaan antar objek i dan j. Pada umumnya, d(i,j) adalah nilai postif yang mendekati 0 ketika objek i dan j sangat mirip atau “dekat” satu sama lain dan menjadi lebih besar ketika kedua objek tersebut berbeda. Pada Gambar 2 kita memiliki matriks segitiga atas karena d(i,j) = d(j,i) dan d(i,i) = 0. Kedekatan dapat didefinisikan dalam metrik jarak. Fungsi jarak, d(i,j) harus refleksif dan simetris. Salah satu perhitungan jarak yang populer adalah perhitungan jarak euclidean. Jarak euclidean merupakan perhitungan jarak yang sensitive terhadap outlier yang ditunjukkan pada persamaan 1: Dist(i,j) = √(xlong - xlongj )2 +(xlati - xlatj )2 i (1) i dan j merupakan objek dua dimensi (Han dan Kamber 2006). Pada penelitian ini fungsi metrik jarak digunakan untuk menghitung kedekatan pada aspek spasial. Pada aspek temporal euclidean distance dapat diterapkan namun kurang efisien karena aspek temporal hanya terdiri atas satu dimensi digunakan persamaan 2: Dist(i,j) = |xdatei - xdatei+1 | (2) xdate adalah objek pada kolom date dan merupakan objek satu dimensi. Pola Penyebaran Hotspot Menurut Pöelitz dan Andrienko (2010) terdapat kelompok tipe cluster yang berbeda bentuk lokasi dan waktunya serta dapat dideteksi. Terdapat 4 tipe cluster yaitu: 1 Reappearing Cluster reappering merupakan tipe cluster temporal yang terjadi dalam lokasi yang sama dan dipisahkan oleh interval waktu. Tipe cluster reappearing dibagi menjadi dua: 5 a Regular (periodik) Cluster regular memiliki interval waktu serta tempat kemunculan hotspot yang sama. Sebagai contoh, kejadian hotspot terjadi pada lokasi x dan waktu t0, t1, t2, …, tn dengan perbedaan waktu antara t0 dengan t1 adalah 3 hari, t1 dengan t2 adalah 3 hari, begitu seterusnya hingga tn-1 dengan tn. b Irregular Cluster irregular memiliki interval waktu yang berbeda namun tempat kemunculan hotspot sama. Sebagai contoh, kejadian hotspot terjadi pada lokasi x dan waktu t0, t1, t2, …, tn dimana perbedaan waktu antara t0 dengan t1 adalah 3 hari, t1 dengan t2 adalah 8 hari, dan akan berbeda kembali saat tn1 dengan tn. 2 Stationary Cluster diperluas secara temporal pada seluruh rentang waktu penelitian atau dari saat tertentu sampai akhir waktu tertentu dalam rentang waktu penelitian namun terbatas secara spasial. 3 Occasional Cluster occasional memiliki perpindahan spasial dan perubahan temporal secara bersamaan. 4 Tracks Pola kejadian berikutnya pada cluster mengalami pergerakan secara spasial dan memiliki temporal yang sangat padat. Contohnya adalah serangkaian foto yang diambil oleh wisatawan dalam perjalanan. METODE PENELITIAN Data Penelitian Wilayah penelitian melingkupi Provinsi Sumatera Selatan yang terletak antara 5o10’ sampa 1o20’ Lintang Selatan dan 101o40’ sampai 106o30’ Bujur Timur (Gambar 3). Penelitian ini menggunakan dataset hotspot tahun 2002-2003 dengan 1o mewakili jarak sekitar 110 km. Gambar 3 Peta Provinsi Sumatera Selatan (Purwanto 2012) 6 Data penelitian diperoleh dari Fire Information for Resource Management System (FIRMS) yang merupakan data hotspot MODIS yang disediakan oleh National Aeronautics and Space Administration (NASA). Variabel yang terdapat pada dataset meliputi titik spasial (latitude dan longitude), tingkat kecerahan pada piksel hotspot (Kelvin), ukuran piksel sebenarnya (scan dan track), tanggal dan waktu pengambilan data, satelit (Aqua dan Terra), confidence yang menunjukkan ukuran kualitas piksel pada setiap hotspot (skala 0-100%), versi pengambilan data (collection – angka sebelum desimal dan source – angka sesudah desimal yang mengindikasikan sumber data), dan FRP (menunjukkan piksel yang terintegrasi radiasi api dalam satuan MegaWatts). Tahapan Penelitian Tahapan penelitian yang dilakukan pada penelitian ini ditunjukkan pada Gambar 4. Pengumpulan Data Mulai Clustering menggunakan ST-DBSCAN Hasil Cluster Implementasi Algoritme ST-DBSCAN menggunakan R Analisis Cluster Visualisasi Cluster Praproses Data Data Hasil Praproses Selesai Gambar 4 Diagram alir penelitian Praproses Data Tahap praproses data terdiri atas tahapan transformasi data dan reduksi data. Pada tahap transformasi dilakukan perubahan tipe format data dengan merubah tipe format date menjadi tipe format number. Selain itu dilakukan tahapan reduksi data dengan melakukan pengurangan data dari 11 variabel menjadi 3 variabel yaitu longitude, latitude, dan tanggal pemantauan hotspot. Implementasi Algoritme ST-DBSCAN Menggunakan R Pada tahapan ini dilakukan modifikasi fungsi dbscan yang terdapat pada package fpc. Fungsi dbscan pada package fpc hanya menggunakan satu epsilon kemudian dimodifikasi menjadi st-dbscan dengan dua epsilon. Alur algoritme DBSCAN dan ST-DBSCAN dapat dilihat pada Gambar 5. 7 Mulai Algoritme DBSCAN Algoritme ST-DBSCAN Membaca Data Menghitung Matriks Jarak Matriks Jarak Spasial Matriks Jarak Temporal Mencari tetangga secara spasial Mencari tetangga secara temporal Mencari tetangga dari tetangga secara spasial Mencari tetangga dari tetangga secara temporal Pembentukan cluster Tidak Apakah semua titik sudah ditandai? Ya Selesai Gambar 5 Diagram alir algoritme Clustering Menggunakan ST-DBSCAN Algoritme ST-DBSCAN merupakan pengembangan dari algoritme DBSCAN. Algoritme ST-DBSCAN membutuhkan empat parameter, yaitu Eps1 (parameter yang menyatakan jarak antar 2 objek di permukaan bumi), Eps2 (parameter yang menyatakan jarak antar kejadian waktu), MinPts (jumlah anggota suatu cluster), dan (Brian dan Kut 2007). Pada penelitian ini hanya tiga parameter yang digunakan yaitu Eps1, Eps2 dan MinPts. Penentuan nilai parameter merujuk pada penelitian Purwanto (2012). Pada penelitian tersebut penentuan ketiga parameter dihitung menggunakan algoritme kdist. Penentuan nilai Eps1, Eps2, dan MinPts sangat berpengaruh terhadap cluster yang akan dihasilkan. Nilai Eps1 dan Eps2 ditentukan guna mendapatkan total cluster dalam jumlah sedikit sedangkan nilai MinPts untuk mendapatkan noise yang 8 sedikit. Sehingga penentuan nilai ketiga paramater tersebut dilakukan agar mendapatkan total cluster dan noise dalam jumlah yang sedikit. Analisis Cluster Pada tahapan ini akan dianalisis apakah cluster tersebut memiliki pola stasionary, reappearing (regular dan irregular), occasional, ataukah track (Pöelitz dan Andrienko 2010). Visualisasi Cluster Visualisasi merupakan tahapan terakhir dari penelitian ini. Setelah pembuatan model clustering serta analisis dan evaluasi model clustering berjalan baik, selanjutnya adalah memvisualisasikan penelitian ini dalam bentuk peta beserta titik hotspot-nya guna mengetahui wilayah penyebaran hotspot. Pada tahapan ini digunakan fungsi maptools dalam package rworldmap dan rwolrdxtra yang dapat menampilkan hasil cluster ke atas peta. Lingkupan Pengembangan Pembuatan model clustering dengan menggunakan algoritme ST-DBSCAN ini menggunakan beberapa perangkat keras dan perangkat lunak dengan spesifikasi sebagai berikut: 1 Perangkat Keras Processor: Intel(R) Core(TM) i3 CPU M 2330 @ 2.2GHz Memory: Sodim DDR3 2 GB RAM Monitor 2 Perangkat Lunak Sistem operasi Windows 7 Enterprise 64-bit Bahasa Pemrograman R-3.0.2 version of R64 Microsoft Excel 2013 Notepad++ HASIL DAN PEMBAHASAN Praproses Data 1 Perubahan format pada kolom date Data tanggal akan di ubah ke dalam format number menggunakan Microsoft Excel, hari pertama dimulai dari 1 Januari 1900. Pengubahan format ini dilakukan agar ketika terjadi penambahan data sebelum tanggal pertama data yang digunakan 9 saat ini tidak menyebabkan variabel tanggal bernilai -1 jika penanggalan dimulai dari 1 Januari 2008. Tabel 1 Transformasi data mengubah format date menjadi number Tanggal Tanggal (mm/dd/yyyy) (number) 11/05/2002 37387 22/05/2002 37398 29/05/2002 37405 03/06/2002 37410 2 Reduksi data Penelitian ini hanya memerlukan aspek spasial dan aspek temporal untuk proses mining sehingga reduksi data dilakukan dengan memilih 3 atribut dari 11 atribut. Atribut yang terdapat dalam dataset yaitu: longitude, latitude, acq_date, acq_time, brightness, confidence, satelite, bright_t31, frp, scan dan track. Atribut yang dipilih yaitu longitude, latitude yang merupakan aspek spasial dan tanggal pemantauan hotspot sebagai aspek temporalnya. Perhitungan nilai parameter Pada penelitian Purwanto (2012) penentuan nilai Eps1 dan MinPts dilakukan dengan perhitungan k-dist dengan nilai k yang bervariasi. Penggerombolan dapat diidentifikasi jika k tetangga terdekat memiliki jarak yang sama dengan titik yang lain atau dapat dikatakan bahwa titik dalam suatu penggerombolan secara kasar memiliki jarak yang sama. Optimalisasi nilai Eps1 dan MinPts (k) dilakukan dengan cara melakukan pergeseran nilai Eps1 (Gambar 6). Pergeseran nilai Eps1 dilakukan pada nilai k=4, k=7, k=15 dan k=18 dengan nilai Eps1 0.125 sampai 0.2. Dari pergeseran nilai Eps1 didapatkan nilai Eps1 = 0.2 dengan total hasil cluster paling sedikit sehingga pada penelitian ini digunakan Eps1 = 0.2 yang mewakili jarak sekitar 22 km. Banyak Penggerombolan 3 100 80 60 40 20 0 Penggerombolan K=4 k k Penggerombolan K=7 k Penggerombolan K=11 k Penggerombolan K=15 0.125 0.175 0.2 k Penggerombolan K=18 Nilai Eps1 Gambar 6 Grafik pergeseran penggerombolan (Purwanto 2012) Gambar 7 menunjukkan jumlah titik yang tidak terdapat di cluster manapun (noise) pada k=7 lebih stabil seiring penambahan nilai Eps1. Berdasarkan nilai Eps1=0.2 diperoleh k = 4, k = 7 dan k = 11 memiliki noise paling sedikit sehingga pada penelitian ini digunakan minpts =7 dan Eps1=0.2. Banyak Noise 10 150 Noise k K=4 100 Noise k K=7 50 Noise k K=11 0 Noise k K=15 0.125 0.175 Nilai Eps1 0.2 Noise k K=18 Gambar 7 Hubungan titik noise dengan Eps1 (Purwanto 2012) Pada ST-DBSCAN selain parameter Eps1 dan MinPts juga digunakan parameter Eps2. Pada penelitian ini nilai Eps2 yang dipakai adalah 7 meskipun Purwanto (2012) menggunakan nilai 30 sebagai Eps2. Eps2 =7 bertujuan agar perubahan cuaca yang terjadi tidak jauh berbeda dan untuk mendapatkan pola dalam rentang waktu yang cenderung lebih kecil. Implementasi Algoritme ST-DBSCAN Menggunakan R Tahap ini dilakukan dengan mengimplementasikan algoritme ST-DBSCAN ke dalam bahasa pemrograman R (Brian dan Kut 2007). Algoritme dimulai dengan perhitungan matriks jarak euclidean pada aspek spasial dan aspek temporal menggunakan fungsi dist. Fungsi cbind digunakan untuk menggabungkan kolom longitude dan kolom latitude menjadi sebuah matriks. Setelah itu mengubah tipe data “data_spasial dan data_temporal” menjadi matriks karena hasil dist berupa matriks segitiga atas sehingga perlu dinormalisasi. Selanjutnya n(row) digunakan untuk menghitung banyaknya baris yang terdapat pada data. Clustering dimulai dari objek pertama (o1) di vektor cv. Objek o2 di D dipilih setelah objek o1 diproses. Jika objek o1 belum termasuk ke dalam cluster, maka dicari irisan dari tetangga (oi, Eps1) dan tetangga (oi, Eps2) menggunakan fungsi intersect yang kemudian hasil irisannya dimasukkan ke dalam variabel reachables. Suatu objek dikatakan noise jika jumlah objek yang dikembalikan dalam Eps-Neighborhood kurang dari MinPts, dalam hal ini berarti oi tidak memliki cukup tetangga untuk membentuk sebuah cluster. Eps-Neighborhood adalah objek yang terjangkau secara spasial dan temporal oleh objek ke-i. Objek dengan label noise dapat berubah pada proses selanjutnya jika objek tidak directly density-reachable namun density-reachable dari objek-objek lain di D. Directly density-reachable merupakan objek yang terjangkau langsung oleh objek ke-i sedangkan density-reachable adalah objek yang terjangkau oleh tetangga dari objek ke-i (Gambar 8 yang diadopsi dari Brian dan Kut 2007). 11 q1 = p p q qi qi+1 qn=p Gambar 8 Directly density-reachable dan Density-reachable Jika oi memiliki cukup tetangga dalam jangkauan Eps1 dan Eps2 (oi adalah core-object), maka cluster baru dibuat. Semua objek yang directly densityreachable dari core-object tersebut juga ditandai sebagai label cluster baru. Setelah itu algoritme mengumpulkan objek yang density-reachable secara iteratif menggunakan vektor. Vektor digunakan untuk ekspansi cluster yaitu mencari objek lain yang density-reachable dari objek directly density-reachable. Proses terus berulang sampai semua objek di D selesai diproses. Implementasi algoritme dilakukan dengan memodifikasi fungsi dbscan yang terdapat pada package fpc. Source code dapat dilihat pada Gambar 9 dan penjelasan source code modifikasi fungsi dbscan dapat dilihat pada Tabel 2. 12 Gambar 9 Source code ST-DBSCAN menggunakan R Pada Gambar 9 modifikasi dilakukan pada beberapa baris awal. Modifikasi pada baris ke-1 yaitu dengan menambahkan Eps2 (parameter jarak temporal). Selanjutnya pada baris ke-4 dan baris ke-8 dilakukan dua kali perhitungan jarak spasial dan jarak temporalnya dengan menggunakan fungsi dist. Hasil dari fungsi dist ini berupa matriks segitiga bawah yang kemudian dijadikan matriks utuh menggunakan fungsi as.matrix pada baris ke-7 dan baris ke-8. Dalam algoritme STDBSCAN titik yang menjadi tetangga titik ke-i adalah hasil irisan dari tetangga aspek spasial dan tetangga temporal, proses ini ditunjukkan pada baris ke-20 dan baris ke-35 yang dilakukan menggunakan fungsi intersect. Tabel 2 Penjelasan source code ST-DBSCAN Baris ke1-3 4-5 7-8 9 11-12 15-17 18 19-20 21-29 30-35 Keterangan Penamaan fungsi dan parameter inputan Perhitungan jarak euclid pada aspek spasial dan aspek temporal Pengubahan bentuk dist menjadi matriks Menghitung jumlah baris pada data Membuat vector bertipe integer dan logical Jika countmode = n maka akan keluar titik mana yang sedang diproses Membuat vector titik mana saja yang belum ditandai Mencari tetangga secara spasial dan temporal dari titik ke-i Proses penandaan titik dan tetangga dari titik tersebut jika ada Mencari tetangga dari tetangga titik ke-i 13 36-44 45 50-52 54-56 Proses penandaan titik tetangga dari tetangga titik ke-i Mencari titik yang belum ditandai Proses selesai jika panjang kelas unclass (kelas titik mana saja yang belum ditandai) = NULL Mengganti penamaan label titik noise Clustering Menggunakan ST-DBSCAN 1250 1200 1150 1100 1050 1000 950 900 850 800 750 700 650 600 550 500 450 400 350 300 250 200 150 100 50 0 2 22 0 34 31 26 32 23 38 3 17 6 16 27 18 5 33 39 11 4 13 28 1 7 41 24 36 19 25 35 15 20 21 30 8 9 14 29 37 40 10 12 Jumlah titik dalam cluster Proses clustering berhasil dijalankan dengan nilai tiap parameter yaitu, Eps1=0.2, Eps2=7 dan MinPts=7 serta menghasilkan 41 cluster dengan 712 noise. Cluster ini kemudian dibagi menjadi cluster yang bisa dianalisis dengan cluster yang tidak bisa dianalisis. Gambar 10 menunjukkan banyaknya titik per cluster dimana garis abline vertikal merupakan garis perpotongan antar cluster yang bisa dianalisis dengan yang tidak. Cluster yang dapat dianalisis merupakan cluster yang setidaknya memiliki minimum 30 hotspot, hal ini dikarenakan pola cluster sudah dapat dikategorikan tipe polanya menurut Pöelitz dan Andrienko (2010) sedangkan cluster yang memiliki jumlah hotspot kurang dari 30, pola cluster dari cluster tersebut tidak dapat terdeteksi. Cluster yang memiliki jumlah hotspot minimum 30 hotspot dapat dikatakan sebagai cluster besar. Cluster Gambar 10 Jumlah titik per cluster Pada tahap ini juga dilakukan pengujian running time algoritme STDBSCAN di R. Waktu yang dibutuhkan untuk mengeksekusi algoritme STDBSCAN pada R adalah 1.14 detik. Tahapan ini juga menguji seberapa banyak 14 data yang bisa diolah dengan menggunakan RAM sebesar 2 GB. Hasil pengujian runtime dapat dilihat pada Gambar 11. 2,80 WAKTU (S) 2,50 2,20 1,90 1,60 1,30 1,00 4821 5000 5500 6000 6500 7000 7300 BANYAK DATA Gambar 11 Runtime algoritme ST-DBSCAN menggunakan R Analisis Cluster Implementasi algoritme ST-DBSCAN dengan menggunakan bahasa pemrograman R yang diaplikasikan pada dataset hostspot di Sumatera Selatan dilakukan untuk menemukan pola kebakaran hutan. Konsentrasi hotspot akan mengindikasikan fenomena yang merupakan pola kemunculan yang sering terjadi ataupun yang jarang terjadi. Pada hasil cluster didapatkan 13 cluster yang termasuk ke dalam cluster besar yang dapat dianalisis polanya. Tabel 3 menunjukkan clustercluster yang masuk ke dalam cluster besar. Tabel 3 Jumlah hotspot dalam cluster besar Cluster ke- Jumlah hotspot Cluster ke- Jumlah hotspot 2 2029 38 39 22 1157 3 36 34 150 17 35 31 115 6 34 26 58 16 32 32 55 27 30 23 41 Cluster besar kemudian dianalisis polanya berdasarkan tipe pola data spatiotemporal menurut Pöelitz dan Andrienko (2010). Ilustrasi pola dapat dilihat pada Gambar 12. 15 Gambar 12 Ilustrasi pola spatio-temporal (Purwanto 2012) Tiap cluster besar akan dibagi menjadi per periode, yaitu tujuh hari untuk perbandingan lokasi persebaran hotspot pada suatu periode dengan periode selanjutnya. Waktu 7 hari dipilih karena kondisi cuaca yang hampir mirip dan perubahan cuaca yang tidak signifikan. Sebagai contoh pada cluster 2 didapatkan 16 periode (Gambar 13). 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Gambar 13 Cluster 2 pada periode 1 (kiri-atas) dan periode 16 (kanan-bawah) Pada periode 7 hotspot muncul pada seluruh kabupaten kecuali kota. Selanjutnya pada periode 10 dan 12 hotspot terpusat pada Kabupaten Ogan Komering Ilir maka dapat dikatakan cluster 2 mempunyai pola occasional seperti ditunjukkan pada Gambar 12. 16 Analisis 13 cluster besar pada penelitian ini menunjukkan bahwa tipe pola spatio-temporal yang paling banyak muncul adalah pola stationary (Lampiran 2). Terdapat 7 pola stationary yang muncul dan 4 diantaranya terdapat di kabupaten Muara Banyu Asin. Dengan adanya hasil analisis berupa pola kebakaran hutan diharapkan pemerintah dapat mengambil tindakan yang tepat untuk menangani kejadian kebakaran hutan. Sebagai contoh, untuk pola stationary maka dapat dilakukan pemberitahuan terhadap masyarakat sekitar dan pihak terkait untuk lebih waspada terhadap kemunculan kebakaran hutan agar dapat meminimalisir dampak yang terjadi. Visualisasi Cluster Visualisasi cluster dengan bahasa pemrograman R menggunakan package rworldmap dan rworldxtra. Terdapat 3 hasil visualisasi pertama adalah visualisasi seluruh cluster di atas peta Sumatera Selatan (Gambar 14), lalu visualisasi grafik cluster tertentu dengan garis abline yang menunjukkan perpindahan periode 7 hari (Gambar 15), dan visualisasi cluster tertentu di atas peta yang bisa digunakan untuk menganalisis pola (Gambar 16 dan Lampiran 1). Gambar 14 menampilkan 41 cluster dengan visualisasi berbagai warna. Warna yang merepresentasikan setiap cluster di dapat dari fungsi rainbow. Visualisasi peta Sumatera Selatan diambil dari package rworldmap dan rworldxtra. Berikut adalah potongan program yang digunakan: 17 Gambar 14 Visualisasi seluruh cluster di Sumatera Selatan Gambar 15 menampilkan grafik pada cluster 2 dimana kemunculan hotspot per-periode. Satu periode adalah satu minggu sehingga kemunculan hotspot pada cluster 2 sekitar 16 minggu (16 periode). Waktu Gambar 15 Grafik cluster 2 per-periode waktu 7 hari Gambar 16 menampilkan peta cluster 2 per periode sehingga memudahkan dalam menganalisis pola spatio-temporal yang muncul. 1 2 3 4 5 6 7 8 9 10 11 12 14 15 16 13 Gambar 16 Visualisasi pola cluster 22 18 SIMPULAN DAN SARAN Simpulan Bahasa pemrograman R mampu mengimplementasikan algoritme STDBSCAN. Dengan mengimplementasikan algoritme ST-DBSCAN menggunakan R runtime yang didapatkan adalah 1.14 detik. Pada dataset Sumatera Selatan ditemukan 41 cluster dengan 13 cluster besar yang dapat dianalisis. Tipe pola spatio-temporal paling banyak ditemukan adalah tipe pola stationary yang banyak muncul di Kabupaten Musi Banyu Asin. Saran R sudah terbukti dapat mengeksekusi algoritme ST-DBSCAN lebih cepat, namun pada penelitian ini hanya dapat memroses data sebanyak 7300 untuk RAM sebesar 2 GB. Untuk itu pada penelitian selanjutnya diharapkan mampu untuk mengolah data yang lebih besar dan menambahkan parameter masukkan ∆ϵ untuk mencegah ditemukannya kombinasi cluster akibat perbedaan non-spasial yang sangat tipis antar-tetangga. Sebagai contoh menambahkan matriks untuk data nonspatial dari kolom suhu (brightness). DAFTAR PUSTAKA Adinugroho WC, Suryadiputra INN, Saharjo BH, Siboro L. 2005. Panduan Pengendalian Kebakaran Hutan dan Lahan Gambut. Proyek Climate Change, Forests and Peatlands in Indonesia. Bogor: Wetlands International-Indonesia Programme dan Wildlife Habitat Canada. Austin K, Alisjahbana A, Sizer N. 2013. Data Terbaru Menunjukkan Kebakaran Hutan Di Indonesia Adalah Krisis Yang Telah Berlangsung Sejak Lama [Internet]. [diunduh 2013 Oktober 20]. Tersedia pada: http://insights.wri.org/news/2013/06/data-terbaru-menunjukkan-kebakaranhutan-di-indonesia-adalah-krisis-yang-telah-berlangs#fire Birant D, Kut A .2007. ST-DBSCAN: An Algorithm for Clustering Spatial-temporal data. Data and Knowledge Engineering. 60:208-221. Brown, A. A. dan K. P Davis. 1973. Forest Fire Control and Use. Toronto Canada: McGraw Hill Inc. hlm 658. Gaonkar M N, Sawant K. 2013. AutoEPsDBSCAN : DBSCAN with Eps Automatic for Large Datase. 2:2319-2526. Han J, Kamber M. 2006. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publisher. Pöelitz C dan Andrienko N. 2010. Finding Arbitrary Shaped Cluster with Related Extents in Space and Time. IEEE-VGTC Simposium on Visualization. Purwanto U Y, Barus B, dan Adrianto H A. 2012. Spatial clustering of hotspot using DBSCAN and ST-DBSCAN. Bogor (ID): Institut Pertanian Bogor. 19 Rao K V, Govardhan A, dan Rao K V C. 2012. Spatiotemporal Data Mining: Issues, Tasks and Applications. Chennai (IN): Engg Journals Publications. Shekhar dan Chawla. 2003. Spatial Databases A Tour. New Jersey. Prentice Hall Syaufina L. 2008. Kebakaran Hutan dan Lahan di Indonesia. Bogor: Bayumedia Publishing. Venables W N, Smith D M. 2009. An Introduction to R. Berlin Heidelberg (NY) : Springer. 20 Lampiran 1 Peta pola hotspot yang ditemukan di Sumatera Selatan Peta pola hotspot Cluster ke- Cluster 2 Cluster 3 Cluster 6 Cluster 16 21 Cluster 17 Cluster 22 Cluster 23 Cluster 26 Cluster 27 Cluster 31 22 Cluster 32 Cluster 34 Cluster 38 23 Lampiran 2 Penjelasan pola hotspot dalam cluster besar Cluster ke2 3 6 16 17 22 23 26 27 31 32 34 38 Pola Keterangan Occasional Menyebar di seluruh kabupaten, kecuali kota. Hotspot yang mucul pada periode 10 dan 12 terpusat pada daerah Ogan Komering Ilir. Stationary Hotspot terdapat Kabupaten Musi Banyu Asin. Stationary Hotspot terdapat Kabupaten Musi Rawas Track Hotspot terjadi di Musi Banyu Asin dan kemudian bergerak ke Muara Enim, lalu ke perbatasan Banyu Asin. Stationary Hotspot terdapat Kabupaten Musi Banyu Asin. Occasional Hotspot tidak terdapat di kota Palembang dan Pagar Alam. Stationary Hotspot terdapat pada Kabupaten Musi Banyu Asin. Occasional Hotspot terdapat pada kabupaten Lahat, Muara Enim, Oku Timur, Ogan Ilir, Ogan Komening Ilir dan Ogan Komering Ulu. Stationary Hotspot terdapat Kabupaten Ogan Komering Ilir Track Pada awalnya hotspot berada di kabupaten Oku Selatan, Ogan Komering Ulu, dan Muara Enim. Kemudian menyebar ke kabupaten Lahat, Oku Timur, dan semakin membanyak di Oku Selatan. Stationary Hotspot terletak di kabupaten Lahat, Musi Rawas, Muara Enim, dan pinggiran kota Pagar Alam. Stationary Kemunculan hotspot terdapat di kabupaten Musi Banyu Asin, Banyu Asin, dan Ogan Komering Ilir. Occasional Hotspot terdapat pada kabupaten Muara Enim dan Ogan Komering Ulu. 24 RIWAYAT HIDUP Penulis dilahirkan di Bandung pada tanggal 29 Desember 1993, dari pasangan Bapak Drs Dani Indrawan MA dan Ibu Anna Yulianti sebagai anak pertama dari tiga bersaudara. Pada tahun 2010 penulis lulus dari SMA Negeri 3 Bogor dan lulus seleksi masuk Institut Pertanian Bogor (IPB) melalui jalur Undangan Seleksi Masuk IPB dan diterima di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama mengikuti perkuliahan, penulis pernah aktif menjadi anggota dan pengibar bendera di paskibra IPB. Pada tahun 2013, penulis mengikuti kegiatan Praktik Kerja Lapangan di PT INTI.