Clustering Data Kejadian Tsunami Yang Disebabkan Oleh - j

advertisement
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Vol. 1, No. 8, Juni 2017, hlm. 635-640
e-ISSN: 2548-964X
http://j-ptiik.ub.ac.id
Clustering Data Kejadian Tsunami Yang Disebabkan Oleh Gempa Bumi
Dengan Menggunakan Algoritma K-Medoids
Daniel Alex Saroha Simamora1, M. Tanzil Furqon2, Bayu Priyambadha3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
E-mail : [email protected], [email protected], [email protected]
Abstrak
Tsunami adalah sebuah kejadian alam yang disebabkan oleh perubahan permukaan laut secara vertikal
dengan tiba – tiba sehingga menyebabkan perpindahan volume air yang besar. Letusan gunung berapi
bawah laut, gempa bumi yang berpusat dibawah laut, dan longsor bawah laut merupakan beberapa
penyebab perubahan permukaan laut secara tiba – tiba. Tsunami telah sering terjadi dan menyebabkan
banyak kerusakan dan korban jiwa. Tsunami yang sering terjadi secara tiba – tiba dan tidak dapat
diprediksi menjadi penyebab utama banyaknya korban jiwa dan kerusakan yang terjadi dan juga
kecilnya pengetahuan dan kesadaran tentang tsunami memperparah efek yang dapat ditimbulkan oleh
tsunami. K-Medoids merupakan salah satu metode clustering data yang telah banyak diaplikasikan
terhadap dataset yang memiliki outlier. Subjek yang terdapat pada penelitian ini adalah aplikasi
pengelompokan data dengan menggunakan K-Medoids untuk mengelompokan data kejadian tsunami
yang disebabkan oleh gempa bumi. Dataset yang digunakan pada penelitian ini bersumber dari database
kejadian tsunami yang terdapat di situs resmi National Oceanic and Atmospheric Administration
(NOAA). Hasil dari penelitian ini adalah sebuah sistem yang mampu melakukan pengelompokan dataset
tsunami dengan menggunakan metode K-Medoids. Dari pengujian yang dilakukan didapatkan hasil
bahwa jumlah cluster terbaik untuk mengelompokan dataset tsunami adalah 2 cluster.
Kata Kunci: tsunami, K-Medoids
Abstract
Tsunami is a natural events caused by sudden alteration in sea surface vertically, causing displacement
of a large volume of water. Underwater volcano eruption, earthquake that is centered under the sea,
and submarine landslide are some of the causes of sudden sea level change. Tsunami have occurred
many times and causing many damages and fatalities. Tsunami often occurred so suddenly and cannot
be predicted is the main reason for so many damages and fatalities, and the lack of knowledge and
awareness are also worsen the effect of tsunami. K-Medoids is one of many clustering method which is
applied to the dataset which have outlier. Subject in this research is a clustering application using KMedoids to cluster the tsunami event which caused by earthquake dataset. Dataset used in this research
come from the tsunami events database from the official site of National Oceanic and Atmospheric
Administration (NOAA). The outcome from this research is a system that able to do clustering process
on the tsunami events dataset using K-Medoids method. From the test, it is showed that the best number
of clusters for tsunami events dataset is 2 clusters.
Keywords : tsunami, K-Medoids
Samudra Hindia. Dampak dari tsunami tersebut
dirasakan oleh 14 negara termasuk negara kita
dengan korban jiwa lebih dari 170.000 orang dan
kerugian material diperkirakan mencapai US$
4.000.000.000 – 4.500.000.000. Besarnya
kerugian yang dialami Indonesia diantara lain
disebabkan oleh dekatnya pusat gempa dengan
pesisir pantai, kurangnya akses informasi dan
pendidikan mengenai tanda - tanda tsunami.
1. PENDAHULUAN
Pada hari Minggu, 26 Desember 2004 terjadi
gempa hebat berkekuatan Mw (moment
magnitude) 9,1–9,3 dan berpusat di lepas pesisir
barat Sumatera yang menyebabkan terjadinya
serangkaian bencana tsunami yang menyerang
sebagian besar daratan yang berbatasan dengan
Fakultas Ilmu Komputer
Universitas Brawijaya
635
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Selama ini tsunami masih menjadi bahasan di
lembaga – lembaga penelitian dan level
perguruan tinggi dan belum merakyat.
Dengan teknologi yang berkembang pada
saat ini tidak sulit untuk bisa mengumpulkan
data – data statistik dari kejadian tsunami yang
telah terjadi di masa lalu, mempelajari
karakteristik dari setiap kejadian tersebut, dan
melakukan pengelompokan data. Dengan
bantuan teknologi maka pengelompokan data,
atau yang disebut juga dengan Clustering, bisa
dilakukan secara cepat, efektif dan efisien.
Clustering adalah suatu unsupervised
learning,
dimana
sekelompok
data
langsung dikelompokan berdasarkan tingkat
kemiripannya
tanpa
dilakukan
supervisi. Prinsip dasar dari clusteringadalah
memaksimalkan kesamaan antar anggota satu
klaster dan meminimumkan kesamaan antar
anggota cluster yang berbeda. Clusteringjuga
dapat mengelompokan data yang berdasarkan
tingkat kemiripannya dan juga berdasarkan
tingkat akurasinya (Han&Kamber,2006).
Terdapat
beberapa
algoritma
pengelompokan data, diantaranya adalah KMedoids, K-Means, dll. Algoritma K-Medoids
merupakan metode yang diciptakan untuk
mengatasi kelemahan algoritma K-Means yang
sensitif terhadap outlier, karena nilai yang sangat
besar dapat secara substansial mendistorsi
distribusi data. Untuk mengatasi hal tersebut
algoritma K-Medoids tidak mengambil nilai rata
– rata dari objek dalam sebuah cluster sebagai
titik acuan melainkan menggunakan objek yang
sebenarnya
untuk
mewakili
cluster,
menggunakan satu objek perwakilan per cluster.
Setiap objek yang tersisa berkumpul dengan
objek perwakilan yang paling mirip dengan
dirinya. Lalu metode partisi dilakukan
berdasarkan prinsip meminimalkan jumlah
ketidaksamaan antara tiap objek dengan titik
referensinya (Han&Kamber,2006).
Pada skripsi ini dengan memanfaatkan
metode untuk K-Medoids, dapat dikembangkan
untuk
membangun
aplikasi
pada
pengelompokan data kejadian tsunami yang
disebabkan oleh gempa bumi. Pentingnya
melakukan pengelompokan data dari kejadian
tsunami karena data yang dihasilkan nantinya
bisa berguna untuk mengetahui karakteristik
tsunami dan bisa digunakan untuk peringatan
awal dan penanggulangan bencana tsunami
(National Academy of Science,2011).
Melihat pada penelitian sebelumnya yang
dilakukan oleh Gandhi Gopi (Gandhi,2014)
Fakultas Ilmu Komputer, Universitas Brawijaya
636
menunjukan bahwa K-Medoids memiliki kinerja
yang lebih baik daripada K-Means dalam
melakukan pengelompokan pada dataset yang
berukuran besar dan hasil dari penelitian yang
dilakukan oleh T. Velmurugan dan T.
Santhanam (Velmurugan,2010) menunjukan
bahwa K-Medoids menunjukkan kinerja yang
lebih bagus dari K-Means dalam melakukan
pengelompokan terhadap dataset dengan jumlah
objek yang besar
2. DATA PENELITIAN
Data yang digunakan dalam penelitian ini
adalah dataset tsunami yang disebabkan oleh
gempa bumi yang diambil dari website NOAA
(National
Oceanic
and
Atmospheric
Administration), dengan alamat website
www.ngdc.noaa.gov.
Parameter
kejadian
tsunami yang digunakan berjumlah 4 parameter
yaitu kekuatan gempa, kedalaman pusat gempa
(focal depth), latitude, longitude.
Data yang terdapat pada website NOAA
memiliki beberapa kelompok parameter seperti
date, tsunami cause, tsunami source location,
tsunami parameter, tsunami effect, tetapi hanya
tsunami cause yang digunakan dalam penelitian
ini dikarenakan parameter yang ada didalamnya
merupakan parameter penyebab tsunami. Data
kejadian tsunami yang diperoleh untuk
penelitian ini berjumlah total 197 data. Data
yang digunakan merupakan data kejadian
tsunami yang terjadi pada tahun 1990 – 2015
dikarenakan banyak data kejadian tsunami yang
terjadi pada tahun – tahun sebelum tahun 1990
memiliki data yang kurang lengkap.
3. TSUNAMI
Kata Tsunami berasal dari 2 kata dalam
bahasa jepang yaitu tsu yang berarti pelabuhan
dan nami yang berarti gelombang, secara bahasa
tsunami dapat diartikan sebagai ombak besar di
pelabuhan. Tsunami disebabkan oleh perubahan
permukaan laut secara vertikal dengan tiba – tiba
sehingga menyebabkan perpindahan volume air
yang besar. Letusan gunung berapi bawah laut,
gempa bumi yang berpusat dibawah laut, dan
longsor bawah laut merupakan beberapa
penyebab perubahan permukaan laut secara tiba
– tiba.
Gelombang tsunami dapat merambat
kesegala arah dengan kecepatan dan ketinggian
tsunami didalam laut tetap tidak berubah. Di
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
637
lautan dalam, gelombang tsunami dapat melaju
dengan kecepatan kecepatan 500-1000 km per
jam tetapi ketinggiannya hanya sekitar 1 meter.
Namun saat tiba dibibir pantai kecepatan
gelombang tsunami turun hingga sekitar 30 km
per jam dan ketinggiannya meningkat sampai
puluhan meter dan gelombang tsunami dapat
menjalar sampai puluhan kilometer dari tepi
pantai.
4. K-MEDOIDS
Algoritma k-medoids adalah salah satu
algoritma clustering yang terkait dengan
algoritma k-means. K-medoids dan k-means
bersifat partisional (memecah dataset kedalam
beberapa kelompok) dan keduanya bertujuan
untuk meminimalkan jarak antara titik yang ada
di dalam kluster dengan titik yang menjadi titik
tengah dari kluster.
Berikut langkah-langkah dari metode Kmedoid menurut Han & Kamber:
1. Menentukan jumlah kluster yang
diinginkan.
2. Memilih secara acak data untuk
digunakan sebagai medoid awal sebanyak
jumlah kluster yang ditentukan.
3. Melakukan perhitungan jarak data
terhadap medoid awal.
4. Mengelompokan data dengan medoid
yang berjarak paling dekat dengan data
tersebut lalu menghitung jumlah cost.
5. Mengganti salah satu medoid dengan data
dari kelompoknya dan melakukan proses
perhitungan jarak dan pengelompokan
seperti pada proses nomor 3 dan 4. Jika
jumlah cost yang dihasilkan lebih kecil
dari cost sebelumnya maka medoid akan
diganti dengan medoid yang baru dan jika
tidak maka tidak terjadi perubahan dan
diganti dengan data yang lainnya.
Ulangi proses 3 – 5 sampai semua data
telah menjadi medoid.
Gambar 1. Diagram Alir K-Medoids
5.
SILHOUTTE COEFFICIENT
Silhoutte Coefficient adalah suatu metode
evaluasi cluster untuk melihat kualitas
penempatan suatu objek kedalam suatu cluster.
Tahapan perhitungan silhoutte coefficient
adalah sebagai berikut (Rousseeuw,1986).
1. Hitung rata – rata jarak objek ke-i
terhadap semua objek yang terdapat di
kelompoknya. Rata – rata jarak tersebut
kita sebut dengan a(i).
2. Hitung rata – rata jarak objek ke-i
terhadap semua objek pada cluster lain
kita sebut dengan b(i), dan ambil nilai
terkecilnya.
3. Nilai silhoutte coefficient didapatkan
dengan menggunakan rumus :
𝑏(𝑖)−𝑎(𝑖)
𝑆(𝑖) = max(𝑏(𝑖),𝑎(𝑖))
(1)
dan dapat di tulis dengan :
1−
𝑆(𝑖) =
𝑎(𝑖)
𝑏(𝑖)
,
0,
𝑏(𝑖)
{ 𝑎(𝑖)
𝑖𝑓 𝑎(𝑖) < 𝑏(𝑖)
𝑖𝑓 𝑎(𝑖) = 𝑏(𝑖)
− 1,
(2)
𝑖𝑓 𝑎(𝑖) > 𝑏(𝑖)
S(i) = Nilai Silhouette
a(i) = rata – rata jarak antara data i dengan
semua objek pada cluster-nya.
b(i) = rata – rata jarak antara data i
terhadap semua objek pada cluster lain.
Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
638
Nilai dari silhoutte coefficient berada
berkisar antara -1 sampai dengan 1. Jika nilai
silhoutte coefficient hampir 1 maka objek
tersebut berada di cluster yang tepat, jika berada
disekitar 0 maka objek tersebut bisa berada
diantar 2 cluster, dan jika hasilnya negatif maka
objek tersebut kemungkinan berada di cluster
yang salah.
6. IMPLEMENTASI SISTEM
Pada bagian ini akan dijelaskan tentang
bagaimana alur kerja dari sistem clustering
dengan metode K-Medoids ini nantinya.
Diagram alir dari sistem dalam melakukan
proses pengelompokan dengan menggunakan KMedoids digambarkan pada gambar 2.
Pada gambar 2, terlihat sistem clustering ini
memiliki 3 proses utama, yaitu :
1. Jumlah Cluster
Merupakan
proses
masukan
dari
pengguna yang berupa berapa banyak
jumlah cluster yang diinginkan. Proses ini
penting karena merupakan proses awal
yang diperlukan untuk menjalankan
sistem. Proses ini juga akan menentukan
berapa banyak jumlah data yang akan
diambil secara acak untuk menjadi medoid
awal.
2. K-medoids
Pada proses ini dataset dikelompokan
berdasarkan jumlah kluster yang
diinputkan pada awal program dengan
menggunkan metode K-medoid. sistem
yang telah menentukan secara acak
sejumlah medoid akan mengelompokan
data yang tersisa berdasarkan jarak
terdekat dengan medoid yang ada.
3. Hasil Clustering
Hasil dari clustering adalah data yang
telah terkelompok sesuai dengan clusternya masing – masing.
Gambar 2. Diagram Alir Sistem
7. PENGUJIAN
Pengujian sistem yang dilakukan pada
pengujian ini adalah pengujian jumlah cluster
dan pengujian clustering terhadap sampel data
acak.
1. Pengujian jumlah cluster.
Pengujian ini bertujuan untuk mengetahui
apakah sistem yang dibangun telah
berjalan sesuai dengan perancangan dan
berapa jumlah cluster yang menghasil kan
nilai silhouette terbaik.
2. Pengujian clustering terhadap sampel data
acak.
Pengujian ini bertujuan untuk mengetahui
presentase data minimal yang dapat
digunakan
untuk
rekomendasi
pengambilan sampel data dari dataset
dengan jumlah data yang besar.
8. ANALISIS
Berikut ini merupakan hasil dari pengujian
jumlah cluster dan pengujian clustering terhadap
sampel data acak. Tabel 1 dan gambar 3
merupakan hasil pengujian petama. Tabel 2 dan
gambar 4 merupakan hasil pengujian kedua.
Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
639
Tabel 1. Hasil Pengujian Pertama
Tabel 2. Hasil Pengujian Kedua
Nilai silhouette score
No
Jumlah Cluster
Silhouette Score
Data
Acak
50%
60%
70%
80%
90%
1
2
0,400668137270
1
0,351
0,410
0,463
0,415
0,451
2
3
0,322900508932
2
0,401
0,442
0,446
0,461
0,466
3
4
0,303301079203
3
0,342
0,406
0,417
0,441
0,443
4
5
0,160571099
4
0,373
0,432
0,439
0,457
0,452
5
6
0,217537051717
5
0,442
0,422
0,445
0,441
0,457
6
7
0,153083184634
Rata
0,382
0,423
0,442
0,443
0,454
7
8
0,213233297630
8
9
0,149280034071
9
10
0,177143217497
0,6
Hasil Pengujian Terhadap Jumlah
Cluster
0,6
Hasil Pengujian Clustering Terhadap
Sampel Data Acak
0,5
0,4
0,3
Silhouette
Score
0,4
Silhouette
Score
0,2
0,1
0,2
50%
60%
70%
80%
90%
Gambar 4. Hasil Pengujian Kedua
0,0
2
3
4
5 6 7 8
Jumlah Cluster
9 10
Gambar 3. Hasil Pengujian Pertama
Dari hasil pengujian perubahan jumlah
cluster yang ditampilkan pada tabel 1 terlihat
bahwa sistem telah berhasil menjalankan metode
K-Medoids seperti yang telah dirancang
sebelumnya. Sistem mampu menerima masukan
dari user dan menampilkan hasilnya. Analisa
hasil clustering dengan pengujian jumlah cluster
sebanyak 2 sampai dengan 10 cluster
menunjukan bahwa kualitas clustering dengan
jumlah cluster sama dengan 2 memiliki kualitas
yang paling bagus dengan nilai silhouette score
sebesar 0,400668137270. Selain itu, semakin
banyak jumlah cluster yang dimasukan maka
semakin rendah nilai silhouette score yang
dihasilkan. Hal ini disebabkan karena ketika
jumlah cluster yang digunakan semakin sedikit
maka rata – rata jarak antara data di dalam suatu
cluster semakin kecil dan rata – rata jarak antar
cluster semakin besar sehingga menghasilkan
nilai silhouette score yang lebih baik dan hal
yang sebaliknya akan terjadi ketika jumlah
cluster semakin besar.
Fakultas Ilmu Komputer, Universitas Brawijaya
Gambar 4 menggambarkan hasil pengujian
terhadap 25 dataset yang diambil secara acak
dari dataset tsunami dapat dilihat bahwa
kelompok dataset dengan jumlah data sebesar
90% dari total dataset kejadian tsunami
menghasilakan rata – rata nilai silhouette score
paling baik dengan nilai silhouette score sebesar
0,45363334, dan dapat dilihat juga bahwa
semakin kecil presentase pengambilan data acak
maka nilai silhouette score yang dihasilkan akan
semakin kecil. Hal ini dapat terjadi karena
semakin kecil presentase data acak yang diambil
maka kesamaan karakteristik antar data didalam
dataset akan berkurang yang akan menyebabkan
rata – rata jarak antar data dalam suatu cluster
akan semakin besar dan rata – rata jarak antar
cluster akan semakin kecil.
9. KESIMPULAN
Berdasarkan pada hasil perancangan,
implementasi dan pengujian sistem yang telah
dilakukan maka kesimpulan yang didapat
sebagai berikut :
1. Metode K-Medoids dapat diaplikasikan
untuk pengelompokkan dataset kejadian
tsunami. Pengimplementasian metode K-
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Medoids pada penelitian ini dimulai
dengan pengambilan dataset dari situs
NOAA yaitu http://www.ngdc.noaa. gov.
Dataset yang telah diambil akan
dimasukkan kedalam proses clustering
dengan dengan menggunakan metode KMedoids. Metode silhouette juga
digunakan
didalam sistem untuk
mengetahui kualitas dari hasil clustering
yang telah dihasilkan. Metode silhouette
menghitung
tingkat
kesamaan
karakteristik data di dalam suatu cluster
dan data antar cluster. Setelah proses KMedoids dan perhitungan kualitas selesai
maka sistem akan menampilkan hasil
clustering beserta nilai silhouette score.
2. Pada penelitian ini terdapat 2 pengujian
yang dilakukan berdasarkan perancangan
pengujian pada bab perancangan.
a. Pengujian Terhadap Jumlah Cluster
Dari hasil pengujian jumlah cluster
yang telah dilakukan didapatkan
bahwa jumlah cluster terbaik yang
didapatkan adalah 2 cluster dengan
nilai
silhouette
score
sebesar
0,400668137270. Nilai tersebut dapat
dapat diartikan bahwa kesamaan
karakteristik data yang terdapat dalam
kluster tidak terlalu bagus sehingga
jarak antar data dalam suatu kluster
berjauhan. Hal ini dapat terjadi karena
perbedaan data yang sangat besar
antara data satu dengan data lainnya
dan juga bisa disebabkan karena belum
ditemukan kombinasi medoid awal
yang terbaik.
b. Pengujian
Clustering
Terhadap
Sampel Data Acak
Hasil pengujian clustering terhadap
sampel data acak menunjukkan bahwa
90% data merupakan presentase
minimal untuk pengambilan sampel
data.
10. SARAN
Saran yang diberikan untuk pengembangan
sistem dalam penelitian selanjutnya adalah:
1. Dapat dilakukan penelitian lebih lanjut
tentang metode K-Medoids dalam
pemilihan medoid agar medoid yang
terpilih merupakan medoid terbaik
sehingga mendapatkan hasil clustering
yang terbaik.
Fakultas Ilmu Komputer, Universitas Brawijaya
640
2. Dapat dilakukan penelitian lebih lanjut
tentang clustering dataset tsunami dengan
menggunakan metode clustering lainnya
sebagai perbandingan.
3. Penelitian ini dapat dikembangkan dengan
menambahkan beberapa fitur lain untuk
mengetahui pengaruh fitur terhadap hasil
clustering.
DAFTAR PUSTAKA
Bauckhage, C. (2015) NumPy / SciPy Recipes
for Data Science: K-Medoids Clustering.
University of Bonn.
Gandhi, G. & Srivastava, R. (2014) Analysis
And Implementation Of Modified KMedoids
Algorithm
To
Increase
Scalability And Efficiency For Large
Dataset. International Journal of
Research in Engineering and Technology.
3(6), 150 – 153.
Han, J. & Kamber, M. (2006) Data Mining :
Concepts and Technique, 2nd edn. San
Francisco, Elsevier Inc.
Hinga, B. D. R. (2015) An Encyclopedia of the
Pacific Rim’s Earthquakes, Tsunamis,
and Volcanoes. Santa Barbara, ABCCLIO.
Richter, C. F. (1935) Bulletin of the
Seismological Society of America.
Pasadena, Carnegie Institution of
Washington.
Rousseeuw, P. J. (1986) Silhouettes : A
Graphical Aid to the Interpretation and
Validation of Cluster Analysis. Fribourg,
University of Fribourg.
Velmurugan, T. & Santhanam, T. (2010)
Computational Complexity between KMeans and K-Medoids Clustering
Algorithms for Normal and Uniform
Distributions of Data Points. Journal of
Computer Science. 6(3), 363 – 368.
Download