algoritma k-means clusteringdalam penyebaran penyakit diare

advertisement
ALGORITMA K-MEANS CLUSTERINGDALAM PENYEBARAN
PENYAKIT DIARE
Fina Nasari
Sistem Informasi Universitas Potensi Utama
Jl. K.L. Yos Sudarso Km 6,5 No. 3A Tanjung Mulia-Medan
Email : [email protected]
Abstrak
Diare merupakan penyakit yang bertanggung jawab untuk sekitar seperempat dari 130.000 kematian
tahunan diantara anak balita, terutama pada musim pancaroba seperti yang terjadi dihampir seluruh
kawasan Indonesia tidak terlebih di kabupaten langkat sumatera utara. Untuk melihat kawasan
penyebarannya perlu dibuat sebuah pengelompokan kawasan penyebaran diare, agar diperoleh daerah
penyebaran diare dan pusat penyebarannya. Algoritma K-Means Clustering merupakan salah satu
algoritma yang mengelompokkan data yang sama pada kelompok tertentu dan data yang berbeda pada
kelompok yang lain. Hasil dari pengelompokkan daerah penyebaran diperoleh Kecamatan Batang
Serangan, Brandan Barat dan Permata Jaya sebagai pusat penyebaran diare pada Cluster pertama dan
Kecamatan Hinai dan Sei Bingai menjadi pusat cluster kedua.
Kata Kunci – Diare, Data Mining, K-Means Clustering,
Centroid
Diarrhea is a disease that is responsible for about a quarter of the 130,000 annual deaths among
children under five, especially in the transition season as happens in almost all Indonesian regions
especially not in Langkat district of North Sumatra. To view the distribution area should be made a
regional breakdown of the spread of diarrhea, in order to obtain the spread of diarrhea and regional
distribution centers. K-Means Clustering Algorithm is one algorithm which classifies the same data at
particular groups and different data in the other group. The results obtained from the grouping area
deployment District of Batang Serangan, Brandan Barat and Permata Jaya as a center for the spread
of diarrhea in the first cluster and the District Hinai and Sei Bingai became the center of the second
cluster.
Keywords - Diarrhoea, Data Mining, K-Means Clustering, Centroid
1. PENDAHULUAN
Pengertian mahasiswa secara umum yaitu suatu peran tertinggi dalam dunia pendidikan yang
mengatur pola tingkah laku manusia dari remaja menuju keperan sesungguhnya, bisa dikatakan
mahasiswa adalah proses dimana pola pikiran mengarah kelebih tinggi atau lebih serius dalam
menjalani peran tersebut.
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat
bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses
KDD secara keseluruhan. [1]Salah satu metode yang terdapat dalam data mining yang digunakan
dalam penelitian ini adalah pengelompokan (Clustering) dimana metode tersebut mengidentifikasi
objek yang memiliki kesamaan karakteristik tertentu, dan kemudian menggunakan karakteristik
tersebut sebagai “vektor karakteristik” atau “centroid”. [1]
Beberapa penulis terdahulu telah menerapakan teknik K-Means Clustering sebagai penelitian
dalam hal Pengelompokkan data, diantaranya :
Ediyanto, dkk (2013) Dalam Penelitiannya yang berjudul “Pengklasifikasian Karakteristik
Dengan Metode K-Means Cluster Analysis”. Penulis dalam penelitian ini menjelaskan bahwa metode
K-Means Cluster Analysis cukup efektif diterapkan dalam proses pengklasifikasian karakteristik
Title of manuscript is short and clear, implies research results (First Author)
terhadap objek penelitian. Algoritma K-Means juga tidak terpengaruh terhadap urutan objek yang
digunakan, hal inidibuktikan ketika penulis mencoba menentukan secara acak titik awal pusat cluster
dari salah satu objek pada permulaan perhitungan [3].
Ong Johan Oscar (2013) dengan penelitiannya yang mengangkat judul “Implementasi
Algoritma K-Means Clustering Untuk Menentukan Strategi Marketing President University”. Tujuan
penulisan yang dijelaskan penulis dalam makalah ini menunjukkan bahwa hasil dari pengolahan data
mahasiswa membantu pihak marketing President Unversity dalam melakukan pemasaran dan mencari
calon mahasiswa baru dari berbagai kota di Indonesia. Dan hasilnya cukup efisien dan efektif [4].
T. Gomasathit (2013) melakukan penelitian untuk mengidentifikasicakupanawan di
ataswilayahThailand dengan menggunakandata satelitdanAlgoritma K-meansclustering.Namun,
hasilnyadijelaskan
dalampenelitianmemberikanbeberapainformasi
awaltentangkemungkinananalisiscuacadariperkiraanawan,danakan bergunauntuk studi lanjutketika
datalainnya tersedia [5].
Diare adalah frekuensi buang air besar lebih dari 4 kali pada bayi dan lebih dari tiga kali pada
anak. Konsistensi feses encer dapat berwarna hijau atau dapat pula bercampur lender darah atau
lender saja. Angka tingkat kematian yang dirilis UNICEF september 2012 menunjukkan bahwa secara
global sekitar 2.000 anak di bawah usia lima tahun meninggal setiap hari akibat penyakit diare. Dari
jumlah tersebut sebagian besar atau sekitar 1.800 anak per hari meninggal karena penyakit diare
karena kurangnya air bersih, sanitasi dan kebersihan dasar[6].
Diperkirakan insidensi diare 0,5-2/episode/orang/tahun ada di negara maju sedangkan di negara
berkembang lebih dari itu. Di USA dengan penduduk sekitar 200 juta diperkirakan 99 juta penderita
diare setiap tahunnya [7].
Dari penelitian yang dilakukan oleh Ediyanto (2013), oleh Ong Johan Oscar (2013),
sertapenelitian yang dilakukan T. Gomasathit (2013) disimpulkan bahwa Algoritma KMeansclustering dapat digunakan dalam mengelompokkan data dengan efisien dan efektif dengan
hasil yang diharapkan. Hal inilah yang mendasari penulis dalam melakukan penelitian dalam hal
Algoritma K-Means Clustering dalam penyebaran penyakit diare.
2. METODE PENELITIAN
2.1.KDD ( Knowledge Discovery In Database )
Menurut Fayyad dalam buku (kusrini, 2009) Istilah data mining dan knowledge discovery in
database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian
informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki
konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan
proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut:
1. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap
penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses
data mining disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre- processing / Cleaning
Sebelum proses data mining dapat dilaksanakan, perluh dilakukan proses pembersihan pada data
yang menjadi focus KDD. Proses pembersihan mencakup antara lain membuang duplikasi data,
memeriksa data yang inkosisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak
(tipografi).
3. Transformation
Coding adalah transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk
proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung
pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan
menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining
Title of manuscript is short and clear, implies research results (First Author)
sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan
proses KDD secara keseluruhan.
5. Interpretation / Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang
mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD
yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang
ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya[4].
Gambar 1. Aliran Informasi dalam data mining
2.2. Algoritma K-Means
Pengertian dari K-Means Clustering adalah, K dimaksudkan sebagai konstanta jumlah cluster
yang diinginkan, Means dalam hal ini berarti nilai suatu rata-rata dari suatu grup data yang dalam hal
ini didefinisikan sebagai cluster, sehingga K-Means Clustering adalah suatu metode penganalisaan
data atau metode data mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan
merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode KMeans berusaha mengelompokkan data yang ada kedalam beberapa kelompok, dimana data dalam
satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik
yang berbeda dengan data yang ada didalam kelompok yang lain. Dasar algoritma K-means adalah
sebagai berikut : [8]
1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk.
2. Inisialisasi k sebagai centroid yang dapat dibangkitkan secara random.
3. Hitung jarak setiap data ke masing-masing centroid menggunakan persamaan Euclidean Distance
yaitu sebagai berikut :
𝑝
𝑑(𝑃, 𝑄) = √∑𝑗=1(𝑥𝑗 (𝑃) − 𝑥𝑗 (𝑄))2
(9)
4. Kelompokkan setiap data berdasarkan jarakterdekat antara data dengan centroidnya.
5. Tentukan posisicentroid baru (k)
6. kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama.
3. Metodologi Penelitian
Penelitian ini bertujuan mengelompokkan daerah-daerah penyebaran penyakit diare di
kabupaten langkat.
Adapun Pengelompokan data tersebut digunakan langkah-langkah sebagai berikut :
a. Sumber Data
Sumber data diambil dari data penyebaran diare dikabupaten langkat dengan jumlah kecamatan
sebanyak 23 kecamatan.
Title of manuscript is short and clear, implies research results (First Author)
Tabel 1.Data Penderita Diare Kabupaten Langkat
b. Transformasi Data
Pada tahap ini dilakukan proses perubahan data, tujuannya adalah agar data dapat diolah
dengan menggunakan algoritma K-Means Clustering.
Variabel yang dipilih pada data penyebaran diare adalah jumlah penderita diare dan
kecamatan.
Untuk jumlah penderita diare dikelompokkan menjadi menjadi 6 kelompok.
Untuk Varibael kecamatan dikelompokkan menjadi 6 Kelompok disesuaikan dengan jumlah
desa yang ada dalam kecamatan tersebut.
Hasil transformasi dapat dilihat pada tabel.2 berikut ini:
Tabel 2.Data Hasil Transformasi
c. Pengolahan Data
Setelah proses transformasi langkah selanjutnya adalah proses pengolahan data menggunakan
algoritma K-Means Clustering.
Title of manuscript is short and clear, implies research results (First Author)
Tahapan proses algoritma K-Means Clustering adalah sebagai berikut:
1. Tentukan nilai k dari jumlah cluster yang ingin dibentuk. Cluster yang akan dibuat adalah 2
Cluster.
2. Tentukan titik pusat awal dari setiap cluster. Dalam penelitian ini titik pusat awal ditentukan secara
random dan didapat titik pusat dari setiap cluster dapat dilihat pada tabel 3.
3.
Tabel 3.Titik Pusat Awal Setelah Cluster
4. Dalam penelitian ini digunakan metode hard k-means untuk mengalokasikan setiap data ke dalam
suatu cluster yang memiliki jarak paling dekat dengan titik pusat setiap cluster. Untuk mengetahui
cluster mana yang paling dekat dengan data, maka perlu dihitung jarak setiap data dengan titik
pusat setiap cluster. Sebagai contoh, akan dihitung jarak dari data pertama ke pusat cluster
pertama:
C(1,1) = √(2 − 4)2 + (6 − 6)2 = 2
Dari hasil perhitungan di atas di dapatkan hasil bahwa jarak data mahasiswapertama dengan pusat
cluster pertama adalah 2.
5. Jarak data mahasisw pertama ke pusat cluster kedua:
C(1,2) = √(2 − 2)2 + (6 − 3)2 = 3
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data pertama dengan pusat
cluster ketiga adalah 3 .
Berdasarkan hasil kedua perhitungan di atas dapat disimpulkan bahwa jarak data pertama
yang paling dekat adalah dengan cluster 1, sehingga data pertama dimasukkan ke dalam
cluster 1. Hasil perhitungan selengkapnya dapat di lihat pada tabel 4 di bawah ini.
Tabel 4.Hasil Perhitungan Setiap Data ke Setiap Cluster Iterasi 1
Title of manuscript is short and clear, implies research results (First Author)
6. Setelah semua data dikelompokkan kedalam cluster yang terdekat, kemudian hitung kembali
pusat cluster yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut. Dalam
hal ini jika centroid yang baru konvergen dengan centroid yang lama maka hentikan iterasi, jika
tidak maka lanjutkan iterasi berikutnya. Penghentian iterasi dilakukan karena saat centroid baru
yang dibangkitkan dengan centroid yang lama akan menyebabkan konvergensi pada grup atau
cluster sehingga tidak perlu menghitung distance space (menghitung jarak) data terhadap centroidnya lagi.
7. Pengelompokan hasil cluster pada iterasi pertama belum kovergen, dalam hal ini bangkitkan ulang
centroid baru dengan rumus :
𝐶=
∑𝑚
(9)
𝑛
Sumber: Larose, 2005:153
Dimana :
C : centroid data
m : anggota data yang termasuk kedalam centroid tertentu
n : jumlah data yang menjadi anggota centroid
tertentu
Pada pengelompokan data diatas didapat titik cluster dengan nilai sebagai berikut :
Tabel 5.Titik Pusat iterasi-1 Setelah Cluster
Centroid baru yang dibangkitkan ternyata belum konvergen, sehingga iterasi harus dilanjutkan.
Adapun rincian hasil akhir clustering dapat dilihat pada tabel 6 di bawah ini :
Tabel 6.Hasil Perhitungan Setiap Data ke Setiap Cluster Iterasi 2
Title of manuscript is short and clear, implies research results (First Author)
3. HASIL DAN PEMBAHASAN
Berdasarkan Tabel. 6 diperoleh titik pusat cluster 1 : (2.75 ; 3.75) atau pusat cluster
berada pada kecamatan Batang serangan, Brandan Barat dan pematang jaya, sedangkan pusat
cluster 2 : (2.93 ; 3.60) berada pada kecamatan Hinai, Sei Bingai dan Sirapit. Group terakhir
yang dihasilkan selanjutnya digambarkan dalam sebuah grafik Cluster data dengan nilai
centroid terkahir menjadi titik pusat cluster. Grafik hasil penerapan algoritma K-Means
Clustering dapat dilihat pada Gambar.2
Gambar 1. Hasil pengelompokan data
4. Kesimpulan dan Saran
Kesimpulan dari penelitian ini adalah:
1. Pusat cluster yang diperoleh yaitu untuk cluster pertama berada pada kecamatan Batang
serangan, Brandan Barat dan Pematang Jaya dan pusat cluster kedua berada pada kecamatan
Hinai, Sei Bingai dan Sirapit.
2. Pusat cluster pertama merupakan daerah penyebaran diare untuk jumlah penderita tingkat
menengah atau bukan merupakan pusat penyebaran diare.
3. Pusat cluster kedua merupakan daerah-daerah pusat penyebaran diare, untuk itu pada
daerah-daerah pusat cluster kedua harus menjadi daerah perhatian pemerintah untuk
penanganan diare.
Saran Dalam Penelitian Ini adalah:
1. Sebaiknya untuk penelitian selanjutnya menggunakan data perkelurahan agar daerah-daerah
penyebaran diperoleh lebih detail.
2. Sebaiknya dalam penentuan cluster pertama dibantu dengan algoritma tertentu agar hasil
cluster yang diperoleh lebih optimal.
DAFTAR PUSTAKA
[1]
Nasari Fina, “Penerapan Algoritma c4.5 Dalam Pemilihan Bidang Peminatan Program
Studi Sistem Informasi di STMIK Potensi Utama Medan” Prosiding Seminar Nasional
Informatika 2014 (SNIf 2014), STMIK Potensi Utama,Medan – Sumatera Utara
Received June1st,2012; Revised June25th, 2012; Accepted July 10th, 2012
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
Tanjung Muhammad Rusdi, Erlinda Ningsih, “Perbandingan Penggunaan Data Real dan
Data Hasil Normalisasi Pada Pengelompokkan Data Dengan Menggunakan Metode
Clustering (Studi Kasus PT. PHP Motor)”, Prosiding KeTIK 2014 UIN. Universitas Islam
Negeri Medan – Sumatera Utara.
Ediyanto, dkk, “Pengklasifikasian Karakteristik Dengan Metode K-Means Cluster
Analysis”, Buletin Ilmiah Mat. Stat dan Terapannya (Bimaster) Volume 02, No. 2 (2013),
hal 133Ong Johan Oscar, “Implementasi Algoritma K-Means Clustering Untuk Menentukan
Strategi Marketing President University”, Jurnal Ilmiah Teknik Industri, Vol. 12, No. 1,
Juni 2013. 136
T. Gomasathit. “Cloud Coverage Identification Using Satellite Data and K-mean
Clustering Algorithm”. Journal of Global Research in Computer Science, Volume 4, No.
7, July 2013.
http://www.unicef.org/indonesia/id/media_19772.html
Andyanastri Festy, 2012, Etiologi Dan Gambaran Klinis Diare Akut Di Rsup Dr Kariadi
Semarang. Semarang,Jurnal Ilmiah KTI
Himamunanto Agustinus Rudatyo, Mendrova Hendrik, “Perbandingan Algoritma
Binerisadi Pada Citra Tulang Abnormal Telapak Tangan Manusia”, Prosiding Konferensi
Nasional Sistem Informasi 2012 (KNSI 2012), STIKOM Bal 23-25 Pebruari 2012.
Larose, Daniel, Discovery Knowledge in Data, A Jhon Wiley & Sons, Inc Publication.
Canada: 2005
Title of manuscript is short and clear, implies research results (First Author)
Download