ALGORITMA K-MEANS CLUSTERINGDALAM PENYEBARAN PENYAKIT DIARE Fina Nasari Sistem Informasi Universitas Potensi Utama Jl. K.L. Yos Sudarso Km 6,5 No. 3A Tanjung Mulia-Medan Email : [email protected] Abstrak Diare merupakan penyakit yang bertanggung jawab untuk sekitar seperempat dari 130.000 kematian tahunan diantara anak balita, terutama pada musim pancaroba seperti yang terjadi dihampir seluruh kawasan Indonesia tidak terlebih di kabupaten langkat sumatera utara. Untuk melihat kawasan penyebarannya perlu dibuat sebuah pengelompokan kawasan penyebaran diare, agar diperoleh daerah penyebaran diare dan pusat penyebarannya. Algoritma K-Means Clustering merupakan salah satu algoritma yang mengelompokkan data yang sama pada kelompok tertentu dan data yang berbeda pada kelompok yang lain. Hasil dari pengelompokkan daerah penyebaran diperoleh Kecamatan Batang Serangan, Brandan Barat dan Permata Jaya sebagai pusat penyebaran diare pada Cluster pertama dan Kecamatan Hinai dan Sei Bingai menjadi pusat cluster kedua. Kata Kunci – Diare, Data Mining, K-Means Clustering, Centroid Diarrhea is a disease that is responsible for about a quarter of the 130,000 annual deaths among children under five, especially in the transition season as happens in almost all Indonesian regions especially not in Langkat district of North Sumatra. To view the distribution area should be made a regional breakdown of the spread of diarrhea, in order to obtain the spread of diarrhea and regional distribution centers. K-Means Clustering Algorithm is one algorithm which classifies the same data at particular groups and different data in the other group. The results obtained from the grouping area deployment District of Batang Serangan, Brandan Barat and Permata Jaya as a center for the spread of diarrhea in the first cluster and the District Hinai and Sei Bingai became the center of the second cluster. Keywords - Diarrhoea, Data Mining, K-Means Clustering, Centroid 1. PENDAHULUAN Pengertian mahasiswa secara umum yaitu suatu peran tertinggi dalam dunia pendidikan yang mengatur pola tingkah laku manusia dari remaja menuju keperan sesungguhnya, bisa dikatakan mahasiswa adalah proses dimana pola pikiran mengarah kelebih tinggi atau lebih serius dalam menjalani peran tersebut. Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. [1]Salah satu metode yang terdapat dalam data mining yang digunakan dalam penelitian ini adalah pengelompokan (Clustering) dimana metode tersebut mengidentifikasi objek yang memiliki kesamaan karakteristik tertentu, dan kemudian menggunakan karakteristik tersebut sebagai “vektor karakteristik” atau “centroid”. [1] Beberapa penulis terdahulu telah menerapakan teknik K-Means Clustering sebagai penelitian dalam hal Pengelompokkan data, diantaranya : Ediyanto, dkk (2013) Dalam Penelitiannya yang berjudul “Pengklasifikasian Karakteristik Dengan Metode K-Means Cluster Analysis”. Penulis dalam penelitian ini menjelaskan bahwa metode K-Means Cluster Analysis cukup efektif diterapkan dalam proses pengklasifikasian karakteristik Title of manuscript is short and clear, implies research results (First Author) terhadap objek penelitian. Algoritma K-Means juga tidak terpengaruh terhadap urutan objek yang digunakan, hal inidibuktikan ketika penulis mencoba menentukan secara acak titik awal pusat cluster dari salah satu objek pada permulaan perhitungan [3]. Ong Johan Oscar (2013) dengan penelitiannya yang mengangkat judul “Implementasi Algoritma K-Means Clustering Untuk Menentukan Strategi Marketing President University”. Tujuan penulisan yang dijelaskan penulis dalam makalah ini menunjukkan bahwa hasil dari pengolahan data mahasiswa membantu pihak marketing President Unversity dalam melakukan pemasaran dan mencari calon mahasiswa baru dari berbagai kota di Indonesia. Dan hasilnya cukup efisien dan efektif [4]. T. Gomasathit (2013) melakukan penelitian untuk mengidentifikasicakupanawan di ataswilayahThailand dengan menggunakandata satelitdanAlgoritma K-meansclustering.Namun, hasilnyadijelaskan dalampenelitianmemberikanbeberapainformasi awaltentangkemungkinananalisiscuacadariperkiraanawan,danakan bergunauntuk studi lanjutketika datalainnya tersedia [5]. Diare adalah frekuensi buang air besar lebih dari 4 kali pada bayi dan lebih dari tiga kali pada anak. Konsistensi feses encer dapat berwarna hijau atau dapat pula bercampur lender darah atau lender saja. Angka tingkat kematian yang dirilis UNICEF september 2012 menunjukkan bahwa secara global sekitar 2.000 anak di bawah usia lima tahun meninggal setiap hari akibat penyakit diare. Dari jumlah tersebut sebagian besar atau sekitar 1.800 anak per hari meninggal karena penyakit diare karena kurangnya air bersih, sanitasi dan kebersihan dasar[6]. Diperkirakan insidensi diare 0,5-2/episode/orang/tahun ada di negara maju sedangkan di negara berkembang lebih dari itu. Di USA dengan penduduk sekitar 200 juta diperkirakan 99 juta penderita diare setiap tahunnya [7]. Dari penelitian yang dilakukan oleh Ediyanto (2013), oleh Ong Johan Oscar (2013), sertapenelitian yang dilakukan T. Gomasathit (2013) disimpulkan bahwa Algoritma KMeansclustering dapat digunakan dalam mengelompokkan data dengan efisien dan efektif dengan hasil yang diharapkan. Hal inilah yang mendasari penulis dalam melakukan penelitian dalam hal Algoritma K-Means Clustering dalam penyebaran penyakit diare. 2. METODE PENELITIAN 2.1.KDD ( Knowledge Discovery In Database ) Menurut Fayyad dalam buku (kusrini, 2009) Istilah data mining dan knowledge discovery in database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut: 1. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining disimpan dalam suatu berkas, terpisah dari basis data operasional. 2. Pre- processing / Cleaning Sebelum proses data mining dapat dilaksanakan, perluh dilakukan proses pembersihan pada data yang menjadi focus KDD. Proses pembersihan mencakup antara lain membuang duplikasi data, memeriksa data yang inkosisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). 3. Transformation Coding adalah transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. 4. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining Title of manuscript is short and clear, implies research results (First Author) sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. 5. Interpretation / Evaluation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya[4]. Gambar 1. Aliran Informasi dalam data mining 2.2. Algoritma K-Means Pengertian dari K-Means Clustering adalah, K dimaksudkan sebagai konstanta jumlah cluster yang diinginkan, Means dalam hal ini berarti nilai suatu rata-rata dari suatu grup data yang dalam hal ini didefinisikan sebagai cluster, sehingga K-Means Clustering adalah suatu metode penganalisaan data atau metode data mining yang melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode KMeans berusaha mengelompokkan data yang ada kedalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada didalam kelompok yang lain. Dasar algoritma K-means adalah sebagai berikut : [8] 1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk. 2. Inisialisasi k sebagai centroid yang dapat dibangkitkan secara random. 3. Hitung jarak setiap data ke masing-masing centroid menggunakan persamaan Euclidean Distance yaitu sebagai berikut : 𝑝 𝑑(𝑃, 𝑄) = √∑𝑗=1(𝑥𝑗 (𝑃) − 𝑥𝑗 (𝑄))2 (9) 4. Kelompokkan setiap data berdasarkan jarakterdekat antara data dengan centroidnya. 5. Tentukan posisicentroid baru (k) 6. kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama. 3. Metodologi Penelitian Penelitian ini bertujuan mengelompokkan daerah-daerah penyebaran penyakit diare di kabupaten langkat. Adapun Pengelompokan data tersebut digunakan langkah-langkah sebagai berikut : a. Sumber Data Sumber data diambil dari data penyebaran diare dikabupaten langkat dengan jumlah kecamatan sebanyak 23 kecamatan. Title of manuscript is short and clear, implies research results (First Author) Tabel 1.Data Penderita Diare Kabupaten Langkat b. Transformasi Data Pada tahap ini dilakukan proses perubahan data, tujuannya adalah agar data dapat diolah dengan menggunakan algoritma K-Means Clustering. Variabel yang dipilih pada data penyebaran diare adalah jumlah penderita diare dan kecamatan. Untuk jumlah penderita diare dikelompokkan menjadi menjadi 6 kelompok. Untuk Varibael kecamatan dikelompokkan menjadi 6 Kelompok disesuaikan dengan jumlah desa yang ada dalam kecamatan tersebut. Hasil transformasi dapat dilihat pada tabel.2 berikut ini: Tabel 2.Data Hasil Transformasi c. Pengolahan Data Setelah proses transformasi langkah selanjutnya adalah proses pengolahan data menggunakan algoritma K-Means Clustering. Title of manuscript is short and clear, implies research results (First Author) Tahapan proses algoritma K-Means Clustering adalah sebagai berikut: 1. Tentukan nilai k dari jumlah cluster yang ingin dibentuk. Cluster yang akan dibuat adalah 2 Cluster. 2. Tentukan titik pusat awal dari setiap cluster. Dalam penelitian ini titik pusat awal ditentukan secara random dan didapat titik pusat dari setiap cluster dapat dilihat pada tabel 3. 3. Tabel 3.Titik Pusat Awal Setelah Cluster 4. Dalam penelitian ini digunakan metode hard k-means untuk mengalokasikan setiap data ke dalam suatu cluster yang memiliki jarak paling dekat dengan titik pusat setiap cluster. Untuk mengetahui cluster mana yang paling dekat dengan data, maka perlu dihitung jarak setiap data dengan titik pusat setiap cluster. Sebagai contoh, akan dihitung jarak dari data pertama ke pusat cluster pertama: C(1,1) = √(2 − 4)2 + (6 − 6)2 = 2 Dari hasil perhitungan di atas di dapatkan hasil bahwa jarak data mahasiswapertama dengan pusat cluster pertama adalah 2. 5. Jarak data mahasisw pertama ke pusat cluster kedua: C(1,2) = √(2 − 2)2 + (6 − 3)2 = 3 Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data pertama dengan pusat cluster ketiga adalah 3 . Berdasarkan hasil kedua perhitungan di atas dapat disimpulkan bahwa jarak data pertama yang paling dekat adalah dengan cluster 1, sehingga data pertama dimasukkan ke dalam cluster 1. Hasil perhitungan selengkapnya dapat di lihat pada tabel 4 di bawah ini. Tabel 4.Hasil Perhitungan Setiap Data ke Setiap Cluster Iterasi 1 Title of manuscript is short and clear, implies research results (First Author) 6. Setelah semua data dikelompokkan kedalam cluster yang terdekat, kemudian hitung kembali pusat cluster yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut. Dalam hal ini jika centroid yang baru konvergen dengan centroid yang lama maka hentikan iterasi, jika tidak maka lanjutkan iterasi berikutnya. Penghentian iterasi dilakukan karena saat centroid baru yang dibangkitkan dengan centroid yang lama akan menyebabkan konvergensi pada grup atau cluster sehingga tidak perlu menghitung distance space (menghitung jarak) data terhadap centroidnya lagi. 7. Pengelompokan hasil cluster pada iterasi pertama belum kovergen, dalam hal ini bangkitkan ulang centroid baru dengan rumus : 𝐶= ∑𝑚 (9) 𝑛 Sumber: Larose, 2005:153 Dimana : C : centroid data m : anggota data yang termasuk kedalam centroid tertentu n : jumlah data yang menjadi anggota centroid tertentu Pada pengelompokan data diatas didapat titik cluster dengan nilai sebagai berikut : Tabel 5.Titik Pusat iterasi-1 Setelah Cluster Centroid baru yang dibangkitkan ternyata belum konvergen, sehingga iterasi harus dilanjutkan. Adapun rincian hasil akhir clustering dapat dilihat pada tabel 6 di bawah ini : Tabel 6.Hasil Perhitungan Setiap Data ke Setiap Cluster Iterasi 2 Title of manuscript is short and clear, implies research results (First Author) 3. HASIL DAN PEMBAHASAN Berdasarkan Tabel. 6 diperoleh titik pusat cluster 1 : (2.75 ; 3.75) atau pusat cluster berada pada kecamatan Batang serangan, Brandan Barat dan pematang jaya, sedangkan pusat cluster 2 : (2.93 ; 3.60) berada pada kecamatan Hinai, Sei Bingai dan Sirapit. Group terakhir yang dihasilkan selanjutnya digambarkan dalam sebuah grafik Cluster data dengan nilai centroid terkahir menjadi titik pusat cluster. Grafik hasil penerapan algoritma K-Means Clustering dapat dilihat pada Gambar.2 Gambar 1. Hasil pengelompokan data 4. Kesimpulan dan Saran Kesimpulan dari penelitian ini adalah: 1. Pusat cluster yang diperoleh yaitu untuk cluster pertama berada pada kecamatan Batang serangan, Brandan Barat dan Pematang Jaya dan pusat cluster kedua berada pada kecamatan Hinai, Sei Bingai dan Sirapit. 2. Pusat cluster pertama merupakan daerah penyebaran diare untuk jumlah penderita tingkat menengah atau bukan merupakan pusat penyebaran diare. 3. Pusat cluster kedua merupakan daerah-daerah pusat penyebaran diare, untuk itu pada daerah-daerah pusat cluster kedua harus menjadi daerah perhatian pemerintah untuk penanganan diare. Saran Dalam Penelitian Ini adalah: 1. Sebaiknya untuk penelitian selanjutnya menggunakan data perkelurahan agar daerah-daerah penyebaran diperoleh lebih detail. 2. Sebaiknya dalam penentuan cluster pertama dibantu dengan algoritma tertentu agar hasil cluster yang diperoleh lebih optimal. DAFTAR PUSTAKA [1] Nasari Fina, “Penerapan Algoritma c4.5 Dalam Pemilihan Bidang Peminatan Program Studi Sistem Informasi di STMIK Potensi Utama Medan” Prosiding Seminar Nasional Informatika 2014 (SNIf 2014), STMIK Potensi Utama,Medan – Sumatera Utara Received June1st,2012; Revised June25th, 2012; Accepted July 10th, 2012 [2] [3] [4] [5] [6] [7] [8] [9] Tanjung Muhammad Rusdi, Erlinda Ningsih, “Perbandingan Penggunaan Data Real dan Data Hasil Normalisasi Pada Pengelompokkan Data Dengan Menggunakan Metode Clustering (Studi Kasus PT. PHP Motor)”, Prosiding KeTIK 2014 UIN. Universitas Islam Negeri Medan – Sumatera Utara. Ediyanto, dkk, “Pengklasifikasian Karakteristik Dengan Metode K-Means Cluster Analysis”, Buletin Ilmiah Mat. Stat dan Terapannya (Bimaster) Volume 02, No. 2 (2013), hal 133Ong Johan Oscar, “Implementasi Algoritma K-Means Clustering Untuk Menentukan Strategi Marketing President University”, Jurnal Ilmiah Teknik Industri, Vol. 12, No. 1, Juni 2013. 136 T. Gomasathit. “Cloud Coverage Identification Using Satellite Data and K-mean Clustering Algorithm”. Journal of Global Research in Computer Science, Volume 4, No. 7, July 2013. http://www.unicef.org/indonesia/id/media_19772.html Andyanastri Festy, 2012, Etiologi Dan Gambaran Klinis Diare Akut Di Rsup Dr Kariadi Semarang. Semarang,Jurnal Ilmiah KTI Himamunanto Agustinus Rudatyo, Mendrova Hendrik, “Perbandingan Algoritma Binerisadi Pada Citra Tulang Abnormal Telapak Tangan Manusia”, Prosiding Konferensi Nasional Sistem Informasi 2012 (KNSI 2012), STIKOM Bal 23-25 Pebruari 2012. Larose, Daniel, Discovery Knowledge in Data, A Jhon Wiley & Sons, Inc Publication. Canada: 2005 Title of manuscript is short and clear, implies research results (First Author)