Analisis Perbandingan Metode K-Means Dengan Improved - j

advertisement
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Vol. 1, No. 9, Juni 2017, hlm. 813-824
e-ISSN: 2548-964X
http://j-ptiik.ub.ac.id
Analisis Perbandingan Metode K-Means Dengan Improved SemiSupervised K-Means Pada Data Indeks Pembangunan Manusia (IPM)
Gusti Ngurah Wisnu Paramartha1, Dian Eka Ratnawati2, Agus Wahyu Widodo3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: [email protected], [email protected], [email protected]
Abstrak
Saat ini dengan jumlah informasi yang semakin besar, konsep data mining semakin dikenal sebagai
sebuah tools yang penting dalam manajemen informasi. Mengacu pada konsep data mining, salah satu
teknik yang terdapat dalam konsep ini adalah teknik clustering. Salah satu metode clustering data yang
paling terkenal adalah k-means. Namun pada penerapannya metode k-means memiliki beberapa masalah
seperti penentuan nilai K klaster dan penentuan pusat klaster awal yang dilakukan secara random yang
membuat proses tidak konsisten dan hasil klaster menjadi buruk. Oleh karena itu terdapat sebuah metode
untuk mengatasi masalah tersebut yaitu improved semi-supervised k-means clustering. Dengan metode
improved semi-supervised k-means clustering yang menggabungkan konsep supervised dan
unsupervised clustering, pengguna hanya perlu melabeli sedikit data yang belum berlabel, kemudian
data berlabel tersebut dipakai untuk mencari nilai pusat klaster awal dan nilai K yang optimal yang akan
mengoptimakan proses dan hasil. Pada bagian pengimplementasian, penelitian ini membandingkan dua
algoritma yaitu k-means tradisional dan semi-supervised k-means untuk klastering data indeks
pembangunan manusia (IPM). Data IPM dipilih karena memiliki karakteristik yang tepat untuk
klastering seperti jumlah data yang banyak dan data yang terbagi menjadi beberapa klaster. Pengujian
metode improved semi-supervised k-means memeberikan rata-rata akurasi sebesar 90.3%, lebih baik
dari metode k-means yang memberikan nilai akurasi 73.7%. Pengujian kedua, metode improved semisupervised k-means menghasilkan nilai rata-rata waktu untuk satu kali konvergen 1222.9959 detik, lebih
baik dari k-means dengan rata-rata 1504.75 detik. Pengujian ketiga, metode improved semi-supervised
k-means menghasilkan rata-rata jumlah iterasi untuk satu kali konvergen yang lebih efisien dari
algoritma k-means dengan jumlah iterasi 7.11 berbanding 9.72. Terakhir pada pengujian kualitas klaster
dengan metode silhouette coefficient, metode improved semi-supervised k-means memberikan rata-rata
nilai 0.69880, lebih baik dari k-means tradisional dengan rata-rata nilai 0.62734.
Kata kunci: indeks pembangunan manusia, ipm, data mining, klastering, k-means, semi-supervised k-means.
Abstract
At this time with the growing amount of information, the concept of data mining getting known as an
important tool in the management information. Refers to the concept of data mining, the most popular
concept in data mining is a clustering technique. One well known clustering method is k-means
traditional. But in its application, k-means method has some problems such as determining the value of
K cluster and determining the initial cluster centers were done randomly making process was
inconsistent and the results of the cluster becomes worse. Therefore, there is a method to overcome
these problems are improved semi-supervised k-means clustering. With improved semi-supervised
method that combines the supervised and unsupervised method, users only need to label a bit of data
that has not been labeled, then the labeled data is used to find the optimal value of initial cluster center
and K cluster that will optimizes the process and result of clustering process. On implementation, this
research combine k-means algorithm and improved semi-supervised k-means to clustering human
development index (HDI) data. HDI data chosen because it has the right characteristics for clustering
such amounts of data and the data is divided into several clusters. On the testing improved semisupervised k-means method giving out the average accuracy of 90.3%, better than k-means clustering
that giving 73.7% accuracy. In the second testing, improved semi-supervised k-means method produces
an average time for one convergent 1222.9959 seconds, better than k-means with 1504.75 seconds. The
third testing, improved semi-supervised k-means generates an average number of iterations for one
Fakultas Ilmu Komputer
Universitas Brawijaya
813
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
814
convergent more efficient than k-means with the number of iterations of 7.11 compared 9.72. Last, on
the cluster quality testing using silhouette coefficient, improved semi-supervised k-means method giving
average value 0.69880, better than the traditional k-means with an average value of 0.62734.
Keywords: human development index, hdi, data mining, clustering, k-means, semi-supervised k-means.
1. PENDAHULUAN
Dengan jumlah informasi yang semakin
besar, pada saat ini konsep data mining semakin
dikenal sebagai sebuah tools yang penting dalam
manajemen informasi. Menurut (Santosa, 2007),
data mining disebut sebagai knowledge
discovery in database (KDD), yaitu kegiatan
yang meliputi pengumpulan dan pemakaian data
historis yang bertujuan menemukan keteaturan
dan pola hubungan pada data set yang memiliki
ukutan besar. Output dari data mining ini dapat
digunakan untuk pengambilan keputusan di
masa yang akan datang. Mengacu pada konsep
data mining, salah satu teknik yang terdapat
dalam konsep tersebut adalah teknik clustering.
Clustering adalah sebuah teknik yang dipakai
untuk memasukan data ke dalam sebuah
kelompok atau grup yang memiliki kedekatan
khusus pada masing-masing objek. Secara
umum konsep clustering ini mengelompokan
sekumpulan objek ke dalam beberapa grup
dilakukan tanpa pengetahuan yang mendalam
tentang group tersebut. Tujuan utama dari
clustering adalah mengelompokan sebuah set
data ke dalam cluster yang memiliki
karakteristik yang hapir sama dan antar cluster
mempunyai karakteristik yang berbeda-beda.
Salah satu teknik dalam clustering adalah
teknik k-means. K-means adalah sebuah metode
pengklasteran memakai konsep partitioning
yang nantinya dalam prosesnya algoritma akan
memisahkan
data-data
dalam beberapa
cluster/kelompok berbeda. Dengan partitioning
yang dilakukan secara iteratif, k-means dapat
menurunkan rata-rata nillai dari jarak/distance
data ke masing-masing klasternya (MacQueen,
1967). Sifat dari k-means ini sendiri adalah
metode yang menerapkan klastering tanpa
adanya arahan (unsupervised). Hal tersebut
didasarkan pada adanya dataset yang data
itemnya sejak awal mempunyai label kelas dan
dataset yang data itemnya tidak mempunyai
label kelas (Agusta, 2007).
Menurut (Hanmin, 2016) dalam k-means
tradisional terdapat banyak masalah seperti
inisial K klaster dan pusat klaster awal yang
dilakukan secara random terkadang membuat
Fakultas Ilmu Komputer, Universitas Brawijaya
proses tidak konsisten sehingga terkadang
membutuhkan waktu yang cukup lama dalam
melakukan iterasi untuk menemukan output
klaster akhir. Masalah lain yang timbul pada kmeans clustering tradisional adalah proses yang
tidak bisa dipastikan dan sulit diestimasi. Dalam
hal ini pengguna tidak dapat menentukan
parameter yang tepat untuk menghasilkan output
yang maksimal. Dengan adanya ketidakpastian
tersebut,
menyebabkan
data
hasil
pengelompokan dan akurasi menjadi buruk.
Selain itu karena inisialisasi pusat klaster yang
tidak konsisten terkadang menyebabkan masalah
local optimum pada proses k-means tradisional.
Dengan masalah yang ditemui pada
klastering data set menggunakan metode kmeans tradisional, terdapat sebuah pendekatan
yang
diharapkan
mampu
mengatasi
permasalahan tersbut yaitu dengan metode semisupervised k-means clustering (Agusta, 2007).
Sesuai pada penelitian yang dilakukan oleh
(Hanmin, 2016) yang membahas tentang
penggunaan metode semi-supervised k-means
clustering sebagai solusi permasalahan yang ada
pada k-means tradisional menyebutkan bahwa
metode semi-supervised k-means clustering
adalah
metode
yang
menggabungkan
pendekatan supervised dan unsupervised dalam
mengelompokan data set yang memiliki label
kelas ataupun tidak memiliki label kelas ke
dalam beberapa klaster. Untuk permasalahan ini
kita hanya perlu memberikan label sebagian
kecil objek dari set untuk mengklaster banyak
objek yang sebelumya tidak berlabel. Sedikit
objek data set yang berlabel tersebut digunakan
untuk menentukan nilai K klaster dan pusat
klaster awal. Dengan nilai K klaster dan pusat
klaster awal yang lebih rasional maka akan
memberikan hasil cluster dengan akurasi yang
lebih baik dan meningkatkan efisiensi dari
komputasi. Hasil dari penelitian yang dilakukan
oleh (Hanmin, 2016) menghasilkan bahwa
metode semi-supervised k-means clustering
menghasilkan pusat klaster yang lebih baik yang
lebih baik dari metode k-means tradisional.
Pada penelitian lain yang dilakukan oleh
(Zhenpeng, et al., 2014) yang melakukan
perbandingan
antara
metode
k-means
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
tradisional, seed-k-means, dan improved semisupervised k-means. Pada penelitian ini
memberikan hasil akurasi dari improved semisupervised k-means lebih baik 17% sampai 18%
dari metode k-means tradisional dan seed-kmeans. Serta jumlah iterasi berkurang sebanyak
1/3 dari k-means tradisional dan 1/2 dari seed-kmeans.
Dalam penelitian dengan judul “Analisis
Perbandingan Metode K-means dengan
improved semi-supervised K-means pada Data
Indeks Pembangunan Manusia (IPM)” ini lebih
menekankan pada penerapan metode semisupervised k-means clustering dalam mengatasi
permasalahan yang ada pada metode k-means
tradisional dengan metode semi-supervised kmeans clustering dengan mengukur tingkat
akurasi yang dihasilkan dan membandingkan
tingkat akurasi dari masing-masing metode
menggunakan metode silhouette coefficient.
Dengan adanya penelitian ini diharapkan akan
mempermudah dalam klastering data pada
indeks pengembangan manusia dan mengatasi
masalah pada algoritma k-means tradisional.
Untuk mengetahui perbandingan dari kedua
algoritma akan dilakukan pengujian pada tingkat
akurasi, waktu komputasi dan kualitas klaster
dengan silhouette coefficient pada masingmasing algoritma. Sehingga dengan mengetahui
perbedaan dari algoritma peneliti dapat
mengetahui algoritma mana yang sesuai untuk
diterapkan pada domain masalah indeks
pengembangan manusia.
2. DASAR TEORI
2.1 K-means clustering
K-means
clustering
adalah
metode
klastering yang dilakukan secara partisi
(partitional
clustering).
Pengelompokan
menggunakan k-means bermaksud untuk
mempartisi n objek ke dalam k kelompok
dimana setiap objek dimasukan ke dalam mean
k terdekat. Metode ini menghasilkan kelompok
k dengan perbedaan yang memungkinkan.
Jumlah terbaik dari kelompok k didasari pada
jarak yang disebut apriori dan harus dihitung dari
data yang ada dan sesuai dengan kebutuhan.
(Taft, 2005).
Algoritma k-means adalah algoritma yang
memerlukan parameter masukan sebanyak k
klaster, selanjutnya membagi sekumpulan n data
obyek ke k klaster sampai tingkat kemiripan dari
antar anggota yang ada dalam satu klaster
Fakultas Ilmu Komputer, Universitas Brawijaya
815
menjaddi tinggi tinggi dan kemiripan dengan
anggota klaster lain menjadi sangat rendah
(Agusta, 2007). Kemiripan data pada suatu
klaster diukur sesuai dengan kedekatan obyek
terhadap nilai rata-rata pada klaster atau disebut
sebagai centroid, pusat massa, atau pusat klaster.
2.2 Semi-Supervised K-means Clustering
Menurut (Hanmin,2016), metode semisupervided k-means adalah metode yang
diciptakan untuk mengatasi masalah pada
algoritma k-means tradisional dalam klasterisasi
kelompok set data yang memiliki jumlah label
data yang kecil. Sebelumnya k-means tradisional
ini sendiri hanya dirancang sebagai klastering
data unsupervised. Dengan itu muncul metode
semi supervised k-means clustering untuk
mengatasi permasalahan tersebut dengan hanya
perlu memberikan label pada sedikit objek pada
dataset yang besar¬. Pelabelan sedikit objek
tersebut berfungsi untuk mencari nilai K dan
intial cluster center yang optimal. Dengan nilai
K dan pusat klaster awal yang optimal maka
akan meningkatkan akurasi dari hasil clustering
dan mengefisienkan waktu dan proses
komputasi.
Sesuai dengan karakteristik data yang
merupakan data berjenis klastering, metode
semi-supervised k-means clustering ini dianggap
cocok dalam mengatasi permasalahan pada
algoritma
k-means
traditional
dengan
memanfaatkan data eksternal yang berlabel
untuk mencari nilai K dan pusat klaster awal
yang optimal. Dalam hal ini kita hanya perlu
melabeli sedikit data yang sudah ada
sebelumnya. Sehingga dengan penelitian ini
diharapkan metode semi-supervised k-means
clustering dapat dijadikan perbandingan apakah
metode tersebut layak digunakan atau tidak pada
domain permasalahan indeks pembangunan
manusia.
MULAI
KL = Jumlah label yang berbeda (XL);
Pilih objek KL dengan label yang
berbeda dari XL
If(KL ≥ √𝑁 {
K = KL;
do{
for each xi ∈ X
if (xi ∈ XL)
Menetapkan xi ke klaster
yang pusat
klaster awalnya memiliki
label sama;
else
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Menetapkan xi ke cluster
terdekat;
update clusters;
}sampai convergen;
}
else{
for (k= KL+1; k≤ √𝑁;k++ ){
pilih objek terjauh dari KL
objek baru sebagai
inisialisasi
titik
tengah
klaster;
do{
for each xi ∈ X
if (xi ∈ XL)
Menetapkan
xi
ke
klaster
yang pusat klaster
awalnya
memiliki label sama;
else
Menetapkan
xi
ke
cluster terdekat;
update clusters;
}sampai converges;
𝑘
Jk =∑𝑖=1 ∑𝑘𝑖=1 𝑑(𝑐𝑖, 𝑥𝑖)
}
Pilih minimum jk dan K=k;
}
Output K klaster dan K inisial pusat
klaster;
END
Sama seperti fungsi k-means tradisional,
improved semi supervised k-means clustering
memerlukan data masukan berupa data set
X={x1, x2,…,xN} yang mana N adalah jumlah
dari data objek pada data set X. Selanjutnya ada
variabel XL = {xL1, xL2,…,xLabel1} yang
merupakan semua objek data yang berlabel dari
data set X. KL adalah jumlah dari label XL yang
berbeda. Jika p clustering telah ditentukan
sebelumnya, ide utama dari penentuan pusat
klastering selanjutnya adalah dengan memilih
data objek yang terjauh dari p pusat klaster.
Untuk menentukan nilai K yang optimal, perlu
untuk menentukan rentang pencarian terlebih
dahulu (Hanmin, 2016).
Pada penelitian yang dilakukan (Hanmin,
2016) mengenai algoritma improved semi
supervised k-means clustering, terdapat dua
kondisi untuk data set. Kondisi yang pertama
adalah dataset dengan jumlah labeled data yang
banyak. Sedangkan kondisi yang kedua adalah
dengan jumlah labeled data yang sedikit.
2.3 Silhouette Coefficient
Metode silhouette coefficient pertama kali
dikembangkan oleh (Rousseeuw, 1987) yang
mana metode silhouette coefficient merujuk pada
validasi dan penafsiran set data. Metode
Fakultas Ilmu Komputer, Universitas Brawijaya
816
silhouette coefficient berfungsi untuk mengukur
kualitas pada sebuah klaster. Fungsi lain dari
silhouette
coefficient
adalah
untuk
mengindikasikan derajat kepemilikan setiap
objek yang ada di dalam klaster. Metode
silhouette coefficient menggabungkan konsep
cohesion dan separation sebagai validasi dari
hasil klastering.
Untuk menghitung nilai silhoutte coefisient
diperlukan jarak antar dokumen dengan
menggunakan rumus euclidean distance. Setelah
itu tahapan untuk menghitung nilai silhoutte
coeffisien adalah sebagai berikut (Rousseeuw,
1987):
1. Pada setiap objek data i, hitung nilai rata-rata
jarak objek data i dengan seluruh objek data
yang berada pada satu klaster yang sama.
Nilai rata-rata pada bagian ini dapat
didefinisikan dengan a(i). Dalam hal ini
rumus dari mencari nilai a(i) adalah:
a(i) =
∑ 𝐃(𝐢,𝐣)
|𝑨|−𝟏
(2.1)
2. Untuk setiap objek data i, hitung nilai ratarata jarak objek data i dengan semua objek
yang ada di klaster lainnya. Dari semua jarak
rata-rata yang dihasilkan tersebut, akan
diambil rata-rata jarak yang memiliki nilai
terkecil. Nilai terkecil ini disebut bi. Rumus
dalam mencari nilai dari bi adalah sebagai
berikut:
b(i) = min(D(i,C))
(2.2)
3. Setelah itu maka untuk objek i memiliki nilai
silhoutte coefisien:
Si = (bi-ai)/max (ai,b)
(2.3)
Hasil perhitungan nilai silhoutte coeffisien
bervariasi dengan rentang -1 sampai 1. Nilai
clustering dapat dikatakan baik jikai nilai
silhoutte coeffisien bernilai positif yaitu (ai < bi)
dan ai mendekati 0. Dengan hal tersebut akan
menghasilkan nilai silhoutte coeffisien yang
maksimal adalah 1 ketika ai = 0. Jika si = 1
menandakan bahwa klaster i telah berada pada
klaster yang tepat. Namun jika nilai si adalah 0
maka objek i berada di antara dua cluste, dengan
itu dapat dikatakan bahwa objek tersebut
memiliki struktur yang tidak jelas. Namun jika
nilai si = -1 berarti struktur dari klaster memiliki
nilai overlapping, dengan itu objek i lebih tepat
dimasukan ke dalam klaster lain. Pada teorinya,
nilai rata-rata silhoutte coeffisien dari tiap data
objek dalam suatu klaster adalah suatu ukuran
yang menunjukan seberapa ketat data
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
dikelompokan dalam klaster tersebut. Berikut
adalah nilai silhoutte berdasarkan (Rousseeuw,
1987):
1. 0.7<SC<=1
Struktur yang kuat (strong
structure)
2. 0.5< SC <=0.7 Struktur
yang
standar
(medium structure)
3. 0.25< SC <= 0.5 Struktur yang lemah
(weak structure)
4. SC <=0.25
Tidak memiliki struktur (no
structure)
2.4 IPM (Indeks Pembangunan Manusia)
Menurut (BPS, 2015), IPM (Indeks
Pembangunan Manusia) adalah sebuah indikator
penting
dalam
mengukur
kemajuan
pembangunan suatu bangsa di masing-masing
negara atau bahkan tiap-tiap daerah di suatu
negara. IPM menjelaskan bagaimana penduduk
dapat mengakses hasil pembangunan dalam
memperoleh pendapatan, kesehatan, pendidikan,
dan sebagainya. IPM diperkenalkan oleh UNDP
pada tahun 1990 dan dipublikasikan secara
berkala dalam laporan tahunan Human
Development Report (HDR). Dalam konsep IPM
yang terbaru dibentuk oleh 3 (tiga) dimensi
dasar:
1. Umur panjang hidup sehat (a long and
healthy life)
2. Pengetahuan (knowledge)
3. Standar hidup layak (decent standard of
living)
IPM memiliki berbagai manfaat antara lain
IPM merupakan indikator penting untuk
mengukur
keberhasilan
dalam
upaya
membangun
kualitas
hidup
manusia
(masyarakat/penduduk). Manfaat lain dari IPM
adalah dapat menentukan peringkat atau level
pembangunan suatu wilayah/negara. Bagi
Indonesia sendiri, IPM merupakan data strategis
karena selain sebagai ukuran kinerja Pemerintah,
IPM juga digunakan sebagai salah satu alokator
penentuan Dana Alokasi Umum (DAU) (BPS,
2015).
Beberapa feature yang digunakan dalam
penelitian ini dibagi menjadi 4 bagian. Bagian
pertama yaitu angka harapan hidup yang
merupakan representasi dari dimensi kesehatan,
rata-rata lama sekolah dan angka harapan lama
sekolah yang merupakan representasi dimensi
pendidikan, dan pengeluaran per kapita yang
disesuaikan yang merupakan representasi dari
dimensi pendidikan.
Fakultas Ilmu Komputer, Universitas Brawijaya
817
3. PERANCANGAN & IMPLEMENTASI
3.1 K-means Clustering
K-means
clustering
adalah
metode
klastering yang dilakukan secara partisi
(partitional clustering). Clustering data
menggunakan metode k-means bertujuan untuk
mempartisi/membagi n objek data ke dalam K
kelompok data. Selanjutnya semua objek data
dimasukan ke klaster yang memiliki jarak
terdekat. Algoritma ini memberikan nilai akhir
berupa K kelompok kluster dengan perbedaan
yang tinggi (Taft, 2005).
Pada tahapan awal, algoritma k-means
memilih secara acak k titik data sebagai pusat
atau centroid. Nilai k juga dapat diinisialisasikan
pada tahapan awal. Selanjutnya, jarak antar data
dengan pusat klaster (centroid) dihitung dengan
euclidian distance atau dapat dilakukan dengan
memakai teknik lain. Data ditempatkan ke dalam
centroid (pusat klaster) yang paling dekat,
dihitung dari titik tengah klaster. Centroid yang
baru ditentukan jika semua objek data sudah
ditempatkan ke dalam klaster yang memiliki
jarak paling dekat. Proses penentuan centroid
dan penempatan data dalam klaster akan terus
diulang hingga centroid dari semua klaster tidak
ada yang berubah lagi atau nilai centroid
konvergen. Selain itu perulangan dapat
dihentikan jika sudah memenuhi kondisi
perulangan yang telah ditentukan sebelumnya.
Misalnya perulangan hanya dilakukan 100 kali,
maka setelah sampai ke perulangan yang ke-100
maka proses akan berhenti walaupun tidak
konvergen. Namun secara umum penggunaan
metode k-means menghentikan iterasinya jika
hasil klaster telah convergen (A. K. Jain, 2009).
Flowchart dari langkah-langkah metode
clustering yang menggunakan algoritma kmeans tradisional ditunjukkan pada Gambar 3.1.
Pengelompokkan data memakai algoritma kmeans akan terus dilakukan hingga menemukan
hasil iterasi yang stabil atau convergen. Berikut
penjelasan dari Gambar 3.1:
1. Algoritma k-means menerima inputan dari
pengguna berupa nilai jumlah klaster
sebanyak k klaster, dan suatu dataset yang
ingin dikelompokkan.
2. Sebanyak k data dipilih secara random dari
suatu dataset yang kemudian ditentukan
sebagai initial centroid.
3. Ulang langkah 4, 5 dan 6 hingga tidak ada
lagi objek yang berubah di dalam suatu
klaster.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
818
4. Hitung jarak masing-masing titik objek data
ke masing-masing intial centroid.
5. Mengalokasikan masing-masing titik data ke
dalam klaster dengan jarak paling minimum.
6. Menghitung rata-rata dari semua data yang
terdapat di dalam klaster tersebut sebagai
pusat klaster baru.
Ulangi langkah sebelumnya sampai terbentuk
klaster yang stabil. Cluster yang stabil terbentuk
saat hasil klastering data dari iterasi memberikan
hasil yang sama dengan hasil iterasi sebelumnya.
Saat klaster sudah stabil maka proses k-means
selesai.
Gambar 3.2 Perancangan sistem
Gambar 3.1 Flowchart K-means
3.2 Semi-supervised k-means clustering
Pada
bagian
implementasi
sistem
menjelaskan bagaimana alur sistem tersebut
menyelesaikan permasalahan yang telah
didefinisikan pada proses sebelumnya. Menurut
(Hanmin,2016), alur dari implementasi dari
metode semi-supervised k-measns clustering
adalah membagi proses ke dalam dua garis
besar.Pada proses pertama adalah untuk jumlah
data set dengan banyak labeled data berbeda.
Sedangkan pada proses kedua adalah untuk
jumlah data set dengan sedikit labeled data
berbeda. Data set akan masuk pada proses
pertama jika memenuhi kondisi KL≥√N. Jika
tidak maka akan ke proses dua.
Fakultas Ilmu Komputer, Universitas Brawijaya
Dalam algoritma improved semisupervised
k-means clustering yang dikemukakan oleh
(Hanmin,2016), terdapat dua kondisi yaitu
kondisi untuk dataset dengan jumlah labeled
data yang banyak dan labeled data yang sedikit.
Proses secara rinci dari algoritma adalah sebagai
berikut:
1. Inisialisasi data set awal. Dalam inisialisasi
dataset dilakukan pelabelan dari sedikit
objek data yang ada. Hal tersebut berguna
untuk mendapatkan nilai K klaster dan
initial cluster center yang optimal.
2. Setelah melakukan inisialisasi data, langkah
selanjutnya adalah menentukan nilai K
klaster dan initial cluster center. Nilai K
didapat dari nilai KL, dalam hal ini KL
adalah jumlah label yang berbeda. Initial
cluster center didapat dengan memilih
sebanyak KL objek yang memiliki label
yang berbeda dari XL.
3. Langkah selanjutnya adalah menentukan
dataset masuk ke kondisi pertama atau
kedua.
• Kondisi pertama, kondisi pertama
adalah saat nilai KL ≥ √N bernilai benar.
Kondisi ini adalah untuk data training
dengan banyak data yang brelabel.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
•
Langkah-langkahnya adalah sebagai
berikut:
a. Menghitung jarak objek ke titik
pusat
klaster
lalu
mengelompokannya ke klaster
terkait sesuai dengan algoritma
improved semi-supervised k-means.
Sesuai pada algoritma pada
penelitian
yang
dilakukan
(Hanmin,2016),
terdapat
dua
kondisi untuk menentukan masingmasing objek masuk ke klaster
mana. Kondisi pertama adalah jika
xi ∈ XL, maka objek xi akan masuk
ke klaster awalnya. Dengan kata lain
untuk objek data yang berlabel
klasternya tidak akan berubah.
Kondisi kedua adalah ketika konsisi
bernilai xi ∈ XL salah. Maka objek
xi akan masuk ke klaster dengan
jarak terdekat.
b. Langkah
selanjutnya
adalah
mencari centroid baru untuk
melakukan update klaster. Langkah
yang dilakukan adalah dengan
menghitung centroid pada setiap
klaster. Perhitungannya adalah
dengan mengambil nilai rata-rata
semua nilai data pada setiap
fiturnya.
c. Setelah mendapatkan hasil akhir
berupa centroid baru, langkah
selanjutnya adalah ulangi langkah a
dan b sampai objek data pada klaster
sebelumnya dengan klaster yang
baru menjadi konvergen.
Kondisi kedua, kondisi kedua adalah
saat nilai KL ≥ √N bernilai salah. Pada
kondisi ini adalah untuk data training
dengan sedikit data yang berlabel.
Langkah-langkahnya adalah sebagai
berikut:
a. Menghitung jarak objek ke titik
pusat
klaster
lalu
mengelompokannya ke klaster
terkait sesuai dengan algoritma
improved semi-supervised k-means.
Sesuai pada algoritma pada
penelitian
yang
dilakukan
(Hanmin,2016),
terdapat
dua
kondisi untuk menentukan masingmasing objek masuk ke klaster
mana. Kondisi pertama adalah jika
xi ∈ XL, maka objek xi akan masuk
ke klaster awalnya. Dengan kata lain
Fakultas Ilmu Komputer, Universitas Brawijaya
819
b.
c.
d.
e.
untuk objek data yang berlabel
klasternya tidak akan berubah.
Kondisi kedua adalah ketika konsisi
bernilai xi ∈ XL salah. Maka objek
xi akan masuk ke klaster dengan
jarak terdekat.
Berbeda dengan kondisi pertama,
pada kondisi kedua terlebih dahulu
akan melakukan pengecekan untuk
kondisi perulangan for (k= KL+1;
k≤√N;k++).
Selanjutnya adalah memilih objek
yang memiliki jarak terjauh dari
objek KL sebagai pusat klaster.
Jarak terjauh tersebut nanti yang
digunakan sebagai inisial pusat
cluster selanjutnya.
Langkah
selanjutnya
adalah
mencari centroid baru untuk
melakukan update cluster. Langkah
yang dilakukan adalah dengan
menghitung centroid pada setiap
klaster. Perhitungannya adalah
dengan mengambil nilai rata-rata
semua nilai data pada setiap
fiturnya.
Setelah mendapatkan hasil akhir
berupa centroid baru, langkah
selanjutnya adalah ulangi langkah a
dan b sampai objek data pada klaster
sebelumnya dengan klaster yang
baru menjadi konvergen.
4. PENGUJIAN ANALISIS
Pada penelitian ini dilakukan empat kali
skenario pengujian dari perbandingan kedua
metode. Skenario pengujian tersebut antara lain
tingkat akurasi terhadap jumlah varian data
training, waktu komputasi satu kali konvergen
terhadap jumlah varian data training, jumlah
iterasi satu kali konvergen terhadap varian data
training, dan silhouette coefficient terhadap
varian data training.
a. Hasil pengujian tingkat akurasi terhadap
jumlah varian data training pada metode
improved semi supervised k-means dengan
k-means
Pengujian pertama digunakan untuk
mengetahui perbandingkan rata-rata tingkat
akurasi dari metode improved semi supervised kmeans dan k-means tradisional. Pada bagian ini
tiap proses pada masing-masing algoritma
menggunakan 100, 200, 300, 400, dan 500 data
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
training. Untuk masing-masing data training
pada algoritma k-means tradisional dilakukan
percobaan sebanyak 5 kali, kemudian akan
diambil rata-rata tingkat akurasi dari 5 kali
percobaan tersebut. Sedangkan pada algoritma
improved semi-supervised k-means akan
dilakukan perulangan untuk mencari konvergen
sebanyak KL+1 sampai √N.
Tabel 4.1 Tabel hasil pengujian tingkat akurasi
terhadap jumlah varian data training pada
metode improved semi supervised k-means dengan
k-means
820
tinggi dan stabil Hal tersebut disebabkan karena
pada algoritma improved semi supervised kmeans clustering mendapatkan nilai pusat
klaster awal yang lebih rasional dari data yang
berlabel. Selain itu dengan algoritma improved
semi-supervised k-means akan langsung menggenerate nilai K yang optimal, sehingga
memberikan hasil yang lebih baik dan lebih baik
dan konsisten dari algoritma k-means
tradisional. Namun dengan hal tersbut juga
menyebabkan metode improved semi supervised
k-means clustering sangat bergantung dari
seberapa baiknya data yang berlabel. Semakin
baik data yang berlabel akan semakin
meningkatkan tingkat akurasi dari metode
improved semi supervised k-means clustering.
b. Hasil pengujian waktu satu kali
konvergen algoritma improved semi
supervised k-means dengan k-means
tradisional
Dari data pada tabel 4.1 dapat dibuat grafik
hasil uji coba rata-rata tingkat akurasi yang
dipengraruhi oleh variasi jumlah data training.
Gambar 4.1 Grafik pengujian tingkat akurasi
terhadap jumlah varian data training pada
metode improved semi-supervised k-means dengan
k-means
Dari grafik pada Gambar 4.1 dapat
disimpulkan bahwa secara keseluruhan
algoritma improved semi-supervised k-means
menghasilkan tingkat akurasi yang lebih tinggi
dan lebih konsisten dari algoritma k-means
tradisional. Pada algoritma k-means tradisional
akan cenderung menghasilkan tingkat akurasi
yang meningkat jika data training yang
digunakan semakin banyak. Sedangkan untuk
algoritma semi-supervised k-means clustering
cenderung menghasilkan tingkat akurasi yang
Fakultas Ilmu Komputer, Universitas Brawijaya
Pengujian
kedua
dilakukan
untuk
mengetahui perbandingkan rata-rata waktu
untuk mencari satu kali konvergen pada
algoritma improved semi supervised k-means
clustering dengan algoritma k-means tradisional.
Sama seperti pengujian pertama, data training
yang digunakan sebanyak 500 data yang dibagi
menjadi lima bagian pengujian yaitu pengujian
untuk 100, 200, 300, 400, dan 500 data training.
Pada algoritma improved semi supervised kmeans clustering nilai rata-rata waktu untuk satu
kali konvergen didapatkan dari pembagian
antara total waktu dalam satu kali proses dibagi
jumlah iterasi untuk mencari konvergen.
Sedangkan untuk algoritma k-means tradisional
rata-rata satu kali konvergen didapatkan dari
rata-rata waktu pada masing-masing bagian data
training (100, 200, 300, 400, dan 500 data
training) yang akan diuji sebanyak lima kali
proses.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Tabel 4.2 Tabel hasil pengujian waktu satu kali
konvergen terhadap jumlah varian data training
pada metode improved semi supervised k-means
dengan k-means
821
algoritma menjadi tidak stabil. Berbeda dengan
algoritma improved semi supervised k-means
yang menggunakan data training yang telah
berlabel untuk mencari nilai pusat klaster awal
yang lebih optimal. Dengan pusat klaster awal
yang lebih optimal akan membuat waktu proses
algoritma lebih baik dan lebih baik.
c. Hasil jumlah iterasi dalam satu kali
konvergen terhadap jumlah varian data
training pada metode improved semi
supervised k-means dengan k-means
Dari data pada tabel 4.2 dapat dibuat grafik
hasil uji coba rata-rata waktu untuk satu kali
konvergen yang dipengraruhi oleh variasi
jumlah data training.
Gambar 6.2 Grafik pengujian waktu komputasi
terhadap jumlah varian data training pada
metode improved semi-supervised k-means dengan
k-means
Dari grafik pada Gambar 6.2 dapat
disimpulkan bahwa semakin banyak data
training yang digunakan akan membuat waktu
komputasi untuk mencari satu kali konvergen
pada masing-masing algoritma akan semakin
banyak. Hal tersebut dikarenakan tiap sub proses
pada masing-masing algoritma akan semakin
memakan waktu untuk memproses jumlah data
yang semakin besar. Dengan data training yang
semakin beragam, juga akan memperlama suatu
proses untuk mencari nilai konvergen. Jika
dibandingkan, algoritma improved semi
supervised k-means memberikan rata-rata waktu
komputasi yang lebih baik dari pada metode kmeans tradisional pada tiap varian data training.
Hal tersebut dikarenakan pusat klaster awal yang
dihasilkan pada metode k-means tradisional
dipilih secara acak sehingga proses dari
Fakultas Ilmu Komputer, Universitas Brawijaya
Pada pengujian ketiga dilakukan untuk
menguji perbandingan nilai rata-rata jumlah
iterasi dalam satu kali konvergen terhadap
jumlah varian data training antara algoritma kmeans tradisional dan improved semi-supervised
k-means. Sama seperti pengujian pertama dan
kedua, data training yang digunakan dibagi
menjadi lima jumlah varian data yaitu 100, 200,
300, 400, dan 500 jumlah data. Pada masingmasing varian data dipilih secara acak dari total
sekitar 2000 data training dalam rentang tahun
2012 sampai 2015. Pada pengujian algoritma
improved semi-supervised k-means, nilai ratarata waktu untuk satu kali konvergen didapatkan
dari pembagian antara total iterasi untuk satu kali
konvergen dibagi jumlah iterasi untuk mencari
satu kali konvergen. Sedangkan untuk algoritma
k-means tradisional rata-rata iterasi untuk satu
kali konvergen didapatkan dari rata-rata iterasi
pada masing-masing bagian data training (100,
200, 300, 400, dan 500 data training) yang akan
diuji sebanyak lima kali proses.
Tabel 4.3 Tabel hasil pengujian jumlah iterasi
terhadap jumlah varian data training pada
metode improved semi supervised k-means dengan
k-means
Dari data pada tabel 4.3 dapat dibuat grafik
hasil uji coba jumlah iterasi yang dipengraruhi
oleh variasi jumlah data training.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
822
dari percobaan lima set data training. Sedangkan
pengujian pada algoritma improved semisupervised k-means akan dilakukan perulangan
untuk mencari konvergen sebanyak KL+1
sampai √N. Selelah melalui beberapa proses
konvergen akan dipilih nilai JK (objektif) yang
terkecil. Nilai pusat klaster pada JK terkecil
tersebutlah yang akan diuji pada algoritma
improved semi supervised k-means clustering.
Gambar 4.3 Grafik hasil uji coba silhouette
coefficient
Dari Gambar 6.3 dapat diketahui bahwa
semakin banyak data training yang digunakan
akan membuat rata-rata iterasi untuk mencapai
satu kali konvergen pada algoritma semisupervised k-means memberikan hasil rata-rata
yang lebih efisien dari algoritma k-means
tradisional pada semua varian data training.
Selain itu dalam pengujian ini algoritma
improved
semi-supervised
k-means
menghasilkan rata-rata iterasi yang cenderung
meningkat jika data training yang digunakan
semakin banyak. Sedangkan untuk algoritma kmeans tradisional menghasilkan rata-rata iterasi
yang tidak konsisten pada masing-masing
jumlah varian data. Hal tersebut dikarenakan
pusat klaster awal yang dihasilkan pada
algoritma k-means tradisional dipilih secara acak
sehingga proses dari algoritma menjadi tidak
stabil. Berbeda dengan algoritma improved semi
supervised
kmeans
clustering
yang
menggunakan data training yang telah berlabel
untuk mencari nilai pusat klaster awal yang lebih
optimal. Dengan pusat klaster awal yang lebih
optimal akan membuat proses algoritma menjadi
lebih efisien dalam melakukan banyak iterasi
untuk satu kali konvergen.
d. Hasil pengujian perbandingan silhouette
coefficient terhadap jumlah varian data
training pada metode improved semi
supervised k-means dengan k-means
Pada pengujian ketiga berguna untuk
mengetahui perbandingan nilai kualitas klaster
menggunakan metode evaluasi silhouette
coefficient antara algoritma improved semi
supervised k-means clustering dan k-means
tradisional dengan konsep pengujian yang sama
dengan pengujian pertama dan kedua. Pengujian
pada algoritma algoritma k-means tradisional
dilakukan percobaan sebanyak lima kali pada
lima set data training yang berbeda, kemudian
akan diambil rata-rata nilai silhouette coefficient
Fakultas Ilmu Komputer, Universitas Brawijaya
Tabel 4.4 Tabel hasil pengujian silhouette
coefficient terhadap jumlah varian data training
pada metode improved semi supervised k-means
dengan k-means
Dari data pada tabel 4.4 dapat dibuat grafik
hasil uji coba nilai rata-rata silhouette coefficient
yang dipengraruhi oleh variasi jumlah data
training.
Gambar 4.4 Grafik hasil uji coba silhouette
coefficient
Dari Gambar 4.4 dapat diketahui bahwa
secara umum algoritma improved semisupervised k-means menghasilkan nilai
silhouette coefficient yang lebih baik. Hasil yang
lebih baik pada algoritma improved semisupervised k-means juga terlihat pada masingmasing varian data training. Pada lima kali
pengujian menggunakan aloritma improved semi
supervised k-means clustering rata-rata
menghasilkan nilai silhouette coefficient dengan
strong structure (nilai rentang 0.7 sampai 1). Hal
tersebut dikarenakan algoritma improved semi-
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
supervised k-means menghasilkan nilai klaster
pusat awal yang lebih rasional daripada
algoritama k-means tradisional. Lebih rasional
dikarenakan pencarian pusat klaster awal pada
algoritma improved semi-supervised k-means
didapatkan melalui data yang telah dilabeli
sebelumnya. Dengan menggunakan data yang
berlabel untuk mencari nilai pusat klaster, akan
memberikan pusat klaster awal yang lebih baik
dibanding mencari pusat klaster awal secara
random pada algoritma k-means tradisional.
Dengan data yang didapatkan secara random
akan membuat hasil tidak konsisten. Oleh karena
itu hasil klaster yang dihasilkan pada algortma
improved semi-supervised k-means lebih relevan
dibanding algoritma k-means tradisional saat
dilakukan pengujian menggunakan 25 data uji
silhouette coefficient yang diambil secara acak.
5. KESIMPULAN DAN SARAN
Bab ini membahas kesimpulan dari hasil
penelitian beserta saran yang dapat digunakan
dalam pengembangan penelitian yang lebih
lanjut tentang analisis perbandingan metode kmeans dengan improved semi-supervised kmeans clustering pada data indeks pembangunan
manusia (IPM).
5.1 Kesimpulan
Berdasarkan hasil penelitian tentang analisis
perbandingan metode k-means dengan improved
semi-supervised k-means clustering pada data
indeks pembangunan manusia (IPM) bisa
disimpulkan bahwa:
1. Penggunaan algoritma semi-supervised kmeans clustering pada data indeks
pembangunan manusia (IPM) mampu
mengatasi permasalahan yang ada pada
algoritma k-means tradisional dengan
memberikan hasil pusat klaster yang lebih
optimal yang didapatkan dari data yang telah
dilabeli sebelumnya. Dari data yang telah
dilabeli tersebut memberikan pusat klaster
awal yang lebih optimal dan nilai K klaster
yang lebih optimal ketimbang algoritma kmeans tradisional yang pada penerapannya
terkadang memberikan hasil yang tidak
konsisten. Dengan pusat klaster dan nilai K
yang optimal memberikan hasil yang lebih
baik dalam hal tingkat akurasi, rata-rata
waktu komputasi per satu kali konvergen,
dan
validasi
hasil
pusat
klaster
menggunakan silhouette coefficient pada
metode semi-supervised k-means clustering.
Fakultas Ilmu Komputer, Universitas Brawijaya
823
2. Dari pengujian yang dilakukan yang
menggunakan data training dengan variasi
data sebanyak 100, 200, 300, 400, dan 500
menggunakan algoritma semi-supervised kmeans clustering dan algoritma k-means
tradisional dengan 100 data uji yang diambil
secara acak memberikan rata-rata tingkat
akurasi yang lebih baik yaitu 90.3%.
Sedangkan untuk rata-rata hasil k-means
tradisional memberikan tingkat akurasi
sebesar 73.7%. Selain itu untuk setiap
variasi data pada metode semi-supervised kmeans clustering memberikan hasil yang
lebih konsisten dengan perbedaan presentase
akurasi paling besar yaitu 2%, sedangkan
untuk algoritma k-means tradisional
perbedaan hasil akurasi terbesar adalah
13.6%.
3. Pada pengujian rata-rata jumlah iterasi untuk
satu kali konvergen algoritma improved
semi-supervised k-means menghasilkan
rata-rata proses iterasi yang lebih efektif
dibandingkan dengan algoritma k-means
tradisional dengan nilai rata-rata iterasi yang
dihailkan pada lima varian data bernilai 7.11
kali iterasi berbanding 9.72 kali iterasi.
Selain itu untuk algoritma improved semisupervised k-means menghasilkan hasil
yang lebih konsisten pada bagian jumlah
iterasi ketimbang algoritma k-means
tradisional pada pengujian jumlah iterasi
dalam satu kali konvergen terhadap jumlah
varian data training.
4. Metode improved semi-supervised k-means
clustering memberikan rata-rata waktu
komputasi untuk satu kali konvergen yang
lebih baik dibandingkan dengan metode kmeans tradisional. Hal tersebut dapat dilihat
dari pengujian mengunakan lima variasi
jumlah data yaitu 100, 200, 300, 400, dan
500 data training metode semi-supervised kmeans clustering memberikan hasil yang
lebih baik dengan rata-rata waktu komputasi
sebesar 1222.9959 detik. Sedangkan untuk
algoritma k-means tradisional memberikan
rata-rata waktu komputasi sebesar 1504.75
detik. Dalam pengujian rata-rata waktu
komputasi kedua metode memberikan nilai
rata-rata waktu komputasi yang semakin
meningkat jika data training yang digunakan
semakin banyak, begitupun sebaliknya.
Pengklusteran data indeks pembangunan
manusia menggunakan algoritma semisupervised k-means clustering menggunakan
metode silhouette coefficient menghasilkan nilai
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
validasi yang lebih baik dari metode k-means
tradisional. Pada lima variasi jumlah data
training yaitu 100, 200, 300, 400, dan 500 data,
nilai rata-rata yang dihasilkan menggunakan
algoritma semi-supervised k-means clustering
menghasilkan nilai silhouette coefficient sebesar
0.69880 sedangkan untuk algoritma k-means
tradisional menghasilkan silhouette coefficient
sebesar 0.62734.
5.2 Saran
Berikut saran yang dapat ditawarkan sebagai
bahan untuk pengembangan penelitian lebih
lanjut:
1. Metode akan lebih optimal digunakan pada
data yang memiliki banyak jumlah data yang
berlabel. Pada data indeks pembangunan
manusia memiliki jumlah data yang berlabel
sebanyak empat, sehingga algoritma
improved
semi-supervied
k-means
clustering yang menggunakan data training
yang semakin banyak akan melipatgandakan
waktu komputasi.
2. Pada
penelitian
selanjutnya
yang
menggunakan algoritma improved semi
supervised k-means clustering sebaiknya
tidak diimplementasikan menggunakan
Bahasa pemrograman PHP karena dengan
proses dengan loop dan data yang banyak
pemrograman yang berbasis pada browser
memiliki limit pemrosesan data dan browser
rentan hang saat proses dijalankan dengan
data yang banyak.
3. Pada penelitian selanjutnya perlu sebuah
improvisasi pada metode semi-supervised kmeans untuk menentukan jumlah iterasi
untuk mencari konvergen sesuai dengan
jumlah data yang berlabel berbeda dan
jumlah data training.
DAFTAR PUSTAKA
A. K. Jain, M. N. M. P. J. F., 2009. Data
Clustering: A Review.. U. S, Michigan
State University.
Agusta, Y., 2007. K-means – Penerapan,
Permasalahan dan Metode Terkait. Jurnal
Sistem dan Informatika, Volume 3, pp. 4760.
BPS, S. B. P., 2015. Indeks Pembangunan
Manusia 2014 Metode Baru. 1 penyunt.
Jakarta: Badan Pusat Statistik.
Hanmin, Y., Hao, L. & Qianting, S., 2016. An
improved
semi-supervised
K-means
Fakultas Ilmu Komputer, Universitas Brawijaya
824
clustering algorithm. Guilin, China, IEEE
Conference Publications .
MacQueen, J. B., 1967. Some Methods for.
Berkeley, University of California Press.
Rousseeuw, P. J., 1987. Silhouette: A Graphical
Aid To The Interpretation and Validation
of Cluster Analysis. Journal of
Computational and Applied Mathematics,
Issue 20, pp. 53-56..
Taft, M. K. R. H. M. M. D. T. G. S. e. a., 2005.
Oracle Data Mining Concepts.
Zhenpeng, L. et al., 2014. An Improved semisupervised K-means Algorithm Based on
Information Gain. Baoding, China, IEEE
Publisher.
Download