Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012 PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA Heri Awalul Ilhamsah Jurusan Teknik Industri Universitas Trunojoyo Madura Kampus Universitas Trunojoyo Madura Jl. Raya Telang Kamal-Bangkalan Email: [email protected] ABSTRAK Penelitian ini membahas modifikasi algoritma K-Means dalam klasterisasi suatu objek data. Tujuan dari modifikasi ini adalah untuk meningkatkan kinerja algoritma tersebut, karena seringkali algoritma K-Means terjebak dalam lokal optima ketika menghadapi data yang tidak linier. Data test yang digunakan untuk menguji efektifitas modifikasi algoritma menggunakan set data Iris. Modifikasi algoritma dilakukan dengan menambahkan fungsi kernel polynomial. Fungsi kernel akan membawa data dari space lama ke space baru sehingga dimungkinkan untuk dipisah secara linier. Hasil penelitian ini mengkonfirmasikan bahwa nilai β antara 0.09 sampai 1 pada fungsi kernel polynomial memberikan tingkat missclass terendah sebesar 2% pada klasterisasi data Iris. Kata kunci : Fungsi Kernel Polynomial, Klasterisasi, K-Means, Set Data Iris PENDAHULUAN Metode pengelompokkan data dalam data mining di kenal dengan istilah klastering. Klastering merupakan usaha mengelompokkan data kedalam beberapa klaster atau kelas berdasarakan tingkat kemiripannya, semakin mirip nilai dari suatu titik data maka akan menempati kelas yang sama. Metode klastering ini menggunakan dua pendekatan utama yaitu berdasarakan herarki dan partisi. Metode klastering dengan pendekatan herarki dilakukan dengan membuat suatu hirarki, biasanya berupa dendrogram dengan menempatkan data yang memiliki tingkat kemiripan sama pada satu hirarki akibatnya data yang memiliki tingkat kemiripan rendah akan menempati hirarki yang berjauhan. Klastering dengan pendekatan partisi (partition-based clustering) dilakukan dengan mengelompokkan data serta memilahmilah data yang dianalisa ke dalam klaster-klaster yang ada. Salah satu metode klastering yang umum digunakan di bidang data mining adalah metode K-Meansclustering. K-Meansadalah suatu metode penganalisaan data dalam data mining dengan melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi (Agusta, 2007). Metode tersebut dilakukan dengan mengelompokkan obyek ke dalam k klaster atau kelas. Untuk melakukan klastering ini, nilai k harus ditentukan terlebih dahulu. Biasanya user atau pemakai sudah memiliki informasi awal tentang obyek yang dipelajari, termasuk berapa jumlah klaster yang paling tepat (Santosa, 2007). Tujuan dari klasterisasi data menjadi k kelas adalah meminimalisasi variasi di dalam suatu kelas dan memaksimalkan variasi antar kelas. Usaha untuk meningkatkan kinerja algoritma K-Means dalam mengklasterkan kumpulan data terus dilakukan. Zhang et, all.(1999) mengusul K Harmonic Means dalam algoritma K-Means untuk mengatasi terjadinya lokal optima ketika inisialisasi pusat klaster. Penelitian tersebut disempurnakan lagi oleh Zhang et, all.(2009) dengan diusulkannya penggunaan algoritma Bee Colony untuk inisialisasi pusat klaster. Pada penelitian ini akan ISBN : 978-602-97491-5-1 A-1-1 Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012 digunakan fungsi kernel Polynomial untuk menghindar dari terjadinya lokal optima pada inisialisasi pusat klaster. Hal tersebut dilakukan dengan memetakan data dari space lama ke space yang baru sehingga data bisa dipisahkan secara linier. METODOLOGI Langkah pertama dari algoritma K-Means adalah dengan menentukan parameter input, k, dimana parameter tersebut akan berfungsi sebagai banyaknya klaster yang dikehendaki. Data yang ada sebanyak n data atau obyek akan di klaster ke dalam k klaster tadi sehingga diharapkan menghasilkan similarity intra klaster tinggi namun similarity antar klaster rendah. Untuk mengukur kemiripan bisa dipakai cosinus, kovarian, dan korelasi, sedangkan untuk mengukur ketidakmiripan bisa digunakan jarak (Santosa, 2007). Ketidakmiripan dapat diterjemahkan dalam konsep jarak, semakin dekat jaraknya berarti semakin tinggi kemiripannya, dan sebaliknya (Santosa, 2007). Pada penelitian ini akan digunakan konsep perhitungan jarak eucledian. Jarak euclidean (L2-norm) jarak dua titik x dan y menurut euclidean dirumuskan sebagai: d ( x, y) x y 2 n x i i 1 yi 2 Algoritma K-Meanssecara sederhana menurut Han & Kamber (2006) adalah: 1. Definisikan secara random jumlah klaster (k) yang akan digunakan sebagai pusat klaster awal. 2. Untuk semua obyek data, tempatkan pada klaster yang paling mirip, berdasarkan pada jarak antara obyek dengan pusat klaster awal. 3. Tentukan nilai mean dari klaster-klaster yang terbentuk, sebagai pusat klaster baru. Proses ini berlangsung iteratif. 4. Lakukan lagi langkah 2 dan 3 sampai fungsi kriteria konvergen. Umumnya, kriteria yang digunakan adalah square-error yang dirumuskan sebagai berikut: k E p mi 2 i 1 pCi dimana E adalah sum of square error untuk semua obyek dalam data set, p adalah koordinat tiap titik yang mewakili obyek yang ada, dan mi adalah mean dari klaster Ci (p dan mi adalah multidimensional). Fungsi kriteria ini mencoba menghasilkan k klaster yang padat dan terpisah sebaik mungkin. Secara ringkas, metode K-Means dapat dilihat pada Gambar 1.1. ISBN : 978-602-97491-5-1 A-1-2 Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012 Kernel K-Means adalah pegembangan dari algoritma K-Means dengan cara memetakan data ke space baru menggunakan metode kernel. Hal tersebut dilakukan untuk meningkatkan akurasi hasil klaster. Didalam kernel K-Means diharapkan data bisa dipisahkan dengan lebih baik karena data yang overlap atau nonlinier bisa menjadi linier di ruang dimensi baru. Fungsi kernel yang digunakan adalah fungsi polynomial. Nilai β pada persamaan kernel polynomial berperan sebagai derajat dan akan ditentukan melalui serangkaian ujicoba. Nilai y terbaik akan memberikan tingkat missclass terendah. K=(x.x'+1)β Alur klusterisasi algoritma K-Means dengan fungsi kernel dapat dilihat pada gambar dibawah. Data set Iris Pengurutan atribut / variabel Membentuk Matrik Kernel dengan Fungsi Kernel Polynomial Tentukan Jumlah Klaster/Kelas Yang dikehendaki Inisialisasi Pusat Klaster Tempatkan Setiap Objek Data ke Pusat Klaster Terdekat Berdasarkan Jaraknya Hitung Jarak Rata-Rata Anggota Klaster dengan Pusat Klaster Tugaskan Lagi Setiap Obyek ke Pusat Klaster Baru, Sampai Pusat Klaster Tidak Berubah Gambar 1. Alur Algoritma Kernel K-Means Untuk menentukan tingkat keberhasilan dalam melakukan proses klastering ada beberapa ukuran yang bisa dipakai. Menurut Santosa (2007), untuk menentukan jarak antara dua klaster A dan B dapat digunakan salah satu dari beberapa ukuran: 1. Complete linkage clustering (jarak maksimum antara elemen dalam klaster) Jarak antara dua klaster didefinisikan sebagai: d (A,B) = max S xy xA, yB dimana Sxy adalah jarak dua data x dan y masing-masing dari klaster A dan B. 2. Single linkage clustering (jarak minimum antara elemen dari setiap klaster) Jarak antara dua klaster didefinisikan sebagai d (A,B) = min S xy xA, yB 3. Average linkage clustering (rata-rata jarak antara elemen dari setiap klaster) Jarak antara dua klaster didefinisikan sebagai 1 d (A,B) = S x, y n A n B xA yB dimana nA dan nB masing-masing adalah banyaknya data dalam set A dan B. ISBN : 978-602-97491-5-1 A-1-3 Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012 4. Centroid linkage Jarak antara dua klaster didefinisikan sebagai d (A,B) = sx , y 1 dimana: x x, n A xA 1 y y n B xB 5. Ward linkage Jarak antara dua klaster didefinisikan sebagai 2 n A nB s AB d (A,B) = , n A nB 2 dimana s AB adalah jarak antara klaster A dan B menggunakan centroid linkage. PEMBAHASAN Untuk melihat efektifitas algoritma ini dalam melakukan klasterisasi data, akan digunakan data test. Data test yang digunakan adalah data set iris yang bisa diambil dari UCI Machine Learning Repository (ftp://ftp.ics.uci.edu./pub/machine-learning-database/). Jumlah total data iris ini sebanyak 150 data terdiri dari empat fitur, dan tiga kelas. Dalam penelitian ini, 40% data akan digunakan sebagai data training dan sisanya digunakan sebagai data testing. Salah satu parameter yang akan di buat berubah-ubah guna mendapatkan hasil klaster terbaik adalah nilai β pada fungsi kernelnya. Jumlah iterasi ditentukan sebesar 1000 didapatkan hasil sebagai berikut : Tabel 1. Hasil Missclass Klasterisasi Data Iris Menggunakan Algoritma Kernel K-Means No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 β 2 1.9 1.8 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0.1 0.09 0.07 0.05 0.03 Missclass 14.67% 14.67% 14% 12.67% 12% 11.3% 11.3% 10% 6% 4% 2.6% 2% 2% 2.6% 2.6% 2.6% Nilai β terbaik yang mampu memberikan tingkat missclass terendah berada pada kisaran 0.09 sampai 1, dengan prosentase missclass 2%. Nilai missclass sebesar 2% ini ISBN : 978-602-97491-5-1 A-1-4 Prosiding Seminar Nasional Manajemen Teknologi XVI Program Studi MMT-ITS, Surabaya 14 Juli 2012 menunjukkan algoritma Kernel K-Means kurang tepat dalam menentukan kelas dari 3 titik data dari 150 titik data. KESIMPULAN Hasil komputasi dari Algoritma Kernel K-Means menunjukkan bahwa fungsi Kernel Polynomial dengan tingkat degree pada kisaran 0.09 sampai 0.1 mampu mengklasterkan data Irish dengan tingkat kesalahan 2%. Dengan demikian dapat disimpulkan bahwa penambahan fungsi kernel polynomial mampu meningkatkan kinerja algoritma K-Means. Untuk penelitian selanjutnya bisa diuji cobakan fungsi-fungsi kernel lainnya sehingga bisa di lihat pengaruhnya terhadap kinerja algoritma K-Means dalam usaha klasterisasi objek data. DAFTAR PUSTAKA Zhang C., Ouyang, D., dan Ning, J. (2009), An Artificial Bee Colony Approach for Clustering, Expert Systems with Applications, Vol. 37, hal 4761–4767. Agusta, Y. (2007), K-means, Penerapan, Permasalahan dan Metode Terkait, Jurnal Sistem dan Informatika, Vol, 3 (Pebruari 2007), 47-60. Santosa, B. (2007), Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis, Graha Ilmu, Jakarta. Zhang, B., Hsu, M., dan Dayal, U. (1999), K-Harmonic Means–A Data Clustering Algorithm, Technical Report HPL-1999-124, Hewlett-Packard Laboratories. Han, J. dan Kamber, M. (2006), Data mining: Concepts and Techniques (2nd ed,), Elsevier Inc. Ulya, M. (2010), Klastering Varietas Padi Menggunakan Modifikasi Metode KMeansBerbasis OWA(Oriented Weighted Averaging), Thesis Jurusan Teknik Industri, Institut Teknologi Sepuluh Nopember, Surabaya. ISBN : 978-602-97491-5-1 A-1-5