Tugas Akhir - 2011 PENERAPAN ALGORITMA EVOLUTIONARY PROGRAMMING PADA FUZZY CLUSTERING DALAM KLASTERISASI DATA Fajrul Mubarrak¹, Suyanto², Kusuma Ayu Laksitowening³ ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak Klasterisasi merupakan suatu teknik dalam data mining yang cukup penting dan banyak dipakai. Tujuan utama dari metode klaster adalah pengelompokan sejumlah data/objek ke dalam klaster (group) sehingga dalam setiap klaster akan berisi data yang semirip mungkin tetapi sangat tidak mirip dengan objek/data dari klaster yang lain. Salah satu metode atau teknik klastering yang sering digunakan adalah fuzzy C-means. Masalah yang sering timbul dalam melakukan klasterisasi dengan FCM adalah hasil klaster akhir tidak mencapai nilai optimum global, oleh karena itu dibutuhkan suatu fungsi optimasi untuk mengatasi masalah tersebut. Evolutionary Programming (EP) merupakan salah satu jenis EAs yang sering digunakan untuk meneyelesaikan permasalahan optimasi. Pada tugas akhir ini dilakukan suatu pengujian proses klasterisasi data dengan menggunakan FCM yang menerapakan algoritma EP dalam pencarian titik pusat klaster. Data set yang digunakan dalam pengujian sistem ini adalah dataset iris dan AnimalsNorm. Berdasarkan pengujian yang telah dilakukan dapat diketahui bahwa proses klasterisasi dengan menerapkan EP dalam FCM memberikan hasil klaster yang lebih bagus daripada hanya menggunakan FCM secara konvensional dengan melihat nilai validitas klasternya. Tapi, kelemahan dari metode ini terletak pada waktu komputasi yang lebih lama dikarenakan proses EP yang lebih kompleks. Kata Kunci : klastering, fuzzy C-means (FCM), evolutionary programming (EP) , Abstract Clustering is a technique in data mining that enough important and a lot of used. The main objective in cluster method is the assignment of a set of data into subsets (called clusters) so that data in the same cluster are similar in some sense and different in other cluster. One of cluster method that often used is fuzzy Cmeans. The problem on clustering using FCM is cluster result sometime doesn’t reach the global optimum. Therefore is needed an optimization function to handle this problem. Evolution Programming (EP) as a type of EAs is often used to solve optimization problems. In this final project is created to process clustering data testing with FCM that implements EP on cluster center searching. Dataset that used on this system test are iris and animalsNorm dataset. Based on the observation, by EP applying in FCM process can give better result than using FCM conventional in cluster validity index. However, the weakness from this method lie at the time computing because of process EP that more complex. Keywords : clustering, Fuzzy C-Means (FCM), Evolutionary Programming (EP), Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2011 BAB I PENDAHULUAN 1.1 Latar Belakang Klasterisasi merupakan suatu teknik dalam data mining yang cukup penting dan banyak dipakai. Tujuan utama dari metode cluster adalah pengelompokan sejumlah data/objek ke dalam cluster (group) sehingga dalam setiap cluster akan berisi data yang semirip mungkin tetapi sangat tidak mirip dengan objek/data dari cluster yang lain[3]. Salah satu teknik klastering yang cukup terkenal adalah Fuzzy C-Means (FCM). FCM adalah teknik pengklasteran fuzzy dimana keberadaan tiap titik ditentukan oleh derajat keanggotaan. Dengan menggunakan pendekatan fuzzy setiap objek dapat menjadi anggota dari semua kluster dengan derajat keanggotan antara 0 sampai 1. Untuk menghasilkan formulasi yang presisi dalam menentukan kriteria klastering dapat ditempuh dengan metode fungsi objektif, yaitu dengan mengukur kemampuan untuk dilibatkan dalam cluster sebagai fungsi dari cacah cluster dengan fungsi objektif tertentu. Pemilihan fungsi objektif ini tergantung pada sebaran data objek. Struktur cluster yang baik adalah dengan meminiminalkan fungsi objektif tersebut. Sering kali dalam meminimasi fungsi objektif tersebut dapat menghantarkan pada penyelesaian yang merupakan optimum lokal dikarenakan dalam mengaplikasikan metode ini harus diketahui scara pasti terlebih dahulu jumlah cluster yang akan dibuat dari sebaran data yang diberikan serta inisialisasi awal pusat cluster. Sehingga performansi dari FCM sangat tergantung pada pemilihan nilai pusat cluster awal[1]. Evolutionary Programming (EP) merupakan salah satu teknik atau metode untuk mengatasi masalah optimasi. Walaupun pada awal diperkenalkannya metode ini ditujukan untuk menghasilkan suatu bentuk kecerdasan (intellegence) yang dipandang sebagai suatu tingkah laku yang adaptif (adaptif behaviour). Akan tetapi dalam perkembangannya EP justru mengalami pergeseran menuju bentuk yang mirip ES (Evolutionary Strategies), digunakan untuk mengatasi masalah-masalah optimasi numerik. Dengan pertimbangan tersebut, tugas akhir ini difokuskan pada penggabungan FCM dengan EP. Hal ini dimaksudkan untuk menghilangkan masalah optimum lokal pada FCM karena EP berfungsi untuk membangkitkan pilihan solusi yang lebih bervariasi sehingga dapat meminimalisir terjadi kejenuhan fungsi objektif dan diharapkan bisa menghasilkan pengelompokan data yang lebih homogen, penyebaran pusat klaster yang optimum global, serta menghasil suatu cluster yang memiliki tingkat akurasi yang tinggi. 1.2Identifikasi Masalah Berdasarkan latar belakang yang telah diuraikan di atas, maka dapat dirumuskan beberapa masalah antara lain : 1. Bagaimana EP dapat digunakan untuk mengoptimasi FCM 2. Bagaimana menerapkan EP pada FCM dalam melakukan klasterisasi data. 1 Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2011 2 3. Sejauh mana peningkatan kinerja FCM dengan pendekatan EP serta parameter-parameter FCM apa yang kemudian harus dipertimbangkan dalam penerapan EP. Dalam implementasi tugas akhir ini dibatasi oleh beberapa hal, sebagai berikut : 1. Dataset yang digunakan adalah data yang sudah dilakukan pre-processing dan siap di-mining. 2. Jenis data pada dataset adalah data numeric saja. 3. Tidak ada fitur perubahan data uji tapi jumlah data dapat di tambah 4. Perubahan data uji akan mengakibatkan perubahan pada source code dan penyesuaian pada dataset. 1.3Tujuan Tujuan yang ingin dicapai dalam tugas akhir ini adalah 1. Menerapkan metoda EP untuk menghindari solusi yang optimum lokal pada penyelesaian pusat cluster dengan FCM biasa. 2. Menganalisis sejauh mana algrotima Evolutionary programming dapat meningkatkan kinerja fuzzy clustering dalam hal cluster validity, kompleksitas komputasi, dan classification rate. 1.4Metode Penelitian Metode yang digunakan penulis dalam mengumpulkan data-data untuk pembuatan aplikasi dan penyusunan Tugas Akhir dilakukan dengan cara, yaitu : 1. 2. 3. 4. Fakultas Teknik Informatika Studi literatur Pencarian referensi dan sumber-sumber yang berhubungan dengan Clustering, Fuzzy c-Means, Evolutionary Programming, dan referensi yang yang dapat membantu dalam menyelesaikan tugas akhir ini Pengumpulan data Mengumpulkan beberapa dataset yang diperlukan untuk menguji sistem yang dibuat. Analisis dan perancangan sistem Melakukan analisis dan perancangan terhadap sistem yang dibangun, menganalisis metode yang akan digunakan untuk menyelesaikan permasalahan, termasuk menentukan bahasa pemrograman yang digunakan, arsitektur, fungsionalitas, dan antarmuka sistem. Input sistem berupa data set uji dan outputnya dari sistem adalah nilai validitas klastering. Implementasi dan pembangunan sistem a. Membangun sistem klastering dengan menggunakan fuzzy c-means secara konvensional. b. Membangun sistem klastering dengan menggunakan fuzzy c-means dengan menambahkan metode Evolutionary programming dalam penentuan titik pusat klaster. Program Studi S1 Teknik Informatika Tugas Akhir - 2011 3 5. 6. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Pengujian dan analisis Pengujian dan analisis dilakukan oleh penulis tanpa melibatkan pihak lain, meliputi: a. Pengujian untuk mengetahui tingkat validitas klastering dan classtification rate dari system klastering FCM konvensional. b. Pengujian untuk mengetahui tingkat validitas klastering dan classtification rate dari system klastering FCM dengan penambahan Evolutionary Programming. c. Analisis perbandingan performansi antara FCM konvensional dengan penambahan EP dari segi tingkat validitas klaster dan nilai claasification rate-nya. Pengambilan kesimpulan dan penyusunan laporan Tugas Akhir. Program Studi S1 Teknik Informatika Tugas Akhir - 2011 33 BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan Berdasarkan dari data hasil pengujian terhadap dataset iris dana animalsNorm yang dilakukan proses klasterisasi dengan FCM konvensional dan FCM dengan menerapkan EP, maka dapat disimpulkan sebagai berikut : 1. Dari nilai validitas klastering dan classification rate yang dihasilkan dari dataset iris, data hasil klaster dengan FCM dan EP memilki nilai yang lebih bagus daripada FCM konvensional yaitu nilai koefisien partisi 0.7864, entropi partisi 0.3926 dan classification rate 97.3333% sedangkan klasterisasi dengan FCM konvensional nilai koefisien partisi 0.6043, entropi partisi 0.697 dan classification rate 91.3333%. 2. Dari dataset animalsNorm dengan jumlah atribut 12 dan jumlah record 3000 menghasilkan nilai koefisien partisi terbaik 0.4764, entropi partisi 0.9297 dengan classification rate 91.33% dan jumlah kesalah anggota klaster hanya 260 record, dengan begitu FCM yang menerapkan EP dapat memberikan hasil klaster yang bagus terhadap jumlah record dan atribut yang besar. 3. Algoritma evolutionary programming dapat meningkatkan kinerja fuzzy Cmeans dengan meng-evaluasi titik pusat klaster, sehingga permasalahan pada FCM konvensional yang sangat tergantung pada inisialisasi titik pusat awal dan terkadang hanya mencapai hasil yang optimum local dapat teratasi walaupun dengan waktu komputasi yang lebih lama. 5.2 Saran Saran yang dapat diberikan untuk melakukan pengembangan berikutnya antara lain: 1. Dapat menggunakan data uji yang lebih besar dan lebih variatif dengan rentang nilai yang besar juga. 2. Dalam peningkatan kinerja FCM dalam digunakan algortima optimasi yang lebih bagus seperti algoritma Differential Evolution, bee colony dan algoritma optimasi lainnya. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2011 34 Daftar Pustaka [1] Dataset animalsNorm di unduh pada http://uisacad2.uis.edu/dstar/data/clusteringdata.html, 30 desember 2010 [2] Klawon Frank, Keller Annette, 1998, “Fuzzy Clustering with Evolutionary Algorithms”, Seventh IFSA World Congress V.2, 1998. [3] Kusrini, Emha Taufiq Lutfhi, 2009, “Algoritma Data Mining”, ANDI, Yogyakarta, Indonesia [4] Manish Sarkar, Yegnanarayana B., and Deepak Khemani, 1996, “A clustering algorithm using on evolutionary programming-basep approach”, Pattern Recognation Letters, 18(1997)975-986. [5] Rasidi, Rachmat, Agung Toto Wibowo, S.T, Dhinta Darmantoro, S.T, MSCS, 2009, Analisis dan Implementasi Algoritma Genetika untuk Peningkatan Kinerja Fuzzy C-Means.Bandung. IT Telkom [6] Santosa, Budi, 2007, “Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis”, Graha Ilmu, Yogyakarta, Indonesia. [7] Su, Mu-Chun, “A New Index of Cluster Validity” diunduh pada : http://machaon.karanagai.com/validation_algorithms.html, tanggal 25 November 2010 [8] Suyanto, ST., MSc. 2008. Evolutionary Computation : Komputasi Berbasis “Evolusi” dan “Genetika”. Bandung : Informatika. [9] Widyastuti, Naniek, Amir Hamzah, “Penggunaan Algoritma Genetika dalam Peningkatan Kinerja Fuzzy Cluatering untuk Pengenalan Pola diunduh pada : http://pdm-mipa.ugm.ac.id/ojs/index.php/bimipa/article/.../17/21”, 19 Oktober 2009 pukul 18.30 [10] Wikipedia. Cluster Analysis. Diunduh pada: http: //en.wikipedia.org/ wiki/ Cluster_analysis , 15 September 2009. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika