1. Pendahuluan 1.1 Latar Belakang Clustering merupakan suatu proses pengelompokan data ke dalam kelas-kelas atau clustercluster berdasarkan suatu kemiripan atribut – atribut diantara kelompok data tersebut. Clustering merupakan fungsionalitas pada data mining. Tujuan dari proses clustering yaitu untuk mengelompokkan data ke dalam suatu cluster, sehingga objek pada suatu cluster memiliki kemiripan yang sangat besar dengan objek lain pada cluster yang sama, tetapi sangat tidak mirip dengan objek pada cluster yang lain[1]. Dalam mengembangkan metode clustering terdapat beberapa pendekatan, diantaranya dengan pendekatan partisi dan pendekatan hirarki[3]. Clustering dengan pendekatan partisi, mengelompokkan data dengan membagi data yang dianalisa ke dalam cluster-cluster yang ada sejumlah k partisi. Clustering dengan pendekatan hirarki, mengelompokkan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan data yang tidak mirip pada hirarki yang berjauhan. Dalam proses clustering permasalahan dapat muncul dari ukuran besarnya jumlah data dan dimensinya, sehingga algoritma clustering yang digunakan harus mampu menghasilkan performansi yang baik dilihat dari akurasi hasil cluster yang maksimal serta kompleksitas waktu dan ruang yang efisien. Permasalahan selanjutnya, mengenai pemilihan tipe data yang digunakan[4]. Untuk melakukan clustering data bertipe numerik, dapat digunakan pengukuran jarak berdasarkan konsep geometri (geometric distance measure) seperti Euclidean distance untuk melihat tingkat kemiripan diantara data yang ada. Semakin kecil jarak data dengan titik pusat klaster, maka data dikatakan semakin mirip. Namun untuk tipe data yang bersifat kategorikal, geometric distance measure tidak dapat diterapkan. Karena nilai atributnya tidak secara eksplisit menggambarkan jarak seperti pada atribut numerik, sehingga pengukuran tingkat kemiripan tiap data akan sulit dilakukan. Berawal dari permasalahan diatas, maka sebagai solusi digunakan metode scaLable Information Bottleneck (LIMBO) untuk melakukan clustering data bertipe kategorikal. Karena metode LIMBO merupakan metode hierarki yang dapat mengidentifikasi tuple dan persebaran nilai atributnya untuk menyajikan informasi yang dibutuhkan untuk mengklaster data kategorikal dengan menggunakan konsep Distributional Cluster Feature (DCF). LIMBO mempunyai sifat scalable, dimana dapat menangani dataset yang besar untuk mengklaster data dengan performansi yang baik[1]. LIMBO membaca satu persatu tuple dalam dataset kemudian merubah data dalam DCF yang menyimpan informasi dari persebaran nilai atribut pada tuple data kategori. Data dalam bentuk DCF dimasukkan ke dalam DCF tree. Dalam teknik ini, data yang berdekatan diperlakukan sebagai sebuah subcluster yang merupakan kumpulan data-data yang mempunyai kedekatan jarak berdasarkan kondisi tertentu. LIMBO menggunakan Information Loss(δI) sebagai ukuran penentuan kemiripan diantara data dalam DCF tree. Hasil ringkasan data (subklaster) dari DCF tree kemudian menjadi input pada proses clustering. Sehingga dengan metode LIMBO, dapat meng-efisiensikan waktu serta mempertahankan performansi dengan baik. 1 Melalui Tugas Akhir ini, dilakukan analisis akurasi dan kecepatan proses hasil implementasi clustering data kategorik menggunakan metode LIMBO. 1.2 Perumusan Masalah Mengacu pada latar belakang di atas, ada beberapa masalah yang akan diselesaikan dalam Tugas Akhir ini, diantaranya yaitu : 1. Bagaimana penerapan metode scaLable InforMation Bottleneck (LIMBO) dalam menyelesaikan masalah clustering data kategorik ? 2. Bagaimana pengaruh parameter branching factor dan tetha (ϕ) terhadap akurasi metode LIMBO ? 3. Bagaimana performansi LIMBO dilihat dari waktu eksekusi terhadap perubahan jumlah objek dataset ? Adapun batasan masalah pada Tugas Akhir ini adalah : 1. Evaluasi akurasi dilakukan dengan mengukur nilai F-measure. 2. Data yang digunakan telah mengalami preprocessing berupa penanganan missing value di luar sistem. 3. Dataset yang digunakan untuk mengklaster berasal dari database UCI Machine Learning Repository (http://archive.ics.uci.edu/ml/datasets.html.) yang bertipe kategorik. 1.3 Tujuan Berikut adalah tujuan dari Tugas Akhir ini : 1. Membangun sistem clustering dengan mengimplementasikan metode scaLable InforMation BOttleneck (LIMBO) 2. Menganalisa metode LIMBO terhadap perubahan parameter branching factor, dan tetha (ϕ) yang diinputkan user terkait dengan akurasi hasil cluster. 3. Menganalisa performansi metode LIMBO terhadap penambahan jumlah objek data dengan waktu eksekusi. 1.4 Metodologi penyelesaian masalah Berikut adalah metodologi yang digunakan dalam penyelesaian masalah dalam Tugas Akhir ini : 1. Studi literatur Pencarian materi-materi dan referensi yang berkaitan dengan permasalahan yang dibahas, seperti materi tentang data mining mengenai konsep clustering data kategori dan metode scaLable InforMation Bottleneck (LIMBO) serta materi lain yang berhubungan untuk membangun sistem. 2. Pengumpulan data Mempersiapkan data set yang akan digunakan untuk keperluan analisis clustering LIMBO, dengan terlebih dahulu melakukan preprocessing untuk menangani missing value yang ada pada data. 3. Perancangan sistem dan Implementasi Perancangan dan pembangunan sistem dilakukan dengan menerapkan rancangan sistem yang telah dibuat berdasarkan analisa yang sudah dilakukan dan 2 mengimplementasikan metode yang digunakan, yaitu scaLable InforMation Bottleneck (LIMBO) menjadi sebuah sistem clustering. 4. Pengujian sistem dan Analis hasil Menguji sistem yang telah diimplementasikan dan menganalisis hasil performansi dan keakuratan data. a. Testing sistem, melakukan pengujian terhadap sistem yang telah dibangun dengan menggunakan dataset yang sesuai. b. Analisis hasil, melakukan analisa performansi dari sistem terkait dengan perubahan parameter input terhadap akurasi. Melakukan analisa terhadap waktu yang dibutuhkan dalam proses clustering. 5. Penyusunan laporan Tugas Akhir Penyusunan laporan semua tahap yang telah dilakukan mulai dari tahap studi literatur sampai perumusan kesimpulan. 3