1. Pendahuluan - Repository

advertisement
1. Pendahuluan
1.1 Latar Belakang
Clustering merupakan suatu proses pengelompokan data ke dalam kelas-kelas atau clustercluster berdasarkan suatu kemiripan atribut – atribut diantara kelompok data tersebut.
Clustering merupakan fungsionalitas pada data mining. Tujuan dari proses clustering yaitu
untuk mengelompokkan data ke dalam suatu cluster, sehingga objek pada suatu cluster
memiliki kemiripan yang sangat besar dengan objek lain pada cluster yang sama, tetapi
sangat tidak mirip dengan objek pada cluster yang lain[1].
Dalam mengembangkan metode clustering terdapat beberapa pendekatan, diantaranya dengan
pendekatan partisi dan pendekatan hirarki[3]. Clustering dengan pendekatan partisi,
mengelompokkan data dengan membagi data yang dianalisa ke dalam cluster-cluster yang
ada sejumlah k partisi. Clustering dengan pendekatan hirarki, mengelompokkan data dengan
membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada
hirarki yang berdekatan dan data yang tidak mirip pada hirarki yang berjauhan.
Dalam proses clustering permasalahan dapat muncul dari ukuran besarnya jumlah data dan
dimensinya, sehingga algoritma clustering yang digunakan harus mampu menghasilkan
performansi yang baik dilihat dari akurasi hasil cluster yang maksimal serta kompleksitas waktu
dan ruang yang efisien. Permasalahan selanjutnya, mengenai pemilihan tipe data yang
digunakan[4]. Untuk melakukan clustering data bertipe numerik, dapat digunakan
pengukuran jarak berdasarkan konsep geometri (geometric distance measure) seperti
Euclidean distance untuk melihat tingkat kemiripan diantara data yang ada. Semakin kecil
jarak data dengan titik pusat klaster, maka data dikatakan semakin mirip. Namun untuk tipe
data yang bersifat kategorikal, geometric distance measure tidak dapat diterapkan. Karena
nilai atributnya tidak secara eksplisit menggambarkan jarak seperti pada atribut numerik,
sehingga pengukuran tingkat kemiripan tiap data akan sulit dilakukan.
Berawal dari permasalahan diatas, maka sebagai solusi digunakan metode scaLable
Information Bottleneck (LIMBO) untuk melakukan clustering data bertipe kategorikal.
Karena metode LIMBO merupakan metode hierarki yang dapat mengidentifikasi tuple dan
persebaran nilai atributnya untuk menyajikan informasi yang dibutuhkan untuk mengklaster
data kategorikal dengan menggunakan konsep Distributional Cluster Feature (DCF).
LIMBO mempunyai sifat scalable, dimana dapat menangani dataset yang besar untuk
mengklaster data dengan performansi yang baik[1].
LIMBO membaca satu persatu tuple dalam dataset kemudian merubah data dalam DCF yang
menyimpan informasi dari persebaran nilai atribut pada tuple data kategori. Data dalam
bentuk DCF dimasukkan ke dalam DCF tree. Dalam teknik ini, data yang berdekatan
diperlakukan sebagai sebuah subcluster yang merupakan kumpulan data-data yang
mempunyai kedekatan jarak berdasarkan kondisi tertentu. LIMBO menggunakan
Information Loss(δI) sebagai ukuran penentuan kemiripan diantara data dalam DCF tree.
Hasil ringkasan data (subklaster) dari DCF tree kemudian menjadi input pada proses
clustering. Sehingga dengan metode LIMBO, dapat meng-efisiensikan waktu serta
mempertahankan performansi dengan baik.
1
Melalui Tugas Akhir ini, dilakukan analisis akurasi dan kecepatan proses hasil implementasi
clustering data kategorik menggunakan metode LIMBO.
1.2 Perumusan Masalah
Mengacu pada latar belakang di atas, ada beberapa masalah yang akan diselesaikan dalam
Tugas Akhir ini, diantaranya yaitu :
1. Bagaimana penerapan metode scaLable InforMation Bottleneck (LIMBO) dalam
menyelesaikan masalah clustering data kategorik ?
2. Bagaimana pengaruh parameter branching factor dan tetha (ϕ) terhadap akurasi
metode LIMBO ?
3. Bagaimana performansi LIMBO dilihat dari waktu eksekusi terhadap perubahan jumlah objek
dataset ?
Adapun batasan masalah pada Tugas Akhir ini adalah :
1. Evaluasi akurasi dilakukan dengan mengukur nilai F-measure.
2. Data yang digunakan telah mengalami preprocessing berupa penanganan missing
value di luar sistem.
3. Dataset yang digunakan untuk mengklaster berasal dari database UCI Machine
Learning Repository (http://archive.ics.uci.edu/ml/datasets.html.) yang bertipe
kategorik.
1.3 Tujuan
Berikut adalah tujuan dari Tugas Akhir ini :
1. Membangun sistem clustering dengan mengimplementasikan metode scaLable
InforMation BOttleneck (LIMBO)
2. Menganalisa metode LIMBO terhadap perubahan parameter branching factor, dan
tetha (ϕ) yang diinputkan user terkait dengan akurasi hasil cluster.
3. Menganalisa performansi metode LIMBO terhadap penambahan jumlah objek data
dengan waktu eksekusi.
1.4 Metodologi penyelesaian masalah
Berikut adalah metodologi yang digunakan dalam penyelesaian masalah dalam Tugas Akhir
ini :
1. Studi literatur
Pencarian materi-materi dan referensi yang berkaitan dengan permasalahan yang
dibahas, seperti materi tentang data mining mengenai konsep clustering data kategori
dan metode scaLable InforMation Bottleneck (LIMBO) serta materi lain yang
berhubungan untuk membangun sistem.
2. Pengumpulan data
Mempersiapkan data set yang akan digunakan untuk keperluan analisis clustering
LIMBO, dengan terlebih dahulu melakukan preprocessing untuk menangani missing
value yang ada pada data.
3. Perancangan sistem dan Implementasi
Perancangan dan pembangunan sistem dilakukan dengan menerapkan rancangan
sistem yang telah dibuat berdasarkan analisa yang sudah dilakukan dan
2
mengimplementasikan metode yang digunakan, yaitu scaLable InforMation
Bottleneck (LIMBO) menjadi sebuah sistem clustering.
4. Pengujian sistem dan Analis hasil
Menguji sistem yang telah diimplementasikan dan menganalisis hasil performansi dan
keakuratan data.
a. Testing sistem, melakukan pengujian terhadap sistem yang telah dibangun
dengan menggunakan dataset yang sesuai.
b. Analisis hasil, melakukan analisa performansi dari sistem terkait dengan
perubahan parameter input terhadap akurasi. Melakukan analisa terhadap
waktu yang dibutuhkan dalam proses clustering.
5. Penyusunan laporan Tugas Akhir
Penyusunan laporan semua tahap yang telah dilakukan mulai dari tahap studi literatur
sampai perumusan kesimpulan.
3
Download