Tugas Akhir - 2010 PENGELOMPOKAN BERITA BERBAHASA INDONESIA MENGGUNAKAN ALGORITMA CLUSTERING BASED ON FREQUENT WORD SEQUENCES (CFWS) Corry Monesty A¹, Yanuar Firdaus A.w.², Warih Maharani³ ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik menggunakan representasi single-word item, merepresentasikan dokumen teks sebagai “bag of words” dimana suatu dokumen dipandang sebagai sekumpulan kata-kata. Dalam representasi ini tidak ada urutan antar kata maupun kalimat yang diperhatikan karena setiap kata dianggap berdiri sendiri tanpa ada keterhubungan satu sama lain sehingga tidak tepatnya dalam pelabelan hasil cluster. Permasalahan-permasalahan diatas bisa ditangani dengan menggunakan Clustering Based On Frequent Word Sequences (CFWS). Data berdimensi tinggi dapat diatasi dengan mereduksi termterm yang tidak frequent. Pelabelan cluster dilakukan dengan cara menelusuri “word sequences” di tiap dokumen. Hasil klasterisasi dengan algoritma ini divisualisasikan secara hirarki dalam bentuk tree. Berdasarkan pengujian, klaster yang dihasilkan oleh algoritma CFWS ini memiliki kualitas deskripsi klaster mewakili isi berita. Kata Kunci : clustering, frequent word sequences, CFWS, F-Measure, purity. Abstract Currently being developed clustering techniques, such as techniques using single-word representation of items, representing a text document as a "bag of words" in which a document is seen as a set of words. In this representation there is no order between words or sentences are considered because each word is considered stand alone without any connection to one another so not exactly in the cluster labeling results. The above problems can be handled using Clustering Based On Frequent Word Sequences (CFWS). High dimensional data can be addressed by reducing the terms that are not frequent.Labeling of clusters was done by tracing "word sequences" in each document. The result of this clustering algorithm is visualized in the form of a hierarchical tree. According to the experiments, clusters generated by the algorithm CFWS has represented cluster description quality news content. Keywords : clustering, frequent word sequences, CFWS, F-Measure, purity. Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2010 1. 1.1 Pendahuluan Latar belakang Pada zaman sekarang ini, volume jumlah dokumen teks melalui media digital makin berkembang pesat, pengelompokan dokumen teks secara otomatis menjadi suatu bidang penelitian yang sangat diminati. Dalam keilmuan ini terdapat dua pendekatan yang berkembang yaitu supervised dan unsupervised classification. Pada supervised classification atau sering disebut kategorisasi, dimana dokumen teks sudah terdefinisi sebelumnya. Sedangkan pada unsupervised classification atau clustering, dokumen akan dikelompokan menjadi clusters dimana dokumen teks yang memiliki banyak persamaan akan berada dalam satu cluster dan dokumen yang memiliki banyak perbedaan akan berada dalam cluster yang berbeda. Pengelompokan dokumen teks dengan metode clustering ini biasa disebut dengan document clustering. Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik menggunakan representasi vektor disebut vector space model sebagian besar dari metode ini merepresentasikan dokumen teks sebagai “bag of words” dimana suatu dokumen dipandang sebagai sekumpulan kata-kata [5]. Dalam representasi ini tidak ada urutan antar kata maupun kalimat yang diperhatikan karena setiap kata dianggap berdiri sendiri tanpa ada keterhubungan satu sama lain. Masalah utama clustering menggunakan vector space model adalah tidak tepatnya dalam pelabelan hasil cluster. Representasi dengan bag of words ini disebut juga dengan representasi dengan single-word terms [4]. Selain representasi dengan single-word terms, ada representasi lain yang disebut multi-word terms [9]. Dalam representasi multi-word terms ini setiap dokumen teks akan dipandang sebagai kumpulan frase atau rangkaian kata yang memperhitungkan urutan kemunculan kata atau biasa disebut dengan sequence of words [10]. Representasi ini dianggap dapat menangkap makna semantik dari kata-kata dalam dokumen teks yang lebih baik [4]. Dengan memiliki arti semantik yang tetap terjaga maka informasi yang terkandung dalam dokumen akan lebih mudah didapatkan [13], informasi yang didapatkan tersebut akan dibuat sebagai label pada hasil cluster. Salah atu alternatif metode clustering yang dapat digunakan dengan memanfaatkan multi-word terms berupa sequences of words adalah sequence of words adalah Clustering Based On Frequent Word Sequences (CFWS). Fitur utama pada algoritma ini terletak pada representasi dokumennya yang menggunakan kata-kata yang sering muncul secara berurutan pada setiap dokumen atau frequent word sequences. 1.2 Perumusan masalah Rumusan masalah dalam Tugas Akhir ini adalah : 1. Bagaimana mengelompokan dokumen berita menggunakan algoritma clustering based on frequent word sequences (CFWS) 1 Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2010 2. Bagaimana cara memastikan bahwa nama cluster yang dihasilkan mewakili isi berita, sehingga deskripsi cluster menjadi lebih mudah dimengerti bagi enduser. 1. 2. 3. 4. 1.3 Batasan masalah pada Tugas Akhir ini adalah : Tidak membahas masalah preprocessing data. Dokumen yang akan di clusterisasi sudah mengalami preprocessing. Data dokumen berita berbahasa indonesia yang digunakan adalah dokumen berita offline. Dataset yang digunakan adalah data yang telah berlabel. Mengubah dataset menjadi frequent 2-word sequences sebelum diubah ke frequent word sequences. Tujuan Tujuan Tugas Akhir ini adalah : 1. Membangun perangkat lunak yang dapat mengelompokan berita berbahasa Indonesia dengan menerapkan algoritma Clustering based on frequent word sequences (CFWS). 2. Melakukan analisis performansi sistem untuk mengetahui kualitas pengelompokan dengan menggunakan F-measure, purity, dan waktu. 1.4 Metodologi penyelesaian masalah Adapun metodologi yang digunakan dalam pembuatan Tugas Akhir ini adalah : 1. Studi Literatur Tahap ini mempelajari literatur-literatur baik berupa jurnal, text book dan artikel ilmiah maupun website yang berhubungan dengan text minning, document clustering, algoritma CFWS, generalized suffix tree, frequent word sequences, association rules, k-mismatch. Serta pengumpulan artikel berita berbahasa Indonesia yang akan digunakan sebagai data pada Tugas Akhir ini. 2. Analisis dan Perancangan Perangkat Lunak Pada tahap ini dilakukan analisis dan perancangan perangkat lunak dengan metode Unified Modeling Language (UML) 3. Implementasi dan Pengujian Perangkat Lunak Mengimplementasikan perancangan ke dalam pemograman komputer dengan menggunakan teknik pemograman berorientasi objek. Pengujian perangkat lunak dengan parameter minimum support, nilai k, dan nilai thershold untuk selanjutnya hasil cluster tersebut dianalisis dengan parameter F-measure. 4. Analisis Hasil Pengujian Melakukan analisis terhadap hasil dari klusterisasi dokumen dengan menganalisa hasil F-Measure, purity, dan waktu. Dari hasil tahap ini, ditarik kesimpulan dan diusulkan saran untuk pengembangan lebih lanjut. 2 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2010 5. 5.1 Kesimpulan dan Saran Kesimpulan 1. Hasil clustering sangat bergantung pada ketiga nilai parameter, yaitu minimum support, nilai k dan nilai threshold sehingga perlu dilakukan pemilihan ketiga nilai parameter tersebut secara tepat untuk mendapatkan hasil optimal. 2. Acuan pemilihan parameter yang tepat adalah Semakin kecil nilai minimum support mengakibatkan jumlah cluster banyak dan overlap, serta waktu eksekusi yang lama. Semakin besar nilai K mengakibatkan semua dokumen akan cendrung tergabung ke dalam satu cluster saja, dan Nilai threshold mempengaruhi hasil cluster akhir yakni penggabungan cluster. Semakin besar nilai threshod maka tidak ada cluster yang di gabung. 3. Penamaan cluster label algoritma CFWS diambil dari kata terurut pada isi dokumen sehingga kemungkinan besar label cluster mewakili isi berita. 4. Algoritma CFWS memungkinkan terjadinya overlapping pada hasil cluster-nya sehingga satu dokumen terdapat lebih dari satu cluster. Overlapping tersebut membuat nilai f-measure menurun, nilai purity naik dan waktu eksekusi yang lama. 5. F-measure dan purity masih belum bisa menilai keseluruhan evaluasi cluster algoritma CFWS ini. 5.2 Saran 1. Diperlukan teknik dalam mengolah data yang besar dalam menemukan frequent 2-word sequences. 2. Diperlukan penelitian lebih lanjut dalam penentuan minimum support yang tepat agar kualitas cluster yang dihasilkan baik dan waktu yang dibutuhkan dalam pembangunan cluster lebih cepat. 32 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2010 Referensi [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] Adiwijaya, Igg, Ph.D. 2006. Text Mining dan Knowledge Discovery. Kolokium Bersama Komunitas Data Mining Indonesia & Soft-Computing Indonesia. Ahonen-Myka, Helena. 2005. Mining All Maximal Frequent Word Sequences in a Set of Sentences. ACM Beil, Florian dkk. 2002. Frequent Term-based Text Clustering. www.cs.sfu.ca/~ester/papers/KDD02.Clustering.final.pdf [20 Mei 2008]. Jerman: Muenchen University. Duocet, Antonie. 2005. Advanced Document Description, a Sequential Approach. Academic Dissertation University of Helsinki. Een-Zohar, Yair.2002. Introduction to Text Mining. Automated Learning Group, University of Illinois. Fung, Benjamin C.M, Ke Wang dan Martin Ester. 2002. Hierarchical Document Clustering. www.cs.sfu.ca/~ester/papers/Encyclopedia.pdf [5 Maret 2008]. Canada: Simon Fraser University. Gusfield, Dan. 1997. Algorithms on Strings, Trees and Sequences; Computer Science and Computational Biology. Cambridge, UK: Cambridge University Press. Hotho, Andreas dan Gerd Stumme. 2003. Conceptual Clustering of Text Clusters. http://www.aifb.unikarlsruhe.de/WBS/aho/pub/tc_fca_2002_sub mit.pdf [24 April 2008]. Jerman : Institute of Applied Informatics an and Formal Description Methods AIFB, University of Karlsruhe. Huang, Shen, Gui-Rong Xue, Ben-Yu Zhang, Zheng Chen, Yong Yu, Wei-Ying Ma.2005. Multi-Type Features based Web Document Clustering. Shanghai Jiao Tong University. Jaillet,S., A.Laurent, M.Teisseire. 2004. Sequential Patterns for Text Categorization. In LIRMM-CNRS-Universite Montpellier. Li, Yanjun, Soon M. Chung, John D. Holt. 2005. Text Document Clustering Based on Frequent Word Meaning Sequences. Data & Knowledge Engineering 64 (2008) 381-404. Wibisono, Yudi dan Masayu Leyla Khodra. 2005. Klastering Berita Berbahasa Indonesia. http://fpmipa.upi.edu/staff/yudi/KNSI_Clustering_yudi_masayu.pdf [1 Mei 2008]. Bandung : Universitas Pendidikan Indonesia dan Institut Teknologi Bandung. Zamir, Oren, Oren Etzioni. 1998. Web Document Clustering: A Feasibility Demonstration. University of Washington. http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155870100. Diakses pada tanggal 27 Desember 2008. http://ilmukomputer.org/2008/11/25/pengantar-data-mining/. Diakses pada tanggal 8 Januari 2009. http://ridobelajar.files.wordpress.com/2008/09/contohapriori1.doc. 33 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika