pengelompokan berita berbahasa indonesia menggunakan

advertisement
Tugas Akhir - 2010
PENGELOMPOKAN BERITA BERBAHASA INDONESIA MENGGUNAKAN
ALGORITMA CLUSTERING BASED ON FREQUENT WORD SEQUENCES (CFWS)
Corry Monesty A¹, Yanuar Firdaus A.w.², Warih Maharani³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik menggunakan
representasi single-word item, merepresentasikan dokumen teks sebagai “bag of words” dimana
suatu dokumen dipandang sebagai sekumpulan kata-kata. Dalam representasi ini tidak ada
urutan antar kata maupun kalimat yang diperhatikan karena setiap kata dianggap berdiri sendiri
tanpa ada keterhubungan satu sama lain sehingga tidak tepatnya dalam pelabelan hasil cluster.
Permasalahan-permasalahan diatas bisa ditangani dengan menggunakan Clustering Based On
Frequent Word Sequences (CFWS). Data berdimensi tinggi dapat diatasi dengan mereduksi termterm yang tidak frequent. Pelabelan cluster dilakukan dengan cara menelusuri “word sequences”
di tiap dokumen.
Hasil klasterisasi dengan algoritma ini divisualisasikan secara hirarki dalam bentuk tree.
Berdasarkan pengujian, klaster yang dihasilkan oleh algoritma CFWS ini memiliki kualitas
deskripsi klaster mewakili isi berita.
Kata Kunci : clustering, frequent word sequences, CFWS, F-Measure, purity.
Abstract
Currently being developed clustering techniques, such as techniques using single-word
representation of items, representing a text document as a "bag of words" in which a document is
seen as a set of words. In this representation there is no order between words or sentences are
considered because each word is considered stand alone without any connection to one another so
not exactly in the cluster labeling results.
The above problems can be handled using Clustering Based On Frequent Word Sequences
(CFWS). High dimensional data can be addressed by reducing the terms that are not
frequent.Labeling of clusters was done by tracing "word sequences" in each document.
The result of this clustering algorithm is visualized in the form of a hierarchical tree. According
to the experiments, clusters generated by the algorithm CFWS has represented cluster
description quality news content.
Keywords : clustering, frequent word sequences, CFWS, F-Measure, purity.
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
1.
1.1
Pendahuluan
Latar belakang
Pada zaman sekarang ini, volume jumlah dokumen teks melalui media digital
makin berkembang pesat, pengelompokan dokumen teks secara otomatis menjadi
suatu bidang penelitian yang sangat diminati. Dalam keilmuan ini terdapat dua
pendekatan yang berkembang yaitu supervised dan unsupervised classification.
Pada supervised classification atau sering disebut kategorisasi, dimana dokumen
teks sudah terdefinisi sebelumnya. Sedangkan pada unsupervised classification
atau clustering, dokumen akan dikelompokan menjadi clusters dimana dokumen
teks yang memiliki banyak persamaan akan berada dalam satu cluster dan
dokumen yang memiliki banyak perbedaan akan berada dalam cluster yang
berbeda. Pengelompokan dokumen teks dengan metode clustering ini biasa
disebut dengan document clustering.
Saat ini telah banyak dikembangkan teknik klasterisasi, misalnya teknik
menggunakan representasi vektor disebut vector space model sebagian besar dari
metode ini merepresentasikan dokumen teks sebagai “bag of words” dimana suatu
dokumen dipandang sebagai sekumpulan kata-kata [5]. Dalam representasi ini
tidak ada urutan antar kata maupun kalimat yang diperhatikan karena setiap kata
dianggap berdiri sendiri tanpa ada keterhubungan satu sama lain. Masalah utama
clustering menggunakan vector space model adalah tidak tepatnya dalam
pelabelan hasil cluster. Representasi dengan bag of words ini disebut juga dengan
representasi dengan single-word terms [4].
Selain representasi dengan single-word terms, ada representasi lain yang
disebut multi-word terms [9]. Dalam representasi multi-word terms ini setiap
dokumen teks akan dipandang sebagai kumpulan frase atau rangkaian kata yang
memperhitungkan urutan kemunculan kata atau biasa disebut dengan sequence of
words [10]. Representasi ini dianggap dapat menangkap makna semantik dari
kata-kata dalam dokumen teks yang lebih baik [4]. Dengan memiliki arti semantik
yang tetap terjaga maka informasi yang terkandung dalam dokumen akan lebih
mudah didapatkan [13], informasi yang didapatkan tersebut akan dibuat sebagai
label pada hasil cluster. Salah atu alternatif metode clustering yang dapat
digunakan dengan memanfaatkan multi-word terms berupa sequences of words
adalah sequence of words adalah Clustering Based On Frequent Word Sequences
(CFWS). Fitur utama pada algoritma ini terletak pada representasi dokumennya
yang menggunakan kata-kata yang sering muncul secara berurutan pada setiap
dokumen atau frequent word sequences.
1.2
Perumusan masalah
Rumusan masalah dalam Tugas Akhir ini adalah :
1. Bagaimana mengelompokan dokumen berita menggunakan algoritma
clustering based on frequent word sequences (CFWS)
1
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
2. Bagaimana cara memastikan bahwa nama cluster yang dihasilkan
mewakili isi berita, sehingga deskripsi cluster menjadi lebih mudah
dimengerti bagi enduser.
1.
2.
3.
4.
1.3
Batasan masalah pada Tugas Akhir ini adalah :
Tidak membahas masalah preprocessing data. Dokumen yang akan di
clusterisasi sudah mengalami preprocessing.
Data dokumen berita berbahasa indonesia yang digunakan adalah
dokumen berita offline.
Dataset yang digunakan adalah data yang telah berlabel.
Mengubah dataset menjadi frequent 2-word sequences sebelum diubah ke
frequent word sequences.
Tujuan
Tujuan Tugas Akhir ini adalah :
1. Membangun perangkat lunak yang dapat mengelompokan berita berbahasa
Indonesia dengan menerapkan algoritma Clustering based on frequent
word sequences (CFWS).
2. Melakukan analisis performansi sistem untuk mengetahui kualitas
pengelompokan dengan menggunakan F-measure, purity, dan waktu.
1.4
Metodologi penyelesaian masalah
Adapun metodologi yang digunakan dalam pembuatan Tugas Akhir ini adalah :
1. Studi Literatur
Tahap ini mempelajari literatur-literatur baik berupa jurnal, text book dan
artikel ilmiah maupun website yang berhubungan dengan text minning,
document clustering, algoritma CFWS, generalized suffix tree, frequent
word sequences, association rules, k-mismatch. Serta pengumpulan artikel
berita berbahasa Indonesia yang akan digunakan sebagai data pada Tugas
Akhir ini.
2. Analisis dan Perancangan Perangkat Lunak
Pada tahap ini dilakukan analisis dan perancangan perangkat lunak dengan
metode Unified Modeling Language (UML)
3. Implementasi dan Pengujian Perangkat Lunak
Mengimplementasikan perancangan ke dalam pemograman komputer
dengan menggunakan teknik pemograman berorientasi objek. Pengujian
perangkat lunak dengan parameter minimum support, nilai k, dan nilai
thershold untuk selanjutnya hasil cluster tersebut dianalisis dengan
parameter F-measure.
4. Analisis Hasil Pengujian
Melakukan analisis terhadap hasil dari klusterisasi dokumen dengan
menganalisa hasil F-Measure, purity, dan waktu. Dari hasil tahap ini,
ditarik kesimpulan dan diusulkan saran untuk pengembangan lebih lanjut.
2
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
5.
5.1
Kesimpulan dan Saran
Kesimpulan
1. Hasil clustering sangat bergantung pada ketiga nilai parameter, yaitu
minimum support, nilai k dan nilai threshold sehingga perlu dilakukan
pemilihan ketiga nilai parameter tersebut secara tepat untuk mendapatkan
hasil optimal.
2. Acuan pemilihan parameter yang tepat adalah Semakin kecil nilai
minimum support mengakibatkan jumlah cluster banyak dan overlap, serta
waktu eksekusi yang lama. Semakin besar nilai K mengakibatkan semua
dokumen akan cendrung tergabung ke dalam satu cluster saja, dan Nilai
threshold mempengaruhi hasil cluster akhir yakni penggabungan cluster.
Semakin besar nilai threshod maka tidak ada cluster yang di gabung.
3. Penamaan cluster label algoritma CFWS diambil dari kata terurut pada isi
dokumen sehingga kemungkinan besar label cluster mewakili isi berita.
4. Algoritma CFWS memungkinkan terjadinya overlapping pada hasil
cluster-nya sehingga satu dokumen terdapat lebih dari satu cluster.
Overlapping tersebut membuat nilai f-measure menurun, nilai purity naik
dan waktu eksekusi yang lama.
5. F-measure dan purity masih belum bisa menilai keseluruhan evaluasi
cluster algoritma CFWS ini.
5.2
Saran
1. Diperlukan teknik dalam mengolah data yang besar dalam menemukan
frequent 2-word sequences.
2. Diperlukan penelitian lebih lanjut dalam penentuan minimum support yang
tepat agar kualitas cluster yang dihasilkan baik dan waktu yang dibutuhkan
dalam pembangunan cluster lebih cepat.
32
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
Referensi
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
Adiwijaya, Igg, Ph.D. 2006. Text Mining dan Knowledge Discovery.
Kolokium Bersama Komunitas Data Mining Indonesia & Soft-Computing
Indonesia.
Ahonen-Myka, Helena. 2005. Mining All Maximal Frequent Word
Sequences in a Set of Sentences. ACM
Beil, Florian dkk. 2002. Frequent
Term-based Text Clustering.
www.cs.sfu.ca/~ester/papers/KDD02.Clustering.final.pdf [20 Mei 2008].
Jerman: Muenchen University.
Duocet, Antonie. 2005. Advanced Document Description, a Sequential
Approach. Academic Dissertation University of Helsinki.
Een-Zohar, Yair.2002. Introduction to Text Mining. Automated Learning
Group, University of Illinois.
Fung, Benjamin C.M, Ke Wang dan Martin Ester. 2002. Hierarchical
Document
Clustering. www.cs.sfu.ca/~ester/papers/Encyclopedia.pdf
[5 Maret 2008]. Canada: Simon Fraser University.
Gusfield, Dan. 1997. Algorithms on Strings, Trees and Sequences;
Computer Science and Computational Biology. Cambridge, UK:
Cambridge University Press.
Hotho, Andreas dan Gerd Stumme. 2003. Conceptual Clustering of Text
Clusters. http://www.aifb.unikarlsruhe.de/WBS/aho/pub/tc_fca_2002_sub
mit.pdf [24 April 2008]. Jerman : Institute of Applied
Informatics an
and Formal Description Methods AIFB, University of Karlsruhe.
Huang, Shen, Gui-Rong Xue, Ben-Yu Zhang, Zheng Chen, Yong Yu,
Wei-Ying Ma.2005. Multi-Type Features based Web Document
Clustering. Shanghai Jiao Tong University.
Jaillet,S., A.Laurent, M.Teisseire. 2004. Sequential Patterns for Text
Categorization. In LIRMM-CNRS-Universite Montpellier.
Li, Yanjun, Soon M. Chung, John D. Holt. 2005. Text Document
Clustering Based on Frequent Word Meaning Sequences. Data &
Knowledge Engineering 64 (2008) 381-404.
Wibisono, Yudi dan Masayu Leyla Khodra. 2005. Klastering Berita
Berbahasa
Indonesia.
http://fpmipa.upi.edu/staff/yudi/KNSI_Clustering_yudi_masayu.pdf
[1 Mei 2008]. Bandung : Universitas Pendidikan Indonesia dan
Institut
Teknologi
Bandung.
Zamir, Oren, Oren Etzioni. 1998. Web Document Clustering: A Feasibility
Demonstration. University of Washington.
http://datamining.japati.net/cgi-bin/indodm.cgi?bacaarsip&1155870100.
Diakses pada tanggal 27 Desember 2008.
http://ilmukomputer.org/2008/11/25/pengantar-data-mining/. Diakses
pada tanggal 8 Januari 2009.
http://ridobelajar.files.wordpress.com/2008/09/contohapriori1.doc.
33
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Download