Text Mining_Tirto

advertisement
Text Mining
Tirto Pambuniarto
[email protected]
Abstrak
Pesatnya Era informasi dimana kita sekarang jalani dicirikan dengan pertumbuhan data
dan informasi yang banyak dan cepat yang dikumpulkan, disimpan, dan disediakan di
media elektronik. Sebagian besar data bisnis disimpan dalam bentuk dokumen teks yang
secara virtual sama sekali tidak terstruktur. Text mining adalah salah satu cara yang
diharapkan dapat mengatasi permasalahan di atas. Dengan text mining, dapat dicari
kata-kata yang dapat mewakili isi dari artikel, lalu ditentukan kategorinya berdasarkan
frekuensi kata-kata yang terdapat di dalamnya. Tujuan dari text mining adalah untuk
mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data
yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang
tidak terstruktur atau minimal semi terstruktur.
Kata kunci : text-mining, data-mining, Naïve Bayes Classifier, NBC
I. PENDAHULUAN
Perkembangan teknologi dewasa ini telah mengalami
peningkatan yang sangat pesat. Hal ini diiringi juga dengan
semakin berkembangnya Teknologi Informasi yang
dibutuhkan oleh pengguna sehingga mengakibatkan
munculnya suatu cabang ilmu baru dalam teknologi
informasi, yaitu pencarian informasi.
Sebagian besar data bisnis disimpan dalam bentuk
dokumen teks yang secara virtual sama sekali tidak
terstruktur sehingga menyulitkan user untuk mencari data –
data yang telah lama.
terdapat beberapa tahapan-tahapan penting seperti misalnya,
Parsing, Filtering, dan Stemming.
a.
Text Prepocessing
Tindakan yang dilakukan pada tahap ini adalah
toLowerCase, yaitu mengubah semua karakter huruf
menjadi huruf kecil, dan Tokenizing yaitu proses
penguraian deskripsi yang semula berupa kalimat –
kalimat menjadi kata-kata dan menghilangkan
delimiter-delimiter seperti tanda titik(.), koma(,), spasi
dan karakter angka yang ada pada kata tersebut.
b.
Feature Selection
Pada tahap ini tindakan yang dilakukan adalah
menghilangkan stopword ( stopword removal ) dan
stemming terhadap kata yang berimbuhan.
Stopword adalah kosakata yang bukan merupakan
ciri ( kata unik ) dari suatu dokumen. Misalnya “di”,
“oleh”, “pada”, “sebuah”, “karena” dan lain
sebagainya.
Stemming adalah proses pemetaan dan penguraian
berbagai bentuk (variants) dari suatu kata menjadi
bentuk kata dasarnya (stem). Tujuan dari proses
stemming adalah menghilangkan imbuhan-imbuhan
baik itu berupa prefiks, sufiks, maupun konfiks yang
ada pada setiap kata.
2.
Word Cloud
Word cloud (awan kata) adalah kumpulan kata-kata
yang paling banyak muncul dalam data teks yang
dianalisis. Kata-kata tersebut terkumpul seperti sebuah
gumpalan awan yang berisi kata-kata sehingga disebut
awan kata. Intensitas keseringan kata yang digunakan,
ditunjukan dengan ukuran huruf pada kata. Semakin
besar huruf dari kata yang terdapat di awan kata
menunjukkan semakin sering kata tersebut muncul.
Tampilan awan kata ini lebih menarik serta cepat untuk
menemukan kata-kata yang sering muncul, akan tetapi
Tujuan dari text mining adalah untuk mendapatkan
informasi yang berguna dari sekumpulan dokumen. Jadi,
sumber data yang digunakan pada text mining adalah
kumpulan teks yang memiliki format yang tidak terstruktur
atau minimal semi terstruktur
II. PEMBAHASAN
Text Mining
Kebanyakan fokus penelitian Data Mining sebelumnya
terletak pada data-data yang sifatnya terstruktur, seperti
relasional, transaksi dan data-data warehouse. Namun, pada
kenyataannya, sebagian besar informasi yang tersedia,
tersedia dalam bentuk teks database (database dokumen)
yang terdiri dari koleksi besar dokumen dari berbagai
sumber, seperti artikel berita, makalah penelitian, buku,
perpustakaan digital, e-mail, dan halaman web. Sama
halnya seperti Data Mining yang digunakan untuk mencari
pola dari suatu data, Text Mining juga digunakan untuk
mencari pola data yang berupa teks, walaupun keduanya
terlihat sama, namun terdapat perbedaan nyata diantara
keduanya. Data Mining lebih identik dengan proses
ekstraksi dari data yang implicit, informasi yang
sebelumnya tidak diketahui, sedangkan pada Text Mining,
informasi yang akan diekstrak adalah jelas dan eksplisit
dinyatakan dalam teks tersebut. Dalam Text Mining
1.
awan kata memiliki kekurangan yaitu tidak dapat
menunjukkan frekuensi kata-kata muncul dalam suatu
teks yang dianalisis.
3.
Algoritma Naive Bayes Classifer
Algoritma naive bayes classifier merupakan algoritma
yang digunakan untuk mencari nilai probabilitas tertinggi
untuk mengklasifikasi data uji pada kategori yang paling
tepat. Dalam penelitian ini yang menjadi data uji adalah
dokumen berita. Ada dua tahap pada klasifikasi dokumen.
Tahap pertama adalah pelatihan terhadap dokumen yang
sudah diketahui kategorinya. Sedangkan tahap kedua
adalah proses klasifikasi dokumen yang belum diketahui
kategorinya.
Implementasi
Implementasi pada text mining, yaitu proses
penambangan data berupa teks dimana sumber data
biasanya didapatkan dari dokumen, dan tujuannya adalah
mencari kata-kata yang dapat mewakili isi dari dokumen
sehingga dapat dilakukan analisa keterhubungan antar
dokumen. Proses penambangan teks ini secara umum
dilakukan dengan beberapa tahapan yaitu :
1. Tokenizing
Tahap tokenizing adalah tahap pemotongan string
input berdasarkan tiap kata yang menyusunnya. Berikut
proses tokenizing atau pemotongan tiap kata
2. Filterring
Tahap mengambil kata-kata penting dari hasil token.
Biasanya menggunakan stop list (membuang kata-kata
yang kurang penting) atau word list (menyimpan kata kata penting).
3. Stemming
Tahap stemming adalah tahapan dimana mencari kata
dasar dengan cara menghilangkan imbuhan awalan dan
akhiran.
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
4.
III. KESIMPULAN
Dari pembahasan diatas merupakan gabungan dari 3 jurnal
yang dipakai sebagai referensi dan dari ulasan diatas dapat
dimengerti bahwa ke-3 jurnal dijadikan satu pokok bahasan
mengenai text mining.
Dari ke-3 jurnal teresbut dapat disimpulkan bahwa text
mining dapat mempermudah, lebih cepat dan tidak
memerlukan banyak waktu dan mampu melakukan proses
klasifikasi data berita secara otomatis. Jadi text mining dapat
menjadi solusi untuk membuat sebuah sistem pencaian
otomatis dimana memiliki tingkat akurat yang sangat baik.
DAFTAR PUSTAKA*
Minimal 3 daftar pustaka
[1]
[2]
S. M. Metev and V. P. Veiko, Laser Assisted Microtechnology, 2nd ed.,
R. M. Osgood, Jr., Ed. Berlin, Germany: Springer-Verlag, 1998.
J. Breckling, Ed., The Analysis of Directional Time Series:
Applications to Wind Speed and Direction, ser. Lecture Notes in
Statistics. Berlin, Germany: Springer, 1989, vol. 61.
[12]
S. Zhang, C. Zhu, J. K. O. Sin, and P. K. T. Mok, “A novel ultrathin
elevated channel low-temperature poly-Si TFT,” IEEE Electron Device
Lett., vol. 20, pp. 569–571, Nov. 1999.
M. Wegmuller, J. P. von der Weid, P. Oberson, and N. Gisin, “High
resolution fiber distributed measurements with coherent OFDR,” in
Proc. ECOC’00, 2000, paper 11.3.4, p. 109.
R. E. Sorace, V. S. Reinhardt, and S. A. Vaughn, “High-speed digitalto-RF converter,” U.S. Patent 5 668 842, Sept. 16, 1997.
(2002) The IEEE website. [Online]. Available: http://www.ieee.org/
M. Shell. (2002) IEEEtran homepage on CTAN. [Online]. Available:
http://www.ctan.org/texarchive/macros/latex/contrib/supported/IEEEtran/
FLEXChip Signal Processor (MC68175/D), Motorola, 1996.
“PDCA12-70 data sheet,” Opto Speed SA, Mezzovico, Switzerland.
A. Karnik, “Performance of TCP congestion control with rate feedback:
TCP/ABR and rate adaptive TCP/IP,” M. Eng. thesis, Indian Institute
of Science, Bangalore, India, Jan. 1999.
J. Padhye, V. Firoiu, and D. Towsley, “A stochastic model of TCP
Reno congestion avoidance and control,” Univ. of Massachusetts,
Amherst, MA, CMPSCI Tech. Rep. 99-02, 1999.
Wireless LAN Medium Access Control (MAC) and Physical Layer
(PHY) Specification, IEEE Std. 802.11, 1997.
Download