Text Mining Tirto Pambuniarto [email protected] Abstrak Pesatnya Era informasi dimana kita sekarang jalani dicirikan dengan pertumbuhan data dan informasi yang banyak dan cepat yang dikumpulkan, disimpan, dan disediakan di media elektronik. Sebagian besar data bisnis disimpan dalam bentuk dokumen teks yang secara virtual sama sekali tidak terstruktur. Text mining adalah salah satu cara yang diharapkan dapat mengatasi permasalahan di atas. Dengan text mining, dapat dicari kata-kata yang dapat mewakili isi dari artikel, lalu ditentukan kategorinya berdasarkan frekuensi kata-kata yang terdapat di dalamnya. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Kata kunci : text-mining, data-mining, Naïve Bayes Classifier, NBC I. PENDAHULUAN Perkembangan teknologi dewasa ini telah mengalami peningkatan yang sangat pesat. Hal ini diiringi juga dengan semakin berkembangnya Teknologi Informasi yang dibutuhkan oleh pengguna sehingga mengakibatkan munculnya suatu cabang ilmu baru dalam teknologi informasi, yaitu pencarian informasi. Sebagian besar data bisnis disimpan dalam bentuk dokumen teks yang secara virtual sama sekali tidak terstruktur sehingga menyulitkan user untuk mencari data – data yang telah lama. terdapat beberapa tahapan-tahapan penting seperti misalnya, Parsing, Filtering, dan Stemming. a. Text Prepocessing Tindakan yang dilakukan pada tahap ini adalah toLowerCase, yaitu mengubah semua karakter huruf menjadi huruf kecil, dan Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat – kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda titik(.), koma(,), spasi dan karakter angka yang ada pada kata tersebut. b. Feature Selection Pada tahap ini tindakan yang dilakukan adalah menghilangkan stopword ( stopword removal ) dan stemming terhadap kata yang berimbuhan. Stopword adalah kosakata yang bukan merupakan ciri ( kata unik ) dari suatu dokumen. Misalnya “di”, “oleh”, “pada”, “sebuah”, “karena” dan lain sebagainya. Stemming adalah proses pemetaan dan penguraian berbagai bentuk (variants) dari suatu kata menjadi bentuk kata dasarnya (stem). Tujuan dari proses stemming adalah menghilangkan imbuhan-imbuhan baik itu berupa prefiks, sufiks, maupun konfiks yang ada pada setiap kata. 2. Word Cloud Word cloud (awan kata) adalah kumpulan kata-kata yang paling banyak muncul dalam data teks yang dianalisis. Kata-kata tersebut terkumpul seperti sebuah gumpalan awan yang berisi kata-kata sehingga disebut awan kata. Intensitas keseringan kata yang digunakan, ditunjukan dengan ukuran huruf pada kata. Semakin besar huruf dari kata yang terdapat di awan kata menunjukkan semakin sering kata tersebut muncul. Tampilan awan kata ini lebih menarik serta cepat untuk menemukan kata-kata yang sering muncul, akan tetapi Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur II. PEMBAHASAN Text Mining Kebanyakan fokus penelitian Data Mining sebelumnya terletak pada data-data yang sifatnya terstruktur, seperti relasional, transaksi dan data-data warehouse. Namun, pada kenyataannya, sebagian besar informasi yang tersedia, tersedia dalam bentuk teks database (database dokumen) yang terdiri dari koleksi besar dokumen dari berbagai sumber, seperti artikel berita, makalah penelitian, buku, perpustakaan digital, e-mail, dan halaman web. Sama halnya seperti Data Mining yang digunakan untuk mencari pola dari suatu data, Text Mining juga digunakan untuk mencari pola data yang berupa teks, walaupun keduanya terlihat sama, namun terdapat perbedaan nyata diantara keduanya. Data Mining lebih identik dengan proses ekstraksi dari data yang implicit, informasi yang sebelumnya tidak diketahui, sedangkan pada Text Mining, informasi yang akan diekstrak adalah jelas dan eksplisit dinyatakan dalam teks tersebut. Dalam Text Mining 1. awan kata memiliki kekurangan yaitu tidak dapat menunjukkan frekuensi kata-kata muncul dalam suatu teks yang dianalisis. 3. Algoritma Naive Bayes Classifer Algoritma naive bayes classifier merupakan algoritma yang digunakan untuk mencari nilai probabilitas tertinggi untuk mengklasifikasi data uji pada kategori yang paling tepat. Dalam penelitian ini yang menjadi data uji adalah dokumen berita. Ada dua tahap pada klasifikasi dokumen. Tahap pertama adalah pelatihan terhadap dokumen yang sudah diketahui kategorinya. Sedangkan tahap kedua adalah proses klasifikasi dokumen yang belum diketahui kategorinya. Implementasi Implementasi pada text mining, yaitu proses penambangan data berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen. Proses penambangan teks ini secara umum dilakukan dengan beberapa tahapan yaitu : 1. Tokenizing Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Berikut proses tokenizing atau pemotongan tiap kata 2. Filterring Tahap mengambil kata-kata penting dari hasil token. Biasanya menggunakan stop list (membuang kata-kata yang kurang penting) atau word list (menyimpan kata kata penting). 3. Stemming Tahap stemming adalah tahapan dimana mencari kata dasar dengan cara menghilangkan imbuhan awalan dan akhiran. [3] [4] [5] [6] [7] [8] [9] [10] [11] 4. III. KESIMPULAN Dari pembahasan diatas merupakan gabungan dari 3 jurnal yang dipakai sebagai referensi dan dari ulasan diatas dapat dimengerti bahwa ke-3 jurnal dijadikan satu pokok bahasan mengenai text mining. Dari ke-3 jurnal teresbut dapat disimpulkan bahwa text mining dapat mempermudah, lebih cepat dan tidak memerlukan banyak waktu dan mampu melakukan proses klasifikasi data berita secara otomatis. Jadi text mining dapat menjadi solusi untuk membuat sebuah sistem pencaian otomatis dimana memiliki tingkat akurat yang sangat baik. DAFTAR PUSTAKA* Minimal 3 daftar pustaka [1] [2] S. M. Metev and V. P. Veiko, Laser Assisted Microtechnology, 2nd ed., R. M. Osgood, Jr., Ed. Berlin, Germany: Springer-Verlag, 1998. J. Breckling, Ed., The Analysis of Directional Time Series: Applications to Wind Speed and Direction, ser. Lecture Notes in Statistics. Berlin, Germany: Springer, 1989, vol. 61. [12] S. Zhang, C. Zhu, J. K. O. Sin, and P. K. T. Mok, “A novel ultrathin elevated channel low-temperature poly-Si TFT,” IEEE Electron Device Lett., vol. 20, pp. 569–571, Nov. 1999. M. Wegmuller, J. P. von der Weid, P. Oberson, and N. Gisin, “High resolution fiber distributed measurements with coherent OFDR,” in Proc. ECOC’00, 2000, paper 11.3.4, p. 109. R. E. Sorace, V. S. Reinhardt, and S. A. Vaughn, “High-speed digitalto-RF converter,” U.S. Patent 5 668 842, Sept. 16, 1997. (2002) The IEEE website. [Online]. Available: http://www.ieee.org/ M. Shell. (2002) IEEEtran homepage on CTAN. [Online]. Available: http://www.ctan.org/texarchive/macros/latex/contrib/supported/IEEEtran/ FLEXChip Signal Processor (MC68175/D), Motorola, 1996. “PDCA12-70 data sheet,” Opto Speed SA, Mezzovico, Switzerland. A. Karnik, “Performance of TCP congestion control with rate feedback: TCP/ABR and rate adaptive TCP/IP,” M. Eng. thesis, Indian Institute of Science, Bangalore, India, Jan. 1999. J. Padhye, V. Firoiu, and D. Towsley, “A stochastic model of TCP Reno congestion avoidance and control,” Univ. of Massachusetts, Amherst, MA, CMPSCI Tech. Rep. 99-02, 1999. Wireless LAN Medium Access Control (MAC) and Physical Layer (PHY) Specification, IEEE Std. 802.11, 1997.