Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H Preprocessing Text untuk Meminimalisir Kata yang Tidak Berarti dalam Proses Text Mining Aris Tri Jaka H. Program Studi Informatika, Fakultas TEKNIK, Universitas PGRI Semarang Gedung B Lantai 3, Kampus 1 Jl. Sidodadi Timur 24, Semarang E-mail : [email protected] Abstract—The growing world of information technology course, the growing impact of data outstanding and continues to grow significantly, and initial data processing or preprocessing text in text mining process is expected to reduce by eliminating the word - the word or text that are not necessary or do not have the meaning of text database or document. By decreasing the amount of text was expected to ease further processing in order to mine the information contained within the document - document or text - text in a miraculous process by applying existing methods to produce useful information from the text without reducing the sense or meaning and information contained in the document. Keyword : data, text mining, information, preprocessing Abstrak—Berkembangnya dunia teknologi informasi tentu saja membawa dampak semakin besarnya data yang beredar dan terus bertambah besar secara signifikan, dan pengolahan data awal atau preprocessing text dalam proses text mining di harapkan dapat mengurangi dengan menghilangkan kata – kata atau teks yang tidak perlu atau tidak mempunyai arti dari database teks atau dokumen. Dengan berkurangnya jumlah teks diharpakan dapat meringankan proses selanjutnya dalam rangka menambang informasi yang berada dalam dokumen – dokumen ataupun teks- teks yang di proses dengan menerapkan bebrapa metode yang ada untuk dapat menghasilkan informasi yang berguna dari teks tersebut tanpa mengurangi arti ataupun makna serta informasi yang dikandung dalam dokumen tersebut. Kata Kunci : data, text mining, informasi, preprocessing PENDAHULUAN Dengan perkembangan teknologi yang semakin besar maka kebutuhan akan penyajian informasi yang cepat dan akurat menjadi salah satu focus utama dalam penelitaian dan pengembangan guna memenuhi kebutuhan informasi yang semakin cepat dan akurat. Data Mining merupakan kompleks teknologi yang berakar pada berbagai disiplin ilmu: matematika, statistik, ilmu komputer, fisika, teknik, biologi, dll, dan dengan beragam aplikasi dalam berbagai macam domain yang berbeda: bisnis, kesehatan, sains dan teknik , dll Pada dasarnya, data mining dapat dilihat sebagai ilmu menjelajahi dataset besar untuk mengekstraksi informasi tersirat, yang sebelumnya tidak diketahui dan berpotensi berguna [1]. Sedangkan Text mining adalah salah satu penambangan informasi yang berguna dari data – data yang berupa tulisan, 1 dokumen atau text dalam bentuk klasifikasi maupun clustering. Text mining masih merupakan bagian dari data mining dimana akan memproses data – data atau text – text serta dokumen – dokumen yang bisa jadi dalam jumlah sangat besar. Untuk memproses data yang sangat besar tentulah akan memakan sumber daya yang tidak sedikit kaitanya dengan pengolahan data tersebut. Disinilah diperukanya sebuah pemrosesan awal atau preprocessing data text tersebut sebelum data tersebut di lakukan proses text mining sesuai algoritma yang akan diterapkan. Dengan text mining maka kita akan melakukan proses mencari atau penggalian informasi yang berguna dari data tekstual[2]. Ini juga merupakan salah satu kajian penelitian yang sangat menarik dan juga sangat berguna di kemudian hari dimana seperti mencoba untuk menemukan pengetahuan dari dokumen–dokumen atau teks - teks yang tidak terstruktur. Text mining sekarang juga memiliki peran yang semakin penting dalam negara berkembangaplikasi, seperti mengetahui isi dari teks secara langsung dari proses text mining tanpa perlu membaca satu persatu teks atau tulisan yang ada. Proses Text mining adalah sama dengan data mining, kecuali, beberapa metode dan data yang di kelola nya seperti data teks yang tidak terstruktur, terstruktur sebagian maupun terstruktur seperti teks email, teks HTML, maupun teks komentar serta dari berbagai sumber[3]. 2 Gambar. 1. Proses Teks Mining Untuk dapat melakukan penambangan informasi atau text mining maka perlu dilakukan beberapa tahapan yang harus dilakukan untuk mengolah sumber data baik yang terstruktur, terstuktur sebagian dan yang tidak terstruktur dari beberapa sumber maka data-data tersebut perlu dilakukan proses awal atau di sebut sebagai preprocessing text yang bermaksud mengolah data awal yang masih bermacam – macam untuk dijadikan sebuah data teratur yang dapat dikenai atau diterapkan beberapa metode text mining yang ada. PREPROCESSING TEXT Dalam penelitain ini di terapkan text preprocessing untuk data yang akan di gunakan dalam proses analisa sentimen, dimana data yang kita proses akan kita ambil informasi yang terkandung didalmnya dalam hal sentimen penulisnya yaitu negaitf atu positif. Guna memudahkan dalam mengelola data maka data perlu kita berikan analisa sentimen secara manual dengan membaca maksud dari kalimat yang ada dalam sentimen tersebut, sehingga dapat diberikan penilaian bahwa sentimen tersebut merupakan setimen negatif atau positif. Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H Transform Cases Raw Data Filter Stop Word Filter Tokenize Data Set Gambar 2. Alur preprocessing text Transform Cases Dengan fitur transform cases kita dapat secara otomatis mengubah semua huruf pada teks menjadi huruf kecil semua atau menjadi huruf kapital semua, pada penelitian ini semua huruf dirubah kedalam huruf kecil karena mayoritas teks berupa tulisan opini yang sebagian besar merupakan huruf kecil semua[4]. Filter Stop Word Dengan fitur ini maka teks sebelum di klasifikasikan di hilangkan dulu teks yang tidak berhubungan dengan analisa sentimen sehingga dimensi teks akan berkurang tanpa mengurangi isi sentimen dari teks tersebut[5]. Fiter stopword bahasa indonesia ini penulis ambil dari internet yang dibuat oleh Wang Pidong seorang Ph.D dari National University Singapore dengan penulis menambahkan beberapa kata yang memiliki arti sama dengan kata – kata yang sudah ada dalam daftar stopword tersebut. Filter Tokenize Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca serta memfilter berdasarkan panjang teks[6]. Untuk metode pengujian atau evaluasi dilakukan pengujian terhadap model-model yang diteliti untuk mendapatkan informasi model diusulkan. EXPERIMEN DAN PENGUJIAN Tools yang digunakan dalam experimen ini adalah Rapidminer [7]yang di update dengan penambahan plugin text processing yang telah memiliki fitur pemrosesan teks diataranya: Transform Cases Dengan fitur transform cases kita dapat secara otomatis mengubah semua huruf pada teks menjadi huruf kecil semua atau menjadi huruf kapital semua, pada penelitian ini semua huruf dirubah kedalam huruf kecil karena mayoritas teks berupa tulisan opini yang sebagian besar merupakan huruf kecil semua. Filter Stop Word (Indonesia) Dengan fitur ini maka teks sebelum di klasifikasikan di hilangkan dulu teks yang tidak berhubungan dengan analisa sentimen sehingga dimensi teks akan berkurang tanpa mengurangi isi sentimen dari teks tersebut. Fiter stopword bahasa indonesia ini penulis ambil dari internet yang dibuat oleh Wang Pidong seorang Ph.D dari National University Singapore dengan penulis menambahkan beberapa kata yang memiliki arti sama dengan kata – kata yang sudah ada dalam daftar stopword tersebut. Filter Tokenize Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca serta memfilter berdasarkan panjang teks. Untuk metode pengujian atau 3 evaluasi dilakukan pengujian terhadap model-model yang diteliti untuk mendapatkan informasi model diusulkan. Evaluasi dan validasi menggunakan metode sebagai berikut: Mengubah Teks Menjadi Matrix Untuk dapat diolah atau di proses maka data awal yang berupa kalimat setelah dilakukan pemrosesan awal data akan menjadi suatu atribut berupa teks, dan utnuk dapat diterpakan kedalam algoritma selanjutnya maka dibutuhkan adanya transformasi data dari teks kedalam sebuah matrix yang berisi numerik. Pada penelitian ini penulis menggunakan proses pembentukan vector kalimat dengan menggunakan TF-IDF (term frequency-inverse document frequency) Matrix yang dirumuskan sebagai berikut: TF-IDF = TF*IDF = TF*log(n/df) Dimana: tf = frekuensi teks df = frekuensi dokument n = jumlah dokumen contoh perhitungan matriks TF-IDF jika ada tabel atribut sebagai berikut : Tabel 1Tabel Atribut contoh Perhitungan TF-IDF Dok 1 Dok 2 Dok 3 df Aplikasi 6 0 7 2 Bagus 9 2 3 3 Buruk 10 4 0 2 Maka perhitungna matrix TF-IDF nya Tabel 2. Tabel Perhitungan TF-IDF Dok 1 Dok 2 Dok 3 Aplikasi 6*log(3/2) 0 7*log(3/2) Bagus 9*log(3/3) 2*log(3/3) 3*log(3/3) Buruk 10*log(3/2) 4*log(3/2) 0 Dan hasil matrix TF-IDF nya adalah sebagai berikut: Tabel 3.Tabel Matrix TF-IDF Dok 1 Dok 2 Dok 3 Aplikasi 1.06 0.00 1.23 Bagus 0.00 0.00 0.00 Buruk 1.76 0.70 0.00 HASIL DAN PEMBAHASAN Hasil Eksperimen Transform Cases Pada tahapan pemrosesan awal data dengan menggunakan transform case ini mengubah semua huruf kedalam huruf kecil semua, namun jika teks sudah dalam huruf kecil maka tidak di ubah. Dari dataset refiew aplikasi android berbahas indonesia ini ada beberapa teks atau huruf yang yang dirubah dari huruf besar kedalam huruf kecil seperti Tabel 4 berikut. Tabel 4.Trasform cases dari huruf besar ke huruf kecil Text Awal Ini aplikasi hlr lookup no tsb dikeluarkan didaerah mana. Tp kl misal no tsb dbawa ke luar daerah ttp ngga bs update alias ttp ngebaca daerah asal..totally useless! , yg komen jg sok tau ttg telekomunikasi modal ngenet, bocah jaman skr.. 4 Text Akhir ini aplikasi hlr lookup no tsb dikeluarkan didaerah mana. tp kl misal no tsb dbawa ke luar daerah ttp ngga bs update alias ttp ngebaca daerah asal..totally useless! , yg komen jg sok tau ttg telekomunikasi modal ngenet, bocah jaman skr.. Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H Proses tranform cases ini dilakukan pada seluruh data sentimen yang ada di folder dataset, baik sentimen positif maupun negatif. Jadi dihasilkan fitur atau kata – kata dalam format teks huruf kecil semua. Hasil Eksperimen Filter Tokens Pada tahapan ini menyeleksi fitur atau kata kata yang bukan merupakan kata, dalam hal ini peneliti mengambil menghilangkan semua tanda baca dan segala sesuatu yang bukan huruf jadi teks menjadi bersih dari tanda baca dan angka ataupun apapun yang bukan huruf. Juga dilakukan limitasi minimal huruf dan maksimal huruf yang terdapat dalam satu kata. Karena dalam sentimen berbahasa Indonesia ini peneliti memasukkan minimal satu huruf sudah dapat di anggap sebagai kata karena banyak review berbahasa Indonesia tidak menggunakan bahasa baku dan menggunakan bahasa alay atau bahasa gaul yang beberapa hanya terdiri satu huruf saja dalam tiap kata. Tabel 5. Proses Filter tokens Teks sebelum di tokenize Teks setelah di tokenize Buat pengguna multi operator sangat buat pengguna multi operator sangat berguna berguna. Tarif normal serta paket nelpon tiap tarif normal serta paket nelpon tiap operator operator tidaklah sama. Ada yang murah ke tidaklah sama ada yang murah ke sesama sesama operator saja. Ada yang murah walau operator saja ada yang murah walau beda beda operator, tetapi hanya nomor-nomor operator tetapi hanya nomor nomor lokal lokal saja. Ada yang sedikit lebih mahal, saja ada yang sedikit lebih mahal tetapi tetapi pukul rata untuk semua operator.! Dan pukul rata untuk semua operator dan lain lain lain-lain. Dengan mengetahui tempat asal dengan mengetahui tempat asal nomor nomor dikeluarkan, kita jadi bisa dikeluarkan kita jadi bisa menentukan menentukan sebaiknya pakai nomor yang sebaiknya pakai nomor yang mana buat mana buat menelpon..:D menelpon d Hasil Ekspeimen Filter Stopword Pada tahapan ini filter stopword berfungsi untuk mengurangi atau menghilangkan beberapa kata yang tidak memiliki hubungan terhadap sentimen, yaitu kata kata yang tidak berpengaruh terhadap hasil sentimen pada review tersebut.dari dataset awal yang berjumlah 2.000 file yang terdiri dari 1.000 sentimen positif dan 1.000 sentimen negatif di hasilkan atribut atau kata sebanyak 228 atribut, setelah di kurangi dengan stopword makan fitur yang perlu diperhitungkan maka tinggal 114 atribut. Hasil dari beberapa kata yang dihilangkan pada dataset ini adalah seperti pada Tabel 6 berikut: Tabel 6 Daftar kata yang dihilangkan dengan filter stopword No. Kata Nama Atribut 1 2 3 4 ada akan anak and ada akan anak and Jumlah Muncul 255 26 31 23 Jumlah Dokumen 227 26 28 20 Positif Negatif 110 19 31 18 145 7 0 5 5 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 6 ane apa atau awal baik banget banyak baru belum berita bintang bisa boleh bs buat close cukup cuma dalam dan dari dengan detik dgn di dibuka dong dr dulu for g ga gak gk gw hanya harus i iklan in indonesia ini ane apa atau awal baik banget banyak baru belum berita bintang bisa boleh bs buat close cukup cuma dalam dan dari dengan detik dgn di dibuka dong dr dulu for g ga gak gk gw hanya harus i iklan in indonesia ini 54 40 40 20 62 91 64 49 21 92 48 410 23 53 134 48 22 56 27 272 67 63 41 26 423 31 51 20 52 36 29 263 170 36 36 49 57 54 57 24 29 261 42 37 37 20 60 90 62 48 21 70 43 350 22 46 121 47 22 55 27 239 65 59 33 25 331 28 51 20 51 33 26 209 142 26 30 46 54 46 48 22 28 233 8 11 11 1 29 52 28 15 4 33 16 153 20 13 88 2 11 4 24 165 30 45 15 10 101 3 23 8 14 27 5 39 32 7 4 10 16 30 16 6 19 146 46 29 29 19 33 39 36 34 17 59 32 257 3 40 46 46 11 52 3 107 37 18 26 16 322 28 28 12 38 9 24 224 138 29 32 39 41 24 41 18 10 115 Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 it itu jadi jalan jangan jd jelas jg juga kalau kalo kan karena kata ke kecil keluar kenapa kita klo kok kompas kurang lagi lah lain lama langsung lbh lebih lg lokasi luar makin malah mana masa masih mau membantu mudah muncul it itu jadi jalan jangan jd jelas jg juga kalau kalo kan karena kata ke kecil keluar kenapa kita klo kok kompas kurang lagi lah lain lama langsung lbh lebih lg lokasi luar makin malah mana masa masih mau membantu mudah muncul 55 42 94 38 23 47 29 36 65 52 81 21 27 26 130 20 31 22 49 40 59 32 23 106 21 38 81 35 23 122 56 27 20 39 54 29 31 66 66 102 44 44 47 38 88 36 21 40 28 31 63 50 75 20 27 20 113 20 30 21 38 38 56 32 21 103 21 37 74 33 22 108 52 23 20 31 50 27 29 63 63 101 39 42 28 12 33 4 3 17 7 13 32 33 34 9 14 16 42 6 8 2 30 17 9 13 2 55 8 17 7 9 13 47 25 7 15 21 1 5 1 12 17 100 35 8 27 30 61 34 20 30 22 23 33 19 47 12 13 10 88 14 23 20 19 23 50 19 21 51 13 21 74 26 10 75 31 20 5 18 53 24 30 54 49 2 9 36 7 89 n 90 nggak 91 ni 92 no 93 nomor 94 not 95 nya 96 orang 97 pada 98 padahal 99 paling 100 perlu 101 saat 102 saja 103 sama 104 sangat 105 satu 106 saya 107 sebelumnya 108 sekali 109 sekarang 110 selalu 111 semua 112 seperti 113 sering 114 setelah 115 setiap 116 sudah 117 tambah 118 tapi 119 tau 120 tdk 121 terlalu 122 terus 123 tetep 124 the 125 this 126 tidak 127 to 128 tp 129 trus 130 udah 8 n nggak ni no nomor not nya orang pada padahal paling perlu saat saja sama sangat satu saya sebelumnya sekali sekarang selalu semua seperti sering setelah setiap sudah tambah tapi tau tdk terlalu terus tetep the this tidak to tp trus udah 34 23 29 32 40 32 210 30 24 35 25 37 37 38 58 241 30 167 28 62 31 42 38 27 50 60 28 47 24 100 25 39 23 79 21 47 38 102 45 56 33 74 32 21 27 22 27 31 175 27 22 35 25 36 34 35 54 218 28 140 27 60 31 40 37 26 48 60 26 44 24 97 24 34 23 79 21 36 34 94 37 54 31 69 23 4 9 4 19 2 93 21 10 3 16 20 24 8 16 203 14 98 2 38 8 19 20 14 11 8 15 23 19 21 10 7 3 44 3 27 23 30 22 14 12 21 11 19 20 28 21 30 117 9 14 32 9 17 13 30 42 38 16 69 26 24 23 23 18 13 39 52 13 24 5 79 15 32 20 35 18 20 15 72 23 42 21 53 Preprocessing Text untuk Meminimalisir Kata ... Aris Tri Jaka H 131 132 133 134 135 136 137 138 139 140 141 udh untuk up utk versi very waktu ya yang yg you udh untuk up utk versi very waktu ya yang yg you 20 121 31 63 73 26 45 92 196 355 28 KESIMPULAN DAN SARAN Dari prepossessing text maka banyak sekali di hasilkan beberapa pengurangan atau ringkasan terhadap berbagai kata yang tidak diperlukan untuk proses text mining selanjutnya, dalam penelitaian ini adalah untuk proses sentiment analisis. Dalam pemrosesan penghilangan atau peminimalisiran kata ini di perluakn beberapa tahapan diataranya penyesuaian jenis huruf (transform cases) penghilanagn tanda baca (filter tokenized) serta penghilangan stop word dalam bahasa Indonesia, dengan adanya proses preprosesing teks ini maka data yang banyak dan tidak terpakai akan tereliminasi terlebih dahulu sebelum dataset dikenakan metode penelusuran sentiment analisis yang ada. Saran untuk selanjutnya mungkin dapat di gunakan berbagai kombinasi penggurangan kata, maupun stopword dengan bahasa yang lain atau campuran, karena banyak kata kata bahasa asing atau bahasa gaul yang di gunakan. Sehingga jika semakin kompleks stopword yang digunakan diharapkan dapat menambah pengurangan kata yang tidak berarti tanpa mengurangi sentimen yang ada dalam kalimat atau kata tersebut. 20 112 30 48 65 24 42 89 161 287 28 [1] [2] [3] [4] [5] [6] [7] 3 75 17 43 18 19 33 35 115 184 24 17 46 14 20 55 7 12 57 81 171 4 DAFTAR PUSTAKA F. Gorunescu, Data Mining, vol. 12. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011. J. Han and M. Kamber, Data mining: concepts and techniques. 2006. S. Vijayarani, M. J. Ilamathi, and M. Nithya, “Preprocessing Techniques for Text Mining - An Overview,” vol. 5, no. 1, pp. 7–16. R. a Baeza-Yates, “Text retrieval: Theory and practice,” Proc. 12th {IFIP} World Comput. Congr., vol. I, no. JANUARY 1998, pp. 465–476, 1992. V. Srividhya and R. Anitha, “Evaluating preprocessing techniques in text categorization,” Int. J. Comput. Sci. Appl., no. 2010, pp. 49–51, 2010. S. Krishna and S. Bhavani, “An efficient approach for text clustering based on frequent itemsets,” Eur. J. Sci. …, vol. 42, no. 3, pp. 385–396, 2010. S. Land and S. Fischer, “RapidMiner 5,” docs.rapid-i.com. 9