Preprocessing Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Text Preprocessing Analisa Leksikal (Lexical Analysis) Membaca karakter input dan menghasilkan output berupa token (kata / term) dan membuang komentar, spasi, tab, newline dan karakter-karakter lain yang ‘tak berguna’. Membuang angka karena biasanya kurang bermakna dan jarang di-indeks. Membuang hyphens, state-of-the-art → state of the art Bagaimana dengan B-1? Penghilangan hyphen menjadi B 1 (bermakna lain). Oleh karena itu harus dibuat aturan (rule) kasus per kasus. Text Preprocessing (Lanjutan) Menghilangkan tanda baca Seluruhnya: 10B.C → 10BC val.id → valid (bermakna lain…?) Diperlukan adanya daftar kata-kata pengecualian Mengubah huruf besar dan kecil (case folding) Penghilangan Stopwords Stopword adalah kata-kata yang sering muncul dalam teks tetapi tidak begitu bermakna. Contoh: ini, itu, dan, pun, lah, yang, akan, bahwa, yaitu, oleh, karena, dan lain-lain Text Preprocessing (Lanjutan) Jumlahnya sekitar 300 sd 400 kata Daftar stopword dapat ditentukan dengan mengekstrak katakata dalam corpus dan menghitung frekuensi kemunculan kata tersebut dalam teks. Pada umumnya, kata-kata yang tergolong stopword memiliki frekuensi yang tinggi Penghilangan stopword dapat memperkecil ukuran indeks lebih kurang 20 – 30 % Stemming Stemming adalah proses mengembalikan kata-kata menjadi dalam bentuk kata dasar. Contoh: berlari -> lari, mengajarkan -> ajar, keraguan -> ragu, dan lain-lain Text Preprocessing (Lanjutan) Stemming juga dapat memperkecil ukuran indeks dan kamus (thesaurus) sd 40-50% Meningkatkan relevancy dalam IR Algoritma stemming dapat dibangun menggunakan aturan (rule-based) dengan memperhatikan pola dalam awalan, sisipan dan akhiran. Jiwa Malem, Taufik Abidin, Perancangan Algoritma Stemming untuk Bahasa Indonesia, SNETE 2011. Text Preprocessing (Lanjutan) Membangun Kamus (thesaurus) Daftar kata-kata penting dari domain tertentu. Kamus dapat juga berisi daftar kata-kata synonim. Kata-kata dalam kamus dapat berupa single word (one-gram), bi-grams dan three-grams. Kamus dapat digunakan dalam membangun fitur untuk merepresentasikan entity (dokumen, halaman web, abstrak, paragraf) Contoh dan Demo! Contoh Alur Diagram Kajian Cleaning / Preprocessing Kamus Halaman Web Berkategori (Lexicon) Menentukan Fitur Halaman Web Data Testing Set Data Training Set Model SVM Bayesian Hasil dan Akurasi KNN Demo Membangun Dataset (Crawling dari Web) Atur direktori target (output) Membersihkan data HTML hasil crawling extractcontent.pl Membangun kamus one-gram, two-grams dan three-grams. one-gram.pl, two-grams.pl Questions & Discussion