Preprocessing - Informatika Unsyiah

advertisement
Preprocessing
Dr. Taufik Fuadi Abidin, S.Si., M.Tech
Jurusan Informatika
FMIPA Universitas Syiah Kuala
www.informatika.unsyiah.ac.id/tfa
Text Preprocessing
Analisa Leksikal (Lexical Analysis)
Membaca karakter input dan menghasilkan output berupa
token (kata / term) dan membuang komentar, spasi, tab,
newline dan karakter-karakter lain yang ‘tak berguna’.
Membuang angka karena biasanya kurang bermakna dan
jarang di-indeks.
Membuang hyphens, state-of-the-art → state of the art
Bagaimana dengan B-1? Penghilangan hyphen menjadi B 1
(bermakna lain). Oleh karena itu harus dibuat aturan (rule)
kasus per kasus.
Text Preprocessing (Lanjutan)
Menghilangkan tanda baca
Seluruhnya: 10B.C → 10BC
val.id → valid (bermakna lain…?) Diperlukan adanya
daftar kata-kata pengecualian
Mengubah huruf besar dan kecil (case folding)
Penghilangan Stopwords
Stopword adalah kata-kata yang sering muncul dalam teks
tetapi tidak begitu bermakna. Contoh: ini, itu, dan, pun, lah,
yang, akan, bahwa, yaitu, oleh, karena, dan lain-lain
Text Preprocessing (Lanjutan)
Jumlahnya sekitar 300 sd 400 kata
Daftar stopword dapat ditentukan dengan mengekstrak katakata dalam corpus dan menghitung frekuensi kemunculan
kata tersebut dalam teks. Pada umumnya, kata-kata yang
tergolong stopword memiliki frekuensi yang tinggi
Penghilangan stopword dapat memperkecil ukuran indeks
lebih kurang 20 – 30 %
Stemming
Stemming adalah proses mengembalikan kata-kata menjadi
dalam bentuk kata dasar. Contoh: berlari -> lari, mengajarkan
-> ajar, keraguan -> ragu, dan lain-lain
Text Preprocessing (Lanjutan)
Stemming juga dapat memperkecil ukuran indeks dan kamus
(thesaurus) sd 40-50%
Meningkatkan relevancy dalam IR
Algoritma stemming dapat dibangun menggunakan aturan
(rule-based) dengan memperhatikan pola dalam awalan,
sisipan dan akhiran.
Jiwa Malem, Taufik Abidin, Perancangan Algoritma Stemming
untuk Bahasa Indonesia, SNETE 2011.
Text Preprocessing (Lanjutan)
Membangun Kamus (thesaurus)
Daftar kata-kata penting dari domain tertentu. Kamus dapat
juga berisi daftar kata-kata synonim.
Kata-kata dalam kamus dapat berupa single word (one-gram),
bi-grams dan three-grams.
Kamus dapat digunakan dalam membangun fitur untuk
merepresentasikan entity (dokumen, halaman web, abstrak,
paragraf)
Contoh dan Demo!
Contoh Alur Diagram Kajian
Cleaning /
Preprocessing
Kamus
Halaman
Web
Berkategori
(Lexicon)
Menentukan
Fitur Halaman Web
Data
Testing
Set
Data
Training
Set
Model
SVM
Bayesian
Hasil dan
Akurasi
KNN
Demo
Membangun Dataset (Crawling dari Web)
Atur direktori target (output)
Membersihkan data HTML hasil crawling
extractcontent.pl
Membangun kamus one-gram,
two-grams dan three-grams.
one-gram.pl, two-grams.pl
Questions &
Discussion
Download