745(5)

advertisement
PENGINDEKSAN
Pertemuan 5
Indeks
• Pengorganisasian berkas atau indeks digunakan
untuk meningkatkan unjuk kerja dari sistem
perolehan informasi
• Pengindeksan teks adalah proses yang
memutuskan apa yang akan digunakan untuk
merepresentasikan dokumen tertentu
• Indeks kata ini yang digunakan untuk
mengindeks dokumen
Pengindeksan Secara
Manual vs. Otomatis
• Pengindeksan secara manual (dilakukan oleh manusia)
• Pengindeks menentukan kata kunci yang diberikan
kepada suatu dokumen berdasarkan perbendaharaan
kata yang terkontrol (controlled vocabulary)
• Biaya maha
• Pengindeksan secara otomatis
• Program pengindeks menentukan kata atau frase
tertentu dari teks pada dokumen
• Prosesnya cepat
Tahapan Pengindeks
1. Lihat dokumen untuk mengenali
strukturnya Mis. Judul, tanggal, dll.
2. Tokenisasi
3. Pembuangan stopwords
4. Proses pemotongan imbuhan (stemming)
5. Pembobotan kata
6. Pembuatan indeks
Tahapan Pengindeksan :
Tokenisasi
• Hilangkan karakter yang tidak penting /
tanda-tanda(mis. HTML tags, tanda baca,
karakter khusus), huruf besar, nomor
Potong menjadi token
• Bahasa seperti non-latin perlu segmentasi
• Catat informasi posisi kata untuk operator
• proximity
Pembuangan Stopwords
• Semua kata yang termasuk dalam daftar
stopwords, yaitu daftar kata yg umum (kata yang
mempunyai fungsi tapi tidak mempunyai arti)
mis.: dan, atau, sebuah, yang
• Jumlahnya bisa ratusan kata
• Perhatikan kata yang menjadi bagian dari frase:
Yang Maha kuasa, vitamin A, gerbang dan-atau
(and-or gate) Berguna untuk menghemat
penyimpanan indeks (efisiensi)
Proses Pemotongan Imbuhan
(Stemming)
• Pemrosesan morfologi terhadap
sekelompok variasi kata: perubahan kata
berimbuhan menjadi kata dasar
• Misalnya: diberikan beri
• Bisa salah tetapi banyak digunakan pada
• IR system
Pembobotan Kata
• Kata yang penting seharusnya diberi
bobot yang lebih berat
• Menggunakan frekuensi dalam dokumen
dan koleksi
Efek Penggunaan Stemmer
• Apakah penggunaan Stemmer dapat meningkatkan
unjuk kerja dari sistem perolehan informasi?
• Hasil penelitian penggunaan stemmer sangat beragam
Ada yang dapat membantu meningkatkan jumlah
dokumen pada suatu koleksi tapi pada koleksi yang
lain dapat menurunkan jumlah dokumen yang diperoleh
• Kurang berguna untuk koleksi Web yang sangat besar
Stemmer untuk Bahasa Indonesia
• Imbuhan (afiks):
Prefiks / awalan (meng, di, ber, peng, ke, se, ter)
Mis. di + beri diberi
• Sufiks / akhiran (I, kan, an)
Mis. makan + an makanan
• Confiks / gabungan prefiks & sufiks (me-kan, ber-an)
Mis. meng + beli + kan membelikan
• Prefiks & Sufiks dapat ditambahkan pada kata yang
telah mempunyai prefiks atau confiks
Mis. mem + per + hati + kan memperhatikan
Stemmer untuk Bahasa Indonesia
Algoritma stemmer :
• Kata dasar
• Kata berakhiran – infleksional
• Kata berimbuhan
• Tidak ada
• Menggunakan kamus yang berisi daftar
kata dasar
Stemmer
untuk Bahasa Indonesia
Kata berakhiran – infleksional
• Akhiran ku, mu, nya harus mendahului kah, lah, tah
• Hasil : kata dasar atau kata berimbuhan
Kata berimbuhan
• Lihat apakah prefiks & sufiks sudah sesuai aturan
Mis. Prefiks ber tidak dapat digabung dengan sufiks i
Setelah dihilangkan konfiksnya, teliti apakah
fonemnya perlu diubah (mis. meng + ambil
mengambil ; meng + satukan menyatukan)
Stemmer untuk Bahasa Indonesia
Evaluasi:
• Dari 18,590 kata berimbuhan, 95 % bisa diperoleh kata
dasarnya dengan benar dan 5 %-nya diperoleh kata
yang salah
Kesalahan:
• Salah melakukan perubahan fonem
Mis: mengawani = meng + awan + i atau meng
+ kawan + i
• Mis-stemming (salah melakukan pemotongan
kata)Mis. berikan = beri + kan atau ber-ikan
Stemmer untuk Bahasa Indonesia
Understemming (kata terlalu sedikit yang
dipotong)
• Mis. beruangkah = beruang + kah atau
ber + uang +kah
Download