PENGINDEKSAN Pertemuan 5 Indeks • Pengorganisasian berkas atau indeks digunakan untuk meningkatkan unjuk kerja dari sistem perolehan informasi • Pengindeksan teks adalah proses yang memutuskan apa yang akan digunakan untuk merepresentasikan dokumen tertentu • Indeks kata ini yang digunakan untuk mengindeks dokumen Pengindeksan Secara Manual vs. Otomatis • Pengindeksan secara manual (dilakukan oleh manusia) • Pengindeks menentukan kata kunci yang diberikan kepada suatu dokumen berdasarkan perbendaharaan kata yang terkontrol (controlled vocabulary) • Biaya maha • Pengindeksan secara otomatis • Program pengindeks menentukan kata atau frase tertentu dari teks pada dokumen • Prosesnya cepat Tahapan Pengindeks 1. Lihat dokumen untuk mengenali strukturnya Mis. Judul, tanggal, dll. 2. Tokenisasi 3. Pembuangan stopwords 4. Proses pemotongan imbuhan (stemming) 5. Pembobotan kata 6. Pembuatan indeks Tahapan Pengindeksan : Tokenisasi • Hilangkan karakter yang tidak penting / tanda-tanda(mis. HTML tags, tanda baca, karakter khusus), huruf besar, nomor Potong menjadi token • Bahasa seperti non-latin perlu segmentasi • Catat informasi posisi kata untuk operator • proximity Pembuangan Stopwords • Semua kata yang termasuk dalam daftar stopwords, yaitu daftar kata yg umum (kata yang mempunyai fungsi tapi tidak mempunyai arti) mis.: dan, atau, sebuah, yang • Jumlahnya bisa ratusan kata • Perhatikan kata yang menjadi bagian dari frase: Yang Maha kuasa, vitamin A, gerbang dan-atau (and-or gate) Berguna untuk menghemat penyimpanan indeks (efisiensi) Proses Pemotongan Imbuhan (Stemming) • Pemrosesan morfologi terhadap sekelompok variasi kata: perubahan kata berimbuhan menjadi kata dasar • Misalnya: diberikan beri • Bisa salah tetapi banyak digunakan pada • IR system Pembobotan Kata • Kata yang penting seharusnya diberi bobot yang lebih berat • Menggunakan frekuensi dalam dokumen dan koleksi Efek Penggunaan Stemmer • Apakah penggunaan Stemmer dapat meningkatkan unjuk kerja dari sistem perolehan informasi? • Hasil penelitian penggunaan stemmer sangat beragam Ada yang dapat membantu meningkatkan jumlah dokumen pada suatu koleksi tapi pada koleksi yang lain dapat menurunkan jumlah dokumen yang diperoleh • Kurang berguna untuk koleksi Web yang sangat besar Stemmer untuk Bahasa Indonesia • Imbuhan (afiks): Prefiks / awalan (meng, di, ber, peng, ke, se, ter) Mis. di + beri diberi • Sufiks / akhiran (I, kan, an) Mis. makan + an makanan • Confiks / gabungan prefiks & sufiks (me-kan, ber-an) Mis. meng + beli + kan membelikan • Prefiks & Sufiks dapat ditambahkan pada kata yang telah mempunyai prefiks atau confiks Mis. mem + per + hati + kan memperhatikan Stemmer untuk Bahasa Indonesia Algoritma stemmer : • Kata dasar • Kata berakhiran – infleksional • Kata berimbuhan • Tidak ada • Menggunakan kamus yang berisi daftar kata dasar Stemmer untuk Bahasa Indonesia Kata berakhiran – infleksional • Akhiran ku, mu, nya harus mendahului kah, lah, tah • Hasil : kata dasar atau kata berimbuhan Kata berimbuhan • Lihat apakah prefiks & sufiks sudah sesuai aturan Mis. Prefiks ber tidak dapat digabung dengan sufiks i Setelah dihilangkan konfiksnya, teliti apakah fonemnya perlu diubah (mis. meng + ambil mengambil ; meng + satukan menyatukan) Stemmer untuk Bahasa Indonesia Evaluasi: • Dari 18,590 kata berimbuhan, 95 % bisa diperoleh kata dasarnya dengan benar dan 5 %-nya diperoleh kata yang salah Kesalahan: • Salah melakukan perubahan fonem Mis: mengawani = meng + awan + i atau meng + kawan + i • Mis-stemming (salah melakukan pemotongan kata)Mis. berikan = beri + kan atau ber-ikan Stemmer untuk Bahasa Indonesia Understemming (kata terlalu sedikit yang dipotong) • Mis. beruangkah = beruang + kah atau ber + uang +kah