Pseudo-Relevance feedback pada temu-kembali

advertisement
Recall = R = tp/(tp+fn)
Menurut Baeza-Yates dan Ribeiro-Neto
(1999), algoritma temu-kembali yang
dievaluasi menggunakan beberapa kueri
berbeda akan menghasilkan nilai R-P yang
berbeda untuk masing-masing kueri. Average
Precision
(AVP)
diperlukan
untuk
menghitung rata-rata tingkat precision pada
berbagai tingkat recall, yaitu 0.0, 0.1, 0.2,
0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0.
Perhitungan AVP dapat diformulasikan
sebagai berikut:
̅( )
∑
dokumen untuk selanjutnya digunakan dalam
tahap ekspansi kueri. Penelitian ini
menggunakan satu, dua dan tiga dokumen
teratas untuk ekspansi kueri.
korpus
kueri
Pemrosesan
dokumen
( )
Temu-kembali
dimana, ̅ ( )adalah AVP pada level recall r,
Nq adalah jumlah kueri yang digunakan, dan
Pi(r) adalah precision pada level recall r
untuk kueri ke-i.
Peringkat
dokumen
METODE PENELITIAN
Penelitian ini dilaksanakan dalam
beberapa tahap seperti yang diilustrasikan
pada Gambar 1.
Pemrosesan Dokumen
Sebelum dilakukan proses temu-kembali,
terlebih dahulu dilakukan pemrosesan
dokumen yang meliputi stemming, eliminasi
kata
buangan
dan
pengindeksan
menggunakan Sphinx search. Pada tahap ini
koleksi dokumen yang berformat XML
diindeks dengan file konfigurasi yang sesuai.
Dalam penelitian ini digunakan dua koleksi
dokumen yang memiliki struktur yang
berbeda maka pengindeksan dilakukan
terpisah. Pada koleksi dokumen (korpus)
sebelumnya dilakukan tahap pembersihan
data, yaitu memperbaiki penulisan kata dan
tag.
Hasil pengindeksan inilah yang digunakan
pada tahap selanjutnya, yaitu tahap temukembali.
Temu-kembali
Pada tahap ini diterapkan proses temukembali informasi yang diimplementasikan
menggunakan platform Sphinx Search. Hasil
dari temu-kembali klasik yaitu berupa
dokumen-dokumen yang sesuai dengan kueri
yang diberikan. Pada tahap ini diambil top n
tidak
PRF
?
Evaluasi
ya
top n
documents
Segmentasi
Kalimat
Formulasi
kueri
Hitung
peluang
kemunculan
kata
Gambar 1 Metodologi Penelitian
Segmentasi Kalimat
Pada tahap pemrosesan, dokumen dipilih
menjadi unit-unit yang lebih kecil berupa
kata, frasa atau kalimat. Unit terkecil hasil
pemrosesan disebut token (Ridha, 2002).
Pada penelitian ini dokumen dipisah menjadi
unit-unit kecil yaitu kalimat yang terdiri atas
3
beberapa kata. Menurut Baeza-Yates dan
Ribeiro-Neto (1999), tidak semua kata dapat
digunakan untuk merepresentasikan sebuah
dokumen secara signifikan
diformulasikan digunakan dalam proses temu
kembali selanjutnya.
Pemrosesan teks yang dilakukan dalam
penelitian ini dibagi dalam tiga tahap, yaitu:
Pada proses evaluasi hasil temu-kembali
dilakukan penilaian kinerja sistem dengan
melakukan pengukuran
recall-precision
untuk menentukan tingkat keefektifan proses
temu-kembali. Recall adalah rasio dokumen
relevan
yang
ditemukembalikan
dan
precision adalah dokumen relevan yang
ditemukembalikan. Average precision (AVP)
dihitung berdasarkan 11 standard recall
levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%,
60%, 70%, 80%, 90%, 100% dengan
menggunakan interpolasi maksimum (BaezaYates & Ribeiro-Neto 1999).
● Lexical analysis of the text atau tokenisasi,
bertujuan untuk identifikasi kata dalam
teks. Tokenisasi adalah proses yang
mengubah sekumpulan karakter (teks dari
dokumen) ke dalam sekumpulan kata
(kandidat kata yang digunakan sebagai
indeks istilah).
● Eliminasi kata buangan, hal tersebut
bertujuan untuk meminimumkan kata
yang digunakan sebagai istilah yang
diindeks dalam proses temu-kembali.
● Pengindeksan teks dalam dokumen,
bertujuan untuk menghitung frekuensi
kata yang berada dalam sebuah dokumen.
Pembobotan
dalam
tahap
ini
menggunakan pembobotan bolean.
Peluang Kemunculan Kata
Pada setiap kata dalam segmen kalimat
yang sebelumnya telah diberi bobot, maka
tahap selanjutnya yaitu dilakukan perhitungan
peluang kemunculan kata menggunakan
peluang bersyarat seperti berikut:
( | ) ( )
( | ) ( )
( | )
∑
( )
̅ ( | ) ( )
Perhitungan
peluang
bersyarat
ini
menggunakan vektor kata terhadap kalimat
untuk melihat peluang kemunculan suatu kata
ketika diberikan suatu kueri. Kata diurutkan
berdasarkan nilai peluang yang diperoleh.
Proses pengurutan dilakukan dari nilai
peluang terbesar sampai nilai peluang
terkecil.
Formulasi Kueri
Formulasi kueri baru bertujuan untuk
memperbaiki hasil temu-kembali, yaitu dapat
menggeser dokumen relevan ke atas dan
dokumen yang tidak relevan ke bawah. Kata
dengan peluang tertinggi yang merupakan
term dari n dokumen teratas, digunakan untuk
merumuskan kueri baru yang diformulasikan
sebagai berikut:
dimana,
adalah formulasi kueri baru,
adalah formulasi kueri awal, dan
adalah
kueri dari perhitungan peluang kemunculan
term pada kalimat. Kueri baru yang telah
Evaluasi Hasil Temu-Kembali
Lingkungan Implementasi
Lingkungan
implementasi
digunakan adalah sebagai berikut :
yang
Perangkat lunak :
 Sistem operasi Windows 7 Ultimate
sebagai sistem operasi.
 PHP sebagai bahasa pemrograman.
 SPHINX Search sebagai platform untuk
pencarian berbasis teks.
 Wamp Server Apache version 2.2.11
sebagai web server.
 Notepad++, dan
 Microsoft Office 2010 sebagai aplikasi
yang digunakan untuk melakukan
perhitungan dalam evaluasi sistem.
Perangkat keras
 Processor Intel Core 2 Duo 1,66GHz
 RAM 2 GB
 Harddisk dengan kapasitas 120 GB
HASIL DAN PEMBAHASAN
Koleksi Dokumen Pengujian
Penelitian ini menggunakan 1.000
dokumen pertanian yang ada di Laboratorium
Temu Kembali dan 93 dokumen tanaman
obat yang berasal dari Laboratorium
Kecerdasan Komputasional Ilmu Komputer
IPB. Deskripsi dari dokumen ini dapat dilihat
pada Tabel 1.
4
Download