Recall = R = tp/(tp+fn) Menurut Baeza-Yates dan Ribeiro-Neto (1999), algoritma temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada berbagai tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Perhitungan AVP dapat diformulasikan sebagai berikut: ̅( ) ∑ dokumen untuk selanjutnya digunakan dalam tahap ekspansi kueri. Penelitian ini menggunakan satu, dua dan tiga dokumen teratas untuk ekspansi kueri. korpus kueri Pemrosesan dokumen ( ) Temu-kembali dimana, ̅ ( )adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan Pi(r) adalah precision pada level recall r untuk kueri ke-i. Peringkat dokumen METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahap seperti yang diilustrasikan pada Gambar 1. Pemrosesan Dokumen Sebelum dilakukan proses temu-kembali, terlebih dahulu dilakukan pemrosesan dokumen yang meliputi stemming, eliminasi kata buangan dan pengindeksan menggunakan Sphinx search. Pada tahap ini koleksi dokumen yang berformat XML diindeks dengan file konfigurasi yang sesuai. Dalam penelitian ini digunakan dua koleksi dokumen yang memiliki struktur yang berbeda maka pengindeksan dilakukan terpisah. Pada koleksi dokumen (korpus) sebelumnya dilakukan tahap pembersihan data, yaitu memperbaiki penulisan kata dan tag. Hasil pengindeksan inilah yang digunakan pada tahap selanjutnya, yaitu tahap temukembali. Temu-kembali Pada tahap ini diterapkan proses temukembali informasi yang diimplementasikan menggunakan platform Sphinx Search. Hasil dari temu-kembali klasik yaitu berupa dokumen-dokumen yang sesuai dengan kueri yang diberikan. Pada tahap ini diambil top n tidak PRF ? Evaluasi ya top n documents Segmentasi Kalimat Formulasi kueri Hitung peluang kemunculan kata Gambar 1 Metodologi Penelitian Segmentasi Kalimat Pada tahap pemrosesan, dokumen dipilih menjadi unit-unit yang lebih kecil berupa kata, frasa atau kalimat. Unit terkecil hasil pemrosesan disebut token (Ridha, 2002). Pada penelitian ini dokumen dipisah menjadi unit-unit kecil yaitu kalimat yang terdiri atas 3 beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan diformulasikan digunakan dalam proses temu kembali selanjutnya. Pemrosesan teks yang dilakukan dalam penelitian ini dibagi dalam tiga tahap, yaitu: Pada proses evaluasi hasil temu-kembali dilakukan penilaian kinerja sistem dengan melakukan pengukuran recall-precision untuk menentukan tingkat keefektifan proses temu-kembali. Recall adalah rasio dokumen relevan yang ditemukembalikan dan precision adalah dokumen relevan yang ditemukembalikan. Average precision (AVP) dihitung berdasarkan 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (BaezaYates & Ribeiro-Neto 1999). ● Lexical analysis of the text atau tokenisasi, bertujuan untuk identifikasi kata dalam teks. Tokenisasi adalah proses yang mengubah sekumpulan karakter (teks dari dokumen) ke dalam sekumpulan kata (kandidat kata yang digunakan sebagai indeks istilah). ● Eliminasi kata buangan, hal tersebut bertujuan untuk meminimumkan kata yang digunakan sebagai istilah yang diindeks dalam proses temu-kembali. ● Pengindeksan teks dalam dokumen, bertujuan untuk menghitung frekuensi kata yang berada dalam sebuah dokumen. Pembobotan dalam tahap ini menggunakan pembobotan bolean. Peluang Kemunculan Kata Pada setiap kata dalam segmen kalimat yang sebelumnya telah diberi bobot, maka tahap selanjutnya yaitu dilakukan perhitungan peluang kemunculan kata menggunakan peluang bersyarat seperti berikut: ( | ) ( ) ( | ) ( ) ( | ) ∑ ( ) ̅ ( | ) ( ) Perhitungan peluang bersyarat ini menggunakan vektor kata terhadap kalimat untuk melihat peluang kemunculan suatu kata ketika diberikan suatu kueri. Kata diurutkan berdasarkan nilai peluang yang diperoleh. Proses pengurutan dilakukan dari nilai peluang terbesar sampai nilai peluang terkecil. Formulasi Kueri Formulasi kueri baru bertujuan untuk memperbaiki hasil temu-kembali, yaitu dapat menggeser dokumen relevan ke atas dan dokumen yang tidak relevan ke bawah. Kata dengan peluang tertinggi yang merupakan term dari n dokumen teratas, digunakan untuk merumuskan kueri baru yang diformulasikan sebagai berikut: dimana, adalah formulasi kueri baru, adalah formulasi kueri awal, dan adalah kueri dari perhitungan peluang kemunculan term pada kalimat. Kueri baru yang telah Evaluasi Hasil Temu-Kembali Lingkungan Implementasi Lingkungan implementasi digunakan adalah sebagai berikut : yang Perangkat lunak : Sistem operasi Windows 7 Ultimate sebagai sistem operasi. PHP sebagai bahasa pemrograman. SPHINX Search sebagai platform untuk pencarian berbasis teks. Wamp Server Apache version 2.2.11 sebagai web server. Notepad++, dan Microsoft Office 2010 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. Perangkat keras Processor Intel Core 2 Duo 1,66GHz RAM 2 GB Harddisk dengan kapasitas 120 GB HASIL DAN PEMBAHASAN Koleksi Dokumen Pengujian Penelitian ini menggunakan 1.000 dokumen pertanian yang ada di Laboratorium Temu Kembali dan 93 dokumen tanaman obat yang berasal dari Laboratorium Kecerdasan Komputasional Ilmu Komputer IPB. Deskripsi dari dokumen ini dapat dilihat pada Tabel 1. 4