analisis konteks lokal dilihat berdasarkan nilai recall dan precision. Manfaat Penelitian Penggunaan analisis konteks lokal sebagai salah metode ekspansi kueri diharapkan dapat meningkatkan hasil temu kembali dokumen relevan pada sistem temu kembali informasi. Penelitian juga diharapkan dapat menambah pustaka mengenai ekspansi kueri serta manfaat dari penggunaan metode analisis konteks lokal terutama untuk dokumen teks berbahasa Indonesia. Ekspansi Kueri Menurut Selberg (1997), ekspansi kueri (perluasan kueri) adalah teknik untuk memodifikasi kueri yang bertujuan memenuhi kebutuhan informasi. Modifikasi yang dilakukan pada umumnya berupa penambahan istilah ke dalam kueri, meskipun sebenarnya juga meliputi penyesuaian bobot dan penghapusan istilah kueri. Menurut Yousef et al. (2010), perluasan kueri bisa dilakukan dengan salah satu dari tiga metode berikut: 1 Pada metode ini, sistem tidak memberikan bantuan sama sekali kepada pengguna. Pengguna mengubah sendiri kueri secara manual ketika merasa tidak puas dengan hasil yang didapatkan. TINJAUAN PUSTAKA Temu Kembali Informasi Temu kembali informasi berkaitan dengan penyajian, penyimpanan, pengorganisasian, dan pengaksesan informasi. Tujuan utama dari sistem temu kembali informasi adalah mencari informasi berdasarkan kebutuhan pengguna yang diharapkan dapat memenuhi keinginan pengguna dengan mengembalikan informasi yang relevan dan sesedikit mungkin (atau tidak sama sekali) mengembalikan informasi yang tidak relevan dengan keinginan pengguna (Baeza-Yates & Ribeiro-Neto 1999). Sistem temu kembali informasi menjembatani kebutuhan informasi pengguna dengan sumber informasi, seperti yang dikemukakan Belkin et al. (1987) yaitu: 1 2 3 Manual Query Expansion (MQE) 2 Automatic Query Expansion (AQE) Pada metode ini, sistem menambahkan kata perluasan berdasarkan kata yang berhubungan dengan kueri. Modifikasi kueri dilakukan tanpa perlu kendali dari pengguna. Beberapa teknik yang digunakan antara lain: a Teknik yang menganalisis korpus untuk memeriksa kemunculan kata dan mendapatkan hubungan kata. GA memeriksa seluruh dokumen yang ada dalam koleksi untuk membangun struktur yang menyerupai thesaurus (pseudo-doc of concept). Perluasan kueri menggunakan istilah-istilah dalam thesaurus dengan melihat istilah yang berhubungan erat dengan semua istilah pada kueri dalam ruang lingkup koleksi. GA membutuhkan informasi kemunculan dari setiap pasangan kata pada koleksi yang merupakan tugas yang berat secara komputasi (Xu & Croft 1996). Seorang penulis merepresentasikan sekumpulan ide dalam sebuah dokumen menggunakan sekumpulan konsep. Terdapat beberapa pengguna yang memerlukan ide yang dikemukakan oleh penulis tersebut, tapi mereka tidak dapat mengidentifikasikan dan menemukan dengan baik. Sistem temu kembali informasi bertujuan untuk mempertemukan ide yang dikemukakan oleh penulis dalam dokumen dengan kebutuhan informasi pengguna yang dinyatakan dalam bentuk kueri. Kueri Kueri adalah pernyataan kebutuhan informasi pengguna dalam bentuk masukan berupa bahasa yang dikenali oleh sistem informasi. Jenis bahasa masukan sederhana yang paling banyak digunakan adalah kata kunci dan beberapa penghubung berupa ekspresi boolean (Baeza-Yates & Ribeiro-Neto 1999). Analisis Global (GA) b Analisis Lokal (LA) LA memperluas kueri berdasarkan informasi pada dokumen peringkat teratas yang ditemukembalikan menggunakan kueri awal. Metode ini mengasumsikan bahwa dokumendokumen teratas tersebut relevan untuk kemudian membangkitkan sebuah kueri baru (Xu & Croft 2000). 2 c Analisis Konteks Lokal (LCA) LCA merupakan sebuah teknik yang mengombinasikan kelebihan dari GA dan LA. Teknik GA yang digunakan adalah Phrasefinder, sedangkan LA adalah local feedback. LCA mengambil ide dari GA seperti penggunaan konteks dan konsep tetapi menerapkannya pada dokumen hasil temu kembali menggunakan LA (Xu & Croft 1996). 3 dengan peringkat teratas sebagai perluasan kueri (Xu & Croft 2000). Pada penerapannya LCA menggunakan passages (pecahan beberapa dokumen) bukan menggunakan dokumen, karena dokumen yang panjang biasanya mempunyai topik yang banyak (Xu & Croft 1996). Menurut Yousef et al. (2010) terdapat tiga tahapan pada LCA, yaitu: 1 Mendapatkan sebanyak n passages pada peringkat teratas menggunakan kueri awal dengan cara memecah dokumen ke dalam passages, kemudian passages diberi peringkat dengan cara yang sama ketika memberi peringkat pada dokumen (Analisis Lokal) 2 Selanjutnya konsep pada passages peringkat n teratas juga diberi peringkat (Analisis Global) menggunakan persamaan: Interactive Query Expansion (IQE) Pada IQE pengguna memilih sendiri kata-kata perluasan yang akan ditambahkan berdasarkan kata-kata yang dihasilkan oleh sistem. Ide dari IQE adalah bahwa pengguna lebih baik dalam memilih ekpansi term daripada sistem (Ruthven & Lalmas 2003). Analisis Konteks Lokal LCA merupakan kombinasi dari teknik global dan teknik lokal. Seperti halnya teknik global, LCA memilih kata yang akan ditambahkan berdasarkan kemunculan kata tersebut dengan keseluruhan term dari kueri. Seperti halnya teknik lokal, LCA memilih kata yang akan ditambahkan berasal dari dokumen peringkat teratas yang ditemukembalikan menggunakan kueri awal. Ide dasar dari GA adalah bahwa konteks global dari suatu konsep bisa digunakan untuk menentukan kemiripan antar-konsep. Konsep pada GA adalah semua kata pada koleksi kecuali stopword, sedangkan konteks dari suatu kata adalah semua kata yang muncul bersamaan di dokumen dengan kata itu. Dari konteks tersebut dapat dibuat suatu pseudo-doc untuk suatu konsep yang berisi term yang muncul dengan konsep dan jumlah kemunculan antara term dan konsep. Pseudo-doc ini yang digunakan untuk mendapatkan konsep yang tepat untuk dijadikan sebagai kueri perluasan. Namun, pembuatan pseudo-doc membutuhkan data untuk semua kemungkinan pasangan konsep dengan term di seluruh korpus dokumen, sehingga LCA menerapkannya pada LA dengan koleksi dokumen yang digunakan adalah dokumen yang telah ditemukembalikan pada pencarian dengan kueri awal (Xu & Croft 1996). LCA melakukan pemeringkatan terhadap konsep berdasarkan kemunculannya dengan semua term kueri pada beberapa dokumen peringkat teratas dan menggunakan konsep ( ) ( ∏( )) dengan ( ) ∑ ( ) (( ( ) m n( ) m n( ) n : banyaknya teratas Q : kueri c : konsep passages ) ) peringkat pfi,j : frekuensi kata ki pada passages j pfc,j : frekuensi konsep c pada passages j N : jumlah passages dalam koleksi npi : jumlah passages yang mengandung kata ki npc : jumlah passages yang mengandung konsep c : parameter konstan untuk menghindari bel(Q, c) yang bernilai nol. 3 3 Semua konsep pada peringkat m teratas berdasarkan bel(Q, c) ditambahkan pada kueri awal Q. Selanjutnya fungsi tersebut digunakan untuk menentukan kesamaan kueri Q dan dokumen Di dengan formula (Robertson et al. 2004): Passage ( Passage merupakan bagian yang lebih kecil dari suatu dokumen. Menurut Callan (1994), passage dapat dibagi dalam tiga kelas: 1 Discourse passage merupakan passage yang dibentuk berdasarkan bagian-bagian dari suatu dokumen, dapat berupa kalimat atau paragraf. Semantic passage merupakan passage yang dibentuk berdasarkan subjek atau konten dari dokumen. Windows passage merupakan passage yang dibentuk berdasarkan jumlah kata yang digunakan. 2 3 ) ∑ ( ) ( ) dengan (( N ) ( )) : banyaknya dokumen pada koleksi : jumlah dokumen yang mengandung term t : frekuensi term dokumen i kueri t pada Pembobotan BM25 : frekuensi term kueri t pada kueri Q Pembobotan BM25 merupakan pembobotan yang menggabungkan bobot idf dengan koleksi pengskalaan khusus untuk dokumen dan kueri. Pembobotan BM25 antara dokumen dan kueri yang diberikan terlihat pada persamaan berikut (Robertson et al. 1995): : panjang dokumen Di ( ( ) ) ( ) ( ( : rata-rata panjang dokumen dalam koleksi K : faktor normalisasi b : parameter-parameter pengskalaan terhadap tf term dalam dokumen dan panjang dokumen. ) ) Nilai parameter yang digunakan adalah dan b = 0,75 (Manning et al. 2008). dengan R : jumlah dokumen yang relevan dalam koleksi : jumlah dokumen relevan dalam koleksi yang mengandung istilah t : jumlah dokumen relevan dalam koleksi yang tidak mengandung istilah t : jumlah dokumen yang tidak relevan dalam koleksi yang mengandung istilah t : jumlah dokumen yang tidak relevan dalam koleksi yang tidak mengandung istilah t. Fungsi pembobotan tersebut diubah sehingga menjadi bobot inverse collection frequency tanpa informasi relevansi (R = r = 0) yang berfungsi seperti inverse document frequency: ( ) ( ) ( ) Evaluasi Sistem Temu Kembali Informasi Kemampuan sistem dalam menemukembalikan dokumen-dokumen yang relevan dan menahan dokumen yang tidak relevan dapat diukur dengan recall dan precision. Recall dan precision dapat dinyatakan sebagai berikut (Baeza-Yates & Ribeiro-Neto 1999): recision ecall dengan tp : banyaknya dokumen relevan yang ditemukembalikan fp : banyaknya dokumen tidak relevan yang ditemukembalikan fn : banyaknya dokumen relevan yang tidak ditemukembalikan tn : banyaknya dokumen tidak relevan yang tidak ditemukembalikan. 4