ekspansi kueri pada sistem temu kembali informasi

advertisement
analisis konteks lokal dilihat berdasarkan nilai
recall dan precision.
Manfaat Penelitian
Penggunaan analisis konteks lokal sebagai
salah metode ekspansi kueri diharapkan dapat
meningkatkan hasil temu kembali dokumen
relevan pada sistem temu kembali informasi.
Penelitian juga diharapkan dapat menambah
pustaka mengenai ekspansi kueri serta manfaat
dari penggunaan metode analisis konteks lokal
terutama untuk dokumen teks berbahasa
Indonesia.
Ekspansi Kueri
Menurut Selberg (1997), ekspansi kueri
(perluasan kueri) adalah teknik untuk
memodifikasi kueri yang bertujuan memenuhi
kebutuhan
informasi.
Modifikasi
yang
dilakukan pada umumnya berupa penambahan
istilah ke dalam kueri, meskipun sebenarnya
juga meliputi penyesuaian bobot dan
penghapusan istilah kueri.
Menurut Yousef et al. (2010), perluasan
kueri bisa dilakukan dengan salah satu dari tiga
metode berikut:
1
Pada metode ini, sistem tidak
memberikan bantuan sama sekali kepada
pengguna. Pengguna mengubah sendiri
kueri secara manual ketika merasa tidak
puas dengan hasil yang didapatkan.
TINJAUAN PUSTAKA
Temu Kembali Informasi
Temu kembali informasi berkaitan dengan
penyajian, penyimpanan, pengorganisasian, dan
pengaksesan informasi. Tujuan utama dari
sistem temu kembali informasi adalah mencari
informasi berdasarkan kebutuhan pengguna
yang diharapkan dapat memenuhi keinginan
pengguna dengan mengembalikan informasi
yang relevan dan sesedikit mungkin (atau tidak
sama sekali) mengembalikan informasi yang
tidak relevan dengan keinginan pengguna
(Baeza-Yates & Ribeiro-Neto 1999).
Sistem
temu
kembali
informasi
menjembatani kebutuhan informasi pengguna
dengan sumber informasi, seperti yang
dikemukakan Belkin et al. (1987) yaitu:
1
2
3
Manual Query Expansion (MQE)
2
Automatic Query Expansion (AQE)
Pada metode ini, sistem menambahkan
kata perluasan berdasarkan kata yang
berhubungan dengan kueri. Modifikasi
kueri dilakukan tanpa perlu kendali dari
pengguna.
Beberapa teknik yang digunakan antara
lain:
a
Teknik yang menganalisis korpus
untuk memeriksa kemunculan kata dan
mendapatkan hubungan kata. GA
memeriksa seluruh dokumen yang ada
dalam koleksi untuk membangun
struktur yang menyerupai thesaurus
(pseudo-doc of concept). Perluasan
kueri menggunakan istilah-istilah
dalam thesaurus dengan melihat istilah
yang berhubungan erat dengan semua
istilah pada kueri dalam ruang lingkup
koleksi. GA membutuhkan informasi
kemunculan dari setiap pasangan kata
pada koleksi yang merupakan tugas
yang berat secara komputasi (Xu &
Croft 1996).
Seorang
penulis
merepresentasikan
sekumpulan ide dalam sebuah dokumen
menggunakan sekumpulan konsep.
Terdapat
beberapa
pengguna
yang
memerlukan ide yang dikemukakan oleh
penulis tersebut, tapi mereka tidak dapat
mengidentifikasikan
dan
menemukan
dengan baik.
Sistem temu kembali informasi bertujuan
untuk
mempertemukan
ide
yang
dikemukakan oleh penulis dalam dokumen
dengan kebutuhan informasi pengguna
yang dinyatakan dalam bentuk kueri.
Kueri
Kueri
adalah
pernyataan
kebutuhan
informasi pengguna dalam bentuk masukan
berupa bahasa yang dikenali oleh sistem
informasi. Jenis bahasa masukan sederhana
yang paling banyak digunakan adalah kata
kunci dan beberapa penghubung berupa
ekspresi boolean (Baeza-Yates & Ribeiro-Neto
1999).
Analisis Global (GA)
b
Analisis Lokal (LA)
LA memperluas kueri berdasarkan
informasi pada dokumen peringkat
teratas
yang
ditemukembalikan
menggunakan kueri awal. Metode ini
mengasumsikan bahwa dokumendokumen teratas tersebut relevan untuk
kemudian membangkitkan sebuah
kueri baru (Xu & Croft 2000).
2
c
Analisis Konteks Lokal (LCA)
LCA merupakan sebuah teknik
yang mengombinasikan kelebihan dari
GA dan LA. Teknik GA yang
digunakan
adalah
Phrasefinder,
sedangkan LA adalah local feedback.
LCA mengambil ide dari GA seperti
penggunaan konteks dan konsep tetapi
menerapkannya pada dokumen hasil
temu kembali menggunakan LA (Xu &
Croft 1996).
3
dengan peringkat teratas sebagai perluasan
kueri (Xu & Croft 2000). Pada penerapannya
LCA
menggunakan
passages
(pecahan
beberapa dokumen) bukan menggunakan
dokumen, karena dokumen yang panjang
biasanya mempunyai topik yang banyak (Xu &
Croft 1996).
Menurut Yousef et al. (2010) terdapat tiga
tahapan pada LCA, yaitu:
1
Mendapatkan sebanyak n passages pada
peringkat teratas menggunakan kueri awal
dengan cara memecah dokumen ke dalam
passages, kemudian passages diberi
peringkat dengan cara yang sama ketika
memberi peringkat pada dokumen (Analisis
Lokal)
2
Selanjutnya
konsep
pada
passages
peringkat n teratas juga diberi peringkat
(Analisis Global) menggunakan persamaan:
Interactive Query Expansion (IQE)
Pada IQE pengguna memilih sendiri
kata-kata perluasan yang akan ditambahkan
berdasarkan kata-kata yang dihasilkan oleh
sistem. Ide dari IQE adalah bahwa
pengguna lebih baik dalam memilih
ekpansi term daripada sistem (Ruthven &
Lalmas 2003).
Analisis Konteks Lokal
LCA merupakan kombinasi dari teknik
global dan teknik lokal. Seperti halnya teknik
global, LCA memilih kata yang akan
ditambahkan berdasarkan kemunculan kata
tersebut dengan keseluruhan term dari kueri.
Seperti halnya teknik lokal, LCA memilih kata
yang akan ditambahkan berasal dari dokumen
peringkat teratas yang ditemukembalikan
menggunakan kueri awal.
Ide dasar dari GA adalah bahwa konteks
global dari suatu konsep bisa digunakan untuk
menentukan kemiripan antar-konsep. Konsep
pada GA adalah semua kata pada koleksi
kecuali stopword, sedangkan konteks dari suatu
kata adalah semua kata yang muncul bersamaan
di dokumen dengan kata itu. Dari konteks
tersebut dapat dibuat suatu pseudo-doc untuk
suatu konsep yang berisi term yang muncul
dengan konsep dan jumlah kemunculan antara
term dan konsep. Pseudo-doc ini yang
digunakan untuk mendapatkan konsep yang
tepat untuk dijadikan sebagai kueri perluasan.
Namun, pembuatan pseudo-doc membutuhkan
data untuk semua kemungkinan pasangan
konsep dengan term di seluruh korpus
dokumen, sehingga LCA menerapkannya pada
LA dengan koleksi dokumen yang digunakan
adalah dokumen yang telah ditemukembalikan
pada pencarian dengan kueri awal (Xu & Croft
1996).
LCA melakukan pemeringkatan terhadap
konsep berdasarkan kemunculannya dengan
semua term kueri pada beberapa dokumen
peringkat teratas dan menggunakan konsep
(
)
(
∏(
))
dengan
(
)
∑
(
)
((
(
)
m n(
)
m n(
)
n
: banyaknya
teratas
Q
: kueri
c
: konsep
passages
)
)
peringkat
pfi,j : frekuensi kata ki pada passages j
pfc,j : frekuensi konsep c pada passages j
N
: jumlah passages dalam koleksi
npi
: jumlah passages yang mengandung
kata ki
npc : jumlah passages yang mengandung
konsep c
: parameter
konstan
untuk
menghindari bel(Q, c) yang bernilai
nol.
3
3
Semua konsep pada peringkat m teratas
berdasarkan bel(Q, c) ditambahkan pada
kueri awal Q.
Selanjutnya fungsi tersebut digunakan untuk
menentukan kesamaan kueri Q dan dokumen Di
dengan formula (Robertson et al. 2004):
Passage
(
Passage merupakan bagian yang lebih kecil
dari suatu dokumen. Menurut Callan (1994),
passage dapat dibagi dalam tiga kelas:
1
Discourse passage merupakan passage
yang dibentuk berdasarkan bagian-bagian
dari suatu dokumen, dapat berupa kalimat
atau paragraf.
Semantic passage merupakan passage yang
dibentuk berdasarkan subjek atau konten
dari dokumen.
Windows passage merupakan passage
yang dibentuk berdasarkan jumlah kata
yang digunakan.
2
3
)
∑
( )
(
)
dengan
((
N
)
(
))
: banyaknya dokumen pada koleksi
: jumlah dokumen yang mengandung
term t
: frekuensi term
dokumen i
kueri
t
pada
Pembobotan BM25
: frekuensi term kueri t pada kueri Q
Pembobotan BM25 merupakan pembobotan
yang menggabungkan bobot idf dengan koleksi
pengskalaan khusus untuk dokumen dan kueri.
Pembobotan BM25 antara dokumen dan kueri
yang diberikan terlihat pada persamaan berikut
(Robertson et al. 1995):
: panjang dokumen Di
(
( )
) (
) (
(
: rata-rata panjang dokumen dalam
koleksi
K
: faktor normalisasi
b : parameter-parameter pengskalaan
terhadap tf term dalam dokumen
dan panjang dokumen.
)
)
Nilai parameter yang digunakan adalah
dan b = 0,75 (Manning et al. 2008).
dengan
R
: jumlah dokumen yang relevan
dalam koleksi
: jumlah dokumen relevan dalam
koleksi
yang
mengandung
istilah t
: jumlah dokumen relevan dalam
koleksi yang tidak mengandung
istilah t
: jumlah dokumen
yang tidak
relevan dalam koleksi yang
mengandung istilah t
: jumlah dokumen
yang tidak
relevan dalam koleksi yang
tidak mengandung istilah t.
Fungsi pembobotan tersebut diubah
sehingga menjadi bobot inverse collection
frequency tanpa informasi relevansi (R = r = 0)
yang berfungsi seperti inverse document
frequency:
( )
(
)
(
)
Evaluasi Sistem Temu Kembali Informasi
Kemampuan sistem dalam menemukembalikan dokumen-dokumen yang relevan
dan menahan dokumen yang tidak relevan dapat
diukur dengan recall dan precision. Recall dan
precision dapat dinyatakan sebagai berikut
(Baeza-Yates & Ribeiro-Neto 1999):
recision
ecall
dengan
tp
: banyaknya dokumen relevan yang
ditemukembalikan
fp
: banyaknya dokumen tidak relevan
yang ditemukembalikan
fn
: banyaknya dokumen relevan yang
tidak ditemukembalikan
tn
: banyaknya dokumen tidak relevan
yang tidak ditemukembalikan.
4
Download