Model IR Vector Space TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 3 MODEL IR JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Konsep Boolean Model Konsep IR JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Konsep Boolean Model Pemodelan IR Model IR didefinisikan sebagai empat komponen, yaitu: D, F, Q, R(q, dj ) Keterangan: dengan D adalah kumpulan dokumen, Q adalah query, F menunjukkan pemodelan dokumen dan query, dan R(q, dj ) adalah fungsi peringkat yang dikaitkan dengan suatu fungsi R, dimana q ∈ Q dan dj ∈ D. JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Konsep Boolean Model Model IR JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Konsep Boolean Model Remember: Matrik Term-Document Matrik untuk mengabstraksikan inverted index: t1 w11 w12 w13 . . . w1N t2 w21 w22 w23 . . . w2N .. .. .. .. .. . . . . . . . . tT wT1 wT2 wT3 . . . wTN dengan wij adalah bobot term ke-i pada dokumen ke-j untuk i = 1, 2, . . . , T (term) dan j = 1, 2, . . . , N (dokumen). JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Konsep Boolean Model Standard Boolean Model Exact match, pencocokan secara tepat sama. Query berbentuk ekspresi boolean. Dokumen bisa cocok atau tidak cocok dengan query yang diberikan. Hasilnya berupa sekumpulan dokumen yang cocok. Tidak ada peringkat dokumen sesuai dengan query yang diberikan. —————– Bobot wtd ∈ {0, 1} Query q terdiri dari kata, frase, atau konsep yang dihubungkan dengan operator Boolean AND, OR, atau NOT. Contoh: q = [ta ∧ (tb ∨ ¬tc )] = ta AND (tb OR !tc ) JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Konsep Boolean Model Contoh: Korpus: d1 → And the angels, all pallid and wan, d2 → Uprising, unveiling, affirm d3 → That the play is the tragedy, ”Man” d4 → Angel and its hero the Conqueror Worm. Hasil tokenisasi: affirm angel conqueror hero man pallid play tragedy JULIO ADISANTOSO Departemen Ilmu Komputer IPB unveil uprise wan worm TEMU KEMBALI INFORMASI Model IR Vector Space Konsep Boolean Model Pembobotan Boolean Contoh query: hero AND (angel OR NOT man) Formulasi query: = [t4 ∧ {t2 ∨ ¬t5 }] = [(0101) ∧ {(1000) ∨ ¬(0010)}] = (0101) Hasil query (tidak ada urutan): d2 dan d4 JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Vector Space Model (VSM) Prinsip dasar: Dokumen sebagai vektor token Terdapat T kumpulan token Query sebagai dokumen kecil (sebagai juga vektor token) Kesamaan vektor dokumen dan query dihitung berdasarkan jarak atau kesamaan antar vektor Jadi, VSM adalah model berbasis token, yang memungkinkan partial matching dan pemeringkatan dokumen. Cenderung sebagai best matching. JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Metode Pembobotan Pertanyaannya, apa yang digunakan sebagai nilai elemen vektor dokumen d~j = (w1j , w2j , . . . , wTj )? VSM tidak memberikan ketentuan mengenai nilai yang digunakan sebagai elemen vektor (wij ). Nilai elemen vektor term ke-i pada dokumen ke-j (wij ) menunjukkan ukuran kepentingan term ke-i pada dokumen ke-j. Sering disebut sebagai metode pembobotan dalam IR. JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Metode Pembobotan Metode pembobotan melibatkan 3 komponen: 1 2 3 Lokal, menunjukkan bobot suatu term pada suatu dokumen. Tidak memperhatikan dokumen lainnya. Misalnya: TF. Global, menunjukkan bobot suatu term di seluruh dokumen dalam korpus. Misalnya: IDF. Normalisasi, menunjukkan apakah panjang vektor dinormalisasi atau tidak Bobot term ke-i pada dokumen ke-j (wij ) merupakan hasil kali ketiga komponen tersebut. Metode pembobotan yang melibatkan 3 komponen tersebut telah dibakukan dalam bentuk SMART Notation (Manning et.al 2009) JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan SMART Notation (Manning et.el 2009) Sebagai contoh, pembobotan TF.IDF dinotasikan sebagai pembobotan ”ntn”. Pembobotan TF dinotasikan sebagai pembobotan ”nnn”. JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Jarak 2 Vektor Jarak 2 vektor d~1 dan d~2 didefinisikan sebagai (Jarak Euclidean): r 0 p ~ ~ ~ ~ ~ ~ J(d1 , d2 ) = d1 − d2 d1 − d2 = (x1 − x2 )2 + (y1 − y2 )2 JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Ukuran Jarak Semakin besar nilai jarak 2 vektor dokumen, maka 2 dokumen tersebut dikatakan semakin tidak mirip. Sebaliknya, 2 dokumen dikatakan mirip jika memiliki jarak yang kecil. Dokumen dengan ukuran besar cenderung memiliki vektor yang panjang, sebaliknya dokumen dengan ukuran kecil cenderung memiliki vektor yang pendek. Kosekuensinya, walaupun dua vektor tersebut berdekatan, akan memiliki jarak yang cukup besar → missleading. Ukuran jarak tidak cocok digunakan untuk dokumen yang memiliki ukuran beragam → perlu normalisasi (jadikan sebagai vektor satuan), atau menggunakan ukuran kemiripan. JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Ukuran Kemiripan Cosine Ukuran kemiripan sebagai nilai Cosinus dari sudut θ. Perhatikan gambar samping: cos(θ) = cos(θ2 − θ1 ) = cos(θ1 )cos(θ2 ) + sin(θ1 )sin(θ2 ) 1 x2 +y1 y2 = kdx11 k kdx22 k + kdy11 k kdy22 k = xkd 1 kkd2 k = 0 d~1 d~2 kd1 kkd2 k → cosine similarity dengan p k d k adalah panjang vektor = ~d0~d JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Prosedur IR secara Umum JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Contoh SE dengan TF.IDF JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Contoh SE dengan TF.IDF Query diperlakukan sebagai sebuah dokumen kecil. Panjang vektor: k Q k= 0.912, k D1 k= 0.615, k D2 k= 0.748, k D3 k= 1.126, k D4 k= 1.385 Ukuran kesamaan Cosine sim(D1 , Q) = 0.189 sim(D2 , Q) = 0.023 sim(D3 , Q) = 0.000 sim(D4 , Q) = 0.730 Urutan hasil: D4 D1 D2 D3 JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Latihan Kelas 1 Diketahui dokumen: d1 : Shipment of gold damaged in a fire d2 : Delivery of silver arrived in a silver truck d3 : Shipment of gold arrived in a truck Query: gold silver truck Asumsi: N=1000 Bagaimana urutan hasil jika menggunakan pembobotan TF.IDF dengan ukuran kesamaan cosine? JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI Model IR Vector Space Vector Space Model Pembobotan Latihan Kelas 2 Diketahui corpus XML yang digunakan pada latihan kelas pertemuan sebelumnya. Dengan menggunakan R, lakukan hal-hal berikut: Buat matrik Term Document untuk semua term yang ada seperti sebelumnya, dan hitung nilai IDF setiap term. Buat matrik Term Document hanya untuk term yang memiliki nilai IDF ¿1.0 dan panjang kata [3,15], serta bobot elemen matrik menggunakan TF.IDF (ntn). JULIO ADISANTOSO Departemen Ilmu Komputer IPB TEMU KEMBALI INFORMASI