Slide TBI - Hirup Motekar

advertisement
Latent Semantic Indexing
Anggota
•
•
•
•
•
•
•
Bayu Andrianto = 14.11.0021
Syaeful Hidayat = 14.11.0025
Muhammad Faiz Noeris = 14.11.0027
Rifdhotul Alfiansyah = 14.11.0033
Maskur Al’asad = 14.11.0035
Yogi Hendra Gunawan = 14.11.0032
Yosua Sandi Garsa = 14.11.0034
Latent semantic indexing (LSI) adalah teknik pencarian informasi berdasarkan analisis spektral matriks kata-dokumen, yang keberhasilan empirisnya sebelumnya tidak memiliki predik
Latent Semantic Indexing
Latent Semantic Indexing adalah sebuah metode baru dalam algoritma search engine
yang sedang dikembangkan Google Corporation. Dengan metode ini, Google
menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan
kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada
algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci
juga dicari.
Tujuan
Mendapatkan suatu pemodelan yang efektif untuk merepresentasikan
hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata
kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekunpulan objek
yang berhubungan.
Alur Proses Latent Semantic Indexing
Alur Proses Latent Semantic Indexing
Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu,
koleksi dokumen.
Pada proses sebelah kiri:
•
•
•
•
query diproses melalui operasi teks.
•
Selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam
collection index.
•
Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi
ditampilkan ke pengguna.
kemudian vektor query dibentuk.
Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector).
Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi
teks pada koleksi dokumen, kemudian matriks kata-dokumen (terms-documents matrix) dibentuk.
Text Operations pada Query dan Document
Collection.
Query dari pengguna dan koleksi dokumen dikenakan proses text operations.
Proses text operations meliputi,
i. mem-parsing setiap kata dari koleksi dokumen,
ii. membuang kata-kata yang merupakan stop words,
iii. mem-stemming kata-kata yang ada untuk proses selanjutnya.
Matrix Creation.
Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses
matrix creation. Proses matrix creation meliputi,
i. menghitung frekuensi kemunculan dari kata,
ii. membangun matriks kata-dokumen seperti dilustrasikan pada gambar II.4.
Baris matriks menunjukkan kata dan kolom matriks menunjukkan
dokumen. Sebagai contoh, elemen matriks pada baris ke-1 dan kolom ke-2
menunjukkan frekuensi kemunculan kata ke-1 pada dokumen ke-2.
SVD Decomposition.
i.
Matriks kata-dokumen yang terbentuk, A berukuran m x n , selanjutnya
dikenakan dekomposisi SVD (singular value decomposition). Hasil SVD berupa
3 (tiga) buah matriks seperti yang dilustrasikan pada gambar III.6. Matriks
A dapat ditulis menjadi A= USVT .
ii. Untuk mempermudah penjelasan, misalkan u1 , u2 , …. , uk adalah vektorvektor kolom dari matriks U ,
utama dari matriks S , dan
matriks V , sehingga dapat ditulis
adalah entryentry di diagonal
adalah vektor-vektor kolom dari
SVD Decomposition.
iii. Rank dari matriks A , k adalah banyaknya entry tak nol yang terletak pada
diagonal utama matriks S , yaitu
nilai singular dari A .
juga merupakan banyaknya
iv. Dari k buah nilai singular dari A, dipilih r buah nilai singular yang terbesar,
yaitu
dengan r < k.
v. Diperoleh hasil perkalian baru yaitu :
Query Vector Creation.
Vektor query, q dibentuk seperti membangun sebuah kolom dari matriks katadokumen. Contoh vektor query, q adalah
Dengan qj, j = 1, 2, ....., m adalah frekuensi kemunculan kata Tj pada Query.
Query Vector Mapping.
Point (3)(v) di atas telah memberikan nilai r yang merupakan dimensi dari ruang
vektor hasil perkalian baru. Selanjutnya, vektor query, q dipetakan ke dalam
ruang vektor berdimensi r menjadi Q (subbab III.30), yaitu
Ranking
Kolom-kolom pada matriks
pada point (3)(v) adalah vektor-vektor
dokumen yang digunakan dalam menghitung sudut antara vekor dokumen dan
vektor query.
Ranking dari dokumen relevan ditentukan oleh besar sudut yang dibentuk oleh
vektor query dan vektor dokumen. Semakin kecil sudut yang dibentuk, semakin
relevan query dengan dokumen.
Misalkan matriks Vr ditulis
Hasil akhir
Perhitungan cosinus sudut antara query, Q dan dokumen Dj , j = 1, 2, ....... , n
diperoleh dan diurutkan berdasarkan dari yang paling besar sampai yang
terkecil. Nilai cosinus sudut yang terbesar menunjukkan dokumen yang paling
relevan dengan query.
Download