Latent Semantic Indexing Anggota • • • • • • • Bayu Andrianto = 14.11.0021 Syaeful Hidayat = 14.11.0025 Muhammad Faiz Noeris = 14.11.0027 Rifdhotul Alfiansyah = 14.11.0033 Maskur Al’asad = 14.11.0035 Yogi Hendra Gunawan = 14.11.0032 Yosua Sandi Garsa = 14.11.0034 Latent semantic indexing (LSI) adalah teknik pencarian informasi berdasarkan analisis spektral matriks kata-dokumen, yang keberhasilan empirisnya sebelumnya tidak memiliki predik Latent Semantic Indexing Latent Semantic Indexing adalah sebuah metode baru dalam algoritma search engine yang sedang dikembangkan Google Corporation. Dengan metode ini, Google menganalisis kata kunci dengan cara baru, bukan lagi berdasarkan pencocokkan kata secara leksikal. Kata yang dicari tidak hanya kata kuncinya saja seperti pada algoritma pada umumnya, tetapi kata-kata yang berhubungan dengan kata kunci juga dicari. Tujuan Mendapatkan suatu pemodelan yang efektif untuk merepresentasikan hubungan antara kata kunci dan dokumen yang dicari. Dari sekumpulan kata kunci, yang tadinya tidak lengkap dan tidak sesuai, menjadi sekunpulan objek yang berhubungan. Alur Proses Latent Semantic Indexing Alur Proses Latent Semantic Indexing Alur proses dari metode Latent Semantic Indexing dibagi 2 (dua) kolom, yaitu kolom sebelah kiri yaitu query dan kolom sebelah kanan kanan yaitu, koleksi dokumen. Pada proses sebelah kiri: • • • • query diproses melalui operasi teks. • Selanjutnya dilakukan dekomposisi nilai singular (Singular Value Decomposition) pada matriks kata-dokumen. Hasil dekomposisi disimpan dalam collection index. • Proses ranking dilakukan dengan menghitung relevansi antara vektor query terpeta dan collection index. Selanjutnya, hasil perhitungan relevansi ditampilkan ke pengguna. kemudian vektor query dibentuk. Vektor query yang dibentuk dipetakan menjadi vektor query terpeta (mapped query vector). Dalam membentuk query terpeta, diperlukan hasil dekomposisi nilai singular dari koleksi dokumen. Pada koleksi dokumen, dilakukan operasi teks pada koleksi dokumen, kemudian matriks kata-dokumen (terms-documents matrix) dibentuk. Text Operations pada Query dan Document Collection. Query dari pengguna dan koleksi dokumen dikenakan proses text operations. Proses text operations meliputi, i. mem-parsing setiap kata dari koleksi dokumen, ii. membuang kata-kata yang merupakan stop words, iii. mem-stemming kata-kata yang ada untuk proses selanjutnya. Matrix Creation. Hasil text operations yang dikenakan pada koleksi dokumen dikenakan proses matrix creation. Proses matrix creation meliputi, i. menghitung frekuensi kemunculan dari kata, ii. membangun matriks kata-dokumen seperti dilustrasikan pada gambar II.4. Baris matriks menunjukkan kata dan kolom matriks menunjukkan dokumen. Sebagai contoh, elemen matriks pada baris ke-1 dan kolom ke-2 menunjukkan frekuensi kemunculan kata ke-1 pada dokumen ke-2. SVD Decomposition. i. Matriks kata-dokumen yang terbentuk, A berukuran m x n , selanjutnya dikenakan dekomposisi SVD (singular value decomposition). Hasil SVD berupa 3 (tiga) buah matriks seperti yang dilustrasikan pada gambar III.6. Matriks A dapat ditulis menjadi A= USVT . ii. Untuk mempermudah penjelasan, misalkan u1 , u2 , …. , uk adalah vektorvektor kolom dari matriks U , utama dari matriks S , dan matriks V , sehingga dapat ditulis adalah entryentry di diagonal adalah vektor-vektor kolom dari SVD Decomposition. iii. Rank dari matriks A , k adalah banyaknya entry tak nol yang terletak pada diagonal utama matriks S , yaitu nilai singular dari A . juga merupakan banyaknya iv. Dari k buah nilai singular dari A, dipilih r buah nilai singular yang terbesar, yaitu dengan r < k. v. Diperoleh hasil perkalian baru yaitu : Query Vector Creation. Vektor query, q dibentuk seperti membangun sebuah kolom dari matriks katadokumen. Contoh vektor query, q adalah Dengan qj, j = 1, 2, ....., m adalah frekuensi kemunculan kata Tj pada Query. Query Vector Mapping. Point (3)(v) di atas telah memberikan nilai r yang merupakan dimensi dari ruang vektor hasil perkalian baru. Selanjutnya, vektor query, q dipetakan ke dalam ruang vektor berdimensi r menjadi Q (subbab III.30), yaitu Ranking Kolom-kolom pada matriks pada point (3)(v) adalah vektor-vektor dokumen yang digunakan dalam menghitung sudut antara vekor dokumen dan vektor query. Ranking dari dokumen relevan ditentukan oleh besar sudut yang dibentuk oleh vektor query dan vektor dokumen. Semakin kecil sudut yang dibentuk, semakin relevan query dengan dokumen. Misalkan matriks Vr ditulis Hasil akhir Perhitungan cosinus sudut antara query, Q dan dokumen Dj , j = 1, 2, ....... , n diperoleh dan diurutkan berdasarkan dari yang paling besar sampai yang terkecil. Nilai cosinus sudut yang terbesar menunjukkan dokumen yang paling relevan dengan query.