Klasifikasi teks, juga dikenal sebagai kategorisasi: diberi beberapa jenis teks, memutuskan mana dari satu set standar dari kelas itu milik. Identifikasi Bahasa dan klasifikasi genre adalah contoh dari klasifikasi teks, seperti analisis sentimen (mengklasifikasikan film atau produk review sebagai positif atau negatif) dan deteksi spam (mengelompokkan pesan email sebagai spam atau tidak-spam). Klasifikasi berdasarkan kompresi data Cara lain untuk berpikir tentang klasifikasi adalah sebagai masalah dalam kompresi data. Sebuah algoritma kompresi lossless mengambil urutan simbol, mendeteksi pola-pola berulang di dalamnya, dan menulis deskripsi dari urutan yang lebih kompak daripada yang asli. Misalnya, teks "0,142857142857142857" mungkin dikompresi untuk Kompresi algoritma bekerja dengan membangun kamus subsequences teks, dan kemudian mengacu pada entri dalam kamus. Contoh di sini hanya satu entri kamus, "142.857." Akibatnya, algoritma kompresi menciptakan sebuah model bahasa. Algoritma LZW khususnya langsung model distribusi probabilitas maksimum entropi. Untuk melakukan klasifikasi dengan kompresi, pertama-tama kita bersabar bersama-sama semua pesan pelatihan spam dan kompres mereka sebagai Pencarian informasi adalah tugas mencari dokumen yang relevan dengan kebutuhan pengguna untuk informasi. Contoh yang paling terkenal dari sistem temu kembali informasi adalah mesin pencari di World Wide Web. Seorang pengguna Web dapat mengetik query seperti [AI ke mesin pencari dan melihat daftar halaman yang relevan. Pada bagian ini, kita akan melihat bagaimana sistem tersebut dibangun. Sebuah pencarian informasi (selanjutnya IR=information retireval) sistem dapat dicirikan oleh: - Sebuah korpus dokumen Setiap sistem harus memutuskan apa yang ingin memperlakukan sebagai dokumen: sebuah paragraf, halaman, atau teks multipage. -Pertanyaan yang diajukan dalam bahasa query. Sebuah permintaan menentukan apa yang pengguna ingin tahu. Bahasa query dapat hanya daftar kata, seperti [buku AI]; atau dapat menentukan kalimat dari kata-kata yang harus berdekatan. -Sebuah hasil ditetapkan. Ini subset dari dokumen yang hakim sistem IR untuk menjadi relevan dengan query. Oleh relevan, kita berarti mungkin berguna bagi orang yang berpose query, untuk informasi tertentu perlu dinyatakan dalam query. -Presentasi dari hasil set. Hal ini dapat yang sederhana seperti daftar peringkat judul dokumen atau serumit warna peta berputar dari hasil set diproyeksikan ke ruang tiga-dimensi, diberikan sebagai tampilan dua dimensi. information retrieval Information Retrieval = mencari informasi Mencari informasi seperti dokumen berdasarkan permintaan (input pengguna) untuk mendapatkan informasi yang dibutuhkan pengguna dari semua dokumen.Misalnya adalah mencari informasi dengan search engine di World Wide Web (www), misalnya Google. Karakteristik IR -Sebuah kumpulan tulisan (document). Sistem harus menentukan mana yang ingin dianggap sebagai dokumen (kertas). Contoh: sebuah paragraf, halaman, dll -Query Pengguna Query adalah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh pengguna. Dalam bentuk yang paling sederhana, sebuah query adalah kata kunci dan dokumen yang mengandung kata kunci adalah dokumen yang dicari Contoh: [AI book]; ["Book Al"]; [AI AND book]; [AI NEAR book] [AI book site: www.aaai.org]. -Set Hasil Hasil dari query. Sebuah bagian dari dokumen yang relevan dengan query. -Tampilan hasil set Bisa daftar hasil di peringkat dokumen judul Awalnya, sistem bekerja IR menggunakan Boolean Model. Tapi sekarang sebagian besar ditinggalkan. IR Scoring Function Model Boolean telah ditinggalkan -> model statistik berdasarkan jumlah kata. BM25 fungsi penilaian, Stephen Robertson dan Karen Sparck Jones di London City College yang telah digunakan dalam mesin pencari .. Scoring Function mengambil dokumen dan query yang mengembalikan nilai numerik, dokumen yang paling relevan memiliki nilai tertinggi. Dalam fungsi BM25, skor sebanding dengan berat kombinasi skor untuk setiap kata sesuai dengan query. Faktor-faktor yang mempengaruhi berat: -Frekuensi kata-kata muncul dalam dokumen yang cocok dengan query. (Persyaratan frekuensi) -Kebalikan dari Syarat Frekuensi atau IDF. (Biasanya, itu adalah konektor pada query) -Panjang dokumen. Sebuah dokumen berisi jutaan kata-kata mungkin untuk menyebutkan semua katakata query, tetapi juga mungkin itu bukan yang dimaksud dalam query. Sebuah dokumen singkat menguraikan semua kata adalah kandidat yang lebih baik. Contoh: dalam query [pertanian di Kansas] Fungsi BM25: di = panjang dokumen (dalam kata) N = jumlah dokumen L = panjang rata-rata dokumen dalam corpus (koleksi dokumen). TF (Term of Frequency) Fungsi IDF Fungsi (kebalikan dari TF) dokumen terbalik. Ada 2 parameter, mereka adalah k dan b. nilai khas k = 0,2 dan b = 0,75. Evaluasi Sistem IR Bagaimana memeriksa fungsi IR kami bekerja dengan baik? Nilai dari kinerja aplikasi IR menunjukkan keberhasilan suatu IR dalam memulihkan informasi yang diperlukan oleh pengguna. Parameter yang digunakan dalam mengukur kinerja dari sistem ini adalah untuk mengukur kelengkapan dan keakuratan. Fungsi: Kembali (kelengkapan) dan presisi (ketepatan) Contoh Kasus: dalam result tidak di result relevan 30 20 tidak relevan 10 40 Ingat (kelengkapan) adalah rasio jumlah dokumen relevan yang diperoleh oleh sistem dengan jumlah semua dokumen yang relevan dalam koleksi dokumen (ditarik atau tidak ditarik oleh sistem). Fungsi: IR Refinement Ada banyak kemungkinan perbaikan dalam IR. Hal ini dilakukan dengan mencari algoritma yang lebih baik untuk meningkatkan relevansi dokumen. Fungsi penilaian BM25 berlaku bahwa setiap kata harus berdiri sendiri, tetapi secara real, banyak katakata yang mungkin terkait. Sebagai contoh: kata "sofa" dikaitkan dengan kata 'couch' atau 'couches'. Banyak IR yang mencoba menerapkan hubungan ini. Selain itu, dalam menyikapi hubungan antara "couch" dengan 'couches' ada 'sa menemukan tentang membendung pendekatan algoritma. (Penghapusan kata, dalam hal ini menghilangkan - es). Tapi kita akan menemukan masalah lain karena akan mengurangi presisi, pada proses berasal, "stocking" akan 'stock', itu bukan masalah, tapi kata "foot covering" akan mengurangi presisi. Ada temuan lain, yaitu 'berasal didasarkan pada kamus' untuk memecahkan masalah di atas. Kami tidak akan menghapus - ing jika kata tersebut ditemukan dalam kamus. Langkah berikutnya adalah mengidentifikasi sinonim. "Couch" dan "sofa" Algoritma PageRank Ini adalah salah satu ide pencarian asli Google yang membedakan dengan yang lain mesin pencari web. Kata Inovasi menghubungkan digarisbawahi hyperlink ke halaman lain yang menunjuk. Jika query [IBM] bagaimana kita memastikan bahwa halaman rumah IBM (ibm.com) adalah yang pertama dalam urutan hasil query, bahkan jika halaman lain memiliki frekuensi lebih dari kata IBM. Konsepnya adalah bahwa ibm.com memiliki banyak di-link (link ke halaman ibm.com), maka itu pasti akan menjadi peringkat pertama dalam hasil. Tetapi jika kita hanya menghitung di-link, maka akan mungkin bagi spammer Web untuk membuat halaman web dan membuat banyak link yang menunjuk ke halaman yang halaman adalah untuk meningkatkan skor halaman web. Oleh karena itu, algoritma PageRank dirancang untuk berat link dari situs berkualitas tinggi lebih berat. Apa yang dimaksud dengan situs web berkualitas tinggi? Salah satu yang terkait dengan situs berkualitas tinggi lainnya. Ini rekursif. HITS Algoritma HITS (Topik Hyperlink-induced Search) Hal ini hampir sama dengan algoritma PageRank, tapi HITS tidak menghitung jumlah link di halaman, tapi melihat-lihat link ditemukan, jika sesuai dengan tujuan link, kata-kata yang lebih tepat antara link asal ke link tujuan, semakin tinggi nilai otoritas halaman. Menjawab Pertanyaan Ketika tipe query adalah pertanyaan, maka hasilnya tidak daftar ranking dari dokumen, tetapi bentuk respon yang singkat, bisa menjadi kalimat atau frase. Sistem ASKMSR (Banko, 2002) adalah pertanyaan berbasis web dan sistem jawaban. Berdasarkan pada premis bahwa pertanyaan bisa dijawab pada banyak halaman web, maka masalah tersebut-dan-jawaban dianggap sebagai masalah presisi (akurasi), tidak ingat (kelengkapan). ASKMSR tidak mengakui ganti, kata kerja, dll. Ini hanya mengakui 15 jenis pertanyaan dan bagaimana untuk menulis ulang dalam mesin pencari. Contoh query [yang membunuh Abraham Lincoln] dapat ditulis menjadi [membunuh Abraham Lincoln] dan menjadi [Abraham Lincoln dibunuh oleh *]. Hasil yang diperoleh tidak halaman penuh tetapi hanya ringkasan singkat dari teks yang mungkin dekat dengan kondisi query. Menjawab Pertanyaan Hasilnya menjadi 1 -, 2 -, dan 3-gram dan itu dihitung untuk set frekuensi hasil dan berat:-gram dikembalikan dari pertanyaan yang sangat spesifik menulis ulang (seperti pencocokan query persis dengan frase [ "Abraham Lincoln dibunuh oleh *"]) akan mendapatkan lebih berat daripada query rewrite umum [Abraham Lincoln OR OR dibunuh]. Diharapkan bahwa "John Wilkes Booth" akan menjadi salah satu yang sangat peringkat n-gram diambil, tapi begitu juga "Abraham Lincoln" dan "pembunuhan" dan "Teater Ford". Setelah n-gram adalah mencetak gol, maka akan disaring berdasarkan pada pertanyaan, jika pertanyaannya adalah "siapa" kemudian akan disaring pada nama seseorang. Bila pertanyaannya adalah "kapan" itu akan disaring pada tanggal atau waktu. Dan juga ada filter yang bukan merupakan bagian dari jawaban atas pertanyaan itu. Prolog Prolog adalah bahasa didasarkan pada urutan pertama logika predikat. (Akan merevisi / memperkenalkan kemudian ini). Kita dapat menyatakan beberapa fakta dan beberapa aturan, kemudian mengajukan pertanyaan untuk mencari tahu apa yang benar. Fakta: likes(john, mary). tall(john). tall(sue). short(fred). teaches(alison, artificialIntelligence). Catatan: huruf kecil, titik pada akhir. Aturan: likes(fred, X) :- tall(X). examines(Person, Course) :- teaches(Person, Course) CATATAN: ": -" digunakan untuk berarti IF. Dimaksudkan untuk terlihat sedikit seperti panah mundur CATATAN: Penggunaan modal (atau kata-kata yang dimulai dengan huruf kapital) untuk variabel. "Program" Anda terdiri dari file yang berisi fakta dan aturan. Anda "menjalankan" program anda dengan menanyakan "pertanyaan" di Prolog meminta. John suka siapa? |?- likes(fred, X). Jawaban kemudian ditampilkan. Ketik ";" untuk mendapatkan lebih banyak jawaban: (Catatan: huruf gelap untuk output system) X = john ? ; X = sue ? ; no Prolog dan Search Prolog dapat kembali lebih dari satu jawaban untuk sebuah pertanyaan. Ia memiliki built in metode pencarian untuk pergi melalui semua aturan dan fakta yang mungkin untuk mendapatkan semua jawaban yang mungkin. Metode pencarian "depth first search" dengan "backtracking".