Klasifikasi teks - Imelda Lee`s Blog

advertisement
Klasifikasi teks, juga dikenal sebagai kategorisasi: diberi beberapa jenis teks, memutuskan mana dari
satu set standar dari kelas itu milik. Identifikasi Bahasa dan klasifikasi genre adalah contoh dari klasifikasi
teks, seperti analisis sentimen (mengklasifikasikan film atau produk review sebagai positif atau negatif)
dan deteksi spam (mengelompokkan pesan email sebagai spam atau tidak-spam).
Klasifikasi berdasarkan kompresi data
Cara lain untuk berpikir tentang klasifikasi adalah sebagai masalah dalam kompresi data. Sebuah
algoritma kompresi lossless mengambil urutan simbol, mendeteksi pola-pola berulang di dalamnya, dan
menulis deskripsi dari urutan yang lebih kompak daripada yang asli.
Misalnya, teks "0,142857142857142857" mungkin dikompresi untuk Kompresi algoritma bekerja dengan
membangun kamus subsequences teks, dan kemudian mengacu pada entri dalam kamus. Contoh di sini
hanya satu entri kamus, "142.857."
Akibatnya, algoritma kompresi menciptakan sebuah model bahasa. Algoritma LZW khususnya langsung
model distribusi probabilitas maksimum entropi. Untuk melakukan klasifikasi dengan kompresi,
pertama-tama kita bersabar bersama-sama semua pesan pelatihan spam dan kompres mereka sebagai
Pencarian informasi adalah tugas mencari dokumen yang relevan dengan kebutuhan pengguna untuk
informasi. Contoh yang paling terkenal dari sistem temu kembali informasi adalah mesin pencari di
World Wide Web. Seorang pengguna Web dapat mengetik query seperti [AI ke mesin pencari dan
melihat daftar halaman yang relevan. Pada bagian ini, kita akan melihat bagaimana sistem tersebut
dibangun. Sebuah pencarian informasi (selanjutnya IR=information retireval) sistem dapat dicirikan oleh:
- Sebuah korpus dokumen Setiap sistem harus memutuskan apa yang ingin memperlakukan sebagai
dokumen: sebuah paragraf, halaman, atau teks multipage.
-Pertanyaan yang diajukan dalam bahasa query. Sebuah permintaan menentukan apa yang pengguna
ingin tahu. Bahasa query dapat hanya daftar kata, seperti [buku AI]; atau dapat menentukan kalimat dari
kata-kata yang harus berdekatan.
-Sebuah hasil ditetapkan. Ini subset dari dokumen yang hakim sistem IR untuk menjadi relevan dengan
query. Oleh relevan, kita berarti mungkin berguna bagi orang yang berpose query, untuk informasi
tertentu perlu dinyatakan dalam query.
-Presentasi dari hasil set. Hal ini dapat yang sederhana seperti daftar peringkat judul dokumen atau
serumit warna peta berputar dari hasil set diproyeksikan ke ruang tiga-dimensi, diberikan sebagai
tampilan dua dimensi.
information retrieval
Information Retrieval = mencari informasi
Mencari informasi seperti dokumen berdasarkan permintaan (input pengguna) untuk mendapatkan
informasi yang dibutuhkan pengguna dari semua dokumen.Misalnya adalah mencari informasi dengan
search engine di World Wide Web (www), misalnya Google.
Karakteristik IR
-Sebuah kumpulan tulisan (document).
Sistem harus menentukan mana yang ingin dianggap sebagai dokumen (kertas). Contoh: sebuah
paragraf, halaman, dll
-Query Pengguna
Query adalah formula yang digunakan untuk mencari informasi yang dibutuhkan oleh pengguna.
Dalam bentuk yang paling sederhana, sebuah query adalah kata kunci dan dokumen yang mengandung
kata kunci adalah dokumen yang dicari
Contoh: [AI book]; ["Book Al"]; [AI AND book];
[AI NEAR book] [AI book site: www.aaai.org].
-Set Hasil
Hasil dari query. Sebuah bagian dari dokumen yang relevan dengan query.
-Tampilan hasil set
Bisa daftar hasil di peringkat dokumen judul
Awalnya, sistem bekerja IR menggunakan Boolean Model. Tapi sekarang sebagian besar ditinggalkan.
IR Scoring Function
Model Boolean telah ditinggalkan -> model statistik berdasarkan jumlah kata.
BM25 fungsi penilaian, Stephen Robertson dan Karen Sparck Jones di London City College yang telah
digunakan dalam mesin pencari ..
Scoring Function mengambil dokumen dan query yang mengembalikan nilai numerik, dokumen yang
paling relevan memiliki nilai tertinggi.
Dalam fungsi BM25, skor sebanding dengan berat kombinasi skor untuk setiap kata sesuai dengan
query.
Faktor-faktor yang mempengaruhi berat:
-Frekuensi kata-kata muncul dalam dokumen yang cocok dengan query. (Persyaratan frekuensi)
-Kebalikan dari Syarat Frekuensi atau IDF. (Biasanya, itu adalah konektor pada query)
-Panjang dokumen. Sebuah dokumen berisi jutaan kata-kata mungkin untuk menyebutkan semua katakata query, tetapi juga mungkin itu bukan yang dimaksud dalam query. Sebuah dokumen singkat
menguraikan semua kata adalah kandidat yang lebih baik.
Contoh: dalam query [pertanian di Kansas]
Fungsi BM25:
di = panjang dokumen (dalam kata)
N = jumlah dokumen
L = panjang rata-rata dokumen dalam corpus (koleksi dokumen).
TF (Term of Frequency) Fungsi
IDF Fungsi (kebalikan dari TF) dokumen terbalik.
Ada 2 parameter, mereka adalah k dan b.
nilai khas k = 0,2 dan b = 0,75.
Evaluasi Sistem IR
Bagaimana memeriksa fungsi IR kami bekerja dengan baik?
Nilai dari kinerja aplikasi IR menunjukkan keberhasilan suatu IR dalam memulihkan informasi yang
diperlukan oleh pengguna.
Parameter yang digunakan dalam mengukur kinerja dari sistem ini adalah untuk mengukur kelengkapan
dan keakuratan.
Fungsi: Kembali (kelengkapan) dan presisi (ketepatan)
Contoh Kasus:
dalam result
tidak di result
relevan
30
20
tidak relevan
10
40
Ingat (kelengkapan) adalah rasio jumlah dokumen relevan yang diperoleh oleh sistem dengan jumlah
semua dokumen yang relevan dalam koleksi dokumen (ditarik atau tidak ditarik oleh sistem).
Fungsi:
IR Refinement
Ada banyak kemungkinan perbaikan dalam IR. Hal ini dilakukan dengan mencari algoritma yang lebih
baik untuk meningkatkan relevansi dokumen.
Fungsi penilaian BM25 berlaku bahwa setiap kata harus berdiri sendiri, tetapi secara real, banyak katakata yang mungkin terkait. Sebagai contoh: kata "sofa" dikaitkan dengan kata 'couch' atau 'couches'.
Banyak IR yang mencoba menerapkan hubungan ini.
Selain itu, dalam menyikapi hubungan antara "couch" dengan 'couches' ada 'sa menemukan tentang
membendung pendekatan algoritma. (Penghapusan kata, dalam hal ini menghilangkan - es).
Tapi kita akan menemukan masalah lain karena akan mengurangi presisi, pada proses berasal,
"stocking" akan 'stock', itu bukan masalah, tapi kata "foot covering" akan mengurangi presisi.
Ada temuan lain, yaitu 'berasal didasarkan pada kamus' untuk memecahkan masalah di atas. Kami tidak
akan menghapus - ing jika kata tersebut ditemukan dalam kamus.
Langkah berikutnya adalah mengidentifikasi sinonim. "Couch" dan "sofa"
Algoritma PageRank
Ini adalah salah satu ide pencarian asli Google yang membedakan dengan yang lain mesin pencari web.
Kata Inovasi menghubungkan digarisbawahi hyperlink ke halaman lain yang menunjuk.
Jika query [IBM] bagaimana kita memastikan bahwa halaman rumah IBM (ibm.com) adalah yang
pertama dalam urutan hasil query, bahkan jika halaman lain memiliki frekuensi lebih dari kata IBM.
Konsepnya adalah bahwa ibm.com memiliki banyak di-link (link ke halaman ibm.com), maka itu pasti
akan menjadi peringkat pertama dalam hasil.
Tetapi jika kita hanya menghitung di-link, maka akan mungkin bagi spammer Web untuk membuat
halaman web dan membuat banyak link yang menunjuk ke halaman yang halaman adalah untuk
meningkatkan skor halaman web. Oleh karena itu, algoritma PageRank dirancang untuk berat link dari
situs berkualitas tinggi lebih berat. Apa yang dimaksud dengan situs web berkualitas tinggi? Salah satu
yang terkait dengan situs berkualitas tinggi lainnya. Ini rekursif.
HITS Algoritma
HITS (Topik Hyperlink-induced Search)
Hal ini hampir sama dengan algoritma PageRank, tapi HITS tidak menghitung jumlah link di halaman, tapi
melihat-lihat link ditemukan, jika sesuai dengan tujuan link, kata-kata yang lebih tepat antara link asal ke
link tujuan, semakin tinggi nilai otoritas halaman.
Menjawab Pertanyaan
Ketika tipe query adalah pertanyaan, maka hasilnya tidak daftar ranking dari dokumen, tetapi bentuk
respon yang singkat, bisa menjadi kalimat atau frase.
Sistem ASKMSR (Banko, 2002) adalah pertanyaan berbasis web dan sistem jawaban. Berdasarkan pada
premis bahwa pertanyaan bisa dijawab pada banyak halaman web, maka masalah tersebut-dan-jawaban
dianggap sebagai masalah presisi (akurasi), tidak ingat (kelengkapan).
ASKMSR tidak mengakui ganti, kata kerja, dll. Ini hanya mengakui 15 jenis pertanyaan dan bagaimana
untuk menulis ulang dalam mesin pencari.
Contoh query [yang membunuh Abraham Lincoln] dapat ditulis menjadi [membunuh Abraham Lincoln]
dan menjadi [Abraham Lincoln dibunuh oleh *].
Hasil yang diperoleh tidak halaman penuh tetapi hanya ringkasan singkat dari teks yang mungkin dekat
dengan kondisi query.
Menjawab Pertanyaan
Hasilnya menjadi 1 -, 2 -, dan 3-gram dan itu dihitung untuk set frekuensi hasil dan berat:-gram
dikembalikan dari pertanyaan yang sangat spesifik menulis ulang (seperti pencocokan query persis
dengan frase [ "Abraham Lincoln dibunuh oleh *"]) akan mendapatkan lebih berat daripada query
rewrite umum [Abraham Lincoln OR OR dibunuh]. Diharapkan bahwa "John Wilkes Booth" akan menjadi
salah satu yang sangat peringkat n-gram diambil, tapi begitu juga "Abraham Lincoln" dan "pembunuhan"
dan "Teater Ford".
Setelah n-gram adalah mencetak gol, maka akan disaring berdasarkan pada pertanyaan, jika
pertanyaannya adalah "siapa" kemudian akan disaring pada nama seseorang. Bila pertanyaannya adalah
"kapan" itu akan disaring pada tanggal atau waktu. Dan juga ada filter yang bukan merupakan bagian
dari jawaban atas pertanyaan itu.
Prolog
Prolog adalah bahasa didasarkan pada urutan pertama logika predikat. (Akan merevisi /
memperkenalkan kemudian ini).
Kita dapat menyatakan beberapa fakta dan beberapa aturan, kemudian mengajukan pertanyaan untuk
mencari tahu apa yang benar.
Fakta:
likes(john, mary).
tall(john).
tall(sue).
short(fred).
teaches(alison, artificialIntelligence).
Catatan: huruf kecil, titik pada akhir.
Aturan:
likes(fred, X) :- tall(X).
examines(Person, Course) :- teaches(Person, Course)
CATATAN: ": -" digunakan untuk berarti IF. Dimaksudkan untuk terlihat sedikit seperti panah mundur
CATATAN: Penggunaan modal (atau kata-kata yang dimulai dengan huruf kapital) untuk variabel.
"Program" Anda terdiri dari file yang berisi fakta dan aturan.
Anda "menjalankan" program anda dengan menanyakan "pertanyaan" di Prolog meminta.
John suka siapa?
|?- likes(fred, X).
Jawaban kemudian ditampilkan. Ketik ";" untuk mendapatkan lebih banyak jawaban: (Catatan: huruf
gelap untuk output system)
X = john ? ;
X = sue ? ;
no
Prolog dan Search
Prolog dapat kembali lebih dari satu jawaban untuk sebuah pertanyaan.
Ia memiliki built in metode pencarian untuk pergi melalui semua aturan dan fakta yang mungkin untuk
mendapatkan semua jawaban yang mungkin.
Metode pencarian "depth first search" dengan "backtracking".
Download