Text Classification

advertisement
Nama : Reyhan Bhaskara
Kelas : 04 PUT
Nim : 1601246032
1.
Text Classification
Text Classification adalah proses pengelompokan dokumen ke dalam kelas berbeda, dalam
tahapannya tiap dokumen menunjuk pada satu kelas tertentu maka dibutuhkan proses
untuk menggali informasi dari dokumen tersebut. Sehingga dokumen tersebut harus dapat
merepresentasikan dari kelasnya sehingga tiap kata yang muncul dalam dokumen
mempunyai nilai.Text Classification merupakan kebutuhan utama dari sistem pengambilan
teks , yang mengambil teks dalam menanggapi permintaan pengguna , dan sistem
pemahaman teks, yang mengubah teks dalam beberapa cara seperti memproduksi ringkasan
, menjawab pertanyaan atau penggalian data.
Contoh sederhana Text Classification
Mengklasifikasikan dokimen menjadi 4 classes yaitu : Economics, sport, science, life
2. Information Retrieval
Information Retrieval (IR) adalah pekerjaan untuk menemukan dokumen yang relevan
dengan kebutuhan informasi yang dibutuhkan oleh user. Contoh sistem IR yang paling
popular adalah search engine pada World Wide Web. Seorang pengguna Web bisa
menginputkan query berupa kata apapun ke dalam sebuah search engine dan melihat hasil
dari pencarian yang relevan.
Information Retrieval merupakan bagian dari computer science yang berhubungan dengan
pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari
dokumen-dokumen itu sendiri. Information Retrieval merupakan suatu pencarian informasi
(biasanya berupa dokumen) yang didasarkan pada suatu query (inputan user) yang diharapkan
dapat memenuhi keinginan user dari kumpulan dokumen yang ada. Sedangkan, definisi query
dalam Information Retrieval menurut referensi merupakan sebuah formula yang digunakan
untuk mencari informasi yang dibutuhkan oleh user, dalam bentuk yang paling sederhana,
sebuah query merupakan suatu keywords (kata kunci) dan dokumen yang mengandung
keywords merupakan dokumen yang dicari dalam IRS.
3. Hits Algorithm
Hyperlink-Induced Topic Search (HITS, juga dikenal sebagai hub dan otoritas) adalah
algoritma analisis link yang menilai halaman Web, dikembangkan oleh Jon Kleinberg. HITS
dikenal sebagai peringkas teks otomatis yang bertugas untuk meringkas sumber yang berupa
teks menjadi versi yang lebih pendek/ringkas dalam menampilkan informasinya.
Adapun tujuan dari adanya peringkas teks otomatis diharapkan user dapat memahami isi
dokumen tanpa harus membaca keseluruhan isi dokumen.
Algoritma Hyperlinked Induced Topic Search (HITS) merupakan algoritma peringkasan
berbasis graf. Pada dasarnya HITS melakukan perangkingan kalimat dengan
memperhitungkan keterhubungan antar kalimat. Perangkingan dilakukan dengan cara
memberi bobot kalimat dan diurutkan berdasarkan tingkat kepentingannya. Kalimat dengan
bobot besar akan diekstrak untuk dijadikan ringkasan. Metode HITS direpresentasikan
dengan graf tidak berarah (undirect graph), graf berarah maju (direct forward), dan graf
berarah mundur (direct backwrd) serta dilakukan iterasi hanya sekali dan iterasi mencapai
konvergen.
Pengujian dilakukan dengan dua cara pada dua data uji yang berbeda. Untuk data uji
berbahasa Indonesia, pengujian dilakukan dengan ROUGE evaluation toolkit. Sedangkan
untuk data uji berbahasa Inggris dilakukan dengan mengitung nilai recall dan precision
secara manual. Hasil pengujian menunjukkan bahwa dengan sekali iterasi akurasi lebih baik
daripada yang iterasi konvergen dengan kondisi jumlah ekstraksinya kecil.
Representasi graf tidak berarah menunjukkan nilai akurasi yang lebih baik daripada graf
berarah, sedangkan representasi graf berarah maju dan mundur mempunyai nilai yang
sama.
4.
Prolog
Prolog adalah bahasa pemrograman logika atau di sebut juga sebagai bahasa nonprocedural. Namanya diambil dari bahasa Perancis programmation en
logique (pemrograman logika). Bahasa ini diciptakan oleh Alain Colmerauer dan Robert
Kowalski sekitar tahun1972 dalam upaya untuk menciptakan suatu bahasa
pemrograman yang memungkinkan pernyataan logika alih-alih rangkaian perintah untuk
dijalankan komputer.
Berbeda dengan bahasa pemrograman yang lain, yang menggunakan algoritma konvensionl
sebagai teknik pencariannya seperti pada Delphi, Pascal, BASIC, COBOL dan bahasa
pemrograman yang sejenisnya, maka prolog menggunakan teknik pencarian yang di
sebut heuristik (heutistic) dengan menggunakan pohon logika.
Download