Tugas_OFF_CLASS_

advertisement
Donny Dennison
04PUT
1601248681
Text Categorization / Text Classification yaitu proses pengelompokan dokumen, yang dalam tugas akhir
ini adalah konten web page, ke dalam beberapa kelas yang telah ditentukan. Jika tidak ada overlap antar
kelas, yaitu setiap dokumen hanya dikelompokan kedalam satu kelas maka text categorization ini disebut
single label text categorization . Text categorization bertujuan untuk menemukan model dalam
mengkategorisasikan teks natural language. Model tersebut akan digunakan untuk menentukan kelas dari
suatu dokumen.
Beberapa metode text categorization yang sering dipakai antara lain : k- Nearest Neighbor, Naïve Bayes,
Support Vektor Machine, Decision Tree, Neural Networks, Boosting. Dalam pengaplikasian text
categorization terdapat beberapa tahap, yaitu : preprocessing, training phase dan testing phase.
Preprocessing
Tahap pertama dalam text categorization adalah dokumen preprocessing adalah :
1. Ekstrasi Term
2. Seleksi Term
3. Representasi Dokumen
Training Phase
Tahap kedua dari text categorization adalah training. Pada tahap ini system akan membangun model yang
berfungsi untuk menentukan kelas dari dokumen yang belum diketahui kelasnya. Tahap ini menggunakan
data yang telah diketahui kelasnya (data training) yang kemudian akan dibentuk model yang
direpresantasikan melalui data statistik berupa mean dan standar deviasi masing-masing term pada setiap
kelas.
Testing Phase
Tahap terakhir adalah tahap pengujian yang akan memberikan kelas pada data testing dengan
menggunakan model yang telah dibangun pada tahap training. Tujuan dilakukan testing adalah untuk
mengetahui performansi dari model yang telah dibentuk. Dengan beberapa parameter pengukuran yaitu
akurasi, precision, recall, dan f-measure.
Donny Dennison
04PUT
1601248681
Definisi Information Retrieval
Secara Konsep sederhana IF merupakan proses mencari, dan kemudain mendapatkan apa yang dicari itu.
Jika kita titik beratkan kepada prosesnya maka didalamnya akan terungkap bagaimana perjalanan
informasi yang dipinta, menjadi infromasi yang diberikan. Menurut beberapa ahli IF didefinisikan sebagai
berikut :
Menurut Kowalaski :
Informasi Retrieval adalah konsep sederhana dalam pencarian yang dilakukan oleh seseorang. seperti
contoh ketika user akan mencari informasi yang dia butuhkan, maka sistem menerjemahakan kepada
bentuk statment yang kemudian di eksekusi oleh sistem pencari.
William Hersh Menyatakan :
Information Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer. Berkutat
dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan sebagian besartekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan bahwa diterapkan ke
“aspek intelektual” deskripsi informasi dan sistem untuk pencarian (Mooers, 1951). “
Kutipan Dari Wikipedia :
Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu
sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional
Donny Dennison
04PUT
1601248681
database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks ,
suara, gambar, atau data.
Dari ketiga definisi diatas, sudah jelas bahwa information retrevial adalah bidang keilmuan dalam
Teknologi informasi yang menjelaskan tentang Pencarian dan Pengambilan Kembali Informasi.
Keilmuan ini mengungkapkan bagaimana metode metode pencarian informasi yang dilakukan oleh si end
user dari gudang gudang penyimpanan yang bersekala besar, contoh sederhananya adalah media
penyimpanan kita sendiri. Terkadang ketika semakin banyak data yang kita simpan dalam sebuah media
penyimpanan tak jarang kita akan lupa dimana kita meletakan data yang kita simpan tadi, sehingga kita
melakukan proses pencarian data yang kita lupa tadi, bisa dengan menggunakan tools pencarian atau bisa
dengan memeriksa satu persatu peta simpanan data kita. Secara sederhana begitulah yang dimaksud
dengan Temu Kembali Infromasi (Information Retrieval).
Cara Kerja Information Retrieval (IR)
Untuk menemukan informasi relevan yang kita cari, maka kata kunci (Keyword, Kueri) yang dimasukan
sebaiknya sesuai dengan informasi yang ingin didapat, lebih baik lagi jika kita memahami penggunaan kata
kunci yang tepat. Mengapa demikian ?, karena dengan keyword yang seusai maka proses pencarian dalam
index di mesin IR akan cepat, sehingga korpus yang sesuai dengan katakunci yang dimasukan akan
ditampilkan kembali kepada si enduser.
Keyword, Kueri : adalah inputan kata kunci pencarian yang diberikan pengguna kepada Mesin Pencari
(Google, Yahoo, Being, Ask dll);
Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari kata-kata (token)
Korpus : adalah kumpulan dokumen yang disalin ke mesin IRMisalnya Google “menjepret” seluruh
halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke mesin
IR di ruang servernya google.
HITS Algorithm (Hyperlink-Induced Topic Search Algorithm)
algoritma analisis link yang menilai halaman Web. HITS dikenal sebagai peringkas teks otomatis yang
bertugas untuk meringkas sumber yang berupa teks menjadi versi yang lebih pendek/ringkas dalam
menampilkan informasinya. Adapun tujuan dari adanya peringkas teks otomatis diharapkan user dapat
memahami isi dokumen tanpa harus membaca keseluruhan isi dokumen.
Donny Dennison
04PUT
1601248681
Prolog
bahasa pemrograman logika atau di sebut juga sebagai bahasa non-procedural. Namanya diambil dari
bahasa Perancis programmation en logique (pemrograman logika). Bahasa ini diciptakan oleh Alain
Colmerauer dan Robert Kowalski sekitar tahun 1972 dalam upaya untuk menciptakan suatu bahasa
pemrograman yang memungkinkan pernyataan logika alih-alih rangkaian perintah untuk dijalankan
komputer.
Download