Donny Dennison 04PUT 1601248681 Text Categorization / Text Classification yaitu proses pengelompokan dokumen, yang dalam tugas akhir ini adalah konten web page, ke dalam beberapa kelas yang telah ditentukan. Jika tidak ada overlap antar kelas, yaitu setiap dokumen hanya dikelompokan kedalam satu kelas maka text categorization ini disebut single label text categorization . Text categorization bertujuan untuk menemukan model dalam mengkategorisasikan teks natural language. Model tersebut akan digunakan untuk menentukan kelas dari suatu dokumen. Beberapa metode text categorization yang sering dipakai antara lain : k- Nearest Neighbor, Naïve Bayes, Support Vektor Machine, Decision Tree, Neural Networks, Boosting. Dalam pengaplikasian text categorization terdapat beberapa tahap, yaitu : preprocessing, training phase dan testing phase. Preprocessing Tahap pertama dalam text categorization adalah dokumen preprocessing adalah : 1. Ekstrasi Term 2. Seleksi Term 3. Representasi Dokumen Training Phase Tahap kedua dari text categorization adalah training. Pada tahap ini system akan membangun model yang berfungsi untuk menentukan kelas dari dokumen yang belum diketahui kelasnya. Tahap ini menggunakan data yang telah diketahui kelasnya (data training) yang kemudian akan dibentuk model yang direpresantasikan melalui data statistik berupa mean dan standar deviasi masing-masing term pada setiap kelas. Testing Phase Tahap terakhir adalah tahap pengujian yang akan memberikan kelas pada data testing dengan menggunakan model yang telah dibangun pada tahap training. Tujuan dilakukan testing adalah untuk mengetahui performansi dari model yang telah dibentuk. Dengan beberapa parameter pengukuran yaitu akurasi, precision, recall, dan f-measure. Donny Dennison 04PUT 1601248681 Definisi Information Retrieval Secara Konsep sederhana IF merupakan proses mencari, dan kemudain mendapatkan apa yang dicari itu. Jika kita titik beratkan kepada prosesnya maka didalamnya akan terungkap bagaimana perjalanan informasi yang dipinta, menjadi infromasi yang diberikan. Menurut beberapa ahli IF didefinisikan sebagai berikut : Menurut Kowalaski : Informasi Retrieval adalah konsep sederhana dalam pencarian yang dilakukan oleh seseorang. seperti contoh ketika user akan mencari informasi yang dia butuhkan, maka sistem menerjemahakan kepada bentuk statment yang kemudian di eksekusi oleh sistem pencari. William Hersh Menyatakan : Information Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer. Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen dan sebagian besartekstual. Istilah ini diciptakan oleh Mooers pada tahun 1951, yang menganjurkan bahwa diterapkan ke “aspek intelektual” deskripsi informasi dan sistem untuk pencarian (Mooers, 1951). “ Kutipan Dari Wikipedia : Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional Donny Dennison 04PUT 1601248681 database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data. Dari ketiga definisi diatas, sudah jelas bahwa information retrevial adalah bidang keilmuan dalam Teknologi informasi yang menjelaskan tentang Pencarian dan Pengambilan Kembali Informasi. Keilmuan ini mengungkapkan bagaimana metode metode pencarian informasi yang dilakukan oleh si end user dari gudang gudang penyimpanan yang bersekala besar, contoh sederhananya adalah media penyimpanan kita sendiri. Terkadang ketika semakin banyak data yang kita simpan dalam sebuah media penyimpanan tak jarang kita akan lupa dimana kita meletakan data yang kita simpan tadi, sehingga kita melakukan proses pencarian data yang kita lupa tadi, bisa dengan menggunakan tools pencarian atau bisa dengan memeriksa satu persatu peta simpanan data kita. Secara sederhana begitulah yang dimaksud dengan Temu Kembali Infromasi (Information Retrieval). Cara Kerja Information Retrieval (IR) Untuk menemukan informasi relevan yang kita cari, maka kata kunci (Keyword, Kueri) yang dimasukan sebaiknya sesuai dengan informasi yang ingin didapat, lebih baik lagi jika kita memahami penggunaan kata kunci yang tepat. Mengapa demikian ?, karena dengan keyword yang seusai maka proses pencarian dalam index di mesin IR akan cepat, sehingga korpus yang sesuai dengan katakunci yang dimasukan akan ditampilkan kembali kepada si enduser. Keyword, Kueri : adalah inputan kata kunci pencarian yang diberikan pengguna kepada Mesin Pencari (Google, Yahoo, Being, Ask dll); Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari kata-kata (token) Korpus : adalah kumpulan dokumen yang disalin ke mesin IRMisalnya Google “menjepret” seluruh halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke mesin IR di ruang servernya google. HITS Algorithm (Hyperlink-Induced Topic Search Algorithm) algoritma analisis link yang menilai halaman Web. HITS dikenal sebagai peringkas teks otomatis yang bertugas untuk meringkas sumber yang berupa teks menjadi versi yang lebih pendek/ringkas dalam menampilkan informasinya. Adapun tujuan dari adanya peringkas teks otomatis diharapkan user dapat memahami isi dokumen tanpa harus membaca keseluruhan isi dokumen. Donny Dennison 04PUT 1601248681 Prolog bahasa pemrograman logika atau di sebut juga sebagai bahasa non-procedural. Namanya diambil dari bahasa Perancis programmation en logique (pemrograman logika). Bahasa ini diciptakan oleh Alain Colmerauer dan Robert Kowalski sekitar tahun 1972 dalam upaya untuk menciptakan suatu bahasa pemrograman yang memungkinkan pernyataan logika alih-alih rangkaian perintah untuk dijalankan komputer.