1. TEXT CLASSIFICATION Text classification, juga dikenal sebagai kategorisasi: diberi beberapa jenis dari teks, menentukan yang mana merupakan satu set standar yang dimiliki dari kelas itu . Identifikasi Bahasa dan klasifikasi genre adalah contoh dari Text classification, seperti analisis sentimen (mengklasifikasikan film atau produk review positif atau negatif ) dan deteksi spam ( mengelompokkan pesan email sebagai spam atau tidak -spam ) . Klasifikasi berdasarkan kompresi data Cara lain untuk berpikir tentang klasifikasi adalah sebagai masalah dalam kompresi data. Sebuah algoritma yang kompresinya lossless mengambil urutan simbol, mendeteksi pola-pola berulang di dalamnya , dan menulis deskripsi dari urutan yang lebih kompak daripada yang asli . Misalnya, teks "0,142857142857142857" dapat dikompresi menjadi Kompresi algoritma bekerja dengan membangun kamus subsequences teks , dan kemudian mengacu pada entri dalam kamus . Contoh di sini hanya satu entri kamus, "142.857 . " Akibatnya, algoritma yang dikompresi menciptakan sebuah model bahasa. Algoritma LZW khususnya langsung model distribusi probabilitas maksimum entropi. Untuk melakukan klasifikasi dengan kompresi. 2. INFORMATION RETRIEVAL Pengertian Information Retrieval Information Retrieval adalah “studi tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya teks atau bentuk tidak terstruktur lainnya.” Menurut wikipedia : “Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database, apakah relasional database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data “ Cara Kerja Information Retrieval (IR) Untuk menemukan informasi relevan yang kita cari, maka dibutuhkan kata kunci (Keyword, Query) yang sesuai dengan informasi yang ingin didapat, lebih baik lagi jika kita memahami penggunaan kata kunci yang tepat, karena dengan keyword yang seusai maka proses pencarian dalam index di mesin IR akan cepat, sehingga korpus yang sesuai dengan kata kunci yang dimasukan akan ditampilkan kembali kepada si end user. 1.Keyword, Query : adalah inputan kata kunci pencarian yang diberikan pengguna kepada Mesin Pencari (Search Engine) misalnya : Google, Yahoo, Being, Ask dll. 2.Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari kata-kata (token) 3.Korpus : adalah kumpulan dokumen yang disalin ke mesin SE misalnya Google “menjepret” seluruh halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke SE di servernya. Bagaimana mesin IR menyalin dokumen-dokumen yang berada di dunia maya? Mesin IR memiliki robot (BOT) sejenis program yang bisa disebut juga dengan crawler, program tersebutlah yang kemudian berfungsi untuk menyalin dokumen atau informasi yang berada di salah satu sumber misal website/blog ke server IR tersebut. Kemudian cara kerja Information Retrieval (IR) dapat dijelaskan sebagai berikut : A Tokenisasi (tokenizing) atau word token adalah : Pemisahan deret kata dalam kalimat, paragrap menjadi potongan kata tunggal (termed word) serta menghilangkan karakter-karakter dalam tanda baca dan mengubah kumpulan termed menjadi huruf kecil (lower case). Contoh : "saya belajar Information Retrieval" maka akan dihasilkan : "saya", "belajar", "information", "retrieval". B Stopword removal atau seleksi / penyaringan (filtration) adalah: tahapan untuk mempersentasikan suatu dokumen dapat mendeskripsikan isi dari suatu dokumen untuk membedakan isi dokumen lain, dalam suatu istilah (term) akan mencari jumlah dokumen yang diangap paling relevan didalam suatu inputan (query), suatu term yang sering ditampilkan atau digunakan diangap sebagai stopword. Contoh : Operator Logika and, or, not, dan sebaginya. Maka stopword tersebut akan menghapus, karna frekuwnsi dari kemunculan trem terlalu sering. C Pembuatan kata dasar (stemming) adalah : konversi dari trem ke bentuk akar (root) atau bentuk umum, biasanya dalam dokumen yang mirip atau sama (sinonim) atau bisa menemukan kata-kata yang terkait dalam sebuah dokumen. Contoh : kita memasukan kata "menemukan" maka query akan merekomendasikan, "memperoleh", "mengetahui", "memiliki", "mendapatkan" dan setrusnya. D Proses pembobotan setiap term dalam dokumen (term weighting) yaitu dalam tahapan pembobotan term skema dalam pembobotan dipilih berdasarkan pembobotan lokal, global atau kedua-duanya (term frequency dan global inverse document frequency). Ada tiga hal yang menjadi dasar cara kerja mesin IR yaitu Proses Crawling, Proses Indexing dan Proses Surving. a). Proses Crawling Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan istilah robot, atau spider bisa di sebut juga crawler) dalam menjelajahi halaman-halaman website untuk di indeks pada google server. Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk mengcrawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu algoritma komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering, dan berapa banyak halaman yang akan di indeks. Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satupersatu, kemudian memasukkannya dalam daftar halaman pada google indeks, sehingga setiap kali ada perubahan pada website, akan terupdate secara otomatis. b). Proses Indexing Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh googlebot yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan oleh google sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian berdasarkan kata kunci (keywords) yang kita cari. Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya konten tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan beberapa informasi halaman lainnya. Model-model pada IR Model IR ada tiga jenis, yaitu : Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar boolean Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk vektor dimensional Model Probabilistic : merupakan model IR yang menggunakan framework probabilistik Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan dokumen. Hasil retrieval yang didapat dari model-model ini adalah dokumen terangking yang dianggap paling relevan terhadap query. Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap suatu query. 3. HITS Kleinberg's hypertext-induced topic selection (HITS) algorithm juga dikembangkan untuk memberikan peringkat terhadap dokumen-dokumen berdasarkan informasi link di antara sekumpulan dokumen Hubs menunjukkan banyak authorities. Authorities ditunjuk oleh banyak hubs Membentuk suatu bipartite graph: Pseudocode dari HITS Contoh dari HITS Root Set R {1,2,3,4} Extend it to form the base set S Application dari HITS Search engine querying (speed is an issue). Finding web communities. Finding related pages. Populating categories in web directories. Citation analysis HITS Algorithm H (q) A( p ) qB|q p H ( p) A(q) qB| p q B is the base set q and p are web pages in B A(p) is the authority score for p H(p) is the hub score for p Ciri-ciri HITS HITS menekankan saling penguatan antara authority dan hub webpages HITS diterapkan pada local neighborhood dari halaman seputar hasil query HITS adalah query dependent HITS sesuai dengan matriks perhitungan . HITS dapat menjadi tidak stabil : mengubah beberapa link dapat menyebabkan peringkat sangat berbeda . HITS adalah algoritma umum yang digunakan untuk menghitung authority and hubs di dalam peringkat pengambilan data 4. PROLOG Sejarah Prolog : 1.Prolog singkatan dari Programming in Logic. 2.Dikembangkan oleh Alain Colmenraurer dan P.Roussel di Universitas Marseilles Perancis, tahun1972. 3.Prolog populer di Eropa untuk aplikasi artificial intelligence, sedangkan di Amerika peneliti mengembangkan aplikasi yang sama, yaitu LISP. Pengertian Prolog Prolog menggunakan teknik pencarian yang disebut heuristik (heuristic) dengan menggunakan pohon logika. prolog banyak dikembangkan di University of Melbourne oleh Lee Naish dan John Loyd. Prolog dalam perkembangannya telah dikombinasikan dengan berbagai bahasa pemrograman terutama functional programming. Bahasa prolog ini secara intensif digunakan pada proyek komputer generasi ke5 di Jepang. Walaupun demikian sebetulnya penggunaannya tidak terbatas untuk AI saja. Prolog adalah bahasa pemrograman logika atau di sebut juga sebagai bahasa non-procedural. Namanya diambil dari bahasa Perancis programmation en logique (Pemrograman logika). Bahasa ini diciptakan oleh Alain Colmerauer dan Robert Kowalski sekitar tahun 1972 dalam upaya untuk menciptakan suatu bahasa pemrograman yang memungkinkan pernyataan logika alih-alih rangkaian perintah untuk dijalankan komputer. Berbeda dengan bahasa pemrograman yang lain, yang menggunakan algoritma konvensionl sebagai teknik pencariannya seperti pada Delphi, Pascal, BASIC, COBOL dan bahasa pemrograman yang sejenisnya, maka prolog menggunakan teknik pencarian yang di sebut heuristik (heutistic) dengan menggunakan pohon logika. Ciri-ciri bahasa prolog 1. Bahasa pemrograman yang non sequential. 2. Bahasa pemrograman yang deklaratif. 3. Simbolik. 4. Berdasarkan first order logic. Perbedaan bahasa prolog dengan bahas lainnya Bahasa Pemrograman yang Umum (Basic, Pascal, C, Fortran) : 1.Diperlukan algoritma / prosedur untuk memecahkan masalah (procedural languange) 2. Program menjalankan prosedur yang sama berulang-ulang dengan data masukan yang berbeda-beda. 3. Prosedur dan pengendalian program ditentukan oleh programmer dan perhitungan dilakukan sesuai dengan prosedur yang telah dibuat. Bahasa Pemrograman Prolog : 1. Object oriented languange atau declarative languange. 2. Tidak terdapat prosedur, tetapi hanya kumpulan data-data objek (fakta) yang akan diolah, dan relasi antar objek tersebut membentuk aturan yang diperlukan untuk mencari suatu jawaban 3. Programmer menentukan tujuan (goal), dan komputer menentukan bagaimana cara mencapai tujuan tersebut serta mencari jawabannya. 4. Dilakukan pembuktian terhadap cocok-tidaknya tujuan dengan data-data yang telah ada dan relasinya. 5. Prolog ideal untuk memecahkan masalah yang tidak terstruktur, dan prosedur pemecahannya tidak diketahui, khususnya untuk memecahkan masalah non numerik. 6. Prolog bekerja seperti pikiran manusia, proses pemecahan masalah bergerak di dalam ruang masalah menuju suatu tujuan (jawaban tertentu). Contoh : Pembuatan program catur dengan Prolog Beberapa Aplikasi Prolog : 1. Sistem Pakar (Expert System) : Program menggunakan teknik pengambilan kesimpulan dari data-data yang didapat, layaknya seorang ahli. Contoh: dalam mendiagnosa penyakit 2. Pengolahan Bahasa Alami (Natural Languange Processing) : Program dibuat agar pemakai dapat berkomunikasi dengan komputer dalam bahasa manusia sehari-hari, layaknya penterjemah. 3. Robotik : Prolog digunakan untuk mengolah data masukanyang berasal dari sensor dan mengambil keputusan untuk menentukan gerakan yang harus dilakukan. 4. Pengenalan Pola (Pattern Recognition) : Banyak digunakan dalam image processing, dimana komputer dapat membedakan suatu objek dengan objek yang lain. 5. Belajar (Learning) : Program belajar dari kesalahan yang pernah dilakukan, dari pengamatan atau dari hal-hal yang pernah diminta untuk dilakukan. Kelebihan Prolog Terletak pada kemampuannya untuk mengambil kesimpulan (jawaban) dari data-data yang ada. Karena program dalam bahasa prolog tidak memerlukan prosedur (algoritma). Prolog sangat ideal untuk memecahkan masalah yang tidak terstruktur dan yang prosedur pemecahannya tidak diketahui, khususnya untuk memecahkan masalah non-numerik. Misalnya, dalam pembuatan program catur dengan prolog untuk menentukkan gerakan catur anda tidak perlu menganalisa semua kemungkinan atau menentukkan suatu prosedur tertentu untuk untuk menentukan gerakan berikutnya. Tetapi anda cukup menuliskan aturan umum permainan catur dan lebih baik lagi jika ditambah dengan aturan yang diperoleh dari pengalaman. Prolog akan menentukan sendiri langkah yang akan diambil berdasarkan data-data yang ada saat itu dan aturan-aturan yang diberikan. sumber : http://suyatmobng.blogspot.com/2013/03/pengertian-cara-kerja-dan-masa-depan.html http://adrianasari.wordpress.com/2011/09/20/information-retrieval-temu-kembali-informasi/ http://hipaliyanti.blogspot.com/2012/10/visual-prolog_1875.html http://sattoksugianto.blogspot.com/2014/03/pengantar-prolog.html http://arxiv.org/abs/1009.4964