AI-PR GSLC 3

advertisement
1. TEXT CLASSIFICATION
Text classification, juga dikenal sebagai kategorisasi: diberi beberapa jenis dari teks,
menentukan yang mana merupakan satu set standar yang dimiliki dari kelas itu . Identifikasi Bahasa dan
klasifikasi genre adalah contoh dari Text classification, seperti analisis sentimen (mengklasifikasikan film
atau produk review positif atau negatif ) dan deteksi spam ( mengelompokkan pesan email sebagai
spam atau tidak -spam ) .
Klasifikasi berdasarkan kompresi data
Cara lain untuk berpikir tentang klasifikasi adalah sebagai masalah dalam kompresi data. Sebuah
algoritma yang kompresinya lossless mengambil urutan simbol, mendeteksi pola-pola berulang di
dalamnya , dan menulis deskripsi dari urutan yang lebih kompak daripada yang asli .
Misalnya, teks "0,142857142857142857" dapat dikompresi menjadi Kompresi algoritma bekerja
dengan membangun kamus subsequences teks , dan kemudian mengacu pada entri dalam kamus .
Contoh di sini hanya satu entri kamus, "142.857 . "
Akibatnya, algoritma yang dikompresi menciptakan sebuah model bahasa. Algoritma LZW khususnya
langsung model distribusi probabilitas maksimum entropi. Untuk melakukan klasifikasi dengan
kompresi.
2. INFORMATION RETRIEVAL
Pengertian Information Retrieval
Information Retrieval adalah “studi tentang sistem pengindeksan, pencarian, dan mengingat
data, khususnya teks atau bentuk tidak terstruktur lainnya.”
Menurut wikipedia :
“Information Retrieval adalah seni dan ilmu mencari informasi dalam dokumen, mencari
dokumen itu sendiri, mencari metadata yang menjelaskan dokumen, atau mencari dalam database,
apakah relasional database itu berdiri sendiri atau database hypertext jaringan seperti Internet atau
intranet, untuk teks , suara, gambar, atau data “
Cara Kerja Information Retrieval (IR)
Untuk menemukan informasi relevan yang kita cari, maka dibutuhkan kata kunci (Keyword,
Query) yang sesuai dengan informasi yang ingin didapat, lebih baik lagi jika kita memahami penggunaan
kata kunci yang tepat, karena dengan keyword yang seusai maka proses pencarian dalam index di mesin
IR akan cepat, sehingga korpus yang sesuai dengan kata kunci yang dimasukan akan ditampilkan kembali
kepada si end user.
1.Keyword, Query : adalah inputan kata kunci pencarian yang diberikan pengguna kepada Mesin Pencari
(Search Engine) misalnya : Google, Yahoo, Being, Ask dll.
2.Indexing : proses penyusunan index dari seluruh dokumen pada korpus, yang terdiri dari kata-kata
(token)
3.Korpus : adalah kumpulan dokumen yang disalin ke mesin SE misalnya Google “menjepret” seluruh
halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke SE di
servernya.
Bagaimana mesin IR menyalin dokumen-dokumen yang berada di dunia maya? Mesin IR
memiliki robot (BOT) sejenis program yang bisa disebut juga dengan crawler, program tersebutlah yang
kemudian berfungsi untuk menyalin dokumen atau informasi yang berada di salah satu sumber misal
website/blog ke server IR tersebut.
Kemudian cara kerja Information Retrieval (IR) dapat dijelaskan sebagai berikut :
A Tokenisasi (tokenizing) atau word token adalah : Pemisahan deret kata dalam kalimat, paragrap
menjadi potongan kata tunggal (termed word) serta menghilangkan karakter-karakter dalam tanda baca
dan mengubah kumpulan termed menjadi huruf kecil (lower case). Contoh : "saya belajar Information
Retrieval" maka akan dihasilkan : "saya", "belajar", "information", "retrieval".
B Stopword removal atau seleksi / penyaringan (filtration) adalah: tahapan untuk mempersentasikan
suatu dokumen dapat mendeskripsikan isi dari suatu dokumen untuk membedakan isi dokumen lain,
dalam suatu istilah (term) akan mencari jumlah dokumen yang diangap paling relevan didalam suatu
inputan (query), suatu term yang sering ditampilkan atau digunakan diangap sebagai stopword. Contoh :
Operator Logika and, or, not, dan sebaginya. Maka stopword tersebut akan menghapus, karna frekuwnsi
dari kemunculan trem terlalu sering.
C Pembuatan kata dasar (stemming) adalah : konversi dari trem ke bentuk akar (root) atau bentuk
umum, biasanya dalam dokumen yang mirip atau sama (sinonim) atau bisa menemukan kata-kata yang
terkait dalam sebuah dokumen. Contoh : kita memasukan kata "menemukan" maka query akan
merekomendasikan, "memperoleh", "mengetahui", "memiliki", "mendapatkan" dan setrusnya.
D Proses pembobotan setiap term dalam dokumen (term weighting) yaitu dalam tahapan pembobotan
term skema dalam pembobotan dipilih berdasarkan pembobotan lokal, global atau kedua-duanya (term
frequency dan global inverse document frequency).
Ada tiga hal yang menjadi dasar cara kerja mesin IR yaitu Proses Crawling, Proses Indexing dan Proses
Surving.
a). Proses Crawling
Crawling adalah suatu pekerjaan yang dilakukan oleh googlebot (biasa dikenal juga dengan istilah robot,
atau spider bisa di sebut juga crawler) dalam menjelajahi halaman-halaman website untuk di indeks
pada google server.
Googlebot terdiri dari set komputer yang berjumlah besar yang memang difungsikan untuk mengcrawling website-website. Dalam melakukan tugasnya, googlebot menggunakan suatu algoritma
komputer dalam menentukan situs apa saja yang akan di crawling, seberapa sering, dan berapa banyak
halaman yang akan di indeks.
Proses crawling dalam suatu website dimulai dari mendata seluruh url dari website, menelusurinya satupersatu, kemudian memasukkannya dalam daftar halaman pada google indeks, sehingga setiap kali ada
perubahan pada website, akan terupdate secara otomatis.
b). Proses Indexing
Indexing adalah proses pengumpulan kata-kata atau kalimat pada suatu halaman web oleh googlebot
yang telah ter-crawling sebelumnya. Dalam prosesnya, konten inilah yang digunakan oleh google
sebagai sumber pencarian untuk selanjutnya ditampilkan sebagai hasil pencarian berdasarkan kata kunci
(keywords) yang kita cari.
Namun perlu diingat bahwa tidak semua konten dapat diproses oleh googlebot ini. Umumnya konten
tersebut adalah link url, judul, tag, nama file, tipe file, isi halaman (tidak semua) dan beberapa informasi
halaman lainnya.
Model-model pada IR
Model IR ada tiga jenis, yaitu :
Model Boolean : merupakan model IR sederhana yang berdasarkan atas teori himpunan dan aljabar
boolean
Model Vector Space : merupakan model IR yang merepresentasikan dokumen dan query dalam bentuk
vektor dimensional
Model Probabilistic : merupakan model IR yang menggunakan framework probabilistik
Model ruang vektor dan model probabilistik adalah model yang menggunakan pembobotan kata dan
perangkingan dokumen. Hasil retrieval yang didapat dari model-model ini adalah dokumen terangking
yang dianggap paling relevan terhadap query.
Dalam model ruang vektor, dokumen dan query direpresentasikan sebagai vektor dalam dalam ruang
vektor yang disusun dalam indeks term, kemudian dimodelkan dengan persamaan geometri. Sedangkan
model probabilistik membuat asumsi-asumsi distribusi term dalam dokumen relevan dan tidak relevan
dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap suatu query.
3. HITS
Kleinberg's hypertext-induced topic selection (HITS) algorithm juga dikembangkan untuk
memberikan peringkat terhadap dokumen-dokumen berdasarkan informasi link di antara sekumpulan
dokumen
 Hubs menunjukkan banyak authorities.
 Authorities ditunjuk oleh banyak hubs
 Membentuk suatu bipartite graph:
Pseudocode dari HITS
Contoh dari HITS
 Root Set R {1,2,3,4}
 Extend it to form the base set S
Application dari HITS

Search engine querying (speed is an issue).

Finding web communities.

Finding related pages.

Populating categories in web directories.

Citation analysis
HITS Algorithm
 H (q)
A( p ) 
qB|q  p
H ( p) 
 A(q)
qB| p  q

B is the base set

q and p are web pages in B

A(p) is the authority score for p

H(p) is the hub score for p
Ciri-ciri HITS
HITS menekankan saling penguatan antara authority dan hub webpages
HITS diterapkan pada local neighborhood dari halaman seputar hasil query
HITS adalah query dependent
HITS sesuai dengan matriks perhitungan .
HITS dapat menjadi tidak stabil : mengubah beberapa link dapat menyebabkan peringkat sangat
berbeda .
HITS adalah algoritma umum yang digunakan untuk menghitung authority and hubs di dalam peringkat
pengambilan data
4. PROLOG
Sejarah Prolog :
1.Prolog singkatan dari Programming in Logic.
2.Dikembangkan oleh Alain Colmenraurer dan P.Roussel di Universitas Marseilles Perancis, tahun1972.
3.Prolog populer di Eropa untuk aplikasi artificial intelligence, sedangkan di Amerika peneliti
mengembangkan aplikasi yang sama, yaitu LISP.
Pengertian Prolog
Prolog menggunakan teknik pencarian yang disebut heuristik (heuristic) dengan menggunakan pohon
logika. prolog banyak dikembangkan di University of Melbourne oleh Lee Naish dan John Loyd. Prolog
dalam perkembangannya telah dikombinasikan dengan berbagai bahasa pemrograman terutama
functional programming. Bahasa prolog ini secara intensif digunakan pada proyek komputer generasi ke5 di Jepang. Walaupun demikian sebetulnya penggunaannya tidak terbatas untuk AI saja.
Prolog adalah bahasa pemrograman logika atau di sebut juga sebagai bahasa non-procedural. Namanya
diambil dari bahasa Perancis programmation en logique (Pemrograman logika). Bahasa ini diciptakan
oleh Alain Colmerauer dan Robert Kowalski sekitar tahun 1972 dalam upaya untuk menciptakan suatu
bahasa pemrograman yang memungkinkan pernyataan logika alih-alih rangkaian perintah untuk
dijalankan komputer. Berbeda dengan bahasa pemrograman yang lain, yang menggunakan algoritma
konvensionl sebagai teknik pencariannya seperti pada Delphi, Pascal, BASIC, COBOL dan bahasa
pemrograman yang sejenisnya, maka prolog menggunakan teknik pencarian yang di sebut heuristik
(heutistic) dengan menggunakan pohon logika.
Ciri-ciri bahasa prolog
1. Bahasa pemrograman yang non sequential.
2. Bahasa pemrograman yang deklaratif.
3. Simbolik.
4. Berdasarkan first order logic.
Perbedaan bahasa prolog dengan bahas lainnya
Bahasa Pemrograman yang Umum (Basic, Pascal, C, Fortran) :
1.Diperlukan algoritma / prosedur untuk memecahkan masalah (procedural languange)
2. Program menjalankan prosedur yang sama berulang-ulang dengan data masukan yang berbeda-beda.
3. Prosedur dan pengendalian program ditentukan oleh programmer dan perhitungan dilakukan sesuai
dengan prosedur yang telah dibuat.
Bahasa Pemrograman Prolog :
1. Object oriented languange atau declarative languange.
2. Tidak terdapat prosedur, tetapi hanya kumpulan data-data objek (fakta) yang akan diolah, dan relasi
antar objek tersebut membentuk aturan yang diperlukan untuk mencari suatu jawaban
3. Programmer menentukan tujuan (goal), dan komputer menentukan bagaimana cara mencapai tujuan
tersebut serta mencari jawabannya.
4. Dilakukan pembuktian terhadap cocok-tidaknya tujuan dengan data-data yang telah ada dan
relasinya.
5. Prolog ideal untuk memecahkan masalah yang tidak terstruktur, dan prosedur pemecahannya tidak
diketahui, khususnya untuk memecahkan masalah non numerik.
6. Prolog bekerja seperti pikiran manusia, proses pemecahan masalah bergerak di dalam ruang masalah
menuju suatu tujuan (jawaban tertentu).
Contoh : Pembuatan program catur dengan Prolog
Beberapa Aplikasi Prolog :
1. Sistem Pakar (Expert System) : Program menggunakan teknik pengambilan kesimpulan dari data-data
yang didapat, layaknya seorang ahli.
Contoh: dalam mendiagnosa penyakit
2. Pengolahan Bahasa Alami (Natural Languange Processing) : Program dibuat agar pemakai dapat
berkomunikasi dengan komputer dalam bahasa manusia sehari-hari, layaknya penterjemah.
3. Robotik : Prolog digunakan untuk mengolah data masukanyang berasal dari sensor dan mengambil
keputusan untuk menentukan gerakan yang harus dilakukan.
4. Pengenalan Pola (Pattern Recognition) : Banyak digunakan dalam image processing, dimana komputer
dapat membedakan suatu objek dengan objek yang lain.
5. Belajar (Learning) : Program belajar dari kesalahan yang pernah dilakukan, dari pengamatan atau dari
hal-hal yang pernah diminta untuk dilakukan.
Kelebihan Prolog
Terletak pada kemampuannya untuk mengambil kesimpulan (jawaban) dari data-data yang ada. Karena
program dalam bahasa prolog tidak memerlukan prosedur (algoritma). Prolog sangat ideal untuk
memecahkan masalah yang tidak terstruktur dan yang prosedur pemecahannya tidak diketahui,
khususnya untuk memecahkan masalah non-numerik.
Misalnya, dalam pembuatan program catur dengan prolog untuk menentukkan gerakan catur anda tidak
perlu menganalisa semua kemungkinan atau menentukkan suatu prosedur tertentu untuk untuk
menentukan gerakan berikutnya. Tetapi anda cukup menuliskan aturan umum permainan catur dan
lebih baik lagi jika ditambah dengan aturan yang diperoleh dari pengalaman. Prolog akan menentukan
sendiri langkah yang akan diambil berdasarkan data-data yang ada saat itu dan aturan-aturan yang
diberikan.
sumber :
http://suyatmobng.blogspot.com/2013/03/pengertian-cara-kerja-dan-masa-depan.html
http://adrianasari.wordpress.com/2011/09/20/information-retrieval-temu-kembali-informasi/
http://hipaliyanti.blogspot.com/2012/10/visual-prolog_1875.html
http://sattoksugianto.blogspot.com/2014/03/pengantar-prolog.html
http://arxiv.org/abs/1009.4964
Download