bab i pendahuluan - Universitas Sumatera Utara

advertisement
BAB I
PENDAHULUAN
Pada bab ini akan dibahas latar belakang penelitian, perumusan masalah, tujuan
penelitian, manfaat penelitian dan batasan masalah.
1.1 LATAR BELAKANG
Perkembangan penggunaan informasi yang cukup tinggi khususnya informasi
dalam bentuk teks dokumen menyebabkan kesulitan dalam proses menemukan
kembali informasi, sehingga diperlukan suatu cara pendeteksian kemiripan
dokumen untuk mendapatkan dokumen yang relevan dan sesuai dengan
permintaan pengguna. Proses pendeteksian kemiripan dokumen merupakan
pencarian kesamaan beberapa dokumen dengan membandingkan isi dokumen
sehingga menghasilkan bobot atau nilai kemiripan dari dokumen yang
dibandingkan. Salah satu kegunaan perbandingan isi dokumen adalah untuk
membantu pengguna dalam pengelompokan dokumen dan juga memungkinkan
pengguna mengetahui apakah isi dokumen yang satu merupakan dokumen yang
pada dasarnya sama dengan dokumen yang lain. Menurut Rahman [25],
pendeteksian kemiripan dokumen ini dapat dilakukan dengan beberapa teknik,
misalnya teknik pencarian informasi (information retrieval), teknik penghitungan
statistik, atau dengan menggunakan informasi sintaktik dari kalimat per
kalimatnya.
Menurut Wibisono dan Khodra [35], clustering dokumen telah lama
diterapkan untuk meningkatkan efektifitas temu kembali informasi. Penerapan
clustering ini bersandar pada suatu hipotesis (cluster-hypothesis) bahwa dokumen
yang relevan akan cenderung berada pada cluster yang sama jika pada koleksi
dokumen dilakukan clustering. Beberapa penelitian untuk dokumen berbahasa
Inggris menerapkan clustering dokumen untuk memperbaiki kinerja dalam proses
searching [32]. Sedangkan perbaikan dalam penyajian hasil search dilakukan oleh
Universitas Sumatera Utara
antara lain Osinki [22], Prakasa [23], dan Widyantoro [34] pada hasil pencarian.
Selain dari clustering dokumen yang telah dijelaskan sebelumnya, terdapat
beberapa metode yang digunakan untuk pencarian kembali dokumen yaitu :
a. Proses parsing dokumen yaitu pengambilan kata-kata dari dokumen.
b.
Proses stoplist yaitu pembuangan kata yang tidak mewakili isi dokumen
sehingga tidak dapat dijadikan sebagai indeks.
c.
Proses steming kata yaitu proses penghilangan imbuhan yang tidak perlu
dari suatu kata turunan (berimbuhan).
d.
Proses indexing yaitu pemilihan istilah (indeks) dilakukan oleh Tata[30].
e.
Proses mencari hubungan antar dua istilah (similarity of terms).
f. Operasi Boolean terhadap istilah-istilah dalam kueri untuk penemuan
kembali dokumen yang diinginkan, dilakukan oleh Hasibuan dan Andri
[11].
Sihombing[27] telah melakukan penelitian pendeteksian kemiripan dokumen
dengan menggunakan Jaringan Saraf Tiruan Hopfiled dengan memanfaatkan
similarity measure Hsinchun Chen untuk mendapatkan nilai kemiripan dokumen
yang dihasilkan dengan query yang diberikan.
Terdapat sejumlah metode untuk menghitung kesamaan antar dokumen,
salah satunya dengan menggunakan ukuran kemiripan (similarity measure)
Hsinchun Chen diperkenalkan oleh Chen et al [4]. Hsinchun Chen adalah seorang
peneliti di bidang IT, pada tahun 1994 Chen dan teman-temannya melakukan
penelitian sistem temu kembali dokumen dan menghasikan suatu formulasi
pengukuran kemiripan dokumen, rumus ini dikenal dengan ukuran kemiripan
(similarity measure) Hsinchun Chen.
Algoritma genetika adalah suatu algoritma pencarian yang berbasis pada
mekanisme seleksi alam dan genetika. Masalah yang dapat diselesaikan dengan
algoritma genetika adalah masalah yang mempunyai kemungkinan solusi yang
jumlahnya tak berhingga. Pada sistem pencarian kembali dokumen, masalah yang
dihadapi adalah tantangan meledaknya jumlah informasi, sehingga
memungkinkan pemberian informasi sesuai kebutuhan semakin rumit.
Dengan latar belakang tersebut penelitian ini mencoba menyelidiki
alternatif lain pencarian dokumen, yaitu menggunakan algoritma genetika dengan
memanfaatkan ukuran kemiripan (similarity measure) Hsinchun Chen untuk
mendapatkan nilai ketepatan pendeteksian dokumen. Kemudian hasil nilai
ketepatan dengan pemanfaatan ukuran kemiripan (similarity measure) Hsinchun
Chen algoritma genetika akan dibandingkan dengan hasil dari Jaringan Syaraf
Universitas Sumatera Utara
Tiruan .
1.2 PERUMUSAN MASALAH
Berdasarkan latar belakang permasalahan yang telah dikemukakan di atas, maka
perumusan masalah penelitian ini adalah :
•
Bagaimana mendapatkan nilai kemiripan dokumen yang lebih tinggi
dengan kueri yang diberikan?
•
Bagaimana hasil nilai kemiripan dokumen yang diperoleh dalam
penelitian ini jika dibandingkan dengan penelitian Sihombing [27]
dengan menggunakan jaringan syaraf tiruan ?
1.3 TUJUAN PENELITIAN
Tujuan yang akan dicapai dari penelitian ini adalah :
Mendapatkan nilai kemiripan dokumen dengan penerapan faktor Hsinchun
Chen dalam algoritma genetika.
Objektif dari penelitian ini adalah :
a. Menjelaskan mekanisme sistem pencarian dokumen dengan mengunakan
algoritma genetika.
b. Membangun sebuah perancangan sistem temu kembali dokumen dengan
query yang diberikan.
c. Mendapatkan hasil perbandingan nilai kemiripan dokumen menggunakan
algoritma genetika dan jaringan syaraf tiruan.
Universitas Sumatera Utara
1.4 MANFAAT PENELITIAN
Manfaat dari penelitian ini adalah :
a. Memahami hal-hal yang perlu dilakukan dalam mengaplikasikan algoritma
genetika dalam mencari nilai kemiripan dokumen.
b. Memahami teknik yang dapat diterapkan dalam mencari nilai kemiripan
dokumen
c. Menjadi rujukan bagi peneliti yang lain sebagai teknik untuk melakukan
browsing guna menemukan dokumen yang relevan.
1.5 BATASAN MASALAH
Untuk mencegah pembahasan yang terlalu luas maka penulis membatasi ruang
lingkup masalah pada penelitian ini adalah sebagai berikut :
a. Batasan model yaitu model algoritma genetika dengan faktor kemiripan
yang digunakan adalah Hsinchun Chen.
b. Penelitian ini berfokus pada implementasi algoritma genetika dalam
pencarian kembali dokumen, dimana bagian dokumen yang digunakan
adalah judul dari setiap dokumen.
c. Bagian dari dokumen yang digunakan untuk penerapan algoritma genetika
adalah keyword (kata kunci), dimana keyword tersebut diperoleh dari judul
setiap dokumen yang telah mengalami tahapan text preprocessing secara
sederhana.
d. Membandingkan nilai kemiripan dokumen yang didapatkan dengan
algoritma genetika dan algoritma jaringan syaraf tiruan Hopfield.
e. Dataset yang digunakan berjumlah 600 dokumen, dimana dokumen tersebut
berbentuk jurnal, makalah atau penelitian dalam Bahasa Indonesia, dimana
dataset tersebut merupakan data yang sama digunakan oleh peneliti
sebelumnya Sihombing[27], sehingga dapat dilakukan perbandingan nilai
kemiripan dokumen terhadap penelitian yang dilakukan sebelumnya dan
dataset yang digunakan dalam penelitian ini merupakan dataset standard
Universitas Sumatera Utara
untuk penelitian di Universitas Indonesia (UI).
Selanjutnya pada bab kedua akan dijelaskan tentang tinjauan pustaka yang
mengemukakan konsep dasar pendukung sistem pencarian kembali dokumen
menggunakan algoritma genetika dengan ukuran kemiripan Hsinchun Chen,
menelaah teori sistem temu kembali informasi dan algoritma genetika untuk
pemecahan masalah yang berhubungan dengan penelitian ini.
Universitas Sumatera Utara
Download