Klasifikasi Dokumen Bahasa Indonesia

advertisement
PENDAHULUAN
Latar Belakang
Seringkali pengguna sulit menemukan
informasi yang diinginkan dengan cepat dan
tepat pada web. Dari permasalahan ini muncul
keinginan untuk mengembangkan alat dan
perangkat lunak yang berguna dan efisien untuk
membantu pengguna mencari informasi dalam
web (Arifin & Setiono 2000). Mesin pencari
adalah contoh alat yang mencari informasi
sesuai
dengan
permintaan
pengguna
berdasarkan kueri atau kata kunci yang
dimasukkan oleh pengguna. Tetapi tidak jarang
juga kueri mesin pencari memunculkan
dokumen yang tidak sesuai dengan keinginan
pengguna.
Klasifikasi
dikembangkan
untuk
memfokuskan pencarian pengguna pada
informasi yang ingin dicari, sehingga hasil akan
menjadi lebih akurat dan usaha yang dilakukan
sistem lebih efektif dan efisien. Klasifikasi
dokumen mengelompokkan dokumen yang
sesuai dengan kategori yang terkandung pada
dokumen tersebut. Apabila terdapat permintaan
yang sudah diketahui memiliki kategori
tertentu, pencarian dokumen hanya dilakukan
pada kumpulan dokumen yang memiliki
kategori tersebut, tidak dilakukan pada semua
kumpulan dokumen yang dimiliki sehingga
proses pencarian dapat dilakukan dengan cepat.
Banyak metode yang bisa digunakan untuk
klasifikasi teks, seperti naïve bayes, k-nearest
neighbor, decision trees, dan lain-lain.
Pramujadi (2010) telah menggunakan metode
Naive Bayes classifier (NBC) yang merupakan
salah satu metode untuk teks atau klasifikasi
dokumen. Masalah umum yang sering terjadi
pada metode NBC adalah data sparsity,
terutama ketika ukuran data latih terlalu kecil.
Salah satu cara untuk mengangani masalah
sparsity adalah dengan menggunakan teknik
background smoothing. Tujuan penelitian ini
adalah untuk melihat efek background
smoothing pada query pendek dan panjang, dan
membandingkannya dengan NBC pada data
pelatihan kecil.
Beberapa peneliti telah menunjukkan bahwa
mengombinasikan metode klasifikasi yang
berbeda (combination of multiple classifier)
dapat menambah keakuratan klasifikasi (Li &
Jain 1998). Simple voting, dynamic classifier
selection (DCS), dan adaptive classifier
combination (ACC) adalah contoh metode yang
menggabungkan beberapa metode klasifikasi.
Tiap-tiap
metode
klasifikasi
seringkali
menghasilkan kelas yang berbeda-beda untuk
satu dokumen tes.
Li dan Jain (1998) telah meneliti keakuratan
simple voting, dynamic classifier selection, dan
adaptive
classifier
combination
untuk
klasifikasi dokumen dalam bahasa Inggris. ACC
merupakan kombinasi dari naïve bayes dengan
k-nearest neighbor. Karena merupakan
kombinasi dari dua buah classifier, ACC dinilai
cukup baik untuk digunakan sebagai metode
klasifikasi.
Tujuan Penelitian
Tujuan utama dari penelitian ini adalah
mengimplementasikan
kinerja
adaptive
classifier combination untuk meningkatkan
keakuratan klasifikasi dokumen berbahasa
Indonesia.
Ruang Lingkup
Ruang lingkup penelitian ini meliputi:
1.
Penelitian ini difokuskan kepada klasifikasi
dokumen dengan menggunakan adaptive
classifier combination pada dokumen
berbahasa Indonesia.
2.
Penelitian dibatasi pada tahap klasifikasi
dokumen, tidak sampai proses temu
kembali dokumen.
TINJAUAN PUSTAKA
Information Retrieval
Information retrieval atau temu kembali
informasi merupakan pencarian material, yang
biasanya dokumen, dari sesuatu yang tidak
terstruktur, biasanya teks, yang memenuhi
kebutuhan informasi dari sekumpulan koleksi
yang besar yang biasanya disimpan di komputer
(Manning et al 2008).
Untuk
menemukembalikan
informasi
terdapat proses pengindeksan tertentu seperti
tokenisasi kata, membuang stopword, dan
stemming sehingga menghasilkan himpunan
kosa kata sebagai dokumen indeks. Proses
pengindeksan tersebut melibatkan isi dari
seluruh kumpulan dokumen atau biasanya
hanya terdiri atas judul atau kata kunci dan
abstrak dari kumpulan dokumen. Tiap dokumen
diwujudkan sebagai sebuah vektor dengan
elemen sebanyak term yang berhasil dikenali
dari proses pemisahan term.
Vektor tersebut beranggotakan bobot dari
tiap term. Salah satu metode yang dapat
digunakan untuk menghitung bobot term adalah
metode tf.idf. Metode tf.idf merupakan metode
1
Download