TEXT MINING Surya Arditian Prakasa Program Studi S1 Informatika

advertisement
TEXT MINING
Surya Arditian Prakasa
Program Studi S1 Informatika
Sekolah Tinggi Teknologi Telematika Telkom Purwokerto
[email protected]
ABSTRAK
Banyak instansi yang bergerak dalam penyaluran informasi atau berita sudah mulai
menggunakan sistem web untuk menyampaikan berita secara up to date. Pada umumnya
berita yang disampaikan dalam portal tersebut terdiri dari beberapa kategori seperti politik,
olahraga, ekonomi, dan lain sebagainya. Namun, dalam membagi berita ke dalam kategorikategori tersebut saat ini masih dilakukan secara manual. Oleh karena itu perlu adanya sistem
yang bisa mengklasifikasikan berita secara otomatis. Text mining merupakan metode
klasifikasi yang merupakan variasi dari data mining berusaha menemukan pola yang menarik
dari sekumpulan data tekstual yang berjumlah besar. Sedangkan algoritma naïve bayes
classifier merupakan algoritma pendukung untuk melakukan klasifikasi. Sistem klasifikasi
berita berbasis web dengan menggunakan bahasa pemrograman PHP dan database
MySQL menunjukkan bahwa berita testing bisa terklasifikasi secara otomatis seluruhnya.
Pencarian akan menggunakan focused crawler dan bersifat Text mining yakni hanya diambil
teks beritanya saja. Sehingga didapat kesimpulan bahwa sistem yang dirancang mampu
mencri berita secara terarah sekaligus meringkas berita dengan hasil yang dapat diterima.
Kata kunci : Sistem Klasifikasi, Berita, data mining, Text Mining, naïve bayes, Focused
Crawler, Peringkasan Otomatis
secara umum seperti judul dan link
I.
PENDAHULUAN
menuju berita tersebut.
Dunia informasi yang semakin tidak
Pada umumnya berita yang disampaikan
mengenal batas ruang dan waktu
dalam portal
tersebut
terdiri
dari
membuat semua orang bisa mengakses
beberapa kategori seperti berita politik,
informasi kapan saja dan di mana saja.
olahraga, ekonomi, kesehatan, dan lain Salah satu informasi yang sangat banyak
lain
(sebagai contoh pada website
dicari adalah berita. Dalam prosesnya
www.kompas.com,
pengguna yang mengakses berita yang
www.waspada.com,
dan
ingin dicari melalui internet biasa
www.vivanews.com).
Namun, dalam
menggunakan bantuan mesin pencari
membagi berita ke dalam kategoriseperti Google, Bing, dan berbagai mesin
kategori
pencari lainnya. Banyak instansi yang
tersebut untuk saat ini masih dilakukan
bergerak dalam penyaluran informasi
secara
manual,
artinya
dalam
masyarakat atau berita yang pada
mengunggah berita pengunggah harus
awalnya
terlebih dahulu mengetahui isi dari
menyampaikan berita melalui media
berita yang akan diunggah secara
Televisi, Surat, Kabar, Majalah atau
kesuluruhan
untuk
selanjutnya
Radio sudah mulai menggunakan sistem
dimasukkan ke dalam kategori yang
berbasis web untuk menyampaikan
tepat.
Membangun
aplikasi
beritanya secara up to date . Akan tetapi
pengklasifikasian berita dengan text
hasil yang didapat hanya berupa halaman
mining menggunakan NBC (Naïve
web yang mengandung informasi berita
Bayes Classifier)
sehingga
bisa
mempercepat
proses klasifikasi
dan
menghasilkan kategori berita yang
sesuai.
Manfaat yang diharapkan dari penelitian
ini adalah memberikan efisiensi waktu
dan efisiensi kerja bagi
para
penyedia
berita
dalam
mengklasifikasikan berita dan membantu
para pencari berita untuk mendapatkan
berita yang mereka inginkan.
Tujuan dari text mining adalah untuk
mendapatkan informasi yang berguna dari
sekumpulan
dokumen
yang
diklasifikasikan secara otomatis. Selain
klasifikasi, text mining juga digunakan
untuk menangani masalah clustering,
information extraction, dan information
retrival.
II.
IDENTIFIKASI MASALAH
Dalam penelitian ini akan dibangun
sebuah sistem berbasis web dimana
sistem tersebut dapat Mengklasifikasikan
berita secara otomatis. Sehingga dapat
dibuat rumusan masalahnya yaitu :
bagaimana
mengklasifikasikan berita secar otomatis.
Agar tulisan ini tidak keluar dari pokok
permasalahan yang dirumuskan maka
ruang lingkup pembahasan dibatasi pada
algoritma
yang
digunakan
dalam
Mengklasifikasian adalah naïve bayes
classifier, perancangan program aplikasi
sistem pengklasifikasian
ini menggunakan bahasa pemrograman
PHP dan database server Mysql, kategori
berita yang digunakan
hanya 4 kategori yaitu berita politik,
ekonomi, olahraga dan
entertainment
dimana data berita tersebut diambil dari
media berita online, berita yang
digunakan dalam penelitian ini hanya
berita berbahasa Indonesia, pada tahap
text mining tidak dilakukan tahap tagging
karena tidak menangani teks yang
berbahasa inggris, penelitian ini tidak
melakukan
perbandingan
algoritma,
sistem yang dibangun tidak disatukan
ngan media berita yang sudah ada tetapi
dengan membuat homepagesendiri dan
menggunakan jaringan offline.
III.
PEMBAHASAN
1.
Preprocessing Text Mining
Menurut definisi, Text Mining adalah
proses menambang data yang berupa
teks dimana sumber data biasanya
didapatkan dari dokumen dan tujuannya
adalah mencari katakata yang dapat
mewakili isi dari dokumen sehingga
dapat dilakukan analisis keterhubungan
antar dokumen tersebut.. Text mining
mengekstrak informasi berguna dari
sumber data melalui identifikasi dan
eksplorasi yang tidak dalam bentuk
database record, melainkan dalam data
teks
yang
tidak
terstruktur.
Preprocessing adalah tahap proses awal
text mining terhadap teks untuk
mempersiapkan teks menjadi data yang
dapat diolah lebih lanjut. Sekumpulan
karakter yang bersambungan (teks) harus
dipecah-pecah menjadi unsur yang lebih
berarti. Suatu dokumen dapat dipecah
menjadi bab, sub-bab, paragraf, kalimat,
kata dan bahkan suku kata.
2.
Web Crawler
Web crawler adalah sebuah perangkat
lunak yang diguankan untuk menjelajah
serta mengumpulkan halaman-halaman
web yang selanjutnya diindeks oleh
mesin pencari. Sedangkan proses crawling
adalah proses yang digunakan oleh mesin
pencari
(search
engine)
untuk
mengumpulkan halaman website.
3.
Algoritma Naive Bayes Classifer
Algoritma
naive
bayes
classifier
merupakan algoritma yang digunakan
untuk mencari nilai probabilitas tertinggi
untuk mengklasifikasi data uji pada
kategori yang paling tepat. Dalam
penelitian ini yang menjadi data uji adalah
dokumen berita. Ada dua tahap pada
klasifikasi dokumen. Tahap pertama
adalah pelatihan terhadap dokumen yang
sudah diketahui kategorinya. Sedangkan
tahap kedua adalah proses klasifikasi
dokumen
yang
kategorinya.
belum
diketahui
IV.
KESIMPULAN
Setelah melakukan perancangan, analisis,
implementasi dan pengujian aplikasi
pengklasifikasian berita secara otomatis
maka dapat disimpulkan Aplikasi ini
sudah
mampu
melakukan
proses
klasifikasi data berita secara otomatis
dan proses klasifikasi semakin
akurat jika data yang digunakan dalam
pembelajaran berjumlah banyak. Untuk
Penelitian berikutnya diharapkan sistem
ini tidak hanya untuk mengklasifikasi
berita melainkan bisa juga digunakan
untuk mengklasifikasikan dokumen lain
seperti kesenian, olahraga, dan jurnal.
Hasil yang dihimpun berdasarkan kata
kunci dan tanggal pencarian telah dapat
Direpresentasikan
kembali kedalam
bentuk web berupa data-data hasil
proses pre-processing. Penelitian ini
masih banyak keterbatasan, sehingga
perlu dilakukan beberapa pengembangan
lebih lanjut terutama dalam hal
kapasitas penyimpanan aplikasi dan juga
dalah hal tingkat akurasi dari proses preprocessing.
Daftar Pustaka
Adiya, B. R. (n.d.). Penggunaan Web
Crawler Untuk Menghimpun Tweets
dengan Metode Pre - Processing Text
Mining . penelitian , 94-95.
Bambang Kurniawan, Syahrl Efendi,
Opim Salim Sitompul. (2012). Klasifikasi
Konten Berita Dengan Metode Text
Mining. penelitian , 15.
Budi Kurniawan Wangsa, Darmawan
Utomo, Saptadi Nuroho. (n.d.). Sistem
Peringkas Berita Otomatis berbasis Text
Mining menggunakan Generalized Vetor
Space Model: Studi Kasus Berita diambil
dari Media Massa Online. penelitian , 231233.
Download