TEXT MINING Surya Arditian Prakasa Program Studi S1 Informatika Sekolah Tinggi Teknologi Telematika Telkom Purwokerto [email protected] ABSTRAK Banyak instansi yang bergerak dalam penyaluran informasi atau berita sudah mulai menggunakan sistem web untuk menyampaikan berita secara up to date. Pada umumnya berita yang disampaikan dalam portal tersebut terdiri dari beberapa kategori seperti politik, olahraga, ekonomi, dan lain sebagainya. Namun, dalam membagi berita ke dalam kategorikategori tersebut saat ini masih dilakukan secara manual. Oleh karena itu perlu adanya sistem yang bisa mengklasifikasikan berita secara otomatis. Text mining merupakan metode klasifikasi yang merupakan variasi dari data mining berusaha menemukan pola yang menarik dari sekumpulan data tekstual yang berjumlah besar. Sedangkan algoritma naïve bayes classifier merupakan algoritma pendukung untuk melakukan klasifikasi. Sistem klasifikasi berita berbasis web dengan menggunakan bahasa pemrograman PHP dan database MySQL menunjukkan bahwa berita testing bisa terklasifikasi secara otomatis seluruhnya. Pencarian akan menggunakan focused crawler dan bersifat Text mining yakni hanya diambil teks beritanya saja. Sehingga didapat kesimpulan bahwa sistem yang dirancang mampu mencri berita secara terarah sekaligus meringkas berita dengan hasil yang dapat diterima. Kata kunci : Sistem Klasifikasi, Berita, data mining, Text Mining, naïve bayes, Focused Crawler, Peringkasan Otomatis secara umum seperti judul dan link I. PENDAHULUAN menuju berita tersebut. Dunia informasi yang semakin tidak Pada umumnya berita yang disampaikan mengenal batas ruang dan waktu dalam portal tersebut terdiri dari membuat semua orang bisa mengakses beberapa kategori seperti berita politik, informasi kapan saja dan di mana saja. olahraga, ekonomi, kesehatan, dan lain Salah satu informasi yang sangat banyak lain (sebagai contoh pada website dicari adalah berita. Dalam prosesnya www.kompas.com, pengguna yang mengakses berita yang www.waspada.com, dan ingin dicari melalui internet biasa www.vivanews.com). Namun, dalam menggunakan bantuan mesin pencari membagi berita ke dalam kategoriseperti Google, Bing, dan berbagai mesin kategori pencari lainnya. Banyak instansi yang tersebut untuk saat ini masih dilakukan bergerak dalam penyaluran informasi secara manual, artinya dalam masyarakat atau berita yang pada mengunggah berita pengunggah harus awalnya terlebih dahulu mengetahui isi dari menyampaikan berita melalui media berita yang akan diunggah secara Televisi, Surat, Kabar, Majalah atau kesuluruhan untuk selanjutnya Radio sudah mulai menggunakan sistem dimasukkan ke dalam kategori yang berbasis web untuk menyampaikan tepat. Membangun aplikasi beritanya secara up to date . Akan tetapi pengklasifikasian berita dengan text hasil yang didapat hanya berupa halaman mining menggunakan NBC (Naïve web yang mengandung informasi berita Bayes Classifier) sehingga bisa mempercepat proses klasifikasi dan menghasilkan kategori berita yang sesuai. Manfaat yang diharapkan dari penelitian ini adalah memberikan efisiensi waktu dan efisiensi kerja bagi para penyedia berita dalam mengklasifikasikan berita dan membantu para pencari berita untuk mendapatkan berita yang mereka inginkan. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen yang diklasifikasikan secara otomatis. Selain klasifikasi, text mining juga digunakan untuk menangani masalah clustering, information extraction, dan information retrival. II. IDENTIFIKASI MASALAH Dalam penelitian ini akan dibangun sebuah sistem berbasis web dimana sistem tersebut dapat Mengklasifikasikan berita secara otomatis. Sehingga dapat dibuat rumusan masalahnya yaitu : bagaimana mengklasifikasikan berita secar otomatis. Agar tulisan ini tidak keluar dari pokok permasalahan yang dirumuskan maka ruang lingkup pembahasan dibatasi pada algoritma yang digunakan dalam Mengklasifikasian adalah naïve bayes classifier, perancangan program aplikasi sistem pengklasifikasian ini menggunakan bahasa pemrograman PHP dan database server Mysql, kategori berita yang digunakan hanya 4 kategori yaitu berita politik, ekonomi, olahraga dan entertainment dimana data berita tersebut diambil dari media berita online, berita yang digunakan dalam penelitian ini hanya berita berbahasa Indonesia, pada tahap text mining tidak dilakukan tahap tagging karena tidak menangani teks yang berbahasa inggris, penelitian ini tidak melakukan perbandingan algoritma, sistem yang dibangun tidak disatukan ngan media berita yang sudah ada tetapi dengan membuat homepagesendiri dan menggunakan jaringan offline. III. PEMBAHASAN 1. Preprocessing Text Mining Menurut definisi, Text Mining adalah proses menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen dan tujuannya adalah mencari katakata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisis keterhubungan antar dokumen tersebut.. Text mining mengekstrak informasi berguna dari sumber data melalui identifikasi dan eksplorasi yang tidak dalam bentuk database record, melainkan dalam data teks yang tidak terstruktur. Preprocessing adalah tahap proses awal text mining terhadap teks untuk mempersiapkan teks menjadi data yang dapat diolah lebih lanjut. Sekumpulan karakter yang bersambungan (teks) harus dipecah-pecah menjadi unsur yang lebih berarti. Suatu dokumen dapat dipecah menjadi bab, sub-bab, paragraf, kalimat, kata dan bahkan suku kata. 2. Web Crawler Web crawler adalah sebuah perangkat lunak yang diguankan untuk menjelajah serta mengumpulkan halaman-halaman web yang selanjutnya diindeks oleh mesin pencari. Sedangkan proses crawling adalah proses yang digunakan oleh mesin pencari (search engine) untuk mengumpulkan halaman website. 3. Algoritma Naive Bayes Classifer Algoritma naive bayes classifier merupakan algoritma yang digunakan untuk mencari nilai probabilitas tertinggi untuk mengklasifikasi data uji pada kategori yang paling tepat. Dalam penelitian ini yang menjadi data uji adalah dokumen berita. Ada dua tahap pada klasifikasi dokumen. Tahap pertama adalah pelatihan terhadap dokumen yang sudah diketahui kategorinya. Sedangkan tahap kedua adalah proses klasifikasi dokumen yang kategorinya. belum diketahui IV. KESIMPULAN Setelah melakukan perancangan, analisis, implementasi dan pengujian aplikasi pengklasifikasian berita secara otomatis maka dapat disimpulkan Aplikasi ini sudah mampu melakukan proses klasifikasi data berita secara otomatis dan proses klasifikasi semakin akurat jika data yang digunakan dalam pembelajaran berjumlah banyak. Untuk Penelitian berikutnya diharapkan sistem ini tidak hanya untuk mengklasifikasi berita melainkan bisa juga digunakan untuk mengklasifikasikan dokumen lain seperti kesenian, olahraga, dan jurnal. Hasil yang dihimpun berdasarkan kata kunci dan tanggal pencarian telah dapat Direpresentasikan kembali kedalam bentuk web berupa data-data hasil proses pre-processing. Penelitian ini masih banyak keterbatasan, sehingga perlu dilakukan beberapa pengembangan lebih lanjut terutama dalam hal kapasitas penyimpanan aplikasi dan juga dalah hal tingkat akurasi dari proses preprocessing. Daftar Pustaka Adiya, B. R. (n.d.). Penggunaan Web Crawler Untuk Menghimpun Tweets dengan Metode Pre - Processing Text Mining . penelitian , 94-95. Bambang Kurniawan, Syahrl Efendi, Opim Salim Sitompul. (2012). Klasifikasi Konten Berita Dengan Metode Text Mining. penelitian , 15. Budi Kurniawan Wangsa, Darmawan Utomo, Saptadi Nuroho. (n.d.). Sistem Peringkas Berita Otomatis berbasis Text Mining menggunakan Generalized Vetor Space Model: Studi Kasus Berita diambil dari Media Massa Online. penelitian , 231233.