KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Rania Hasan 201110370311227 JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG 2015 LEMBAR PERSEMBAHAN Tugas akhir ini dapat diselesaikan berkat bantuan dari berbagai pihak yang turut serta berbagi doa dan dukungan. Untuk itu semua, saya persembahkan tugas akhir ini dan berterima kasih kepada : 1. Allah SWT yang maha memberi petunjuk dan maha pengasih. Alhamdulillah Allah telah memberikan saya keteguhan hati dan kesabaran selama mengerjakan Tugas Akhir ini. 2. Kedua orang tua saya, Bapak Hasan Malik dan Ibu Darmiati, yang mana telah memberikan semangat, motivasi dan dukungan, baik itu dukungan berupa do’a maupun materi serta sudah sabar mendidik dan merawat saya mulai dari kecil hingga saya mampu menyelesaikan Tugas Akhir ini. 3. Untuk mbak ku tersayang windy, yang telah memberikan dukungan baik berupa do’a dan materi, motivasi dan semangatnya dalam pengerjaan Tugas Akhir ini. 4. Untuk kekasih hati Novan Hermawan yang senantiasa memberikan dukungan baik berupa do’a maupun materi, motivasi dan semangatnya serta kesabarannya dalam proses pengerjaan Tugas Akhir ini. 5. Ibu Gita Indah Marthasari selaku pembimbing 1 yang membantu dalam memberikan arahan dalam mengerjakan Tugas Akhir ini. 6. Bapak Yufis Azhar selaku pembimbing 2 yang membantu dan memberi arahan dalam mengerjakan Tugas Akhir ini. 7. Pihak Dosen Pengajar yang telah memberikan ilmunya beserta Staff TU Jurusan Teknik Informatika UMM. 8. Teman-teman yang selalu mendukung dan memberikan semangat, Indah, Dewa, Nelly dan teman-teman kost Tlogomas Gang 15c No 12a, Malang yang telah senantiasa menjadi penyemangat. 9. Teman-teman EEC. 10. Semua pihak yang tidak dapat saya sebutkan satu persatu yang telah berjasa dalam pengerjaan tugas akhir ini. KATA PENGANTAR Bismillahirrahmanirrahim Dengan memanjatkan puji syukur kehadirat Allah SWT. Atas segala rahmat dan hidayah-NYA sehingga penulis dapat menyelesaikan Tugas Akhir yang berjudul : “KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA”, sebagai salah satu syarat kelulusan pada Jurusan Teknik Informatika, Fakultas Teknik, Universitas Muhammadiyah Malang. Dalam penulisan tugas akhir ini pokok-pokok bahasan yang meliputi perancangan dan implementasi algoritma Single Pass Clustering untuk pembuatan aplikasi klasterisasi dokumen artikel ilmiah. Penulis menyadari sepenuhnya bahwa Tugas Akhir ini masih jauh dari kesempurnaan karena terbatasnya pengetahuan dan keterampilan yang penulis miliki. Oleh karena itu kritik dan saran yang membangun dari berbagai pihak sangat diharapkan untuk perbaikan Tugas Akhir ini. Selanjutnya, penulis berharap semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak. Amin. Malang, 6 Agustus 2015 Penulis iii DAFTAR ISI ABSTRAK ....................................................................................................... i ABSTRACT ..................................................................................................... ii KATA PENGANTAR ..................................................................................... iii DAFTAR ISI .................................................................................................... iv DAFTAR GAMBAR ....................................................................................... vi DAFTAR TABEL ............................................................................................ viii BAB I PENDAHULUAN ................................................................................ 1 1.1 Latar Belakang Masalah ......................................................................... 1 1.2 Rumusan Masalah ................................................................................... 2 1.3 Tujuan ..................................................................................................... 2 1.4 Batasan Masalah ..................................................................................... 2 1.5 Metodologi Penelitian ............................................................................. 2 1.6 Sistematika Penulisan ............................................................................. 3 BAB II LANDASAN TEORI .......................................................................... 5 2.1 Data Mining ............................................................................................ 5 2.2 Text Mining ............................................................................................ 6 2.2.1 Preprocessing ..................................................................... 7 a. Case Folding ................................................................... 8 b. Tokenizing ...................................................................... 8 c. Filtering ........................................................................... 8 d. Stemming ........................................................................ 9 2.2.2 Kesamaan Kata................................................................... 10 2.2.3 Pembobotan term dengan TF-IDF ..................................... 11 2.2.4 Cosine Similarity ................................................................ 11 2.3 Konsep Single Pass Clustering ............................................................... 12 2.4 Purity ...................................................................................................... 13 2.5 Bahasa Pemrograman ............................................................................. 14 BAB III ANALISA DAN PERANCANGAN SISTEM .................................. 17 3.1 Analisa Masalah dan Penyelesaian ......................................................... 17 3.1.1 Kebutuhan Sistem ......................................................................... 17 iv 3.1.2 Gambaran Umum Sistem .............................................................. 17 3.1.3 Use Case Diagram ......................................................................... 19 3.1.4 Proses Klasterisasi ......................................................................... 19 3.1.5 Activity Diagram ........................................................................... 22 3.2 Perancangan Sistem ................................................................................ 25 3.2.1 Sequence Diagram......................................................................... 23 3.2.2 Entity Relation Diagram Sistem .................................................... 27 3.3 Desain Interface ...................................................................................... 28 3.3.1 Desain Menu Utama ...................................................................... 28 3.3.2 Desain Menu Klasterisasi .............................................................. 29 BAB IV IMPLEMENTASI DAN PENGUJIAN ............................................. 30 4.1 Implementasi Software ........................................................................... 30 4.1.1 Implementasi Preprocessing.......................................................... 30 4.1.2 Implementasi Interface Sistem ...................................................... 35 4.2 Pengujian Sistem dan Kebutuhan ........................................................... 40 4.2.1 Pengujian Functional Requirements ............................................. 40 4.2.2 Pengujian Non-Functional Requirements ..................................... 41 4.3.1 Pengujian Klasterisasi ................................................................... 41 BAB V PENUTUP .......................................................................................... 61 5.1 Kesimpulan ............................................................................................. 61 5.2 Saran ....................................................................................................... 61 DAFTAR PUSTAKA ...................................................................................... 62 v DAFTAR GAMBAR Gambar 2.1. Proses dalam KDD ...................................................................... 5 Gambar 2.2. Tahapan Proses Text Mining ....................................................... 7 Gambar 2.3. Case Folding ............................................................................... 8 Gambar 2.4. Tokenizing ................................................................................... 8 Gambar 2.5. Filtering ....................................................................................... 9 Gambar 2.6. Stemming ..................................................................................... 10 Gambar 3.1 Gambaran Umum Sistem ............................................................. 18 Gambar 3.2 Use Case Diagram Admin ........................................................... 19 Gambar 3.3 Perhitungan bobot term dan TF.IDF ............................................ 20 Gambar 3.4 Activity Diagram Kelola Dokumen Artikel Ilmiah Input ............. 23 Gambar 3.5 Activity Diagram Kelola Dokumen Artikel Ilmiah update........... 23 Gambar 3.6 Activity Diagram Kelola Dokumen Artikel Ilmiah Delete ........... 24 Gambar 3.7 Activity Diagram Klasterisasi Dokumen Artikel Ilmiah .............. 24 Gambar 3.8 Sequence Diagram Pengguna Tambah Data ............................... 25 Gambar 3.9 Sequence Diagram Pengguna Ubah Data ..................................... 26 Gambar 3.10 Sequence Diagram Pengguna Hapus Data ................................. 26 Gambar 3.11 Sequence Diagram Klasterisasi Dokumen Artikel Ilmiah.......... 27 Gambar 3.12 E-R Diagram .............................................................................. 27 Gambar 3.13 Desain Menu Utama ................................................................... 28 Gamabar 3.14 Desain Menu Klasterisasi ......................................................... 29 Gambar 4.1 Inisialisasi pengecekan sinonim ................................................... 30 Gambar 4.2 Inisialisasi Tokenizing .................................................................. 31 Gambar 4.3 Inisialisasi filtering ....................................................................... 31 Gambar 4.4 Inisialisasi stemming .................................................................... 31 Gambar 4.5 Inisialisasi perhitungan TF ........................................................... 32 Gambar 4.6 Inisialisasi perhitungan DF dan IDF ............................................ 32 Gambar 4.7 Inisialisasi perhitungan TF.IDF ................................................... 32 Gambar 4.8 Inisialisasi cosine similarity ......................................................... 33 Gambar 4.9 Inisialisasi nilai threshold ............................................................. 33 Gambar 4.10 Inisialisasi nilai centroid awal .................................................... 34 vi Gambar 4.11 Inisialisasi nilai centroid lanjutan ............................................... 34 Gambar 4.12 Inisialisasi persamaan hasil dengan threshold ........................... 34 Gambar 4.13 Inisialisasi hasil single pass clustering ...................................... 35 Gambar 4.12 Menu Utama atau Home............................................................. 35 Gambar 4.13 Menu File ................................................................................... 36 Gambar 4.14 Menu kelola data jurnal .............................................................. 36 Gambar 4.15 Menu pengecekkan sinonim ....................................................... 37 Gambar 4.16 Menu klasterisasi ........................................................................ 37 Gambar 4.17 hasil tokenizing ...................................................................................... 38 Gambar 4.18 hasil filtering ......................................................................................... 38 Gambar 4.19 hasil stemming ....................................................................................... 39 Gambar 4.20 hasil pembobotan TF ............................................................................. 39 Gambar 4.21 hasil klasterisasi .................................................................................... 40 Gambar 4.22 hasil percobaan I......................................................................... 43 Gambar 4.23 hasil percobaan II ....................................................................... 44 Gambar 4.24 hasil percobaan III ...................................................................... 45 Gambar 4.25 hasil percobaan IV ...................................................................... 46 Gambar 4.26 hasil percobaan V ....................................................................... 47 Gambar 4.27 hasil percobaan VI...................................................................... 49 Gambar 4.28 hasil percobaan VII .................................................................... 50 Gambar 4.29 hasil percobaan VIII ................................................................... 52 Gambar 4.30 hasil percobaan IX ...................................................................... 54 Gambar 4.31 hasil percobaan X ....................................................................... 56 Gambar 4.32 Grafik pengaruh threshold terhadap nilai purity ........................ 59 Gambar 4.33 Grafik pengaruh threshold terhadap nilai purity ........................ 59 vii DAFTAR TABEL Tabel 4.1 Pengujian Functional Requirements ................................................ 40 Tabel 4.2 Pengujian Non-Functional Requirements ........................................ 40 Tabel 4.3 Klasifikasi secara manual................................................................. 42 Tabel 4.4 Hasil pengujian keseluruhan ............................................................ 58 viii DAFTAR PUSTAKA [1] Carpineto, C., dan Romano, G., 2012. “A survey of automatic query expansion in University Research Colloquium 2015 ISSN 2407-9189 48 information retrieval.” ACM Computing Surveys (CSUR), 44(1), 1. [2] Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons, Inc. [3] Gordon, Michael D., 1991. User-Based Document Clustering by Redescribing Subject Descriptions with a Genetic Algorithm,. Journal of American Society for Information Science, 311-322. [4] Zainal Arifin, Agus dan Novan Setiono, Ari. 2002. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Jurusan Teknik Informatika, Institut Teknologi Sepuluh Nopember. [5] Ridho Barakkah, Ali. “CLUSTERING”. Jurusan Teknologi Informasi Politeknik Elektronika Negeri Surabaya. Workshop Data Mining, 18-20 Juli 2006. [6] Sulistyo-Basuki. Teknik dan Jasa Dokumentasi.(Jakarta: Gramedia Pustaka Utama, 1992). [7] Hasugian, Jonner. (2003). Penggunaan Bahasa Alamiah dan Kosa Kata Terkontrol Dalam Sistem Temu Kembali Informasi Berbasis Teks. Dalam USU digital library. [8] Feldman, R. & Sanger, J. (2007). The Text Mining Handbook. New York: Cambridge University Press. [9] Triawati, Chandra 2009, Metode Pembobotan Statistical Concept Based untuk Klastering dan Kategorisasi Dokumen Berbahasa Indonesia, Institut Teknologi Telkom Bandung. [10] Agusta, Ledy 2009, Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk Stemming Dokumen Teks Bahasa Indonesia, Konferensi Nasional Sistem dan Informatika 2009, Fakultas Teknologi Informasi Universitas Kristen Satya Wacana. 62 [11] Kadir, Abdul. 2004. Dasar Pemrograman Java 2. Andi. Yogyakarta. [12] Tan et al. 2005. “Introduction to Data Mining”. ACM. Inc. [13] Auvil, L. & Searsmith, D.,2003,Using Text Mining for Spam Filtering, hlm.4. Automated Learning Group, National Center for Supercomputing Applications, University of lllinois. [14] Satzinger, John W., Robert B. Jackson, Stephen D Burd. (2009). Systems Analysis and Design in a Changing World, Fifth Edition. Course Technology, Cengage Learning. [15] Februariyanti, Herny., Zuliarso, Eri. 2013. Klastering Dokumen Berita dari Web menggunakan Algoritma Single Pass Clustering. Fakultas Teknologi Informasi, Universitas Stikubank. 63