KLASTERISASI DOKUMEN ARTIKEL ILMIAH

advertisement
KLASTERISASI DOKUMEN ARTIKEL ILMIAH
MENGGUNAKAN ALGORITMA SINGLE PASS
CLUSTERING DENGAN DETEKSI KESAMAAN KATA
TUGAS AKHIR
Diajukan Untuk Memenuhi
Persyaratan Guna Meraih Gelar Sarjana Strata 1
Teknik Informatika Universitas Muhammadiyah Malang
Rania Hasan
201110370311227
JURUSAN TEKNIK INFORMATIKA
FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2015
LEMBAR PERSEMBAHAN
Tugas akhir ini dapat diselesaikan berkat bantuan dari berbagai pihak yang
turut serta berbagi doa dan dukungan. Untuk itu semua, saya persembahkan tugas
akhir ini dan berterima kasih kepada :
1.
Allah SWT yang maha memberi petunjuk dan maha pengasih.
Alhamdulillah Allah telah memberikan saya keteguhan hati dan kesabaran
selama mengerjakan Tugas Akhir ini.
2.
Kedua orang tua saya, Bapak Hasan Malik dan Ibu Darmiati, yang mana
telah memberikan semangat, motivasi dan dukungan, baik itu dukungan
berupa do’a maupun materi serta sudah sabar mendidik dan merawat saya
mulai dari kecil hingga saya mampu menyelesaikan Tugas Akhir ini.
3.
Untuk mbak ku tersayang windy, yang telah memberikan dukungan baik
berupa do’a dan materi, motivasi dan semangatnya dalam pengerjaan Tugas
Akhir ini.
4.
Untuk kekasih hati Novan Hermawan yang senantiasa memberikan
dukungan baik berupa do’a maupun materi, motivasi dan semangatnya serta
kesabarannya dalam proses pengerjaan Tugas Akhir ini.
5.
Ibu Gita Indah Marthasari selaku pembimbing 1 yang membantu dalam
memberikan arahan dalam mengerjakan Tugas Akhir ini.
6.
Bapak Yufis Azhar selaku pembimbing 2 yang membantu dan memberi
arahan dalam mengerjakan Tugas Akhir ini.
7.
Pihak Dosen Pengajar yang telah memberikan ilmunya beserta Staff TU
Jurusan Teknik Informatika UMM.
8.
Teman-teman yang selalu mendukung dan memberikan semangat, Indah,
Dewa, Nelly dan teman-teman kost Tlogomas Gang 15c No 12a, Malang
yang telah senantiasa menjadi penyemangat.
9.
Teman-teman EEC.
10.
Semua pihak yang tidak dapat saya sebutkan satu persatu yang telah berjasa
dalam pengerjaan tugas akhir ini.
KATA PENGANTAR
Bismillahirrahmanirrahim
Dengan memanjatkan puji syukur kehadirat Allah SWT. Atas segala rahmat
dan hidayah-NYA sehingga penulis dapat menyelesaikan Tugas Akhir yang
berjudul :
“KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN
ALGORITMA
SINGLE
PASS
CLUSTERING
DENGAN
DETEKSI
KESAMAAN KATA”, sebagai salah satu syarat kelulusan pada Jurusan Teknik
Informatika, Fakultas Teknik, Universitas Muhammadiyah Malang.
Dalam penulisan tugas akhir ini pokok-pokok bahasan yang meliputi
perancangan dan implementasi algoritma Single Pass Clustering untuk pembuatan
aplikasi klasterisasi dokumen artikel ilmiah.
Penulis menyadari sepenuhnya bahwa Tugas Akhir ini masih jauh dari
kesempurnaan karena terbatasnya pengetahuan dan keterampilan yang penulis
miliki. Oleh karena itu kritik dan saran yang membangun dari berbagai pihak
sangat diharapkan untuk perbaikan Tugas Akhir ini. Selanjutnya, penulis berharap
semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak. Amin.
Malang, 6 Agustus 2015
Penulis
iii
DAFTAR ISI
ABSTRAK ....................................................................................................... i
ABSTRACT ..................................................................................................... ii
KATA PENGANTAR ..................................................................................... iii
DAFTAR ISI .................................................................................................... iv
DAFTAR GAMBAR ....................................................................................... vi
DAFTAR TABEL ............................................................................................ viii
BAB I PENDAHULUAN ................................................................................ 1
1.1
Latar Belakang Masalah ......................................................................... 1
1.2
Rumusan Masalah ................................................................................... 2
1.3
Tujuan ..................................................................................................... 2
1.4
Batasan Masalah ..................................................................................... 2
1.5
Metodologi Penelitian ............................................................................. 2
1.6
Sistematika Penulisan ............................................................................. 3
BAB II LANDASAN TEORI .......................................................................... 5
2.1
Data Mining ............................................................................................ 5
2.2
Text Mining ............................................................................................ 6
2.2.1
Preprocessing ..................................................................... 7
a. Case Folding ................................................................... 8
b. Tokenizing ...................................................................... 8
c. Filtering ........................................................................... 8
d. Stemming ........................................................................ 9
2.2.2
Kesamaan Kata................................................................... 10
2.2.3
Pembobotan term dengan TF-IDF ..................................... 11
2.2.4
Cosine Similarity ................................................................ 11
2.3
Konsep Single Pass Clustering ............................................................... 12
2.4
Purity ...................................................................................................... 13
2.5
Bahasa Pemrograman ............................................................................. 14
BAB III ANALISA DAN PERANCANGAN SISTEM .................................. 17
3.1
Analisa Masalah dan Penyelesaian ......................................................... 17
3.1.1 Kebutuhan Sistem ......................................................................... 17
iv
3.1.2 Gambaran Umum Sistem .............................................................. 17
3.1.3 Use Case Diagram ......................................................................... 19
3.1.4 Proses Klasterisasi ......................................................................... 19
3.1.5 Activity Diagram ........................................................................... 22
3.2
Perancangan Sistem ................................................................................ 25
3.2.1 Sequence Diagram......................................................................... 23
3.2.2 Entity Relation Diagram Sistem .................................................... 27
3.3
Desain Interface ...................................................................................... 28
3.3.1 Desain Menu Utama ...................................................................... 28
3.3.2 Desain Menu Klasterisasi .............................................................. 29
BAB IV IMPLEMENTASI DAN PENGUJIAN ............................................. 30
4.1
Implementasi Software ........................................................................... 30
4.1.1 Implementasi Preprocessing.......................................................... 30
4.1.2 Implementasi Interface Sistem ...................................................... 35
4.2
Pengujian Sistem dan Kebutuhan ........................................................... 40
4.2.1 Pengujian Functional Requirements ............................................. 40
4.2.2 Pengujian Non-Functional Requirements ..................................... 41
4.3.1 Pengujian Klasterisasi ................................................................... 41
BAB V PENUTUP .......................................................................................... 61
5.1
Kesimpulan ............................................................................................. 61
5.2
Saran ....................................................................................................... 61
DAFTAR PUSTAKA ...................................................................................... 62
v
DAFTAR GAMBAR
Gambar 2.1. Proses dalam KDD ...................................................................... 5
Gambar 2.2. Tahapan Proses Text Mining ....................................................... 7
Gambar 2.3. Case Folding ............................................................................... 8
Gambar 2.4. Tokenizing ................................................................................... 8
Gambar 2.5. Filtering ....................................................................................... 9
Gambar 2.6. Stemming ..................................................................................... 10
Gambar 3.1 Gambaran Umum Sistem ............................................................. 18
Gambar 3.2 Use Case Diagram Admin ........................................................... 19
Gambar 3.3 Perhitungan bobot term dan TF.IDF ............................................ 20
Gambar 3.4 Activity Diagram Kelola Dokumen Artikel Ilmiah Input ............. 23
Gambar 3.5 Activity Diagram Kelola Dokumen Artikel Ilmiah update........... 23
Gambar 3.6 Activity Diagram Kelola Dokumen Artikel Ilmiah Delete ........... 24
Gambar 3.7 Activity Diagram Klasterisasi Dokumen Artikel Ilmiah .............. 24
Gambar 3.8 Sequence Diagram Pengguna Tambah Data ............................... 25
Gambar 3.9 Sequence Diagram Pengguna Ubah Data ..................................... 26
Gambar 3.10 Sequence Diagram Pengguna Hapus Data ................................. 26
Gambar 3.11 Sequence Diagram Klasterisasi Dokumen Artikel Ilmiah.......... 27
Gambar 3.12 E-R Diagram .............................................................................. 27
Gambar 3.13 Desain Menu Utama ................................................................... 28
Gamabar 3.14 Desain Menu Klasterisasi ......................................................... 29
Gambar 4.1 Inisialisasi pengecekan sinonim ................................................... 30
Gambar 4.2 Inisialisasi Tokenizing .................................................................. 31
Gambar 4.3 Inisialisasi filtering ....................................................................... 31
Gambar 4.4 Inisialisasi stemming .................................................................... 31
Gambar 4.5 Inisialisasi perhitungan TF ........................................................... 32
Gambar 4.6 Inisialisasi perhitungan DF dan IDF ............................................ 32
Gambar 4.7 Inisialisasi perhitungan TF.IDF ................................................... 32
Gambar 4.8 Inisialisasi cosine similarity ......................................................... 33
Gambar 4.9 Inisialisasi nilai threshold ............................................................. 33
Gambar 4.10 Inisialisasi nilai centroid awal .................................................... 34
vi
Gambar 4.11 Inisialisasi nilai centroid lanjutan ............................................... 34
Gambar 4.12 Inisialisasi persamaan hasil dengan threshold ........................... 34
Gambar 4.13 Inisialisasi hasil single pass clustering ...................................... 35
Gambar 4.12 Menu Utama atau Home............................................................. 35
Gambar 4.13 Menu File ................................................................................... 36
Gambar 4.14 Menu kelola data jurnal .............................................................. 36
Gambar 4.15 Menu pengecekkan sinonim ....................................................... 37
Gambar 4.16 Menu klasterisasi ........................................................................ 37
Gambar 4.17 hasil tokenizing ...................................................................................... 38
Gambar 4.18 hasil filtering ......................................................................................... 38
Gambar 4.19 hasil stemming ....................................................................................... 39
Gambar 4.20 hasil pembobotan TF ............................................................................. 39
Gambar 4.21 hasil klasterisasi .................................................................................... 40
Gambar 4.22 hasil percobaan I......................................................................... 43
Gambar 4.23 hasil percobaan II ....................................................................... 44
Gambar 4.24 hasil percobaan III ...................................................................... 45
Gambar 4.25 hasil percobaan IV ...................................................................... 46
Gambar 4.26 hasil percobaan V ....................................................................... 47
Gambar 4.27 hasil percobaan VI...................................................................... 49
Gambar 4.28 hasil percobaan VII .................................................................... 50
Gambar 4.29 hasil percobaan VIII ................................................................... 52
Gambar 4.30 hasil percobaan IX ...................................................................... 54
Gambar 4.31 hasil percobaan X ....................................................................... 56
Gambar 4.32 Grafik pengaruh threshold terhadap nilai purity ........................ 59
Gambar 4.33 Grafik pengaruh threshold terhadap nilai purity ........................ 59
vii
DAFTAR TABEL
Tabel 4.1 Pengujian Functional Requirements ................................................ 40
Tabel 4.2 Pengujian Non-Functional Requirements ........................................ 40
Tabel 4.3 Klasifikasi secara manual................................................................. 42
Tabel 4.4 Hasil pengujian keseluruhan ............................................................ 58
viii
DAFTAR PUSTAKA
[1]
Carpineto, C., dan Romano, G., 2012. “A survey of automatic
query expansion in University Research Colloquium 2015 ISSN
2407-9189 48 information retrieval.” ACM Computing Surveys
(CSUR), 44(1), 1.
[2]
Larose, Daniel T. 2005. Discovering Knowledge in Data: An
Introduction to Data Mining. John Willey & Sons, Inc.
[3]
Gordon, Michael D., 1991. User-Based Document Clustering by
Redescribing Subject Descriptions with a Genetic Algorithm,.
Journal of American Society for Information Science, 311-322.
[4]
Zainal Arifin, Agus dan Novan Setiono, Ari. 2002. Klasifikasi
Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma
Single Pass Clustering.
Jurusan Teknik Informatika, Institut
Teknologi Sepuluh Nopember.
[5]
Ridho Barakkah, Ali. “CLUSTERING”. Jurusan Teknologi
Informasi Politeknik Elektronika Negeri Surabaya. Workshop Data
Mining, 18-20 Juli 2006.
[6]
Sulistyo-Basuki. Teknik dan Jasa Dokumentasi.(Jakarta: Gramedia
Pustaka Utama, 1992).
[7]
Hasugian, Jonner. (2003). Penggunaan Bahasa Alamiah dan Kosa
Kata Terkontrol Dalam Sistem Temu Kembali Informasi Berbasis
Teks. Dalam USU digital library.
[8]
Feldman, R. & Sanger, J. (2007). The Text Mining Handbook.
New York: Cambridge University Press.
[9]
Triawati, Chandra 2009, Metode Pembobotan Statistical Concept
Based untuk Klastering dan Kategorisasi Dokumen Berbahasa
Indonesia, Institut Teknologi Telkom Bandung.
[10]
Agusta, Ledy 2009, Perbandingan Algoritma Stemming Porter
dengan Algoritma Nazief & Adriani untuk Stemming Dokumen
Teks Bahasa
Indonesia, Konferensi Nasional Sistem dan
Informatika 2009, Fakultas Teknologi Informasi Universitas
Kristen Satya Wacana.
62
[11]
Kadir, Abdul. 2004. Dasar Pemrograman Java 2. Andi.
Yogyakarta.
[12]
Tan et al. 2005. “Introduction to Data Mining”. ACM. Inc.
[13]
Auvil, L. & Searsmith, D.,2003,Using Text Mining for Spam
Filtering, hlm.4. Automated Learning Group, National Center for
Supercomputing Applications, University of lllinois.
[14]
Satzinger, John W., Robert B. Jackson, Stephen D Burd. (2009).
Systems Analysis and Design in a Changing World, Fifth Edition.
Course Technology, Cengage Learning.
[15]
Februariyanti, Herny., Zuliarso, Eri. 2013. Klastering Dokumen
Berita dari Web menggunakan Algoritma Single Pass Clustering.
Fakultas Teknologi Informasi, Universitas Stikubank.
63
Download