laporan kemajuan penelitian dosen pemula

advertisement
Kode/Nama Rumpun Imu : 123/ Ilmu Komputer
LAPORAN KEMAJUAN
PENELITIAN DOSEN PEMULA
PENERAPAN ALGORITMA K-MEANS DENGAN SELEKSI FITUR
INFORMATION GAIN UNTUK OPTIMASI ANALISIS SENTIMEN
MOVIE REVIEW
Tahun ke 1 dari rencana 1 tahun
KETUA : Setyo Budi, M.Kom.
ANGGOTA : Dwiyono Arifianto, S.Kom
NIDN : 0615097602
NIDN : 0602128104
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
JULI 2016
i
HALAMAN PENGESAHAN
ii
RINGKASAN
Keberadaan website memberikan kemudahan dan kebebasan bagi manusia dalam
menyampaikan informasi dan pendapatnya. Informasi dan pendapat kemudian tersimpan didalam
kumpulan dokumen teks. Dalam kurun waktu yang lama kumpulan dokumen teks bertambah
besar, sehingga ada pemikiran untuk melakukan penggalian dokumen teks. Analisis sentimen
merupakan salah satu metode penggalian dokumen teks, dimana terdapat proses memahami,
mengekstrak, dan mengolah informasi tekstual secara otomatis. Banyak penelitian analisis
sentimen menggunakan algoritma yang berbeda baik yang supervised learning atau unsupervised
learning. Hal ini disebabkan karena perbedaan akurasinya dan kecepatannya. Dokumen teks yang
berasal dari website masih terdapat atribut yang tidak relevan yang digunakan pada dataset,
sehingga dibutuhkan seleksi fitur yang dapat digunakan untuk mengurangi dataset yang tidak
relevan. Seleksi fitur yang digunakan di penelitian ini adalah Information Gain (IG). Hasil
pengujian algoritma K-Means tanpa seleksi fitur Information Gain dengan dataset 300 dokumen
negatif dan positif akurasinya masih rendah yaitu 57.83%, setelah menggunakan seleksi fitur
Information Gain akurasinya naik menjadi 78.67%. Pengujian dengan dataset 700 dokumen
negatif dan positif tanpa seleksi fitur akurasinya 56.71%, setelah menggunakan seleksi fitur
menjadi 72.79%, selanjutnya untuk dataset 1000 dokumen negatif dan positif akurasi K-Means
tanpa seleksi fitur akurasinya 50.40%, setelah menggunakan seleksi fitur akurasinya 72.15%.
Sehingga dengan model yang peneliti usulkan, algoritma K-Means menggunakan seleksi fitur
Information Gain dapat meningkatkan optimasi analisis sentimen movie review.
Kata Kunci : analisis sentimen, algoritma k-means, seleksi fitur, information gain, clustering
iii
PRAKATA
Assalamu’alaikum wr.wb.
Alhamdulillah, puji syukur penulis panjatkan ke hadirat Allah SWT, atas segala nikmat, rakhmat
dan karunia-Nya, sehingga penulis dapat menyelesaikan laporan kemajuan penelitian dosen
pemula dengan judul “ PENERAPAN ALGORITMA K-MEANS DENGAN SELEKSI FIRTUR
INFORMATION GAIN UNTUK OPTIMASI ANALISIS SENTIMEN MOVIEW REVIEW”.
Hasil penelitian dosen pemula ini semoga dapat memberikan manfaat kepada seluruh masyarakat
yang membacanya.
Untuk itu dalam kesempatan yang baik ini, saya mengucapkan banyak terima kasih kepada
seluruh pihak yang membantu dalam menyelesaikan penelitian dosen pemula ini.
Wassalamu’alaikum wr.wb.
Semarang,
Peneliti
iv
Juli 2016
DAFTAR ISI
LAPORAN KEMAJUAN PENELITIAN DOSEN PEMULA ....................................................... i
HALAMAN PENGESAHAN........................................................................................................ ii
RINGKASAN ...............................................................................................................................iii
DAFTAR ISI .................................................................................................................................. v
DAFTAR GAMBAR ................................................................................................................... vii
DAFTAR TABEL .......................................................................................................................viii
DAFTAR LAMPIRAN ................................................................................................................ iix
BAB 1 ............................................................................................................................................ 1
PENDAHULUAN ......................................................................................................................... 1
1.1. Latar Belakang ........................................................................................................................ 1
1.2. Rumusan Masalah ................................................................................................................... 4
1.3. Batasan Masalah ..................................................................................................................... 4
1.4. Keluaran .................................................................................................................................. 4
BAB 2 ............................................................................................................................................ 5
TINJAUAN PUSTAKA ................................................................................................................ 5
2.1
Penelitian Terkait .............................................................................................................5
2.2
Landasan Teori ................................................................................................................7
2.2.1
Analisis Sentimen ........................................................................................................7
2.2.2
Text Mining ..................................................................................................................7
2.2.3
Teknik Clustering ........................................................................................................8
2.2.4
RapidMiner ................................................................................................................11
2.2.5
Algoritma K-Means ...................................................................................................12
2.2.6
Tentang Movie Review ...............................................................................................13
2.2.7
Preprocessing Dokumen ............................................................................................14
2.2.8
Pembobotan TF-IDF ..................................................................................................16
2.2.9
Seleksi Fitur ...............................................................................................................16
2.2.10
Measure similarity......................................................................................................18
2.2.11
Model Confusion Matrix ............................................................................................19
TUJUAN DAN MANFAAT PENELITIAN ............................................................................... 21
3.1
Tujuan Penelitian ...............................................................................................................21
v
3.2
Manfaat Penelitian .............................................................................................................21
BAB 4 .......................................................................................................................................... 22
METODE PENELITIAN ............................................................................................................. 22
4.1
Kerangka Pemikiran ......................................................................................................22
4.2
Metode Penelitian ..........................................................................................................22
4.2.1
Pendahuluan dan Literatur .........................................................................................22
4.2.2
Rumusan Masalah ......................................................................................................23
4.2.3
Pengumpulan Data .....................................................................................................23
4.2.4
Model yang diusulkan ................................................................................................24
4.2.5
Evaluasi ......................................................................................................................40
BAB 5 .......................................................................................................................................... 42
HASIL YANG DICAPAI ............................................................................................................ 42
5.1
Eksperimen dan Pengujian Model .....................................................................................42
5.2
Analisis Accuracy K-Means menggunakan seleksi Information Gain 300 dokumen .......48
5.3
Analisis Waktu Clustering K-Means dengan seleksi fitu .................................................50
5.4 Analisa Precision dan Recall Algoritma K-Means menggunakan seleksi fitur Information
Gain 300 dokumen .......................................................................................................................51
5.5 Analisis Accuracy, Precision dan Recall dengan menggunakan dataset movie review 700
dokumen dan 1000 dokumen .......................................................................................................52
5.5.1
Akurasi 700 dokumen dan 1000 dokumen ................................................................53
5.5.2
Precision 700 dokumen dan 1000 dokumen ..............................................................55
5.5.3
Recall 700 dokumen dan 1000 dokumen ...................................................................56
BAB 6 .......................................................................................................................................... 57
RENCANA TAHAPAN BERIKUTNYA ................................................................................... 57
6.1
Rencana dan Jadual Selanjutnya .......................................................................................57
BAB 7. KESIMPULAN DAN SARAN ..................................................................................... 58
7.1
Kesimpulan........................................................................................................................58
7.2
Saran ..................................................................................................................................58
DAFTAR PUSTAKA .................................................................................................................. 59
LAMPIRAN-LAMPIRAN........................................................................................................... 62
vi
DAFTAR GAMBAR
Gambar 2. 1.Analisis Clustering Pada Gambar Kotak Berdasarkan Warna............................ 10
Gambar 2.2. Tampilan Area Kerja Rapidminer ....................................................................... 12
Gambar 2.3. Tahapan Preprocessing Secara Umum ............................................................... 14
Gambar 4.1. Kerangka Pemikiran ............................................................................................ 22
Gambar 4.2. Metode Penelitian ............................................................................................... 22
Gambar 4.3. Model Yang Diusulkan ....................................................................................... 24
Gambar 4.4. Contoh Gambar Confusion Matrix ...................................................................... 40
Gambar 5.1. Proses Pembacaan Dokumen Di Direktori……………………………..… … 43
Gambar 5.2. Proses Pembacaan Dokumen Di Direktori……………………………… ....... 43
Gambar 5. 1. Pembobotan TF-IDF masuk didalam preprocessing …………………… …..…. 44
Gambar 5. 2. Proses tanpa menggunakan Information Gain…………………………… …..…. 44
Gambar 5. 3. Akurasi K-Means tanpa menggunakan information gain……………… …..…. 45
Gambar 5. 4. Confunsion Matrik K-Means tanpa menggunakan information gain ….….. …45
Gambar 5. 5. Akurasi K-Means dengan menggunakan information gain………………...… 46
Gambar 5. 6. Confunsion Matrix K-Means menggunakan information gain ……… …..…. 47
Gambar 5. 7. Formula untuk algoritma clustering menggunakan information gain ..….……48
Gambar 5. 8. Accuracy K-Means dengan seleksi fitur information gain …………..….….. 49
Gambar 5. 9. Gambar akurasi K-Mean tanpa seleksi fitur 700 dokumen ………………… 50
Gambar 5. 10. Gambar akurasi K-Mean tanpa seleksi fitur 1000 dokumen ……………….. 50
Gambar 5. 11. Waktu proses K-Means untuk proses clustering …………………………… 51
Gambar 5. 12. Precision dan Recall K-Means dengan Information Gain ………………. …52
Gambar 5. 13. Grafik akurasi K-Means dengan information gain dataset 700 dan 1000
dokumen …………………………………………………………………………………
53
Gambar 5. 14. Grafik precision 700 dokumen dan 1000 dokumen ……………..………… 53
Gambar 5. 15. Grafik recall 700 dokumen dan 1000 dokumen ………………...…………. 56
vii
DAFTAR TABEL
Tabel 2.1: Tabel Confusion Matrix ……………………………………………….….…..…19
Tabel 4.1 Tabel Term Frequency dan Document Frequency………………………….…..……28
Tabel 4.2 Tabel Invers Document Frequency (idf)………………………………………….29
Tabel 4.3 Hasil tf * idf……………………………………………………………………………….30
Tabel 4.4 : Hasil tf * idf setelah ditambah 1 ……………………………………………….. 31
Tabel 4.5 Contoh hasil pembobotan setelah di Normalisasi………………………………. 32
Tabel 4.6 Hasil Normalisasi pembobotan term secara keseluruhan…………………………32
Tabel 4.7 Hasil tf * idf dan bobot setelah dinormalisasi ditambah kolom query………………33
Tabel 4.8: Dataset untuk proses algoritma K-Means…………………………………...…………36
Tabel 4. 9: Tabel hasil perhitungan data ke 1 dengan medoid…………………………….….….28
Tabel 4.10: Tabel hasil perhitungan data ke 1 dengan medoid baru………………….….…..39
Tabel 4.11: Tabel hasil perhitungan data ke 2 dengan medoid baru…………………..……..39
Tabel 5.1 Tabel 5.1 Perbandingan akurasi K-Means tanpa dan menggunakan IG…………..54
Tabel 5.2 Perbandingan akurasi K-Means tanpa dan menggunakan IG dataset 300, 700 dan
1000………………………………………………………………………………………..…54
viii
DAFTAR LAMPIRAN
LAMPIRAN 1 DRAFT MAKALAH DI YANG DIKIRIM KE SEMINAR NASIONAL MASIF II TAHUN 2016 ...................... 62
LAMPIRAN 2 . PENDAFTARAN MAKALAH DI SEMINAR NASIONAL MASIF II TAHUN 2016 3 SEPTEMBER 2016 ... 70
LAMPIRAN 3 : CONTOH DOKUMEN MOVIE REVIEW BERKATEGORI POSITIF, NAMA FILE CV000_29590.TXT ..... 71
LAMPIRAN 4 : CONTOH DOKUMEN MOVIE REVIEW BERKATEGORI POSITIF, NAMA FILE NAMA FILE
CV000_29416.TXT ....................................................................................................................................... 73
LAMPIRAN 5 : ANGGARAN PERUBAHAN ............................................................................................................ 75
ix
BAB 1
PENDAHULUAN
1.1. Latar Belakang
Website atau yang biasa disebut internet merupakan salah satu media yang tepat
sebagai pusat layanan informasi secara global untuk berbagai informasi (Jiawei & Kamber,
2006). Keuntungan dalam menggunakan website adalah dapat memberikan kemudahan dan
kebebasan bagi penggunanya untuk menyampaikan informasi dan pendapat. Semua informasi
dan pendapat yang telah disampaikan oleh pengguna akan tersimpan didalam sebuah
kumpulan dokumen yang berbentuk teks. Karena dalam dokumen teks maka sulit untuk
menemukan kembali informasi yang sesuai antara satu dokumen teks yang satu dengan yang
lainnya. Apalagi ditambah dalam kurun waktu yang cukup lama sehingga kumpulan
dokumen teks akan semakin bertambah besar, sehingga pada akhirnya ada pemikiran untuk
melakukan penambangan dokumen teks. Penambangan dokumen teks dari website yang
berisi komentar, pendapat, feedback, kritik dan review merupakan hal penting, karena apabila
dikelola dengan baik dan benar maka akan memberikan keuntungan berupa informasi yang
bermanfaat untuk membantu individu atau organisasi didalam pengambilan sebuah keputusan
(Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010). Hal itu tentu saja
sangat menguntungkan bagi siapa saja yang memanfaatkan penambangan dokumen teks.
Yang menjadi permasalahan didalam penambangan kumpulan dokumen teks yang berasal
dari website ialah dokumen teks masih dinyatakan didalam bahasa alami atau natural artinya
masih banyak atribut yang kurang sesuai pada dataset, sehingga bagi siapa saja yang
membutuhkan memungkinkan untuk membaca dan menganalisis kembali semua review atau
kumpulan dokumen yang ada (Li & Liu, A Clustering-based Approach on Sentiment
Analysis, 2010). Maka untuk mengatasi masalah itu membutuhkan seleksi fitur yang dapat
digunakan untuk mengurangi dataset yang tidak relevan. Ada beberapa algoritma seleksi fitur
yang dapat digunakan antara lain information gain, chi square, forward selection dan
backward elimination.
Saat ini, teknik yang berkembang untuk menganalisis kumpulan dokumen teks adalah
analisis sentimen atau opinion mining. Analisis sentimen merupakan suatu proses memahami,
mengekstrak, dan mengolah informasi tekstual secara otomatis. Pentingnya analisis sentimen
sekarang sangat terasa bagi manusia atau organisasi, hal itu ditandai dengan banyaknya
1
penelitian dan pesatnya perkembangan analisis sentimen, terbukti di Amerika Serikat kurang
lebih 20-30 perusahaan menfokuskan pada layanan analisis sentimen, ini membuktikan
bahwa mengumpulkan informasi dan selalu mencari tahu tentang hal apa yang orang lain
pikirkan merupakan sesuatu hal yang penting (Liu B. , 2010) baik melalui review situs online
dan blog pribadi.
Ada dua arah penelitian dalam analisis sentimen, yang pertama adalah untuk
mengklasifikasikan polaritas suatu teks yang diberikan, apakah yang diungkapkan merupakan
opini positif, negatif atau netral, penelitian ini sebelumnya dipelopori oleh (Pang, Lee, &
Shivakumar, 2002). Arah penelitian yang kedua adalah identifikasi subjektivitas atau
objektifitas, penelitian ini umumnya mengklasifikasikan sebuah teks kedalam satu dari dua
kelas yaitu tujuan atau subyektif.
Beberapa contoh penelitian yang berhubungan dengan analisis sentimen atau opinion
mining, antara lain menganalisa rating movie review dapat digunakan untuk mengetahui
tingkat pendapatan dari pemutaran suatu film (Pang, Lee, & Shivakumar, 2002). Review
movie dapat dimanfaatkan para penikmat film untuk memutuskan film apa yang akan
ditonton, bagi produser film dapat memanfaatkan opini untuk mengetahui penilaian yang
diberikan oleh para penikmat film tentang film-film yang paling banyak dikritik. Selain
review movie, review sebuah produk dapat membantu perusahaan untuk mempromosikan
produk mereka. Dalam bidang politik, opini kebijakan politik dapat membantu politisi untuk
memperjelas strategi politik mereka,
dan dengan review twitter dapat digunakan untuk
mengidentifikasi sentimen tentang pariwisata di Thailand selama kerusuhan di awal tahun
2010 (Claster, Cooper, & Sallis, 2010). Tetapi sampai saat ini belum ada teknik unsupervised
learning yang paling akurat untuk meningkatkan optimasi analisis sentimen review sebuah
film, hal ini seperti yang disampaikan oleh Kucuktunc et al. (Kucuktunc & Bambazoglu,
2012) dalam A Large-Scale Sentiment Analysis for Yahoo! Answers.
Dalam perkembangannya, banyak penelitian dengan menggunakan metode atau
algoritma yang berbeda, hal ini disebabkan karena masing-masing metode atau algoritma
mempunyai perbedaan, baik tingkat akurasi maupun tingkat kecepatannya dalam melakukan
proses clustering atau klasifikasi sebuah dokumen. Pada penelitian sebelumnya ada beberapa
teknik supervised learning seperti algoritma SVM (Stylios, 2010); (Abbasi, Chen , & Salem ,
2008); (O’Keefe & Koprinska, 2009); (Somayajulu, Reddy, & Dani, 2010) dan algoritma
Naive Bayes (Stylios, 2010); (Keefe & Koprinska, 2009), algoritma ini digunakan untuk
klasifikasi dokumen. Sedangkan teknik unsupervised learning dengan metode clustering,
seperti penelitian yang dilakukan oleh Gang Li dan Fei Liu (Li & Liu, A Clustering-based
2
Approach on Sentiment Analysis, 2010)
yaitu suatu metode dimana didalam
mengelompokkan dokumen dengan menggunakan persamaan topik yang dimiliki oleh
masing-masing dokumen, dengan tujuan untuk memudahkan pengguna dalam menemukan
dokumen yang diinginkan.
Penelitian-penelitian terdahulu
yang terkait tentang analisis sentimen baik
menggunakan teknik supervised learning maupun unsupervised learning adalah (Pang, Lee,
& Shivakumar, 2002) melakukan penelitian untuk mengetahui rating film dengan cara
melihat dan mengklasifikasikan review ke label positif atau negatif, dataset diambil dari
Internet Movie Database (IMDb), menggunakan metode Naïve Bayes Clasifier (NBC),
Maximum Entropy (ME) dan Suport Vector Machine (SVM) serta menggunakan pemilihan
fitur Unigram, N-Gram dan Part-of-Speech (POS), hasil penelitian ini menyatakan bahwa
algoritma terbaik dan efektif untuk klasifikasi teks adalah SVM sedangkan algoritma
terburuk untuk klasifikasi adalah NBC.
Christopher et al. (Christopher, Wong, & Chih-Ping, 2009) melakukan penelitian
untuk menganalisis klasifikasi review opini pembeli produk di website, metode yang
digunakan adalah Class Association Rule, NBC Information Gain dan NBC Chi Square,
dengan hasil penelitian bahwa akurasi Class Association Rules adalah 73%, NBC dan
Information Gain adalah 76,12% sedangkan NBC Chi Square tingkat akurasinya adalah
67,64 %.
Gang Li dan Fei Li (Li & Liu, A Clustering-based Approach on Sentiment Analysis,
2010), melakukan
penelitian
menggunakan
algoritma K-Means dengan menerapkan
metode pembobotan TF-IDF, Voting Mechanism dan Importing Term Score. Dataset yang
digunakan adalah movie review sebanyak 600 dokumen yang terbagi menjadi 300 dokumen
positif dan 300 dokumen negatif. Dalam penelitian ini hasil yang diperoleh adalah bahwa
clustering dokumen dengan menggunakan algoritma K-Means memiliki keunggulan lebih
baik dibanding jenis pendekatan symbolic techniques dan metode supervised learning,
dengan akurasi 77.17% - 78.33%.
Berdasarkan penelitian diatas, ada beberapa metode atau algoritma yang digunakan
untuk analisis sentimen, namun belum diketahui algoritma unsupervised learning yang
memiliki akurasi terbaik untuk meningkatkan optimasi analisis sentimen movie review, maka
didalam penelitian ini akan menerapkan algoritma K-Means dengan seleksi fitur Information
Gain untuk optimasi analisis sentimen movie review.
3
1.2. Rumusan Masalah
Berdasarkan uraian latar belakang diatas dapat dirumuskan suatu permasalahan yaitu
banyak metode atau algoritma yang digunakan untuk analisis sentimen, namun belum
diketahui algoritma unsupervised learning
yang memiliki akurasi terbaik untuk
meningkatkan optimasi analisis sentimen movie review, maka didalam penelitian ini akan
menerapan algoritma K-Means dengan seleksi fitur Information gain untuk optimasi analisis
sentimen movie review.
1.3. Batasan Masalah
Batasan masalah dalam penelitian ini adalah sebagai berikut :
 Konsentrasi pada penelitian analisis sentimen movie review untuk mengetahui kinerja
algoritma K-Means dengan seleksi fitur information gain pada proses pengelompokan
dokumen teks movie review.
 Dataset yang digunakan adalah dalam bentuk dokumen teks bahasa inggris.
 Menggunakan dataset movie review dalam bahasa inggris sebanyak 300 dokumen
berlabel negatif dan 300 berlabel dokumen positif, 700 dokumen berlabel negatif dan
700 dokumen berlabel positif dan 1000 dokumen berlabel negatif dan 1000 dokumen
berlabel positif yang diunduh dari http://www.cs.cornell.edu/people/pabo/moviereview-data/.
1.4. Keluaran
Kontribusi yang disumbangkan dari penelitian ini adalah diketahui tingkat akurasi
algoritma K-Means setelah menggunakan seleksi fitur Information Gain untuk optimasi
analisis sentimen movie review, sehingga dapat dijadikan referensi untuk penelitian
selanjutnya.
4
BAB 2
TINJAUAN PUSTAKA
2.1
Penelitian Terkait
Bertambahnya dokumen di website dari waktu ke waktu semakin bertambah tanpa
melihat besarnya dokumen yang sudah ada. Hal ini menyebabkan banyaknya penelitian untuk
menggali dokumen teks agar dapat diambil manfaatnya. Metode dan algoritma yang
digunakan juga berbeda-beda antara satu peniliti dengan peneliti lainnya, tujuannya adalah
untuk mendapatkan algoritma atau metode yang paling baik kinerjanya, baik itu untuk teknik
clustering maupun teknik klasifikasi. Selain metode dan algoritma yang berbeda, dataset
yang digunakan peneliti juga berlainan, ada yang menggunakan movie review (Reddy,
Somayajulu, & Dani, 2010); (Kucuktunc & Bambazoglu, 2012), data blog dan media sosial (
(Vidhya & Aghila, 2010); (Al-Subaihin, Al-Khalifa, & Al-Salman, 2011).
Berikut ini adalah beberapa penelitian yang terkait tentang analisis sentimen yang
diambil dari beberapa jurnal dan artikel, secara garis besar tinjauan studi dalam penelitian ini
yaitu penelitian yang dilakukan oleh Pang et al. (Pang, Lee, & Shivakumar, 2002) yang
berjudul Thumbs up? Sentiment Classification using Machine Learning Techniques,
membahas
tentang
penelitian
untuk
mengetahui
rating
sebuah
film
dengan
mengklasifikasikan review ke label positif atau negatif dari sebuah film, dataset yang
digunakan adalah Internet Movie Database (IMDb). Penelitian ini memanfaatkan metode
klasifikasi machine learning Naïve Bayes Clasifier (NBC), Maximum Entropy (ME) dan
Support Vector Machine (SVM) serta menggunakan seleksi fitur unigram, n-gram dan Partof-Speech (POS). Dari pengukuran kinerja yang dilakukan, diketahui bahwa algoritma terbaik
dan efektif untuk klasifikasi teks adalah SVM, sedangkan NBC adalah algoritma yang
terbutuk untuk klasifikasi.
Songbo Tan dan Zhang Jin (Tan & Zhang, 2007),
melakukan penelitian tentang
sentimen corpus bahasa china sebanyak 1.021 dokumen, menggunakan 4 metode feature
selection tradisional (DF, CHI, MI, IG) dan 5 metode machine learning (Centroid Classifier,
K-Nearest Neighbor, Naïve Bayes, Winnow Classifier, SVM classifier, hasil penelitian ini
menunjukkan bahwa Information Gain (IG) melakukan yang terbaik dalam seleksi fitur dan
SVM menunjukkan kinerja terbaik untuk klasifikasi sentimen.
5
Selanjutnya Abasi et al. (Abbasi, Chen , & Salem , 2008) mereka melakukan penelitian
tentang klasifikasi sentimen berbagai bahasa dengan menggunakan pendekatan SVM dan
pemilihan fitur Entropy Weighted Genetic Algorithm (EWGA), Information Gain (IG) dan
Genetic Algorithm (GA), mereka mengembangkan feature selection EWGA dengan
memanfaatkan informasi yang dihasilkan dari IG. Dataset untuk klasifikasi yang mereka
gunakan adalah bahasa inggris dan bahasa arab. Akurasi tertinggi yang mereka dapatkan
adalah sebesar 91,7% untuk EWGA.
Penelitian Jingnian et al. (Chen, Huang, Tian, & Qu, 2009) mereka melakukan penelitian
dengan menkomparasi beberapa metode feature selection seperti information gain (IG),
Multi-class Odds Ratio (MOR) dan Class Discriminating Measure (CDM), Extended Odds
Ratio (EOR), Weighted Odds Ratio (WOR) dan MC-OR. Menggunakan multikelas dataset
yaitu dataset routers dan dataset bahasa china. Akurasi tertinggi yang mereka dapatkan
adalah dengan pemilihan fitur CMD dengan akurasi sebesar 85,60 %.
Siva et al. (Reddy, Somayajulu, & Dani, 2010) melakukan penelitian klasifikasi movie
review dengan dataset dari IMDb, empat metode klasifikasi digunakan yaitu Naïve Bayes
(NB), Support Vector Machine (SVM), Complemented Naïve Bayes (CNB) dan
Discriminative Using Bayesian Networks (DPBN) dengan seleksi fitur Information Gain
(IG). Hasil penelitian mereka bahwa akurasi Complemented Naïve Bayes classifier (CNB)
adalah (94,85%), NB (89.25%), Discriminative Partitioning Using Bayesian Networks
(DPBN) (93.25) dan SVM (88.55%).
Gang Li dan Fei Li (Li & Liu, A Clustering-based Approach on Sentiment Analysis,
2010), melakukan
penelitian
menggunakan
algoritma K-Means dengan menerapkan
metode pembobotan TF-IDF, Voting Mechanism dan Importing Term Score. Dataset yang
digunakan adalah movie review sebanyak 600 dokumen yang terbagi menjadi 300 dokumen
berlabel positif dan 300 dokumen berlabel negatif. Dalam penelitian ini hasil yang diperoleh
adalah bahwa clustering dokumen dengan menggunakan algoritma
K-Means memiliki
keunggulan lebih kompetitif dibanding jenis pendekatan symbolic techniques dan metode
supervised learning, dengan akurasi 77.17% - 78.33%, lebih efesiensi waktu dan tidak ada
partisipasi manusia.
Selanjutnya Bruno et al. (Ohana & Brendan, 2011) melakukan penelitian tentang
klasifikasi sentiment dengan pendekatan SVM berbasis fitur seleksi yang digunakan untuk
menambah kecepatan klasifikasi berdasarkan perhitungan bobot atribut.
Dataset yang
digunakan sama seperti (Pang, Lee, & Shivakumar, 2002) validasi dan evaluasi mereka
menggunakan teknik 10-fold cross validation. Penelitian ini memperoleh rata-rata akurasi
6
sebesar 85,39% untuk SVM menggunakan semua fitur, setelah penghapusan fitur mereka
membatasi data yang diambil nilai terbaik yang ditemukan selama pengujian parameter
berjumlah 1800 fitur disimpan menggunakan bobot berbasis korelasi, yang menghasilkan
akurasi 85,49%.
2.2
Landasan Teori
2.2.1 Analisis Sentimen
Analisis sentimen atau juga bisa disebut opinion mining adalah suatu proses
memahami, mengekstrak, dan mengolah data tekstual secara otomatis, atau merupakan studi
komputasi pendapat, perasaan dan emosi yang dinyakan dalam bentuk teks.
Informasi
tekstual dikategorikan menjadi dua : fakta dan opini. Fakta merupakan ekpresi obyektif
mengenai suatu entitas, kejadian atau sifat, sedangkan opini adalah ekspresi subyektif yang
menggambarkan sentimen orang, pendapat atau perasaan tentang sebuah entitas, kejadian
atau sifat (Liu B. , 2010).
Analisis Sentimen bertujuan untuk mengekstrak atribut dan komponen dari objek yang
telah dikomentari di dalam setiap dokumen dan untuk menentukan apakah komentar tersebut
positif, negatif atau netral (Lee & Pang, 2008). Ada dua cara untuk pertambangan pendapat
yaitu dengan machine learning dan semantic orientation (Al-Subaihin, Al-Khalifa, & AlSalman, 2011). Machine learning dilakukan dengan cara mengumpulkan dan menyeleksi
opini yang ada di web, kemudian opini-opini tersebut diberikan label positif dan negatif,
sedangkan semantic orientatition merupakan kebalikan dari machine learning dan digunakan
secara realtime.
2.2.2 Text Mining
Seringkali studi data mining diprioritaskan pada pengolahan data yang terstruktur antara
lain data relasioanal, transaksional dan data warehouse. Tetapi pada kenyataanya banyak data
yang berupa informasi dan dokumen yang tersimpan didalam basis teks atau basis dokumen.
Banyaknya data ini bisa berasal dari berbagai sumber seperti review, opini, berita, paper,
buku, perpustakaan digital, pesan e-mail dan halaman web. Sehingga untuk mengambil
intisari dari kumpulan teks dan dokumen dibutuhkan suatu teknik yang disebut text mining.
Teknik ini merupakan suatu proses pengambilan intisari dari dokumen teks sehingga
didapatkan hasil yang berguna untuk tujuan tertentu (Witten, Frank, & Hall, 2011). Text
mining merupakan riset yang tergolong baru dan merupakan salah satu bidang dari data
mining yang saat ini terus berkembang. Sesuai dengan buku The Text Mining Handbook
7
(Francis & Flynn, 2010), text mining dapat didefinisikan sebagai suatu proses menggali
informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools
analisis yang merupakan komponen-komponen dalam data mining yang salah satunya adalah
kategorisasi.
Perbedaan antara data mining dengan text mining adalah terletak pada dataset yang
digunakan, didalam data mining dataset yang digunakan bersifat terstruktur tetapi didalam
text mining data yang digunakan bersifat tidak terstruktur (Francis & Flynn, 2010). Karena
data yang tidak tersetruktur inilah diperlukan text mining yang dapat memberikan solusi baru
dalam hal pemrosesan, pengelompokan atau pengorganisasian dan analisis teks untuk
kumpulan dokumen yang sangat besar. Kegiatan riset untuk text mining antara lain ekstraksi
dan penyimpanan teks, preprocessing akan konten teks, pengumpulan data statistic, indexing
dan analisa konten. Proses text mining meliputi kategori teks, text clustering, ekstraksi
konsep/entitas, produksi taksonomi granular, sentiment analisys, penyimpulan dokumen dan
pemodelan relasi entitas. Tujuan yang akan dicapai didalam text mining adalah untuk
menemukan pola yang berguna dalam sebuah kumpulan dokumen.
2.2.3 Teknik Clustering
Dalam “Data Mining Cluster Analysis: Basic Concepts and Algorithms “, (Tan,
Steinbach, & Kumar, 2004). membagi clustering menjadi dua kelompok, yaitu hierarchical
dan partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek-obyek
data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu
cluster. Hierarchical clustering adalah sekelompok cluster yang bersarang seperti sebuah
pohon hirarki.
William (Williams, 2006) membagi algoritma clustering ke dalam kelompok besar
adalah sebagai berikut:
1. Partitioning algorithms merupakan kelompok Algoritma yang membentuk bermacam
partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria.
2. Hierarchy algorithms merupakan kelompok algoritma dengan proses pembentukan
dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria.
3. Density-based merupakan kelompok algoritma dengan pembentukan cluster
berdasarkan pada koneksi dan fungsi densitas.
4. Grid-based merupakan kelompok algoritma dengan proses pembentukan cluster
berdasarkan pada struktur multiple-level granularity
8
5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-masing cluster
dan model yang baik dipilih diantara model hipotesa tersebut.
Clustering dapat dianggap suatu proses yang penting didalam metode unsupervised learning
(Jain, Murty, & Flynn, 1999) yaitu proses pengelompokan dokumen berdasar pada kesamaan
topik (Al-Mubaid & Umair, 2006) antara cluster yang satu dengan yang lainnya. Xu dan
Wunsch (Xu & Wunsch, 2009) menyatakan bahwa pengelompokan clustering objek
kedalam beberapa kelompok (cluster) yang mempunyai sifat homogen atau dengan variasi
sekecil mungkin adalah diperlukan karena dapat memudahkan analisis data. Tujuan utama
dari clustering dokumen adalah untuk membagi dokumen menjadi beberapa kelompok
dimana dokumen didalam kelompok yang sama mempunyai kemiripan satu dengan yang
lainnya berdasarkan kemiripan dari kemunculan term.
Keuntungan yang diperoleh dari proses clustering adalah dapat menarik pola dan struktur
secara langsung yang ditemukan dari dataset yang sangat besar (Velmurugan & Santhanam,
2010), dengan clustering maka dapat dilakukan analisis pola-pola, mengelompokkan,
membuat keputusan dan machine learning termasuk data mining, document retrieval,
segmentasi citra serta klasifikasi pola. Metodologi clustering cocok untuk eksplorasi
hubungan antar data untuk membuat penilaian terhadap suatu struktur. Contoh hasil
analisis clustering ditampilkan
pada gambar kotak yang dikelompokkan menjadi tiga
berdasarkan warna seperti yang disajikan pada Gambar 2.1. Teknik clustering dokumen
merupakan teknik yang lebih spesifik dari pengorganisasian unsupervised dokumen, otomatis
ekstraksi topik serta pengambilan dan penyaringan informasi secara cepat (Boiy, Hens,
Deschacht, & Moens, 2007; Zamir, Oren, Madani, & Karp, 1997).
Contoh pemakaian teknik clustering adalah digunakan pada search engine web untuk
mengelompokkan dokumen secara otomatis pada sebuah daftar kategori yang memudahkan
untuk memperoleh keterkaitan informasi yang relevan, dibidang pemasaran clustering dapat
membantu penjual menemukan kelompok yang berbeda dari pusat pelanggan mereka
kemudian menggunakan ilmu pengetahuan untuk mengembangkan program penjualan
sehingga penjualan dapat dipenuhi, dibidang perencanaan kota metode clustering dapat
digunakan untuk mengidentifikasi kelompok rumah sesuai dengan tipe rumah, harga dan
lokasi geografis.
9
Gambar 2. 1.Analisis clustering pada gambar kotak berdasarkan warna
Terdapat dua pendekatan atau tipe pada teknik clustering yaitu partitional clustering dan
hirerarchical clustering. Dalam partitional clustering kita kelompokkan objek x1,x2,......,xn
kedalam sebuah k cluster. Hal ini bisa dilakukan dengan menentukan pusat cluster awal,
kemudian dilakukan relokasi objek berdasarkan kriteria tertentu sampai dicapai
pengelompokan yang maksimal, sedangkan pada hirerarchical clustering dimulai dengan
membuat m cluster, dimana setiap cluster beranggotakan satu objek, dan berakhir dengan
satu cluster dimana anggotanya adalah m objek. Pada setiap tahap dalam prosedurnya, satu
cluster digabung dengan satu cluster lainnya. Kita bisa memilih berapa jumlah cluster yang
diinginkan dengan menentukan pemotongan untuk berhenti pada tingkat tertentu.
Dasar dari tahapan dalam clustering dokumen adalah preprocessing, term weighting baru
kemudian penerapan algoritma clustering yang kita tentukan. Tahap preprocessing akan
menghasilkan kumpulan term yang nantinya akan diberikan bobot atau nilai dimana bobot
tersebut mengindikasikan pentingnya sebuah term terhadap dokumen. Semakin sering term
muncul pada koleksi dokumen, maka semakin tinggi nilai atau bobot term tersebut, maka
kemudian pemberian bobot dapat disebut term weighting. Hasil dari pemberian bobot atau
term weighting adalah menghasilkan sebuah matrik term dokumen dengan dimensi mxn,
dimana m adalah jumlah term dan n adalah jumlah dokumen, maka model ini bisa disebut
model ruang vektor atau vector space model.
Beberapa algoritma untuk clustering telah diusulkan oleh para peneliti (Berkhin, 2002;
Xiong, 2009; Borah & Ghose, 2009; Rakhlin & Caponnetto, 2007), contoh aplikasi yang
menerapkan clustering adalah pengenalan pola, analisis data spatial, pemrosesan gambar,
aplikasi ilmu ekonomi (terutama riset pasar), aplikasi web meliputi klasifikasi dokumen dan
weblog cluster.
10
2.2.4 RapidMiner
Tools yang digunakan didalam penelitian ini adalah framework RapidMiner. Perangkat
lunak ini dibuat oleh Dr. Markus Hofmann dari Institute of Technology Blanchardstown,
Blanchardstown Road North, Dublin, Irlandia dan Ralf Klinkenberg dari www.rapid-i.com
dengan tampilan yang menarik dan sudah menggunakan GUI (Graphical User Interface).
RapidMiner menyediakan software, solusi dan layanan di bidang analisis prediktif, data
mining, dan text mining. RapidMiner akan memudahkan pengguna dalam menggunakan
perangkat lunak ini. Gambar 1 merupakan tampilan area kerja RapidMiner. Perangkat lunak
ini bersifat terbuka (open source) dan dibuat dengan menggunakan bahasa Java di bawah
lisensi GNU Public License dan RapidMiner dapat dijalankan di sistem operasi manapun.
Dengan menggunakan RapidMiner, tidak dibutuhkan kemampuan khusus harus bisa
membuat program, karena semua fasilitas sudah disediakan.
RapidMiner memiliki beberapa sifat sebagai berikut:

Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai sistem
operasi.

Proses penemuan pengetahuan dimodelkan sebagai operator trees

Representasi XML internal untuk memastikan format standar pertukaran data.

Bahasa scripting memungkinkan untuk eksperimen
skala besar dan otomatisasi
eksperimen.

Konsep multi-layer untuk menjamin tampilan data
yang efisien dan menjamin
penanganan data.

Memiliki GUI, command line mode, dan Java API yang dapat dipanggil dari program
lain.
Beberapa Fitur dari RapidMiner, antara lain:

Banyaknya algoritma data mining, seperti decision tree dan self-organization map.

Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree chart dan
3D Scatter plots.

Banyaknya variasi plugin, seperti text plugin untuk melakukan analisis teks.

Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction,
transformation,

loading), data preprocessing, visualisasi, modelling dan evaluasi

Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan
XML, dan dibuat dengan GUI
11

Mengintegrasikan proyek data mining Weka dan statistika R.
Model yang disediakan juga cukup lengkap, seperti model Clustering, Fitute Selection,
Bayesian Modelling, Tree Induction, Neural Network dan lain-lain. Banyak metode yang
disediakan oleh RapidMiner mulai dari klasifikasi, Clustering, asosiasi dan lain-lain.
Di antara pengguna perusahaan terkenal seperti Ford, Honda, Nokia, Miele, Philips, IBM,
HP, Cisco, Merrill Lynch, BNP Paribas, Bank of America, Mobilkom Austria, Akzo Nobel,
Aureus Pharma, PharmaDM, Cyprotex, Celera, Revere, LexisNexis, Mitre dan masih banyak
model bisnis open-source dari Rapid-I.
Gambar 2.2. Tampilan area kerja RapidMiner
2.2.5 Algoritma K-Means
Metode K-Means diperkenalkan oleh James B Mac Queen pada tahun 1967 dalam
Proceding of the 5th Berkeley Symposium on Mathematical Statistics and Probability
(MacQueen, 1967). K-Means merupakan suatu metode untuk menganalisa data atau metode
data mining dimana dalam melakukan proses pemodelan tanpa supervisi (unsupervised) dan
merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi.
K-Means adalah salah satu teknik unsupervised learning yang paling sederhana dan baik
untuk memecahkan masalah clustering (Velmurugan & Santhanam, 2010).
Prinsip utama dari algoritma K-Means adalah mengelompokkan dokumen dalam
beberapa cluster. Banyaknya centroid menentukan jumlah cluster yang akan dihasilkan.
Tujuan dari algoritma ini adalah meminimalkan tujuan suatu fungsi, dalam hal ini adalah
sebuah kuadrat kesalahan fungsi. Berikut adalah pseudocode dari algoritma K-Means.
Algoritma K-Means Clustering
12
Input : Koleksi Dokumen D={d1, d2, d3, … dn};
Jumlah cluster (k) yang akan dibentuk;
Output : k cluster;
Proses : 1. Memilih k dokumen untuk dijadikan centroid (titik pusat cluster) awal secara
random;
2. Hitung jarak setiap dokumen ke masing-masing centroid menggunakan
persamaan cosines similarity (persamaan 3) kemudian jadikan satu cluster untuk
tiap-tiap dokumen yang memiliki jarak terdekat dengan centroid;
3. Tentukan centroid baru dengan cara menghitung nilai rata-rata dari data-data yang
ada pada centroid yang sama;
4. Kembali ke langkah 2 jika posisi centroid baru dan centroid lama tidak sama;
2.2.5.1 Keunggulan K-Means
Ada beberapa keunggulan dari algoritma K-Means antara lain K-Means memiliki
kelebihan yaitu relatif lebih efesien dan mempunyai kemampuan
lebih cepat
dalam
memproses dataset yang besar dan K-Means mudah dipahami dan diimplementasikan,
mampu mengelompokan objek yang besar dan noise
dengan sangat cepat sehingga
mempercepat proses pengelompokan.
2.2.5.2 Kelemahan K-Means
Algoritma K-Means mempuanyai beberapan kelemahan yaitu dalam iterasinya algoritma
ini akan berhenti dalam kondisi optimum lokal (Williams, 2006), mengharuskan didalam
menentukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data meannya, dan tidak mampu menangani data yang mempunyai noise atau outlier.
2.2.6 Tentang Movie Review
Internet Movie Database atau IMDb adalah situs yang diciptakan Col Needham 20 tahun
lalu. Needham adalah seorang pencinta film yang pada waktu bekerja di salah produsen
hardware komputer yaitu Hewlett Packard, diluncurkan pada tahun 1990. Tahun 1999,
IMDb.com memenangkan Webby Award dan kemudian miliki oleh Amazon.com. Kini,
IMDb adalah salah satu situs yang paling besar dan paling lengkap untuk segala hal yang
berhubungan dengan film dan produksi film. The Internet Movie Database adalah database
film terbesar di Website, menampilkan film terbaik, berita film, movie review, trailer film,
jadwal pemutaran film, review film DVD, profil selebriti, dll. Internet Movie Database
(IMDb) benar-benar merupakan tempat penyimpanan terbesar tentang informasi film.
Sehingga dengan populernya IMDb, maka dalam penelitian ini dataset yang digunakan
13
adalah
movie
review
dalam
teks
berbahasa
inggris
http://www.cs.cornell.edu/people/pabo/movie-review-data/.
yang
Dataset
diambil
tersebut
dari
sudah
dikelompokkan didalam dua kelompok yaitu kelompok movie review yang berlabel positif
dan kelompok movie review yang berlabel negatif, jumlah masing-masing kelompok ada
1000 dokumen.
2.2.7 Preprocessing Dokumen
Dalam pengolahan text mining salah satu langkah awal yang perlu dilakukan
adalah
preprocessing. Preprocessing merupakan tahapan untuk mengukur struktur isi dari suatu
dokumen kedalam format yang sesuai yaitu berupa kumpulan term (Suanmali, Salim, &
Binwahlan, 2008) untuk selanjutnya diproses kedalam algoritma clustering. Preprocessing
biasanya dilakukan dengan menghilangkan stopword ( term yang tidak signifikan ) dan
proses stemming (Wajeed & Adilakshmi, 2005 - 2009). Preprocessing digunakan untuk
menghasilkan data training yang menghasilkan sejumlah tuple (record) dan class, sehingga
dapat digunakan untuk menggolongkan nilai suatu opini kedalam kategori positif dan negatif.
Tahapan umum preprocessing adalah seperti pada Gambar 2.
Tokenizing
Filtering
Analysing
Stemming
Tagging
Gambar 2.3. Tahapan preprocessing secara umum
1.
Tokenizing
Tokenizing merupakan proses pemenggalan susunan term dari suatu kalimat menjadi
kumpulan token, menghilangkan karakter selain huruf seperti angka dan tanda baca, serta
karakter angka dan tanda baca dianggap sebagai delimiter atau pemisah. Proses
tokenizing dapat dilihat pada contoh dibawah ini.
Teks Input : “Studying the Text Mining “
Hasil Tokenizing
Ttudying
the
Text
Mining
14
2.
Filtering Stopword
Dalam tahap stopword, kata-kata yang tidak sesuai dalam suatu topik, atau kata-kata
yang tidak mendeskripsikan suatu dokumen akan dihilangkan, contohnya antara lain
kata-kata : “a”,”and”,”are”,”the” dan yang lainnya. Contoh stopword sebagai berikut.
Teks Input : “Studying the text mining “
studying
3.
Hasil Filtering
text
Stopword
mining
Stemming
Steming merupakan bagian dari preprocessing yang digunakan untuk mencari kata dasar
dengan cara mengubah kata berimbuhan menjadi kata dasarnya, dengan tujuan untuk
meningkatkan kualitas informasi. Kualitas informasi yang dimaksud adalah hubungan
diantara kata itu sendiri, misalnya “writing”, “write”, “writed”, yang semula adalah kata
yang berbeda, tetapi dengan adanya stemming, kata tersebut menjadi ‘write’, sehingga
ada hubungan antara ketiga kata tersebut. Selain itu, space yang digunakan untuk
penyimpanan juga menjadi lebih kecil, contoh stemming sebagai berikut :
4.
Hasil Stopword
Hasil Stemming
studying
study
text
text
mining
mine
Tagging
Tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil
stemming. Tagging biasanya dipakai untuk bahasa inggris. Contoh stemming sebagai
berikut.
Was
used
stori
5.
Be
Use
story
Analysing
Tahap analysing merupakan tahap akhir untuk menentukan seberapa jauh kedekatan atau
kemiripan antar kata-kata atau antar dokumen yang ada. Pada tahap ini dilakukan
representasi nilai numerik yaitu dengan melakukan pembobotan tf-idf dan model ruang
vector (vector space model ). Setelah itu dari vektor yang sudah diukur kemiripannya
15
(similarity) dengan menghitung cosines sudut antar vector query, sehingga diperoleh nilai
dengan range antara 0 sampai 1. Nilai semakin mencapai angka 1 maka dokumen tersebut
semakin sama.
2.2.8 Pembobotan TF-IDF
Sering munculnya term dalam dokumen dapat digunakan sebagai proses untuk
melakukan perhitungan sehingga diketahui penting atau tidaknya suatu kalimat. Proses
perhitungan bisa dilakukan setelah dokumen direpresentasikan kedalam bentuk nilai numerik
dokumen oleh Vector Space Model dan TF-IDF. Skor kalimat dapat dihitung sebagai jumlah
dari skor/nilai kata dalam kalimat tersebut (Suanmali, Salim, & Binwahlan, 2008). Salah satu
algoritma yang dipakai untuk menghitung skor atau pembobotan sebuah term dalam suatu
dokumen adalah TF-IDF (Term Frequency-Inversed Document Frequency) (Yates & Neto,
1999). TF (Term Frekuency) adalah banyaknya kemunculan suatu term dalam dokumen. IDF
(Inverse Document Frequency) adalah perhitungan logaritma antara pembagian jumlah total
dokumen dengan cacah dokumen yang mengandung term, dan TF-IDF adalah perkalian
antara TF dengan IDF. Semakin besar bobot TF-IDF pada suatu term, maka semakin penting
term tersebut untuk bisa digunakan pada tahapan klasifikasi atau clustering dokumen.
TF-IDF weighting menghitung term dari dokumen yang diwujudkan sebagai sebuah
vector dengan elemen sebanyak term yang berhasil dideteksi pada proses penghilangan
stopword dan stemming. Vector tersebut beranggotakan bobot dari tiap term yang dihitung
berdasarkan metode ini. Formula yang digunakan untuk menghitung bobot adalah seperti
persamaan dibawah ini:
wij = tf ij × ( log (D /df j ) + 1 )
(1)
D
= total dokumen
df
= banyak dokumen yang mengandung kata yang dicari
tf
= banyaknya kata yang dicari pada sebuah dokumen
2.2.9
Seleksi Fitur
Feature Selection adalah salah teknik terpenting dan sering digunakan dalam preprocessing
data mining (Kira & Rendel, 1992), khususnya untuk knowledge discovery maupun discovery
scince. Tujuan dari feature selection adalah untuk mengurangi jumlah fitur yang terlibat
dalam hal untuk menentukan suatu nilai kelas target, mengurangi fitur yang tidak sesuai, fitur
yang berlebihan dan data yang menyebabkan salah pengertian terhadap menentukan kelas
target yang mempunyai efek mempercepat proses aplikasi. Hasil yang didapat dari seleksi
fitur adalah untuk mempercepat dan meningkatkan kinerja proses mining, contohnya adalah
16
proses prediksi. Feature adalah seluruh kata yang muncul dalam training set. Set ini biasanya
sangat besar yaitu satu dimensi untuk setiap kata unik sehingga memiliki feature space yang
sangat besar.
Feature selection adalah metode untuk mereduksi dimensi feature space dengan cara
memilih kata-kata yang paling berkualitas. Salah satu metode yang terbukti sangat efektif
dalam melakukan supervised feature selection diantaranya adalah Information Gain (IG) dan
Chi Square (CHI) (Liu T. a., 2003) . Maka didalam penelitian ini seleksi fitur yang digunakan
adalah Information Gain (IG). Pada tahap ini, atribut yang akan diolah harus diminimalisasi
terlebih dahulu dengan tujuan untuk membuang atribut yang tidak perlu sehingga hanya
atribut yang mempunyai relevansi kuat yang akan diproses, sehingga efisiensi space dan
waktu dapat dicapai dan kualitas data yang dihasilkan lebih baik. Salah satu cara untuk
mereduksi atribut adalah dengan information gain. Information gain adalah pengukuran yang
dilakukan untuk menyeleksi atribut.
Info(D)=-∑𝑚
𝑖=1 𝑝𝑖 log2 pi
(2)
Dalam hal ini pi adalah probabilitas sebuah tuple pada D masuk ke kelas Ci dan diestimasi
dengan |Ci,D|/|D|. Fungsi log diambil berbasis 2 karena informasi dikodekan berbasis bit.
Misal S adalah himpunan beranggotakan s data. Misalkan label atribut yang mendefinisikan
kelas memiliki m nilai berbeda yang mendefinisikan m kelas Ci (untuk i=1,2,..,m) berbeda.
Misalkan Si adalah jumlah sampel S yang masuk ke dalam kelas Ci. Berdasarkan (1) maka
informasi yang diharapkan perlu untuk mengklasifikasi suatu sampel yang diberikan adalah:
(S1,S2,.....,Sm)= - ∑𝑚
𝑖=1 𝑝𝑖 log2 pi
(3)
Yang mana pi adalah peluang suatu sampel sembarang yang masuk ke kelas ci dan ditaksir
dengan si / s. Misalkan atribut A yang bukan atribut suatu kelas, memiliki v buah nilai yang
berbeda yaitu {a1, a2, …,av}. Atribut A dapat digunakan untuk memisahkan S ke dalam v
subset Sj yaitu {S1, S2, …,Sv}, dalam hal ini Sj memuat sampel-sampel didalam S yang
memiliki nilai aj dari A. Jika atribut A dipilih sebagai atribut uji maka subset-subset tersebut
akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S.
Misalkan Sij adalah jumlah sampel dari kelas Ci di dalam suatu subset Sj. Entropi atau
informasi harapan berdasarkan pemisahan ke dalam subset-subset A dihitung dengan:
E(A) = ∑𝑚
𝑖−1
𝑆1𝑗+𝑠2𝑗+,…,+𝑠𝑚𝑗
𝑠
/ (S1j,S2j...,Smj)
17
(4)
𝑆1𝑗+𝑠2𝑗+,…,+𝑠𝑚𝑗
,
𝑠
bentuk ini bertindak sebagai pemberat dari subset j dan merupakan jumlah
sampel di dalam subset tersebut (yang memiliki nilai aj dari A) dibagi dengan jumlah total
sampel di dalam S. Semakin kecil nilai entropi maka semakin murni pemisahan subset.
2.2.10 Measure similarity
Didalam Vector Space Model dokumen digambarkan dalam bentuk dokumen d = {w1, w2,
w3,…, wn} dimana d adalah dokumen dan w adalah nilai bobot setiap term dalam suatu
dokumen. Model ruang vektor dan pembobotan tf*idf digunakan untuk mempresentasekan
nilai numerik sehingga dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor
didalam ruang vektor maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut.
Kemiripan antar dokumen dihitung menggunakan fungsi ukuran kemiripan . Ukuran ini
digunakan untuk perangkingan dokumen sesuai dengan kemiripan (relevasi) nya terhadap
query. Setelah dokumen dirangking, sejumlah tetap dokumen top-scoring dikembalikan pada
pengguna.
Ada beberapan metode yang digunakan untuk pengukuran kemiripan antara lain yaitu
cosine similarity, manhattan distance, dan eucliedean distance.
2.2.10.1 Cosine similarity
Cosine similarity salah satu metode untuk mengukur kemiripan teks yang sering digunakan
(Tata & Patel M, 2007 ). Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika
terdapat dua vektor dokumen dj dan query q, serta term diekstrak dari koleksi dokumen maka
nilai cosinus antara dj dan q didefinisikan dibawah ini.
cosines 𝜃𝐷1=
(5)
𝑄∗𝐷1
|𝑄|∗|𝐷1 |
Similiraty (Q,Di ) =
∑𝑖 𝑊𝑄,𝑗 𝑊𝑖,𝑗
(6)
2
2
√∑𝑗 𝑊𝑄,𝑗
√∑𝑖 𝑊𝑄,𝑗
2.2.10.2 Manhattan Disctance
Jarak rectilinear sering disebut dengan jarak manhattan adalah formula untuk menghitung
jarak antara dua titik. Pengukuran dengan manhattan banyak digunakan karena mudah
perhitungannya, mudah dimengerti. Perhitungan Manhattan distance untuk mencari jarak
minimal dari dua buah titik (x1,x2) dan b(x2,y2), persamaan manhattan distance sebagai
berikut :
dij = |xi - xj | + |yi - yj|
(7)
sebagai contoh pada gambar 2.4, jarak antara i dan j adalah sebagai berikut.
18
2.2.10.3 Euclidean Disctance
Teknik pengukuran kemiripan ini sering digunakan dalam teknik clustering, karena
sederhana, tetapi mempunyai kekurangan yaitu sangat sensitif terhadap pencilan, seperti pada
persamaan dibawah ini.
Dij= √∑𝑚
𝑘=1(𝑑𝑗𝑘 − 𝑐𝑗𝑘 ) 2
(8)
Dimana D adalah jumlah komponen pada vektor
i
k
dan vector
, dari ketiga metode
pengukuran kemiripan antar dokumen tersebut yang digunakan didalam penenlitian ini adalah
cosine similarity.
2.2.11 Model Confusion Matrix
Confusion Matrix (Gorunescu, 2011) merupakan tools visualisasi yang biasa digunakan pada
supervised learning dan dapat digunakan untuk unsupervised learning. Tiap kolom pada
matriks adalah contoh dalam kelas prediksi, sedangkan setiap baris mewakili kejadian di
kelas yang sebenarnya. Satu keuntungan dari Confusion Matrix adalah mudah untuk
mengetahui jika ada data diantara dua kelas. Confusion Matrix berisi informasi tentang aktual
dan prediksi pada sistem klasifikasi. Kinerja sistem seperti ini biasanya dievaluasi dengan
menggunakan data pada matriks. Berikut ini adalah contoh tabel yang menunjukkan
confusion matrix untuk klasifikasi dua kelas. Confusion matrix terdiri dari:
Predicted
Negative
Positive
Negative
a
b
Positive
c
d
Actual
Tabel 2.1: Tabel Confusion Matrix
1.
a adalah jumlah prediksi yang tepat bahwa instance bersifat negatif
2.
b adalah jumlah prediksi yang salah bahwa instance bersifat positif
3.
c adalah jumlah prediksi yang salah bahwa instance bersifat negatif
4.
d adalah jumlah prediksi yang tepat bahwa instance bersifat positif
Dari tabel 2.1 dapat jelaskan beberapa persyaratan standar yang telah didefinisikan untuk
matriks klasifikasi dua kelas :
19
a.
Accuracy (AC) adalah proporsi jumlah prediksi dataset yang benar. Hal ini ditentukan
dengan menggunakan persamaan :
AC =
b.
a+d
a+d+b+c
(9)
Recall adalah rasio proporsi jumlah dokumen positif yang diidentifikasikan dengan
benar, yang dihitung dengan menggunakan persamaan :
R =
c.
d
(10)
c+d
Precision (P) adalah proporsi prediksi jumlah dokumen positif yang benar, dihitung
dengan menggunakan persamaan :
P=
d.
b
(11)
b+d
Tingkat positif salah (TP) adalah proporsi kasus negatif yang salah diklasifikasikan
sebagai positif, yang dihitung dengan menggunakan persamaan :
𝑏
TP =
e.
(12)
𝑎+𝑏
Tingkat negatif sejati (TN) didefinisikan sebagai proporsi kasus negatif yang
diklasifikasikan dengan benar, yang dihitung dengan menggunakan persamaan:
TN =
f.
𝑎
(13)
𝑎+𝑏
Tingkat negatif palsu (FN) adalah proporsi kasus positif yang salah diklasifikasikan
sebagai negatif, yang dihitung dengan menggunakan persamaan :
FN =
c
(16)
c+d
20
BAB 3
TUJUAN DAN MANFAAT PENELITIAN
3.1 Tujuan Penelitian
Berdasarkan latar belakang dan rumusan masalah diatas, maka tujuan penelitian ini
adalah sebagai berikut :
1. Untuk mengetahui akurasi algoritma K-Means tanpa menggunakan seleksi fitur untuk
analisis sentimen movie review dengan dataset 300 dokumen, 700 dokumen dan 1000
dokumen, masing-masing berlabel positif dan negatif.
2. Untuk mengetahui akurasi algoritma K-Means dengan menggunakan seleksi fitur
Information Gain untuk analisis sentimen movie review dengan dataset 300 dokumen,
700 dokumen dan 1000 dokumen, masing-masing berlabel positif dan negatif.
3. Untuk mengetahui akurasi model yang diusulkan untuk analisis sentimrn movie
review, bahwa dengan model yang diusulkan akan meningkatkan akurasi K-Means
untuk optimasi analisis sentimen movie review.
3.2 Manfaat Penelitian
Manfaat dari penelitian ini adalah sebagai berikut :
1. Diharapkan dapat bermanfaat untuk penelitian selanjutnya tentang clustering
dokumen teks berbahasa inggris.
2. Diharapkan dapat bermanfaat bagi penelitian selanjutnya tentang analisis sentimen
movie review.
3. Diharapkan dapat memberikan sumbangan pengetahuan yang berhubungan dengan
seleksi fitur Information Gain untuk sentimen analisis sentiment movie review.
4. Diharapkan dapat memberikan sumbangan pengetahuan yang berkaitan dengan
clustering dokumen berbahasa inggris tentang analisis sentimen movie review.
21
BAB 4
METODE PENELITIAN
4.1 Kerangka Pemikiran
Permasalahan yang ada didalam sebuah penelitian akan menimbulkan cara
bagaimana menyelesaikan masalah tersebut. Permasalahan didalam penelitian ini adalah
belum diketahuinya algoritma K-Means dengan seleksi fitur Information Gain untuk
optimasi analisis sentimen movie review. Adapun tools yang digunakan untuk
eksperimen didalam penelitian ini adalah RapidMiner, kemudian hasil yang diperoleh
adalah Accuracy, Precission dan Recall. Gambaran singkat penelitian ini ada pada
kerangka pemikiran yang tersaji pada gambar 4.1.
MASALAH
PENGUMPULAN DATA &
PREPROCESSING
Belum diketahui akurasi algoritma
K-Means dengan Seleksi Fitur
Information Gain untuk optimasi
analisis sentimen movie review.
- Case folding - Stopword
- Tokenizing - Stemming
TOOLS PENELITIAN
IMPLEMENTASI
RapidMiner
Algoritma K-Means dengan seleksi fitur
Information Gain
UKURAN
HASIL
Accuracy, Precision, Recall
Diketahui akurasi algoritma K-Means
dengan Seleksi Fitur Information Gain
untuk optimasi sentimen analisis movie
review
Gambar 4.1. Kerangka Pemikiran
22
4.2 Metode Penelitian
Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan
tahapan penelitian seperti dalam skema penelitian sebagai berikut:
Pendahuluan dan Literatur
Rumusan Masalah
Pengumpulan Data
Model yang diusulkan
Evaluasi
Gambar 5.2. Metode Penelitian
4.2.1 Pendahuluan dan Literatur
Bertambahnya dokumen di website dari waktu ke waktu semakin bertambah
tanpa melihat besarnya dokumen. Hal ini menyebabkan banyaknya penelitian
untuk menggali dokumen agar dapat diambil manfaatnya. Metode dan algoritma
yang digunakan juga berbeda-beda antara satu peniliti dengan peneliti lainnya,
tujuannya adalah untuk mendapatkan algoritma atau metode yang paling baik
kinerjanya baik itu untuk teknik clustering maupun teknik klasifikasi. Namun
kumpulan dokumen teks yang berasal dari website masih dinyatakan didalam
bahasa alami atau natural artinya masih banyak atribut yang kurang sesuai pada
dataset, sehingga bagi siapa saja yang membutuhkan memungkinkan untuk
22
membaca dan menganalisis kembali semua review atau kumpulan dokumen yang
ada (Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010).
Sehingga seleksi fitur dapat digunakan untuk mengurangi dataset yang tidak
relevan tersebut. Beberapa algoritma seleksi fitur yang digunakan adalah
information gain, chi square, forward selection dan backward elimination.
4.2.2 Rumusan Masalah
Berdasarkan literature review yang dilakukan didapat permasalahan yaitu
banyak metode atau algoritma yang digunakan untuk analisis sentimen, namun
belum diketahui algoritma unsupervised learning yang memiliki akurasi terbaik
untuk meningkatkan optimasi analisis sentimen movie review,
maka didalam
penelitian ini akan menerapan algoritma K-Means dengan seleksi fitur Information
Gain untuk optimasi analisis sentimen movie review.
4.2.3 Pengumpulan Data
Dataset yang digunakan didalam penelitian ini adalah dataset movie review
yang diambil dari www.cs.cornell.edu/People/pabo/movie-review-data/. Movie
review
ini sudah dikelompokkan kedalam 1000 kelompok dokumen yang
mempunyai label positif dan 1000 kelompok dokumen label negatif. Dataset ini
sudah populer karena pernah digunakan oleh (Pang, Lee, & Shivakumar, 2002);
(Chaovalit & Zhou, 2005); (Keefe & Koprinska, 2009), dan sudah siap dijadikan
corpus untuk penelitian. Dataset tersebut dikumpulkan dari IMDb (Internet Movie
Database) (Chaovalit & Zhou, 2005). Dari 1000 dokumen berlabel positif dan
negatif tersebut kemudian oleh peneliti ambil secara acak masing-masing 300
dokumen berlabel positif dan 300 dokumen berlabel negatif , kemudian 700
dokumen berlabel positif dan 700 dokumen berlabel negatif, dan seluruh dokumen
yang berjumlah 1000 dokumen berlabel positif dan 1000 dokumen berlabel negatif
Dari ketiga kelompok dataset peneliti gunakan untuk menguji algoritma dan model
yang diusulkan, baik algoritma K-Means tanpa menggunakan seleksi fitur dan KMeans dengan menggunakan seleksi fitur information gain.
23
4.2.4 Model yang diusulkan
Model yang diusulkan adalah seperti gambar 4.3
Dataset Movie Review
Pre
processing
Case
folding
Tokenizing
Stopword
Stemming
(porter)
Pembo
botan
TF-IDF
Seleksi Fitur
Information Gain (IG )
Clustering
Algoritma K-Means
Evaluasi
Accuracy, Precision, Recall
Gambar 6.3. Model yang diusulkan
4.2.4.1 Dataset Movie Review
Dataset yang digunakan dalam penelitian ini berasal dari movie
review yang diambil dari website www.cs.cornell.edu/People/pabo/moviereview-data/. movie review dalam bentuk dokumen teks kemudian
dikelompokkan ke dalam dokumen positif dan negatif. Dataset tersebut
dikumpulkan dari IMDb (Internet Movie Database) (Chaovalit & Zhou,
2005). Jumlah movie review yang digunakan sebanyak 1000 dokumen
movie review dengan kategori negatif dan 1000 dokumen movie review
dengan kategori positif.
4.2.4.2 Preprocessing
Dokumen dari website rata-rata masih dalam dokumen natural
artinya teks dokumen masih seperti apa adanya, belum ada proses
24
pengolahan data sama sekali. Dokumen natural memiliki dimensi yang
tinggi, terdapat noise, outlier, dan terdapat struktur teks yang jelek. Agar
proses analisis teks untuk proses clustering dapat berjalan dengan baik
maka perlu adanya
preprocessing. Tahapan preprocessing
yang
digunakan dalam penelitian ini adalah sebagai berikut :
1. Case folding
Karena dokumen dari website masih dalam bentuk dokumen alami
atau natural maka teks dokumen tersebut memerlukan penyeragaman
bentuk tulisannya, yaitu berbentuk huruf kecil semua. Proses
mengubah teks dokumen dalam bentuk huruf kecil semua disebut
case folding (Transform Case). Contoh implementasi case folding
dengan mengambil kalimat dari salah satu movie review negatif di file
cv001_29416.txt adalah sebagai berikut :
- Teks input case folding
Story regarding a crew of a tugboat that comes across a Deserted
russian tech ship that has a strangeness to it when they kick the
power back on little
- Hasil case folding
story regarding a crew of a tugboat that comes across a deserted
russian tech ship that has a strangeness to it when they kick the
power back on little
Dari contoh diatas dapat dilihat bahwa kata huruf depan di kata
“Story” dan “Deserted” adalah huruf besar, setelah dilakukan proses
preprosesing case folding, hasilnya adalah “story” dan “deserted”
dimana huruf depan pada kata itu berubah menjadi huruf kecil.
2. Tokenezing
Tokenezing digunakan untuk pemenggalan susunan term dari suatu
kalimat menjadi kumpulan token, menghilangkan karakter selain
huruf seperti angka dan tanda baca, serta karakter angka dan tanda
baca dianggap sebagai delimiter atau pemisah.
Dibawah cuplkan kalimat
dokumen positif, yaitu :
25
hasil tokenizing dengan menggunakan
“story regarding a crew of a tugboat that comes accros a deserted
russian tech ship that has a strangeness to it when they kick the
power back on litte”
3. Stopword
Stopword merupakan proses menghilangkan kata-kata yang tidak
relevan
dalam
suatu
topik,
atau
kata-kata
yang
tidak
mendiskripsikan suatu dokumen akan dihilangkan. Stopword
dilakukan setelah proses tokenizing adalah tahap stopword, contoh
kata-kata yang termasuk stopword adalah “a”,”and”,”are”,”the”.
Dibawah ini contoh proses stopword dengan menggunakan teks
hasil tokenizing.
“story regarding a crew of a tugboat that comes accros a deserted
russian tech ship that has a strangeness to it when they kick the
power back on litte”
Kalimat dibawah ini contoh kalimat hasil tokenizing yang sudah
melalui preprocessing stopword.
“story regarding crew tugboat comes accros deserted russian tech
ship strangeness kick power back little”
Dari kalimat diatas ada beberapa kata yang hilang yaitu
“a”,”of”,”that”,”has”,”to”,”it”,”when”,”they”,”the” dan “on”
4. Stemming
Stemming merupakan proses untuk mencari kata dasar dengan cara
mengubah kata berimbuhan menjadi kata dasarnya, dengan tujuan
untuk meningkatkan kualitas informasi.
“story regarding crew tugboat comes deserted russian tech ship
strangeness kick power “
Teks hasil stemming
“story regard crew tugboat come desert russian tech ship strang
kick power “
4.2.4.3 Pembobotan TF-IDF
TF-IDF (Term Frequency - Inverse Document Frequency) adalah salah satu
algoritma yang digunakan untuk menghitung skor atau pembobotan term atau
kata didalam suatu dokumen (Yates & Neto, 1999). TF (Term frequency)
26
adalah banyaknya kemunculan suatu term dalam dokumen. Pembobotan TF
dilakukan dengan menghitung jumlah kemunculan kata dalam satu dokumen,
IDF (inverse document frequency) adalah perhitungan logaritma antara
pembagian jumlah total dokumen dengan cacah dokumen yang mengandung
term, dan TF-IDF adalah perkalian antara TF dengan IDF. Semakin besar
bobot TF-IDF pada suatu term, maka semakin penting term tersebut untuk
bisa digunakan pada tahapan klasifikasi dokumen.
Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan
menggunakan tf * idf menunjukkan bahwa deskripsi terbaik dari dokumen
adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit
muncul pada dokumen yang lain. Demikian juga sebuah term yang muncul
dalam jumlah yang sedang dalam proporsi yang cukup dalam dokumen di
koleksi yang diberikan juga akan menjadi descriptor yang baik. Bobot
terendah akan diberikan pada term yang muncul sangat jarang pada beberapa
dokumen (low-frequency documents) dan term yang muncul pada hampir
atau seluruh dokumen (high-frequency document). Sebagaimana terlihat pada
studi kasus di bawah ini :
Didalam kasus ini terdapat tiga (3) koleksi dokumen yaitu :
Dokumen 1 (d1)
=
the dark side of such sleeper success
Dokumen2 (d2)
=
in order to make the film a success , all they
had to do was cast two extremely popular and
attractive stars
Dokumen 3 (d3)
=
this film guaranteed them all successful
careers because each gave an outstanding
performance
Jadi didalam kasus ini terdapat tiga dokumen (D) = 3 yaitu d1,d2 dan d3,
sebelum pemberian bobot masing-masing term, terlebih dahulu dokumen di
preprocessing, antara lain mengubah dalam bentuk huruf kecil, pemotongan
string, menghilangkan tanda baca, angka dan stopword. Setelah proses
preprocessing maka didapatkan term-term ( document term ) sebagai berikut :
dokumen1(d1)
-
dark
d2
-
order
27
d3
-
film
-
side
-
make
-
guarante
-
sleeper
-
film
-
success
-
success
-
success
-
career
-
cast
-
gave
-
extrem
-
outstand
-
popular
-
perform
-
attract
Setelah tahap preprocessing maka tiap dokumen dipresentasikan dalam
bentuk sebuah vektor dengan elemen sebanyak term query yang terdapat pada
tiap dokumen yang berhasil dikenali tahap ekstraksi dokumen sebelumnya.
Vektor tersebut beranggotakan bobot dari setiap term query yang dihitung
berdasarkan metode TF-IDF.
Ilustrasi dari perhitungan TF-IDF adalah sebagaimana terlihat pada
perhitungan dibawah ini:
1. Term frequency (tf) dan document frequency (df)
Term frequency (tf)
merupakan frekuensi kemunculan term (t) pada
dokumen (d).
Document frequency (df) adalah banyaknya dokumen dimana suatu term
(t) muncul, hasil perhitungan tf disajikan pada tabel 4.1
2. Invers Document Frequency (idf)
Untuk menghitung idf suatu term dengan menggunakan persamaan 15.
𝟏
𝑵
idf = 𝒅𝒇 atau idf = log (𝒅𝒇)
Tabel 4.8 Tabel Term Frequency dan Document Frequency.
term (t)
tf
df
d1
d2
d3
attract
0
1
0
1
career
0
0
1
1
cast
0
1
0
1
dark
1
0
0
1
extrem
0
1
0
1
film
0
1
1
2
28
gave
0
0
1
1
guarante
0
0
1
1
make
0
1
0
1
order
0
1
0
1
outstand
0
0
1
1
perform
0
0
1
1
popular
0
1
0
1
side
1
0
0
1
sleeper
1
0
0
1
success
1
1
1
3
dimana N = jumlah dokumen dengan diketahui N=3 hasil dari perhitungan
idf disajikan pada tabel 4.2.
Dapat kita amati pada tabel 4.2 bahwa nilai idf akan semakin besar untuk
term/token yang tingkat kemunculannya sedikit, begitu sebaliknya bahwa
semakin sedikit kemunculan term/token pada dokumen maka nilai idf
semakin besar. Setelah diketahui tf dan idf pada dokumen makan kita
dapat menghitung pembobotan tf-idf, yaitu suatu formula untuk
menghitung bobot hubungan suatu term/token di dalam suatu dokumen
Perlu diperhatikan juga bahwa berapapun nilai tf, kalau term/token
tersebut muncul di semua dokumen (df = N), maka nilai idf nya 0, untuk
mengatasi masalah tersebut maka ditambahkan nilai 1 ke perhitungan idf.
Sehingga hasil tf * idf seperti tabel 4.3
Tabel 4.9 Tabel Invers Document Frequency (idf).
terms(t)
df
Idf=log(N/df)
attract
1
0.477
career
1
0.477
cast
1
0.477
dark
1
0.477
extrem
1
0.477
film
2
0.176
gave
1
0.477
29
guarante
1
0.477
make
1
0.477
order
1
0.477
outstand
1
0.477
1
0.477
popular
1
0.477
side
1
0.477
sleeper
1
0.477
success
3
0
perform
Dengan menggunakan rumus tf * idf yang disajikan pada tabel 3.3 bahaa
berapapun nilai tf, kalau token tersebut muncul di semua dokumen (df =
N), maka bobot dokumen tersebut adalah 0, sehingga untuk mengatasi
masalah tersebut ditambahkan nilai 1 ke perhitungan idf nya, sehingga
persamaan untuk bobot term seperti pada persamaan 17.
𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 x (𝑙𝑜𝑔(𝑁/𝑛)) + 1
(17)
n = df dari token j
Tabel 4.10 Hasil tf * idf.
tf
Token
/ term (t)
d1
d2
d3
N
df
Idf=log(N/f
attract
0
1
0
1
3
Career
0
0
1
1
Cast
0
1
0
Dark
1
0
Extrem
0
Film
df
Wf(t,d)=tf(td) x idf(t)
0.477
d1
0
d2
0.477
d3
0
3
0.477
0
0
0.477
1
3
0.477
0
0.477
0
0
1
3
0.477
0.477
0
0
1
0
1
3
0.477
0
0.477
0
0
1
1
2
1.5
0.176
0
0.176
0.176
Gave
0
0
1
1
3
0.477
0
0
0.477
guarante
0
0
1
1
3
0.477
0
0
0.477
Make
0
1
0
1
3
0.477
0
0.477
0
Order
0
1
0
1
3
0.477
0
0.477
0
outstand
0
0
1
1
3
0.477
0
0.477
0.477
30
perform
0
0
1
1
3
0.477
0
0.477
0.477
popular
0
0
1
1
3
0.477
0
0.477
0.477
Side
1
0
0
1
3
0.477
0
0.477
0.477
sleeper
1
0
0
1
3
0.477
0
0.477
0.477
success
1
1
1
3
1
0
0
0
0
Setelah penambahan nilai 1, bobot dari masing-masing term tidak sesuai
standar untuk perhitungan pembobotan term, bobot term hasil
penambahan nilai 1 disajikan pada tabel 4.4. Hasil ini tidak dapat
digunakan
untuk
standarisasi
pembobotan
term,
maka
harus
dinormalisasi agar supaya bobot terstandarisasi yaitu antara 0 s/d 1,
persamaan untuk menormalisasi bobot term adalah seperti persamaan
dibawah 18.
𝑊
𝑖𝑗=
𝑡𝑓𝑖𝑗 X (𝑙𝑜𝑔(𝑁/𝑑𝑓)+1)
2
√∑𝑡
[(𝑙𝑜𝑔(𝑁/𝑑𝑓)+1)]2
𝑘=1(𝑡𝑓𝑖𝑘 ) X
(18)
Keterangan :
i = jumlah token
t = dokumen ke 1,2,3..n
j & k = term ke 1,2,3..n
Tabel 4.11 : Hasil tf * idf setelah ditambah 1.
token
/ term (t)
tf
W=tf*((idf)+1)
df
N
df
Idf=
log(N/df)
d1
d2
d3
d1
d2
d3
attract
0
1
0
1
3/1=3
1.477
1
1.477
1
career
0
0
1
1
3/1=3
1.477
1
1
1.477
cast
0
1
0
1
3/1=3
1.477
1
1.477
1
dark
1
0
0
1
3/1=3
1.477
1.477
1
1
extrem
0
1
0
1
3/1=3
1.477
1
1.477
1
0
1
1
2
1.176
1
1.176
1.176
gave
0
0
1
1
3/1=3
1.477
1
1
1.477
guarante
0
0
1
1
3/1=3
1.477
1
1
1.477
film
3/2=1.5
31
make
0
1
0
1
3/1=3
1.477
1
1.477
1
order
0
1
0
1
3/1=3
1.477
1
1.477
1
outstand
0
0
1
1
3/1=3
1.477
1
1
1.477
perform
0
0
1
1
3/1=3
1.477
1
1
1.477
popular
0
0
1
1
3/1=3
1.477
1
1
1.477
side
1
0
0
1
3/1=3
1.477
1.477
1
1
sleeper
1
0
0
1
3/1=3
1.477
1.477
1
1
Success
1
1
1
3
3/3=1
0
1
1
1
Dibawah ini contoh perhitungan untuk mengetahui bobot term “attract” pada
dokumen 1.
1 𝑥 (log(3/1)+1)
W21 =
2
3
3
2
((12 x [log (1+1)] )+(02 x [log ( 1+1)] ))
1.477121
W21 =
2.181887
W21
=
0.677
Dapat dilihat pada tabel 4.5 merupakan contoh hasil bobot term setelah
dinormalisasi, kemudian tabel 4.6 merupakan hasil secara keseluruhan
pembobotan term setelah dinormalisasi dan tidak ditemukan bobot term lebih
dari 1.
Tabel 4.12 Contoh hasil pembobotan setelah di Normalisasi.
token
/ term (t)
tf
W=tf*((idf)+1)
df
N
df
Idf=
log(N/df)
d1
d2
d3
d1
d2
d3
attract
0
1
0
1
3/1=3
0.477
0
0.677
1
career
0
0
1
1
3/1=3
0.477
0
0
0.677
Tabel 4.13 Hasil Normalisasi pembobotan term secara keseluruhan.
token
/ term (t)
tf
df
d1
d2
d3
attract
0
1
0
1
career
0
0
1
1
W=tf*(idf)
N
df
3
d1
0
d2
0,113
d3
0
3
0
0
0,085
32
cast
0
1
0
1
3
0
0,113
0
dark
1
0
0
1
3
0,170
0
0
extrem
0
1
0
1
3
0
0,113
0
film
0
1
1
2
1.5
0
0,113
0,085
gave
0
0
1
1
3
0
0
0,085
guarante
0
0
1
1
3
0
0
0,085
make
0
1
0
1
3
0
0,113
0
order
0
1
0
1
3
0
0,113
0
outstand
0
0
1
1
3
0
0
0,085
perform
0
0
1
1
3
0
0
0,085
popular
0
0
1
1
3
0
0
0,085
side
1
0
0
1
3
0,170
0
0
sleeper
1
0
0
1
3
0,170
0
0
success
1
1
1
3
1
0
0
0
Pembobotan TF-IDF berfungsi untuk mencari nilai dari setiap term didalam
dokumen. Fungsi ini akan dibentuk suatu vektor antara dokumen dan query
yang ditentukan oleh nilai bobot dari sebuah term query didalam dokumen.
Semakin
besar nilai bobot yang diperoleh maka semakin tinggi tingkat
kemiripan dokumen terhadap query.
Salah satu ukuran kemiripan teks yang populer adalah menggunakan
persamaan cosine similarity, ilustrasi pemakaian cosine similarity untuk
mengukur kemiripan antar dokumen tersaji didalam kasus seperti dibawah ini :
Diketahui term yang akan diquery adalah film, perform, success, term ini
diambil dari dokumen pada tiga koleksi dokumen yang tertulis diawal subbab
ini, kemudian dilakukan perhitungan tf*idf dan hasil pembobotannya seperti
tabel 4.7.
Tabel 4.14 Hasil tf * idf dan bobot setelah dinormalisasi ditambah kolom query.
token
/ term (t)
tf
d1
d2
d3
attract
0
1
0
1
3
Idf=
log(N/
df)
0.477
career
0
0
1
1
3
0.477
Q
df
N
df
33
W=tf*(idf)
Q
d1
d3
0
d2
0,11
3
0
0
0
0
0,08
0
5
cast
dark
extrem
film
1
gave
guarante
make
order
outstand
perform
1
popular
side
sleeper
success
1
0
1
0
1
3
0.477
1
0
0
1
3
0.477
0
1
0
1
3
0.477
0
0
0
1
1
3
1
0
0
0
1
1
3
0.477
0
0
1
1
3
0.477
0
1
0
1
3
0.477
0
1
0
1
3
0.477
0
0
1
1
3
0.477
0
0
1
2
1.5
0.176
0
0
1
1
3
0.602
1
0
0
1
3
0.602
1
0
0
1
3
0.602
1
1
1
3
1
0
0
0,17
0
0,11
3
0
0
0,2
26
0
0
0
0,11
3
0,11
3
0
0
0
0
0
0
0
0
0
0
0,11
3
0,11
3
0
0,2
26
0
0
0
0
0
0
0
0
0
0
0,17
0
0,17
0
0
0,08
5
0,08
5
0,08
5
0
0
0
0
0
0
0
0
0
0,08
5
0,08
5
0,08
5
0
dengan menggunakan persamaan 5 dan persamaan 6, maka diperoleh
perhitungan sebagai berikut :
|D1 | = √0.1702 + 0.1702 + 0.1702 = √0,0867 = 0.294
|D2 | =√0.1132 +0.1132 + 0.1132 + 0.1132 + 0.1132 + 0.1132
= √0,0766 = 0.277
|D3 | = √0.0852 + 0.0852 + 0.0852 + 0.0852 + 0.0852 + 0.0852 + 0.0852
= √0,0506 = 0.225
|Q| = √0.2262 + 0,2262 + 0 = √0,153 = 0.391
Kemudian di hitung dot product nya
34
Q x D1 = 0.226 * 0 = 0
Q x D2= 0,226 x 0.113=0.026
Q x D3= 0,226 x 0,085 +0,226 x 0,085 = 0.038
Setelah itu dihitung nilai similaritynya, perhitungannya seperti dibawah ini :
Cosine θ D1 =
𝑄 𝑥 𝐷1
0
=
|𝑄|∗|𝐷1 |
0.391 𝑥0
𝑄 𝑥 𝐷2
0,026
=
|𝑄|∗|𝐷2 |
0,391 𝑥 0,277
= 0.235
𝑄 𝑥 𝐷3
0,038
=
|𝑄|∗|𝐷3 |
0,391 𝑥 0,225
= 0.436
Cosine θ D2 =
Cosine θD3 =
=0
dengan hasil perhitungan similarity tersebut maka kemiripan query untuk term
extrem, film dan perform adalah pada dokumen3 (D3)
4.2.4.4 Seleksi Fitur Information Gain
Information gain merupakan seleksi fitur yang dapat digunakan untuk menentukan
atribut terbaik dari suatu dataset. Sebagai contoh pemakaian information gain
diambilkan dari penelitian Muhammad Noor Adityana (Adityana, 2009), dalam
penelitiannya dicontohkan sekumpulan S ={s1,s2,s3,s4} yang
dikategorikan
menjadi positif dan negatif, dimana s1 berkategori positif dan yang lainnya
berkategori negatif. Untuk menghitung information gain dari sebuah atribut A, dan
A memiliki nilai {v1,v2,v3}, ditentukan bahwa :
S1 memiliki nilai v2 untuk A
S2 memiliki nilai v2 untuk A
S3 memiliki nilai v3 untuk A
S4 memiliki nilai v1 untuk A
Langkah pertama adalah menghitung entropy dari S. Untuk menggunakan
persamaan entropi pada persoalan ini, kita harus mengetahui jumlah positif dan
negatif pada S. Dari soal dapat diketahui bahwa positif =1/4 dan negatif 3/4
sehingga dapat dihitung dengan persamaan :
Entropy(S) = - (1/4)log2(1/4) – (3/4)log2(3/4)
= - (1/4)(-2)-(3/4)(-0.415)=0.5 + 0.311 = 0.811
35
Selanjutnya menghitung Entropi(Sy) untuk setiap nilai v=v1,v2,v3,v4. Sv
merupakan kumpulan dari contoh pada S yang memiliki nilai v pada atribut A, atau
dapat dituliskan sebagai berikut :
Sv = {S4}, Sv2={S1,S2}, Sv3={S3}
(19)
Dengan menggunakan persamaan (19) dapat digunakan untuk menyelesaikan
persamaan berikut :
(|Sv1|/|S|) * Entropy(Sv1) = (1/4)*(-(0/1)log2(0/1)-(1/1)log2(1/1))
= (1/4)(-0-(1)log2(1))=(1/4)(-0-0) = 0
(|Sv2|/|S|) * Entropy(Sv2) = (2/4)*(-(1/2)log2(1/2)-(1/2)log2(1/2))
= (1/2)*(-(1/2)*(-1) – (1/2)*(-1))
= (1/2)*(1) = 1/2
(|Sv2|/|S|) * Entropy(Sv2) = (2/4)*(-(1/2)log2(1/2)-(1/2)log2(1/2))
= (1/2)*(-(1/2)*(-1) – (1/2)*(-1))
= (1/2)*(1) = 1/2
(|Sv3|/|S|) * Entropy(Sv3) = (1/4)*(-(0/1)log2(0/1)-(1/1)log2(1/1))
= (1/4)(-0-(1)log2(1))=(1/4)(-0-0) = 0
Sekarang ditambahkan ketiga nilai tersebut dan mendapatkan Entropi(S) untuk
hasil akhir :
Gain(S,A)=0.811-(0+1/2+0 = 0.311
4.2.4.5 Clustering algoritma K-Means
Ilustrasi pengujian algoritma K-Means diambil dari (linuxarna, 2012 ) seperti
pada contoh kasus dibawah ini dengan menggunakan Manhattan Distance.
Diketahui dataset seperti pada tabel 4.8.
Tabel 4.8: Dataset untuk proses algoritma K-Means.
Data ke
X1
36
X2
1
1.5
1.0
2
1.5
2.0
3
3.0
4.5
4
6.0
7.0
5
3.5
5.0
6
4.5
5.0
Berdasarkan proses algoritma K-Means maka langkah-langkah yang perlu
dilalui adalah sebagai berikut :
Langkah 1: Menentukan jumlah cluster, dimana jumlah cluster adalah 2
Langkah 2: Menentukan centroid awal, dipilih dari data tertinggi dan
terendah dari dataset dari tabel 4.8 yaitu record ke 1 dan ke 4.
Cluster
Cluster
1
2
1.5
1.0
6
7
Langkah 3: menghitung jarak dengan Manhattan Distance
Dimisalkan mencari distance data ke 1 dengan centroid yang sudah
ditentukan sebelumnya.
Distance cluster 1
|1.5-1.5|+|1.0-1.0| = 0
Distance cluster 2
|6.0-1.5|+|7.0-1.0| =10.5
Untuk data ke 2
Distance Cluster 1 |1.5-1.5|+|1.0-2.5| = 1
Distance Cluster 2 |6.0-1.5|+|7.0-2.0| = 9.5
Untuk data ke 3
Distance Cluster 1 |1.5-3.0|+|1.0-4.5| = 5
Distance Cluster 2 |6.0-3.0|+|7.0-4.5| = 5.5
Untuk data ke 4
Distance Cluster 1 |1.5-6.0|+|1.0-7| = 10.5
Distance Cluster 2 |6.0-6.0|+|7.0-7.0| = 0
Untuk data ke 5
Distance Cluster 1 |1.5-3,5|+|1.0-5| = 6
Distance Cluster 2 |6.0-3.5|+|7.0-5.0| = 4.5
Untuk data ke 6
Distance Cluster 1 |1.5-4,5|+|1.0-5| = 7
Distance Cluster 2 |6.0-4.5|+|7.0-5.0| = 3.5
37
sehingga kalau ditampilkan secara keseluruhan adalah sebagai berikut :
Tabel 4. 9: Tabel hasil perhitungan data ke 1 dengan medoid.
Data ke
X1
X2
Hasil
1
0
10.5
Cluster 1
2
1
9.5
Cluster 1
3
5
5.5
Cluster 1
4
10.5
0
Cluster 2
5
6
4.5
Cluster 2
6
7
3.5
Cluster 2
Langkah 4 : Menghitung mean centroid baru
Untuk menentukan centroid baru cara menghitung nilai rata-rata dari dataset
yang ada pada centroid yang sama.
Centroid cluster 1
(1.5+1.5+3.0)/3 = 2.0
Centroid cluster 1
(1.0+2.0+4.5)/3 = 2.5
Sehingga centroid baru adalah :
Cluster 1
2.0
2.5
Cluster 2
4.7
5.7
Langkah 5 : Menghitung jarak dengan manhattan distance (perhitungan
sama dengan langkah 3 hanya menggunakan centroid baru )
Distance cluster 1
|2.0-1.5|+|2.5-1.0| = 2.0
Distance cluster 2
|4.7-1.5|+|5.7-1.0| = 7.83
Untuk data ke 2
Distance Cluster 1 |2.0-1.5|+|2.5-2.0| =1.0
Distance Cluster 2 |4.7-1.5|+|5.7-2.0| = 6.9
Untuk data ke 3
Distance Cluster 1
|2.0-3.0|+|2.5-4.5| = 3.0
Distance Cluster 2
|4.7-3.0|+|5.7-4.5| = 2.9
Untuk data ke 4
Distance Cluster 1
|2.0-6.0|+|2.5-7.0| = 8.5
Distance Cluster 2
|4.7-6.0|+|5.7-7.0| = 2.6
Untuk data ke 5
38
Distance Cluster 1
|2.0-3.5|+|2.5-5.0| = 4.0
Distance Cluster 2
|4.7-3.5|+|5.7-5.0| = 1.83
Untuk data ke 6
Distance Cluster 1
|2.0-4.5|+|2.5-5.0| = 5
Distance Cluster 2
|4.7-4.5|+|5.7-5.0| = 0.83
Tabel 4.10: Tabel hasil perhitungan data ke 1 dengan medoid baru.
Data ke
X1
X2
Hasil
1
2.0
7.83
Cluster 1
2
1.0
6.83
Cluster 1
3
3.0
2.83
Cluster 2
4
8.5
2.67
Cluster 2
5
4.0
1.83
Cluster 2
6
5.0
0.83
Cluster 2
Karena lebih kecil jarak ke cluster 1 maka untuk data ke 1 hasilnya
masuk “cluster 1”
Karena masih ada perubahan data maka berulang ke langkah 3. Bisa dilihat
data ke 3 yang dulunya masuk cluster 1 sekarang masuk cluster 2.
Langkah 6 : Menghitung Mean Centroid baru
Cluster 1
1.5
1.5
Cluster 2
4.3
5.4
Langkah 7 : Menghitung jarak dengan manhattan distance (perhitungan
sama dengan langkah 3 menggunakan centroid baru)
Tabel 4.11: Tabel hasil perhitungan data ke 2 dengan medoid baru.
Data ke
Distance
Hasil
Cluster 1
Cluster 2
1
0.50
7.13
Cluster 1
2
0.50
6.13
Cluster 1
3
4.50
2.13
Cluster 2
4
10.01
3.38
Cluster 2
5
5.5
1.13
Cluster 2
6
6.50
0.63
Cluster 2
39
Karena pada perhitungan ini data pada cluster tidak berubah maka untuk
data ke 1 dan 2 tetap di cluster 1 dan data ke 3 sampai 6 tetap cluster 2 maka
iterasi berhenti.
4.2.4.6 Evaluasi Confunsion Matrix
Confusion Matrix merupakan tools visualisasi yang biasa digunakan pada
supervised learning dan dapat digunakan untuk unsupervised learning. Tiap
kolom pada matriks adalah contoh dalam kelas prediksi, sedangkan setiap
baris mewakili kejadian di kelas yang sebenarnya, seperti yang disajikan
pada Gambar
Gambar 7.4. Contoh gambar Confusion Matrix
4.2.5
Evaluasi
Evaluasi dilakukan dengan mengamati kinerja algoritma K-Means dengan
menggunakan seleksi fitur information gain untuk optimasi analisis sentimen
movie review. Dalam penelitian ini digunakan Confusion Matrix untuk
mengukur kinerja clustering. Accuracy (AC) adalah proporsi jumlah prediksi
dataset yang benar, Recall adalah rasio proporsi jumlah dokumen positif yang
diidentifikasikan dengan benar, sedangkan Precision (P) adalah proporsi
prediksi jumlah dokumen positif yang benar.
40
41
BAB 5
HASIL YANG DICAPAI
5.1 Eksperimen dan Pengujian Model
Setiap penelitian tentu ada hasil yang dicapai. Capaian yang di harapkan dari
penelitian ini adalah bagaimana menerapkan algoritma K-Means dengan seleksi fitur
Information Gain untuk optimasi analisis sentimen movie review. Yang dimaksud optimasi
disini adalah dengan menggunakan seleksi fitur Information Gain akan meningkatkan akurasi
K-Means
didalam
mengelompokkan
dokumen
movie
review
dibanding
sebelum
menggunakan seleksi fitur. Didalam penelitian ini dataset yang digunakan adalah movie
review
yang
diambil
dari
http://www.cs.cornell.edu/People/pabo/movie-review-data/.
Langkah-langkah yang dilakukan didalam penelitian ini adalah sesuai dengan model yang
diusulkan sedangkan tools yang digunakan adalah RapidMiner. Didalam penelitian ini nanti
terdapat dua skenario pengujian, yang pertama ialah menguji model yang diusulkan dengan
algoritma K-Means tanpa menggunakan seleksi fitur Information Gain, kemudian skenario
kedua adalah menguji model yang diusulkan dengan menerapkan algoritma K-Means
menggunakan seleksi fitur Information Gain. Skenario pertama dilakukan dengan maksud
dan tujuan untuk mengetahui akurasi algoritma K-Means apabila tanpa menggunakan seleksi
fitur Information Gain, sedangkan skenario kedua adalah untuk mengetahui akurasi model
dengan algoritma K-Means setelah menggunakan Information Gain. Dibawah ini akan
dijelaskan lebih mendetail tentang langkah-langkah yang terjadi pada masing-masing
skenario.
1.
Skenario Pertama : Penerapan algoritma K-Means tanpa seleksi fitur information
gain dengan menggunakan dataset 300 dokumen berlabel positif dan negatif.
Didalam pengujian penerapan algoritma K-Means tanpa seleksi fitur information gain
dengan menggunakan dataset 300 dokumen berlabel positif dan negatif, langkah pertama
yang dilakukan yaitu pembacaan dataset yang sudah di kelompokkan didalam dua
direktori yaitu direktori negatif dan positif yang sajikan pada gambar 5.1. Proses
pembacaan dataset dokumen ini berada di operator Proces Documents From Files. Selain
itu juga pada operator ini terjadi proses preprocessing sekaligus pembobotan TF-IDF.
Proses preprocessing terdiri dari Transformation Case (case folding), tokenize, Filter
Stopword dan Stemming (porter). Formula preprocessing apabila diterapkan di
42
RapidMiner disajikan pada Gambar 5.2, dan pembobotan TF-IDF disajikan pada gambar
5.3
Gambar 5.1. Proses Pembacaan Dokumen di direktori
Proses ini juga nantinya berlaku untuk pengujian algoritma K-Means dengan seleksi fitur
information gain dengan menggunakan dataset 300 dokumen berlabel positif dan 300
dokumen berlabel negatif, dataset 700 dokumen berlabel positif dan 700 dokumen berlabel
negatif dan dataset 1000 dokumen berlabel positif dan 1000 dokumen berlabel negatif.
Gambar 5. 16. Proses Preprocessing
Proses gambar 5.2 proses Preprocessing berada atau didalam operator Process Documents
From Files.
43
Gambar 5. 17. Pembobotan TF-IDF masuk didalam preprocessing
Setelah preprocessing dilakukan, maka dilanjutkan proses pembobotan TF-IDF yang juga
terdapat didalam operator Process Documents From Files. Baru kemudian dilanjutkan
dengan operator Clustering, kemudian Map Clustering on labels yang berfungsi untuk
mengubah atribut pengelompokan kedalam atribut untuk prediksi algoritma K-Means.
Dilanjutkan dengan operator performance, operator ini digunakan untuk mengevaluasi
kinerja algoritma K-Means, memberikan daftar nilai kinerja sebuah kriteria, kinerja
kriteria ini secara otomatis ditentukan agar sesuai dengan jenis tugasnya. Tahap pengujian
algoritma tanpa seleksi fitur dapat dilihat pada Gambar 5.4. hasil pengujian algoritma KMeans tanpa menggunakan seleksi fitur information gain disajikan pada gambar 5.5.
Gambar 5. 18. Proses tanpa menggunakan Information Gain.
44
Gambar 5. 19. Akurasi K-Means tanpa menggunakan information gain.
Pada gambar 5.5 menunjukkan bahwa accuracy K-Means tanpa menggunakan seleksi
fitur Information gain adalah 57.83%, precision =60.35% dan recall =45.67%. Dari 300
dokumen negatif yang diprediksi negatif dan benar negatif adalah 201 dokumen dan
yang diprediksi negatif tetapi betul positif berjumlah 163 dokumen, kemudian dari 300
dokumen positif, yang diprediksi positif tetapi betul negatif berjumlah 90 dokumen, dan
yang diprediksi positif dan betul positif sebanyak 137 dokumen. Hasil akurasi K-Means
tanpa seleksi fitur untuk analisis sentimen movie review ini masih rendah. Secara detail
kinerja K-Means dapat dilihat dengan Confunsion Matrix disajikan pada gambar 5.6.
Gambar 5. 20. Confunsion Matrik K-Means tanpa menggunakan information gain.
45
2. Skenario Kedua : Penerapan algoritma K-Means menggunakan seleksi fitur
Information Gain
Penerapan algoritma K-Means dengan menggunakan seleksi fitur information gain proses
awalnya sama dengan pada penerapan algoritma K-Means tanpa seleksi fitur yaitu
pembacaan dataset dokumen positif dan dokumen negatif, preprocessing dan pembobotan
TF-IDF. Yang membedakan pada pengujian ini ada setelah proses TF-IDF dilanjutkan
proses seleksi fitur information gain, kemudian proses Select by Weight yaitu operator
untuk memilih dataset uji yang beratnya memenuhi kriteria yang telah ditentukan oleh
seleksi fitur information gain pada proses selanjutnya. Selanjutnya clustering dan
menghitung performance algoritma K-Means. Algoritma K-Means diuji dengan ukuran
k=2, pembobotan term yang digunakan p%= 0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9 dan 1, ini
merujuk pada penelitian (Keefe & Koprinska, 2009). Dalam penentuan term yang
digunakan untuk proses clustering adalah term yang ada pada seluruh dokumen atau
dataset yang ada berdasarkan dari bobot tertinggi dan frekuensi kemunculan term dari
masing-masing term didalam dokumen. Pada gambar 5.5 dijelaskan bahwa tingkat akurasi
algoritama K-Means sebelum menggunakan information gain adalah 57.83%, tingkat
akurasi ini dibawah penelitian Gang Li dan Fei Liu (Li & Liu, A Clustering-based
Approach on Sentiment Analysis, 2010), tetapi setelah menggunakan seleksi fitur
information gain dengan p%=0.1 tingkat akurasi mengalami kenaikan menjadi 78.67%, ini
sesuai keunggulan dari information gain yaitu dapat menaikkan akurasi suatu algoritma
sehingga hasil ini lebih baik dari penelitian sebelumnya, hasil uji dengan menggunakan
seleksi fitur information disajikan pada gambar 5.7
Gambar 5. 21. Akurasi K-Means dengan menggunakan information gain.
46
Gambar 5.7 menunjukkan bahwa accuracy 78.67%, precision 84.96% dan recall=69.67%.
Dari hasil pengujian dengan menggunakan RapidMiner dapat diketahuai Confusion Matrix
seperti ditunjukkan pada gambar 5.8
Gambar 5. 22. Confunsion Matrix K-Means menggunakan information gain.
Dari gambar 5.8 dapat dijelaskan bahwa dari 300 dokumen yang prediksi negatif dan benar
negatif adalah 263 dokumen, dan yang diprediksi negatif tetapi betul positif 91 dokumen.
Dari 300 dokumen yang diprediksi positif dan benar positif adalah 209 dokumen dan yang
diprediksi positif tetapi betul negatif adalah 37 dokumen. Karena dengan menggunakan
seleksi fitur tingkat akurasi K-Means naik, maka didalam penelitian ini akan menerapkan
algoritma K-Means dengan menggunakan information gain sebagai seleksi fitur, hal ini
dimaksudkan untuk mengetahui tingkat akurasi K-Means yang paling tinggi. Adapun model
yang diusulkan diformulasikan didalam RapidMiner tersaji pada gambar 5.9.
47
Gambar 5. 23. Formula untuk algoritma clustering menggunakan information gain.
Gambar 5.9 dapat dijelaskan bahwa langkah pertama yang perlu dilakukan adalah sama
dengan proses clustering tanpa menggunakan seleksi fitur information gain, yaitu dengan
langkah pembacaan dataset dengan menggunakan operator Process Dokumen From Files
yang berisi preprocessing dan pembobotan TF-IDF, tetapi di model yang diusulkan oleh
peneliti setelah Process Dokumen From Files adalah operator Weight By Information Gain
yaitu pembobotan dengan seleksi fitur information gain, dilanjutkan operator Select By
Weights, yaitu memilih dan menyeleksi term sesuai dengan prosentase term yang digunakan,
kemudian dilanjutkan dengan operator Clustering K-Means yang berfungsi mengelompokkan
dokumen teks, terus dilanjutkan proses Map Clustering on labels yang berfunsi untuk
mengubah atribut pengelompokan kedalam atribut untuk proses prediksi algoritma K-Means,
dan terakhir yaitu menghitung performance algoritma model yang diusulkan.
5.2 Analisis Accuracy K-Means menggunakan seleksi Information Gain 300 dokumen
Sebelum menguji model yang diusulkan dengan menggunakan dataset 700 dokumen berlabel
positif dan 700 berlabel negatif serta 1000 dokumen berlabel positif dan 1000 berlabel
negarif, maka sebelumnya diuji terlebih dahulu dengan menggunakan 300 dokumen berlabel
positif dan 300 dokumen berlabel negatif. Sebelumnya sudah diketahui bahwa akurasi
algoritma K-Means menggunakan seleksi fitur information gain dengan p%=0.1 mengalami
kenaikan hingga 78.67%, maka peneliti dengan model yang diusulkan melakukan pengujian
algoritma K-Means dengan menggunakan seleksi fitur information gain pada masing-masing
p%=0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, dengan menggunakan dataset 600 dokumen
terlebih dahulu yang
terbagi menjadi dua kategori yaitu 300 dokumen movie review
berkategori negatif dan 300 movie review dokumen berkategori positif. Hasil accuracy KMeans dengan seleksi fitur pada p% seperti yang disebutkan sebelumnya dapat dilihat pada
gambar 5.10
48
80.00
70.00
60.00
50.00
40.00
30.00
20.00
10.00
0.00
p%=0.1 p%=0.2
p%=0.3 p%=0.4
p%=0.5
p%=0.6
p%=0.7
p%=0.8
p%=0.9
p%=1
p%=0 p%=0 p%=0 p%=0 p%=0 p%=0 p%=0 p%=0 p%=0
p%=1
.1
.2
.3
.4
.5
.6
.7
.8
.9
Accuracy(%) 78.67 70.67 58.83 58.67 58.17 57.33 56.33 55.83 57.67 57.83
Gambar 5. 24. Accuracy K-Means dengan seleksi fitur information gain
Dari gambar 5.10 dapat di jelaskan bahwa akurasi tertinggi algoritma K-Means dengan
seleksi fitur information gain adalah p%= 0.1 yaitu 78.67%, kemudian mengalami penurunan
hingga 8 point pada p%=0.2, kemudian accuracy mulai menurun sangat banyak pada p%=0.3
yaitu 58.83%, hal ini berulang sampai pada p%=0.8 dengan akurasi 55.83%, akurasi ini dapat
dikatakan akurasi paling rendah dari semua p%, tetapi setelah p%=0.8 mengalami kenaikan
lagi. Ada pola yang unik dari akurasi K-Means dengan seleksi fitur information gain yaitu
semakin besar prosentase term yang digunakan semakin menurun akurasi K-Means yaitu
sampai p%=0.8, tetapi mengalami kenaikan lagi mulai pada p%=0.9. Terjadinya penurunan
pada setiap p% dinaikkan dapat digunakan untuk penelitian selanjutnya apa yang
menyebabkan terjadinya penurunan tersebut.
Setelah menguji dengan dataset 300 dokumen maka pengujian selanjutnya dengan dataset
700 dokumen dan 1000 dokumen, hasil kedua pengujian dapat diihat di gambar 11 untuk
dataset 700 dan gambar untuk dataset
49
Gambar 5. 25. Gambar akurasi K-Mean tanpa seleksi fitur 700 dokumen
Gambar 5. 26. Gambar akurasi K-Mean tanpa seleksi fitur 1000 dokumen
5.3 Analisis Waktu Clustering K-Means dengan seleksi fitu
Untuk melengkapi apakah berkinerja baik atau tidakya sebuah algoritma maka
dapat dilihat dari waktu yang ditempuh. Algoritma K-Means menggunakan seleksi fitur
information gain didalam melakukan clustering dapat diukur dengan mengukur waktu
proses didalam melakukan pengelompokan dokumen teks. K-Means merupakan
algoritma yang mempunyai kecepatan tinggi didalam melakukan proses clustering
Apabila waktu proses algoritma K-Means menggunakan seleksi fitur information gain
lebih cepat dibanding tanpa menggunakan seleksi fitur maka dapat dikatakan bahwa
seleksi fitur informasi gain dapat meningkatkan waktu proses. Dari pengujian model
yang diusulkan dengan dataset 300 dokumen teks berlabel positif dan 300 dokumen
berlabel negatif pada masing-masing p%= 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1,
waktu proses yang dibutuhkan algoritma K-Means dengan seleksi fitur information gain
untuk clustering dokumen teks dapat dilihat pada gambar 5.13.
50
Waktu
p%=1
19,500
p%=0.9
p%=0.8
23,400
8,580
p%=0.7
41,040
p%=0.6
35,280
p%=0.5
24,480
p%=0.4
p%=0.3
36,960
18,480
p%=0.2
31,680
p%=0.1
38,940
Gambar 5. 27. Waktu proses K-Means untuk proses clustering
Gambar 5.13 menunjukkan bahwa waktu proses pada p%=0.1 adalah 11 menit 59 menit 59
detik, kemudian waktu proses mengalami kenaikan sampai p%=0.3, sehingga p%=0.3 ini
dikatakan paling cepat dibanding pada p% lainnya. Setelah itu mengalami penurunan waktu
proses sangat besar sampai p%=0.9. Dari gambar diatas dapat di simpulkan bahwa semakin
besar besar p%, maka semakin lama waktu yang dibutuhkan, tetapi tidak untuk p%=0.3,
waktu yang dibutuhkan menurun yaitu 11.28%.
5.4 Analisa Precision dan Recall Algoritma K-Means menggunakan seleksi fitur
Information Gain 300 dokumen
Precision (P) adalah proporsi prediksi jumlah dokumen positif yang benar dan
Recall adalah rasio proporsi jumlah dokumen positif yang diidentifikasikan dengan
benar. Nilai dari Precision dan Recall dalam bentuk persen (%). Gambar 5.14
menggambarkan precision dan recall dari algoritma K-Means dengan menggunakan
information gain.
51
90.00
80.00
70.00
60.00
50.00
40.00
30.00
20.00
10.00
0.00
p%= p%= p%= p%= p%= p%= p%= p%= p%= p%=
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Precision 84.9675.6262.8061.8260.5259.4058.8858.2962.1060.35
Recall
69.6761.0043.3345.3347.0046.3342.0041.0039.3345.67
Gambar 5. 28. Precision dan Recall K-Means dengan Information Gain.
Pada Gambar 5.14 dapat dijelaskan bahwa precision dan recall pada masing-masing
p%=0.1 lebih tinggi dibanding dengan p% lainnya, yaitu precision = 84.96% dan recall
= 69.67% kemudian sama-sama mengalami penurunan cukup banyak pada p%=0.3 yaitu
precision = 62.80% dan recall = 43.33%. Akan tetapi setelah penurunan pada p%=0.3
terjadi perbedaan dari keduanya, untuk precision mengalami penurunan sampai p%=0.8
setelah itu mengalami kenaikan kembali tetapi untuk recall setelah p%=0.3 mengalami
kenaikan sampai p%=0.5, setelah ini mengalami penurunan hingga p%=0.9. Dari
precision dan recall yang ada digambar 5.14 dapat dilihat ada perbedaan yang mencolok
yaitu pada p%=0.9, untuk precision mengalami kenaikan tetapi di recall mengalami
penurunan.
5.5 Analisis Accuracy, Precision dan Recall dengan menggunakan dataset movie review
700 dokumen dan 1000 dokumen
Dengan menggunakan dataset 300 dokumen negatif dan 300 dokumen positif terbukti
algoritma K-Means menggunakan seleksi fitur Information Gain lebih tinggi akurasinya
dibanding tanpa menggunakan seleksi fitur Information Gain, maka untuk menguji lebih
lanjut tentang akurasi K-Means untuk optimasi analisis sentiment movie review, didalam
penelitian ini dataset yang digunakan dinaikkan lebih banyak lagi yaitu 700 dokumen
negatif dan 700 dokumen positif, 1000 dokumen negatif dan 1000 dokumen positif.
52
Masing-masing dataset akan diuji dengan formula tanpa menggunakan seleksi fitur
information Gain dan menggunakan seleksi Informatin Gain.
5.5.1
Akurasi 700 dokumen dan 1000 dokumen
80.00
70.00
60.00
50.00
40.00
30.00
20.00
10.00
0.00
p%= p%= p%= p%= p%= p%= p%= p%= p%= p%=
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1
Dataset 700 72.79 50.07 51.43 51.07 50.21 56.14 56.07 56.14 57.00 56.71
Dataset 1000 72.10 61.75 58.50 59.00 50.85 51.35 50.70 57.95 50.25 50.40
Gambar 5. 29. Grafik akurasi K-Means dengan information gain dataset 700 dan 1000
dokumen
Hasil akurasi secara keseluruhan pada p%=0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1
masing-masing dengan dataset 700 dan 1000 adalah dapat dilihat pada gambar 5.15.
Semula dengan p%=0.1 accuracy K-Means mengunakan seleksi fitur adalah 72.79%
kemudian mengalami penurunan mulai p%=0.2, naik lagi pada p%=0.3, turun lagi
hingga p%=0.5 setelah ini mengalami kenaikan hingga p%=0.9. Sedangkan untuk
akurasi K-Means dengan seleksi fitur menggunakan dataset 1000 dokumen pada
p%=0.1 akurasinya 72.10% kemudian mengalami penurunan hingga p%=0.3
selanjutnya naik lagi pada p%=0.4. Untuk akurasi dengan datase 1000 dokumen positif
dan 1000 dokumen negatif akurasinya tidak dapat diprediksi dengan jelas kadang
mengalami kenaikan dan penurunan.
53
Tanpa
Seleksi Fitur IG
Dokumen
700 (Negatif
1000 (Negatif
dan Positif)
dan Positif)
Accuracy
56.71%
Menggunakan
Seleksi Fitur (p%=0.1)
700 (Negatif
1000 (Negatif
dan Positif)
dan Positif)
50.40%
72.79%
72.10%
Tabel 5.1 Perbandingan akurasi K-Means tanpa dan menggunakan IG
Setelah dilakukan pengujian algoritma K-Means tanpa seleksi fitur information gain
dan menggunakan seleksi fitur information gain dengan menggunakan dataset
masing-masing 700 dokumen dan 1000 dokumen, maka hasil perbandingan dapat
dilihat pada tabel 5.1. Hasil dengan masing-masing menggunakan dataset berjumlah
700 dokumen tanpa menggunakan seleksi fitur akurasi K-Means adalah 56.71% dan
dataset 1000 dokumen akurasi K-Means adalah 50.40%, tetapi setelah digunakan
seleksi fitur information gain dengan p%=0.1 akurasi K-Means meningkat dua point
lebih yaitu menjadi 72.79% untuk penggunaan dataset 700 dokumen dan 72.10%
dengan menggunakan dataset 1000 dokumen. Apabila diamati dari akurasi pada
penggunaan dataset 300 dokumen, 700 dokumen dan 1000 dokumen, semakin
banyak dataset yang digunakan makan semakin berkurang akurasi K-Means, hal ini
terjadi pada K-Means tanpa menggunakan seleksi fitur dan K-Means dengan
menggunakan seleksi fitur.
Tanpa Menggunakan
Seleksi Fitur
Dokumen
Accuracy
Menggunakan
Seleksi Fitur (p%=0.1)
300
(Negatif
& Positif)
700
(Negatif
& Positif)
1000
(Negatif
& Positif)
300
(Negatif
& Positif)
700 (Negatif
dan Positif)
1000
(Negatif
& Positif)
57.83%
56.71%
50.40%
78.67%
72.79%
72.10%
Tabel 5.2 Perbandingan akurasi K-Means tanpa dan menggunakan IG dataset 300,
700 dan 1000
Apabila digabung masing-masing akurasi dengan dataset 300 dokumen, 700
dokumen dan 1000 dokume, maka hasil dapat dilihat pada tabel 5.2, dimana akurasi
semakin menurun apabilai semakin besar dataset yang digunakan, baik itu untuk KMeans tanpa menggunakan seleksi fitur dan yang menggunakan seleksi fitur.
54
5.5.2 Precision 700 dokumen dan 1000 dokumen
90
Prec.700
dok(%)
80
70
Prec.1000
dok(%)
60
50
40
30
20
10
0
Gambar 5.30. Grafik precision 700 dokumen dan 1000 dokumen
Gambar 5.16 menjelaskan tentang precision dengan dataset 700 dokumen lebih tinggi
dibanding dokumen 1000 yaitu untuk 700 dokumen 80.27 % dan 1000 dokumen
73.76%. Precision keduanya mengalami penurunan pada p%=0.2. Setelah p%=0.2
untuk dokumen 700 dokumen mengalami kenaikan kembali pada p%=0.6 setelahnya
ada kenaikan dan penurunan yang tidak terlalu signifikan. Sedangkan untuk precision
dataset 1000 dokumen setelah mengalami penurunan pada p%=0.2 kemudian
mengalami kenaikan tidak terlalu siknifikan sampai pada p%=0.4, kemudian
mengalami penurunan kembali pada p%=0.5, sampai p%=0.7 tidak ada kenaikan yang
banyak, tetapi pada p%=0.8 mengalami kenaikan kembali yang cukup banyak yaitu
57.34%, setelah itu menurun kembali hingga p%=1.
55
5.5.3 Recall 700 dokumen dan 1000 dokumen
90.00
80.00
70.00
700 dok(%)
60.00
50.00
1000 dok(%)
40.00
30.00
20.00
10.00
0.00
Gambar 5. 31. Grafik recall 700 dokumen dan 1000 dokumen
Gambar 5.17 menunjukkan bahwa recall menggunakan dataset 700 dokumen, recall
tertinggi pada p%=0.2 yaitu 84.71 dan recall tertinggi dengan dataset 1000 dokumen
pada p%=0.2 yaitu 71.40%. Melihat hasil recall ini maka dapat disimpulkan bahwa
recall tertinggi dari keduanya pada p%=0.2. Dari gambar 5.17 dapat di jelaskan bahwa
ada kondisi recall yang sangat mencolok, yaitu penurunan recall yang sangat
signifikan pada p%=0.5 pada dataset 700 dokumen, sedangkan penurunan recall yang
sangat signifikan untuk dataset 1000 dokumen adalah pada p%=0.9.
56
BAB 6
RENCANA TAHAPAN BERIKUTNYA
6.1 Rencana dan Jadual Selanjutnya
a. Menyelesaikan pembuatan laporan yang diperkirakan akan selesai pada akhir oktober
2016.
b. Pembuatan artikel ilmiah dan mempublikasi artikel ilmiah pada Seminar Nasional
Masif II Tahun 2016 Universitas PGRI Semarang.
c. Memasukan artikel ilmiah ke Jurnal Techno Com Universitas Dian Nuswantoro
Semarang November 2016.
d. Penggandaan Laporan yakni menggandakan laporan akhir untuk dikumpulkan di
LPPM.
e. Rencana digunakan sebagai bahan ajar.
57
BAB 7. KESIMPULAN DAN SARAN
7.1 Kesimpulan
Kesimpulan yang bisa diperoleh dari penelitian ini adalah sebagai berikut :
1.
Algoritma K-Means dengan menggunakan seleksi fitur Information Gain
meningkatkan optimasi analisis sentimen movie review.
2.
Algoritma K-Means tanpa menggunakan seleksi fitur dengan dataset 300 dokumen
review negatif dan positif akurasi 57.83%, 700 dokumen (negatif & positif) akurasi
56.71%, dataset 1000 dokumen negatif dan positif akurasinya 50.40%.
3.
Algoritma K-Means dengan menggunakan seleksi fitur Information Gain tingkat
akurasi meningkat yaitu dengan dataset 300 dokumen negatif dan positif akurasinya
78.67%, dataset 700 dokumen negatif dan positif akurasinya 72.79%, dataset 1000
dokumen negatif positif akurasinya 72.10%.
4.
Sesuai tabel 2 akurasi K-Means tanpa seleksi fitur dan menggunakan seleksi fitur
akurasi mengalami penurunan apabila databaset bertambah besar.
7.2 Saran
Saran yang akan diberikan terkait dengan penelitian ini adalah sebagai berikut :
1.
Untuk mengetahui keakuratan dari metode/model yang digunakan dalam penelitian ini,
disarankan untuk menggunakan dataset yang lainnya seperti dataset dari opini-opini
publik yang ada di web atau dataset dalam bentuk dokumen bahasa inggris.
2.
Untuk menguji kinerja model yang diusulkan peneliti, peneliti kedepan dapat
menggunakan dataset yang lebih besar lagi.
58
DAFTAR PUSTAKA
Abbasi, A., Chen , H., & Salem , A. (2008). Sentiment analysis in multiple languages : Feature
selection for opinion clasification in web forums. ACM Transactions on Information
Systems, 26(3), 1-34.
Adityana, M. N. (2009). Penerapan Pohon Untuk Machine Learning. Makalah IF 2091 Strategi
Algoritmik.
Al-Mubaid, H., & Umair, S. A. (2006, September). A New Text Categorization Technique
Using Distributional Clustering and Learning Logic. IEEE Transactions on Knowledge
and Data Engineering, 18(9), 1156-1165 .
Al-Subaihin, A. A., Al-Khalifa, H. S., & Al-Salman, A. S. (2011). A Proposed Sentiment
Analysis Tool for Modern Arabic Using Human-Based Computing. iiWAS '11
Proceedings of the 13th International Conference on Information Integration and Webbased Applications and Services, (pp. 543-546).
Chaovalit, P., & Zhou, L. (2005). Movie Review Mining: a Comparison between Supervised
and Unsupervised Classification Approaches. Proceedings of the 38th Hawaii
International Conference on System Sciences. IEEE.
Chen, J., Huang, H., Tian, S., & Qu, Y. (2009). Feature selection for text classification with
Naïve Bayes. In Expert Systems with Applications (pp. 5432-5435). Beijing, China:
Elsevier Ltd.
Christopher, C. Y., Wong, Y., & Chih-Ping, W. (2009). Classifying Web Review Opinions for
Consumer Product Analysis. ICEC '09 Proceedings of the 11th International
Conference on Electronic Commerce , (pp. 57-63). New York.
Claster, W. B., Cooper, M., & Sallis, P. (2010). Thailand –Tourism and Conf ict. Modeling
Sentiment from Twitter Tweets using Naïve Bayes and Unsupervised Artificial Neural
Nets. CIMSIM '10 Proceedings of the 2010 Second International Conference on
Computational Intelligence, Modelling and Simulation, (pp. 89-94).
Francis, L., & Flynn, M. (2010). Text Mining Handbook. Spring.
Gorunescu, F. (2011). Data Mining Concepts,Models and Techniques (Vol. 12). Verlag Berlin
Heidelberg: Springer.
Jain, A., Murty, M., & Flynn, P. (1999, September). Data Clustering: A Review. ACM
Computing Surveys, 31.
Jiawei, H., & Kamber, M. (2006). Data Mining: Concepts and Techniques 2nd. San Francisco:
Morgan Kaufmann.
59
Keefe, T. O., & Koprinska, I. (2009, Desember 4). Feature Selection and Weighting Methods
in Sentiment Analysis. Proceedings of the 14th Australasian Document Computing
Symposium, 1-8.
Kira, K., & Rendel, L. A. (1992). The Feature Selection Problem : Traditional Methods and a
New Algoritmh. AAAI Press .
Kucuktunc, O., & Bambazoglu, B. B. (2012, February). A Large-Scale Sentiment Analysis for
Yahoo! Answers.
Lee, L., & Pang, B. (2008). Opinion mining and sentiment analysis (Vol. Volume 2).
Li, G., & Liu, F. (2010, Nov). A Clustering-based Approach on Sentiment Analysis. Intelligent
Systems and Knowledge Engineering (ISKE), 2010 International Conference on, (pp.
331 - 337).
Li, G., & Liu, F. (2010, Nov). A Clustering-based Approach on Sentiment Analysis. Intelligent
Systems and Knowledge Engineering (ISKE), 2010 International Conference on, (pp.
331 - 337). Australia.
linuxarna. ( 2012 , Desember ). Retrieved from http://linuxarna.net/berita-41-algoritmakmeans-clustering.html.
Liu, B. (2010). (N. Indurkhya, & F. J. Damerau, Eds.) Sentiment Analysis and
Subjectivity,Handbook of Natural Language Processing.
Liu, T. a. (2003). An Evaluation on Feature Selection for Text Clustering. Proceedings of the
Twentieth International Conference on Machine Learning. Washington DC.
MacQueen. (1967). Some Methods For Classification And Analysis Of Multivariate
Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and
Probability (pp. 281–297). University of California Press.
O’Keefe, T., & Koprinska, I. (2009). Feature Selection and Weighting Methods in Sentiment
Analysis. Proceedings of the 14th Australasian Document Computing. Sydney,
Australia.
Ohana, B., & Brendan, T. (2011, June). Supervised Learning Methods for Sentiment
Classification with RapidMiner. RapidMiner Community Meeting And Conference,
RCOMM, 1-8.
Pang, B., Lee, L., & Shivakumar, V. (2002). Thumbs up? Sentiment Classification using
Machine Learning Techniques.
Reddy, S. R., Somayajulu, D. V., & Dani, A. R. (2010, Desember). Classification of Movie
Reviews Using Complemented Naive Bayesian Classifier. International Journal of
Intelligent Computing Research (IJICR), 1(4).
60
Somayajulu, Reddy, S. R., & Dani, A. (2010). Classification of Movie Reviews Using
Complemented Naive Bayesian Classifier. International Journal of Intelligent
Computing Research (IJICR), 1, 162-167.
Stylios, G. a. (2010). Public Opinion Mining for Governmental Decisions. Electronic Journal
of e-Government, 8(2), 203-214.
Suanmali, L., Salim, N., & Binwahlan, M. S. (2008, Desember). Automatic Text
Summarization Using Feature Based Fuzzy Extraction. Jurnal Teknologi Maklumat.
Tan, S., & Zhang, J. (2007, Mei). An empirical study of sentiment analysis for chinese
documents. Expert Systems with Applications: An International Journal, 34(4), 26222629 .
Tan, Steinbach, & Kumar. (2004). Data Mining Cluster Analysis: Basic Concepts and
Algorithms. In Introduction to Data Mining.
Tata, S., & Patel M, J. (2007 , June ). Estimating the Selectivity of tf-idf based Cosine
Similarity Predicates. ACM SIGMOD, 36(2), 7-12.
Velmurugan, T., & Santhanam, T. (2010). Computational Complexity between K-Means and
K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data
Points. Journal of Computer Science 6, 363-368.
Vidhya, K., & Aghila, G. (2010). A Survey of Naïve Bayes Machine Learning approach in
Text Document Classification. International Journal of Computer Science and
Information Security (IJCSIS), 7.
Wajeed, M. A., & Adilakshmi, D. (2005 - 2009). Text Classification Using Machine Learning.
Journal of Theoretical and Applied Information Technology.
Williams, G. (2006). Data Mining Algorithms Cluster Analysis.
Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining,Practical Machine Learning Tools
and Techniques 3rd Edition. Burlington: Morgan Kaufmann.
Xu, R., & Wunsch, D. C. (2009). Clustering. (D. B. Fogel, Ed.) IEEE Computational
Intelligence Society.
Yates, R. B., & Neto, B. R. (1999). Modern Information Retrieval .
61
LAMPIRAN-LAMPIRAN
Lampiran 1 Draft Makalah di yang dikirim ke Seminar Nasional Masif II Tahun 2016
Penerapan Algoritma K-Means Dengan Seleksi Fitur
Information Gain Untuk Optimasi Analisis
Sentimen Movie Review
Setyo Budi, M.Kom.1, Dwiyono Arifianto, S.Kom.2
Ilmu Komputer, Universitas Dian Nuswantoro Semarang
email: [email protected]
2Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Semarang
email: [email protected]
1Fakultas
Abstrak - Keberadaan website memberikan kemudahan dan kebebasan bagi manusia dalam menyampaikan informasi dan
pendapatnya. Informasi dan pendapat kemudian tersimpan didalam kumpulan dokumen teks. Dalam kurun waktu yang lama
kumpulan dokumen teks bertambah besar, sehingga ada pemikiran untuk melakukan penggalian dokumen teks. Analisis sentimen
merupakan salah satu metode penggalian dokumen teks, dimana terdapat proses memahami, mengekstrak, dan mengolah informasi
tekstual secara otomatis. Banyak penelitian analisis sentimen menggunakan algoritma yang berbeda baik yang supervised learning
atau unsupervised learning. Hal ini disebabkan karena perbedaan akurasinya dan kecepatannya. Dokumen teks yang berasal dari
website masih terdapat atribut yang tidak relevan yang digunakan pada dataset, sehingga dibutuhkan seleksi fitur yang dapat
digunakan untuk mengurangi dataset yang tidak relevan. Seleksi fitur yang digunakan di penelitian ini adalah Information Gain
(IG). Hasil pengujian algoritma K-Means tanpa seleksi fitur Information Gain dengan dataset 300 dokumen negatif dan positif
akurasinya masih rendah yaitu 57.83%, setelah menggunakan seleksi fitur Information Gain akurasinya naik menjadi 78.67%.
Pengujian dengan dataset 700 dokumen negatif dan positif tanpa seleksi fitur akurasinya 56.71%, setelah menggunakan seleksi
fitur menjadi 72.79%, selanjutnya untuk dataset 1000 dokumen negatif dan positif akurasi K-Means tanpa seleksi fitur
akurasinya 50.40%, setelah menggunakan seleksi fitur akurasinya 72.15%. Sehingga dengan model yang peneliti usulkan,
algoritma K-Means menggunakan seleksi fitur Information Gain dapat meningkatkan optimasi analisis sentimen movie review.
.
Kata Kunci : Analisis Sentimen, K-Means, Information Gain
I. PENDAHULUAN
Saat ini, teknik yang berkembang untuk
menganalisis kumpulan dokumen adalah analisis
sentimen. Ada dua arah penelitian dalam analisis
sentimen, yang pertama adalah untuk
mengklasifikasikan polaritas suatu teks yang
diberikan, apakah yang diungkapkan merupakan
opini positif, negatif atau netral, penelitian ini
sebelumnya dipelopori oleh Pang, et. al, 2000 [2].
Arah penelitian yang kedua adalah identifikasi
subjektivitas atau objektifitas, penelitian ini
mengklasifikasikan sebuah teks kedalam satu dari
dua kelas yaitu tujuan atau subyektif. Contoh
penelitian yang berhubungan dengan analisis
sentimen antara lain menganalisa rating movie
review untuk mengetahui tingkat pendapatan dari
pemutaran sebuah film [2]. Review movie dapat
dimanfaatkan oleh penikmat film untuk
memutuskan film apa yang akan ditonton, bagi
produser film dapat memanfaatkan opini untuk
mengetahui penilaian yang diberikan oleh para
penikmat film tentang film-film yang paling
banyak dikritik. Selain review movie, review sebuah
produk dapat membantu perusahaan untuk
mempromosikan produk mereka.
Website memberikan kemudahan dan kebebasan
bagi pengguna untuk menyampaikan informasi
dan pendapatnya, sehingga informasi dan
pendapat selalu bertambah setiap saat. Informasi
dan pendapat akan tersimpan didalam kumpulan
dokumen teks. Karena masih dalam bentuk
dokumen teks maka sulit untuk menemukan
kembali informasi yang sesuai antara satu
dokumen teks dengan yang lainnya. Dalam kurun
waktu yang lama, kumpulan dokumen teks
semakin bertambah besar. Penggalian dokumen
teks dari website yang berisi komentar, pendapat,
feedback, kritik dan review merupakan hal penting,
karena apabila dikelola dengan baik dan benar
maka akan memberikan informasi yang
bermanfaat untuk membantu individu atau
organisasi
didalam
pengambilan
sebuah
keputusan [1]. Namun kumpulan dokumen teks
dari website masih dinyatakan didalam bahasa
alami atau natural yaitu banyak atribut yang
digunakan pada dataset, sehingga dibutuhkan
seleksi fitur untuk mengurangi dataset yang tidak
relevan. Seleksi fitur yang digunakan di penelitian
ini adalah Information Gain (IG).
62
Dalam perkembangannya, banyak penelitian
analisis sentimen dengan menggunakan metode
atau algoritma yang berbeda, hal ini disebabkan
karena masing-masing metode atau algoritma
mempunyai perbedaan, baik tingkat akurasi
maupun tingkat kecepatannya didalam melakukan
proses clustering atau klasifikasi sebuah dokumen.
Pada penelitian sebelumnya ada beberapa teknik
supervised learning seperti algoritma Support Vector
Machine (SVM) Stylos [3], Abbasi, et al [4],
O’Keefe & Koprinska [5], Reddy, et al. [6] dan
algoritma Naive Bayes (NB), Stylios, George at al.
[3], Keefe & Koprinska, 2009 [7]. Sedangkan
teknik unsupervised learning dengan metode
clustering, seperti penelitian yang dilakukan oleh
Gang Li dan Fei Liu [8] yaitu suatu metode
didalam mengelompokkan dokumen dengan
menggunakan persamaan topik yang dimiliki oleh
masing-masing dokumen, dengan tujuan untuk
memudahkan pengguna dalam menemukan
dokumen yang diinginkan.
Berdasarkan penelitian diatas, ada beberapa
metode atau algoritma yang digunakan untuk
analisis sentimen, namun belum diketahui akurasi
algoritma K-Means dengan seleksi fitur
Information Gain untuk meningkatkan optimasi
analisis sentimen movie review, serta bagaimana
kinerja algoritma tersebut setelah menggunakan
seleksi fitur Information Gain. Maka didalam
penelitian ini mengusulkan model penerapan
algoritma K-Means dengan seleksi fitur
Information Gain (IG) untuk optimasi analisis
sentimen movie review sehingga diketahui kinerja
dan akurasinya.
(IG) untuk optimasi analisis sentimen movie review
sehingga diketahui kinerja dan akurasinya.
2. Rumusan Masalah
Berdasarkan literature review yang dilakukan,
didapat permasalahan yaitu banyak metode atau
algoritma yang digunakan untuk analisis
sentimen, namun belum
diketahui akurasi
algoritma K-Means dengan seleksi fitur
Information Gain untuk meningkatkan optimasi
analisis sentimen movie review.
3. Pengumpulan Data
Dataset yang digunakan adalah dataset movie review
yang
diambil
dari
www.cs.cornell.edu/People/pabo/movie-reviewdata/. Movie review sudah dikelompokkan kedalam
1000 kelompok dokumen review negatif dan
1000 kelompok dokumen review negatif. Dataset
ini sudah populer karena pernah digunakan oleh
Pang et al. [2], Chaovalit dan Zhou [9], Keefe
dan Koprinska [7], dan sudah siap dijadikan
dataset untuk penelitian. Dataset tersebut
dikumpulkan dari IMDb (Internet Movie Database)
Chaovalit & Zhou, 2005 [9]. Di penelitian ini di
gunakan dataset masing-masing 300,700 dan 1000
dokumen review negatif dan positif.
4. Model yang diusulkan
Model yang
Gambar 1.
diusulkan
Dataset Movie
Review
adalah
seperti
Preprocessing
Case folding, Tokenizing,
Stopword, Stemming
II. METODE PENELITIAN
Seleksi Fitur
Information
Gain
Permasalahan didalam penelitian ini adalah
bagaimana model penerapan algoritma KMeans dengan seleksi fitur Information Gain
(IG) untuk optimasi analisis sentimen movie review
serta bagaimana kinerja dan akurasinya. Tools yang
digunakan untuk eksperimen penelitian ini adalah
RapidMiner versi 5. Metode penelitian yang
dilakukan adalah metode penelitian eksperimen,
dengan tahapan penelitian seperti dalam skema
penelitian sebagai berikut:
Clustering
Algoritma
K-Means
Pembobotan TF-IDF
Evaluasi
Accuracy, Precision, Recall
Gambar 1. Model yang diusulkan
1. Dataset Movie Review
Dataset yang digunakan dalam penelitian ini
terdiri dari 300, 700 dan 1000 dokumen masingmasing dokumen review negatif dan positif. Satu
dokumen tersimpan dalam satu file yang
berektensi txt.
1. Pendahuluan dan Literatur
Metode dan algoritma yang digunakan untuk
analisis sentimen dokumen teks berbeda antara
satu
lainnya,
tujuannya
adalah
untuk
mendapatkan algoritma atau metode yang paling
akurat untuk teknik clustering. Didalam penelitian
ini diusulkan model untuk penerapan algoritma
K-Means dengan seleksi fitur Information Gain
2. Preprocessing
Tahapan preprocessing yang digunakan dalam
penelitian ini adalah Tranform Cases/Case
folding, Tokenizing, Stopword, Stemming
(porter).
63
1. Memilih k dokumen untuk dijadikan centroid
(titik pusat cluster) awal secara random;
2. Hitung jarak setiap dokumen ke masingmasing centroid menggunakan persamaan cosines
similarity kemudian jadikan satu cluster untuk
tiap-tiap dokumen yang memiliki jarak
terdekat dengan centroid;
3. Tentukan centroid baru dengan cara
menghitung nilai rata-rata dari data-data yang
ada pada centroid yang sama;
4. Kembali ke langkah 2 jika posisi centroid baru
dan centroid lama tidak sama;
Gambar 2. Proses Preprocessing
3. Pembobotan TF-IDF
TF-IDF (Term Frequency - Inverse Document
Frequency) adalah salah satu algoritma yang
digunakan untuk menghitung skor atau
pembobotan term atau kata didalam suatu
dokumen [10]. TF (Term frequency) adalah
banyaknya kemunculan suatu term dalam
dokumen. Pembobotan TF dilakukan dengan
menghitung jumlah kemunculan kata dalam satu
dokumen, IDF (inverse document frequency) adalah
perhitungan logaritma antara pembagian jumlah
total dokumen dengan cacah dokumen yang
mengandung term, dan TF-IDF adalah perkalian
antara TF dengan IDF. Semakin besar bobot
TF-IDF pada suatu term, maka semakin penting
term tersebut untuk bisa digunakan pada tahapan
klasifikasi dokumen.
6. Evaluasi
Evaluasi dilakukan dengan mengamati kinerja
algoritma K-Means dengan menggunakan seleksi
fitur Information Gain untuk optimasi analisis
sentimen movie review. Dalam penelitian ini
digunakan Confusion Matrix untuk mengukur
kinerja clustering.
III.
HASIL DAN PEMBAHASAN
(1)
Capaian yang di harapkan dari penelitian ini
adalah
bagaimana menerapkan algoritma
K-Means dengan seleksi fitur Information Gain
untuk optimasi analisis sentimen movie review.
Terdapat dua skenario pengujian, yang pertama
ialah pengujian algoritma K-Means tanpa seleksi
fitur Information Gain untuk mengetahui akurasi
K-Means tanpa seleksi fitur, skenario kedua
adalah algoritma K-Means menggunakan seleksi
fitur Information Gain bertujuan untuk
mengetahui akurasi K-Means menggunakan
seleksi fitur. Dibawah ini dijelaskan tentang
langkah-langkah pada masing-masing skenario.
Dalam hal ini pi adalah probabilitas sebuah tuple
pada D masuk ke kelas Ci dan diestimasi dengan
|Ci,D|/|D|. Fungsi log diambil berbasis 2
karena informasi dikodekan bit.
1. Skenario Pertama : Penerapan algoritma
K-Means tanpa seleksi fitur Information
Gain
4. Seleksi Fitur Information Gain
Feature Selection adalah salah teknik terpenting dan
sering digunakan dalam preprocessing data mining
[11], khususnya untuk knowledge discovery maupun
discovery scince. Seleksi Fitur yang terbukti sangat
efektif antara lain adalah Information Gain (IG) dan
Chi Square (CHI) [12] . Maka didalam penelitian
ini seleksi fitur yang digunakan adalah Information
Gain (IG), disajikan persamaan 1.
Info(D)=-∑𝑚
𝑖=1 𝑝𝑖 log2 pi
Proses pembacaan dataset dokumen ini
berada di operator Proces Documents From
Files sekaligus terjadi proses Preprocessing
dan
pembobotan
TF-IDF,
disajikan
Gambar 3.
5. Algoritma K-Means
Metode K-Means diperkenalkan oleh James B
Mac Queen pada tahun 1967 dalam Proceding of the
5th Berkeley Symposium on Mathematical Statistics and
Probability [13]. K-Means adalah salah satu teknik
unsupervised learning yang paling sederhana dan baik
untuk memecahkan masalah clustering [14]. Berikut
adalah pseudocode dari algoritma K-Means.
Algoritma K-Means Clustering
Input : Koleksi Dokumen D={d1, d2, d3, …
dn};
Jumlah cluster (k) yang akan dibentuk;
Output : k cluster;
Proses :
Gambar 3. Process view tanpa seleksi fitur
Proses preprocessing juga berlaku untuk penerapan
algoritma K-Means menggunakan seleksi fitur.
64
Kemudian dilanjutkan operator Clustering
dengan K-Means, selanjutnya Map Clustering on
labels kemudian operator Performance. Setelah
ditemukan formula algoritma K-Means tanpa
seleksi fitur maka dilakukan pengujian model.
Gambar 4. Akurasi K-Means tanpa seleksi fitur Information Gain
Hasilnya terlihat pada Gambar 4 dimana akurasi
K-Means tanpa seleksi fitur Information
Gain(IG) menggunakan dataset 300 dokumen
review negatif dan 300 dokumen review positif
adalah 57.83%, precision =60.35% dan recall
=45.67%. Hasil akurasi K-Means tanpa seleksi
fitur untuk analisis sentimen movie review ini masih
rendah, akurasi ini jauh lebih kecil di banding
hasil penelitian Gang Li dan Fei Liu [8]. Dengan
model yang sama maka pengujian selanjutnya
adalah dataset meningkatkan dataset masingmasing menjadi 700 dokumen dan 1000
dokumen. Hasil pengujian dapat di lihat pada
tabel 1.
untuk membuktikan kalau seleksi fitur
Information Gain dapat meningkatkan akurasi.
Hasil pengujian model disajikan pada Gambar 6,
hasil tersebut menunjukkan bahwa tingkat akurasi
algoritma K-Means menggunakan seleksi fitur
mengalami peningkatan menjadi 78.67%, ini
sesuai keunggulan dari Information Gain yaitu
dapat menaikkan akurasi. Hasil ini lebih baik dari
hasil penelitian sebelumnya.
Tabel 1. Akurasi K-Means tanpa seleksi fitur
dataset masing-masing 700 dan 1000 dokumen
Dokumen
Accuracy
Tanpa Seleksi Fitur IG
700 (neg & pos)
1000 (neg & pos)
56.71%
Gambar 5. Process View menggunakan seleksi
Fitur
Karena dengan menggunakan seleksi fitur tingkat
akurasi K-Means naik, maka penelitian ini akan
menerapkan
algoritma K-Means dengan
menggunakan seleksi fitur Infomation Gain, hal
ini dimaksudkan untuk mengetahui tingkat
akurasi K-Means yang paling tinggi pada masingmasing p%.
50.40%
Dijelaskan pada tabel 1 bahwa akurasi K-Means
tanpa seleksi fitur dengan dataset 700 dokumen
akurasinya 67.71 % dan dataset 1000 dokumen
akurasinya 50.40%.
2. Skenario Kedua : Penerapan algoritma
K-Means menggunakan seleksi fitur
Information Gain
Proses pengujian model penerapan algoritma
K-Means menggunakan seleksi fitur diawali
pembacaan dataset, preprocessing dan pembobotan
TF-IDF dilanjutkan formula seleksi fitur
Information Gain(IG), kemudian proses Select by
Weight selanjutnya Clustering kemudian Map
Clustering on labels dan terakhir menghitung
Performance algoritma K-Means, formula ini
dapat dilihat pada gambar 5. Sebelum melakukan
pengujian secara keseluruhan dengan p% =0.1,
0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, model
diuji dengan seleksi fitur Information Gain (IG)
dengan p%=0.1 terlebih dahulu, hal ini bertujuan
a. Analisis
Akurasi
K-Means
menggunakan seleksi fitur 300
dokumen negatif dan positif.
Setelah diketahui hasil pengujian model
menggunakan seleksi fitur dengan p%=0.1
akurasi K-Means meningkat, maka pengujian
selanjutnya adalah menguji p% secara
keseluruhan dengan p%=0.2, 0.3, 0.4, 0.5, 0.6,
0.7, 0.8, 0.9 dan 1, dengan menggunakan dataset
600 dokumen yang terbagi menjadi dua kategori
yaitu 300 dokumen review negatif dan 300 review
positif. Hasil akurasi K-Means dengan seleksi
65
fitur pada masing-masing p% dapat dilihat pada
Gambar 7 dengan penjelasan bahwa akurasi
tertinggi algoritma K-Means dengan seleksi fitur
Gambar 6. akurasi K-Means menggunakan seleksi fitur
yaitu 78.67%, kemudian mengalami penurunan
hingga p%=0.2. Akurasi mulai menurun
signifikan pada p%=0.3 sampai dengan p%=0.8
dengan akurasi 55.83%, akurasi ini dapat
dikatakan akurasi paling rendah dari semua p%,
tetapi setelah p%=0.8 mengalami kenaikan lagi.
Ada pola yang unik dari akurasi K-Means
dengan seleksi fitur Information Gain yaitu
semakin besar p% semakin menurun akurasi
K-Means yaitu sampai p%=0.8, tetapi
mengalami kenaikan lagi mulai pada p%=0.9.
Terjadinya penurunan pada setiap p% dinaikkan
dapat digunakan untuk penelitian selanjutnya apa
yang menyebabkan terjadinya penurunan
tersebut.
yang dibutuhkan algoritma K-Means dengan
seleksi fitur Information Gain dapat dilihat pada
Gambar 8. Gambar tersebut nunjukkan bahwa
waktu proses yang paling lama pada p%=0.7
adalah 41.041 detik, dan yang paling cepat adalah
pada p%=0.8 yaitu hanya 8.580 detik.
Waktu
p%=1
p%=0.9
p%=0.8
p%=0.7
p%=0.6
p%=0.5
p%=0.4
p%=0.3
p%=0.2
p%=0.1
80.00
70.00
60.00
19,500
23,400
8,580
41,040
35,280
24,480
36,960
18,480
31,680
38,940
50.00
40.00
Gambar 8. Waktu proses K-Means
c. Analisa Precision dan Recall KMeans menggunakan seleksi fitur
Information Gain 300 dokumen
negatif dan positif.
p%=1
p%=0.9
p%=0.8
p%=0.7
p%=0.5
p%=0.6
p%=0.4
p%=0.2
p%=0.3
p%=0.1
30.00
20.00
10.00
0.00
Precision (P) adalah proporsi prediksi jumlah
dokumen positif yang benar dan Recall adalah
rasio proporsi jumlah dokumen positif yang
diidentifikasikan dengan benar. Nilai dari
Precision dan Recall dalam bentuk persen (%)
disajikan pada Gambar 9.
p%= p%= p%= p%= p%= p%= p%= p%= p%= p%=
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Accuracy(%) 78.6770.6758.8358.6758.1757.3356.3355.8357.6757.83
Gambar 7. Akurasi K-Means
menggunakan Information Gain.
90.00
80.00
70.00
60.00
50.00
40.00
30.00
20.00
10.00
0.00
b. Analisis Waktu proses Clustering 300
dokumen review negatif dan positif
Untuk melengkapi apakah berkinerja baik atau
tidak sebuah algoritma maka dapat dilihat dari
waktu proses yang ditempuh. Dari pengujian
model yang diusulkan dengan dataset 300
dokumen review negatif dan 300 dokumen review
positif pada masing-masing p%= 0.1, 0.2, 0.3,
0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, waktu proses
p%= p%= p%= p%= p%= p%= p%= p%= p%= p%=
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
1
Precision 84.96 75.62 62.80 61.82 60.52 59.40 58.88 58.29 62.10 60.35
Recall
66
69.67 61.00 43.33 45.33 47.00 46.33 42.00 41.00 39.33 45.67
Gambar 9. Precision dan Recall menggunakan
seleksi fitur dataset 300 dokumen
negatif dan positif .
Gambar 9 menjelaskan bahwa precision tertinggi
pada p%=0.1 yaitu 84.96% kemudian recall
tertinggi pada p%=0.1 yaitu 69.67%.
Tabel 2. Akurasi algoritma K-Means tanpa seleksi fitur dan menggunakan seleksi fitur
Dokumen
Tanpa
Seleksi Fitur
700 (Neg
1000 (Neg
dan Pos)
dan Pos)
56.71%
50.40%
Menggunakan
Seleksi Fitur (p%=0.1)
300 (Neg
700 (Neg
1000 (Neg
dan Pos)
dan Pos)
dan Pos)
78.67%
72.79%
72.10%
Accuracy
300 (Neg
dan Pos)
57.83%
Precision
60.35%
62.05%
50.30%
84.96%
80.27 %
73.76%
Recall
45.67%
34.57%
67.20%
69.67%
60.43%
68.60%
Dari precision dan recall yang ada digambar 9
dapat dilihat ada perbedaan yang mencolok
yaitu pada p%=0.9, untuk precision mengalami
kenaikan tetapi di recall mengalami penurunan.
semakin besar dataset yang digunakan semakin
menurun akurasi K-Means.
e. Hasil Precision
dokumen
d. Analisis akurasi K-Means dataset
700 dan 1000 dokumen
Precision dengan dataset 700 dan 1000 dokumen
dapat dilihat pada Gambar 10. Ada persamaan
precision antara dataset 700 dan 1000 dokumen
yaitu precision tertinggi pada p%=0.1 dan
mengalami kenaikan kembali tetapi tidak
melebihi p%=0.1.
Untuk mengetahui lebih lanjut tentang akurasi
k-means dengan seleksi fitur maka didalam
penelitian ini dataset yang akan diuji ditambah
menjadi masing-masing 700 dan 1000
dokumen review negatif dan positif. Hasil
pengujian disajikan pada Gambar 10.
Prec.70
0
dok(%)
90
80.00
80
70.00
70
Prec.10
00
dok(%)
60
60.00
50
50.00
40
40.00
30
30.00
20
20.00
10
Dataset 700 72.7950.0751.4351.0750.2156.1456.0756.1457.0056.71
p%=1
p%=0.9
p%=0.8
p%=0.7
p%=0.6
p%=0.5
p%=0.4
p%=0.3
p%=0.1
p%= p%= p%= p%= p%= p%= p%= p%= p%= p%=
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
p%=0.2
0
10.00
0.00
700 dan 1000
Gambar 10. Grafik precision 700 dan 1000
dokumen negatif dan positif.
Dataset 1000 72.1061.7558.5059.0050.8551.3550.7057.9550.2550.40
Gambar 10. Grafik akurasi K-Means
dengan seleksi fitur dataset
masing-masing 700 dan 1000
dokumen.
f. Hasil Recall 700 dan 1000 dokumen
Untuk recall hasil terbaik untuk kedua dataset
pada p%=0.2, setelah itu mengalami
penurunan. Ada persamaan hasil recall antara
dataset 700 dan 1000 yaitu recall tertinggi pada
pada p%=0.2 dan mengalami kenaikan kembali
tetapi tidak melebihi p%=0.1.
Hasil akurasi secara keseluruhan pada p%=0.1,
0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1 masingmasing dengan dataset 700 dan 1000 adalah
dapat dilihat pada gambar 10. Akurasi tertinggi
untuk dataset 700 dokumen berada pada
p%=0.1 sedangkan untuk dataset 1000
dokumen berada pada p%=0.1. Untuk
perbandingan akurasi tanpa seleksi fitur dan
menggunakan seleksi fitur dengan dataset 300,
700 dan 1000 dokumen dapat dilihat pada tabel
2. Dari tabel 2 dapat disimpulkan bahwa
67
90.00
80.00
70.00
60.00
50.00
40.00
30.00
20.00
10.00
0.00
[3] G. a. a. Stylios, "Public Opinion Mining
for
Governmental
Decisions,"
Electronic Journal of e-Government,
vol. 8, no. 2, pp. 203-214, 2010.
[4] A. Abbasi, H. Chen and A. Salem ,
"Sentiment
analysis
in
multiple
languages : Feature selection for opinion
clasification in web forums," ACM
Transactions on Information Systems,
vol. 26, no. 3, pp. 1-34, 2008.
[5] T. O’Keefe and I. Koprinska, "Feature
Selection and Weighting Methods in
Sentiment Analysis," in Proceedings of
the 14th Australasian Document
Computing, Sydney, Australia, 2009.
[6] S. S. R. Reddy and A. Dani,
"Classification of Movie Reviews Using
Complemented
Naive
Bayesian
Classifier," International Journal of
Intelligent Computing Research (IJICR),
vol. 1, pp. 162-167, 2010.
[7] T. O. Keefe and I. Koprinska, "Feature
Selection and Weighting Methods in
Sentiment Analysis," Proceedings of the
14th Australasian Document Computing
Symposium, pp. 1-8, 4 Desember 2009.
[8] G. Li and F. Liu, "A Clustering-based
Approach on Sentiment Analysis," in
Intelligent Systems and Knowledge
Engineering (ISKE), 2010 International
Conference on, 2010.
[9] P. Chaovalit and L. Zhou, "Movie
Review Mining: a Comparison between
Supervised
and
Unsupervised
Classification
Approaches,"
in
Proceedings of the 38th Hawaii
International Conference on System
Sciences, 2005.
[10] R. B. Yates and B. R. Neto, "Modern
Information Retrieval," 1999.
[11] K. Kira and L. A. Rendel, "The Feature
Selection Problem : Traditional Methods
and a New Algoritmh," 1992.
[12] T. a. a. Liu, "An Evaluation on Feature
Selection for Text Clustering," in
Proceedings
of
the
Twentieth
International Conference on Machine
Learning, Washington DC, 2003.
[13] MacQueen, "Some Methods For
Classification
And
Analysis
Of
Multivariate
Observations,"
in
Proceedings of 5th Berkeley Symposium
700
dok(%)
p%=0.1
p%=0.2
p%=0.3
p%=0.4
p%=0.5
p%=0.6
p%=0.7
p%=0.8
p%=0.9
p%=1
1000
dok(%)
Gambar 11. Grafik recall 700 dan 1000
dokumen
IV. KESIMPULAN
5. Algoritma K-Means dengan menggunakan
seleksi
fitur
Information
Gain
meningkatkan optimasi analisis sentimen
movie review.
6. Algoritma K-Means tanpa menggunakan
seleksi fitur dengan dataset 300 dokumen
review negatif dan positif akurasi 57.83%,
700 dokumen (negatif & positif) akurasi
56.71%, dataset 1000 dokumen negatif dan
positif akurasinya 50.40%.
7. Algoritma K-Means dengan menggunakan
seleksi fitur Information Gain tingkat
akurasi meningkat yaitu dengan dataset 300
dokumen negatif dan positif akurasinya
78.67%, dataset 700 dokumen negatif dan
positif akurasinya 72.79%, dataset 1000
dokumen negatif positif akurasinya 72.10%.
8. Sesuai tabel 2 akurasi K-Means tanpa
seleksi fitur dan menggunakan seleksi fitur
akurasi mengalami penurunan apabila
databaset bertambah besar.
V. REKOMENDASI
Untuk lebih mengetahui akurasi K-Means
dengan seleksi fitur Information Gain dapat
menggunakan dataset yang lebih besar lagi atau
dataset lainnya seperti dataset dari opini-opini
publik yang ada di web atau dataset dalam
bentuk dokumen bahasa indonesia.
DAFTAR PUSTAKA
[1] G. Li and F. Liu, "A Clustering-based
Approach on Sentiment Analysis," in
Intelligent Systems and Knowledge
Engineering (ISKE), 2010 International
Conference on, Australia, 2010.
[2] B. Pang, L. Lee and V. Shivakumar,
"Thumbs up? Sentiment Classification
using Machine Learning Techniques,"
2002.
68
on
Mathematical
Statistics
and
Probability, 1967.
[14] T. Velmurugan and T. Santhanam,
"Computational Complexity between KMeans and K-Medoids Clustering
Algorithms for Normal and Uniform
Distributions of Data Points," Journal of
Computer Science 6, pp. 363-368, 2010.
69
Lampiran 2 . Pendaftaran Makalah di Seminar Nasional Masif II Tahun 2016 3 September
2016
70
Lampiran 3 : Contoh dokumen Movie Review berkategori positif, nama file
cv000_29590.txt
films adapted from comic books have had plenty of success , whether they're about
superheroes ( batman , superman , spawn ) , or geared toward kids ( casper ) or the arthouse
crowd ( ghost world ) , but there's never really been a comic book like from hell before . for
starters , it was created by alan moore ( and eddie campbell ) , who brought the medium to a
whole new level in the mid '80s with a 12-part series called the watchmen . to say moore and
campbell thoroughly researched the subject of jack the ripper would be like saying michael
jackson is starting to look a little odd .
the book ( or " graphic novel , " if you will ) is over 500 pages long and includes nearly 30
more that consist of nothing but footnotes . in other words , don't dismiss this film because of
its source .
if you can get past the whole comic book thing , you might find another stumbling block in
from hell's directors , albert and allen hughes . getting the hughes brothers to direct this seems
almost as ludicrous as casting carrot top in , well , anything , but riddle me this : who better to
direct a film that's set in the ghetto and features really violent street crime than the mad
geniuses behind menace ii society ?
the ghetto in question is , of course , whitechapel in 1888 london's east end .
it's a filthy , sooty place where the whores ( called " unfortunates " ) are starting to get a little
nervous about this mysterious psychopath who has been carving through their profession with
surgical precision . when the first stiff turns up , copper peter godley ( robbie coltrane , the
world is not enough ) calls in inspector frederick abberline ( johnny depp , blow ) to crack the
case . abberline , a widower , has prophetic dreams he unsuccessfully tries to quell with
copious amounts of absinthe and opium .
upon arriving in whitechapel , he befriends
an
unfortunate named
mary kelly ( heather
graham , say it isn't so ) and proceeds to investigate the horribly gruesome crimes that even
the police surgeon can't stomach . i don't think anyone needs to be briefed on jack the ripper ,
so i won't go into the particulars here , other than to say moore and campbell have a unique
and interesting theory about both the identity of the killer and the reasons he chooses to slay .
in the comic , they don't bother cloaking the identity of the ripper , but screenwriters terry
hayes ( vertical limit ) and rafael yglesias ( les mis ? rables ) do a good job of keeping him
hidden from viewers until the very end . it's funny to watch the locals blindly point the finger
71
of blame at jews and indians because , after all , an englishman could never be capable of
committing such ghastly acts .
and from hell's ending had me whistling the stonecutters song from the simpsons for days ( "
who holds back the electric car/who made steve guttenberg a star ? " ) .
don't worry - it'll all make sense when you see it .
now onto from hell's appearance : it's certainly dark and bleak enough , and it's surprising to
see how much more it looks like a tim burton film than planet of the apes did ( at times , it
seems like sleepy hollow 2 ) .
the print i saw wasn't completely finished ( both color and music had not been finalized , so
no comments about marilyn manson ) , but cinematographer peter deming ( don't say a word )
ably captures the dreariness of victorian-era london and helped make the flashy killing scenes
remind me of the crazy flashbacks in twin peaks , even though the violence in the film pales
in comparison to that in the black-and-white comic .
oscar winner martin childs' ( shakespeare in love ) production design turns the original prague
surroundings into one creepy place . even the acting in from hell is solid , with the dreamy
depp turning in a typically strong performance and deftly handling a british accent . ians holm
( joe gould's secret ) and richardson ( 102 dalmatians ) log in great supporting roles , but the
big surprise here is graham .
i cringed the first time she opened her mouth , imagining her attempt at an irish accent , but it
actually wasn't half bad .
the film , however , is all good . : 00 - r for strong violence/gore , sexuality , language and
drug content
72
Lampiran 4 : Contoh dokumen Movie Review berkategori positif, nama file nama file
cv000_29416.txt
b. Dokumen Movie Review berkategori negative plot : two teen couples go to a
church party , drink and then drive .
they get into an accident . one of the guys dies , but his girlfriend continues to see
him in her life , and has nightmares . what's the deal ? watch the movie and " sorta "
find out . . .
critique : a mind-fuck movie for the teen generation that touches on a very cool idea
, but presents it in a very bad package .
which is what makes this review an even harder one to write , since i generally
applaud films which attempt to break the mold , mess with your head and such ( lost
highway & memento ) , but there are good and bad ways of making all types of films
, and these folks just didn't snag this one correctly .
they seem to have taken this pretty neat concept , but executed it terribly .
so what are the problems with the movie ? well , its main problem is that it's simply
too jumbled . it starts off " normal " but then downshifts into this " fantasy " world in
which you , as an audience member , have no idea what's going on .
there are dreams , there are characters coming back from the dead , there are others
who look like the dead , there are strange apparitions , there are disappearances ,
there are a looooot of chase scenes , there are tons of weird things that happen , and
most of it is simply not explained .
now i personally don't mind trying to unravel a film every now and then , but when
all it does is give me the same clue over and over again , i get kind of fed up after a
while , which is this film's biggest problem .
it's obviously got this big secret to hide , but it seems to want to hide it completely
until its final five minutes . and do they make things entertaining , thrilling or even
engaging , in the meantime ? not really . the sad part is that the arrow and i both dig
on flicks like this , so we actually figured most of it out by the half-way point , so all
of the strangeness after that did start to make a little bit of sense , but it still didn't
the make the film all that more entertaining . i guess the bottom line with movies
like this is that you should always make sure that the audience is " into it " even
before they are given the secret password to enter your world of understanding .
73
i mean , showing melissa sagemiller running away from visions for about 20 minutes
throughout the movie is just plain lazy ! ! okay , we get it . . . there
are people chasing her and we don't know who they are .
do we really need to see it over and over again ?
how about giving us different scenes offering further insight into all of the
strangeness going down in the movie ? apparently , the studio took this film away
from its director and chopped it up themselves , and it shows . there might've been a
pretty decent teen mind-fuck movie in here somewhere , but i guess " the suits "
decided that turning it into a music video with little edge , would make more sense .
the actors are pretty good for the most part , although wes bentley just seemed to be
playing the exact same character that he did in american beauty , only in a new
neighborhood . but my biggest kudos go out to sagemiller , who holds her own
throughout the entire film , and actually has you feeling her character's unraveling .
overall , the film doesn't stick because it doesn't entertain , it's confusing , it rarely
excites and it feels pretty redundant for most of its runtime , despite a pretty cool
ending and explanation to all of the craziness that came before it .
oh , and by the way , this is not a horror or teen slasher flick . . . it's
just packaged to look that way because someone is apparently assuming that the
genre is still hot with the kids .
it also wrapped production two years ago and has been sitting on the shelves ever
since .
whatever . . . skip it !
where's joblo coming from ? a nightmare of elm street 3 ( 7/10 ) - blair witch 2 (
7/10 ) - the crow ( 9/10 ) - the crow : salvation ( 4/10 ) - lost highway ( 10/10 ) memento ( 10/10 ) - the others ( 9/10 ) - stir of echoes ( 8/10 )
74
Lampiran 5 : Anggaran Perubahan
Anggaran yang dibutuhkan selama penelitian adalah :
No
Jenis Pengeluaran
Biaya yang Diusulkan
1
Honorarium
Rp. 2.397.000
2
Bahan habis pakai dan peralatan
Rp. 6.403.000
3
Perjalanan
Rp. 1.000.000
3
Lain-lain
Rp. 1.800.000
Jumlah
Rp. 11.600.000
1. Hononarium
Honor
Ketua
Anggota
Honor/Jam
(Rp)
15.000
11.000
Waktu
(Jam/minggu)
4
3
Minggu
25
23
Subtotal (Rp)
Tahun Ke 1
1.500.000
897.000
2.397.000
9. Pembelian Bahan Habis Pakai
Material
ATK
fotocopy
Penjilidan laporan
Internet (pulsa)
Cartridge
10.
Justifikasi
Pembelian
administrasi
Penggandaan
Laporan
administrasi
administrasi
administrasi
Kuantitas
6
6
Tahun Ke 1
750.000
350.000
350.000
303.000
600.000
200.000
Subtotal (Rp)
303.000
600.000
1.400.000
3.403.000
Perjalanan
Material
Justifikasi
Perjalanan
Kuantitas
Perjalanan Dalam
Kota
11.
Harga Satuan
(Rp)
750.000
1 paket
Harga Satuan
(Rp)
Tahun Ke 1
1.000.000
1.000.000
Subtotal (Rp)
1.000.000
Sewa
Material
Peminjaman
Kommputer
Justifikasi Sewa
Kuantitas
(hari)
Eksperimen dan
pengolahan data
5 bulan
75
Harga Satuan
(Rp)
Tahun Ke 1
600.000
3.000.000
Subtotal (Rp)
3.000.000
12.
Lain-lain
1
1
Harga Satuan
(Rp)
500.000
500.000
1
800.000
800.000
Subtotal (Rp)
1.800.000
TOTAL ANGGARAN YANG DIPERLUKAN SETIAP TAHUN (Rp)
TOTAL ANGGARAN YANG DIPERLUKAN SELURUHNYA (Rp)
11.600.000
11.600.000
Material
Publikasi ilmiah
Penyajian Konferensi
Monev
Justifikasi Sewa
Biaya publikasi
Biaya seminar
Monitorin &
Evaluasi
76
Kuantitas
Tahun Ke 1
500.000
500.000
Download