Kode/Nama Rumpun Imu : 123/ Ilmu Komputer LAPORAN KEMAJUAN PENELITIAN DOSEN PEMULA PENERAPAN ALGORITMA K-MEANS DENGAN SELEKSI FITUR INFORMATION GAIN UNTUK OPTIMASI ANALISIS SENTIMEN MOVIE REVIEW Tahun ke 1 dari rencana 1 tahun KETUA : Setyo Budi, M.Kom. ANGGOTA : Dwiyono Arifianto, S.Kom NIDN : 0615097602 NIDN : 0602128104 UNIVERSITAS DIAN NUSWANTORO SEMARANG JULI 2016 i HALAMAN PENGESAHAN ii RINGKASAN Keberadaan website memberikan kemudahan dan kebebasan bagi manusia dalam menyampaikan informasi dan pendapatnya. Informasi dan pendapat kemudian tersimpan didalam kumpulan dokumen teks. Dalam kurun waktu yang lama kumpulan dokumen teks bertambah besar, sehingga ada pemikiran untuk melakukan penggalian dokumen teks. Analisis sentimen merupakan salah satu metode penggalian dokumen teks, dimana terdapat proses memahami, mengekstrak, dan mengolah informasi tekstual secara otomatis. Banyak penelitian analisis sentimen menggunakan algoritma yang berbeda baik yang supervised learning atau unsupervised learning. Hal ini disebabkan karena perbedaan akurasinya dan kecepatannya. Dokumen teks yang berasal dari website masih terdapat atribut yang tidak relevan yang digunakan pada dataset, sehingga dibutuhkan seleksi fitur yang dapat digunakan untuk mengurangi dataset yang tidak relevan. Seleksi fitur yang digunakan di penelitian ini adalah Information Gain (IG). Hasil pengujian algoritma K-Means tanpa seleksi fitur Information Gain dengan dataset 300 dokumen negatif dan positif akurasinya masih rendah yaitu 57.83%, setelah menggunakan seleksi fitur Information Gain akurasinya naik menjadi 78.67%. Pengujian dengan dataset 700 dokumen negatif dan positif tanpa seleksi fitur akurasinya 56.71%, setelah menggunakan seleksi fitur menjadi 72.79%, selanjutnya untuk dataset 1000 dokumen negatif dan positif akurasi K-Means tanpa seleksi fitur akurasinya 50.40%, setelah menggunakan seleksi fitur akurasinya 72.15%. Sehingga dengan model yang peneliti usulkan, algoritma K-Means menggunakan seleksi fitur Information Gain dapat meningkatkan optimasi analisis sentimen movie review. Kata Kunci : analisis sentimen, algoritma k-means, seleksi fitur, information gain, clustering iii PRAKATA Assalamu’alaikum wr.wb. Alhamdulillah, puji syukur penulis panjatkan ke hadirat Allah SWT, atas segala nikmat, rakhmat dan karunia-Nya, sehingga penulis dapat menyelesaikan laporan kemajuan penelitian dosen pemula dengan judul “ PENERAPAN ALGORITMA K-MEANS DENGAN SELEKSI FIRTUR INFORMATION GAIN UNTUK OPTIMASI ANALISIS SENTIMEN MOVIEW REVIEW”. Hasil penelitian dosen pemula ini semoga dapat memberikan manfaat kepada seluruh masyarakat yang membacanya. Untuk itu dalam kesempatan yang baik ini, saya mengucapkan banyak terima kasih kepada seluruh pihak yang membantu dalam menyelesaikan penelitian dosen pemula ini. Wassalamu’alaikum wr.wb. Semarang, Peneliti iv Juli 2016 DAFTAR ISI LAPORAN KEMAJUAN PENELITIAN DOSEN PEMULA ....................................................... i HALAMAN PENGESAHAN........................................................................................................ ii RINGKASAN ...............................................................................................................................iii DAFTAR ISI .................................................................................................................................. v DAFTAR GAMBAR ................................................................................................................... vii DAFTAR TABEL .......................................................................................................................viii DAFTAR LAMPIRAN ................................................................................................................ iix BAB 1 ............................................................................................................................................ 1 PENDAHULUAN ......................................................................................................................... 1 1.1. Latar Belakang ........................................................................................................................ 1 1.2. Rumusan Masalah ................................................................................................................... 4 1.3. Batasan Masalah ..................................................................................................................... 4 1.4. Keluaran .................................................................................................................................. 4 BAB 2 ............................................................................................................................................ 5 TINJAUAN PUSTAKA ................................................................................................................ 5 2.1 Penelitian Terkait .............................................................................................................5 2.2 Landasan Teori ................................................................................................................7 2.2.1 Analisis Sentimen ........................................................................................................7 2.2.2 Text Mining ..................................................................................................................7 2.2.3 Teknik Clustering ........................................................................................................8 2.2.4 RapidMiner ................................................................................................................11 2.2.5 Algoritma K-Means ...................................................................................................12 2.2.6 Tentang Movie Review ...............................................................................................13 2.2.7 Preprocessing Dokumen ............................................................................................14 2.2.8 Pembobotan TF-IDF ..................................................................................................16 2.2.9 Seleksi Fitur ...............................................................................................................16 2.2.10 Measure similarity......................................................................................................18 2.2.11 Model Confusion Matrix ............................................................................................19 TUJUAN DAN MANFAAT PENELITIAN ............................................................................... 21 3.1 Tujuan Penelitian ...............................................................................................................21 v 3.2 Manfaat Penelitian .............................................................................................................21 BAB 4 .......................................................................................................................................... 22 METODE PENELITIAN ............................................................................................................. 22 4.1 Kerangka Pemikiran ......................................................................................................22 4.2 Metode Penelitian ..........................................................................................................22 4.2.1 Pendahuluan dan Literatur .........................................................................................22 4.2.2 Rumusan Masalah ......................................................................................................23 4.2.3 Pengumpulan Data .....................................................................................................23 4.2.4 Model yang diusulkan ................................................................................................24 4.2.5 Evaluasi ......................................................................................................................40 BAB 5 .......................................................................................................................................... 42 HASIL YANG DICAPAI ............................................................................................................ 42 5.1 Eksperimen dan Pengujian Model .....................................................................................42 5.2 Analisis Accuracy K-Means menggunakan seleksi Information Gain 300 dokumen .......48 5.3 Analisis Waktu Clustering K-Means dengan seleksi fitu .................................................50 5.4 Analisa Precision dan Recall Algoritma K-Means menggunakan seleksi fitur Information Gain 300 dokumen .......................................................................................................................51 5.5 Analisis Accuracy, Precision dan Recall dengan menggunakan dataset movie review 700 dokumen dan 1000 dokumen .......................................................................................................52 5.5.1 Akurasi 700 dokumen dan 1000 dokumen ................................................................53 5.5.2 Precision 700 dokumen dan 1000 dokumen ..............................................................55 5.5.3 Recall 700 dokumen dan 1000 dokumen ...................................................................56 BAB 6 .......................................................................................................................................... 57 RENCANA TAHAPAN BERIKUTNYA ................................................................................... 57 6.1 Rencana dan Jadual Selanjutnya .......................................................................................57 BAB 7. KESIMPULAN DAN SARAN ..................................................................................... 58 7.1 Kesimpulan........................................................................................................................58 7.2 Saran ..................................................................................................................................58 DAFTAR PUSTAKA .................................................................................................................. 59 LAMPIRAN-LAMPIRAN........................................................................................................... 62 vi DAFTAR GAMBAR Gambar 2. 1.Analisis Clustering Pada Gambar Kotak Berdasarkan Warna............................ 10 Gambar 2.2. Tampilan Area Kerja Rapidminer ....................................................................... 12 Gambar 2.3. Tahapan Preprocessing Secara Umum ............................................................... 14 Gambar 4.1. Kerangka Pemikiran ............................................................................................ 22 Gambar 4.2. Metode Penelitian ............................................................................................... 22 Gambar 4.3. Model Yang Diusulkan ....................................................................................... 24 Gambar 4.4. Contoh Gambar Confusion Matrix ...................................................................... 40 Gambar 5.1. Proses Pembacaan Dokumen Di Direktori……………………………..… … 43 Gambar 5.2. Proses Pembacaan Dokumen Di Direktori……………………………… ....... 43 Gambar 5. 1. Pembobotan TF-IDF masuk didalam preprocessing …………………… …..…. 44 Gambar 5. 2. Proses tanpa menggunakan Information Gain…………………………… …..…. 44 Gambar 5. 3. Akurasi K-Means tanpa menggunakan information gain……………… …..…. 45 Gambar 5. 4. Confunsion Matrik K-Means tanpa menggunakan information gain ….….. …45 Gambar 5. 5. Akurasi K-Means dengan menggunakan information gain………………...… 46 Gambar 5. 6. Confunsion Matrix K-Means menggunakan information gain ……… …..…. 47 Gambar 5. 7. Formula untuk algoritma clustering menggunakan information gain ..….……48 Gambar 5. 8. Accuracy K-Means dengan seleksi fitur information gain …………..….….. 49 Gambar 5. 9. Gambar akurasi K-Mean tanpa seleksi fitur 700 dokumen ………………… 50 Gambar 5. 10. Gambar akurasi K-Mean tanpa seleksi fitur 1000 dokumen ……………….. 50 Gambar 5. 11. Waktu proses K-Means untuk proses clustering …………………………… 51 Gambar 5. 12. Precision dan Recall K-Means dengan Information Gain ………………. …52 Gambar 5. 13. Grafik akurasi K-Means dengan information gain dataset 700 dan 1000 dokumen ………………………………………………………………………………… 53 Gambar 5. 14. Grafik precision 700 dokumen dan 1000 dokumen ……………..………… 53 Gambar 5. 15. Grafik recall 700 dokumen dan 1000 dokumen ………………...…………. 56 vii DAFTAR TABEL Tabel 2.1: Tabel Confusion Matrix ……………………………………………….….…..…19 Tabel 4.1 Tabel Term Frequency dan Document Frequency………………………….…..……28 Tabel 4.2 Tabel Invers Document Frequency (idf)………………………………………….29 Tabel 4.3 Hasil tf * idf……………………………………………………………………………….30 Tabel 4.4 : Hasil tf * idf setelah ditambah 1 ……………………………………………….. 31 Tabel 4.5 Contoh hasil pembobotan setelah di Normalisasi………………………………. 32 Tabel 4.6 Hasil Normalisasi pembobotan term secara keseluruhan…………………………32 Tabel 4.7 Hasil tf * idf dan bobot setelah dinormalisasi ditambah kolom query………………33 Tabel 4.8: Dataset untuk proses algoritma K-Means…………………………………...…………36 Tabel 4. 9: Tabel hasil perhitungan data ke 1 dengan medoid…………………………….….….28 Tabel 4.10: Tabel hasil perhitungan data ke 1 dengan medoid baru………………….….…..39 Tabel 4.11: Tabel hasil perhitungan data ke 2 dengan medoid baru…………………..……..39 Tabel 5.1 Tabel 5.1 Perbandingan akurasi K-Means tanpa dan menggunakan IG…………..54 Tabel 5.2 Perbandingan akurasi K-Means tanpa dan menggunakan IG dataset 300, 700 dan 1000………………………………………………………………………………………..…54 viii DAFTAR LAMPIRAN LAMPIRAN 1 DRAFT MAKALAH DI YANG DIKIRIM KE SEMINAR NASIONAL MASIF II TAHUN 2016 ...................... 62 LAMPIRAN 2 . PENDAFTARAN MAKALAH DI SEMINAR NASIONAL MASIF II TAHUN 2016 3 SEPTEMBER 2016 ... 70 LAMPIRAN 3 : CONTOH DOKUMEN MOVIE REVIEW BERKATEGORI POSITIF, NAMA FILE CV000_29590.TXT ..... 71 LAMPIRAN 4 : CONTOH DOKUMEN MOVIE REVIEW BERKATEGORI POSITIF, NAMA FILE NAMA FILE CV000_29416.TXT ....................................................................................................................................... 73 LAMPIRAN 5 : ANGGARAN PERUBAHAN ............................................................................................................ 75 ix BAB 1 PENDAHULUAN 1.1. Latar Belakang Website atau yang biasa disebut internet merupakan salah satu media yang tepat sebagai pusat layanan informasi secara global untuk berbagai informasi (Jiawei & Kamber, 2006). Keuntungan dalam menggunakan website adalah dapat memberikan kemudahan dan kebebasan bagi penggunanya untuk menyampaikan informasi dan pendapat. Semua informasi dan pendapat yang telah disampaikan oleh pengguna akan tersimpan didalam sebuah kumpulan dokumen yang berbentuk teks. Karena dalam dokumen teks maka sulit untuk menemukan kembali informasi yang sesuai antara satu dokumen teks yang satu dengan yang lainnya. Apalagi ditambah dalam kurun waktu yang cukup lama sehingga kumpulan dokumen teks akan semakin bertambah besar, sehingga pada akhirnya ada pemikiran untuk melakukan penambangan dokumen teks. Penambangan dokumen teks dari website yang berisi komentar, pendapat, feedback, kritik dan review merupakan hal penting, karena apabila dikelola dengan baik dan benar maka akan memberikan keuntungan berupa informasi yang bermanfaat untuk membantu individu atau organisasi didalam pengambilan sebuah keputusan (Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010). Hal itu tentu saja sangat menguntungkan bagi siapa saja yang memanfaatkan penambangan dokumen teks. Yang menjadi permasalahan didalam penambangan kumpulan dokumen teks yang berasal dari website ialah dokumen teks masih dinyatakan didalam bahasa alami atau natural artinya masih banyak atribut yang kurang sesuai pada dataset, sehingga bagi siapa saja yang membutuhkan memungkinkan untuk membaca dan menganalisis kembali semua review atau kumpulan dokumen yang ada (Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010). Maka untuk mengatasi masalah itu membutuhkan seleksi fitur yang dapat digunakan untuk mengurangi dataset yang tidak relevan. Ada beberapa algoritma seleksi fitur yang dapat digunakan antara lain information gain, chi square, forward selection dan backward elimination. Saat ini, teknik yang berkembang untuk menganalisis kumpulan dokumen teks adalah analisis sentimen atau opinion mining. Analisis sentimen merupakan suatu proses memahami, mengekstrak, dan mengolah informasi tekstual secara otomatis. Pentingnya analisis sentimen sekarang sangat terasa bagi manusia atau organisasi, hal itu ditandai dengan banyaknya 1 penelitian dan pesatnya perkembangan analisis sentimen, terbukti di Amerika Serikat kurang lebih 20-30 perusahaan menfokuskan pada layanan analisis sentimen, ini membuktikan bahwa mengumpulkan informasi dan selalu mencari tahu tentang hal apa yang orang lain pikirkan merupakan sesuatu hal yang penting (Liu B. , 2010) baik melalui review situs online dan blog pribadi. Ada dua arah penelitian dalam analisis sentimen, yang pertama adalah untuk mengklasifikasikan polaritas suatu teks yang diberikan, apakah yang diungkapkan merupakan opini positif, negatif atau netral, penelitian ini sebelumnya dipelopori oleh (Pang, Lee, & Shivakumar, 2002). Arah penelitian yang kedua adalah identifikasi subjektivitas atau objektifitas, penelitian ini umumnya mengklasifikasikan sebuah teks kedalam satu dari dua kelas yaitu tujuan atau subyektif. Beberapa contoh penelitian yang berhubungan dengan analisis sentimen atau opinion mining, antara lain menganalisa rating movie review dapat digunakan untuk mengetahui tingkat pendapatan dari pemutaran suatu film (Pang, Lee, & Shivakumar, 2002). Review movie dapat dimanfaatkan para penikmat film untuk memutuskan film apa yang akan ditonton, bagi produser film dapat memanfaatkan opini untuk mengetahui penilaian yang diberikan oleh para penikmat film tentang film-film yang paling banyak dikritik. Selain review movie, review sebuah produk dapat membantu perusahaan untuk mempromosikan produk mereka. Dalam bidang politik, opini kebijakan politik dapat membantu politisi untuk memperjelas strategi politik mereka, dan dengan review twitter dapat digunakan untuk mengidentifikasi sentimen tentang pariwisata di Thailand selama kerusuhan di awal tahun 2010 (Claster, Cooper, & Sallis, 2010). Tetapi sampai saat ini belum ada teknik unsupervised learning yang paling akurat untuk meningkatkan optimasi analisis sentimen review sebuah film, hal ini seperti yang disampaikan oleh Kucuktunc et al. (Kucuktunc & Bambazoglu, 2012) dalam A Large-Scale Sentiment Analysis for Yahoo! Answers. Dalam perkembangannya, banyak penelitian dengan menggunakan metode atau algoritma yang berbeda, hal ini disebabkan karena masing-masing metode atau algoritma mempunyai perbedaan, baik tingkat akurasi maupun tingkat kecepatannya dalam melakukan proses clustering atau klasifikasi sebuah dokumen. Pada penelitian sebelumnya ada beberapa teknik supervised learning seperti algoritma SVM (Stylios, 2010); (Abbasi, Chen , & Salem , 2008); (O’Keefe & Koprinska, 2009); (Somayajulu, Reddy, & Dani, 2010) dan algoritma Naive Bayes (Stylios, 2010); (Keefe & Koprinska, 2009), algoritma ini digunakan untuk klasifikasi dokumen. Sedangkan teknik unsupervised learning dengan metode clustering, seperti penelitian yang dilakukan oleh Gang Li dan Fei Liu (Li & Liu, A Clustering-based 2 Approach on Sentiment Analysis, 2010) yaitu suatu metode dimana didalam mengelompokkan dokumen dengan menggunakan persamaan topik yang dimiliki oleh masing-masing dokumen, dengan tujuan untuk memudahkan pengguna dalam menemukan dokumen yang diinginkan. Penelitian-penelitian terdahulu yang terkait tentang analisis sentimen baik menggunakan teknik supervised learning maupun unsupervised learning adalah (Pang, Lee, & Shivakumar, 2002) melakukan penelitian untuk mengetahui rating film dengan cara melihat dan mengklasifikasikan review ke label positif atau negatif, dataset diambil dari Internet Movie Database (IMDb), menggunakan metode Naïve Bayes Clasifier (NBC), Maximum Entropy (ME) dan Suport Vector Machine (SVM) serta menggunakan pemilihan fitur Unigram, N-Gram dan Part-of-Speech (POS), hasil penelitian ini menyatakan bahwa algoritma terbaik dan efektif untuk klasifikasi teks adalah SVM sedangkan algoritma terburuk untuk klasifikasi adalah NBC. Christopher et al. (Christopher, Wong, & Chih-Ping, 2009) melakukan penelitian untuk menganalisis klasifikasi review opini pembeli produk di website, metode yang digunakan adalah Class Association Rule, NBC Information Gain dan NBC Chi Square, dengan hasil penelitian bahwa akurasi Class Association Rules adalah 73%, NBC dan Information Gain adalah 76,12% sedangkan NBC Chi Square tingkat akurasinya adalah 67,64 %. Gang Li dan Fei Li (Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010), melakukan penelitian menggunakan algoritma K-Means dengan menerapkan metode pembobotan TF-IDF, Voting Mechanism dan Importing Term Score. Dataset yang digunakan adalah movie review sebanyak 600 dokumen yang terbagi menjadi 300 dokumen positif dan 300 dokumen negatif. Dalam penelitian ini hasil yang diperoleh adalah bahwa clustering dokumen dengan menggunakan algoritma K-Means memiliki keunggulan lebih baik dibanding jenis pendekatan symbolic techniques dan metode supervised learning, dengan akurasi 77.17% - 78.33%. Berdasarkan penelitian diatas, ada beberapa metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui algoritma unsupervised learning yang memiliki akurasi terbaik untuk meningkatkan optimasi analisis sentimen movie review, maka didalam penelitian ini akan menerapkan algoritma K-Means dengan seleksi fitur Information Gain untuk optimasi analisis sentimen movie review. 3 1.2. Rumusan Masalah Berdasarkan uraian latar belakang diatas dapat dirumuskan suatu permasalahan yaitu banyak metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui algoritma unsupervised learning yang memiliki akurasi terbaik untuk meningkatkan optimasi analisis sentimen movie review, maka didalam penelitian ini akan menerapan algoritma K-Means dengan seleksi fitur Information gain untuk optimasi analisis sentimen movie review. 1.3. Batasan Masalah Batasan masalah dalam penelitian ini adalah sebagai berikut : Konsentrasi pada penelitian analisis sentimen movie review untuk mengetahui kinerja algoritma K-Means dengan seleksi fitur information gain pada proses pengelompokan dokumen teks movie review. Dataset yang digunakan adalah dalam bentuk dokumen teks bahasa inggris. Menggunakan dataset movie review dalam bahasa inggris sebanyak 300 dokumen berlabel negatif dan 300 berlabel dokumen positif, 700 dokumen berlabel negatif dan 700 dokumen berlabel positif dan 1000 dokumen berlabel negatif dan 1000 dokumen berlabel positif yang diunduh dari http://www.cs.cornell.edu/people/pabo/moviereview-data/. 1.4. Keluaran Kontribusi yang disumbangkan dari penelitian ini adalah diketahui tingkat akurasi algoritma K-Means setelah menggunakan seleksi fitur Information Gain untuk optimasi analisis sentimen movie review, sehingga dapat dijadikan referensi untuk penelitian selanjutnya. 4 BAB 2 TINJAUAN PUSTAKA 2.1 Penelitian Terkait Bertambahnya dokumen di website dari waktu ke waktu semakin bertambah tanpa melihat besarnya dokumen yang sudah ada. Hal ini menyebabkan banyaknya penelitian untuk menggali dokumen teks agar dapat diambil manfaatnya. Metode dan algoritma yang digunakan juga berbeda-beda antara satu peniliti dengan peneliti lainnya, tujuannya adalah untuk mendapatkan algoritma atau metode yang paling baik kinerjanya, baik itu untuk teknik clustering maupun teknik klasifikasi. Selain metode dan algoritma yang berbeda, dataset yang digunakan peneliti juga berlainan, ada yang menggunakan movie review (Reddy, Somayajulu, & Dani, 2010); (Kucuktunc & Bambazoglu, 2012), data blog dan media sosial ( (Vidhya & Aghila, 2010); (Al-Subaihin, Al-Khalifa, & Al-Salman, 2011). Berikut ini adalah beberapa penelitian yang terkait tentang analisis sentimen yang diambil dari beberapa jurnal dan artikel, secara garis besar tinjauan studi dalam penelitian ini yaitu penelitian yang dilakukan oleh Pang et al. (Pang, Lee, & Shivakumar, 2002) yang berjudul Thumbs up? Sentiment Classification using Machine Learning Techniques, membahas tentang penelitian untuk mengetahui rating sebuah film dengan mengklasifikasikan review ke label positif atau negatif dari sebuah film, dataset yang digunakan adalah Internet Movie Database (IMDb). Penelitian ini memanfaatkan metode klasifikasi machine learning Naïve Bayes Clasifier (NBC), Maximum Entropy (ME) dan Support Vector Machine (SVM) serta menggunakan seleksi fitur unigram, n-gram dan Partof-Speech (POS). Dari pengukuran kinerja yang dilakukan, diketahui bahwa algoritma terbaik dan efektif untuk klasifikasi teks adalah SVM, sedangkan NBC adalah algoritma yang terbutuk untuk klasifikasi. Songbo Tan dan Zhang Jin (Tan & Zhang, 2007), melakukan penelitian tentang sentimen corpus bahasa china sebanyak 1.021 dokumen, menggunakan 4 metode feature selection tradisional (DF, CHI, MI, IG) dan 5 metode machine learning (Centroid Classifier, K-Nearest Neighbor, Naïve Bayes, Winnow Classifier, SVM classifier, hasil penelitian ini menunjukkan bahwa Information Gain (IG) melakukan yang terbaik dalam seleksi fitur dan SVM menunjukkan kinerja terbaik untuk klasifikasi sentimen. 5 Selanjutnya Abasi et al. (Abbasi, Chen , & Salem , 2008) mereka melakukan penelitian tentang klasifikasi sentimen berbagai bahasa dengan menggunakan pendekatan SVM dan pemilihan fitur Entropy Weighted Genetic Algorithm (EWGA), Information Gain (IG) dan Genetic Algorithm (GA), mereka mengembangkan feature selection EWGA dengan memanfaatkan informasi yang dihasilkan dari IG. Dataset untuk klasifikasi yang mereka gunakan adalah bahasa inggris dan bahasa arab. Akurasi tertinggi yang mereka dapatkan adalah sebesar 91,7% untuk EWGA. Penelitian Jingnian et al. (Chen, Huang, Tian, & Qu, 2009) mereka melakukan penelitian dengan menkomparasi beberapa metode feature selection seperti information gain (IG), Multi-class Odds Ratio (MOR) dan Class Discriminating Measure (CDM), Extended Odds Ratio (EOR), Weighted Odds Ratio (WOR) dan MC-OR. Menggunakan multikelas dataset yaitu dataset routers dan dataset bahasa china. Akurasi tertinggi yang mereka dapatkan adalah dengan pemilihan fitur CMD dengan akurasi sebesar 85,60 %. Siva et al. (Reddy, Somayajulu, & Dani, 2010) melakukan penelitian klasifikasi movie review dengan dataset dari IMDb, empat metode klasifikasi digunakan yaitu Naïve Bayes (NB), Support Vector Machine (SVM), Complemented Naïve Bayes (CNB) dan Discriminative Using Bayesian Networks (DPBN) dengan seleksi fitur Information Gain (IG). Hasil penelitian mereka bahwa akurasi Complemented Naïve Bayes classifier (CNB) adalah (94,85%), NB (89.25%), Discriminative Partitioning Using Bayesian Networks (DPBN) (93.25) dan SVM (88.55%). Gang Li dan Fei Li (Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010), melakukan penelitian menggunakan algoritma K-Means dengan menerapkan metode pembobotan TF-IDF, Voting Mechanism dan Importing Term Score. Dataset yang digunakan adalah movie review sebanyak 600 dokumen yang terbagi menjadi 300 dokumen berlabel positif dan 300 dokumen berlabel negatif. Dalam penelitian ini hasil yang diperoleh adalah bahwa clustering dokumen dengan menggunakan algoritma K-Means memiliki keunggulan lebih kompetitif dibanding jenis pendekatan symbolic techniques dan metode supervised learning, dengan akurasi 77.17% - 78.33%, lebih efesiensi waktu dan tidak ada partisipasi manusia. Selanjutnya Bruno et al. (Ohana & Brendan, 2011) melakukan penelitian tentang klasifikasi sentiment dengan pendekatan SVM berbasis fitur seleksi yang digunakan untuk menambah kecepatan klasifikasi berdasarkan perhitungan bobot atribut. Dataset yang digunakan sama seperti (Pang, Lee, & Shivakumar, 2002) validasi dan evaluasi mereka menggunakan teknik 10-fold cross validation. Penelitian ini memperoleh rata-rata akurasi 6 sebesar 85,39% untuk SVM menggunakan semua fitur, setelah penghapusan fitur mereka membatasi data yang diambil nilai terbaik yang ditemukan selama pengujian parameter berjumlah 1800 fitur disimpan menggunakan bobot berbasis korelasi, yang menghasilkan akurasi 85,49%. 2.2 Landasan Teori 2.2.1 Analisis Sentimen Analisis sentimen atau juga bisa disebut opinion mining adalah suatu proses memahami, mengekstrak, dan mengolah data tekstual secara otomatis, atau merupakan studi komputasi pendapat, perasaan dan emosi yang dinyakan dalam bentuk teks. Informasi tekstual dikategorikan menjadi dua : fakta dan opini. Fakta merupakan ekpresi obyektif mengenai suatu entitas, kejadian atau sifat, sedangkan opini adalah ekspresi subyektif yang menggambarkan sentimen orang, pendapat atau perasaan tentang sebuah entitas, kejadian atau sifat (Liu B. , 2010). Analisis Sentimen bertujuan untuk mengekstrak atribut dan komponen dari objek yang telah dikomentari di dalam setiap dokumen dan untuk menentukan apakah komentar tersebut positif, negatif atau netral (Lee & Pang, 2008). Ada dua cara untuk pertambangan pendapat yaitu dengan machine learning dan semantic orientation (Al-Subaihin, Al-Khalifa, & AlSalman, 2011). Machine learning dilakukan dengan cara mengumpulkan dan menyeleksi opini yang ada di web, kemudian opini-opini tersebut diberikan label positif dan negatif, sedangkan semantic orientatition merupakan kebalikan dari machine learning dan digunakan secara realtime. 2.2.2 Text Mining Seringkali studi data mining diprioritaskan pada pengolahan data yang terstruktur antara lain data relasioanal, transaksional dan data warehouse. Tetapi pada kenyataanya banyak data yang berupa informasi dan dokumen yang tersimpan didalam basis teks atau basis dokumen. Banyaknya data ini bisa berasal dari berbagai sumber seperti review, opini, berita, paper, buku, perpustakaan digital, pesan e-mail dan halaman web. Sehingga untuk mengambil intisari dari kumpulan teks dan dokumen dibutuhkan suatu teknik yang disebut text mining. Teknik ini merupakan suatu proses pengambilan intisari dari dokumen teks sehingga didapatkan hasil yang berguna untuk tujuan tertentu (Witten, Frank, & Hall, 2011). Text mining merupakan riset yang tergolong baru dan merupakan salah satu bidang dari data mining yang saat ini terus berkembang. Sesuai dengan buku The Text Mining Handbook 7 (Francis & Flynn, 2010), text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponen-komponen dalam data mining yang salah satunya adalah kategorisasi. Perbedaan antara data mining dengan text mining adalah terletak pada dataset yang digunakan, didalam data mining dataset yang digunakan bersifat terstruktur tetapi didalam text mining data yang digunakan bersifat tidak terstruktur (Francis & Flynn, 2010). Karena data yang tidak tersetruktur inilah diperlukan text mining yang dapat memberikan solusi baru dalam hal pemrosesan, pengelompokan atau pengorganisasian dan analisis teks untuk kumpulan dokumen yang sangat besar. Kegiatan riset untuk text mining antara lain ekstraksi dan penyimpanan teks, preprocessing akan konten teks, pengumpulan data statistic, indexing dan analisa konten. Proses text mining meliputi kategori teks, text clustering, ekstraksi konsep/entitas, produksi taksonomi granular, sentiment analisys, penyimpulan dokumen dan pemodelan relasi entitas. Tujuan yang akan dicapai didalam text mining adalah untuk menemukan pola yang berguna dalam sebuah kumpulan dokumen. 2.2.3 Teknik Clustering Dalam “Data Mining Cluster Analysis: Basic Concepts and Algorithms “, (Tan, Steinbach, & Kumar, 2004). membagi clustering menjadi dua kelompok, yaitu hierarchical dan partitional clustering. Partitional Clustering disebutkan sebagai pembagian obyek-obyek data ke dalam kelompok yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical clustering adalah sekelompok cluster yang bersarang seperti sebuah pohon hirarki. William (Williams, 2006) membagi algoritma clustering ke dalam kelompok besar adalah sebagai berikut: 1. Partitioning algorithms merupakan kelompok Algoritma yang membentuk bermacam partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria. 2. Hierarchy algorithms merupakan kelompok algoritma dengan proses pembentukan dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria. 3. Density-based merupakan kelompok algoritma dengan pembentukan cluster berdasarkan pada koneksi dan fungsi densitas. 4. Grid-based merupakan kelompok algoritma dengan proses pembentukan cluster berdasarkan pada struktur multiple-level granularity 8 5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-masing cluster dan model yang baik dipilih diantara model hipotesa tersebut. Clustering dapat dianggap suatu proses yang penting didalam metode unsupervised learning (Jain, Murty, & Flynn, 1999) yaitu proses pengelompokan dokumen berdasar pada kesamaan topik (Al-Mubaid & Umair, 2006) antara cluster yang satu dengan yang lainnya. Xu dan Wunsch (Xu & Wunsch, 2009) menyatakan bahwa pengelompokan clustering objek kedalam beberapa kelompok (cluster) yang mempunyai sifat homogen atau dengan variasi sekecil mungkin adalah diperlukan karena dapat memudahkan analisis data. Tujuan utama dari clustering dokumen adalah untuk membagi dokumen menjadi beberapa kelompok dimana dokumen didalam kelompok yang sama mempunyai kemiripan satu dengan yang lainnya berdasarkan kemiripan dari kemunculan term. Keuntungan yang diperoleh dari proses clustering adalah dapat menarik pola dan struktur secara langsung yang ditemukan dari dataset yang sangat besar (Velmurugan & Santhanam, 2010), dengan clustering maka dapat dilakukan analisis pola-pola, mengelompokkan, membuat keputusan dan machine learning termasuk data mining, document retrieval, segmentasi citra serta klasifikasi pola. Metodologi clustering cocok untuk eksplorasi hubungan antar data untuk membuat penilaian terhadap suatu struktur. Contoh hasil analisis clustering ditampilkan pada gambar kotak yang dikelompokkan menjadi tiga berdasarkan warna seperti yang disajikan pada Gambar 2.1. Teknik clustering dokumen merupakan teknik yang lebih spesifik dari pengorganisasian unsupervised dokumen, otomatis ekstraksi topik serta pengambilan dan penyaringan informasi secara cepat (Boiy, Hens, Deschacht, & Moens, 2007; Zamir, Oren, Madani, & Karp, 1997). Contoh pemakaian teknik clustering adalah digunakan pada search engine web untuk mengelompokkan dokumen secara otomatis pada sebuah daftar kategori yang memudahkan untuk memperoleh keterkaitan informasi yang relevan, dibidang pemasaran clustering dapat membantu penjual menemukan kelompok yang berbeda dari pusat pelanggan mereka kemudian menggunakan ilmu pengetahuan untuk mengembangkan program penjualan sehingga penjualan dapat dipenuhi, dibidang perencanaan kota metode clustering dapat digunakan untuk mengidentifikasi kelompok rumah sesuai dengan tipe rumah, harga dan lokasi geografis. 9 Gambar 2. 1.Analisis clustering pada gambar kotak berdasarkan warna Terdapat dua pendekatan atau tipe pada teknik clustering yaitu partitional clustering dan hirerarchical clustering. Dalam partitional clustering kita kelompokkan objek x1,x2,......,xn kedalam sebuah k cluster. Hal ini bisa dilakukan dengan menentukan pusat cluster awal, kemudian dilakukan relokasi objek berdasarkan kriteria tertentu sampai dicapai pengelompokan yang maksimal, sedangkan pada hirerarchical clustering dimulai dengan membuat m cluster, dimana setiap cluster beranggotakan satu objek, dan berakhir dengan satu cluster dimana anggotanya adalah m objek. Pada setiap tahap dalam prosedurnya, satu cluster digabung dengan satu cluster lainnya. Kita bisa memilih berapa jumlah cluster yang diinginkan dengan menentukan pemotongan untuk berhenti pada tingkat tertentu. Dasar dari tahapan dalam clustering dokumen adalah preprocessing, term weighting baru kemudian penerapan algoritma clustering yang kita tentukan. Tahap preprocessing akan menghasilkan kumpulan term yang nantinya akan diberikan bobot atau nilai dimana bobot tersebut mengindikasikan pentingnya sebuah term terhadap dokumen. Semakin sering term muncul pada koleksi dokumen, maka semakin tinggi nilai atau bobot term tersebut, maka kemudian pemberian bobot dapat disebut term weighting. Hasil dari pemberian bobot atau term weighting adalah menghasilkan sebuah matrik term dokumen dengan dimensi mxn, dimana m adalah jumlah term dan n adalah jumlah dokumen, maka model ini bisa disebut model ruang vektor atau vector space model. Beberapa algoritma untuk clustering telah diusulkan oleh para peneliti (Berkhin, 2002; Xiong, 2009; Borah & Ghose, 2009; Rakhlin & Caponnetto, 2007), contoh aplikasi yang menerapkan clustering adalah pengenalan pola, analisis data spatial, pemrosesan gambar, aplikasi ilmu ekonomi (terutama riset pasar), aplikasi web meliputi klasifikasi dokumen dan weblog cluster. 10 2.2.4 RapidMiner Tools yang digunakan didalam penelitian ini adalah framework RapidMiner. Perangkat lunak ini dibuat oleh Dr. Markus Hofmann dari Institute of Technology Blanchardstown, Blanchardstown Road North, Dublin, Irlandia dan Ralf Klinkenberg dari www.rapid-i.com dengan tampilan yang menarik dan sudah menggunakan GUI (Graphical User Interface). RapidMiner menyediakan software, solusi dan layanan di bidang analisis prediktif, data mining, dan text mining. RapidMiner akan memudahkan pengguna dalam menggunakan perangkat lunak ini. Gambar 1 merupakan tampilan area kerja RapidMiner. Perangkat lunak ini bersifat terbuka (open source) dan dibuat dengan menggunakan bahasa Java di bawah lisensi GNU Public License dan RapidMiner dapat dijalankan di sistem operasi manapun. Dengan menggunakan RapidMiner, tidak dibutuhkan kemampuan khusus harus bisa membuat program, karena semua fasilitas sudah disediakan. RapidMiner memiliki beberapa sifat sebagai berikut: Ditulis dengan bahasa pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi. Proses penemuan pengetahuan dimodelkan sebagai operator trees Representasi XML internal untuk memastikan format standar pertukaran data. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi eksperimen. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penanganan data. Memiliki GUI, command line mode, dan Java API yang dapat dipanggil dari program lain. Beberapa Fitur dari RapidMiner, antara lain: Banyaknya algoritma data mining, seperti decision tree dan self-organization map. Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree chart dan 3D Scatter plots. Banyaknya variasi plugin, seperti text plugin untuk melakukan analisis teks. Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI 11 Mengintegrasikan proyek data mining Weka dan statistika R. Model yang disediakan juga cukup lengkap, seperti model Clustering, Fitute Selection, Bayesian Modelling, Tree Induction, Neural Network dan lain-lain. Banyak metode yang disediakan oleh RapidMiner mulai dari klasifikasi, Clustering, asosiasi dan lain-lain. Di antara pengguna perusahaan terkenal seperti Ford, Honda, Nokia, Miele, Philips, IBM, HP, Cisco, Merrill Lynch, BNP Paribas, Bank of America, Mobilkom Austria, Akzo Nobel, Aureus Pharma, PharmaDM, Cyprotex, Celera, Revere, LexisNexis, Mitre dan masih banyak model bisnis open-source dari Rapid-I. Gambar 2.2. Tampilan area kerja RapidMiner 2.2.5 Algoritma K-Means Metode K-Means diperkenalkan oleh James B Mac Queen pada tahun 1967 dalam Proceding of the 5th Berkeley Symposium on Mathematical Statistics and Probability (MacQueen, 1967). K-Means merupakan suatu metode untuk menganalisa data atau metode data mining dimana dalam melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi. K-Means adalah salah satu teknik unsupervised learning yang paling sederhana dan baik untuk memecahkan masalah clustering (Velmurugan & Santhanam, 2010). Prinsip utama dari algoritma K-Means adalah mengelompokkan dokumen dalam beberapa cluster. Banyaknya centroid menentukan jumlah cluster yang akan dihasilkan. Tujuan dari algoritma ini adalah meminimalkan tujuan suatu fungsi, dalam hal ini adalah sebuah kuadrat kesalahan fungsi. Berikut adalah pseudocode dari algoritma K-Means. Algoritma K-Means Clustering 12 Input : Koleksi Dokumen D={d1, d2, d3, … dn}; Jumlah cluster (k) yang akan dibentuk; Output : k cluster; Proses : 1. Memilih k dokumen untuk dijadikan centroid (titik pusat cluster) awal secara random; 2. Hitung jarak setiap dokumen ke masing-masing centroid menggunakan persamaan cosines similarity (persamaan 3) kemudian jadikan satu cluster untuk tiap-tiap dokumen yang memiliki jarak terdekat dengan centroid; 3. Tentukan centroid baru dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama; 4. Kembali ke langkah 2 jika posisi centroid baru dan centroid lama tidak sama; 2.2.5.1 Keunggulan K-Means Ada beberapa keunggulan dari algoritma K-Means antara lain K-Means memiliki kelebihan yaitu relatif lebih efesien dan mempunyai kemampuan lebih cepat dalam memproses dataset yang besar dan K-Means mudah dipahami dan diimplementasikan, mampu mengelompokan objek yang besar dan noise dengan sangat cepat sehingga mempercepat proses pengelompokan. 2.2.5.2 Kelemahan K-Means Algoritma K-Means mempuanyai beberapan kelemahan yaitu dalam iterasinya algoritma ini akan berhenti dalam kondisi optimum lokal (Williams, 2006), mengharuskan didalam menentukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data meannya, dan tidak mampu menangani data yang mempunyai noise atau outlier. 2.2.6 Tentang Movie Review Internet Movie Database atau IMDb adalah situs yang diciptakan Col Needham 20 tahun lalu. Needham adalah seorang pencinta film yang pada waktu bekerja di salah produsen hardware komputer yaitu Hewlett Packard, diluncurkan pada tahun 1990. Tahun 1999, IMDb.com memenangkan Webby Award dan kemudian miliki oleh Amazon.com. Kini, IMDb adalah salah satu situs yang paling besar dan paling lengkap untuk segala hal yang berhubungan dengan film dan produksi film. The Internet Movie Database adalah database film terbesar di Website, menampilkan film terbaik, berita film, movie review, trailer film, jadwal pemutaran film, review film DVD, profil selebriti, dll. Internet Movie Database (IMDb) benar-benar merupakan tempat penyimpanan terbesar tentang informasi film. Sehingga dengan populernya IMDb, maka dalam penelitian ini dataset yang digunakan 13 adalah movie review dalam teks berbahasa inggris http://www.cs.cornell.edu/people/pabo/movie-review-data/. yang Dataset diambil tersebut dari sudah dikelompokkan didalam dua kelompok yaitu kelompok movie review yang berlabel positif dan kelompok movie review yang berlabel negatif, jumlah masing-masing kelompok ada 1000 dokumen. 2.2.7 Preprocessing Dokumen Dalam pengolahan text mining salah satu langkah awal yang perlu dilakukan adalah preprocessing. Preprocessing merupakan tahapan untuk mengukur struktur isi dari suatu dokumen kedalam format yang sesuai yaitu berupa kumpulan term (Suanmali, Salim, & Binwahlan, 2008) untuk selanjutnya diproses kedalam algoritma clustering. Preprocessing biasanya dilakukan dengan menghilangkan stopword ( term yang tidak signifikan ) dan proses stemming (Wajeed & Adilakshmi, 2005 - 2009). Preprocessing digunakan untuk menghasilkan data training yang menghasilkan sejumlah tuple (record) dan class, sehingga dapat digunakan untuk menggolongkan nilai suatu opini kedalam kategori positif dan negatif. Tahapan umum preprocessing adalah seperti pada Gambar 2. Tokenizing Filtering Analysing Stemming Tagging Gambar 2.3. Tahapan preprocessing secara umum 1. Tokenizing Tokenizing merupakan proses pemenggalan susunan term dari suatu kalimat menjadi kumpulan token, menghilangkan karakter selain huruf seperti angka dan tanda baca, serta karakter angka dan tanda baca dianggap sebagai delimiter atau pemisah. Proses tokenizing dapat dilihat pada contoh dibawah ini. Teks Input : “Studying the Text Mining “ Hasil Tokenizing Ttudying the Text Mining 14 2. Filtering Stopword Dalam tahap stopword, kata-kata yang tidak sesuai dalam suatu topik, atau kata-kata yang tidak mendeskripsikan suatu dokumen akan dihilangkan, contohnya antara lain kata-kata : “a”,”and”,”are”,”the” dan yang lainnya. Contoh stopword sebagai berikut. Teks Input : “Studying the text mining “ studying 3. Hasil Filtering text Stopword mining Stemming Steming merupakan bagian dari preprocessing yang digunakan untuk mencari kata dasar dengan cara mengubah kata berimbuhan menjadi kata dasarnya, dengan tujuan untuk meningkatkan kualitas informasi. Kualitas informasi yang dimaksud adalah hubungan diantara kata itu sendiri, misalnya “writing”, “write”, “writed”, yang semula adalah kata yang berbeda, tetapi dengan adanya stemming, kata tersebut menjadi ‘write’, sehingga ada hubungan antara ketiga kata tersebut. Selain itu, space yang digunakan untuk penyimpanan juga menjadi lebih kecil, contoh stemming sebagai berikut : 4. Hasil Stopword Hasil Stemming studying study text text mining mine Tagging Tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil stemming. Tagging biasanya dipakai untuk bahasa inggris. Contoh stemming sebagai berikut. Was used stori 5. Be Use story Analysing Tahap analysing merupakan tahap akhir untuk menentukan seberapa jauh kedekatan atau kemiripan antar kata-kata atau antar dokumen yang ada. Pada tahap ini dilakukan representasi nilai numerik yaitu dengan melakukan pembobotan tf-idf dan model ruang vector (vector space model ). Setelah itu dari vektor yang sudah diukur kemiripannya 15 (similarity) dengan menghitung cosines sudut antar vector query, sehingga diperoleh nilai dengan range antara 0 sampai 1. Nilai semakin mencapai angka 1 maka dokumen tersebut semakin sama. 2.2.8 Pembobotan TF-IDF Sering munculnya term dalam dokumen dapat digunakan sebagai proses untuk melakukan perhitungan sehingga diketahui penting atau tidaknya suatu kalimat. Proses perhitungan bisa dilakukan setelah dokumen direpresentasikan kedalam bentuk nilai numerik dokumen oleh Vector Space Model dan TF-IDF. Skor kalimat dapat dihitung sebagai jumlah dari skor/nilai kata dalam kalimat tersebut (Suanmali, Salim, & Binwahlan, 2008). Salah satu algoritma yang dipakai untuk menghitung skor atau pembobotan sebuah term dalam suatu dokumen adalah TF-IDF (Term Frequency-Inversed Document Frequency) (Yates & Neto, 1999). TF (Term Frekuency) adalah banyaknya kemunculan suatu term dalam dokumen. IDF (Inverse Document Frequency) adalah perhitungan logaritma antara pembagian jumlah total dokumen dengan cacah dokumen yang mengandung term, dan TF-IDF adalah perkalian antara TF dengan IDF. Semakin besar bobot TF-IDF pada suatu term, maka semakin penting term tersebut untuk bisa digunakan pada tahapan klasifikasi atau clustering dokumen. TF-IDF weighting menghitung term dari dokumen yang diwujudkan sebagai sebuah vector dengan elemen sebanyak term yang berhasil dideteksi pada proses penghilangan stopword dan stemming. Vector tersebut beranggotakan bobot dari tiap term yang dihitung berdasarkan metode ini. Formula yang digunakan untuk menghitung bobot adalah seperti persamaan dibawah ini: wij = tf ij × ( log (D /df j ) + 1 ) (1) D = total dokumen df = banyak dokumen yang mengandung kata yang dicari tf = banyaknya kata yang dicari pada sebuah dokumen 2.2.9 Seleksi Fitur Feature Selection adalah salah teknik terpenting dan sering digunakan dalam preprocessing data mining (Kira & Rendel, 1992), khususnya untuk knowledge discovery maupun discovery scince. Tujuan dari feature selection adalah untuk mengurangi jumlah fitur yang terlibat dalam hal untuk menentukan suatu nilai kelas target, mengurangi fitur yang tidak sesuai, fitur yang berlebihan dan data yang menyebabkan salah pengertian terhadap menentukan kelas target yang mempunyai efek mempercepat proses aplikasi. Hasil yang didapat dari seleksi fitur adalah untuk mempercepat dan meningkatkan kinerja proses mining, contohnya adalah 16 proses prediksi. Feature adalah seluruh kata yang muncul dalam training set. Set ini biasanya sangat besar yaitu satu dimensi untuk setiap kata unik sehingga memiliki feature space yang sangat besar. Feature selection adalah metode untuk mereduksi dimensi feature space dengan cara memilih kata-kata yang paling berkualitas. Salah satu metode yang terbukti sangat efektif dalam melakukan supervised feature selection diantaranya adalah Information Gain (IG) dan Chi Square (CHI) (Liu T. a., 2003) . Maka didalam penelitian ini seleksi fitur yang digunakan adalah Information Gain (IG). Pada tahap ini, atribut yang akan diolah harus diminimalisasi terlebih dahulu dengan tujuan untuk membuang atribut yang tidak perlu sehingga hanya atribut yang mempunyai relevansi kuat yang akan diproses, sehingga efisiensi space dan waktu dapat dicapai dan kualitas data yang dihasilkan lebih baik. Salah satu cara untuk mereduksi atribut adalah dengan information gain. Information gain adalah pengukuran yang dilakukan untuk menyeleksi atribut. Info(D)=-∑𝑚 𝑖=1 𝑝𝑖 log2 pi (2) Dalam hal ini pi adalah probabilitas sebuah tuple pada D masuk ke kelas Ci dan diestimasi dengan |Ci,D|/|D|. Fungsi log diambil berbasis 2 karena informasi dikodekan berbasis bit. Misal S adalah himpunan beranggotakan s data. Misalkan label atribut yang mendefinisikan kelas memiliki m nilai berbeda yang mendefinisikan m kelas Ci (untuk i=1,2,..,m) berbeda. Misalkan Si adalah jumlah sampel S yang masuk ke dalam kelas Ci. Berdasarkan (1) maka informasi yang diharapkan perlu untuk mengklasifikasi suatu sampel yang diberikan adalah: (S1,S2,.....,Sm)= - ∑𝑚 𝑖=1 𝑝𝑖 log2 pi (3) Yang mana pi adalah peluang suatu sampel sembarang yang masuk ke kelas ci dan ditaksir dengan si / s. Misalkan atribut A yang bukan atribut suatu kelas, memiliki v buah nilai yang berbeda yaitu {a1, a2, …,av}. Atribut A dapat digunakan untuk memisahkan S ke dalam v subset Sj yaitu {S1, S2, …,Sv}, dalam hal ini Sj memuat sampel-sampel didalam S yang memiliki nilai aj dari A. Jika atribut A dipilih sebagai atribut uji maka subset-subset tersebut akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S. Misalkan Sij adalah jumlah sampel dari kelas Ci di dalam suatu subset Sj. Entropi atau informasi harapan berdasarkan pemisahan ke dalam subset-subset A dihitung dengan: E(A) = ∑𝑚 𝑖−1 𝑆1𝑗+𝑠2𝑗+,…,+𝑠𝑚𝑗 𝑠 / (S1j,S2j...,Smj) 17 (4) 𝑆1𝑗+𝑠2𝑗+,…,+𝑠𝑚𝑗 , 𝑠 bentuk ini bertindak sebagai pemberat dari subset j dan merupakan jumlah sampel di dalam subset tersebut (yang memiliki nilai aj dari A) dibagi dengan jumlah total sampel di dalam S. Semakin kecil nilai entropi maka semakin murni pemisahan subset. 2.2.10 Measure similarity Didalam Vector Space Model dokumen digambarkan dalam bentuk dokumen d = {w1, w2, w3,…, wn} dimana d adalah dokumen dan w adalah nilai bobot setiap term dalam suatu dokumen. Model ruang vektor dan pembobotan tf*idf digunakan untuk mempresentasekan nilai numerik sehingga dapat dihitung kedekatan antar dokumen. Semakin dekat dua vektor didalam ruang vektor maka semakin mirip dua dokumen yang diwakili oleh vektor tersebut. Kemiripan antar dokumen dihitung menggunakan fungsi ukuran kemiripan . Ukuran ini digunakan untuk perangkingan dokumen sesuai dengan kemiripan (relevasi) nya terhadap query. Setelah dokumen dirangking, sejumlah tetap dokumen top-scoring dikembalikan pada pengguna. Ada beberapan metode yang digunakan untuk pengukuran kemiripan antara lain yaitu cosine similarity, manhattan distance, dan eucliedean distance. 2.2.10.1 Cosine similarity Cosine similarity salah satu metode untuk mengukur kemiripan teks yang sering digunakan (Tata & Patel M, 2007 ). Ukuran ini menghitung nilai cosinus sudut antara dua vektor. Jika terdapat dua vektor dokumen dj dan query q, serta term diekstrak dari koleksi dokumen maka nilai cosinus antara dj dan q didefinisikan dibawah ini. cosines 𝜃𝐷1= (5) 𝑄∗𝐷1 |𝑄|∗|𝐷1 | Similiraty (Q,Di ) = ∑𝑖 𝑊𝑄,𝑗 𝑊𝑖,𝑗 (6) 2 2 √∑𝑗 𝑊𝑄,𝑗 √∑𝑖 𝑊𝑄,𝑗 2.2.10.2 Manhattan Disctance Jarak rectilinear sering disebut dengan jarak manhattan adalah formula untuk menghitung jarak antara dua titik. Pengukuran dengan manhattan banyak digunakan karena mudah perhitungannya, mudah dimengerti. Perhitungan Manhattan distance untuk mencari jarak minimal dari dua buah titik (x1,x2) dan b(x2,y2), persamaan manhattan distance sebagai berikut : dij = |xi - xj | + |yi - yj| (7) sebagai contoh pada gambar 2.4, jarak antara i dan j adalah sebagai berikut. 18 2.2.10.3 Euclidean Disctance Teknik pengukuran kemiripan ini sering digunakan dalam teknik clustering, karena sederhana, tetapi mempunyai kekurangan yaitu sangat sensitif terhadap pencilan, seperti pada persamaan dibawah ini. Dij= √∑𝑚 𝑘=1(𝑑𝑗𝑘 − 𝑐𝑗𝑘 ) 2 (8) Dimana D adalah jumlah komponen pada vektor i k dan vector , dari ketiga metode pengukuran kemiripan antar dokumen tersebut yang digunakan didalam penenlitian ini adalah cosine similarity. 2.2.11 Model Confusion Matrix Confusion Matrix (Gorunescu, 2011) merupakan tools visualisasi yang biasa digunakan pada supervised learning dan dapat digunakan untuk unsupervised learning. Tiap kolom pada matriks adalah contoh dalam kelas prediksi, sedangkan setiap baris mewakili kejadian di kelas yang sebenarnya. Satu keuntungan dari Confusion Matrix adalah mudah untuk mengetahui jika ada data diantara dua kelas. Confusion Matrix berisi informasi tentang aktual dan prediksi pada sistem klasifikasi. Kinerja sistem seperti ini biasanya dievaluasi dengan menggunakan data pada matriks. Berikut ini adalah contoh tabel yang menunjukkan confusion matrix untuk klasifikasi dua kelas. Confusion matrix terdiri dari: Predicted Negative Positive Negative a b Positive c d Actual Tabel 2.1: Tabel Confusion Matrix 1. a adalah jumlah prediksi yang tepat bahwa instance bersifat negatif 2. b adalah jumlah prediksi yang salah bahwa instance bersifat positif 3. c adalah jumlah prediksi yang salah bahwa instance bersifat negatif 4. d adalah jumlah prediksi yang tepat bahwa instance bersifat positif Dari tabel 2.1 dapat jelaskan beberapa persyaratan standar yang telah didefinisikan untuk matriks klasifikasi dua kelas : 19 a. Accuracy (AC) adalah proporsi jumlah prediksi dataset yang benar. Hal ini ditentukan dengan menggunakan persamaan : AC = b. a+d a+d+b+c (9) Recall adalah rasio proporsi jumlah dokumen positif yang diidentifikasikan dengan benar, yang dihitung dengan menggunakan persamaan : R = c. d (10) c+d Precision (P) adalah proporsi prediksi jumlah dokumen positif yang benar, dihitung dengan menggunakan persamaan : P= d. b (11) b+d Tingkat positif salah (TP) adalah proporsi kasus negatif yang salah diklasifikasikan sebagai positif, yang dihitung dengan menggunakan persamaan : 𝑏 TP = e. (12) 𝑎+𝑏 Tingkat negatif sejati (TN) didefinisikan sebagai proporsi kasus negatif yang diklasifikasikan dengan benar, yang dihitung dengan menggunakan persamaan: TN = f. 𝑎 (13) 𝑎+𝑏 Tingkat negatif palsu (FN) adalah proporsi kasus positif yang salah diklasifikasikan sebagai negatif, yang dihitung dengan menggunakan persamaan : FN = c (16) c+d 20 BAB 3 TUJUAN DAN MANFAAT PENELITIAN 3.1 Tujuan Penelitian Berdasarkan latar belakang dan rumusan masalah diatas, maka tujuan penelitian ini adalah sebagai berikut : 1. Untuk mengetahui akurasi algoritma K-Means tanpa menggunakan seleksi fitur untuk analisis sentimen movie review dengan dataset 300 dokumen, 700 dokumen dan 1000 dokumen, masing-masing berlabel positif dan negatif. 2. Untuk mengetahui akurasi algoritma K-Means dengan menggunakan seleksi fitur Information Gain untuk analisis sentimen movie review dengan dataset 300 dokumen, 700 dokumen dan 1000 dokumen, masing-masing berlabel positif dan negatif. 3. Untuk mengetahui akurasi model yang diusulkan untuk analisis sentimrn movie review, bahwa dengan model yang diusulkan akan meningkatkan akurasi K-Means untuk optimasi analisis sentimen movie review. 3.2 Manfaat Penelitian Manfaat dari penelitian ini adalah sebagai berikut : 1. Diharapkan dapat bermanfaat untuk penelitian selanjutnya tentang clustering dokumen teks berbahasa inggris. 2. Diharapkan dapat bermanfaat bagi penelitian selanjutnya tentang analisis sentimen movie review. 3. Diharapkan dapat memberikan sumbangan pengetahuan yang berhubungan dengan seleksi fitur Information Gain untuk sentimen analisis sentiment movie review. 4. Diharapkan dapat memberikan sumbangan pengetahuan yang berkaitan dengan clustering dokumen berbahasa inggris tentang analisis sentimen movie review. 21 BAB 4 METODE PENELITIAN 4.1 Kerangka Pemikiran Permasalahan yang ada didalam sebuah penelitian akan menimbulkan cara bagaimana menyelesaikan masalah tersebut. Permasalahan didalam penelitian ini adalah belum diketahuinya algoritma K-Means dengan seleksi fitur Information Gain untuk optimasi analisis sentimen movie review. Adapun tools yang digunakan untuk eksperimen didalam penelitian ini adalah RapidMiner, kemudian hasil yang diperoleh adalah Accuracy, Precission dan Recall. Gambaran singkat penelitian ini ada pada kerangka pemikiran yang tersaji pada gambar 4.1. MASALAH PENGUMPULAN DATA & PREPROCESSING Belum diketahui akurasi algoritma K-Means dengan Seleksi Fitur Information Gain untuk optimasi analisis sentimen movie review. - Case folding - Stopword - Tokenizing - Stemming TOOLS PENELITIAN IMPLEMENTASI RapidMiner Algoritma K-Means dengan seleksi fitur Information Gain UKURAN HASIL Accuracy, Precision, Recall Diketahui akurasi algoritma K-Means dengan Seleksi Fitur Information Gain untuk optimasi sentimen analisis movie review Gambar 4.1. Kerangka Pemikiran 22 4.2 Metode Penelitian Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan tahapan penelitian seperti dalam skema penelitian sebagai berikut: Pendahuluan dan Literatur Rumusan Masalah Pengumpulan Data Model yang diusulkan Evaluasi Gambar 5.2. Metode Penelitian 4.2.1 Pendahuluan dan Literatur Bertambahnya dokumen di website dari waktu ke waktu semakin bertambah tanpa melihat besarnya dokumen. Hal ini menyebabkan banyaknya penelitian untuk menggali dokumen agar dapat diambil manfaatnya. Metode dan algoritma yang digunakan juga berbeda-beda antara satu peniliti dengan peneliti lainnya, tujuannya adalah untuk mendapatkan algoritma atau metode yang paling baik kinerjanya baik itu untuk teknik clustering maupun teknik klasifikasi. Namun kumpulan dokumen teks yang berasal dari website masih dinyatakan didalam bahasa alami atau natural artinya masih banyak atribut yang kurang sesuai pada dataset, sehingga bagi siapa saja yang membutuhkan memungkinkan untuk 22 membaca dan menganalisis kembali semua review atau kumpulan dokumen yang ada (Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010). Sehingga seleksi fitur dapat digunakan untuk mengurangi dataset yang tidak relevan tersebut. Beberapa algoritma seleksi fitur yang digunakan adalah information gain, chi square, forward selection dan backward elimination. 4.2.2 Rumusan Masalah Berdasarkan literature review yang dilakukan didapat permasalahan yaitu banyak metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui algoritma unsupervised learning yang memiliki akurasi terbaik untuk meningkatkan optimasi analisis sentimen movie review, maka didalam penelitian ini akan menerapan algoritma K-Means dengan seleksi fitur Information Gain untuk optimasi analisis sentimen movie review. 4.2.3 Pengumpulan Data Dataset yang digunakan didalam penelitian ini adalah dataset movie review yang diambil dari www.cs.cornell.edu/People/pabo/movie-review-data/. Movie review ini sudah dikelompokkan kedalam 1000 kelompok dokumen yang mempunyai label positif dan 1000 kelompok dokumen label negatif. Dataset ini sudah populer karena pernah digunakan oleh (Pang, Lee, & Shivakumar, 2002); (Chaovalit & Zhou, 2005); (Keefe & Koprinska, 2009), dan sudah siap dijadikan corpus untuk penelitian. Dataset tersebut dikumpulkan dari IMDb (Internet Movie Database) (Chaovalit & Zhou, 2005). Dari 1000 dokumen berlabel positif dan negatif tersebut kemudian oleh peneliti ambil secara acak masing-masing 300 dokumen berlabel positif dan 300 dokumen berlabel negatif , kemudian 700 dokumen berlabel positif dan 700 dokumen berlabel negatif, dan seluruh dokumen yang berjumlah 1000 dokumen berlabel positif dan 1000 dokumen berlabel negatif Dari ketiga kelompok dataset peneliti gunakan untuk menguji algoritma dan model yang diusulkan, baik algoritma K-Means tanpa menggunakan seleksi fitur dan KMeans dengan menggunakan seleksi fitur information gain. 23 4.2.4 Model yang diusulkan Model yang diusulkan adalah seperti gambar 4.3 Dataset Movie Review Pre processing Case folding Tokenizing Stopword Stemming (porter) Pembo botan TF-IDF Seleksi Fitur Information Gain (IG ) Clustering Algoritma K-Means Evaluasi Accuracy, Precision, Recall Gambar 6.3. Model yang diusulkan 4.2.4.1 Dataset Movie Review Dataset yang digunakan dalam penelitian ini berasal dari movie review yang diambil dari website www.cs.cornell.edu/People/pabo/moviereview-data/. movie review dalam bentuk dokumen teks kemudian dikelompokkan ke dalam dokumen positif dan negatif. Dataset tersebut dikumpulkan dari IMDb (Internet Movie Database) (Chaovalit & Zhou, 2005). Jumlah movie review yang digunakan sebanyak 1000 dokumen movie review dengan kategori negatif dan 1000 dokumen movie review dengan kategori positif. 4.2.4.2 Preprocessing Dokumen dari website rata-rata masih dalam dokumen natural artinya teks dokumen masih seperti apa adanya, belum ada proses 24 pengolahan data sama sekali. Dokumen natural memiliki dimensi yang tinggi, terdapat noise, outlier, dan terdapat struktur teks yang jelek. Agar proses analisis teks untuk proses clustering dapat berjalan dengan baik maka perlu adanya preprocessing. Tahapan preprocessing yang digunakan dalam penelitian ini adalah sebagai berikut : 1. Case folding Karena dokumen dari website masih dalam bentuk dokumen alami atau natural maka teks dokumen tersebut memerlukan penyeragaman bentuk tulisannya, yaitu berbentuk huruf kecil semua. Proses mengubah teks dokumen dalam bentuk huruf kecil semua disebut case folding (Transform Case). Contoh implementasi case folding dengan mengambil kalimat dari salah satu movie review negatif di file cv001_29416.txt adalah sebagai berikut : - Teks input case folding Story regarding a crew of a tugboat that comes across a Deserted russian tech ship that has a strangeness to it when they kick the power back on little - Hasil case folding story regarding a crew of a tugboat that comes across a deserted russian tech ship that has a strangeness to it when they kick the power back on little Dari contoh diatas dapat dilihat bahwa kata huruf depan di kata “Story” dan “Deserted” adalah huruf besar, setelah dilakukan proses preprosesing case folding, hasilnya adalah “story” dan “deserted” dimana huruf depan pada kata itu berubah menjadi huruf kecil. 2. Tokenezing Tokenezing digunakan untuk pemenggalan susunan term dari suatu kalimat menjadi kumpulan token, menghilangkan karakter selain huruf seperti angka dan tanda baca, serta karakter angka dan tanda baca dianggap sebagai delimiter atau pemisah. Dibawah cuplkan kalimat dokumen positif, yaitu : 25 hasil tokenizing dengan menggunakan “story regarding a crew of a tugboat that comes accros a deserted russian tech ship that has a strangeness to it when they kick the power back on litte” 3. Stopword Stopword merupakan proses menghilangkan kata-kata yang tidak relevan dalam suatu topik, atau kata-kata yang tidak mendiskripsikan suatu dokumen akan dihilangkan. Stopword dilakukan setelah proses tokenizing adalah tahap stopword, contoh kata-kata yang termasuk stopword adalah “a”,”and”,”are”,”the”. Dibawah ini contoh proses stopword dengan menggunakan teks hasil tokenizing. “story regarding a crew of a tugboat that comes accros a deserted russian tech ship that has a strangeness to it when they kick the power back on litte” Kalimat dibawah ini contoh kalimat hasil tokenizing yang sudah melalui preprocessing stopword. “story regarding crew tugboat comes accros deserted russian tech ship strangeness kick power back little” Dari kalimat diatas ada beberapa kata yang hilang yaitu “a”,”of”,”that”,”has”,”to”,”it”,”when”,”they”,”the” dan “on” 4. Stemming Stemming merupakan proses untuk mencari kata dasar dengan cara mengubah kata berimbuhan menjadi kata dasarnya, dengan tujuan untuk meningkatkan kualitas informasi. “story regarding crew tugboat comes deserted russian tech ship strangeness kick power “ Teks hasil stemming “story regard crew tugboat come desert russian tech ship strang kick power “ 4.2.4.3 Pembobotan TF-IDF TF-IDF (Term Frequency - Inverse Document Frequency) adalah salah satu algoritma yang digunakan untuk menghitung skor atau pembobotan term atau kata didalam suatu dokumen (Yates & Neto, 1999). TF (Term frequency) 26 adalah banyaknya kemunculan suatu term dalam dokumen. Pembobotan TF dilakukan dengan menghitung jumlah kemunculan kata dalam satu dokumen, IDF (inverse document frequency) adalah perhitungan logaritma antara pembagian jumlah total dokumen dengan cacah dokumen yang mengandung term, dan TF-IDF adalah perkalian antara TF dengan IDF. Semakin besar bobot TF-IDF pada suatu term, maka semakin penting term tersebut untuk bisa digunakan pada tahapan klasifikasi dokumen. Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan menggunakan tf * idf menunjukkan bahwa deskripsi terbaik dari dokumen adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit muncul pada dokumen yang lain. Demikian juga sebuah term yang muncul dalam jumlah yang sedang dalam proporsi yang cukup dalam dokumen di koleksi yang diberikan juga akan menjadi descriptor yang baik. Bobot terendah akan diberikan pada term yang muncul sangat jarang pada beberapa dokumen (low-frequency documents) dan term yang muncul pada hampir atau seluruh dokumen (high-frequency document). Sebagaimana terlihat pada studi kasus di bawah ini : Didalam kasus ini terdapat tiga (3) koleksi dokumen yaitu : Dokumen 1 (d1) = the dark side of such sleeper success Dokumen2 (d2) = in order to make the film a success , all they had to do was cast two extremely popular and attractive stars Dokumen 3 (d3) = this film guaranteed them all successful careers because each gave an outstanding performance Jadi didalam kasus ini terdapat tiga dokumen (D) = 3 yaitu d1,d2 dan d3, sebelum pemberian bobot masing-masing term, terlebih dahulu dokumen di preprocessing, antara lain mengubah dalam bentuk huruf kecil, pemotongan string, menghilangkan tanda baca, angka dan stopword. Setelah proses preprocessing maka didapatkan term-term ( document term ) sebagai berikut : dokumen1(d1) - dark d2 - order 27 d3 - film - side - make - guarante - sleeper - film - success - success - success - career - cast - gave - extrem - outstand - popular - perform - attract Setelah tahap preprocessing maka tiap dokumen dipresentasikan dalam bentuk sebuah vektor dengan elemen sebanyak term query yang terdapat pada tiap dokumen yang berhasil dikenali tahap ekstraksi dokumen sebelumnya. Vektor tersebut beranggotakan bobot dari setiap term query yang dihitung berdasarkan metode TF-IDF. Ilustrasi dari perhitungan TF-IDF adalah sebagaimana terlihat pada perhitungan dibawah ini: 1. Term frequency (tf) dan document frequency (df) Term frequency (tf) merupakan frekuensi kemunculan term (t) pada dokumen (d). Document frequency (df) adalah banyaknya dokumen dimana suatu term (t) muncul, hasil perhitungan tf disajikan pada tabel 4.1 2. Invers Document Frequency (idf) Untuk menghitung idf suatu term dengan menggunakan persamaan 15. 𝟏 𝑵 idf = 𝒅𝒇 atau idf = log (𝒅𝒇) Tabel 4.8 Tabel Term Frequency dan Document Frequency. term (t) tf df d1 d2 d3 attract 0 1 0 1 career 0 0 1 1 cast 0 1 0 1 dark 1 0 0 1 extrem 0 1 0 1 film 0 1 1 2 28 gave 0 0 1 1 guarante 0 0 1 1 make 0 1 0 1 order 0 1 0 1 outstand 0 0 1 1 perform 0 0 1 1 popular 0 1 0 1 side 1 0 0 1 sleeper 1 0 0 1 success 1 1 1 3 dimana N = jumlah dokumen dengan diketahui N=3 hasil dari perhitungan idf disajikan pada tabel 4.2. Dapat kita amati pada tabel 4.2 bahwa nilai idf akan semakin besar untuk term/token yang tingkat kemunculannya sedikit, begitu sebaliknya bahwa semakin sedikit kemunculan term/token pada dokumen maka nilai idf semakin besar. Setelah diketahui tf dan idf pada dokumen makan kita dapat menghitung pembobotan tf-idf, yaitu suatu formula untuk menghitung bobot hubungan suatu term/token di dalam suatu dokumen Perlu diperhatikan juga bahwa berapapun nilai tf, kalau term/token tersebut muncul di semua dokumen (df = N), maka nilai idf nya 0, untuk mengatasi masalah tersebut maka ditambahkan nilai 1 ke perhitungan idf. Sehingga hasil tf * idf seperti tabel 4.3 Tabel 4.9 Tabel Invers Document Frequency (idf). terms(t) df Idf=log(N/df) attract 1 0.477 career 1 0.477 cast 1 0.477 dark 1 0.477 extrem 1 0.477 film 2 0.176 gave 1 0.477 29 guarante 1 0.477 make 1 0.477 order 1 0.477 outstand 1 0.477 1 0.477 popular 1 0.477 side 1 0.477 sleeper 1 0.477 success 3 0 perform Dengan menggunakan rumus tf * idf yang disajikan pada tabel 3.3 bahaa berapapun nilai tf, kalau token tersebut muncul di semua dokumen (df = N), maka bobot dokumen tersebut adalah 0, sehingga untuk mengatasi masalah tersebut ditambahkan nilai 1 ke perhitungan idf nya, sehingga persamaan untuk bobot term seperti pada persamaan 17. 𝑤𝑖𝑗 = 𝑡𝑓𝑖𝑗 x (𝑙𝑜𝑔(𝑁/𝑛)) + 1 (17) n = df dari token j Tabel 4.10 Hasil tf * idf. tf Token / term (t) d1 d2 d3 N df Idf=log(N/f attract 0 1 0 1 3 Career 0 0 1 1 Cast 0 1 0 Dark 1 0 Extrem 0 Film df Wf(t,d)=tf(td) x idf(t) 0.477 d1 0 d2 0.477 d3 0 3 0.477 0 0 0.477 1 3 0.477 0 0.477 0 0 1 3 0.477 0.477 0 0 1 0 1 3 0.477 0 0.477 0 0 1 1 2 1.5 0.176 0 0.176 0.176 Gave 0 0 1 1 3 0.477 0 0 0.477 guarante 0 0 1 1 3 0.477 0 0 0.477 Make 0 1 0 1 3 0.477 0 0.477 0 Order 0 1 0 1 3 0.477 0 0.477 0 outstand 0 0 1 1 3 0.477 0 0.477 0.477 30 perform 0 0 1 1 3 0.477 0 0.477 0.477 popular 0 0 1 1 3 0.477 0 0.477 0.477 Side 1 0 0 1 3 0.477 0 0.477 0.477 sleeper 1 0 0 1 3 0.477 0 0.477 0.477 success 1 1 1 3 1 0 0 0 0 Setelah penambahan nilai 1, bobot dari masing-masing term tidak sesuai standar untuk perhitungan pembobotan term, bobot term hasil penambahan nilai 1 disajikan pada tabel 4.4. Hasil ini tidak dapat digunakan untuk standarisasi pembobotan term, maka harus dinormalisasi agar supaya bobot terstandarisasi yaitu antara 0 s/d 1, persamaan untuk menormalisasi bobot term adalah seperti persamaan dibawah 18. 𝑊 𝑖𝑗= 𝑡𝑓𝑖𝑗 X (𝑙𝑜𝑔(𝑁/𝑑𝑓)+1) 2 √∑𝑡 [(𝑙𝑜𝑔(𝑁/𝑑𝑓)+1)]2 𝑘=1(𝑡𝑓𝑖𝑘 ) X (18) Keterangan : i = jumlah token t = dokumen ke 1,2,3..n j & k = term ke 1,2,3..n Tabel 4.11 : Hasil tf * idf setelah ditambah 1. token / term (t) tf W=tf*((idf)+1) df N df Idf= log(N/df) d1 d2 d3 d1 d2 d3 attract 0 1 0 1 3/1=3 1.477 1 1.477 1 career 0 0 1 1 3/1=3 1.477 1 1 1.477 cast 0 1 0 1 3/1=3 1.477 1 1.477 1 dark 1 0 0 1 3/1=3 1.477 1.477 1 1 extrem 0 1 0 1 3/1=3 1.477 1 1.477 1 0 1 1 2 1.176 1 1.176 1.176 gave 0 0 1 1 3/1=3 1.477 1 1 1.477 guarante 0 0 1 1 3/1=3 1.477 1 1 1.477 film 3/2=1.5 31 make 0 1 0 1 3/1=3 1.477 1 1.477 1 order 0 1 0 1 3/1=3 1.477 1 1.477 1 outstand 0 0 1 1 3/1=3 1.477 1 1 1.477 perform 0 0 1 1 3/1=3 1.477 1 1 1.477 popular 0 0 1 1 3/1=3 1.477 1 1 1.477 side 1 0 0 1 3/1=3 1.477 1.477 1 1 sleeper 1 0 0 1 3/1=3 1.477 1.477 1 1 Success 1 1 1 3 3/3=1 0 1 1 1 Dibawah ini contoh perhitungan untuk mengetahui bobot term “attract” pada dokumen 1. 1 𝑥 (log(3/1)+1) W21 = 2 3 3 2 ((12 x [log (1+1)] )+(02 x [log ( 1+1)] )) 1.477121 W21 = 2.181887 W21 = 0.677 Dapat dilihat pada tabel 4.5 merupakan contoh hasil bobot term setelah dinormalisasi, kemudian tabel 4.6 merupakan hasil secara keseluruhan pembobotan term setelah dinormalisasi dan tidak ditemukan bobot term lebih dari 1. Tabel 4.12 Contoh hasil pembobotan setelah di Normalisasi. token / term (t) tf W=tf*((idf)+1) df N df Idf= log(N/df) d1 d2 d3 d1 d2 d3 attract 0 1 0 1 3/1=3 0.477 0 0.677 1 career 0 0 1 1 3/1=3 0.477 0 0 0.677 Tabel 4.13 Hasil Normalisasi pembobotan term secara keseluruhan. token / term (t) tf df d1 d2 d3 attract 0 1 0 1 career 0 0 1 1 W=tf*(idf) N df 3 d1 0 d2 0,113 d3 0 3 0 0 0,085 32 cast 0 1 0 1 3 0 0,113 0 dark 1 0 0 1 3 0,170 0 0 extrem 0 1 0 1 3 0 0,113 0 film 0 1 1 2 1.5 0 0,113 0,085 gave 0 0 1 1 3 0 0 0,085 guarante 0 0 1 1 3 0 0 0,085 make 0 1 0 1 3 0 0,113 0 order 0 1 0 1 3 0 0,113 0 outstand 0 0 1 1 3 0 0 0,085 perform 0 0 1 1 3 0 0 0,085 popular 0 0 1 1 3 0 0 0,085 side 1 0 0 1 3 0,170 0 0 sleeper 1 0 0 1 3 0,170 0 0 success 1 1 1 3 1 0 0 0 Pembobotan TF-IDF berfungsi untuk mencari nilai dari setiap term didalam dokumen. Fungsi ini akan dibentuk suatu vektor antara dokumen dan query yang ditentukan oleh nilai bobot dari sebuah term query didalam dokumen. Semakin besar nilai bobot yang diperoleh maka semakin tinggi tingkat kemiripan dokumen terhadap query. Salah satu ukuran kemiripan teks yang populer adalah menggunakan persamaan cosine similarity, ilustrasi pemakaian cosine similarity untuk mengukur kemiripan antar dokumen tersaji didalam kasus seperti dibawah ini : Diketahui term yang akan diquery adalah film, perform, success, term ini diambil dari dokumen pada tiga koleksi dokumen yang tertulis diawal subbab ini, kemudian dilakukan perhitungan tf*idf dan hasil pembobotannya seperti tabel 4.7. Tabel 4.14 Hasil tf * idf dan bobot setelah dinormalisasi ditambah kolom query. token / term (t) tf d1 d2 d3 attract 0 1 0 1 3 Idf= log(N/ df) 0.477 career 0 0 1 1 3 0.477 Q df N df 33 W=tf*(idf) Q d1 d3 0 d2 0,11 3 0 0 0 0 0,08 0 5 cast dark extrem film 1 gave guarante make order outstand perform 1 popular side sleeper success 1 0 1 0 1 3 0.477 1 0 0 1 3 0.477 0 1 0 1 3 0.477 0 0 0 1 1 3 1 0 0 0 1 1 3 0.477 0 0 1 1 3 0.477 0 1 0 1 3 0.477 0 1 0 1 3 0.477 0 0 1 1 3 0.477 0 0 1 2 1.5 0.176 0 0 1 1 3 0.602 1 0 0 1 3 0.602 1 0 0 1 3 0.602 1 1 1 3 1 0 0 0,17 0 0,11 3 0 0 0,2 26 0 0 0 0,11 3 0,11 3 0 0 0 0 0 0 0 0 0 0 0,11 3 0,11 3 0 0,2 26 0 0 0 0 0 0 0 0 0 0 0,17 0 0,17 0 0 0,08 5 0,08 5 0,08 5 0 0 0 0 0 0 0 0 0 0,08 5 0,08 5 0,08 5 0 dengan menggunakan persamaan 5 dan persamaan 6, maka diperoleh perhitungan sebagai berikut : |D1 | = √0.1702 + 0.1702 + 0.1702 = √0,0867 = 0.294 |D2 | =√0.1132 +0.1132 + 0.1132 + 0.1132 + 0.1132 + 0.1132 = √0,0766 = 0.277 |D3 | = √0.0852 + 0.0852 + 0.0852 + 0.0852 + 0.0852 + 0.0852 + 0.0852 = √0,0506 = 0.225 |Q| = √0.2262 + 0,2262 + 0 = √0,153 = 0.391 Kemudian di hitung dot product nya 34 Q x D1 = 0.226 * 0 = 0 Q x D2= 0,226 x 0.113=0.026 Q x D3= 0,226 x 0,085 +0,226 x 0,085 = 0.038 Setelah itu dihitung nilai similaritynya, perhitungannya seperti dibawah ini : Cosine θ D1 = 𝑄 𝑥 𝐷1 0 = |𝑄|∗|𝐷1 | 0.391 𝑥0 𝑄 𝑥 𝐷2 0,026 = |𝑄|∗|𝐷2 | 0,391 𝑥 0,277 = 0.235 𝑄 𝑥 𝐷3 0,038 = |𝑄|∗|𝐷3 | 0,391 𝑥 0,225 = 0.436 Cosine θ D2 = Cosine θD3 = =0 dengan hasil perhitungan similarity tersebut maka kemiripan query untuk term extrem, film dan perform adalah pada dokumen3 (D3) 4.2.4.4 Seleksi Fitur Information Gain Information gain merupakan seleksi fitur yang dapat digunakan untuk menentukan atribut terbaik dari suatu dataset. Sebagai contoh pemakaian information gain diambilkan dari penelitian Muhammad Noor Adityana (Adityana, 2009), dalam penelitiannya dicontohkan sekumpulan S ={s1,s2,s3,s4} yang dikategorikan menjadi positif dan negatif, dimana s1 berkategori positif dan yang lainnya berkategori negatif. Untuk menghitung information gain dari sebuah atribut A, dan A memiliki nilai {v1,v2,v3}, ditentukan bahwa : S1 memiliki nilai v2 untuk A S2 memiliki nilai v2 untuk A S3 memiliki nilai v3 untuk A S4 memiliki nilai v1 untuk A Langkah pertama adalah menghitung entropy dari S. Untuk menggunakan persamaan entropi pada persoalan ini, kita harus mengetahui jumlah positif dan negatif pada S. Dari soal dapat diketahui bahwa positif =1/4 dan negatif 3/4 sehingga dapat dihitung dengan persamaan : Entropy(S) = - (1/4)log2(1/4) – (3/4)log2(3/4) = - (1/4)(-2)-(3/4)(-0.415)=0.5 + 0.311 = 0.811 35 Selanjutnya menghitung Entropi(Sy) untuk setiap nilai v=v1,v2,v3,v4. Sv merupakan kumpulan dari contoh pada S yang memiliki nilai v pada atribut A, atau dapat dituliskan sebagai berikut : Sv = {S4}, Sv2={S1,S2}, Sv3={S3} (19) Dengan menggunakan persamaan (19) dapat digunakan untuk menyelesaikan persamaan berikut : (|Sv1|/|S|) * Entropy(Sv1) = (1/4)*(-(0/1)log2(0/1)-(1/1)log2(1/1)) = (1/4)(-0-(1)log2(1))=(1/4)(-0-0) = 0 (|Sv2|/|S|) * Entropy(Sv2) = (2/4)*(-(1/2)log2(1/2)-(1/2)log2(1/2)) = (1/2)*(-(1/2)*(-1) – (1/2)*(-1)) = (1/2)*(1) = 1/2 (|Sv2|/|S|) * Entropy(Sv2) = (2/4)*(-(1/2)log2(1/2)-(1/2)log2(1/2)) = (1/2)*(-(1/2)*(-1) – (1/2)*(-1)) = (1/2)*(1) = 1/2 (|Sv3|/|S|) * Entropy(Sv3) = (1/4)*(-(0/1)log2(0/1)-(1/1)log2(1/1)) = (1/4)(-0-(1)log2(1))=(1/4)(-0-0) = 0 Sekarang ditambahkan ketiga nilai tersebut dan mendapatkan Entropi(S) untuk hasil akhir : Gain(S,A)=0.811-(0+1/2+0 = 0.311 4.2.4.5 Clustering algoritma K-Means Ilustrasi pengujian algoritma K-Means diambil dari (linuxarna, 2012 ) seperti pada contoh kasus dibawah ini dengan menggunakan Manhattan Distance. Diketahui dataset seperti pada tabel 4.8. Tabel 4.8: Dataset untuk proses algoritma K-Means. Data ke X1 36 X2 1 1.5 1.0 2 1.5 2.0 3 3.0 4.5 4 6.0 7.0 5 3.5 5.0 6 4.5 5.0 Berdasarkan proses algoritma K-Means maka langkah-langkah yang perlu dilalui adalah sebagai berikut : Langkah 1: Menentukan jumlah cluster, dimana jumlah cluster adalah 2 Langkah 2: Menentukan centroid awal, dipilih dari data tertinggi dan terendah dari dataset dari tabel 4.8 yaitu record ke 1 dan ke 4. Cluster Cluster 1 2 1.5 1.0 6 7 Langkah 3: menghitung jarak dengan Manhattan Distance Dimisalkan mencari distance data ke 1 dengan centroid yang sudah ditentukan sebelumnya. Distance cluster 1 |1.5-1.5|+|1.0-1.0| = 0 Distance cluster 2 |6.0-1.5|+|7.0-1.0| =10.5 Untuk data ke 2 Distance Cluster 1 |1.5-1.5|+|1.0-2.5| = 1 Distance Cluster 2 |6.0-1.5|+|7.0-2.0| = 9.5 Untuk data ke 3 Distance Cluster 1 |1.5-3.0|+|1.0-4.5| = 5 Distance Cluster 2 |6.0-3.0|+|7.0-4.5| = 5.5 Untuk data ke 4 Distance Cluster 1 |1.5-6.0|+|1.0-7| = 10.5 Distance Cluster 2 |6.0-6.0|+|7.0-7.0| = 0 Untuk data ke 5 Distance Cluster 1 |1.5-3,5|+|1.0-5| = 6 Distance Cluster 2 |6.0-3.5|+|7.0-5.0| = 4.5 Untuk data ke 6 Distance Cluster 1 |1.5-4,5|+|1.0-5| = 7 Distance Cluster 2 |6.0-4.5|+|7.0-5.0| = 3.5 37 sehingga kalau ditampilkan secara keseluruhan adalah sebagai berikut : Tabel 4. 9: Tabel hasil perhitungan data ke 1 dengan medoid. Data ke X1 X2 Hasil 1 0 10.5 Cluster 1 2 1 9.5 Cluster 1 3 5 5.5 Cluster 1 4 10.5 0 Cluster 2 5 6 4.5 Cluster 2 6 7 3.5 Cluster 2 Langkah 4 : Menghitung mean centroid baru Untuk menentukan centroid baru cara menghitung nilai rata-rata dari dataset yang ada pada centroid yang sama. Centroid cluster 1 (1.5+1.5+3.0)/3 = 2.0 Centroid cluster 1 (1.0+2.0+4.5)/3 = 2.5 Sehingga centroid baru adalah : Cluster 1 2.0 2.5 Cluster 2 4.7 5.7 Langkah 5 : Menghitung jarak dengan manhattan distance (perhitungan sama dengan langkah 3 hanya menggunakan centroid baru ) Distance cluster 1 |2.0-1.5|+|2.5-1.0| = 2.0 Distance cluster 2 |4.7-1.5|+|5.7-1.0| = 7.83 Untuk data ke 2 Distance Cluster 1 |2.0-1.5|+|2.5-2.0| =1.0 Distance Cluster 2 |4.7-1.5|+|5.7-2.0| = 6.9 Untuk data ke 3 Distance Cluster 1 |2.0-3.0|+|2.5-4.5| = 3.0 Distance Cluster 2 |4.7-3.0|+|5.7-4.5| = 2.9 Untuk data ke 4 Distance Cluster 1 |2.0-6.0|+|2.5-7.0| = 8.5 Distance Cluster 2 |4.7-6.0|+|5.7-7.0| = 2.6 Untuk data ke 5 38 Distance Cluster 1 |2.0-3.5|+|2.5-5.0| = 4.0 Distance Cluster 2 |4.7-3.5|+|5.7-5.0| = 1.83 Untuk data ke 6 Distance Cluster 1 |2.0-4.5|+|2.5-5.0| = 5 Distance Cluster 2 |4.7-4.5|+|5.7-5.0| = 0.83 Tabel 4.10: Tabel hasil perhitungan data ke 1 dengan medoid baru. Data ke X1 X2 Hasil 1 2.0 7.83 Cluster 1 2 1.0 6.83 Cluster 1 3 3.0 2.83 Cluster 2 4 8.5 2.67 Cluster 2 5 4.0 1.83 Cluster 2 6 5.0 0.83 Cluster 2 Karena lebih kecil jarak ke cluster 1 maka untuk data ke 1 hasilnya masuk “cluster 1” Karena masih ada perubahan data maka berulang ke langkah 3. Bisa dilihat data ke 3 yang dulunya masuk cluster 1 sekarang masuk cluster 2. Langkah 6 : Menghitung Mean Centroid baru Cluster 1 1.5 1.5 Cluster 2 4.3 5.4 Langkah 7 : Menghitung jarak dengan manhattan distance (perhitungan sama dengan langkah 3 menggunakan centroid baru) Tabel 4.11: Tabel hasil perhitungan data ke 2 dengan medoid baru. Data ke Distance Hasil Cluster 1 Cluster 2 1 0.50 7.13 Cluster 1 2 0.50 6.13 Cluster 1 3 4.50 2.13 Cluster 2 4 10.01 3.38 Cluster 2 5 5.5 1.13 Cluster 2 6 6.50 0.63 Cluster 2 39 Karena pada perhitungan ini data pada cluster tidak berubah maka untuk data ke 1 dan 2 tetap di cluster 1 dan data ke 3 sampai 6 tetap cluster 2 maka iterasi berhenti. 4.2.4.6 Evaluasi Confunsion Matrix Confusion Matrix merupakan tools visualisasi yang biasa digunakan pada supervised learning dan dapat digunakan untuk unsupervised learning. Tiap kolom pada matriks adalah contoh dalam kelas prediksi, sedangkan setiap baris mewakili kejadian di kelas yang sebenarnya, seperti yang disajikan pada Gambar Gambar 7.4. Contoh gambar Confusion Matrix 4.2.5 Evaluasi Evaluasi dilakukan dengan mengamati kinerja algoritma K-Means dengan menggunakan seleksi fitur information gain untuk optimasi analisis sentimen movie review. Dalam penelitian ini digunakan Confusion Matrix untuk mengukur kinerja clustering. Accuracy (AC) adalah proporsi jumlah prediksi dataset yang benar, Recall adalah rasio proporsi jumlah dokumen positif yang diidentifikasikan dengan benar, sedangkan Precision (P) adalah proporsi prediksi jumlah dokumen positif yang benar. 40 41 BAB 5 HASIL YANG DICAPAI 5.1 Eksperimen dan Pengujian Model Setiap penelitian tentu ada hasil yang dicapai. Capaian yang di harapkan dari penelitian ini adalah bagaimana menerapkan algoritma K-Means dengan seleksi fitur Information Gain untuk optimasi analisis sentimen movie review. Yang dimaksud optimasi disini adalah dengan menggunakan seleksi fitur Information Gain akan meningkatkan akurasi K-Means didalam mengelompokkan dokumen movie review dibanding sebelum menggunakan seleksi fitur. Didalam penelitian ini dataset yang digunakan adalah movie review yang diambil dari http://www.cs.cornell.edu/People/pabo/movie-review-data/. Langkah-langkah yang dilakukan didalam penelitian ini adalah sesuai dengan model yang diusulkan sedangkan tools yang digunakan adalah RapidMiner. Didalam penelitian ini nanti terdapat dua skenario pengujian, yang pertama ialah menguji model yang diusulkan dengan algoritma K-Means tanpa menggunakan seleksi fitur Information Gain, kemudian skenario kedua adalah menguji model yang diusulkan dengan menerapkan algoritma K-Means menggunakan seleksi fitur Information Gain. Skenario pertama dilakukan dengan maksud dan tujuan untuk mengetahui akurasi algoritma K-Means apabila tanpa menggunakan seleksi fitur Information Gain, sedangkan skenario kedua adalah untuk mengetahui akurasi model dengan algoritma K-Means setelah menggunakan Information Gain. Dibawah ini akan dijelaskan lebih mendetail tentang langkah-langkah yang terjadi pada masing-masing skenario. 1. Skenario Pertama : Penerapan algoritma K-Means tanpa seleksi fitur information gain dengan menggunakan dataset 300 dokumen berlabel positif dan negatif. Didalam pengujian penerapan algoritma K-Means tanpa seleksi fitur information gain dengan menggunakan dataset 300 dokumen berlabel positif dan negatif, langkah pertama yang dilakukan yaitu pembacaan dataset yang sudah di kelompokkan didalam dua direktori yaitu direktori negatif dan positif yang sajikan pada gambar 5.1. Proses pembacaan dataset dokumen ini berada di operator Proces Documents From Files. Selain itu juga pada operator ini terjadi proses preprocessing sekaligus pembobotan TF-IDF. Proses preprocessing terdiri dari Transformation Case (case folding), tokenize, Filter Stopword dan Stemming (porter). Formula preprocessing apabila diterapkan di 42 RapidMiner disajikan pada Gambar 5.2, dan pembobotan TF-IDF disajikan pada gambar 5.3 Gambar 5.1. Proses Pembacaan Dokumen di direktori Proses ini juga nantinya berlaku untuk pengujian algoritma K-Means dengan seleksi fitur information gain dengan menggunakan dataset 300 dokumen berlabel positif dan 300 dokumen berlabel negatif, dataset 700 dokumen berlabel positif dan 700 dokumen berlabel negatif dan dataset 1000 dokumen berlabel positif dan 1000 dokumen berlabel negatif. Gambar 5. 16. Proses Preprocessing Proses gambar 5.2 proses Preprocessing berada atau didalam operator Process Documents From Files. 43 Gambar 5. 17. Pembobotan TF-IDF masuk didalam preprocessing Setelah preprocessing dilakukan, maka dilanjutkan proses pembobotan TF-IDF yang juga terdapat didalam operator Process Documents From Files. Baru kemudian dilanjutkan dengan operator Clustering, kemudian Map Clustering on labels yang berfungsi untuk mengubah atribut pengelompokan kedalam atribut untuk prediksi algoritma K-Means. Dilanjutkan dengan operator performance, operator ini digunakan untuk mengevaluasi kinerja algoritma K-Means, memberikan daftar nilai kinerja sebuah kriteria, kinerja kriteria ini secara otomatis ditentukan agar sesuai dengan jenis tugasnya. Tahap pengujian algoritma tanpa seleksi fitur dapat dilihat pada Gambar 5.4. hasil pengujian algoritma KMeans tanpa menggunakan seleksi fitur information gain disajikan pada gambar 5.5. Gambar 5. 18. Proses tanpa menggunakan Information Gain. 44 Gambar 5. 19. Akurasi K-Means tanpa menggunakan information gain. Pada gambar 5.5 menunjukkan bahwa accuracy K-Means tanpa menggunakan seleksi fitur Information gain adalah 57.83%, precision =60.35% dan recall =45.67%. Dari 300 dokumen negatif yang diprediksi negatif dan benar negatif adalah 201 dokumen dan yang diprediksi negatif tetapi betul positif berjumlah 163 dokumen, kemudian dari 300 dokumen positif, yang diprediksi positif tetapi betul negatif berjumlah 90 dokumen, dan yang diprediksi positif dan betul positif sebanyak 137 dokumen. Hasil akurasi K-Means tanpa seleksi fitur untuk analisis sentimen movie review ini masih rendah. Secara detail kinerja K-Means dapat dilihat dengan Confunsion Matrix disajikan pada gambar 5.6. Gambar 5. 20. Confunsion Matrik K-Means tanpa menggunakan information gain. 45 2. Skenario Kedua : Penerapan algoritma K-Means menggunakan seleksi fitur Information Gain Penerapan algoritma K-Means dengan menggunakan seleksi fitur information gain proses awalnya sama dengan pada penerapan algoritma K-Means tanpa seleksi fitur yaitu pembacaan dataset dokumen positif dan dokumen negatif, preprocessing dan pembobotan TF-IDF. Yang membedakan pada pengujian ini ada setelah proses TF-IDF dilanjutkan proses seleksi fitur information gain, kemudian proses Select by Weight yaitu operator untuk memilih dataset uji yang beratnya memenuhi kriteria yang telah ditentukan oleh seleksi fitur information gain pada proses selanjutnya. Selanjutnya clustering dan menghitung performance algoritma K-Means. Algoritma K-Means diuji dengan ukuran k=2, pembobotan term yang digunakan p%= 0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9 dan 1, ini merujuk pada penelitian (Keefe & Koprinska, 2009). Dalam penentuan term yang digunakan untuk proses clustering adalah term yang ada pada seluruh dokumen atau dataset yang ada berdasarkan dari bobot tertinggi dan frekuensi kemunculan term dari masing-masing term didalam dokumen. Pada gambar 5.5 dijelaskan bahwa tingkat akurasi algoritama K-Means sebelum menggunakan information gain adalah 57.83%, tingkat akurasi ini dibawah penelitian Gang Li dan Fei Liu (Li & Liu, A Clustering-based Approach on Sentiment Analysis, 2010), tetapi setelah menggunakan seleksi fitur information gain dengan p%=0.1 tingkat akurasi mengalami kenaikan menjadi 78.67%, ini sesuai keunggulan dari information gain yaitu dapat menaikkan akurasi suatu algoritma sehingga hasil ini lebih baik dari penelitian sebelumnya, hasil uji dengan menggunakan seleksi fitur information disajikan pada gambar 5.7 Gambar 5. 21. Akurasi K-Means dengan menggunakan information gain. 46 Gambar 5.7 menunjukkan bahwa accuracy 78.67%, precision 84.96% dan recall=69.67%. Dari hasil pengujian dengan menggunakan RapidMiner dapat diketahuai Confusion Matrix seperti ditunjukkan pada gambar 5.8 Gambar 5. 22. Confunsion Matrix K-Means menggunakan information gain. Dari gambar 5.8 dapat dijelaskan bahwa dari 300 dokumen yang prediksi negatif dan benar negatif adalah 263 dokumen, dan yang diprediksi negatif tetapi betul positif 91 dokumen. Dari 300 dokumen yang diprediksi positif dan benar positif adalah 209 dokumen dan yang diprediksi positif tetapi betul negatif adalah 37 dokumen. Karena dengan menggunakan seleksi fitur tingkat akurasi K-Means naik, maka didalam penelitian ini akan menerapkan algoritma K-Means dengan menggunakan information gain sebagai seleksi fitur, hal ini dimaksudkan untuk mengetahui tingkat akurasi K-Means yang paling tinggi. Adapun model yang diusulkan diformulasikan didalam RapidMiner tersaji pada gambar 5.9. 47 Gambar 5. 23. Formula untuk algoritma clustering menggunakan information gain. Gambar 5.9 dapat dijelaskan bahwa langkah pertama yang perlu dilakukan adalah sama dengan proses clustering tanpa menggunakan seleksi fitur information gain, yaitu dengan langkah pembacaan dataset dengan menggunakan operator Process Dokumen From Files yang berisi preprocessing dan pembobotan TF-IDF, tetapi di model yang diusulkan oleh peneliti setelah Process Dokumen From Files adalah operator Weight By Information Gain yaitu pembobotan dengan seleksi fitur information gain, dilanjutkan operator Select By Weights, yaitu memilih dan menyeleksi term sesuai dengan prosentase term yang digunakan, kemudian dilanjutkan dengan operator Clustering K-Means yang berfungsi mengelompokkan dokumen teks, terus dilanjutkan proses Map Clustering on labels yang berfunsi untuk mengubah atribut pengelompokan kedalam atribut untuk proses prediksi algoritma K-Means, dan terakhir yaitu menghitung performance algoritma model yang diusulkan. 5.2 Analisis Accuracy K-Means menggunakan seleksi Information Gain 300 dokumen Sebelum menguji model yang diusulkan dengan menggunakan dataset 700 dokumen berlabel positif dan 700 berlabel negatif serta 1000 dokumen berlabel positif dan 1000 berlabel negarif, maka sebelumnya diuji terlebih dahulu dengan menggunakan 300 dokumen berlabel positif dan 300 dokumen berlabel negatif. Sebelumnya sudah diketahui bahwa akurasi algoritma K-Means menggunakan seleksi fitur information gain dengan p%=0.1 mengalami kenaikan hingga 78.67%, maka peneliti dengan model yang diusulkan melakukan pengujian algoritma K-Means dengan menggunakan seleksi fitur information gain pada masing-masing p%=0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, dengan menggunakan dataset 600 dokumen terlebih dahulu yang terbagi menjadi dua kategori yaitu 300 dokumen movie review berkategori negatif dan 300 movie review dokumen berkategori positif. Hasil accuracy KMeans dengan seleksi fitur pada p% seperti yang disebutkan sebelumnya dapat dilihat pada gambar 5.10 48 80.00 70.00 60.00 50.00 40.00 30.00 20.00 10.00 0.00 p%=0.1 p%=0.2 p%=0.3 p%=0.4 p%=0.5 p%=0.6 p%=0.7 p%=0.8 p%=0.9 p%=1 p%=0 p%=0 p%=0 p%=0 p%=0 p%=0 p%=0 p%=0 p%=0 p%=1 .1 .2 .3 .4 .5 .6 .7 .8 .9 Accuracy(%) 78.67 70.67 58.83 58.67 58.17 57.33 56.33 55.83 57.67 57.83 Gambar 5. 24. Accuracy K-Means dengan seleksi fitur information gain Dari gambar 5.10 dapat di jelaskan bahwa akurasi tertinggi algoritma K-Means dengan seleksi fitur information gain adalah p%= 0.1 yaitu 78.67%, kemudian mengalami penurunan hingga 8 point pada p%=0.2, kemudian accuracy mulai menurun sangat banyak pada p%=0.3 yaitu 58.83%, hal ini berulang sampai pada p%=0.8 dengan akurasi 55.83%, akurasi ini dapat dikatakan akurasi paling rendah dari semua p%, tetapi setelah p%=0.8 mengalami kenaikan lagi. Ada pola yang unik dari akurasi K-Means dengan seleksi fitur information gain yaitu semakin besar prosentase term yang digunakan semakin menurun akurasi K-Means yaitu sampai p%=0.8, tetapi mengalami kenaikan lagi mulai pada p%=0.9. Terjadinya penurunan pada setiap p% dinaikkan dapat digunakan untuk penelitian selanjutnya apa yang menyebabkan terjadinya penurunan tersebut. Setelah menguji dengan dataset 300 dokumen maka pengujian selanjutnya dengan dataset 700 dokumen dan 1000 dokumen, hasil kedua pengujian dapat diihat di gambar 11 untuk dataset 700 dan gambar untuk dataset 49 Gambar 5. 25. Gambar akurasi K-Mean tanpa seleksi fitur 700 dokumen Gambar 5. 26. Gambar akurasi K-Mean tanpa seleksi fitur 1000 dokumen 5.3 Analisis Waktu Clustering K-Means dengan seleksi fitu Untuk melengkapi apakah berkinerja baik atau tidakya sebuah algoritma maka dapat dilihat dari waktu yang ditempuh. Algoritma K-Means menggunakan seleksi fitur information gain didalam melakukan clustering dapat diukur dengan mengukur waktu proses didalam melakukan pengelompokan dokumen teks. K-Means merupakan algoritma yang mempunyai kecepatan tinggi didalam melakukan proses clustering Apabila waktu proses algoritma K-Means menggunakan seleksi fitur information gain lebih cepat dibanding tanpa menggunakan seleksi fitur maka dapat dikatakan bahwa seleksi fitur informasi gain dapat meningkatkan waktu proses. Dari pengujian model yang diusulkan dengan dataset 300 dokumen teks berlabel positif dan 300 dokumen berlabel negatif pada masing-masing p%= 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, waktu proses yang dibutuhkan algoritma K-Means dengan seleksi fitur information gain untuk clustering dokumen teks dapat dilihat pada gambar 5.13. 50 Waktu p%=1 19,500 p%=0.9 p%=0.8 23,400 8,580 p%=0.7 41,040 p%=0.6 35,280 p%=0.5 24,480 p%=0.4 p%=0.3 36,960 18,480 p%=0.2 31,680 p%=0.1 38,940 Gambar 5. 27. Waktu proses K-Means untuk proses clustering Gambar 5.13 menunjukkan bahwa waktu proses pada p%=0.1 adalah 11 menit 59 menit 59 detik, kemudian waktu proses mengalami kenaikan sampai p%=0.3, sehingga p%=0.3 ini dikatakan paling cepat dibanding pada p% lainnya. Setelah itu mengalami penurunan waktu proses sangat besar sampai p%=0.9. Dari gambar diatas dapat di simpulkan bahwa semakin besar besar p%, maka semakin lama waktu yang dibutuhkan, tetapi tidak untuk p%=0.3, waktu yang dibutuhkan menurun yaitu 11.28%. 5.4 Analisa Precision dan Recall Algoritma K-Means menggunakan seleksi fitur Information Gain 300 dokumen Precision (P) adalah proporsi prediksi jumlah dokumen positif yang benar dan Recall adalah rasio proporsi jumlah dokumen positif yang diidentifikasikan dengan benar. Nilai dari Precision dan Recall dalam bentuk persen (%). Gambar 5.14 menggambarkan precision dan recall dari algoritma K-Means dengan menggunakan information gain. 51 90.00 80.00 70.00 60.00 50.00 40.00 30.00 20.00 10.00 0.00 p%= p%= p%= p%= p%= p%= p%= p%= p%= p%= 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Precision 84.9675.6262.8061.8260.5259.4058.8858.2962.1060.35 Recall 69.6761.0043.3345.3347.0046.3342.0041.0039.3345.67 Gambar 5. 28. Precision dan Recall K-Means dengan Information Gain. Pada Gambar 5.14 dapat dijelaskan bahwa precision dan recall pada masing-masing p%=0.1 lebih tinggi dibanding dengan p% lainnya, yaitu precision = 84.96% dan recall = 69.67% kemudian sama-sama mengalami penurunan cukup banyak pada p%=0.3 yaitu precision = 62.80% dan recall = 43.33%. Akan tetapi setelah penurunan pada p%=0.3 terjadi perbedaan dari keduanya, untuk precision mengalami penurunan sampai p%=0.8 setelah itu mengalami kenaikan kembali tetapi untuk recall setelah p%=0.3 mengalami kenaikan sampai p%=0.5, setelah ini mengalami penurunan hingga p%=0.9. Dari precision dan recall yang ada digambar 5.14 dapat dilihat ada perbedaan yang mencolok yaitu pada p%=0.9, untuk precision mengalami kenaikan tetapi di recall mengalami penurunan. 5.5 Analisis Accuracy, Precision dan Recall dengan menggunakan dataset movie review 700 dokumen dan 1000 dokumen Dengan menggunakan dataset 300 dokumen negatif dan 300 dokumen positif terbukti algoritma K-Means menggunakan seleksi fitur Information Gain lebih tinggi akurasinya dibanding tanpa menggunakan seleksi fitur Information Gain, maka untuk menguji lebih lanjut tentang akurasi K-Means untuk optimasi analisis sentiment movie review, didalam penelitian ini dataset yang digunakan dinaikkan lebih banyak lagi yaitu 700 dokumen negatif dan 700 dokumen positif, 1000 dokumen negatif dan 1000 dokumen positif. 52 Masing-masing dataset akan diuji dengan formula tanpa menggunakan seleksi fitur information Gain dan menggunakan seleksi Informatin Gain. 5.5.1 Akurasi 700 dokumen dan 1000 dokumen 80.00 70.00 60.00 50.00 40.00 30.00 20.00 10.00 0.00 p%= p%= p%= p%= p%= p%= p%= p%= p%= p%= 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Dataset 700 72.79 50.07 51.43 51.07 50.21 56.14 56.07 56.14 57.00 56.71 Dataset 1000 72.10 61.75 58.50 59.00 50.85 51.35 50.70 57.95 50.25 50.40 Gambar 5. 29. Grafik akurasi K-Means dengan information gain dataset 700 dan 1000 dokumen Hasil akurasi secara keseluruhan pada p%=0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1 masing-masing dengan dataset 700 dan 1000 adalah dapat dilihat pada gambar 5.15. Semula dengan p%=0.1 accuracy K-Means mengunakan seleksi fitur adalah 72.79% kemudian mengalami penurunan mulai p%=0.2, naik lagi pada p%=0.3, turun lagi hingga p%=0.5 setelah ini mengalami kenaikan hingga p%=0.9. Sedangkan untuk akurasi K-Means dengan seleksi fitur menggunakan dataset 1000 dokumen pada p%=0.1 akurasinya 72.10% kemudian mengalami penurunan hingga p%=0.3 selanjutnya naik lagi pada p%=0.4. Untuk akurasi dengan datase 1000 dokumen positif dan 1000 dokumen negatif akurasinya tidak dapat diprediksi dengan jelas kadang mengalami kenaikan dan penurunan. 53 Tanpa Seleksi Fitur IG Dokumen 700 (Negatif 1000 (Negatif dan Positif) dan Positif) Accuracy 56.71% Menggunakan Seleksi Fitur (p%=0.1) 700 (Negatif 1000 (Negatif dan Positif) dan Positif) 50.40% 72.79% 72.10% Tabel 5.1 Perbandingan akurasi K-Means tanpa dan menggunakan IG Setelah dilakukan pengujian algoritma K-Means tanpa seleksi fitur information gain dan menggunakan seleksi fitur information gain dengan menggunakan dataset masing-masing 700 dokumen dan 1000 dokumen, maka hasil perbandingan dapat dilihat pada tabel 5.1. Hasil dengan masing-masing menggunakan dataset berjumlah 700 dokumen tanpa menggunakan seleksi fitur akurasi K-Means adalah 56.71% dan dataset 1000 dokumen akurasi K-Means adalah 50.40%, tetapi setelah digunakan seleksi fitur information gain dengan p%=0.1 akurasi K-Means meningkat dua point lebih yaitu menjadi 72.79% untuk penggunaan dataset 700 dokumen dan 72.10% dengan menggunakan dataset 1000 dokumen. Apabila diamati dari akurasi pada penggunaan dataset 300 dokumen, 700 dokumen dan 1000 dokumen, semakin banyak dataset yang digunakan makan semakin berkurang akurasi K-Means, hal ini terjadi pada K-Means tanpa menggunakan seleksi fitur dan K-Means dengan menggunakan seleksi fitur. Tanpa Menggunakan Seleksi Fitur Dokumen Accuracy Menggunakan Seleksi Fitur (p%=0.1) 300 (Negatif & Positif) 700 (Negatif & Positif) 1000 (Negatif & Positif) 300 (Negatif & Positif) 700 (Negatif dan Positif) 1000 (Negatif & Positif) 57.83% 56.71% 50.40% 78.67% 72.79% 72.10% Tabel 5.2 Perbandingan akurasi K-Means tanpa dan menggunakan IG dataset 300, 700 dan 1000 Apabila digabung masing-masing akurasi dengan dataset 300 dokumen, 700 dokumen dan 1000 dokume, maka hasil dapat dilihat pada tabel 5.2, dimana akurasi semakin menurun apabilai semakin besar dataset yang digunakan, baik itu untuk KMeans tanpa menggunakan seleksi fitur dan yang menggunakan seleksi fitur. 54 5.5.2 Precision 700 dokumen dan 1000 dokumen 90 Prec.700 dok(%) 80 70 Prec.1000 dok(%) 60 50 40 30 20 10 0 Gambar 5.30. Grafik precision 700 dokumen dan 1000 dokumen Gambar 5.16 menjelaskan tentang precision dengan dataset 700 dokumen lebih tinggi dibanding dokumen 1000 yaitu untuk 700 dokumen 80.27 % dan 1000 dokumen 73.76%. Precision keduanya mengalami penurunan pada p%=0.2. Setelah p%=0.2 untuk dokumen 700 dokumen mengalami kenaikan kembali pada p%=0.6 setelahnya ada kenaikan dan penurunan yang tidak terlalu signifikan. Sedangkan untuk precision dataset 1000 dokumen setelah mengalami penurunan pada p%=0.2 kemudian mengalami kenaikan tidak terlalu siknifikan sampai pada p%=0.4, kemudian mengalami penurunan kembali pada p%=0.5, sampai p%=0.7 tidak ada kenaikan yang banyak, tetapi pada p%=0.8 mengalami kenaikan kembali yang cukup banyak yaitu 57.34%, setelah itu menurun kembali hingga p%=1. 55 5.5.3 Recall 700 dokumen dan 1000 dokumen 90.00 80.00 70.00 700 dok(%) 60.00 50.00 1000 dok(%) 40.00 30.00 20.00 10.00 0.00 Gambar 5. 31. Grafik recall 700 dokumen dan 1000 dokumen Gambar 5.17 menunjukkan bahwa recall menggunakan dataset 700 dokumen, recall tertinggi pada p%=0.2 yaitu 84.71 dan recall tertinggi dengan dataset 1000 dokumen pada p%=0.2 yaitu 71.40%. Melihat hasil recall ini maka dapat disimpulkan bahwa recall tertinggi dari keduanya pada p%=0.2. Dari gambar 5.17 dapat di jelaskan bahwa ada kondisi recall yang sangat mencolok, yaitu penurunan recall yang sangat signifikan pada p%=0.5 pada dataset 700 dokumen, sedangkan penurunan recall yang sangat signifikan untuk dataset 1000 dokumen adalah pada p%=0.9. 56 BAB 6 RENCANA TAHAPAN BERIKUTNYA 6.1 Rencana dan Jadual Selanjutnya a. Menyelesaikan pembuatan laporan yang diperkirakan akan selesai pada akhir oktober 2016. b. Pembuatan artikel ilmiah dan mempublikasi artikel ilmiah pada Seminar Nasional Masif II Tahun 2016 Universitas PGRI Semarang. c. Memasukan artikel ilmiah ke Jurnal Techno Com Universitas Dian Nuswantoro Semarang November 2016. d. Penggandaan Laporan yakni menggandakan laporan akhir untuk dikumpulkan di LPPM. e. Rencana digunakan sebagai bahan ajar. 57 BAB 7. KESIMPULAN DAN SARAN 7.1 Kesimpulan Kesimpulan yang bisa diperoleh dari penelitian ini adalah sebagai berikut : 1. Algoritma K-Means dengan menggunakan seleksi fitur Information Gain meningkatkan optimasi analisis sentimen movie review. 2. Algoritma K-Means tanpa menggunakan seleksi fitur dengan dataset 300 dokumen review negatif dan positif akurasi 57.83%, 700 dokumen (negatif & positif) akurasi 56.71%, dataset 1000 dokumen negatif dan positif akurasinya 50.40%. 3. Algoritma K-Means dengan menggunakan seleksi fitur Information Gain tingkat akurasi meningkat yaitu dengan dataset 300 dokumen negatif dan positif akurasinya 78.67%, dataset 700 dokumen negatif dan positif akurasinya 72.79%, dataset 1000 dokumen negatif positif akurasinya 72.10%. 4. Sesuai tabel 2 akurasi K-Means tanpa seleksi fitur dan menggunakan seleksi fitur akurasi mengalami penurunan apabila databaset bertambah besar. 7.2 Saran Saran yang akan diberikan terkait dengan penelitian ini adalah sebagai berikut : 1. Untuk mengetahui keakuratan dari metode/model yang digunakan dalam penelitian ini, disarankan untuk menggunakan dataset yang lainnya seperti dataset dari opini-opini publik yang ada di web atau dataset dalam bentuk dokumen bahasa inggris. 2. Untuk menguji kinerja model yang diusulkan peneliti, peneliti kedepan dapat menggunakan dataset yang lebih besar lagi. 58 DAFTAR PUSTAKA Abbasi, A., Chen , H., & Salem , A. (2008). Sentiment analysis in multiple languages : Feature selection for opinion clasification in web forums. ACM Transactions on Information Systems, 26(3), 1-34. Adityana, M. N. (2009). Penerapan Pohon Untuk Machine Learning. Makalah IF 2091 Strategi Algoritmik. Al-Mubaid, H., & Umair, S. A. (2006, September). A New Text Categorization Technique Using Distributional Clustering and Learning Logic. IEEE Transactions on Knowledge and Data Engineering, 18(9), 1156-1165 . Al-Subaihin, A. A., Al-Khalifa, H. S., & Al-Salman, A. S. (2011). A Proposed Sentiment Analysis Tool for Modern Arabic Using Human-Based Computing. iiWAS '11 Proceedings of the 13th International Conference on Information Integration and Webbased Applications and Services, (pp. 543-546). Chaovalit, P., & Zhou, L. (2005). Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches. Proceedings of the 38th Hawaii International Conference on System Sciences. IEEE. Chen, J., Huang, H., Tian, S., & Qu, Y. (2009). Feature selection for text classification with Naïve Bayes. In Expert Systems with Applications (pp. 5432-5435). Beijing, China: Elsevier Ltd. Christopher, C. Y., Wong, Y., & Chih-Ping, W. (2009). Classifying Web Review Opinions for Consumer Product Analysis. ICEC '09 Proceedings of the 11th International Conference on Electronic Commerce , (pp. 57-63). New York. Claster, W. B., Cooper, M., & Sallis, P. (2010). Thailand –Tourism and Conf ict. Modeling Sentiment from Twitter Tweets using Naïve Bayes and Unsupervised Artificial Neural Nets. CIMSIM '10 Proceedings of the 2010 Second International Conference on Computational Intelligence, Modelling and Simulation, (pp. 89-94). Francis, L., & Flynn, M. (2010). Text Mining Handbook. Spring. Gorunescu, F. (2011). Data Mining Concepts,Models and Techniques (Vol. 12). Verlag Berlin Heidelberg: Springer. Jain, A., Murty, M., & Flynn, P. (1999, September). Data Clustering: A Review. ACM Computing Surveys, 31. Jiawei, H., & Kamber, M. (2006). Data Mining: Concepts and Techniques 2nd. San Francisco: Morgan Kaufmann. 59 Keefe, T. O., & Koprinska, I. (2009, Desember 4). Feature Selection and Weighting Methods in Sentiment Analysis. Proceedings of the 14th Australasian Document Computing Symposium, 1-8. Kira, K., & Rendel, L. A. (1992). The Feature Selection Problem : Traditional Methods and a New Algoritmh. AAAI Press . Kucuktunc, O., & Bambazoglu, B. B. (2012, February). A Large-Scale Sentiment Analysis for Yahoo! Answers. Lee, L., & Pang, B. (2008). Opinion mining and sentiment analysis (Vol. Volume 2). Li, G., & Liu, F. (2010, Nov). A Clustering-based Approach on Sentiment Analysis. Intelligent Systems and Knowledge Engineering (ISKE), 2010 International Conference on, (pp. 331 - 337). Li, G., & Liu, F. (2010, Nov). A Clustering-based Approach on Sentiment Analysis. Intelligent Systems and Knowledge Engineering (ISKE), 2010 International Conference on, (pp. 331 - 337). Australia. linuxarna. ( 2012 , Desember ). Retrieved from http://linuxarna.net/berita-41-algoritmakmeans-clustering.html. Liu, B. (2010). (N. Indurkhya, & F. J. Damerau, Eds.) Sentiment Analysis and Subjectivity,Handbook of Natural Language Processing. Liu, T. a. (2003). An Evaluation on Feature Selection for Text Clustering. Proceedings of the Twentieth International Conference on Machine Learning. Washington DC. MacQueen. (1967). Some Methods For Classification And Analysis Of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability (pp. 281–297). University of California Press. O’Keefe, T., & Koprinska, I. (2009). Feature Selection and Weighting Methods in Sentiment Analysis. Proceedings of the 14th Australasian Document Computing. Sydney, Australia. Ohana, B., & Brendan, T. (2011, June). Supervised Learning Methods for Sentiment Classification with RapidMiner. RapidMiner Community Meeting And Conference, RCOMM, 1-8. Pang, B., Lee, L., & Shivakumar, V. (2002). Thumbs up? Sentiment Classification using Machine Learning Techniques. Reddy, S. R., Somayajulu, D. V., & Dani, A. R. (2010, Desember). Classification of Movie Reviews Using Complemented Naive Bayesian Classifier. International Journal of Intelligent Computing Research (IJICR), 1(4). 60 Somayajulu, Reddy, S. R., & Dani, A. (2010). Classification of Movie Reviews Using Complemented Naive Bayesian Classifier. International Journal of Intelligent Computing Research (IJICR), 1, 162-167. Stylios, G. a. (2010). Public Opinion Mining for Governmental Decisions. Electronic Journal of e-Government, 8(2), 203-214. Suanmali, L., Salim, N., & Binwahlan, M. S. (2008, Desember). Automatic Text Summarization Using Feature Based Fuzzy Extraction. Jurnal Teknologi Maklumat. Tan, S., & Zhang, J. (2007, Mei). An empirical study of sentiment analysis for chinese documents. Expert Systems with Applications: An International Journal, 34(4), 26222629 . Tan, Steinbach, & Kumar. (2004). Data Mining Cluster Analysis: Basic Concepts and Algorithms. In Introduction to Data Mining. Tata, S., & Patel M, J. (2007 , June ). Estimating the Selectivity of tf-idf based Cosine Similarity Predicates. ACM SIGMOD, 36(2), 7-12. Velmurugan, T., & Santhanam, T. (2010). Computational Complexity between K-Means and K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data Points. Journal of Computer Science 6, 363-368. Vidhya, K., & Aghila, G. (2010). A Survey of Naïve Bayes Machine Learning approach in Text Document Classification. International Journal of Computer Science and Information Security (IJCSIS), 7. Wajeed, M. A., & Adilakshmi, D. (2005 - 2009). Text Classification Using Machine Learning. Journal of Theoretical and Applied Information Technology. Williams, G. (2006). Data Mining Algorithms Cluster Analysis. Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining,Practical Machine Learning Tools and Techniques 3rd Edition. Burlington: Morgan Kaufmann. Xu, R., & Wunsch, D. C. (2009). Clustering. (D. B. Fogel, Ed.) IEEE Computational Intelligence Society. Yates, R. B., & Neto, B. R. (1999). Modern Information Retrieval . 61 LAMPIRAN-LAMPIRAN Lampiran 1 Draft Makalah di yang dikirim ke Seminar Nasional Masif II Tahun 2016 Penerapan Algoritma K-Means Dengan Seleksi Fitur Information Gain Untuk Optimasi Analisis Sentimen Movie Review Setyo Budi, M.Kom.1, Dwiyono Arifianto, S.Kom.2 Ilmu Komputer, Universitas Dian Nuswantoro Semarang email: [email protected] 2Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Semarang email: [email protected] 1Fakultas Abstrak - Keberadaan website memberikan kemudahan dan kebebasan bagi manusia dalam menyampaikan informasi dan pendapatnya. Informasi dan pendapat kemudian tersimpan didalam kumpulan dokumen teks. Dalam kurun waktu yang lama kumpulan dokumen teks bertambah besar, sehingga ada pemikiran untuk melakukan penggalian dokumen teks. Analisis sentimen merupakan salah satu metode penggalian dokumen teks, dimana terdapat proses memahami, mengekstrak, dan mengolah informasi tekstual secara otomatis. Banyak penelitian analisis sentimen menggunakan algoritma yang berbeda baik yang supervised learning atau unsupervised learning. Hal ini disebabkan karena perbedaan akurasinya dan kecepatannya. Dokumen teks yang berasal dari website masih terdapat atribut yang tidak relevan yang digunakan pada dataset, sehingga dibutuhkan seleksi fitur yang dapat digunakan untuk mengurangi dataset yang tidak relevan. Seleksi fitur yang digunakan di penelitian ini adalah Information Gain (IG). Hasil pengujian algoritma K-Means tanpa seleksi fitur Information Gain dengan dataset 300 dokumen negatif dan positif akurasinya masih rendah yaitu 57.83%, setelah menggunakan seleksi fitur Information Gain akurasinya naik menjadi 78.67%. Pengujian dengan dataset 700 dokumen negatif dan positif tanpa seleksi fitur akurasinya 56.71%, setelah menggunakan seleksi fitur menjadi 72.79%, selanjutnya untuk dataset 1000 dokumen negatif dan positif akurasi K-Means tanpa seleksi fitur akurasinya 50.40%, setelah menggunakan seleksi fitur akurasinya 72.15%. Sehingga dengan model yang peneliti usulkan, algoritma K-Means menggunakan seleksi fitur Information Gain dapat meningkatkan optimasi analisis sentimen movie review. . Kata Kunci : Analisis Sentimen, K-Means, Information Gain I. PENDAHULUAN Saat ini, teknik yang berkembang untuk menganalisis kumpulan dokumen adalah analisis sentimen. Ada dua arah penelitian dalam analisis sentimen, yang pertama adalah untuk mengklasifikasikan polaritas suatu teks yang diberikan, apakah yang diungkapkan merupakan opini positif, negatif atau netral, penelitian ini sebelumnya dipelopori oleh Pang, et. al, 2000 [2]. Arah penelitian yang kedua adalah identifikasi subjektivitas atau objektifitas, penelitian ini mengklasifikasikan sebuah teks kedalam satu dari dua kelas yaitu tujuan atau subyektif. Contoh penelitian yang berhubungan dengan analisis sentimen antara lain menganalisa rating movie review untuk mengetahui tingkat pendapatan dari pemutaran sebuah film [2]. Review movie dapat dimanfaatkan oleh penikmat film untuk memutuskan film apa yang akan ditonton, bagi produser film dapat memanfaatkan opini untuk mengetahui penilaian yang diberikan oleh para penikmat film tentang film-film yang paling banyak dikritik. Selain review movie, review sebuah produk dapat membantu perusahaan untuk mempromosikan produk mereka. Website memberikan kemudahan dan kebebasan bagi pengguna untuk menyampaikan informasi dan pendapatnya, sehingga informasi dan pendapat selalu bertambah setiap saat. Informasi dan pendapat akan tersimpan didalam kumpulan dokumen teks. Karena masih dalam bentuk dokumen teks maka sulit untuk menemukan kembali informasi yang sesuai antara satu dokumen teks dengan yang lainnya. Dalam kurun waktu yang lama, kumpulan dokumen teks semakin bertambah besar. Penggalian dokumen teks dari website yang berisi komentar, pendapat, feedback, kritik dan review merupakan hal penting, karena apabila dikelola dengan baik dan benar maka akan memberikan informasi yang bermanfaat untuk membantu individu atau organisasi didalam pengambilan sebuah keputusan [1]. Namun kumpulan dokumen teks dari website masih dinyatakan didalam bahasa alami atau natural yaitu banyak atribut yang digunakan pada dataset, sehingga dibutuhkan seleksi fitur untuk mengurangi dataset yang tidak relevan. Seleksi fitur yang digunakan di penelitian ini adalah Information Gain (IG). 62 Dalam perkembangannya, banyak penelitian analisis sentimen dengan menggunakan metode atau algoritma yang berbeda, hal ini disebabkan karena masing-masing metode atau algoritma mempunyai perbedaan, baik tingkat akurasi maupun tingkat kecepatannya didalam melakukan proses clustering atau klasifikasi sebuah dokumen. Pada penelitian sebelumnya ada beberapa teknik supervised learning seperti algoritma Support Vector Machine (SVM) Stylos [3], Abbasi, et al [4], O’Keefe & Koprinska [5], Reddy, et al. [6] dan algoritma Naive Bayes (NB), Stylios, George at al. [3], Keefe & Koprinska, 2009 [7]. Sedangkan teknik unsupervised learning dengan metode clustering, seperti penelitian yang dilakukan oleh Gang Li dan Fei Liu [8] yaitu suatu metode didalam mengelompokkan dokumen dengan menggunakan persamaan topik yang dimiliki oleh masing-masing dokumen, dengan tujuan untuk memudahkan pengguna dalam menemukan dokumen yang diinginkan. Berdasarkan penelitian diatas, ada beberapa metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui akurasi algoritma K-Means dengan seleksi fitur Information Gain untuk meningkatkan optimasi analisis sentimen movie review, serta bagaimana kinerja algoritma tersebut setelah menggunakan seleksi fitur Information Gain. Maka didalam penelitian ini mengusulkan model penerapan algoritma K-Means dengan seleksi fitur Information Gain (IG) untuk optimasi analisis sentimen movie review sehingga diketahui kinerja dan akurasinya. (IG) untuk optimasi analisis sentimen movie review sehingga diketahui kinerja dan akurasinya. 2. Rumusan Masalah Berdasarkan literature review yang dilakukan, didapat permasalahan yaitu banyak metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui akurasi algoritma K-Means dengan seleksi fitur Information Gain untuk meningkatkan optimasi analisis sentimen movie review. 3. Pengumpulan Data Dataset yang digunakan adalah dataset movie review yang diambil dari www.cs.cornell.edu/People/pabo/movie-reviewdata/. Movie review sudah dikelompokkan kedalam 1000 kelompok dokumen review negatif dan 1000 kelompok dokumen review negatif. Dataset ini sudah populer karena pernah digunakan oleh Pang et al. [2], Chaovalit dan Zhou [9], Keefe dan Koprinska [7], dan sudah siap dijadikan dataset untuk penelitian. Dataset tersebut dikumpulkan dari IMDb (Internet Movie Database) Chaovalit & Zhou, 2005 [9]. Di penelitian ini di gunakan dataset masing-masing 300,700 dan 1000 dokumen review negatif dan positif. 4. Model yang diusulkan Model yang Gambar 1. diusulkan Dataset Movie Review adalah seperti Preprocessing Case folding, Tokenizing, Stopword, Stemming II. METODE PENELITIAN Seleksi Fitur Information Gain Permasalahan didalam penelitian ini adalah bagaimana model penerapan algoritma KMeans dengan seleksi fitur Information Gain (IG) untuk optimasi analisis sentimen movie review serta bagaimana kinerja dan akurasinya. Tools yang digunakan untuk eksperimen penelitian ini adalah RapidMiner versi 5. Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan tahapan penelitian seperti dalam skema penelitian sebagai berikut: Clustering Algoritma K-Means Pembobotan TF-IDF Evaluasi Accuracy, Precision, Recall Gambar 1. Model yang diusulkan 1. Dataset Movie Review Dataset yang digunakan dalam penelitian ini terdiri dari 300, 700 dan 1000 dokumen masingmasing dokumen review negatif dan positif. Satu dokumen tersimpan dalam satu file yang berektensi txt. 1. Pendahuluan dan Literatur Metode dan algoritma yang digunakan untuk analisis sentimen dokumen teks berbeda antara satu lainnya, tujuannya adalah untuk mendapatkan algoritma atau metode yang paling akurat untuk teknik clustering. Didalam penelitian ini diusulkan model untuk penerapan algoritma K-Means dengan seleksi fitur Information Gain 2. Preprocessing Tahapan preprocessing yang digunakan dalam penelitian ini adalah Tranform Cases/Case folding, Tokenizing, Stopword, Stemming (porter). 63 1. Memilih k dokumen untuk dijadikan centroid (titik pusat cluster) awal secara random; 2. Hitung jarak setiap dokumen ke masingmasing centroid menggunakan persamaan cosines similarity kemudian jadikan satu cluster untuk tiap-tiap dokumen yang memiliki jarak terdekat dengan centroid; 3. Tentukan centroid baru dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama; 4. Kembali ke langkah 2 jika posisi centroid baru dan centroid lama tidak sama; Gambar 2. Proses Preprocessing 3. Pembobotan TF-IDF TF-IDF (Term Frequency - Inverse Document Frequency) adalah salah satu algoritma yang digunakan untuk menghitung skor atau pembobotan term atau kata didalam suatu dokumen [10]. TF (Term frequency) adalah banyaknya kemunculan suatu term dalam dokumen. Pembobotan TF dilakukan dengan menghitung jumlah kemunculan kata dalam satu dokumen, IDF (inverse document frequency) adalah perhitungan logaritma antara pembagian jumlah total dokumen dengan cacah dokumen yang mengandung term, dan TF-IDF adalah perkalian antara TF dengan IDF. Semakin besar bobot TF-IDF pada suatu term, maka semakin penting term tersebut untuk bisa digunakan pada tahapan klasifikasi dokumen. 6. Evaluasi Evaluasi dilakukan dengan mengamati kinerja algoritma K-Means dengan menggunakan seleksi fitur Information Gain untuk optimasi analisis sentimen movie review. Dalam penelitian ini digunakan Confusion Matrix untuk mengukur kinerja clustering. III. HASIL DAN PEMBAHASAN (1) Capaian yang di harapkan dari penelitian ini adalah bagaimana menerapkan algoritma K-Means dengan seleksi fitur Information Gain untuk optimasi analisis sentimen movie review. Terdapat dua skenario pengujian, yang pertama ialah pengujian algoritma K-Means tanpa seleksi fitur Information Gain untuk mengetahui akurasi K-Means tanpa seleksi fitur, skenario kedua adalah algoritma K-Means menggunakan seleksi fitur Information Gain bertujuan untuk mengetahui akurasi K-Means menggunakan seleksi fitur. Dibawah ini dijelaskan tentang langkah-langkah pada masing-masing skenario. Dalam hal ini pi adalah probabilitas sebuah tuple pada D masuk ke kelas Ci dan diestimasi dengan |Ci,D|/|D|. Fungsi log diambil berbasis 2 karena informasi dikodekan bit. 1. Skenario Pertama : Penerapan algoritma K-Means tanpa seleksi fitur Information Gain 4. Seleksi Fitur Information Gain Feature Selection adalah salah teknik terpenting dan sering digunakan dalam preprocessing data mining [11], khususnya untuk knowledge discovery maupun discovery scince. Seleksi Fitur yang terbukti sangat efektif antara lain adalah Information Gain (IG) dan Chi Square (CHI) [12] . Maka didalam penelitian ini seleksi fitur yang digunakan adalah Information Gain (IG), disajikan persamaan 1. Info(D)=-∑𝑚 𝑖=1 𝑝𝑖 log2 pi Proses pembacaan dataset dokumen ini berada di operator Proces Documents From Files sekaligus terjadi proses Preprocessing dan pembobotan TF-IDF, disajikan Gambar 3. 5. Algoritma K-Means Metode K-Means diperkenalkan oleh James B Mac Queen pada tahun 1967 dalam Proceding of the 5th Berkeley Symposium on Mathematical Statistics and Probability [13]. K-Means adalah salah satu teknik unsupervised learning yang paling sederhana dan baik untuk memecahkan masalah clustering [14]. Berikut adalah pseudocode dari algoritma K-Means. Algoritma K-Means Clustering Input : Koleksi Dokumen D={d1, d2, d3, … dn}; Jumlah cluster (k) yang akan dibentuk; Output : k cluster; Proses : Gambar 3. Process view tanpa seleksi fitur Proses preprocessing juga berlaku untuk penerapan algoritma K-Means menggunakan seleksi fitur. 64 Kemudian dilanjutkan operator Clustering dengan K-Means, selanjutnya Map Clustering on labels kemudian operator Performance. Setelah ditemukan formula algoritma K-Means tanpa seleksi fitur maka dilakukan pengujian model. Gambar 4. Akurasi K-Means tanpa seleksi fitur Information Gain Hasilnya terlihat pada Gambar 4 dimana akurasi K-Means tanpa seleksi fitur Information Gain(IG) menggunakan dataset 300 dokumen review negatif dan 300 dokumen review positif adalah 57.83%, precision =60.35% dan recall =45.67%. Hasil akurasi K-Means tanpa seleksi fitur untuk analisis sentimen movie review ini masih rendah, akurasi ini jauh lebih kecil di banding hasil penelitian Gang Li dan Fei Liu [8]. Dengan model yang sama maka pengujian selanjutnya adalah dataset meningkatkan dataset masingmasing menjadi 700 dokumen dan 1000 dokumen. Hasil pengujian dapat di lihat pada tabel 1. untuk membuktikan kalau seleksi fitur Information Gain dapat meningkatkan akurasi. Hasil pengujian model disajikan pada Gambar 6, hasil tersebut menunjukkan bahwa tingkat akurasi algoritma K-Means menggunakan seleksi fitur mengalami peningkatan menjadi 78.67%, ini sesuai keunggulan dari Information Gain yaitu dapat menaikkan akurasi. Hasil ini lebih baik dari hasil penelitian sebelumnya. Tabel 1. Akurasi K-Means tanpa seleksi fitur dataset masing-masing 700 dan 1000 dokumen Dokumen Accuracy Tanpa Seleksi Fitur IG 700 (neg & pos) 1000 (neg & pos) 56.71% Gambar 5. Process View menggunakan seleksi Fitur Karena dengan menggunakan seleksi fitur tingkat akurasi K-Means naik, maka penelitian ini akan menerapkan algoritma K-Means dengan menggunakan seleksi fitur Infomation Gain, hal ini dimaksudkan untuk mengetahui tingkat akurasi K-Means yang paling tinggi pada masingmasing p%. 50.40% Dijelaskan pada tabel 1 bahwa akurasi K-Means tanpa seleksi fitur dengan dataset 700 dokumen akurasinya 67.71 % dan dataset 1000 dokumen akurasinya 50.40%. 2. Skenario Kedua : Penerapan algoritma K-Means menggunakan seleksi fitur Information Gain Proses pengujian model penerapan algoritma K-Means menggunakan seleksi fitur diawali pembacaan dataset, preprocessing dan pembobotan TF-IDF dilanjutkan formula seleksi fitur Information Gain(IG), kemudian proses Select by Weight selanjutnya Clustering kemudian Map Clustering on labels dan terakhir menghitung Performance algoritma K-Means, formula ini dapat dilihat pada gambar 5. Sebelum melakukan pengujian secara keseluruhan dengan p% =0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, model diuji dengan seleksi fitur Information Gain (IG) dengan p%=0.1 terlebih dahulu, hal ini bertujuan a. Analisis Akurasi K-Means menggunakan seleksi fitur 300 dokumen negatif dan positif. Setelah diketahui hasil pengujian model menggunakan seleksi fitur dengan p%=0.1 akurasi K-Means meningkat, maka pengujian selanjutnya adalah menguji p% secara keseluruhan dengan p%=0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, dengan menggunakan dataset 600 dokumen yang terbagi menjadi dua kategori yaitu 300 dokumen review negatif dan 300 review positif. Hasil akurasi K-Means dengan seleksi 65 fitur pada masing-masing p% dapat dilihat pada Gambar 7 dengan penjelasan bahwa akurasi tertinggi algoritma K-Means dengan seleksi fitur Gambar 6. akurasi K-Means menggunakan seleksi fitur yaitu 78.67%, kemudian mengalami penurunan hingga p%=0.2. Akurasi mulai menurun signifikan pada p%=0.3 sampai dengan p%=0.8 dengan akurasi 55.83%, akurasi ini dapat dikatakan akurasi paling rendah dari semua p%, tetapi setelah p%=0.8 mengalami kenaikan lagi. Ada pola yang unik dari akurasi K-Means dengan seleksi fitur Information Gain yaitu semakin besar p% semakin menurun akurasi K-Means yaitu sampai p%=0.8, tetapi mengalami kenaikan lagi mulai pada p%=0.9. Terjadinya penurunan pada setiap p% dinaikkan dapat digunakan untuk penelitian selanjutnya apa yang menyebabkan terjadinya penurunan tersebut. yang dibutuhkan algoritma K-Means dengan seleksi fitur Information Gain dapat dilihat pada Gambar 8. Gambar tersebut nunjukkan bahwa waktu proses yang paling lama pada p%=0.7 adalah 41.041 detik, dan yang paling cepat adalah pada p%=0.8 yaitu hanya 8.580 detik. Waktu p%=1 p%=0.9 p%=0.8 p%=0.7 p%=0.6 p%=0.5 p%=0.4 p%=0.3 p%=0.2 p%=0.1 80.00 70.00 60.00 19,500 23,400 8,580 41,040 35,280 24,480 36,960 18,480 31,680 38,940 50.00 40.00 Gambar 8. Waktu proses K-Means c. Analisa Precision dan Recall KMeans menggunakan seleksi fitur Information Gain 300 dokumen negatif dan positif. p%=1 p%=0.9 p%=0.8 p%=0.7 p%=0.5 p%=0.6 p%=0.4 p%=0.2 p%=0.3 p%=0.1 30.00 20.00 10.00 0.00 Precision (P) adalah proporsi prediksi jumlah dokumen positif yang benar dan Recall adalah rasio proporsi jumlah dokumen positif yang diidentifikasikan dengan benar. Nilai dari Precision dan Recall dalam bentuk persen (%) disajikan pada Gambar 9. p%= p%= p%= p%= p%= p%= p%= p%= p%= p%= 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Accuracy(%) 78.6770.6758.8358.6758.1757.3356.3355.8357.6757.83 Gambar 7. Akurasi K-Means menggunakan Information Gain. 90.00 80.00 70.00 60.00 50.00 40.00 30.00 20.00 10.00 0.00 b. Analisis Waktu proses Clustering 300 dokumen review negatif dan positif Untuk melengkapi apakah berkinerja baik atau tidak sebuah algoritma maka dapat dilihat dari waktu proses yang ditempuh. Dari pengujian model yang diusulkan dengan dataset 300 dokumen review negatif dan 300 dokumen review positif pada masing-masing p%= 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1, waktu proses p%= p%= p%= p%= p%= p%= p%= p%= p%= p%= 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Precision 84.96 75.62 62.80 61.82 60.52 59.40 58.88 58.29 62.10 60.35 Recall 66 69.67 61.00 43.33 45.33 47.00 46.33 42.00 41.00 39.33 45.67 Gambar 9. Precision dan Recall menggunakan seleksi fitur dataset 300 dokumen negatif dan positif . Gambar 9 menjelaskan bahwa precision tertinggi pada p%=0.1 yaitu 84.96% kemudian recall tertinggi pada p%=0.1 yaitu 69.67%. Tabel 2. Akurasi algoritma K-Means tanpa seleksi fitur dan menggunakan seleksi fitur Dokumen Tanpa Seleksi Fitur 700 (Neg 1000 (Neg dan Pos) dan Pos) 56.71% 50.40% Menggunakan Seleksi Fitur (p%=0.1) 300 (Neg 700 (Neg 1000 (Neg dan Pos) dan Pos) dan Pos) 78.67% 72.79% 72.10% Accuracy 300 (Neg dan Pos) 57.83% Precision 60.35% 62.05% 50.30% 84.96% 80.27 % 73.76% Recall 45.67% 34.57% 67.20% 69.67% 60.43% 68.60% Dari precision dan recall yang ada digambar 9 dapat dilihat ada perbedaan yang mencolok yaitu pada p%=0.9, untuk precision mengalami kenaikan tetapi di recall mengalami penurunan. semakin besar dataset yang digunakan semakin menurun akurasi K-Means. e. Hasil Precision dokumen d. Analisis akurasi K-Means dataset 700 dan 1000 dokumen Precision dengan dataset 700 dan 1000 dokumen dapat dilihat pada Gambar 10. Ada persamaan precision antara dataset 700 dan 1000 dokumen yaitu precision tertinggi pada p%=0.1 dan mengalami kenaikan kembali tetapi tidak melebihi p%=0.1. Untuk mengetahui lebih lanjut tentang akurasi k-means dengan seleksi fitur maka didalam penelitian ini dataset yang akan diuji ditambah menjadi masing-masing 700 dan 1000 dokumen review negatif dan positif. Hasil pengujian disajikan pada Gambar 10. Prec.70 0 dok(%) 90 80.00 80 70.00 70 Prec.10 00 dok(%) 60 60.00 50 50.00 40 40.00 30 30.00 20 20.00 10 Dataset 700 72.7950.0751.4351.0750.2156.1456.0756.1457.0056.71 p%=1 p%=0.9 p%=0.8 p%=0.7 p%=0.6 p%=0.5 p%=0.4 p%=0.3 p%=0.1 p%= p%= p%= p%= p%= p%= p%= p%= p%= p%= 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 p%=0.2 0 10.00 0.00 700 dan 1000 Gambar 10. Grafik precision 700 dan 1000 dokumen negatif dan positif. Dataset 1000 72.1061.7558.5059.0050.8551.3550.7057.9550.2550.40 Gambar 10. Grafik akurasi K-Means dengan seleksi fitur dataset masing-masing 700 dan 1000 dokumen. f. Hasil Recall 700 dan 1000 dokumen Untuk recall hasil terbaik untuk kedua dataset pada p%=0.2, setelah itu mengalami penurunan. Ada persamaan hasil recall antara dataset 700 dan 1000 yaitu recall tertinggi pada pada p%=0.2 dan mengalami kenaikan kembali tetapi tidak melebihi p%=0.1. Hasil akurasi secara keseluruhan pada p%=0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9 dan 1 masingmasing dengan dataset 700 dan 1000 adalah dapat dilihat pada gambar 10. Akurasi tertinggi untuk dataset 700 dokumen berada pada p%=0.1 sedangkan untuk dataset 1000 dokumen berada pada p%=0.1. Untuk perbandingan akurasi tanpa seleksi fitur dan menggunakan seleksi fitur dengan dataset 300, 700 dan 1000 dokumen dapat dilihat pada tabel 2. Dari tabel 2 dapat disimpulkan bahwa 67 90.00 80.00 70.00 60.00 50.00 40.00 30.00 20.00 10.00 0.00 [3] G. a. a. Stylios, "Public Opinion Mining for Governmental Decisions," Electronic Journal of e-Government, vol. 8, no. 2, pp. 203-214, 2010. [4] A. Abbasi, H. Chen and A. Salem , "Sentiment analysis in multiple languages : Feature selection for opinion clasification in web forums," ACM Transactions on Information Systems, vol. 26, no. 3, pp. 1-34, 2008. [5] T. O’Keefe and I. Koprinska, "Feature Selection and Weighting Methods in Sentiment Analysis," in Proceedings of the 14th Australasian Document Computing, Sydney, Australia, 2009. [6] S. S. R. Reddy and A. Dani, "Classification of Movie Reviews Using Complemented Naive Bayesian Classifier," International Journal of Intelligent Computing Research (IJICR), vol. 1, pp. 162-167, 2010. [7] T. O. Keefe and I. Koprinska, "Feature Selection and Weighting Methods in Sentiment Analysis," Proceedings of the 14th Australasian Document Computing Symposium, pp. 1-8, 4 Desember 2009. [8] G. Li and F. Liu, "A Clustering-based Approach on Sentiment Analysis," in Intelligent Systems and Knowledge Engineering (ISKE), 2010 International Conference on, 2010. [9] P. Chaovalit and L. Zhou, "Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches," in Proceedings of the 38th Hawaii International Conference on System Sciences, 2005. [10] R. B. Yates and B. R. Neto, "Modern Information Retrieval," 1999. [11] K. Kira and L. A. Rendel, "The Feature Selection Problem : Traditional Methods and a New Algoritmh," 1992. [12] T. a. a. Liu, "An Evaluation on Feature Selection for Text Clustering," in Proceedings of the Twentieth International Conference on Machine Learning, Washington DC, 2003. [13] MacQueen, "Some Methods For Classification And Analysis Of Multivariate Observations," in Proceedings of 5th Berkeley Symposium 700 dok(%) p%=0.1 p%=0.2 p%=0.3 p%=0.4 p%=0.5 p%=0.6 p%=0.7 p%=0.8 p%=0.9 p%=1 1000 dok(%) Gambar 11. Grafik recall 700 dan 1000 dokumen IV. KESIMPULAN 5. Algoritma K-Means dengan menggunakan seleksi fitur Information Gain meningkatkan optimasi analisis sentimen movie review. 6. Algoritma K-Means tanpa menggunakan seleksi fitur dengan dataset 300 dokumen review negatif dan positif akurasi 57.83%, 700 dokumen (negatif & positif) akurasi 56.71%, dataset 1000 dokumen negatif dan positif akurasinya 50.40%. 7. Algoritma K-Means dengan menggunakan seleksi fitur Information Gain tingkat akurasi meningkat yaitu dengan dataset 300 dokumen negatif dan positif akurasinya 78.67%, dataset 700 dokumen negatif dan positif akurasinya 72.79%, dataset 1000 dokumen negatif positif akurasinya 72.10%. 8. Sesuai tabel 2 akurasi K-Means tanpa seleksi fitur dan menggunakan seleksi fitur akurasi mengalami penurunan apabila databaset bertambah besar. V. REKOMENDASI Untuk lebih mengetahui akurasi K-Means dengan seleksi fitur Information Gain dapat menggunakan dataset yang lebih besar lagi atau dataset lainnya seperti dataset dari opini-opini publik yang ada di web atau dataset dalam bentuk dokumen bahasa indonesia. DAFTAR PUSTAKA [1] G. Li and F. Liu, "A Clustering-based Approach on Sentiment Analysis," in Intelligent Systems and Knowledge Engineering (ISKE), 2010 International Conference on, Australia, 2010. [2] B. Pang, L. Lee and V. Shivakumar, "Thumbs up? Sentiment Classification using Machine Learning Techniques," 2002. 68 on Mathematical Statistics and Probability, 1967. [14] T. Velmurugan and T. Santhanam, "Computational Complexity between KMeans and K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data Points," Journal of Computer Science 6, pp. 363-368, 2010. 69 Lampiran 2 . Pendaftaran Makalah di Seminar Nasional Masif II Tahun 2016 3 September 2016 70 Lampiran 3 : Contoh dokumen Movie Review berkategori positif, nama file cv000_29590.txt films adapted from comic books have had plenty of success , whether they're about superheroes ( batman , superman , spawn ) , or geared toward kids ( casper ) or the arthouse crowd ( ghost world ) , but there's never really been a comic book like from hell before . for starters , it was created by alan moore ( and eddie campbell ) , who brought the medium to a whole new level in the mid '80s with a 12-part series called the watchmen . to say moore and campbell thoroughly researched the subject of jack the ripper would be like saying michael jackson is starting to look a little odd . the book ( or " graphic novel , " if you will ) is over 500 pages long and includes nearly 30 more that consist of nothing but footnotes . in other words , don't dismiss this film because of its source . if you can get past the whole comic book thing , you might find another stumbling block in from hell's directors , albert and allen hughes . getting the hughes brothers to direct this seems almost as ludicrous as casting carrot top in , well , anything , but riddle me this : who better to direct a film that's set in the ghetto and features really violent street crime than the mad geniuses behind menace ii society ? the ghetto in question is , of course , whitechapel in 1888 london's east end . it's a filthy , sooty place where the whores ( called " unfortunates " ) are starting to get a little nervous about this mysterious psychopath who has been carving through their profession with surgical precision . when the first stiff turns up , copper peter godley ( robbie coltrane , the world is not enough ) calls in inspector frederick abberline ( johnny depp , blow ) to crack the case . abberline , a widower , has prophetic dreams he unsuccessfully tries to quell with copious amounts of absinthe and opium . upon arriving in whitechapel , he befriends an unfortunate named mary kelly ( heather graham , say it isn't so ) and proceeds to investigate the horribly gruesome crimes that even the police surgeon can't stomach . i don't think anyone needs to be briefed on jack the ripper , so i won't go into the particulars here , other than to say moore and campbell have a unique and interesting theory about both the identity of the killer and the reasons he chooses to slay . in the comic , they don't bother cloaking the identity of the ripper , but screenwriters terry hayes ( vertical limit ) and rafael yglesias ( les mis ? rables ) do a good job of keeping him hidden from viewers until the very end . it's funny to watch the locals blindly point the finger 71 of blame at jews and indians because , after all , an englishman could never be capable of committing such ghastly acts . and from hell's ending had me whistling the stonecutters song from the simpsons for days ( " who holds back the electric car/who made steve guttenberg a star ? " ) . don't worry - it'll all make sense when you see it . now onto from hell's appearance : it's certainly dark and bleak enough , and it's surprising to see how much more it looks like a tim burton film than planet of the apes did ( at times , it seems like sleepy hollow 2 ) . the print i saw wasn't completely finished ( both color and music had not been finalized , so no comments about marilyn manson ) , but cinematographer peter deming ( don't say a word ) ably captures the dreariness of victorian-era london and helped make the flashy killing scenes remind me of the crazy flashbacks in twin peaks , even though the violence in the film pales in comparison to that in the black-and-white comic . oscar winner martin childs' ( shakespeare in love ) production design turns the original prague surroundings into one creepy place . even the acting in from hell is solid , with the dreamy depp turning in a typically strong performance and deftly handling a british accent . ians holm ( joe gould's secret ) and richardson ( 102 dalmatians ) log in great supporting roles , but the big surprise here is graham . i cringed the first time she opened her mouth , imagining her attempt at an irish accent , but it actually wasn't half bad . the film , however , is all good . : 00 - r for strong violence/gore , sexuality , language and drug content 72 Lampiran 4 : Contoh dokumen Movie Review berkategori positif, nama file nama file cv000_29416.txt b. Dokumen Movie Review berkategori negative plot : two teen couples go to a church party , drink and then drive . they get into an accident . one of the guys dies , but his girlfriend continues to see him in her life , and has nightmares . what's the deal ? watch the movie and " sorta " find out . . . critique : a mind-fuck movie for the teen generation that touches on a very cool idea , but presents it in a very bad package . which is what makes this review an even harder one to write , since i generally applaud films which attempt to break the mold , mess with your head and such ( lost highway & memento ) , but there are good and bad ways of making all types of films , and these folks just didn't snag this one correctly . they seem to have taken this pretty neat concept , but executed it terribly . so what are the problems with the movie ? well , its main problem is that it's simply too jumbled . it starts off " normal " but then downshifts into this " fantasy " world in which you , as an audience member , have no idea what's going on . there are dreams , there are characters coming back from the dead , there are others who look like the dead , there are strange apparitions , there are disappearances , there are a looooot of chase scenes , there are tons of weird things that happen , and most of it is simply not explained . now i personally don't mind trying to unravel a film every now and then , but when all it does is give me the same clue over and over again , i get kind of fed up after a while , which is this film's biggest problem . it's obviously got this big secret to hide , but it seems to want to hide it completely until its final five minutes . and do they make things entertaining , thrilling or even engaging , in the meantime ? not really . the sad part is that the arrow and i both dig on flicks like this , so we actually figured most of it out by the half-way point , so all of the strangeness after that did start to make a little bit of sense , but it still didn't the make the film all that more entertaining . i guess the bottom line with movies like this is that you should always make sure that the audience is " into it " even before they are given the secret password to enter your world of understanding . 73 i mean , showing melissa sagemiller running away from visions for about 20 minutes throughout the movie is just plain lazy ! ! okay , we get it . . . there are people chasing her and we don't know who they are . do we really need to see it over and over again ? how about giving us different scenes offering further insight into all of the strangeness going down in the movie ? apparently , the studio took this film away from its director and chopped it up themselves , and it shows . there might've been a pretty decent teen mind-fuck movie in here somewhere , but i guess " the suits " decided that turning it into a music video with little edge , would make more sense . the actors are pretty good for the most part , although wes bentley just seemed to be playing the exact same character that he did in american beauty , only in a new neighborhood . but my biggest kudos go out to sagemiller , who holds her own throughout the entire film , and actually has you feeling her character's unraveling . overall , the film doesn't stick because it doesn't entertain , it's confusing , it rarely excites and it feels pretty redundant for most of its runtime , despite a pretty cool ending and explanation to all of the craziness that came before it . oh , and by the way , this is not a horror or teen slasher flick . . . it's just packaged to look that way because someone is apparently assuming that the genre is still hot with the kids . it also wrapped production two years ago and has been sitting on the shelves ever since . whatever . . . skip it ! where's joblo coming from ? a nightmare of elm street 3 ( 7/10 ) - blair witch 2 ( 7/10 ) - the crow ( 9/10 ) - the crow : salvation ( 4/10 ) - lost highway ( 10/10 ) memento ( 10/10 ) - the others ( 9/10 ) - stir of echoes ( 8/10 ) 74 Lampiran 5 : Anggaran Perubahan Anggaran yang dibutuhkan selama penelitian adalah : No Jenis Pengeluaran Biaya yang Diusulkan 1 Honorarium Rp. 2.397.000 2 Bahan habis pakai dan peralatan Rp. 6.403.000 3 Perjalanan Rp. 1.000.000 3 Lain-lain Rp. 1.800.000 Jumlah Rp. 11.600.000 1. Hononarium Honor Ketua Anggota Honor/Jam (Rp) 15.000 11.000 Waktu (Jam/minggu) 4 3 Minggu 25 23 Subtotal (Rp) Tahun Ke 1 1.500.000 897.000 2.397.000 9. Pembelian Bahan Habis Pakai Material ATK fotocopy Penjilidan laporan Internet (pulsa) Cartridge 10. Justifikasi Pembelian administrasi Penggandaan Laporan administrasi administrasi administrasi Kuantitas 6 6 Tahun Ke 1 750.000 350.000 350.000 303.000 600.000 200.000 Subtotal (Rp) 303.000 600.000 1.400.000 3.403.000 Perjalanan Material Justifikasi Perjalanan Kuantitas Perjalanan Dalam Kota 11. Harga Satuan (Rp) 750.000 1 paket Harga Satuan (Rp) Tahun Ke 1 1.000.000 1.000.000 Subtotal (Rp) 1.000.000 Sewa Material Peminjaman Kommputer Justifikasi Sewa Kuantitas (hari) Eksperimen dan pengolahan data 5 bulan 75 Harga Satuan (Rp) Tahun Ke 1 600.000 3.000.000 Subtotal (Rp) 3.000.000 12. Lain-lain 1 1 Harga Satuan (Rp) 500.000 500.000 1 800.000 800.000 Subtotal (Rp) 1.800.000 TOTAL ANGGARAN YANG DIPERLUKAN SETIAP TAHUN (Rp) TOTAL ANGGARAN YANG DIPERLUKAN SELURUHNYA (Rp) 11.600.000 11.600.000 Material Publikasi ilmiah Penyajian Konferensi Monev Justifikasi Sewa Biaya publikasi Biaya seminar Monitorin & Evaluasi 76 Kuantitas Tahun Ke 1 500.000 500.000