i USULAN PENELITIAN DOSEN PEMULA PENERAPAN

advertisement
Kode/Nama Rumpun Imu : 123/ Ilmu Komputer
USULAN
PENELITIAN DOSEN PEMULA
PENERAPAN ALGORITMA K-MEANS DENGAN SELEKSI FITUR
INFORMATION GAIN UNTUK OPTIMASI ANALISIS SENTIMEN
MOVIE REVIEW
TIM PENGUSUL
SETYO BUDI, M.KOM
0615097602
DWIYONO ARIFIANTO, S.KOM
0602128104
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
APRIL 2015
i
HALAMAN PENGESAHAN
PENELITIAN DOSEN PEMULA
i
DAFTAR ISI
HALAMAN PENGESAHAN .....................................................................................................i
DAFTAR ISI................................................................................................................................i
DAFTAR GAMBAR .................................................................................................................iv
DAFTAR TABEL ....................................................................................................................... v
DAFTAR LAMPIRAN ..............................................................................................................vi
RINGKASAN .......................................................................................................................... vii
BAB 1. PENDAHULUAN ........................................................................................................ 1
1.1
Latar Belakang ............................................................................................................ 1
1.2
Rumusan Masalah ....................................................................................................... 3
1.3
Batasan Masalah .......................................................................................................... 3
1.4
Tujuan Penelitian......................................................................................................... 3
1.5
Manfaat Penelitian....................................................................................................... 4
1.6
Kontribusi .................................................................................................................... 4
BAB 2. TINJAUAN PUSTAKA ................................................................................................ 4
2.1
Penelitian Terkait ........................................................................................................ 4
2.2
Landasan Teori ............................................................................................................ 7
2.2.1
Analisis Sentimen ................................................................................................ 7
2.2.2
Text Mining .......................................................................................................... 7
2.2.3
Rapid Miner ......................................................................................................... 8
2.2.4
Teknik Clustering ................................................................................................ 9
2.2.5
Algoritma K-Means ........................................................................................... 12
2.2.6
Tentang Movie Review ....................................................................................... 13
2.3
Preprocessing ............................................................................................................ 13
2.4
Seleksi Fitur............................................................................................................... 15
2.5
Pembobotan TF-IDF ................................................................................................. 17
2.6
Cosine similarity ....................................................................................................... 17
BAB 3. METODE PENELITIAN ............................................................................................ 18
3.1
Kerangka pemikiran .................................................................................................. 18
i
3.2
Metode Penelitian ...................................................................................................... 18
BAB 4. BIAYA DAN JADWAL PENELITIAN ..................................................................... 18
4.1
Anggaran Biaya ......................................................................................................... 18
4.2
Jadwal Penelitian ....................................................................................................... 18
DAFTAR PUSTAKA ............................................................................................................... 30
ii
DAFTAR GAMBAR
Gambar 1 : Tampilan area kerja RapidMiner ............................................................................ 9
Gambar 2 : Analisis clustering pada gambar kotak berdasarkan warna .................................. 11
Gambar 3 : Tahapan preprocessing secara umum ................................................................... 14
Gambar 4 : Kerangka Pemikiran.............................................................................................. 18
Gambar 5 : Metode Penelitian ................................................................................................. 18
Gambar 6 : Model yang diusulkan ........................................................................................... 19
iv
DAFTAR TABEL
Tabel 1 : Anggaran Biaya ........................................................................................................ 18
v
DAFTAR LAMPIRAN
Lampiran 1 : Justifikasi Anggaran Penelitian .......................................................................... 33
Lampiran 2: Susunan Organisasi Tim Peneliti dan Pembagian Tugas ................................... 34
Lampiran 3: Biodata Ketua dan Anggota ............................................................................... 35
Lampiran 4: Surat Pernyataan Ketua Peneliti ......................................................................... 26
vi
RINGKASAN
Website memberikan kemudahan dan kebebasan untuk menyampaikan informasi dan
pendapat, kemudian selanjutnya akan disimpan didalam sebuah kumpulan dokumen Dalam
kurun waktu yang lama kumpulan dokumen akan semakin bertambah besar, hingga akhirnya
ada pemikiran untuk melakukan penambangan dokumen. Penambangan dokumen dari
website yang berisi komentar, pendapat, feedback, kritik dan review merupakan hal penting,
karena dokumen tersebut berisi informasi yang sangat bermanfaat untuk membantu individu
atau organisasi didalam pengambilan sebuah keputusan. Analisis sentimen merupakan suatu
proses memahami, mengekstrak, dan mengolah informasi tekstual secara otomatis. Banyak
algoritma yang digunakan untuk analisis sentimen movie review namun belum diketahui
algoritma yang paling baik kinerjanya, maka dalam penelitian ini akan melakukan penerapan
algoritma K-Means dengan seleksi fitur information gain untuk optimasi analisis sentimen
movie review.
vii
BAB 1. PENDAHULUAN
1.1 Latar Belakang
Website merupakan salah satu media yang tepat sebagai pusat layanan informasi global
untuk berbagai informasi (Jiawei & Kamber, 2006). Website memberikan kemudahan dan
kebebasan untuk menyampaikan informasi dan pendapat, kemudian selanjutnya akan
disimpan didalam sebuah kumpulan dokumen. Dalam kurun waktu yang lama kumpulan
dokumen akan semakin bertambah besar, hingga akhirnya ada pemikiran untuk melakukan
penambangan dokumen. Penambangan dokumen dari website yang berisi komentar,
pendapat, feedback, kritik dan review merupakan hal penting, karena dokumen tersebut berisi
informasi yang sangat bermanfaat untuk membantu individu atau organisasi didalam
pengambilan sebuah keputusan. Namun kumpulan dokumen yang berasal dari website masih
dinyatakan didalam bahasa alami atau natural, sehingga bagi yang membutuhkan
memungkinkan untuk membaca dan menganalisis kembali semua review atau kumpulan
dokumen yang ada (Li & Liu, 2010).
Saat ini, teknik yang berkembang untuk menganalisis kumpulan dokumen adalah analisis
sentimen atau opinion mining. Analisis sentimen merupakan suatu proses memahami,
mengekstrak, dan mengolah informasi tekstual secara otomatis. Pentingnya analisis sentimen
sekarang sangat terasa bagi manusia atau organisasi, hal itu ditandai dengan banyaknya
penelitian dan pesatnya perkembangan analisis sentimen, terbukti di Amerika Serikat kurang
lebih 20-30 perusahaan menfokuskan pada layanan analisis sentimen, ini membuktikan
bahwa mengumpulkan informasi dan selalu mencari tahu tentang hal apa yang orang lain
pikirkan merupakan sesuatu hal yang penting (Liu B. , 2010) baik melalui review situs online
dan blog pribadi.
Ada dua arah penelitian dalam analisis sentimen, yang pertama adalah untuk
mengklasifikasikan polaritas suatu teks yang diberikan, apakah yang diungkapkan merupakan
opini positif, negatif atau netral, penelitian ini sebelumnya dipelopori oleh (Pang, Lee, &
Shivakumar, 2002). Arah penelitian yang kedua adalah identifikasi subjektivitas atau
objektifitas, penelitian ini umumnya mengklasifikasikan sebuah teks kedalam satu dari dua
kelas yaitu tujuan atau subyektif.
Beberapa contoh penelitian yang berhubungan dengan analisis sentimen dan opinion
mining, antara lain menganalisa rating movie review dapat digunakan untuk mengetahui
tingkat pendapatan dari pemutaran suatu film (Pang, Lee, & Shivakumar, 2002). Review
movie dapat dimanfaatkan para penikmat film untuk memutuskan film apa yang akan
ditonton, bagi produser film dapat memanfaatkan opini untuk mengetahui penilaian yang
1
diberikan oleh para penikmat film tentang film-film yang paling banyak dikritik. Selain
review movie, review sebuah produk dapat membantu perusahaan untuk mempromosikan
produk mereka. Dalam bidang politik, opini kebijakan politik dapat membantu politisi untuk
memperjelas strategi politik mereka,
dan dengan review twitter dapat digunakan untuk
mengidentifikasi sentimen tentang pariwisata di Thailand selama kerusuhan di awal tahun
2010 (Claster, Cooper, & Sallis, 2010). Tetapi sampai saat ini belum ada teknik supervised
learning dan unsupervised learning yang paling akurat untuk analisis sentimen review sebuah
film, hal ini seperti yang disampaikan oleh Kucuktunc et al. (Kucuktunc & Bambazoglu,
2012) dalam A Large-Scale Sentiment Analysis for Yahoo! Answers.
Dalam perkembangannya, banyak penelitian dengan menggunakan metode atau
algoritma yang berbeda, hal ini disebabkan karena masing-masing metode atau algoritma
mempunyai perbedaan, baik tingkat akurasi maupun tingkat kecepatannya dalam melakukan
proses clustering atau klasifikasi sebuah dokumen. Pada penelitian sebelumnya banyak
digunakan teknik supervised learning seperti algoritma SVM (Stylios, 2010;Abbasi, Chen, &
Salem, 2008; O’Keefe & Koprinska, 2009; Somayajulu, Reddy, & Dani, 2010; Chen &
Chang, 2011) dan algoritma Naive Bayes (Stylios, 2010; Keefe & Koprinska, 2009),
algoritma ini digunakan untuk klasifikasi dokumen. Sedangkan teknik unsupervised learning
dengan metode clustering, seperti penelitian yang dilakukan oleh Gang Li dan Fei Liu (Li &
Liu, 2010)
yaitu suatu metode dimana didalam mengelompokkan dokumen dengan
menggunakan persamaan topik yang dimiliki oleh masing-masing dokumen, dengan tujuan
untuk memudahkan pengguna dalam menemukan dokumen yang diinginkan.
Penelitian-penelitian terdahulu yang terkait tentang analisis sentimen baik menggunakan
teknik supervised learning maupun unsupervised learning adalah (Pang, Lee, & Shivakumar,
2002) melakukan penelitian untuk mengetahui rating film dengan cara melihat dan
mengklasifikasikan review ke label positif atau negatif, dataset diambil dari Internet Movie
Database (IMDb), menggunakan metode Naïve Bayes Clasifier (NBC), Maximum Entropy
(ME) dan Suport Vector Machine (SVM) serta menggunakan pemilihan fitur Unigram, NGram dan Part-of-Speech (POS), hasil penelitian ini menyatakan bahwa algoritma terbaik
dan efektif untuk klasifikasi teks adalah SVM sedangkan algoritma terburuk untuk klasifikasi
adalah NBC.
Christopher et al. (Christopher, Wong, & Chih-Ping, 2009) melakukan penelitian untuk
menganalisis klasifikasi review opini pembeli produk di website, metode yang digunakan
adalah Class Association Rule, NBC Information Gain dan NBC Chi Square, dengan hasil
penelitian bahwa akurasi Class Association Rules adalah 73%, NBC dan Information Gain
2
adalah 76,12% sedangkan NBC
Gang Li dan Fei Li (Li & Liu, 2010), melakukan
penelitian
menggunakan
algoritma K-Means dengan menerapkan metode pembobotan TF-IDF, Voting Mechanism
dan Importing Term Score. Dataset yang digunakan adalah movie review sebanyak 600
dokumen yang terbagi menjadi 300 dokumen positif dan 300 dokumen negatif. Dalam
penelitian ini hasil yang diperoleh adalah bahwa clustering dokumen dengan menggunakan
algoritma
K-Means memiliki keunggulan lebih baik dibanding jenis pendekatan symbolic
techniques dan metode supervised learning, dengan akurasi 77.17% - 78.33%.
Berdasarkan kenyataan-kenyataan yang telah dipaparkan diatas, banyak metode atau
algoritma yang digunakan untuk analisis sentimen, namun belum diketahui
algoritma
supervised learning atau unsupervised learning yang paling akurat untuk analisis sentimen,
maka
dalam
penelitian
ini akan melakukan
analisis
sentimen movie review
menggunakan algoritma K-Means dengan seleksi fitur Information Gain.
1.2 Rumusan Masalah
Berdasarkan uraian latar belakang diatas dirumuskan suatu permasalahan yaitu banyak
metode atau algoritma yang digunakan untuk analisis sentimen, namun belum diketahui
tingkat akurasi algoritma K-Means dengan seleksi fitur Information Gain, maka
penelitian ini akan melakukan
didalam
penerapan algoritma K-Means dengan seleksi fitur
information gain untuk optimasi analisis sentimen movie review.
1.3 Batasan Masalah
Batasan masalah dalam penelitian ini adalah sebagai berikut :

Konsentrasi pada penelitian analisis sentimen movie review untuk mengetahui kinerja
algoritma K-Means dengan seleksi fitur information gain pada proses clustering
dokumen movie review.

Dataset yang digunakan adalah dalam bentuk dokumen inggris.

Menggunakan dataset movie review dalam bahasa inggris, yang terdiri dari 300 dokumen
berkategori positif dan 300 berkategori dokumen negatif yang diunduh dari
http://www.cs.cornell.edu/people/pabo/movie-review-data/.
1.4 Tujuan Penelitian
Berdasarkan latar belakang dan rumusan masalah diatas, maka tujuan penelitian ini adalah
melakukan penerapan algoritma K-Means dengan seleksi fitur information gain
untuk
optimasi analisis sentimen movie review , sehingga diketahui tingkat akurasi algoritma
K-Means.
3
1.5 Manfaat Penelitian
Manfaat dari penelitian ini adalah sebagai berikut:
1. Diharapkan dapat bermanfaat bagi penelitian selanjutnya tentang analisis sentimen
movie review.
2. Diharapkan dapat memberikan sumbangan pengetahuan yang berhubungan dengan
seleksi fitur untuk sentimen analisis.
3. Diharapkan dapat memberikan sumbangan pengetahuan yang berkaitan dengan
clustering dokumen tentang analisis sentimen.
1.6 Kontribusi
Kontribusi yang diperoleh dari penelitian ini adalah diketahui tingkat akurasi algoritma
K-Means dengan menggunakan seleksi fitur Information Gain untuk analisis sentimen movie
review, sehingga dapat dijadikan referensi untuk penelitian-penelitian selanjutnya.
BAB 2. TINJAUAN PUSTAKA
2.1 Penelitian Terkait
Bertambahnya dokumen di website dari waktu ke waktu semakin bertambah tanpa melihat
besarnya dokumen. Hal ini menyebabkan banyaknya penelitian untuk menggali dokumen
agar dapat diambil manfaatnya. Metode dan algoritma yang digunakan juga berbeda-beda
antara satu peniliti dengan peneliti lainnya, tujuannya adalah untuk mendapatkan algoritma
atau metode yang paling baik kinerjanya baik itu untuk teknik clustering maupun teknik
klasifikasi. Selain metode dan algoritma yang berbeda, dataset yang digunakan peneliti juga
berlainan, ada yang menggunakan movie review (Reddy, Somayajulu, & Dani, 2010;
Chaovalit & Zhou, 2005; Kucuktunc & Bambazoglu, 2012), data blog dan media sosial
(Vidhya & Aghila, 2010; Al-Subaihin, Al-Khalifa, & Al-Salman, 2011; Boiy, Hens,
Deschacht, & Moens, 2007).
Berikut ini adalah beberapa penelitian yang terkait tentang analisis sentimen yang
diambil dari beberapa jurnal dan artikel, secara garis besar tinjauan studi dalam tesis ini yaitu
penelitian yang dilakukan oleh Pang et al. (Pang, Lee, & Shivakumar, 2002) yang berjudul
Thumbs up? Sentiment Classification using Machine Learning Techniques,
membahas
tentang penelitian untuk mengetahui rating sebuah film dengan mengklasifikasikan review ke
label positif atau negatif dari sebuah film, dataset yang digunakan adalah Internet Movie
Database (IMDb). Penelitian ini memanfaatkan metode klasifikasi machine learning Naïve
Bayes Clasifier (NBC), Maximum Entropy (ME) dan Support Vector Machine (SVM) serta
4
menggunakan seleksi fitur unigram, n-gram dan Part-of-Speech (POS). Dari pengukuran
kinerja yang dilakukan, diketahui bahwa algoritma terbaik dan efektif untuk klasifikasi teks
adalah SVM, sedangkan NBC adalah algoritma yang terbutuk untuk klasifikasi.
Songbo Tan dan Zhang Jin (Tan & Zhang, 2007),
melakukan penelitian tentang
sentimen corpus bahasa china sebanyak 1.021 dokumen, menggunakan 4 metode feature
selection tradisional (DF, CHI, MI, IG) dan 5 metode machine learning (Centroid Classifier,
K-Nearest Neighbor (K-NN), Naïve Bayes, Winnow Classifier, SVM classifier,
hasil
penelitian ini menunjukkan bahwa Information Gain (IG) melakukan yang terbaik dalam
seleksi fitur dan SVM menunjukkan kinerja terbaik untuk klasifikasi sentimen.
Selanjutnya Abasi et al. (Abbasi, Chen , & Salem , 2008) mereka melakukan penelitian
tentang klasifikasi sentiment berbagai bahasa dengan menggunakan pendekatan SVM dan
pemilihan fitur Entropy Weighted Genetic Algorithm (EWGA), Information Gain (IG) dan
Genetic Algorithm (GA), mereka mengembangkan feature selection EWGA dengan
memanfaatkan informasi yang dihasilkan dari IG. Dataset untuk klasifikasi yang mereka
gunakan adalah bahasa inggris dan bahasa arab. Akurasi tertinggi yang mereka dapatkan
adalah sebesar 91,7% untuk EWGA.
Penelitian Jingnian et al. (Chen, Huang, Tian, & Qu, 2009) mereka melakukan penelitian
dengan menkomparasi beberapa metode feature selection seperti information gain (IG),
Multi-class Odds Ratio (MOR) dan Class Discriminating Measure (CDM), Extended Odds
Ratio (EOR), Weighted Odds Ratio (WOR) dan MC-OR. Menggunakan multikelas dataset
yaitu dataset routers dan dataset bahasa china. Akurasi tertinggi yang mereka dapatkan
adalah dengan pemilihan fitur CMD dengan akurasi sebesar 85,60 %.
Adapting Naive Bayes to Domain Adaptation for Sentiment Analysis 2009 dilakukan oleh
Songbo Tan et al. (Tan & Zhang,2009). Membahas tentang sentiment analysis dengan
menggunakan teknik supervised learning. Teknik ini masih memiliki kekurangan yaitu
melakukan pekerjaan sangat buruk ketika dipindahkan ke domain lain atau yang disebut
dengan Frequently Co-Occurring Entropy. Penelitian mereka menggunakan dataset 3
dominan dalam bahasa cina yaitu pertama : ulasan pendidikan dengan jumlah dokumen
negatif sebanyak 1.012 dan jumlah dokumen positif sebanyak 254, kedua: ulasan stok barang
dengan jumlah dokumen negatif sebanyak 683 dan jumlah dokumen positif sebanyak 364,
dan ketiga : ulasan tentang berita komputer dengan jumlah dokumen negatif sebanyak 390
dan jumlah dokumen positif sebanyal 544. Metode yang digunakan adalah Adaptation Naïve
Bayes (ANB) dan Naïve Bayes Transfer Classifier (NTBC), hasil penelitian menerangkan
5
bahwa ANB meningkatkan kinerja klasifikasi secara dramatis bahkan memberikan kinerja
yang jauh lebih baik dibanding Naïve Bayes Transfer Classifier (NTBC).
Kemudian Tim O’Keefe dan Irena Koprinska (O’Keefe & Koprinska, 2009), melakukan
penelitian sentiment analysis dengan mengevaluasi seleksi fitur dan metode pembobotan,
tetapi banyak potensi aplikasi sentiment analysis saat ini yang tidak layak karena ditemukan
fitur dengan jumlah yang besar dalam standar corpora. Mereka memperkenalkan dua metode
feature selection yaitu SentiWordNet Subjectivity Scores (SWNSS) dan SentiWordNet
Proportional Difference(SWNPD), serta tiga metode pembobotan fitur yaitu SentiWordNet
Word Score Groups (SWN-SG), SentiWordNet Word Polarity Groups (SWN-PG) dan
SentiWordNet Word Polarity Sums (SWN-PS), kemudian dibandingkan dengan metode FF,
FP and TF-IDF, dengan menggunakan dua metode pengklasifikasi yaitu NB dan SVM
dengan dataset movie review yang menjadi standar untuk analisis sentimen. Hasil dari
penelitian mereka bahwa metode yang mereka usulkan mempu mempertahankan state-of-theart dengan keakuratan klasifikasi dokumen 87.15%.
Siva et al. (Reddy, Somayajulu, & Dani, 2010) melakukan penelitian klasifikasi movie
review dengan dataset dari IMDb, empat metode klasifikasi digunakan yaitu Naïve Bayes
(NB), Support Vector Machine (SVM), Complemented Naïve Bayes (CNB) dan
Discriminative Using Bayesian Networks (DPBN) dengan seleksi fitur Information Gain
(IG). Hasil penelitian mereka bahwa akurasi Complemented Naïve Bayes classifier (CNB)
adalah (94,85%), NB (89.25%), Discriminative Partitioning Using Bayesian Networks
(DPBN) (93.25) dan SVM (88.55%).
Gang Li dan Fei Li (Li & Liu, 2010), melakukan penelitian menggunakan algoritma KMeans dengan menerapkan metode pembobotan TF-IDF, Voting Mechanism dan Importing
Term Score. Dataset yang digunakan adalah review film sebanyak 600 dokumen yang terbagi
menjadi 300 dokumen positif dan 300 dokumen negatif. Dalam penelitian ini hasil yang
diperoleh adalah bahwa clustering dokumen dengan menggunakan algoritma
K-Means
memiliki keunggulan lebih kompetitif dibanding jenis pendekatan symbolic techniques dan
metode supervised learning, dengan akurasi 77.17% - 78.33%, lebih efesiensi waktu dan
tidak ada partisipasi manusia.
Selanjutnya Bruno et al. (Ohana & Brendan, 2011) melakukan penelitian tentang
klasifikasi sentiment dengan pendekatan SVM berbasis fitur seleksi yang digunakan untuk
menambah kecepatan klasifikasi berdasarkan perhitungan bobot atribut.
Dataset yang
digunakan sama seperti (Pang, Lee, & Shivakumar, 2002) validasi dan evaluasi mereka
menggunakan teknik 10-fold cross validation. Penelitian ini memperoleh rata-rata akurasi
6
sebesar 85,39% untuk SVM menggunakan semua fitur, setelah penghapusan fitur mereka
membatasi data yang diambil nilai terbaik yang ditemukan selama pengujian parameter
berjumlah 1800 fitur disimpan menggunakan bobot berbasis korelasi, yang menghasilkan
akurasi 85,49%.
2.2 Landasan Teori
2.2.1 Analisis Sentimen
Analisis sentimen atau juga bisa disebut opinion mining adalah suatu proses memahami,
mengekstrak, dan mengolah data tekstual secara otomatis, atau merupakan studi komputasi
pendapat, perasaan dan emosi yang dinyakan dalam bentuk teks.
Informasi tekstual
dikategorikan menjadi dua : fakta dan opini. Fakta merupakan ekpresi obyektif mengenai
suatu entitas, kejadian atau sifat, sedangkan opini adalah ekspresi subyektif yang
menggambarkan sentimen orang, pendapat atau perasaan tentang sebuah entitas, kejadian
atau sifat (Liu B. , 2010).
Analisis Sentimen bertujuan untuk mengekstrak atribut dan komponen dari objek yang telah
dikomentari di dalam setiap dokumen dan untuk menentukan apakah komentar tersebut
positif, negatif atau netral (Lee & Pang, 2008). Ada dua cara untuk pertambangan pendapat
yaitu dengan machine learning dan semantic orientation (Al-Subaihin, Al-Khalifa, & AlSalman, 2011). Machine learning dilakukan dengan cara mengumpulkan dan menyeleksi
opini yang ada di web, kemudian opini-opini tersebut diberikan label positif dan negatif,
sedangkan semantic orientatition merupakan kebalikan dari machine learning dan digunakan
secara realtime.
2.2.2 Text Mining
Seringkali studi data mining diprioritaskan pada pengolahan data yang terstruktur antara lain
data relasioanal, transaksional dan data warehouse. Tetapi pada kenyataanya banyak data
yang berupa informasi dan dokumen yang tersimpan didalam basis teks atau basis dokumen.
Banyaknya data ini bisa berasal dari berbagai sumber seperti review, opini, berita, paper,
buku, perpustakaan digital, pesan e-mail dan halaman web. Sehingga untuk mengambil
intisari dari kumpulan teks dan dokumen dibutuhkan suatu teknik yang disebut text mining.
Teknik ini merupakan suatu proses pengambilan intisari dari dokumen teks sehingga
didapatkan hasil yang berguna untuk tujuan tertentu (Witten, Frank, & Hall, 2011). Text
mining merupakan riset yang tergolong baru dan merupakan salah satu bidang dari data
mining yang saat ini terus berkembang. Sesuai dengan buku The Text Mining Handbook
7
(Francis & Flynn, 2010), text mining dapat didefinisikan sebagai suatu proses menggali
informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools
analisis yang merupakan komponen-komponen dalam data mining yang salah satunya adalah
kategorisasi.
Perbedaan antara data mining dengan text mining adalah terletak pada dataset yang
digunakan, didalam data mining dataset yang digunakan bersifat terstruktur tetapi didalam
text mining data yang digunakan bersifat tidak terstruktur (Francis & Flynn, 2010). Karena
data yang tidak tersetruktur inilah diperlukan text mining yang dapat memberikan solusi baru
dalam hal pemrosesan, pengelompokan atau pengorganisasian dan analisis teks untuk
kumpulan dokumen yang sangat besar. Kegiatan riset untuk text mining antara lain ekstraksi
dan penyimpanan teks, preprocessing akan konten teks, pengumpulan data statistic, indexing
dan analisa konten.
Proses text mining meliputi kategori teks, text clustering, ekstraksi konsep/entitas, produksi
taksonomi granular, sentiment analisys, penyimpulan dokumen dan pemodelan relasi entitas.
Tujuan yang akan dicapai didalam text mining adalah untuk menemukan pola yang berguna
dalam sebuah kumpulan dokumen.
2.2.3 Rapid Miner
Tools yang digunakan didalam penelitian ini adalah framework RapidMiner. Perangkat lunak
ini dibuat oleh Dr. Markus Hofmann dari Institute of Technology Blanchardstown dan Ralf
Klinkenberg dari rapid-i.com dengan tampilan yang menarik dan sudah menggunakan GUI
(Graphical User Interface). RapidMiner menyediakan software, solusi dan layanan di bidang
analisis prediktif, data mining, dan text mining. RapidMiner akan memudahkan pengguna
dalam menggunakan perangkat lunak ini. Gambar 1 merupakan tampilan area kerja
RapidMiner.
Perangkat lunak ini bersifat open source dan dibuat dengan menggunakan
bahasa Java di bawah lisensi GNU Public License dan RapidMiner dapat dijalankan di sistem
operasi manapun. Dengan menggunakan RapidMiner, tidak dibutuhkan kemampuan khusus
harus bisa membuat program, karena semua fasilitas sudah disediakan.
Model yang disediakan juga cukup lengkap, seperti model Clustering, Fitute Selection,
Bayesian Modelling, Tree Induction, Neural Network dan lain-lain. Banyak metode yang
disediakan oleh RapidMiner mulai dari klasifikasi, Clustering, asosiasi dan lain-lain.
Di antara pengguna perusahaan terkenal seperti Ford, Honda, Nokia, Miele, Philips, IBM,
HP, Cisco, Merrill Lynch, BNP Paribas, Bank of America, Mobilkom Austria, Akzo Nobel,
Aureus Pharma, PharmaDM, Cyprotex, Celera, Revere, LexisNexis, Mitre dan masih banyak
model bisnis open-source dari Rapid-I.
8
Gambar 1 : Tampilan area kerja RapidMiner
2.2.4 Teknik Clustering
Dalam “Data Mining Cluster Analysis: Basic Concepts and Algorithms “, Tan et al.
membagi clustering menjadi dua kelompok, yaitu hierarchical and partitional clustering.
Partitional Clustering disebutkan sebagai pembagian obyek-obyek data ke dalam kelompok
yang tidak saling overlap sehingga setiap data berada tepat di satu cluster. Hierarchical
clustering adalah sekelompok cluster yang bersarang seperti sebuah pohon hirarki.
William (Williams, 2006) membagi algoritma clustering ke dalam kelompok besar
adalah sebagai berikut:
1. Partitioning algorithms merupakan kelompok Algoritma yang membentuk bermacam
partisi dan kemudian mengevaluasinya dengan berdasarkan beberapa kriteria.
2. Hierarchy algorithms merupakan kelompok algoritma dengan proses pembentukan
dekomposisi hirarki dari sekumpulan data menggunakan beberapa kriteria.
3. Density-based merupakan kelompok algoritma dengan pembentukan cluster
berdasarkan pada koneksi dan fungsi densitas.
4. Grid-based merupakan kelompok algoritma dengan proses pembentukan cluster
berdasarkan pada struktur multiple-level granularity
5. Model-based: sebuah model dianggap sebagai hipotesa untuk masing-masing cluster
dan model yang baik dipilih diantara model hipotesa tersebut.
Clustering dapat dianggap suatu proses yang penting didalam metode unsupervised learning
9
(Jain, Murty, & Flynn, 1999) yaitu proses pengelompokan dokumen berdasar pada kesamaan
topik (Al-Mubaid & Umair, 2006) antara cluster yang satu dengan yang lainnya. Xu dan
Wunsch (Xu & Wunsch, 2009) menyatakan bahwa pengelompokan clustering objek
kedalam beberapa kelompok (cluster) yang mempunyai sifat homogen atau dengan variasi
sekecil mungkin adalah diperlukan karena dapat memudahkan analisis data. Tujuan utama
dari clustering dokumen adalah untuk membagi dokumen menjadi beberapa kelompok
dimana dokumen didalam kelompok yang sama mempunyai kemiripan satu dengan yang
lainnya berdasarkan kemiripan dari kemunculan term.
Keuntungan yang diperoleh dari proses clustering adalah dapat menarik pola dan struktur
secara langsung yang ditemukan dari dataset yang sangat besar (Velmurugan & Santhanam,
2010), dengan clustering maka dapat dilakukan analisis pola-pola, mengelompokkan,
membuat keputusan dan machine learning termasuk data mining, document retrieval,
segmentasi citra serta klasifikasi pola. Metodologi clustering cocok untuk eksplorasi
hubungan antar data untuk membuat penilaian terhadap suatu struktur. Contoh hasil
analisis clustering ditampilkan
pada gambar kotak yang dikelompokkan menjadi tiga
berdasarkan warna seperti yang disajikan pada Gambar 2.1. Teknik clustering dokumen
merupakan teknik yang lebih spesifik dari pengorganisasian unsupervised dokumen, otomatis
ekstraksi topik serta pengambilan dan penyaringan informasi secara cepat (Boiy, Hens,
Deschacht, & Moens, 2007; Zamir, Oren, Madani, & Karp, 1997).
Contoh pemakaian teknik clustering adalah digunakan pada search engine web untuk
mengelompokkan dokumen secara otomatis pada sebuah daftar kategori yang memudahkan
untuk memperoleh keterkaitan informasi yang relevan, dibidang pemasaran clustering dapat
membantu penjual menemukan kelompok yang berbeda dari pusat pelanggan mereka
kemudian menggunakan ilmu pengetahuan untuk mengembangkan program penjualan
sehingga penjualan dapat dipenuhi, dibidang perencanaan kota metode clustering dapat
digunakan untuk mengidentifikasi kelompok rumah sesuai dengan tipe rumah, harga dan
lokasi geografis.
10
Gambar 2 : Analisis clustering pada gambar kotak berdasarkan warna
Terdapat dua pendekatan atau tipe pada teknik clustering yaitu partitional clustering dan
hirerarchical clustering. Dalam partitional clustering kita kelompokkan objek x1,x2,......,xn
kedalam sebuah k cluster. Hal ini bisa dilakukan dengan menentukan pusat cluster awal,
kemudian dilakukan relokasi objek berdasarkan kriteria tertentu sampai dicapai
pengelompokan yang maksimal, sedangkan pada hirerarchical clustering dimulai dengan
membuat m cluster, dimana setiap cluster beranggotakan satu objek, dan berakhir dengan
satu cluster dimana anggotanya adalah m objek. Pada setiap tahap dalam prosedurnya, satu
cluster digabung dengan satu cluster lainnya. Kita bisa memilih berapa jumlah cluster yang
diinginkan dengan menentukan pemotongan untuk berhenti pada tingkat tertentu.
Dasar dari tahapan dalam clustering dokumen adalah preprocessing, term weighting baru
kemudian penerapan algoritma clustering yang kita tentukan. Tahap preprocessing akan
menghasilkan kumpulan term yang nantinya akan diberikan bobot atau nilai dimana bobot
tersebut mengindikasikan pentingnya sebuah term terhadap dokumen. Semakin sering term
muncul pada koleksi dokumen, maka semakin tinggi nilai atau bobot term tersebut, maka
kemudian pemberian bobot dapat disebut term weighting. Hasil dari pemberian bobot atau
term weighting adalah menghasilkan sebuah matrik term dokumen dengan dimensi mxn,
dimana m adalah jumlah term dan n adalah jumlah dokumen, maka model ini bisa disebut
model ruang vektor atau vector space model.
Beberapa algoritma untuk clustering telah diusulkan oleh para peneliti (Berkhin, 2002;
Xiong, 2009; Borah & Ghose, 2009; Rakhlin & Caponnetto, 2007), contoh aplikasi yang
menerapkan clustering adalah pengenalan pola, analisis data spatial, pemrosesan gambar,
aplikasi ilmu ekonomi (terutama riset pasar), aplikasi web meliputi klasifikasi dokumen dan
weblog cluster.
11
2.2.5 Algoritma K-Means
Metode K-Means diperkenalkan oleh James B Mac Queen pada tahun 1967 dalam Proceding
of the 5th Berkeley Symposium on Mathematical Statistics and Probability (MacQueen, 1967).
K-Means merupakan suatu metode untuk menganalisa data atau metode data mining dimana
dalam melakukan proses pemodelan tanpa supervisi (unsupervised) dan merupakan salah satu
metode yang melakukan pengelompokan data dengan sistem partisi. K-Means adalah salah
satu teknik unsupervised learning yang paling sederhana dan baik untuk memecahkan
masalah clustering (Velmurugan & Santhanam, 2010).
Prinsip utama dari algoritma K-Means adalah mengelompokkan dokumen dalam
beberapa cluster. Banyaknya centroid menentukan jumlah cluster yang akan dihasilkan.
Tujuan dari algoritma ini adalah meminimalkan tujuan suatu fungsi, dalam hal ini adalah
sebuah kuadrat kesalahan fungsi. Berikut adalah pseudocode dari algoritma K-Means.
Algoritma K-Means Clustering
Input : Koleksi Dokumen D={d1, d2, d3, … dn};
Jumlah cluster (k) yang akan dibentuk;
Output : k cluster;
Proses : 1. Memilih k dokumen untuk dijadikan centroid (titik pusat cluster) awal secara
random;
2. Hitung jarak setiap dokumen ke masing-masing centroid menggunakan
persamaan cosines similarity (persamaan 3) kemudian jadikan satu cluster untuk
tiap-tiap dokumen yang memiliki jarak terdekat dengan centroid;
3. Tentukan centroid baru dengan cara menghitung nilai rata-rata dari data-data yang
ada pada centroid yang sama;
4. Kembali ke langkah 2 jika posisi centroid baru dan centroid lama tidak sama;
2.2.5.1 Keunggulan K-Means
Ada beberapa keunggulan dari algoritma K-Means antara lain K-Means memiliki kelebihan
yaitu relatif lebih efesien dan mempunyai kemampuan lebih cepat dalam memproses dataset
yang besar dan K-Means mudah dipahami dan diimplementasikan, mampu mengelompokan
objek yang besar dan noise
dengan sangat cepat sehingga mempercepat proses
pengelompokan.
12
2.2.5.2 Kelemahan K-Means
Algoritma K-Means mempuanyai beberapan kelemahan yaitu dalam iterasinya algoritma ini
akan berhenti dalam kondisi optimum lokal (Williams, 2006), mengharuskan didalam
menentukan banyaknya cluster yang akan dibentuk, hanya dapat digunakan dalam data meannya, dan tidak mampu menangani data yang mempunyai noise atau outlier.
2.2.6 Tentang Movie Review
Internet Movie Database atau IMDb adalah situs yang diciptakan Col Needham 20 tahun
lalu. Needham adalah seorang pencinta film yang pada waktu bekerja di salah produsen
hardware komputer yaitu Hewlett Packard, diluncurkan pada tahun 1990. Tahun 1999,
IMDb.com memenangkan Webby Award dan kemudian miliki oleh Amazon.com. Kini,
IMDb adalah salah satu situs yang paling besar dan paling lengkap untuk segala hal yang
berhubungan dengan film dan produksi film. The Internet Movie Database adalah database
film terbesar di Website, menampilkan film terbaik, berita film, movie review, trailer film,
jadwal pemutaran film, review film DVD, profil selebriti, dll. Internet Movie Database
(IMDb) benar-benar merupakan tempat penyimpanan terbesar tentang informasi film.
Sehingga dengan populernya IMDb, maka dalam penelitian ini dataset yang digunakan
adalah
movie
review
dalam
teks
berbahasa
inggris
http://www.cs.cornell.edu/people/pabo/movie-review-data/.
yang
Dataset
diambil
tersebut
dari
sudah
dikelompokkan didalam dua kelompok yaitu kelompok movie review yang berkategori positif
dan kelompok movie review yang berkategori negatif, jumlah masing-masing kelompok ada
1000 dokumen.
2.3 Preprocessing
Dalam pengolahan text mining salah satu langkah awal yang perlu dilakukan
adalah
preprocessing. Preprocessing merupakan tahapan untuk mengukur struktur isi dari suatu
dokumen kedalam format yang sesuai yaitu berupa kumpulan term (Suanmali, Salim, &
Binwahlan, 2008) untuk selanjutnya diproses kedalam algoritma clustering. Preprocessing
biasanya dilakukan dengan menghilangkan stopword ( term yang tidak signifikan ) dan
proses stemming (Wajeed & Adilakshmi, 2005 - 2009). Preprocessing digunakan untuk
menghasilkan data training yang menghasilkan sejumlah tuple (record) dan class, sehingga
dapat digunakan untuk menggolongkan nilai suatu opini kedalam kategori positif dan negatif.
Tahapan umum preprocessing adalah seperti pada Gambar 2.
13
Tokenizing
Filtering
Analysing
Stemming
Tagging
Gambar 3 : Tahapan preprocessing secara umum
1.
Tokenizing
Tokenizing merupakan proses pemenggalan susunan term dari suatu kalimat menjadi
kumpulan token, menghilangkan karakter selain huruf seperti angka dan tanda baca, serta
karakter angka dan tanda baca dianggap sebagai delimiter atau pemisah. Proses
tokenizing dapat dilihat pada contoh dibawah ini.
Teks Input : “Studying the Text Mining “
studying
the
text
mining
Hasil Tokenizing
2.
Filtering Stopword
Dalam tahap stopword, kata-kata yang tidak relevan dalam suatu topik, atau kata-kata
yang tidak mendeskripsikan suatu dokumen akan dihilangkan, contohnya antara lain
kata-kata : “a”,”and”,”are”,”the” dan yang lainnya. Contoh stopword sebagai berikut.
Teks Input : “Studying the text mining “
studying
3.
Hasil Filtering
text
Stopword
mining
Stemming
Filtering
Steming merupakan bagian dari preprocessing yang digunakan untuk mencari kata dasar
dengan cara mengubah kata berimbuhan menjadi kata dasarnya, dengan tujuan untuk
meningkatkan kualitas informasi. Kualitas informasi yang dimaksud adalah hubungan
diantara kata itu sendiri, misalnya “writing”, “write”, “writed”, yang semula adalah kata
yang berbeda, tetapi dengan adanya stemming, kata tersebut menjadi ‘write’, sehingga
14
ada hubungan antara ketiga kata tersebut. Selain itu, space yang digunakan untuk
penyimpanan juga menjadi lebih kecil, contoh stemming sebagai berikut :
4.
Hasil Stopword
Hasil Stemming
studying
study
text
text
mining
mine
Tagging
Tagging adalah tahap mencari bentuk awal / root dari tiap kata lampau atau kata hasil
stemming. Tagging biasanya dipakai untuk bahasa inggris. Contoh stemming sebagai
berikut.
Was
used
stori
5.
Be
Use
story
Analysing
Tahap analysing merupakan tahap akhir untuk menentukan seberapa jauh kedekatan atau
kemiripan antar kata-kata atau antar dokumen yang ada. Pada tahap ini dilakukan
representasi nilai numerik yaitu dengan melakukan pembobotan tf-idf dan model ruang
vector (vector space model ). Setelah itu dari vektor yang sudah diukur kemiripannya
(similarity) dengan menghitung cosines sudut antar vector query, sehingga diperoleh nilai
dengan range antara 0 sampai 1. Nilai semakin mencapai angka 1 maka dokumen tersebut
semakin sama.
2.4 Seleksi Fitur
Feature Selection adalah salah teknik terpenting dan sering digunakan dalam pre- processing
data mining (Kira & Rendel, 1992), khususnya untuk knowledge discovery maupun discovery
scince. Tujuan dari feature selection adalah untuk mengurangi jumlah fitur yang terlibat
dalam hal untuk menentukan suatu nilai kelas target, mengurangi fitur yang tidak sesuai, fitur
yang berlebihan dan data yang menyebabkan salah pengertian terhadap menentukan kelas
target yang mempunyai efek mempercepat proses aplikasi. Hasil yang didapat dari seleksi
fitur adalah untuk mempercepat dan meningkatkan kinerja proses mining, contohnya adalah
proses prediksi. Feature adalah seluruh kata yang muncul dalam training set. Set ini biasanya
15
sangat besar yaitu satu dimensi untuk setiap kata unik sehingga memiliki feature space yang
sangat besar.
Feature selection adalah metode untuk mereduksi dimensi feature space dengan cara
memilih kata-kata yang paling berkualitas. Salah satu metode yang terbukti sangat efektif
dalam melakukan supervised feature selection diantaranya adalah Information Gain (IG) dan
Chi Square (CHI) (Liu at al., 2003). Didalam penelitian ini seleksi fitur yang digunakan
adalah Information Gain (IG). Pada tahap ini, atribut yang akan diolah harus diminimalisasi
terlebih dahulu dengan tujuan untuk membuang atribut yang tidak perlu sehingga hanya
atribut yang mempunyai relevansi kuat yang akan diproses, sehingga efisiensi space dan
waktu dapat dicapai dan kualitas data yang dihasilkan lebih baik. Salah satu cara untuk
mereduksi atribut adalah dengan information gain. Information gain adalah pengukuran yang
dilakukan untuk menyeleksi atribut.
Info(D)=-
log2 pi
(1)
Dalam hal ini pi adalah probabilitas sebuah tuple pada D masuk ke kelas Ci dan diestimasi
dengan |Ci,D|/|D|. Fungsi log diambil berbasis 2 karena informasi dikodekan berbasis bit.
Misal S adalah himpunan beranggotakan s data. Misalkan label atribut yang mendefinisikan
kelas memiliki m nilai berbeda yang mendefinisikan m kelas Ci (untuk i=1,2,..,m) berbeda.
Misalkan Si adalah jumlah sampel S yang masuk ke dalam kelas Ci. Berdasarkan (1) maka
informasi yang diharapkan perlu untuk mengklasifikasi suatu sampel yang diberikan adalah:
(S1,S2,.....,Sm)= -
log2 pi
(2)
Yang mana pi adalah peluang suatu sampel sembarang yang masuk ke kelas ci dan ditaksir
dengan si / s. Misalkan atribut A yang bukan atribut suatu kelas, memiliki v buah nilai yang
berbeda yaitu {a1, a2, …,av}. Atribut A dapat digunakan untuk memisahkan S ke dalam v
subset Sj yaitu {S1, S2, …,Sv}, dalam hal ini Sj memuat sampel-sampel didalam S yang
memiliki nilai aj dari A. Jika atribut A dipilih sebagai atribut uji maka subset-subset tersebut
akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S.
Misalkan Sij adalah jumlah sampel dari kelas Ci di dalam suatu subset Sj. Entropi atau
informasi harapan berdasarkan pemisahan ke dalam subset-subset A dihitung dengan:
E(A) =
/ (S1j,S2j...,Smj)
(3)
, bentuk ini bertindak sebagai pemberat dari subset j dan merupakan jumlah
sampel di dalam subset tersebut (yang memiliki nilai aj dari A) dibagi dengan jumlah total
sampel di dalam S. Semakin kecil nilai entropi maka semakin murni pemisahan subset..
16
2.5 Pembobotan TF-IDF
Sering munculnya term dalam dokumen dapat digunakan sebagai proses untuk melakukan
perhitungan sehingga diketahui penting atau tidaknya suatu kalimat. Proses perhitungan bisa
dilakukan setelah dokumen direpresentasikan kedalam bentuk nilai numerik dokumen oleh
Vector Space Model dan TF-IDF. Skor kalimat dapat dihitung sebagai jumlah dari skor/nilai
kata dalam kalimat tersebut (Suanmali, Salim, & Binwahlan, 2008). Salah satu algoritma
yang dipakai untuk menghitung skor atau pembobotan sebuah term dalam suatu dokumen
adalah TF-IDF (Term Frequency-Inversed Document Frequency) (Yates & Neto, 1999). TF
(Term Frekuency) adalah banyaknya kemunculan suatu term dalam dokumen. IDF (Inverse
Document Frequency) adalah perhitungan logaritma antara pembagian jumlah total dokumen
dengan cacah dokumen yang mengandung term, dan TF-IDF adalah perkalian antara TF
dengan IDF. Semakin besar bobot TF-IDF pada suatu term, maka semakin penting term
tersebut untuk bisa digunakan pada tahapan klasifikasi atau clustering dokumen.
TF-IDF weighting menghitung term dari dokumen yang diwujudkan sebagai sebuah
vector dengan elemen sebanyak term yang berhasil dideteksi pada proses penghilangan
stopword dan stemming. Vector tersebut beranggotakan bobot dari tiap term yang dihitung
berdasarkan metode ini. Formula yang digunakan untuk menghitung bobot adalah seperti
persamaan dibawah ini:
wij = tf ij × ( log (D /df j ) + 1 )
(4)
D
= total dokumen
df
= banyak dokumen yang mengandung kata yang dicari
tf
= banyaknya kata yang dicari pada sebuah dokumen
2.6 Cosine similarity
Cosine similarity salah satu metode untuk mengukur kemiripan teks yang sering digunakan
adalah cosine similarity (Tata & Patel M, 2007 ). Ukuran ini menghitung nilai cosinus sudut
antara dua vektor. Jika terdapat dua vektor dokumen dj dan query q, serta term diekstrak dari
koleksi dokumen maka nilai cosinus antara dj dan q didefinisikan pada persamaan 5 dan 6.
(5)
Similiraty (Q,Di )
=
(6)
17
BAB 3. METODE PENELITIAN
3.1 Kerangka pemikiran
Permasalahan yang ada dalam sebuah penelitian akan menimbulkan cara bagaimana
menyelesaikan masalah tersebut. Permasalahan didalam penelitian ini adalah belum
diketahuianya kinerja algoritma K-Means dengan seleksi fitur untuk analisis sentimen movie
review. Adapun tools yang digunakan untuk eksperimen ini adalah RapidMiner, hasil yang
diperoleh adalah Precission, Recall dan tingkat akurasi algoritma K-Means. Gambaran
singkat penelitian ini ada pada kerangka pemikiran yang tersaji pada gambar 3.
PROBLEM
Belum diketahui akurasi algoritma
K-Means dengan Seleksi Fitur
untuk analisis sentimen movie
review.
PENGUMPULAN DATA &
PREPROCESSING
300 dokokumen movie review negatif dan
dokumen movie review positif .
- Case folding - Stopword
- Tokenizing
- Stemming
TOOL PENELITIAN
Penerapan
Algoritma K-Means dengan seleksi fitur
Framework RapidMiner
MEASUREMENT
RESULT
Diketahui akurasi K-Means dengan Seleksi
Fitur
Confusion Matrix, Precision,
Recall
Gambar 4 : Kerangka Pemikiran
3.2 Metode Penelitian
Metode penelitian yang dilakukan adalah metode penelitian eksperimen, dengan tahapan
penelitian sebagai berikut:
Pengumpulan
Data
Preprocessing
Model /
Metode yang
diusulkan
Eksperimen
dan Pengujian
Metode
Evaluasi
Gambar 5 : Metode Penelitian
18
1. Pengumpulan Data
Dataset yang digunakan didalam penelitian ini adalah dataset movie review yang diambil
dari http://www.cs.cornell.edu/People/pabo/movie-review-data/. Movie review ini sudah
dikelompokkan oleh para ahli kedalam 1000 kelompok dokumen yang mempunyai label
positif dan 1000 kelompok dokumen label negatif. Dataset ini sudah populer karena
pernah digunakan oleh (Pang, Lee, & Shivakumar, 2002; Chaovalit & Zhou, 2005; Keefe
& Koprinska, 2009), Movie review mining and summarization (Li & Liu, 2010) dan sudah
siap dijadikan corpus untuk penelitian. Dataset tersebut dikumpulkan dari IMDb (Internet
Movie Database) (Chaovalit & Zhou, 2005), Contoh dokumen yang digunakan termasuk
ke kategori sentiment negatif dan positif.
2 Preprocessing
Preprosesing merupakan tahapan untuk mengubah struktur isi dari suatu dokumen
kedalam format yang sesuai, berupa kumpulan term atau kata, agar dapat diproses oleh
algoritma clustering (Suanmali, Salim, & Binwahlan, 2008). Tahapan preprocessing akan
menghasilkan kumpulan term atau kata yang nantinya akan diberikan bobot atau nilai,
dimana bobot atau nilai tersebut akan menjadi indikator penting tidaknya sebuah term
terhadap dokumen. Semakin banyak term yang muncul pada koleksi dokumen, semakin
tinggi nilai atau bobot term tersebut, yang kemudian pemberian bobot sebuah term disebut
dengan term wighting. Pada penelitian ini algoritma yang digunakan untuk pemberian
bobot suatu term adalah algoritma TF-IDF.
2. Model / Metode yang diusulkan
Model yang diusulkan adalah seperti gambar 5.
Dataset
Movie
Review
Preprocessing
 Case folding
 Tokenizing
 Stopword
 Stemming
Pembobotan
TF-IDF
Evaluasi
Confusion Matrix,
Precision, Recall
Gambar 6 : Model yang diusulkan
19
Feature Selection
Information Gain ( IG )
Clustering
Algoritma
K-Means
3. Eksperimen dan Pengujian Metode
Pada bagian ini dijelaskan tentang langkah-langkah eksperimen, meliputi cara pemilihan
arsitektur yang tepat dari model atau metode yang diusulkan sehingga didapatkan hasil
yang dapat membuktikan bahwa metode yang digunakan adalah tepat.
4. Evaluasi
Evaluasi dilakukan dengan mengamati kinerja algoritma K-Means dengan seleksi fitur
information gain untuk optimasi analisis sentimen dokumen Movie review.
20
BAB 4. BIAYA DAN JADWAL PENELITIAN
4.1 Anggaran Biaya
No
Jenis Pengeluaran
Biaya yang Diusulkan
1
Gaji dan upah
Rp.10.560.000,00
2
Bahan habis pakai dan peralatan
Rp. 1.320.000,00
3
Lain-lain
Rp. 1.500.000,00
Jumlah
Rp. 13.380.000,00
Tabel 1 : Anggaran Biaya
4.2 Jadwal Penelitian
Waktu Kegiatan ( Bulan )
No
Jenis Kegiatan
3
1
Studi Pustaka
2
Pengumpulan Data
3
Eksperimen
4
Analisis Eksperimen
5
Penyempurnaan
6
Evaluasi Hasil
4
18
5
6
7
8
9
10
11
DAFTAR PUSTAKA
Abbasi, A., Chen , H., & Salem , A. (2008). Sentiment analysis in multiple languages :
Feature selection for opinion clasification in web forums. ACM Transactions on Information
Systems , 26 (3), 1-34.
Al-Mubaid, H., & Umair, S. A. (2006). A New Text Categorization Technique Using
Distributional Clustering and Learning Logic. IEEE Transactions on Knowledge and Data
Engineering , 18 (9), 1156-1165 .
Al-Subaihin, A. A., Al-Khalifa, H. S., & Al-Salman, A. S. (2011). A Proposed Sentiment
Analysis Tool for Modern Arabic Using Human-Based Computing. iiWAS '11 Proceedings of
the 13th International Conference on Information Integration and Web-based Applications
and Services, (pp. 543-546).
Berkhin, P. (2002). Survey of Clustering Data Mining Techniques. (Accrue Software, Inc.)
Retrieved from http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.145.895.
Boiy, E., Hens, P., Deschacht, K., & Moens, M. F. (2007, June ). Automatic Sentiment
Analysis in On-line Text. Proceedings ELPUB2007 Conference on Electronic Publishing ,
349-360.
Borah, S., & Ghose, M. K. (2009). Performance Analysis of AIM-K-means & K-means in
Quality Cluster Generation. JOURNAL OF COMPUTING , 1 (1).
Chaovalit, P., & Zhou, L. (2005). Movie Review Mining: a Comparison between Supervised
and Unsupervised Classification Approaches. Proceedings of the 38th Hawaii International
Conference on System Sciences. IEEE.
Chen, J., Huang, H., Tian, S., & Qu, Y. (2009). Feature selection for text classification with
Naïve Bayes. In Expert Systems with Applications (pp. 5432-5435). Beijing, China: Elsevier
Ltd.
Chen, L. S., & Chang, C. W. (2011). A New Term Weighting Method by Introducing Class
Information for Sentiment Classification of Textual Data. Proceeding of International
MultiConference of engineers and Computer Scientists, IMECS , 1, 1-4.
Christopher, C. Y., Wong, Y., & Chih-Ping, W. (2009). Classifying Web Review Opinions
for Consumer Product Analysis. ICEC '09 Proceedings of the 11th International Conference
on Electronic Commerce , (pp. 57-63). New York.
Claster, W. B., Cooper, M., & Sallis, P. (2010). Thailand –Tourism and Conf ict. Modeling
Sentiment from Twitter Tweets using Naïve Bayes and Unsupervised Artificial Neural Nets.
CIMSIM '10 Proceedings of the 2010 Second International Conference on Computational
Intelligence, Modelling and Simulation, (pp. 89-94).
Colas, F., & Brazdil, P. Comparison of SVM and Some Older Classification Algorithms in
Text Classification Tasks.
Francis, L., & Flynn, M. (2010). Text Mining Handbook. Spring.
30
Jain, A., Murty, M., & Flynn, P. (1999). Data Clustering: A Review. ACM Computing
Surveys , 31.
Jiawei, H., & Kamber, M. (2006). Data Mining: Concepts and Techniques 2nd. San
Francisco: Morgan Kaufmann.
Keefe, T. O., & Koprinska, I. (2009, Desember 4). Feature Selection and Weighting Methods
in Sentiment Analysis. Proceedings of the 14th Australasian Document Computing
Symposium , 1-8.
Kira, K., & Rendel, L. A. (1992). The Feature Selection Problem : Traditional Methods and a
New Algoritmh. AAAI Press .
Kucuktunc, O., & Bambazoglu, B. B. (2012, February). A Large-Scale Sentiment Analysis
for Yahoo! Answers.
Lee, L., & Pang, B. (2002). A Sentimental Education: Sentiment Analysis Using Subjectivity
Summarization Based on Minimum Cuts.
Lee, L., & Pang, B. (2008). Opinion mining and sentiment analysis (Vol. Volume 2).
Li, G., & Liu, F. (2010). A Clustering-based Approach on Sentiment Analysis. Intelligent
Systems and Knowledge Engineering (ISKE), 2010 International Conference on, (pp. 331 337).
Liu, B. (2010). (N. Indurkhya, & F. J. Damerau, Eds.) Sentiment Analysis and
Subjectivity,Handbook of Natural Language Processing .
Liu, T., & al., a. (2003). An Evaluation on Feature Selection for Text Clustering. Proceedings
of the Twentieth International Conference on Machine Learning. Washington DC.
MacQueen. (1967). Some Methods For Classification And Analysis Of Multivariate
Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and
Probability (pp. 281–297). University of California Press.
O’Keefe, T., & Koprinska, I. (2009). Feature Selection and Weighting Methods in Sentiment
Analysis. Proceedings of the 14th Australasian Document Computing. Sydney, Australia.
Ohana, B., & Brendan, T. (2011, June). Supervised Learning Methods for Sentiment
Classification with RapidMiner. RapidMiner Community Meeting And Conference, RCOMM ,
1-8.
Pang, B., Lee, L., & Shivakumar, V. (2002). Thumbs up? Sentiment Classification using
Machine Learning Techniques.
Rakhlin, A., & Caponnetto, A. (2007). Stability of K-Means Clustering.
Reddy, S. R., Somayajulu, D. V., & Dani, A. R. (2010). Classification of Movie Reviews
Using Complemented Naive Bayesian Classifier. International Journal of Intelligent
Computing Research (IJICR) , 1 (4).
31
Somayajulu, Reddy, S. R., & Dani, A. (2010). Classification of Movie Reviews Using
Complemented Naive Bayesian Classifier. International Journal of Intelligent Computing
Research (IJICR) , 1, 162-167.
Stylios, G. a. (2010). Public Opinion Mining for Governmental Decisions. Electronic Journal
of e-Government , 8 (2), 203-214.
Suanmali, L., Salim, N., & Binwahlan, M. S. (2008, Desember). Automatic Text
Summarization Using Feature Based Fuzzy Extraction. Jurnal Teknologi Maklumat .
Tan, S., & Zhang, J. (2009). Adapting Naive Bayes to Domain Adaptation for Sentiment
Analysis. ECIR '09 Proceedings of the 31th European Conference on IR Research on
Advances in Information Retrieval , 337 - 349 .
Tan, S., & Zhang, J. (2007). An empirical study of sentiment analysis for chinese documents.
Expert Systems with Applications: An International Journal , 34 (4), 2622-2629 .
Tan, Steinbach, & Kumar. (2004). Data Mining Cluster Analysis: Basic Concepts and
Algorithms. In Introduction to Data Mining.
Tata, S., & Patel M, J. (2007 ). Estimating the Selectivity of tf-idf based Cosine Similarity
Predicates. ACM SIGMOD , 36 (2), 7-12.
Velmurugan, T., & Santhanam, T. (2010). Computational Complexity between K-Means and
K-Medoids Clustering Algorithms for Normal and Uniform Distributions of Data Points.
Journal of Computer Science 6 , 363-368.
Vidhya, K., & Aghila, G. (2010). A Survey of Naïve Bayes Machine Learning approach in
Text Document Classification. International Journal of Computer Science and Information
Security (IJCSIS) , 7.
Wajeed, M. A., & Adilakshmi, D. (2005 - 2009). Text Classification Using Machine
Learning. Journal of Theoretical and Applied Information Technology .
Williams, G. (2006). Data Mining Algorithms Cluster Analysis.
Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining,Practical Machine Learning
Tools and Techniques 3rd Edition. Burlington: Morgan Kaufmann.
Xiong, H. (2009). K-means Clustering Versus Validation Measures: A Data Distribution
Perspective. IEEE TRANSACTIONS ON SYSTEMS, MAN, AND CYBERNETICS , 318-331.
Xu, R., & Wunsch, D. C. (2009). Clustering. (D. B. Fogel, Ed.) IEEE Computational
Intelligence Society.
Yates, R. B., & Neto, B. R. (1999). Modern Information Retrieval .
Zamir, O., Oren, E., Madani, O., & Karp, R. M. (1997). Fast and Intuitive Clustering Web
Document.
32
Lampiran 1 : Justifikasi Anggaran Penelitian
Honor
Ketua
Anggota 1
Honor/Jam
(Rp)
20000
15000
Sub Total
Waktu
(jam/minggu)
3
2
Minggu
32
25
Honor per
Tahun (Rp)
Tahun 1
1.920.000
750.000
2.670.000
2. Peralatan Penunjang
Material
Pustaka Jurnal
Justifikasi
Kuantitas
Pemakaian
Referensi
Sub Total
1 paket
Harga
Satuan
(Rp.)
1500000
Harga
Peralatan
Penunjang
Tahun 1
1.500.000
1.500.000
3. Bahan Habis Pakai
Material
Kertas kuarto
ATK
Cartridge
Justifikasi
Kuantitas
Pemakaian
Dokumentasi
Administrasi
Administrasi
Sub Total
12
1 paket
8
Harga
Satuan
(Rp.)
75000
710000
450000
Biaya per
tahun (Rp.)
Tahun 1
900.000
710.000
3.600.000
5.210.000
4. Perjalanan
Material
Justifikasi
Kuantitas
Perjalanan
Perjalanan dalam kota
1 paket
Harga
Satuan
(Rp.)
2000000
Sub Total
Biaya per
tahun (Rp.)
Tahun 1
2.000.000
2.000.000
5. Lain-lain
Kegiatan
Penggandaan
Publikasi Ilmiah
Penyajian Konferensi
Monev
Justifikasi
Kuantitas
Pemakaian
Penggandaan laporan
Biaya publikasi
biaya seminar
monitoring & evaluasi
Sub Total
33
8
1
1
1
Harga
Satuan
(Rp.)
50000
300000
300000
1000000
Biaya per
tahun (Rp.)
Tahun 1
400.000
300.000
300.000
1.000.000
2.000.000
Lampiran 2: Susunan Organisasi Tim Peneliti dan Pembagian Tugas
No NAMA/NIDN
Instansi
Asal
Bidang
Ilmu
1
Setyo Budi
/0615097602
UDINUS
Ilmu
Komputer
2
Dwiyono
Arifianto,
S.Kom
/0602128104
UDINUS
Ilmu
Komputer
34
Alokasi
Uraian Tugas
waktu
(jam/minggu)
7
1. Implementasi Metode
dan sesuai dengan
referensi
2. Melakukan eksperimen
3. Melakukan evaluasi
metode atau model yang
diusulkan
4
1. Penentuan kelompok
keilmuwan tentang
clustering
2. Mencari referensi
metode-metode yang
digunakan.
Lampiran 3 : Biodata Ketua dan Anggota
A. Identitas Diri Ketua
1 Nama Lengkap ( dengan gelar )
2 Jenis Kelamin
3 Jabatan Fungsional
4 NIP/NIK/Identitas lainnya
5 NIDN
6 Tempat Tanggal Lahir
7 e-mail
8 Nomor Telepon / HP
9 Alamat Kantor
10 Nomor Telepon/Faxs
11 Lulusan yang telah dihasilkan
12 Mata Kuliah
Setyo Budi, M.Kom
Laki-laki
0686.12.2000.192
0615097602
Pati, 15 September 1976
[email protected]
085325012955
Jl. Nakula 1 No. 5 – 11 Semarang
024-3569684
S-1 = … orang, S-2 = … Orang, S-3 = … Orang
1. Manajemen Database
2.
3.
Sistem Operasi
Pemrograman Aplikasi
B. Riwayat Pendidikan
Nama Perguruan Tinggi
Bidang Ilmu
Tahun Masuk – Lulus
Judul
Skripsi/Tesis/Disertasi
Nama Pembimbing /
Promotor
S-1
UDINUS Semarang
Ilmu Komputer
2000 – 2002
Sistem Informasi Barang
Habis Pakai di Fakultas
Kesehatan Universitas Dian
Nuswantoro Semarang
Purwanto, Ph.D
S-2
UDINUS Semarang
Ilmu Komputer
2011-2013
Komparasi Algoritma KMeans dan K-Medoids untuk
Analisis Sentimen Movie
Review
Dr. Ing. Vincent Suhartono
C. Pengalaman Penelitian Dalam 5 Tahun Terakhir
( Bukan Skripsi, Tesis, maupun desertasi )
No
Tahun
Judul Penelitian
Sumber
Pendanaan
Jml ( Juta Rp )
Dst
 Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber
lainnya
D. Pengalaman Pengabdian Kepada Masyarakat dalam 5 tahun Terakhir
Pendanaan
No
Tahun
Judul Penelitian
Sumber
Jml ( Juta Rp )
Dst
 Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber
lainnya
35
E. Publikasi Artikel Ilmiah dalam Jurnal dalam 5 tahun terakhir
No Judul Artikel
Nama Jurnal
Volume/Nomor/Tahun
Ilmiah
dst
F. Pemakalah Seminar Ilmiah ( Oral Presentation) dalam 5 tahun terakhir
No Nama Pertemuan
Nama Artikel Ilmiah
Waktu dan Tempat
Ilmiah / Seminar
dst
G. Karya Buku dalam 5 Tahun Terakhir
No Judul Buku
Tahun
Jumlah halaman
Penertbit
Jumlah halaman
Penertbit
dst
H. Perolehan HKI dalam 5-10 tahun terakhir
No Judul Buku
Tahun
dst
I. Pengalaman Merumuskan Kebijakan Publik/Rekayasa Sosial lainnya dalam 5 Tahun
terkahir
No Judul/Tema/Jenis Rekayasa Sosial
Tahun
Tempat
Respon
Lainnya yang telah diterapkan
Penerapam
Masyarakat
dst
J. Penghargaan dalam 10 tahun Terakhir (dari pemerintah, asosiasi atau institusi lainnya)
No Jenis Penghargaan
Institusi Pemberi Penghargaan
Tahun
Dst
36
37
A. Identitas Diri Anggota
1 Nama Lengkap ( dengan gelar )
2 Jenis Kelamin
3 Jabatan Fungsional
4 NIP/NIK/Identitas lainnya
5 NIDN
6 Tempat Tanggal Lahir
7 e-mail
8 Nomor Telepon / HP
9 Alamat Kantor
10 Nomor Telepon/Faxs
11 Lulusan yang telah dihasilkan
12 Mata Kuliah
Dwiyono Arifiyanto, S.Kom
Laki-laki
0686.12.2010.393
0602128104
Grobogan, 02 Desember 1981
[email protected]
085691159362
Jl. Nakula 1 No. 5 – 11 Semarang
024-3569684
S-1 = … orang, S-2 =… Orang, S-3 = …Orang
1. Streaming
2. Video Editing 1
3. Audio
a. Riwayat Pendidikan
Nama Perguruan Tinggi
Bidang Ilmu
Tahun Masuk – Lulus
Judul
Skripsi/Tesis/Disertasi
Nama Pembimbing /
Promotor
S-1
UDINUS Semarang
Ilmu Komputer
1999 –2006
Sistem Informasi Pemesanan Tiket Kereta Api pada Stasiun
Besar Semarang Tawang Berbasis Web
Dr. Y. Tyas Catur Pramudi, S.Si., M.Kom
b. Pengalaman Penelitian Dalam 5 Tahun Terakhir
( Bukan Skripsi, Tesis, maupun desertasi )
No
Tahun
Judul Penelitian
Sumber
Pendanaan
Jml ( Juta Rp )
Dst
 Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber
lainnya
c. Pengalaman Pengabdian Kepada Masyarakat dalam 5 tahun Terakhir
Pendanaan
No
Tahun
Judul Penelitian
Sumber
Jml ( Juta Rp )
Dst
 Tuliskan sumber pendanaan baik dari skema penelitian DIKTI maupun dari sumber
lainnya
d. Publikasi Artikel Ilmiah dalam Jurnal dalam 5 tahun terakhir
No Judul Artikel
Nama Jurnal
Volume/Nomor/Tahun
Ilmiah
38
dst
e. Pemakalah Seminar Ilmiah ( Oral Presentation) dalam 5 tahun terakhir
No Nama Pertemuan
Nama Artikel Ilmiah
Waktu dan Tempat
Ilmiah / Seminar
dst
f. Karya Buku dalam 5 Tahun Terakhir
No Judul Buku
Tahun
Jumlah halaman
Penertbit
Jumlah halaman
Penertbit
dst
I. Perolehan HKI dalam 5-10 tahun terakhir
No Judul Buku
Tahun
dst
J. Pengalaman Merumuskan Kebijakan Publik/Rekayasa Sosial lainnya dalam 5 Tahun
terkahir
No Judul/Tema/Jenis Rekayasa Sosial
Tahun
Tempat
Respon
Lainnya yang telah diterapkan
Penerapam
Masyarakat
dst
K. Penghargaan dalam 10 tahun Terakhir (dari pemerintah, asosiasi atau institusi lainnya)
No Jenis Penghargaan
Institusi Pemberi Penghargaan
Tahun
Dst
39
40
Lampiran 4 : Surat Pernyataan Ketua Peneliti
26
Download