Prediksi Rating Pada Review Produk Kecantikan - j

advertisement
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Vol. 2, No. 5, Mei 2018, hlm. 1991-1997
e-ISSN: 2548-964X
http://j-ptiik.ub.ac.id
Prediksi Rating Pada Review Produk Kecantikan Menggunakan Metode
Naïve Bayes dan Categorical Proportional Difference (CPD)
Fathor Rosi1, M. Ali Fauzi 2, Rizal Setya Perdana3
1,2,3
Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: [email protected], [email protected], [email protected]
Abstrak
Produk kecantikan pada saat ini menjadi hal yang populer di berbagai kalangan, terutama pada
kalangan wanita. Hampir kebanyakan dari mereka memiliki produk kecantikan dan termasuk sebagai
kebutuhan utama untuk menunjang penampilan mereka yang lebih baik lagi. Adanya suatu produk tidak
terlepas dari sebuah komentar atau review dari konsumen untuk produk tersebut. Tentunya dengan
adanya review tersebut bisa membantu konsumen untuk lebih selektif lagi dalam memilih suatu produk.
Dan dari pihak produksi bisa terbantu untuk mengukur seberapa jauh kualitas produk yang mereka
hasilkan. Namun dari pihak produksi sendiri terkadang mengalami kesulitan dalam memilah dan
mengkategorikan review, apakah produk tersebut kualitasnya tergolong bagus, cukup bagus, tidak
bagus, dan sebagainya. Dalam penelitian ini penilaian suatu produk berdasarkan review yang diberikan
adalah rating. Sehingga dibutuhkan sebuah sistem prediksi rating untuk memprediksi dan menentukan
rating yang tepat berdasarkan review yang diberikan oleh user terhadap suatu produk. Untuk mendukung
sistem yang dibangun dibutuhkan metode untuk menyelesaikan permasalahan tersebut, dalam penelitian
ini peneliti menggunakan metode Naïve Bayes dan Categorical Proportional Difference. Naïve Bayes
adalah metode untuk klasifikasi sedangkan Categorical Proportional Difference adalah seleksi fitur
untuk lebih mengoptimalkan hasil dari klasifikasi. Dari hasil pengujian, didapat tingkat akurasi terbaik
pada saat penggunaan fitur sebesar 50% dengan tingkat akurasi sebesar 87%. Hasil tersebut adalah hasil
terbaik dari hasil dengan rasio penggunaan fitur yang lain yaitu sebesar 25%, 75% dan 100%. Dari hasil
tersebut CPD terbukti bisa melakukan pemilihan kata yang dianggap relevan maupun tidak relevan
untuk dilakukan klasifikasi.
Kata kunci: prediksi rating, review, naïve bayes, Categorical Proportional Difference
Abstract
Beauty products at this time become a popular thing in various circles, especially among women.
Almost all of them have beauty products and are included as a primary requirement to support their
better performances. The existence of a product can not be separated from a comment or review of the
consumer for the product. Of course with the review can help consumers to be more selective again in
choosing a product. And from the production side can be helped to measure how far the quality of the
products they produce. But from the production itself sometimes have difficulty in sorting and categorize
the review, whether the product is good quality, good enough, not good, and so forth. In this study the
assessment of a product based on the review given is rating. So it takes a rating prediction system to
predict and determine the right rating based on the reviews given by the users of a product. To support
the system built required methods to solve the problem, in this study researchers used the method of
Naïve Bayes and Categorical Proportional Difference. Naïve Bayes is a method for classification
whereas Categorical Proportional Difference is a feature selection to further optimize the results of
classification. From the test results, obtained the best accuracy level when the use of features by 50%
with an accuracy of 87%. These results are the best results of the results with other feature usage ratios
of 25%, 75% and 100%. From these results CPD proven to make the selection of words that are
considered relevant or irrelevant to do classification.
Keywords: rating prediction, review, naïve bayes, Categorical Proportional Difference
Fakultas Ilmu Komputer
Universitas Brawijaya
1991
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
1. PENDAHULUAN
Produk kecantikan saat ini menjadi suatu hal
yang begitu populer di berbagai kalangan
terutama kalangan para wanita. Terdapat banyak
sekali produk kecantikan dengan menawarkan
keunggulan-keunggulan dari produk tersebut. Di
lain sisi dari banyaknya produk kecantikan yang
ada tidak akan lepas juga dari pendapat atau
komentar yang ditujukan kepada suatu produk
tertentu terkait beberapa parameter pada produk
tersebut
seperti
kualitas,
keunggulan,
kekurangan dan lainnya. Dengan semakin
pesatnya perkembangan teknologi saat ini tidak
sedikit juga suatu situs yang berkonten produk
kecantikan yang berisikan tentang produk
tersebut dan komentar atau review dari user yang
pernah menggunakan suatu produk tersebut.
Sehingga dari review tersebut bisa dijadikan
parameter
atau
rekomendasi
untuk
menggunakan suatu produk tertentu. Salah satu
contoh situs web yang bergerak pada bidang ini
adalah seperti FemaleDaily.com
FemaleDaily.com telah menjadi salah satu
situs yang paling populer pada saat ini yang
bergerak pada bidang produk kecantikan.
Terdapat beberapa ulasan mengenai beberapa
produk yang ada pada website, kurang lebih
terdapat 13.500 produk dari 1.000 brand dan
lebih dari 100.000 review pada produk-produk
yang ada pada website. Pada FemaleDaily.com
orang-orang menulis ulasan atau review pada
suatu produk dan memberikan rating mulai dari
1 sampai 5 berdasarkan kualitas produk tersebut
sesuai penilaian mereka sendiri ketika pernah
memakai produk tersebut. Rating digunakan
sebagai indikator yang sangat penting untuk
menunjang kualitas dan popularitas dari masingmasing produk. Di sisi lain review yang ada pada
suatu produk dapat juga menjadi faktor penentu
untuk kualitas produk tersebut karena dari
review yang diberikan oleh user akan
bergantung pada rating yang diberikan. Dari
pihak produsen produk sendiri terkadang
mengalami kesulitan dalam memilah dan
mengkategorikan review, dalam penelitian ini
penilaian suatu produk berdasarkan review yang
diberikan adalah rating. Maka dari itu
diperlukanlah suatu sistem prediksi rating untuk
memprediksi dan menentukan rating yang tepat
berdasarkan review yang diberikan oleh user
terhadap suatu produk.
Fakultas Ilmu Komputer, Universitas Brawijaya
1992
Penggunaan suatu metode terkadang tidak
terlepas dari pengguanaan suatu fitur untuk
meningkatkan keakuratan dalam proses
perhitungan. Dan diberbagai penelitian juga
sering ditemukan menggunakan metode seleksi
fitur untuk mengurangi dimensi dan
mempercepat proses perhitungan. Selain itu
dengan menggunakan seleksi fitur kita bisa
meningkatakan ke-efisienan dan ke-akuratan
dalam proses extract suatu dokumen yang subset
dengan pemilihan fitur yang dianggap lebih
relevan (Simeon, 2008) . Pada penelitian yang
dilakukan oleh simeon tersebut adalah
membandingkan beberapa metode seleksi fitur
dan salah satunya adalah Categorical
Proportional Difference (CPD). Hasil yang yang
didapat pada penelitian tersebut adalah bahwa
CPD dapat memberikan hasil yang lebih baik
daripada seleksi fitur yang lain.
Pada penelitian sebelumnya yang berkaitan
dengan Categotical Proportional Difference
(CPD) yang berjudul Sentiment Analysis And
Classification Of Online Reviews Using
Categorical Proportional Difference (Dorothy,
2011) membahas tentang penggunaan CPD
sebagai seleksi fitur pada beberapa metode
seperti Naïve bayes dan SVM dan menggunakan
dua dataset dalam percobaannya. Terdapat juga
seleksi fitur lain yang digunakan pada penelitian
tersebut yaitu IG dan X2 untuk dibandingkan
dengan CPD. Pada hasil pengujian dari
penelitian tersebut menunjukkan bahwa
pengguanaan CPD pada Sentiment Analysist
dapat bekerja dengan baik daripada seleksi fitur
yang lain. Dan dikatakan tingkat keakuratan
menjadi lebih konstant setelah 50% dari
beberapa fitur yang lain disingkirkan.
Berdasarkan uraian di atas, pada
penelitian ini peneliti menggunakan metode
Naïve Bayes dikarenakan tingkat akurasi yang
lebih baik dan dilakukan seleksi fitur sebelum
melakukan klasifikasi dengan menggunakan
metode Categorical Proportional Difference
(CPD) untuk mengukur derajat kontribusi
sebuah kata guna membedakan apakah kata
layak diprioritaskan untuk dilakukan klasifikasi
atau tidak. Alasan penggunaan metode CPD
adalah karena metode ini bisa digunakan untuk
menemukan kata yang banyak terjadi dalam
sebuah kelas dokumen, dengan menggunakan
frekuensi dokumen positif dan frekuensi
dokumen negatif (Simeon, 2008). Dengan
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
adanya penelitian ini, diharapkan permasalahan
dalam
menganalisa
dan
mengevaluasi
pandangan seseorang terhadap sebuah produk,
sehingga diketahui kelemahan produk dari sudut
pandang pengguna dan bisa meningkatkan daya
guna serta penjualan produk tersebut.
2. DATA DAN METODE
2.1 Data
Data yang digunakan pada penelitian ini
adalah review dari berbagai produk kecantikan
yang
langsung
diambil
dari
website
femaledaily.com. data yang digunakan sebagai
data latih sebanyak 500 data dengan komposisi
rating 1 sebanyak 100 data, rating 2 sebanyak
100 data, rating 3 sebanyak 100 data, rating 4
sebanyak 100 data, rating 5 sebanyak 100 data.
Sedangkan data uji yang digunakan sebanyak
100 data.
2.2 Naïve Bayes Classifier (NBC)
Naive Bayes adalah salah satu algoritma
pembelajaran induktif yang paling efektif dan
efisien untuk machine learning dan data mining.
Performa Naive Bayes yang kompetitif dalam
proses klasifikasi walaupun menggunakan
asumsi keindependenan atribut (tidak ada kaitan
antar atribut).
2.2.1 Multinomial Naïve Bayes
Metode
Multinomial
Naive
Bayes
merupakan algoritma yang naïve karena
mengasumsikan
indepedensi
diantara
kemunculan kata-kata dalam dokumen, tanpa
memperhitungkan urutan kata dan informasi
konteks dalam kalimat atau dokumen secara
umum.
Selain
itu
metode
tersebut
memperhitungkan jumlah kemunculan kata
dalam dokumen (Destuardi dan Surya, 2009).
Pada metode Multinomial Naïve Bayes,
untuk perhitungan peluang sebuah kata sama
dengan Naïve bayes pada umumnya, yang
berbeda hanya pada perhitungan Conditional
Probability saja.
𝑃(π‘Šπ‘– |𝐢𝑗 ) =
π‘π‘œπ‘’π‘›π‘‘ (𝑀𝑖 , 𝑐𝑗 ) + 1
(∑
𝑀∈𝑉
π‘π‘œπ‘’π‘›π‘‘(𝑀, 𝑐𝑗 )) + |𝑉|
π‘π‘œπ‘’π‘›π‘‘ (𝑀𝑖 , 𝑐) merupakan jumlah kata yang
muncul dalam suatu kategori atau kelas.
Penambahan nilai 1 dilakukan untuk
1993
menghindari
nilai
zero.
∑
π‘π‘œπ‘’π‘›π‘‘(𝑀, 𝑐)merupakan jumlah seluruh
𝑀∈𝑉
kata pada kelas. Sedangkan |𝑉| merupakan
jumlah seluruh kata diseluruh kelas.
2.3 Categorical Proportional Difference
(CPD)
Categorical Proportional Difference (CPD)
adalah feature selection untuk mengukur derajat
kontribusi sebuah kata guna membedakan
apakah kata tersebut termasuk pada suatu
kategori tertentu dari beberapa kategori yang
ada. Jadi setiap kelas yang ada akan dihitung
berapa banyak kata yang dicari ada pada suatu
dokumen tertentu dan menghitung juga kata
selain yang dicari. Sehingga akan ketemu jumlah
kata tersebut pada setiap-setiap kelas
Tabel 1 : Tabel Contingency
∑ Row
A
C
οΏ’C
B
D
A+C
B+D
N
C
W
οΏ’W
∑ Column
A+B
C+D
CPD mengukur sejauh mana kata yang
berkontribusi untuk membedakan kategori
tertentu dari kategori lain dalam korpus. Nilai
yang mungkin untuk CPD dibatasi pada interval
-1 sampai 1, di mana nilai yang dekat -1
menunjukkan bahwa kata terjadi pada sekitar
jumlah yang sama pada dokumen di semua
kategori dan 1 menunjukkan bahwa kata terjadi
di dokumen dari satu kategori. Lebih formal,
perbedaan proporsional kategori untuk kata 𝑀𝑖 di
Kategori 𝑐𝑗 didefinisikan sebagai berikut.
𝐢𝑃𝐷(𝑀𝑖 , 𝑐𝑗 ) =
𝐴−𝐡
𝐴+𝐡
Pada persamaan di atas A adalah jumlah
berapa kali kata 𝑀𝑖 dan kategori 𝑐𝑗 terjadi
bersama sama, B adalah berapa kali kata 𝑀𝑖
terjadi tanpa kategori 𝑐𝑗 , C adalah jumlah berapa
kali kategori c terjadi tanpa kata w, D adalah
jumlah kali kata bukan 𝑀𝑖 atau kategori 𝑐𝑗
terjadi. Sehingga setelah dilakukan perhitungan
di masing-masing kategori/class maka akan
dipilih nilai ratio yang tertinggi untuk
menentukan masuk pada suatu kategori/class
tertentu. Untuk persamaanya adalah sebagai
berikut.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
1994
𝐢𝑃𝐷(𝑀𝑖 ) = π‘šπ‘Žπ‘₯𝑗 {𝐢𝑃𝐷(𝑀𝑖 , 𝐢𝑗 )}
Gambar 2. Halaman Input Data
Gambar 1. Alur proses penyelesaian CPD
3. IMPLEMENTASI
Lingkungan implementasi diantaranya
menggunakan perangkat keras dan perangkat
lunak. Perangkat keras yang digunakan memiliki
spesifikasi meliputi: Memory (RAM) 4 GB,
Processor Intel Core i3 2.0 GHz, Harddisk 500
GB, Power Supply 600 W sedangkan perangkat
lunak yang digunakan meliputi: Sistem operasi
Microsoft Windows 7 64 bit, editor
pemrograman
Netbeans
IDE,
editor
dokumentasi Microsoft Office 2013, dan
Microsoft Excel 2013. Implementasi antarmuka
pada sistem ini berbasis desktop dan
menggunakan bahasa pemrogramana Java.
Berikut halaman antarmuka sistem ditunjukkan
pada Gambar 2 dan Gambar 3.
Gambar 3. Halaman Pengujian
4. HASIL PENGUJIAN DAN ANALISIS
Pada tahap pengujian dilakukan dua
skenario pengujian, yang pertama adalah
pengujian dengan menggunakan metode Naïve
bayes saja tanpa menggunakan seleksi fitur.
Yang kedua adalah pengujian dengan
menggunakan Naïve Bayes-CPD artinya pada
pengujian ini akan dilakukan pengurangan fitur
berdasarkan nilai CPD pada masing-masing
term.
4.1 Skenario pengujian klasifikasi klasifikasi
Naïve Bayes tanpa variasi rasio fitur
Pengujian ini dilakukan untuk mengetahui
tingkat akurasi pada klasifikasi prediksi rating
dengan menggunakan metode Multinomial
Naïve Bayes dan tanpa menggunakan fitur
seleksi. Kumpulan term yang dihasilkan dari
proses pre-processing akan langsung dilakukan
klasifikasi tanpa harus dikurangi.
Pada pengujian ini, data yang diuji benarbenar data asli review produk kecantikan yang
diambil pada website femaledaily.com. data uji
yang dipakai pada pengujian ini sebanyak 100
data dengan komposisi data random untuk rating
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
1 sampai rating 5, sedangkan untuk data latih
yang digunakan sebanyak 500 data dengan
komposisi data 100 data rating 1, 100 data rating
2, 100 data 3, 100 data 4, 100 data 5. Hasil
pengujian untuk tingkat akurasi menggunakan
Multinomial Naïve Bayes dapat dilihat pada
tabel 2.
Tabel 2 : Pengujian klasifikasi Naïve Bayes
tanpa variasi rasio fitur
klasifikasi menggunakan Multinomial Naïve Bayes
data
data latih
persebaran data
akurasi
100 data rating 1
100 data rating 2
100 data rating 3
100 data rating 4
64%
100 data rating 5
data uji
100 data uji
Hasil pengujian seperti pada tabel 2
menunjukkan tingkat akurasi dari proses
klasifikasi menggunakan Multinomial Naïve
Bayes sebesar 64%. Hasil tersebut menunjukkan
bahwa hanya sebanyak 64 data dari 100 data uji
yang diklasifikasi benar, dan peneliti
beranggapan hasil tersebut tidak terlalu bagus.
Data review pada website femaledaily.com
hampir semuanya bisa dikatakan tipe review
semi long text dengan rata-rata jumlah kata
antara 50-100 kata pada setiap review. Pada
review tersebut juga sering juga ditemukan katakata yang tidak baku dimana nanti kata-kata
tersebut juga akan dilakukan klasifikasi. Katakata yang tidak baku tersebut diantaranya seperti
kata singkatan dan kata-kata yang walaupun
sebenarnya adalah kata yang bersifat sentiment
namun karena penulisannya akhirnya kata
tersebut termasuk kata yang tidak baku juga. Hal
tersebut mengakibatkan klasifikasi dokumen
menjadi lebih lambat karena lebih banyak katakata yang harus diproses daripada yang
sebenarnya harus diproses. Dan hal tersebut
juga dapat mengurangi akurasi karena sistem
harus mempertimbangkan kata-kata yang tidak
perlu saat melakukan klasifikasi. Karena
permasalahan tersebut maka dibutuhkanlah
sebuah metode untuk mengurangi kata-kata yang
seharusnya tidak perlu untuk dilakukan
klasifikasi. Untuk itu peneliti menggunakan
seleksi fitur untuk memperkecil dimensi fitur,
artinya seleksi fitur disini berfungsi untuk
1995
memilih kata-kata yang dianggap relevan atau
diprioritaskan untuk dilakukan klasifikasi
4.2 Pengujian klasifikasi Naïve Bayes-CPD
dengan variasi rasio fitur
Pengujian ini menjelaskan tentang pengujian
klasifikasi dengan menggunakan metode
Multinomial Naïve Bayes-CPD dengan variasi
rasio fitur yang digunakan pada saat klasifikasi.
Pada pengujian ini akan dilakukan pengurangan
dimensi fitur atau term hasil pre-processing yang
digunakan pada saat klasifikasi adalah sebanyak
rasio yang yang telah ditetapkan yaitu sebesar
25%, 50%, 75% dan 100%. Untuk hasil
pengujian ini dapat dilihat pada tabel 3.
Tabel 3 : Pengujian klasifikasi Naïve Bayes
dengan variasi rasio fitur
klasifikasi menggunakan Multinomial Naïve Bayes
akurasi
persebaran
data
fitur
fitur
fitur
fitur
data
25% 50% 75% 100%
data
100 data rating
latih
1
100 data rating
2
100 data rating
3
54%
87% 64%
64%
100 data rating
4
100 data rating
5
data
100 data uji
uji
Pada pengujian ini sudah dilakukan
pengurangan dimensi fitur sesuai rasio yang
sudah ditetapkan oleh peneliti. Dengan data yang
sama pada pengujian ini mendapatkan nilai
akurasi terbaik sebanyak 87% pada penggunaan
fitur sebanyak 50%. Dengan kata lain
penggunaan CPD disini dapat mempengaruhi
nilai akurasi dengan mengurangi atau
membuang term-term yang dianggap tidak
relevan untuk diklasifikasi.
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Pengujian klasifikasi Naïve Bayes-CPD
dengan variasi rasio fitur
tingkat akurasi
100%
80%
87%
60%
40%
66%
64%
54%
20%
0%
fitur 25%
fitur 50%
fitur 75%
fitur 100%
Gambar 4. Grafik Akurasi Naïve Bayes-CPD dengan
variasi rasio fitur
Untuk analisis yang dilakukan peneliti
pada setiap rasio fitur yang digunakan sudah
dirincikan pada point-point di bawah ini :
1. Pada saat penggunaan fitur sepenuhnya atau
100% tingkat akurasi yang didapatkan hanya
sebesar 64%, selain beberapa faktor yang
sudah disebutkan di atas hal ini bisa saja
disebabkan karena setelah dilakukan preprocessing masih terdapat kata-kata pada
yang seharusnya tidak perlu dilakukan
klasifikasi tapi tetap dilakukan. Kata-kata
yang dimaksud adalah seperti kata-kata yang
tidak baku contohnya, sya, bagusss, kcewa,
mahall, dan sebagainya. Hal tersebut
tentunya akan mempengaruhi hasil dari
klasifikasi dan tidak mendapatkan hasil yang
maksimal.
2. Pada rasio penggunaan fitur sebesar 75%
tingkat akurasi yang didapatkan lebih bagus
dari rasio penggunaan fitur sebesar 100%.
Tingkat akurasi yang didapatkan sebesar
66%, artinya adalah kumpulan term hasil
pre-processing akan dikurangi sebesar 25%
berdasarkan nilai CPD terendah pada
masing-masing term dan 75% term akan
dilakukan klasifikasi. Walaupun tingkat
akurasi yang didapatkan tidak jauh beda
dengan penggunaan fitur sepenuhnya, dapat
dikatakan peran CPD disini berhasil
memprioritaskan
term
mana
yang
seharusnya diprioritaskan untuk dilakukan
klasifikasi dan memberikan hasil yang lebih
bagus.
3. Pada rasio penggunaan fitur sebesar 50%
sistem berhasil mendapatkan hasil yang
1996
signifikan lebih baik dari penggunaan fitur
sebesar 100% dan 75%. Tingkat akurasi
yang didapatkan adalah sebesar 87% artinya
sistem sudah berhasil mendapatkan hasil
klasifikasi yang tepat untuk 87 data dari 100
data uji. Pada rasio ini CPD hanya
menggunakan term sebesar 50% untuk
dilakukan klasifikasi dan sisanya akan
dibuang. Hal ini menunjukkan bahwa
kumpulan term hasil pre-processing kurang
lebih separuhnya adalah term yang
sebenarnya tidak perlu atau tidak
diprioritaskan untuk dilakukan klasifikasi.
Dengan penggunaan term sebesar 50%
tersebut bisa mendapatkan hasil yang lebih
maksimal.
4. sedangkan pada rasio penggunaan fitur
sebesar 25% sistem justru mendapatkan
hasil yang tidak maksimal. hasil yang
didapatkan pada rasio ini adalah hanya
sebesar 54% artinya hasil tersebut adalah
yang terendah dari rasio penggunaan fitur
yang lain. Peneliti menganalisis hal ini
disebabkan karena penggunaan fitur yang
terlalu sedikit sehingga informasi yang
diperlukan oleh sistem terlalu sedikit untuk
dilakukan klasifikasi, dan bisa saja terdapat
term yang semestinya diprioritaskan untuk
dilakukan klasifikasi tetapi ikut terbuang
atau tidak dilakukan klasifikasi, sehingga hal
tersebut menyebabkan sistem kurang
maksimal dalam menghasilkan hasil
klasifikasi.
5. KESIMPULAN
Berdasarkan hasil pengujian dan analisis
dari prediksi rating pada review produk
kecantikan menggunakan metode Naïve
Bayes dan Categorical Proportional
Difference dapat disimpulkan sebgai
berikut:
1. Metode klasifikasi Naïve Bayes dan
Categorical Proportional Difference dapat
diterapkan pada proses prediksi rating pada
review produk kecantikan. Data latih yang
diambil bersumber pada review produk
kecantikan pada website femaledaily.com.
dengan menggunakan data latih sebanyak
500 data dan data uji sebanyak 100 data
dapat memberikan hasil yang lebih baik
ketika penggunaan fitur sebesar 50%.
Sebelum dilakukan proses klasifikasi
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
dokumen perlu melalui berbagai tahapan
meliputi tokenisasi, filtering, case folding,
dan stemming untuk lebih memaksimalkan
hasil klasikfikasi.
2. Klasifikasi menggunakan Naïve Bayes dan
Categorical Proportional Difference dapat
memberikan hasil yang lebih baik daripada
menggunakan metode Naïve Bayes biasa.
Hasil terbaik yang didapat pada saat
penggunaan fitur sebanyak 50% dengan
tingkat akurasi sebesar 87%. Hal tersebut
membuktikan CPD berhasil melakukan
pemilihan kata yang lebih diprioritaskan
untuk dilakukan klasifikasi dan membuang
kata-kata yang dianggap tidak relevan untuk
dilakukan klasifikasi.
3. Pengurangan
dimensi
fitur
dengan
menggunakan Categorical Proportional
Difference yang diterapkan dengan
menggunakan
data
dari
website
femaledaily.com tidak menjamin ketika
semakin kita memperkecil dimensi fitur
yang digunakan maka akan memberikan
tingkat akurasi yang lebih baik. Karena pada
pengujian yang dilakukan pada saat
penggunaan fitur sebesar 25% sistem
memberikan nilai akurasi yang paling
rendah yaitu hanya sebesar 54%, artinya
adalah term-term yang diproses pada saat
klasifikasi tidak memberikan hasil yang
maksimal karena bisa saja terdapat kata-kata
yang sebenarnya relevan untuk dilakukan
klasifikasi tetapi ikut terbuang sehingga
sistem kekurangan informasi untuk
memberikan hasil yang maksimal.
6. DAFTAR PUSTAKA
Destuardi dan Surya, S. (2009). Klasifikasi
Emosi Untuk Teks Bahasa Indonesia
Menggunakan Metode Naïve Bayes.
Teknik Elektro, Institut Teknologi
Sepuluh Nopember, Surabaya.
Mustafa, A., Akbar, A., & Sultan, A. (2009).
Knowledge Discovery Using Text
mining:
A
Programmable
Implementation
on
Information
Extraction
and
Categorization.
International Journal of Multimedia and
Ubiquitous Engineering, 4(2), 183-188.
Montanes, E., Diaz, I., Ranilla, J., Combarro, E.
And Fernandez, J. (2005), ‘Scoring and
selecting terms for text categorization’,
IEEE Intelligent Systems 20(3), 40–47.
1997
Forman, G. (2008), Feature selection for text
classification, in H. Liu and H. Motoda,
eds, ‘Computational Methods of Feature
Selection’, Chapman and Hall / CRC, pp.
257–276.
Mondelle Simeon, Robert Hilderman. (2008)
Categorical Proportional Difference:A
Feature Selection Method for Text
Categorization. In Proceedings of the
Seventh Australasian Data Mining
Conference (AusDM 2008), Glenelg,
South Australia. CRPIT, 87. Roddick, J.
F., Li, J., Christen, P. and Kennedy, P. J.,
Eds. ACS. 201-208
Guo, Q. (2010). An Effective Algorithm for
Improving the Performance of Naive
Bayes for Text Classification. Cambridge
University Press.
Dorothy Aku Allotey, Regina, Saskatchewan.
(2011). Sentiment Analysis And
Classification Of Online Reviews Using
Categorical Proportional Difference
Jong, J. (2011). Prediksi Rating with Sentiment
Analysis.
Medhat, W., Hassan, A., & Korashy, H. (2014).
Sentiment analysis algorithms and
applications: A survey. Ain Shams
Engineering Journal, 5(4), 1093-1113.
Download