Seminar Nasional Universitas PGRI Yogyakarta 2016 ISBN 978

advertisement
ANALISIS SENTIMEN MAHASISWA TERHADAP UNIVERSITAS
Nurirwan Saputra
Fakultas Teknik Universitas PGRI Yogyakarta
[email protected]
Abstract
Sentiment analysis is the field of text mining and analyzing someone's opinion, someone evaluation,
sentiment a person, a person's attitude and emotions into written language. This research analyzes the
sentiment from students to the University for the case study students PGRI University of Yogyakarta
(UPY). Data is taken from UPY’s students that truly learn and minimum one year experience studied in
UPY. This study uses a preprocessing normalization of non-standard words into standard and use
tokenization Unigram, Bigram, Trigram, 1-2Gram and 1-3Gram. This Research used Naïve Bayes, SVM,
and Tree J48 method for classification. The purpose of this research is to get the most optimal method of
classification..
The results of the research conducted accuracy of the method is as follows, Naive Bayes (Unigram
89.4273% 77.0925% Bigram, Trigram 69.163%, 90.3084% 1-2Gram, 1-3Gram 90.7489%), accuracy
SVM used Sequential Minimal Optimization (SMO) techniques is as follows (Unigram 92.0705%,
Bigram 82.8194% 71.8062% Trigrams, 1-2Gram 92.0705%, and 91.63% 1-3Gram ) and the accuracy by
using Tree J48 is as follows (Unigram 88.9868% 68.2819% Bigram, Trigram 62.5551% 89.8678% 12Gram, 1-3Gram 89.8678%).
SVM classification method is the best method in this study with the highest accuracy of 92.0705%
by using a tokenization Unigram and 1-2Gram. While the Naive Bayes method is the fastest method of
classifying with tokenization Unigram by the time required to build a model is 0.33 seconds.
Keywords: sentiment analysis, normalization, naive bayes, svm, Tree J48, Unigram, Bigram, Trigram, 12Gram, 1-3Gram.
1. PENDAHULUAN
Universitas
merupakan
lembaga
pendidikan yang bertanggung jawab dalam
membentuk karakter seseorang baik dalam
bidang akademik maupun karakteristik
seseorang sehingga mampu bersaing di
dunia
luar.
Berkembangnya
sebuah
Universitas tidak lepas dari peran orangorang di dalamnya, diantaranya dosen,
karyawan,
dan
tentunya
mahasiswa.
Mahasiswa menjadi faktor yang sangat
penting dalam berkembangnya sebuah
Universitas, sukses atau tidaknya sebuah
Universitas dilihat dari lulusannya, semakin
baik karir lulusannya, semakin baik pula
reputasi sebuah Universitas, sebaliknya
semakin tidak baik hasil lulusannya, semakin
menurun pula reputasi sebuah Universitas.
Variabel yang mempengaruhi prestasi
belajar pada mahasiswa adalah tujuan
pembelajaran, bahan ajar, alat, motivasi,
proses belajar mengajar, metode, sumber,
evaluasi, mahasiswa, interaksi mahasiswa
dengan mahasiswa, lingkungan, kesehatan
dan bakat yang direduksi menjadi 4 faktor
yang terbentuk yaitu faktor 1 terdiri dari
proses belajar mengajar, metode, sumber dan
mahasiswa, faktor 2 terdiri atas bahan ajar,
alat, motivasi dan evaluasi, faktor 3 terdiri
atas interaksi mahasiswa dengan materi,
lingkungan dan kesehatan sedangkan faktor
4 terdiri atas tujuan dan bakat. Variabel
tersebut didapat berdasarkan proses belajar
mengajar mahasiswa di dalam Universitas,
sehingga diperlukan masukan yang langsung
diberikan oleh mahasiswa baik itu masukan
positif maupun negatif. Masukan positif
100
Seminar Nasional Universitas PGRI Yogyakarta 2016
ISBN 978-602-73690-6-1
yang didapat dari mahasiswa terhadap
Universitas dapat dipertahankan atau
bahkan dapat ditingkatkan, sedangkan
masukan negatif menjadi evaluasi dan
perbaikan sehingga proses belajar mengajar
menjadi lebih baik lagi.
Universitas merupakan komunitas orangorang terpelajar yang mengatur dirinya
sendiri (Karmel, 1989). Menurut Blackburn
and Lawrence (1995), Universitas merupakan
salah satu organisasi sosial di dunia yang
paling dominan karena Universitas memiliki
peran penting dalam mempersiapkan
seseorang untuk menduduki jabatan dan
bergabung
dalam
profesi
tertentu,
mentransmisikan budaya pada generasi
berikutnya, memberikan kritik kepada
masyarakat,
serta
menghasilkan
dan
menerapkan ilmu pengetahuan.
UPY merupakan Universitas Swasta
yang berlokasi di Jl. PGRI I Sonosewu No.
117 Yogyakarta, UPY berdiri pada tanggal 05
Maret 1962 di bawah Yayasan Pembina
Lembaga Pendidikan (YPLP) UPY yang
merupakan yayasan yang menginduk PGRI
secara nasional. Universitas terdiri atas
unsur-unsur senat, pimpinan, dosen, tenaga
administrasi, pustakawan, teknisi, unsur
pelaksana akademik, unsur penunjang, dan
unsur-unsur lain yang diperlukan. Rektor
mempunyai tiga pembantu rektor dan rektor
sekaligus sebagai ketua senat. Unsur
pelaksana akademik terdiri dari fakultas,
program studi, lembaga-lembaga, pusatpusat dan bentuk lain yang dianggap perlu.
UPY mempunyai Program Sarjana (S1) yang
terdiri dari empat Fakultas, dan Program
Pasca sarjana P-IPS (S2). Program Sarjana
(S1), terdiri dari; Fakultas Keguruan dan
Ilmu Pendidikan, Fakultas Ekonomi, Fakultas
Teknik, dan Fakultas Pertanian.
1.1. Analisis Sentimen
Analisis sentimen dan opinion mining
adalah bidang studi yang menganalisis
pendapat seseorang, sentiment seseorang,
evaluasi seseorang, sikap seseorang dan
emosi seseorang ke dalam bahasa tertulis.
Analisis sentimen telah banyak menerima
perhatian semenjak penelitian Pang, Turney,
Goldberg dan Zhu. Analisis sentimen
memiliki banyak tantangan, di antaranya
adalah penilain yang dikeluarkan dalam
sebuah dokumen atau bagian dari dokumen
ditujukan kepada subjek atau objek, dan
apakah pendapat yang dinyatakan positif
atau negatif.
Analisis sentimen atau opinion
mining mencakup berbagai macam tugas
yang
berbeda-beda
seperti
sentiment
analysis, opinion mining, opinion extraction,
sentiment mining, subjectivity analysis, affect
analysis, emotion analysis, dan review
mining.
1.2. Universitas PGRI Yogyakarta (UPY)
Perguruan tinggi merupakan lembaga
pendidikan tinggi yang menghasilkan
lulusan-lulusan yang ahli dalam berbagai
bidang demi menjawab berbagai kebutuhan
masyarakat, bangsa, dan Negara. Saat ini
semakin banyak penduduk Indonesia yang
mengikuti
pendidikan
tinggi
untuk
memperoleh pendidikan yang lebih baik
sehingga dapat meningkatkan harkat
kehidupannya. Sebagai suatu organisasi,
Universitas adalah organisme hidup yang
terdiri dari sivitas akademika yang saling
berinteraksi. Secara tradisional, Universitas
didefinisikan sebagai a self-governing
corporation
of
scholars.
Ini
berarti
1.3. Normalisasi Kata
Merupakan pengubahan kata dari yang
tidak baku menjadi baku, kata tidak baku ini
bisa terjadi karena kesalahan ketik ataupun
karena kebiasaan masyarakat menyingkat
penulisan kata. Contohnya adalah untuk
kalimat baku “kenapa” masyarakat kadang
kala menyingkatnya dengan kata “knp” atau
“knapa”. Untuk itu diperlukan normalisasi
101
Seminar Nasional Universitas PGRI Yogyakarta 2016
ISBN 978-602-73690-6-1
kata agar kata yang tidak baku menjadi baku
dan menjadi satu kesatuan makna.
Kuliah di
Di
Di UPY
UPY
Terhitung, dan seterusnya
5. 1-3Gram,
yaitu
membagi
menjadi
Unigram,
Bigram
dan
Trigram,
menghasilkan :
Biaya
Biaya kuliah
Biaya kuliah di
Kuliah
Kuliah di
Kuliah di UPY
Di
Di UPY
Di UPY terhitung, dan seterusnya
1.4. Tokenisasi
Proses
tokenisasi
adalah
proses
pemotongan string input berdasarkan tiap
kata yang menyusunnya. Token yang dipakai
dalam penelitian ini menggunakan tokenisasi
Unigram, Bigram, Trigram, 1-2Gram dan 13Gram. Dengan adanya tokenisasi, penelitian
ini tidak terikat dengan satu aturan bahasa
apapun. Tokenisasi merupakan tahap
pemrosesan dimana teks input dibagi
menjadi unit-unit kecil yang disebut token
sepanjang n karakter. Dalam bahasa
Indonesia, frasa dengan satu kesatuan arti
memiliki maksimal tiga kata, sehingga
maximal pengambilan kata adalah sebanyak
tiga kata. Contoh tokenisasi yang dilakukan
pada penelitian ini dengan kalimat “biaya
kuliah di upy terhitung murah” adalah
sebagai berikut.
1. Unigram: yaitu token yang terdiri dari
hanya satu kata, menghasilkan:
biaya
kuliah
di
upy
terhitung
murah.
2. Bigram: yaitu token yang terdiri dari dua
kata, menghasilkan:
biaya kuliah
di upy
terhitung murah
atau terjangkau
3. Trigram: yaitu token yang terdiri dari tiga
kata, menghasilkan:
biaya kuliah di
upy terhitung murah
atau terjangkau
4. 1-2Gram,
yaitu
membagi
menjadi
Unigram dan Bigram, menghasilkan :
Biaya
Biaya kuliah
Kuliah
1.5. Naive Bayes
Naive Bayes adalah sebuah algoritma
analisa statistik, yang melakukan pengolahan
data terhadap data numerik menggunakan
probabilitas Bayesian. Klasifikasi–klasifikasi
Bayes adalah klasifikasi statistik yang dapat
memprediksi
kelas
suatu
anggota
probabilitas.
Untuk
klasifikasi
Bayes
sederhana yang lebih dikenal sebagai naïve
Bayesian Classifier dapat diasumsikan bahwa
efek dari suatu nilai atribut sebuah kelas
tidak dipengaruhi atau mempengaruhi nilai
dari atribut lainnya. Asumsi ini disebut class
conditional independence yang diciptakan
untuk memudahkan perhitungan, pengertian
ini dianggap “naive”, dalam bahasa lebih
sederhana naïve itu mengasumsikan bahwa
kemunculan suatu term kata dalam suatu
kalimat tidak dipengaruhi kata-kata yang
lain, sehingga dalam analisis sentimen kata
yang muncul memiliki bobot masing-masing
yang kemudian dihitung total bobot
seluruhnya
apakah
kalimat
tersebut
termasuk positif ataupun negatif.
1.6. SVM
Support Vector Machine (SVM) adalah
sejenis model vector berbasiskan classifier
102
Seminar Nasional Universitas PGRI Yogyakarta 2016
ISBN 978-602-73690-6-1
yang mengharuskan sebuah teks harus
diubah menjadi vector sebelum digunakan
untuk klasifikasi. Key idea dari SVM adalah
untuk menemukan permukaan keputusan
(Hyperlane) yang maksimal dari setiap titik
data. Untuk melakukan training mesin yang
didukung oleh vector atau biasa disebut
Support Vector Machine (SVM) memerlukan
solusi Quadratic Programming (QP) yang
sangat besar. Quadratic Programming adalah
masalah matematika untuk menemukan
vector “x” yang meminimalkan fungsi
kuadrat, dengan melakukan pembagian kelas
menggunakan hyperplane maka masingmasing kelas positif dan negatif dapat dibagi
berdasarkan area masing-masing sehingga
ketika terdapat data baru dapat ditentukan
kelasnya berdasarkan area positif maupun
negatif.
angkatan 2014 terdapat 4 kelas, sehingga
pengumpulan data dilakukan sebanyak 4
kali. Masing-masing mahasiswa diminta
untuk jujur memberikan masukan positif dan
negatif terhadap UPY, masing-masing
mahasiswa diberikan selembar kertas yang
berisi kolom positif dan negatif. Mahasiswa
tidak diminta memasukkan nama, untuk
menjaga privasi dan memberikan kebebasan
berpendapat khususnya untuk masukan
negatif.
2.2. Memasukkan data
Selanjutnya data diketikkan ke dalam
aplikasi notepad di komputer.
2.3. Melakukan preprocessing terhadap
data.
Data yang sudah diperoleh akan
dilakukan preprocessing terlebih dahulu,
preprocessing yang dilakukan adalah
melakukan normalisasi tiap kata, sehingga
kata yang tidak baku
menjadi baku
(misalkan : dgn, krn menjadi dengan,
karena).
1.7. Decision Tree J48
Decision Tree J48 merupakan standar
algoritma yang digunakan dalam machine
learning. Algoritma ini merupakan salah satu
algoritma klasifikasi dalam data mining.
Algoritma klasifikasi merupakan algoritma
yang secara induktif dalam pembelajaran
dalam mengkonstruksikan sebuah model
dari data set yang belum diklasifikasikan
(preclassified data set). Setiap data dari item
berdasarkan dari nilai dari setiap atribut.
Klasifikasi dapat dilihat sebagai mapping
dari sekelompok set dari atribut dari kelas
tertentu. Decision Tree mengklasifikasikan
data yang diberikan menggunakan nilai dari
atribut.
2. METODE PENELITIAN
Tahapan penelitian yang
meliputi :
2.4. Data diubah ke Arff
Arff adalah format data yang dapat
dibaca oleh weka, sehingga data yang
didapat harus diubah dulu ke dalam format
.arff.
2.5. Mengubah data ke vektor
Pada tahap ini, data yang berupa
kalimat yang sudah dilabeli dengan positif
dan negatif diubah menjadi bentuk vektor.
Data yang sudah diubah ke .arff, selanjutnya
dibuka di weka, setelah itu tekan tombol
choose
pada
filter
dan
pilih
StringToWordVector yang ada pada weka,
kemudian filters, Unsupervised, attribute
kemudian StringToWordVector. Selanjutnya
data akan diubah menjadi vektor.
dilakukan
2.1. Pengumpulan
Mahasiswa
Teknik
Informatika UPY angkatan 2014
Pengumpulan mahasiswa dilakukan
pada saat jam perkuliahan berlangsung.
Untuk mahasiswa Teknik Informatika
103
Seminar Nasional Universitas PGRI Yogyakarta 2016
ISBN 978-602-73690-6-1
2.6. Melakukan klasifikasi data
Data
yang
sudah
dilakukan
preprocessing, selanjutnya akan dilakukan
klasifikasi data dengan menggunakan
metode Naive Bayes, SVM dan Tree J48.
3.2. Berdasarkan Time
Berdasarkan waktu yang dibutuhkan
dalam membangun model, dapat dilihat
pada Gambar 3.
Waktu yang dibutuhkan
dalam membangun model
3. HASIL DAN PEMBAHASAN
3.1. Berdasarkan Akurasi
Gambar 1 merupakan akurasi yang di
berdasarkan tiap metode baik menggunakan
tokenisasi Unigram, Bigram, Trigram, 12Gram, maupun 1-3Gram.
13Gram
12Gram
Hasil Klasifikasi
100
2.36
0.53
0.5
2.02
0.5
0.44
Trigram
0.64
0.6
Bigram
0.67
0.58
90
0.98
80
Akurasi (%)
70
60
50
Unigra
m
40
30
20
0.86
0.42
0.33
0
2.12
1
10
2
3
Detik
0
J48
SVM
Naive Bayes
Naive Bayes
SVM
J48
Berdasarkan waktu yang dibutuhkan
dalam membangun model, metode Naive
Bayes lebih cepat dibandingkan metode
SVM, baik menggunakan token Unigram,
Bigram, Trigram, 1-2Gram, maupun 13Gram. Waktu rata-rata yang dibutuhkan
dalam membangun model dapat dilihat pada
Gambar 4.
Akurasi tertinggi diperoleh dengan
menggunakan metode SVM baik dengan
menggunakan token Unigram, Bigram,
Trigram, 1-2Gram maupun 1-3Gram. Nilai
akurasi rata-rata dari tiap metode dapat
dilihat pada Gambar 2.
Waktu rata-rata
Membangun Model
90
85
86.0793
83.3480 2
2
79.9118
8
Time Build (s)
Persentase Akurasi (%)
Rata-rata Akurasi Ketiga
Metode
80
75
2
1.668
1.5
1
0.49
0.552
0.5
0
Rata-Rata Akurasi
Naive Bayes
SVM
Time
Tree J48
Naive Bayes
104
SVM
J48
Seminar Nasional Universitas PGRI Yogyakarta 2016
ISBN 978-602-73690-6-1
4. KESIMPULAN
Kesimpulan
yang
didapat
dari
penelitian yang dilakukan adalah sebagai
berikut.
1. Metode SVM merupakan metode
klasifikasi terbaik pada penelitian ini
dengan akurasi tertinggi 92,0705%
dengan menggunakan token 1-2Gram
maupun Unigram.
2. Metode Naive Bayes merupakan Metode
klasifikasi yang tercepat dengan token
Unigram
dengan
waktu
yang
dibutuhkan untuk membangun model
selama 0,33 detik.
3. Metode Decision Tree J48 kurang baik
dalam melakukan klasifikasi analisis
sentimen, baik itu dari segi akurasi
maupun waktu yang dibutuhkan dalam
membangun model.
Classifier,” Universitas Gadjah Mada,
2014.
B. Pang and L. Lee, “Opinion Mining and
Sentiment Analysis,” Found Trends Inf
Retr, vol. 2, no. 1–2, pp. 1–135, Jan. 2008.
D. Kerami and H. Murfi, “Kajian
Kemampuan Generalisasi Support Vector
Machine dalam Pengenalan Jenis Splice
Sites Pada Barisan DNA,” 03-Dec-2004.
[Online].
Available:
http://repository.ui.ac.id/dokumen/lihat
/246.pdf. [Accessed: 08-Mar-2015].
D. Widiastuti, “Analisa Perbandingan
Algoritma Svm, Naive Bayes, Dan
Decision Tree Dalam Mengklasifikasikan
Serangan
(Attacks)
Pada
Sistem
Pendeteksi Intrusi.” [Online]. Available:
http://www.gunadarma.ac.id/library/ar
ticles/graduate/computerscience/2008/Artikel_11104835.pdf.
[Accessed: 26-Sep-2016].
H. Februariyanti, E. Zuliarso, and M. S.
Utomo,
“Prototipe
Mesin
Pencari
Dokumen Teks,” 18-Aug-2010. [Online].
Available:
http://eprints.unisbank.ac.id/1579/.
[Accessed: 03-Dec-2014].
J. Blitzer, “Domain adaptation for sentiment
classification.” [Online].
Available:
http://john.blitzer.com/papers/sentimen
t_domain.pdf. [Accessed: 03-Sep-2014].
J. K. Wibisono and M. S. Drs. Edi Winarko,
“Opinion Mining Pada Twitter Untuk
Bahasa
Indonesia
Dengan
Metode
Support Vector Machine Dan Metode
Berbasis Lexicon,” Universitas Gadjah
Mada, 2013.
L. Seniati, “Pengaruh Masa Kerja, Trait
Kepribadian, Kepuasan Kerja, Dan Iklim
Psikologis Terhadap.” [Online]. Available:
M. Merina, “Klasifikasi Dokumen Beropini
Me nggunakan Metode Naive Bayes dan
Metode
Categorical
Pr
oportional
Difference,” Klasifikasi Dok. Beropini Me
Nggunakan Metode Naive Bayes Dan
Metode Categ. Pr Oportional Differ., 2013.
REFERENSI
“Analisa Rekam Medis untuk Menentukan
Pola Kelompok Penyakit Menggunakan
Klasifikasi dengan Decision Tree J48 Google Scholar.” [Online]. Available:
https://scholar.google.co.id/scholar?hl=e
n&q=Analisa+Rekam+Medis+untuk+Men
entukan+Pola+Kelompok+Penyakit+Men
ggunakan+Klasifikasi+dengan+Decision+
Tree+J48&btnG=. [Accessed: 28-Sep-2016].
“http://repository.ui.ac.id/dokumen/lihat/
402.pdf.” [Accessed: 11-Mar-2016].
“Quadratic Programming – MATLAB.”
[Online].
Available:
http://www.mathworks.com/discovery/
quadratic-programming.html. [Accessed:
07-Dec-2014].
“Universitas PGRI Yogyakarta (UPY),
Bantul.”
[Online].
Available:
http://pkkumby.com/2015/10/Universit
as-pgri-yogyakarta-upy-bantul/.
[Accessed: 11-Mar-2016].
A. F. Hidayatullah and M. T. Dr. Azhari SN,
“Analisis Sentimen Dan Klasifikasi
Kategori Terhadap Tokoh Publik Pada
Data Twitter Menggunakan Naive Bayes
105
Seminar Nasional Universitas PGRI Yogyakarta 2016
ISBN 978-602-73690-6-1
N.
Adiyasa,
“Sentiment
Analysis
Menggunakan
Pendekatan
LexiconBased,” Catatan Kecil. [Online]. Available:
https://adidella.wordpress.com/tag/lexi
con-based/. [Accessed: 02-Dec-2014].
N. Saputra, T. Bharata Adji, and A. Erna
Permanasari, “Analisis Sentimen Data
Presiden Jokowi dengan Preprocessing
Normalisasi dan Stemming Menggunakan
Metode Naive Bayes dan SVM.” [Online].
Available:
http://upy.ac.id/ojs/index.php/dinf/arti
cle/viewFile/113/82. [Accessed: 11-Mar2016].
S. Rahmawati, “Selfie: Peranan Jenis
Komentarterhadap Hubungan Antara
Kecemasan Sosial Dan Perilaku Agresif
Pelaku
Selfie,”
psikologi.ub.ac.id.
[Online].
Available:
http://psikologi.ub.ac.id/wpcontent/uploads/2014/11/SartikaRahmawati_105120307111008_Psikologi_J
urnal.pdf. [Accessed: 25-Nov-2014].
V. K. Singh, R. Piryani, A. Uddin, P. Waila,
and Marisha, “Sentiment analysis of
textual reviews; Evaluating machine
learning, unsupervised and SentiWordNet
approaches,” in 2013 5th International
Conference on Knowledge and Smart
Technology (KST), 2013, pp. 122–127.
V. L. Sauter, Decision Support Systems for
Business Intelligence. John Wiley & Sons,
2011.
Y. Riyani, “Faktor-faktor yang Mempengaruhi Prestasi Belajar Mahasiswa.”
[Online].
Available:
https://www.google.com/search?q=keny
amanan+dalam+belajar+mengajar+sangat
+berpengaruh+terhadap+hasil+mahasisw
a&ie=utf-8&oe=utf-8. [Accessed: 10-Mar2016].
V. L. Sauter, Decision Support Systems for
Business Intelligence. John Wiley & Sons,
2011.
106
Download