Uploaded by User27657

Analisis Sentimen Opini Mahasiswa Terhadap Saran Kuesioner Penilaian Pelayanan Akademik di Universitas Alma Ata dengan Menggunakan TF

advertisement
Analisis Sentimen Opini Mahasiswa Terhadap Saran Kuesioner Penilaian
Pelayanan Akademik di Universitas Alma Ata dengan Menggunakan TFIDF dan K-Nearest Neighbor
Cahya Adi Saputra
Program Studi Teknik Informatika, Fakultas Teknik, Universitas Alma Ata
Email : [email protected]
1. LATAR BELAKANG
Kuesioner penilaian merupakan salah satu alat evaluasi yang telah umum digunakan,
berisi daftar sejumlah pertanyaan yang diberikan kepada responden untuk memberikan
penilaian atau balikan terhadap suatu objek atau suatu kegiatan dengan tujuan tertentu. Dalam
dunia akademik khususnya perguruan tinggi, kuesioner evaluasi sangatlah penting karena
dapat menjadi tolok ukur pelayanan akademik. BAN-PT sebagai lembaga sertifikasi akreditasi
perguruan tinggi, juga telah menetapkan standar evaluasi yang harus dipenuhi oleh setiap
perguruan tinggi. Harapannya adalah kualitas semua perguruan tinggi dapat diawasi dan
dikendalikan oleh pemerintah.
Berdasarkan dari standar yang telah ditetapkan oleh pemerintah, Universitas Alma Ata
(UAA) sebagai salah satu penyelenggara Pendidikan Tinggi juga menekankan mempunyai
sistem eveluasi yang memenuhi standar. UAA saat ini mempunyai kuesioner evaluasi yang
tersistem untuk dapat mengetahui respon mahasiswa selama satu semester secara lebih
menyeluruh. Kategori kuesioner tersebut adalah kuesioner evaluasi untuk dosen dan kuesioner
evaluasi untuk pelayanan staf dan karyawan akademik. Melalui kuesioner tersebut, mahasiswa
diminta memberikan masukan, saran atau pendapat terkait dengan proses pembelajaran yang
diikuti. Tentunya, mahasiswa dapat memberikan penilaian yang positif atau negative terhadap
proses perkuliahan serta hal-hal terkait dengan proses belajar mengajar yang telah diikutinya,
yang pada akhirnya dapat menggambarkan tingkat kepuasan mahasiswa terhadap proses
perkuliahan di kampus.
Akan tetapi, salah satu tantangan dalam pengolahan kuesioner evaluasi yaitu proses
analisisnya, hal ini dikarenakan pada kuesioner tersebut, selain terdapat pertanyaan opsi juga
pertanyaan berupa isian responden dalam bentuk kalimat saran, masukan, atau berupa
pendapat. Melakukan penilaian atau analisis satu persatu terhadap isian kuesioner secara
manual tentunya berdampak pada biaya (cost) yang tinggi, seperti waktu dan tenaga. Maka dari
itu, diperlukan alat yang dapat digunakan untuk membantu proses penilaian kuesioener,
sehingga analisis hasilnya dapat dilakukan lebih cepat dan efisien. Penelitian ini bertujuan
untuk menerapkan Deep Sentiment Analysis menggunakan K-Nearest Neighbor untuk
membantu proses penilaian hasil angket terbuka. Data dari kuesioner akan dioleh untuk dapat
diklasifikasikan kedalam laporan analisis sentiment berdasarkan opini yang telah ditulis oleh
mahasiswa. Pemilihan Deep Sentiment Analysis menggunakan K-Nearest Neighbor
didasarkan pada tingkat akurasinya yang baik dan efektif jika digunakan pada data latih
(training) yang berjumlah besar dan mengandung informasi yang kurang atau tidak berarti
(noisy). Sehingga dengan solusi yang diusulkan dalam penelitian ini, dapat diketahui apakah
Fakultas Teknik
Universitas Janabadra
isian pada kuesioner bermakna positif atau negatif dan juga akurasi penilaiannya dapat
ditingkatkan.
2. TINJAUAN PUSTAKA
Tinjauan pustaka/penelitian sebelumnya dari penelitian ini, meliputi:
2.1 Sentiment Analysis
Sentiment Analysis atau opinion mining merupakan proses memahami,
mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan
informasi sentiment yang terkandung dalam suatu kalimat opini. Sentiment Analysis
dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah
masalah atau objek oleh seseorang, apakah cenderung berpandangan atau beropini
negatif atau positif (Bo Pang, 2002).
Sentiment Analysis dapat dibedakan berdasarkan sumber datanya, beberapa
level yang sering digunakan dalam penelitian Sentiment Analysis adalah Sentiment
Analysis pada level dokumen dan Sentiment Analysis pada level kalimat (Fink
Clayton, 2011).
2.2 Klasifikasi
Klasifikasi merupakan suatu pekerjaan menilai objek data untuk
memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam
klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu : pertama, Pembangunan
model sebagai prototype untuk disimpan sebagai memori dan kedua, Penggunaan
model tersebut untuk melakukan pengenalan/ klasifikasi/ prediksi pada suatu objek
data lain agar diketahui di kelas mana objek data tersebut dalam model yang mudah
disimpan (Prasetyo, Eko. 2012).
Contoh aplikasi yang sering ditemui adalah pengklasifikasian jenis hewan,
yang mempunyai sejumlah atribut. Dengan atribut tersebut, jika ada hewan baru,
kelas hewannya bisa langsung diketahui. Contoh lain adalah bagaimana melakukan
diagnosis penyakit kulit kanker melanoma (Prasetyo, Eko. 2012), yaitu dengan
melakukan pembangunan model berdasarkan data latih yang ada, kemudian
menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga
diketahui apakah pasien tersebut menderita kanker atau tidak.
2.3 K-Nearest Neighbor
Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk
melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang
jaraknya paling dekat dengan objek tersebut. KNN termasuk algoritma supervised
learning dimana hasil dari query instance yang baru diklasifikan berdasarkan
mayoritas dari kategori pada KNN. Nanti kelas yang paling banyak muncul yang
akan menjadi kelas hasil klasifikasi.
Tujuan dari algoritma ini adalah mengklasifikasikan obyek baru
bedasarkan atribut dan training sample. Classifier tidak menggunakan model
apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik
query, akan ditemukan sejumlah K obyek atau (titik training) yang paling dekat
Fakultas Teknik
Universitas Janabadra
dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi
dari k obyek.. algoritma k-nearest neighbor (KNN) menggunakan klasifikasi
ketetanggaan sebagai nilai prediksi dari query instanceyang baru.
Algoritma metode K-Nearest Neighbor (KNN) sangatlah sederhana, bekerja
berdasarkan jarak terpendek dari query instance ke training sample untuk
menentukan KNN-nya. Training sample diproyeksikan ke ruang berdimensi
banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang
ini dibagi menjadi bagian-bagian berdasarkan klasifikasi training sample. Sebuah
titik pada ruang ini ditandai kelas c jika kelas c merupakan klasifikasi yang paling
banyak ditemui pada k buah tetangga terdekat dari titik tersebut. Dekat atau
jauhnya tetangga biasanya dihitung menggunakan penghitung jarak dianaranya
adalah menggunakan Minkowski Distance dan City Block Distance.
Cosine similiarity merupakan salah satu cara atau metode yang dapat
digunakan untuk melihat sejauh mana kemiripan isi antar dokumen. Dalam hal
ini cosine similiarity berfungsi untuk menguji ukuran yang dapat digunakan
sebagai interpretasi kedekatan jarak
berdasarkan kemiripan dokumen.
Persamaan(1) berikut ini adalah rumus untuk menghitung jarak pada algoritma
KNN dengan metode cosine similiarity:
Dimana,
D = Data Latih
n
= Banyaknya Data
Cosine similiarity merupakan salah satu cara atau metode yang dapat
digunakan untuk melihat sejauh mana kemiripan isi antar dokumen. Dalam hal
ini cosine similiarity berfungsi untuk menguji ukuran yang dapat digunakan
sebagai interpretasi.
Ketepatan algoritma KNN sangat dipengaruhi oleh ada atau tidaknya fiturfitur yang tidak relevan atau jika bobot fitur tersebut tidak setara dengan
relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar
membahas bagaimana memilih dan memberi bobot terhadap fitur agar performa
klasifikasi menjadi lebih baik. Langkah-langkah untuk menghitung metode KNearest Neighbor :
1. Menentukan parameter K (jumlah tetangga paling dekat).
2. Menghitung kuadrat jarak(query instance) masing-masing obyek
terhadap data sampel yang diberikan.
3. Kemudian
mengurutkan objek-objek
kelompok yang mempunyai jarak terkecil.
Fakultas Teknik
Universitas Janabadra
tersebut
kedalam
4. Mengumpulkan kategori Y (Klasifikasi nearestneighbor)
5. Dengan menggunakan kategori nearest neighbor yang paling mayoritas
maka dapat dipredisikan nilai query instance yang telah dihitung.
2.4 Algoritma TF-IDF
Metode TF-IDF merupakan metode untuk
menghitung bobot setiap kata yang paling umum
digunakan pada information retrieval. Metode ini
juga terkenal efisien, mudah dan memiliki hasil
yang akurat [9]. Metode ini akan menghitung nilai
Term Frequency (TF) dan Inverse Document
Frequency (IDF) pada setiap token (kata) di setiap
dokumen dalam korpus. Metode ini akan
menghitung bobot setiap token t di dokumen d
dengan rumus:
Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk
melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya
paling dekat dengan objek tersebut. KNN termasuk algoritma supervised learning
dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari
kategori
3. RUMUSAN MASALAH
1. Perlu adanya sistem evaluasi otomatis agar lebih cepat dan efisien waktu dalam
mendapatkan informasi layanan akademik.
4. TUJUAN
1. Untuk mengetahui bagaimana menghasilkan suatu sistem evaluasi otomatis layanan
akademik yang sistem nya di evaluasi secara cepat untuk mendapatkan kesimpulam
yang lebih efisien
5. METODOLOGI PENELITIAN
Pada bagian ini akan memuat tentang penjelasan pengambilan data, proses pengolahan
data sampai implementasi penggunaan algoritma yang telah ditentukan.
5.1 Proses Bisnis
Proses bisnis sistem kuesioner online yang saat ini berjalan di Universitas Alma
Ata.
Fakultas Teknik
Universitas Janabadra
5.2 Pengumpulan Data
Data yang dikumpulkan yaitu data opini yang diberikan oleh mahasiswa tentang
pelayanan akademik di Universitas Alma Ata. Data ini didapat dari unit Kantor Jaminan
Mutu (KJM) yang mempunyai tugas utama untuk membagikan dan mengolah
kuesioner.
Tabel 1 Contoh Data Saran Mahasiswa
Unit
Akademik
Akademik
Teks Saran
Lebih ramah dalam memberikan pelayanan akademik
Harus siap melayani dengan ramah walaupun keaadan
kita sedang dilanda masalah, masalah lb playananya di
perbaiki, harus ramah, siap melayani, dan hargai apa
yang jadi aduan mahasiswa layani dengan baik
5.3 Pre-Processing
Setelah data dikumpulkan dilakukan persiapan pengolahan data sebelum masuk
ke dalam proses klasifikasi. Tahapan persiapan pengolahan data yaitu sebagai berikut.
5.3.1
Case Folding
Langkah Pertama yaitu Case Folding, yaitu dengan memproses data dan
mengubah seluruh data opini menjadi huruf-huruf kecil. Berikut merupakan gambaran
opini setelah Case Folding, dapat dilihat pada Tabel 3.
Review
Lebih ramah dalam memberikan
pelayanan akademik
Pelayanannya sudah Bagus, dan
semoga kedepannya makin Bagus lagi
5.3.2
Case Folding
lebih ramah dalam memberikan
pelayanan akademik
pelayanannya sudah bagus, dan
semoga kedepannya makin bagus lagi
Cleansing
Cleansing berfungsi untuk menghilangkan seluruh tanda baca. Berikut
merupakan Tabel 4 yang menunjukkan gambaran opini yang telah diolah.
Review
lebih ramah dalam memberikan
pelayanan akademik
pelayanannya sudah bagus, dan
semoga kedepannya makin bagus lagi
5.3.3
Cleansing
lebih ramah dalam memberikan
pelayanan akademik
pelayanannya sudah bagus dan semoga
kedepannya makin bagus lagi
Stemming
Stemming digunakan untuk merubah seluruh opini ke dalam bentuk kata
dasarnya. Dapat dilihat hasil dari Stemming pada Tabel 5 berikut ini.
Fakultas Teknik
Universitas Janabadra
Review
lebih ramah dalam memberikan
pelayanan akademik
pelayanannya sudah bagus dan semoga
kedepannya makin bagus lagi
5.3.4
Stemming
lebih ramah dalam beri layan
akademik
layan sudah bagus dan moga depan
makin bagus lagi
Stopword Removal
Stopword Removal, yaitu menghapus seluruh kata yang ada pada stopword list
atau kata yang tidak penting. Gambaran hasil dari Stopword Removal dapat dilihat pada
Tabel 6 berikut ini.
Review
lebih ramah dalam beri layan
akademik
layan sudah bagus dan moga depan
makin bagus lagi
5.3.5
Stopword Removal
lebih ramah beri layan akademik
layan sudah bagus dan moga depan
makin bagus lagi
Tokenization
Tokenization digunakan untuk memisahkan kata dengan kata lainnya dalam satu
kalimat dengan white space menjadi indeks-indeks tertentu.
Review
lebih ramah dalam beri layan
akademik
layan sudah bagus dan moga depan
makin bagus lagi
5.3.6
Tokenization
[‘lebih’ ‘ramah’ ‘dalam’ ‘beri’
‘layan’ ‘akademik’]
[‘layan’ ‘sudah’ ‘bagus’ ‘dan’ ‘moga’
‘depan’ ‘makin’ ‘bagus’ ‘lagi’]
Formalisasi dan Translasi
Formalisasi yaitu mengubah beberapa kata yang masih tidak baku secara
manual ke dalam bentuk baku sesuai dengan KBBI. Berikut Tabel 8 merupakan contoh
hasil Formalisasi pada opini mahasiswa.
Review
Formalisasi dan Translasi
Sll
lagii
kuwalitas
Selalu
Lagi
Kualitas
The best
cheer up
Terbaik
Semangat
5.3.7
Term-Weighting
Ketika data telah selesai diolah untuk dipersiapkan ke dalam analisis sentiment,
dilakukan pembobotan terlebih dahulu untuk mengetahui bobot setiap kata yang ada
dalam satu kalimat. Pembobotan dilakukan dengan Term Frequency-Inverse Document
Frequency (TF-IDF).
Fakultas Teknik
Universitas Janabadra
Term
Ramah
Layan
Bagus
TF
D2
D1
2
2
1
1
1
1
DF
D3
1
0
0
3
3
2
IDF
0
0
0.17609
DAFTAR PUSTAKA
[1] Pang, B., & Lee, L. 2002. Thumbs up? Sentiment Classification using Machine Learning.
Proceedings of EMNLP, (pp. 78-86).
[3] Feldman, R., & Sanger, J. 2007. The Text Mining HandBook. New York: Cambridge
University Press.
[1] Prasetyo, Eko.2012. Data Mining Konsep dan Aplikasi Menggunakan Matlab. Penerbit
Andi Yogyakarta.
Fakultas Teknik
Universitas Janabadra
Download