Analisis Sentimen Opini Mahasiswa Terhadap Saran Kuesioner Penilaian Pelayanan Akademik di Universitas Alma Ata dengan Menggunakan TFIDF dan K-Nearest Neighbor Cahya Adi Saputra Program Studi Teknik Informatika, Fakultas Teknik, Universitas Alma Ata Email : [email protected] 1. LATAR BELAKANG Kuesioner penilaian merupakan salah satu alat evaluasi yang telah umum digunakan, berisi daftar sejumlah pertanyaan yang diberikan kepada responden untuk memberikan penilaian atau balikan terhadap suatu objek atau suatu kegiatan dengan tujuan tertentu. Dalam dunia akademik khususnya perguruan tinggi, kuesioner evaluasi sangatlah penting karena dapat menjadi tolok ukur pelayanan akademik. BAN-PT sebagai lembaga sertifikasi akreditasi perguruan tinggi, juga telah menetapkan standar evaluasi yang harus dipenuhi oleh setiap perguruan tinggi. Harapannya adalah kualitas semua perguruan tinggi dapat diawasi dan dikendalikan oleh pemerintah. Berdasarkan dari standar yang telah ditetapkan oleh pemerintah, Universitas Alma Ata (UAA) sebagai salah satu penyelenggara Pendidikan Tinggi juga menekankan mempunyai sistem eveluasi yang memenuhi standar. UAA saat ini mempunyai kuesioner evaluasi yang tersistem untuk dapat mengetahui respon mahasiswa selama satu semester secara lebih menyeluruh. Kategori kuesioner tersebut adalah kuesioner evaluasi untuk dosen dan kuesioner evaluasi untuk pelayanan staf dan karyawan akademik. Melalui kuesioner tersebut, mahasiswa diminta memberikan masukan, saran atau pendapat terkait dengan proses pembelajaran yang diikuti. Tentunya, mahasiswa dapat memberikan penilaian yang positif atau negative terhadap proses perkuliahan serta hal-hal terkait dengan proses belajar mengajar yang telah diikutinya, yang pada akhirnya dapat menggambarkan tingkat kepuasan mahasiswa terhadap proses perkuliahan di kampus. Akan tetapi, salah satu tantangan dalam pengolahan kuesioner evaluasi yaitu proses analisisnya, hal ini dikarenakan pada kuesioner tersebut, selain terdapat pertanyaan opsi juga pertanyaan berupa isian responden dalam bentuk kalimat saran, masukan, atau berupa pendapat. Melakukan penilaian atau analisis satu persatu terhadap isian kuesioner secara manual tentunya berdampak pada biaya (cost) yang tinggi, seperti waktu dan tenaga. Maka dari itu, diperlukan alat yang dapat digunakan untuk membantu proses penilaian kuesioener, sehingga analisis hasilnya dapat dilakukan lebih cepat dan efisien. Penelitian ini bertujuan untuk menerapkan Deep Sentiment Analysis menggunakan K-Nearest Neighbor untuk membantu proses penilaian hasil angket terbuka. Data dari kuesioner akan dioleh untuk dapat diklasifikasikan kedalam laporan analisis sentiment berdasarkan opini yang telah ditulis oleh mahasiswa. Pemilihan Deep Sentiment Analysis menggunakan K-Nearest Neighbor didasarkan pada tingkat akurasinya yang baik dan efektif jika digunakan pada data latih (training) yang berjumlah besar dan mengandung informasi yang kurang atau tidak berarti (noisy). Sehingga dengan solusi yang diusulkan dalam penelitian ini, dapat diketahui apakah Fakultas Teknik Universitas Janabadra isian pada kuesioner bermakna positif atau negatif dan juga akurasi penilaiannya dapat ditingkatkan. 2. TINJAUAN PUSTAKA Tinjauan pustaka/penelitian sebelumnya dari penelitian ini, meliputi: 2.1 Sentiment Analysis Sentiment Analysis atau opinion mining merupakan proses memahami, mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan informasi sentiment yang terkandung dalam suatu kalimat opini. Sentiment Analysis dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah masalah atau objek oleh seseorang, apakah cenderung berpandangan atau beropini negatif atau positif (Bo Pang, 2002). Sentiment Analysis dapat dibedakan berdasarkan sumber datanya, beberapa level yang sering digunakan dalam penelitian Sentiment Analysis adalah Sentiment Analysis pada level dokumen dan Sentiment Analysis pada level kalimat (Fink Clayton, 2011). 2.2 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu : pertama, Pembangunan model sebagai prototype untuk disimpan sebagai memori dan kedua, Penggunaan model tersebut untuk melakukan pengenalan/ klasifikasi/ prediksi pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam model yang mudah disimpan (Prasetyo, Eko. 2012). Contoh aplikasi yang sering ditemui adalah pengklasifikasian jenis hewan, yang mempunyai sejumlah atribut. Dengan atribut tersebut, jika ada hewan baru, kelas hewannya bisa langsung diketahui. Contoh lain adalah bagaimana melakukan diagnosis penyakit kulit kanker melanoma (Prasetyo, Eko. 2012), yaitu dengan melakukan pembangunan model berdasarkan data latih yang ada, kemudian menggunakan model tersebut untuk mengidentifikasi penyakit pasien baru sehingga diketahui apakah pasien tersebut menderita kanker atau tidak. 2.3 K-Nearest Neighbor Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. KNN termasuk algoritma supervised learning dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada KNN. Nanti kelas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi. Tujuan dari algoritma ini adalah mengklasifikasikan obyek baru bedasarkan atribut dan training sample. Classifier tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik query, akan ditemukan sejumlah K obyek atau (titik training) yang paling dekat Fakultas Teknik Universitas Janabadra dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek.. algoritma k-nearest neighbor (KNN) menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instanceyang baru. Algoritma metode K-Nearest Neighbor (KNN) sangatlah sederhana, bekerja berdasarkan jarak terpendek dari query instance ke training sample untuk menentukan KNN-nya. Training sample diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi training sample. Sebuah titik pada ruang ini ditandai kelas c jika kelas c merupakan klasifikasi yang paling banyak ditemui pada k buah tetangga terdekat dari titik tersebut. Dekat atau jauhnya tetangga biasanya dihitung menggunakan penghitung jarak dianaranya adalah menggunakan Minkowski Distance dan City Block Distance. Cosine similiarity merupakan salah satu cara atau metode yang dapat digunakan untuk melihat sejauh mana kemiripan isi antar dokumen. Dalam hal ini cosine similiarity berfungsi untuk menguji ukuran yang dapat digunakan sebagai interpretasi kedekatan jarak berdasarkan kemiripan dokumen. Persamaan(1) berikut ini adalah rumus untuk menghitung jarak pada algoritma KNN dengan metode cosine similiarity: Dimana, D = Data Latih n = Banyaknya Data Cosine similiarity merupakan salah satu cara atau metode yang dapat digunakan untuk melihat sejauh mana kemiripan isi antar dokumen. Dalam hal ini cosine similiarity berfungsi untuk menguji ukuran yang dapat digunakan sebagai interpretasi. Ketepatan algoritma KNN sangat dipengaruhi oleh ada atau tidaknya fiturfitur yang tidak relevan atau jika bobot fitur tersebut tidak setara dengan relevansinya terhadap klasifikasi. Riset terhadap algoritma ini sebagian besar membahas bagaimana memilih dan memberi bobot terhadap fitur agar performa klasifikasi menjadi lebih baik. Langkah-langkah untuk menghitung metode KNearest Neighbor : 1. Menentukan parameter K (jumlah tetangga paling dekat). 2. Menghitung kuadrat jarak(query instance) masing-masing obyek terhadap data sampel yang diberikan. 3. Kemudian mengurutkan objek-objek kelompok yang mempunyai jarak terkecil. Fakultas Teknik Universitas Janabadra tersebut kedalam 4. Mengumpulkan kategori Y (Klasifikasi nearestneighbor) 5. Dengan menggunakan kategori nearest neighbor yang paling mayoritas maka dapat dipredisikan nilai query instance yang telah dihitung. 2.4 Algoritma TF-IDF Metode TF-IDF merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan pada information retrieval. Metode ini juga terkenal efisien, mudah dan memiliki hasil yang akurat [9]. Metode ini akan menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus. Metode ini akan menghitung bobot setiap token t di dokumen d dengan rumus: Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. KNN termasuk algoritma supervised learning dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori 3. RUMUSAN MASALAH 1. Perlu adanya sistem evaluasi otomatis agar lebih cepat dan efisien waktu dalam mendapatkan informasi layanan akademik. 4. TUJUAN 1. Untuk mengetahui bagaimana menghasilkan suatu sistem evaluasi otomatis layanan akademik yang sistem nya di evaluasi secara cepat untuk mendapatkan kesimpulam yang lebih efisien 5. METODOLOGI PENELITIAN Pada bagian ini akan memuat tentang penjelasan pengambilan data, proses pengolahan data sampai implementasi penggunaan algoritma yang telah ditentukan. 5.1 Proses Bisnis Proses bisnis sistem kuesioner online yang saat ini berjalan di Universitas Alma Ata. Fakultas Teknik Universitas Janabadra 5.2 Pengumpulan Data Data yang dikumpulkan yaitu data opini yang diberikan oleh mahasiswa tentang pelayanan akademik di Universitas Alma Ata. Data ini didapat dari unit Kantor Jaminan Mutu (KJM) yang mempunyai tugas utama untuk membagikan dan mengolah kuesioner. Tabel 1 Contoh Data Saran Mahasiswa Unit Akademik Akademik Teks Saran Lebih ramah dalam memberikan pelayanan akademik Harus siap melayani dengan ramah walaupun keaadan kita sedang dilanda masalah, masalah lb playananya di perbaiki, harus ramah, siap melayani, dan hargai apa yang jadi aduan mahasiswa layani dengan baik 5.3 Pre-Processing Setelah data dikumpulkan dilakukan persiapan pengolahan data sebelum masuk ke dalam proses klasifikasi. Tahapan persiapan pengolahan data yaitu sebagai berikut. 5.3.1 Case Folding Langkah Pertama yaitu Case Folding, yaitu dengan memproses data dan mengubah seluruh data opini menjadi huruf-huruf kecil. Berikut merupakan gambaran opini setelah Case Folding, dapat dilihat pada Tabel 3. Review Lebih ramah dalam memberikan pelayanan akademik Pelayanannya sudah Bagus, dan semoga kedepannya makin Bagus lagi 5.3.2 Case Folding lebih ramah dalam memberikan pelayanan akademik pelayanannya sudah bagus, dan semoga kedepannya makin bagus lagi Cleansing Cleansing berfungsi untuk menghilangkan seluruh tanda baca. Berikut merupakan Tabel 4 yang menunjukkan gambaran opini yang telah diolah. Review lebih ramah dalam memberikan pelayanan akademik pelayanannya sudah bagus, dan semoga kedepannya makin bagus lagi 5.3.3 Cleansing lebih ramah dalam memberikan pelayanan akademik pelayanannya sudah bagus dan semoga kedepannya makin bagus lagi Stemming Stemming digunakan untuk merubah seluruh opini ke dalam bentuk kata dasarnya. Dapat dilihat hasil dari Stemming pada Tabel 5 berikut ini. Fakultas Teknik Universitas Janabadra Review lebih ramah dalam memberikan pelayanan akademik pelayanannya sudah bagus dan semoga kedepannya makin bagus lagi 5.3.4 Stemming lebih ramah dalam beri layan akademik layan sudah bagus dan moga depan makin bagus lagi Stopword Removal Stopword Removal, yaitu menghapus seluruh kata yang ada pada stopword list atau kata yang tidak penting. Gambaran hasil dari Stopword Removal dapat dilihat pada Tabel 6 berikut ini. Review lebih ramah dalam beri layan akademik layan sudah bagus dan moga depan makin bagus lagi 5.3.5 Stopword Removal lebih ramah beri layan akademik layan sudah bagus dan moga depan makin bagus lagi Tokenization Tokenization digunakan untuk memisahkan kata dengan kata lainnya dalam satu kalimat dengan white space menjadi indeks-indeks tertentu. Review lebih ramah dalam beri layan akademik layan sudah bagus dan moga depan makin bagus lagi 5.3.6 Tokenization [‘lebih’ ‘ramah’ ‘dalam’ ‘beri’ ‘layan’ ‘akademik’] [‘layan’ ‘sudah’ ‘bagus’ ‘dan’ ‘moga’ ‘depan’ ‘makin’ ‘bagus’ ‘lagi’] Formalisasi dan Translasi Formalisasi yaitu mengubah beberapa kata yang masih tidak baku secara manual ke dalam bentuk baku sesuai dengan KBBI. Berikut Tabel 8 merupakan contoh hasil Formalisasi pada opini mahasiswa. Review Formalisasi dan Translasi Sll lagii kuwalitas Selalu Lagi Kualitas The best cheer up Terbaik Semangat 5.3.7 Term-Weighting Ketika data telah selesai diolah untuk dipersiapkan ke dalam analisis sentiment, dilakukan pembobotan terlebih dahulu untuk mengetahui bobot setiap kata yang ada dalam satu kalimat. Pembobotan dilakukan dengan Term Frequency-Inverse Document Frequency (TF-IDF). Fakultas Teknik Universitas Janabadra Term Ramah Layan Bagus TF D2 D1 2 2 1 1 1 1 DF D3 1 0 0 3 3 2 IDF 0 0 0.17609 DAFTAR PUSTAKA [1] Pang, B., & Lee, L. 2002. Thumbs up? Sentiment Classification using Machine Learning. Proceedings of EMNLP, (pp. 78-86). [3] Feldman, R., & Sanger, J. 2007. The Text Mining HandBook. New York: Cambridge University Press. [1] Prasetyo, Eko.2012. Data Mining Konsep dan Aplikasi Menggunakan Matlab. Penerbit Andi Yogyakarta. Fakultas Teknik Universitas Janabadra