ANALISIS SENTIMEN MAHASISWA TERHADAP UNIVERSITAS Nurirwan Saputra Fakultas Teknik Universitas PGRI Yogyakarta [email protected] Abstract Sentiment analysis is the field of text mining and analyzing someone's opinion, someone evaluation, sentiment a person, a person's attitude and emotions into written language. This research analyzes the sentiment from students to the University for the case study students PGRI University of Yogyakarta (UPY). Data is taken from UPY’s students that truly learn and minimum one year experience studied in UPY. This study uses a preprocessing normalization of non-standard words into standard and use tokenization Unigram, Bigram, Trigram, 1-2Gram and 1-3Gram. This Research used Naïve Bayes, SVM, and Tree J48 method for classification. The purpose of this research is to get the most optimal method of classification.. The results of the research conducted accuracy of the method is as follows, Naive Bayes (Unigram 89.4273% 77.0925% Bigram, Trigram 69.163%, 90.3084% 1-2Gram, 1-3Gram 90.7489%), accuracy SVM used Sequential Minimal Optimization (SMO) techniques is as follows (Unigram 92.0705%, Bigram 82.8194% 71.8062% Trigrams, 1-2Gram 92.0705%, and 91.63% 1-3Gram ) and the accuracy by using Tree J48 is as follows (Unigram 88.9868% 68.2819% Bigram, Trigram 62.5551% 89.8678% 12Gram, 1-3Gram 89.8678%). SVM classification method is the best method in this study with the highest accuracy of 92.0705% by using a tokenization Unigram and 1-2Gram. While the Naive Bayes method is the fastest method of classifying with tokenization Unigram by the time required to build a model is 0.33 seconds. Keywords: sentiment analysis, normalization, naive bayes, svm, Tree J48, Unigram, Bigram, Trigram, 12Gram, 1-3Gram. 1. PENDAHULUAN Universitas merupakan lembaga pendidikan yang bertanggung jawab dalam membentuk karakter seseorang baik dalam bidang akademik maupun karakteristik seseorang sehingga mampu bersaing di dunia luar. Berkembangnya sebuah Universitas tidak lepas dari peran orangorang di dalamnya, diantaranya dosen, karyawan, dan tentunya mahasiswa. Mahasiswa menjadi faktor yang sangat penting dalam berkembangnya sebuah Universitas, sukses atau tidaknya sebuah Universitas dilihat dari lulusannya, semakin baik karir lulusannya, semakin baik pula reputasi sebuah Universitas, sebaliknya semakin tidak baik hasil lulusannya, semakin menurun pula reputasi sebuah Universitas. Variabel yang mempengaruhi prestasi belajar pada mahasiswa adalah tujuan pembelajaran, bahan ajar, alat, motivasi, proses belajar mengajar, metode, sumber, evaluasi, mahasiswa, interaksi mahasiswa dengan mahasiswa, lingkungan, kesehatan dan bakat yang direduksi menjadi 4 faktor yang terbentuk yaitu faktor 1 terdiri dari proses belajar mengajar, metode, sumber dan mahasiswa, faktor 2 terdiri atas bahan ajar, alat, motivasi dan evaluasi, faktor 3 terdiri atas interaksi mahasiswa dengan materi, lingkungan dan kesehatan sedangkan faktor 4 terdiri atas tujuan dan bakat. Variabel tersebut didapat berdasarkan proses belajar mengajar mahasiswa di dalam Universitas, sehingga diperlukan masukan yang langsung diberikan oleh mahasiswa baik itu masukan positif maupun negatif. Masukan positif 100 Seminar Nasional Universitas PGRI Yogyakarta 2016 ISBN 978-602-73690-6-1 yang didapat dari mahasiswa terhadap Universitas dapat dipertahankan atau bahkan dapat ditingkatkan, sedangkan masukan negatif menjadi evaluasi dan perbaikan sehingga proses belajar mengajar menjadi lebih baik lagi. Universitas merupakan komunitas orangorang terpelajar yang mengatur dirinya sendiri (Karmel, 1989). Menurut Blackburn and Lawrence (1995), Universitas merupakan salah satu organisasi sosial di dunia yang paling dominan karena Universitas memiliki peran penting dalam mempersiapkan seseorang untuk menduduki jabatan dan bergabung dalam profesi tertentu, mentransmisikan budaya pada generasi berikutnya, memberikan kritik kepada masyarakat, serta menghasilkan dan menerapkan ilmu pengetahuan. UPY merupakan Universitas Swasta yang berlokasi di Jl. PGRI I Sonosewu No. 117 Yogyakarta, UPY berdiri pada tanggal 05 Maret 1962 di bawah Yayasan Pembina Lembaga Pendidikan (YPLP) UPY yang merupakan yayasan yang menginduk PGRI secara nasional. Universitas terdiri atas unsur-unsur senat, pimpinan, dosen, tenaga administrasi, pustakawan, teknisi, unsur pelaksana akademik, unsur penunjang, dan unsur-unsur lain yang diperlukan. Rektor mempunyai tiga pembantu rektor dan rektor sekaligus sebagai ketua senat. Unsur pelaksana akademik terdiri dari fakultas, program studi, lembaga-lembaga, pusatpusat dan bentuk lain yang dianggap perlu. UPY mempunyai Program Sarjana (S1) yang terdiri dari empat Fakultas, dan Program Pasca sarjana P-IPS (S2). Program Sarjana (S1), terdiri dari; Fakultas Keguruan dan Ilmu Pendidikan, Fakultas Ekonomi, Fakultas Teknik, dan Fakultas Pertanian. 1.1. Analisis Sentimen Analisis sentimen dan opinion mining adalah bidang studi yang menganalisis pendapat seseorang, sentiment seseorang, evaluasi seseorang, sikap seseorang dan emosi seseorang ke dalam bahasa tertulis. Analisis sentimen telah banyak menerima perhatian semenjak penelitian Pang, Turney, Goldberg dan Zhu. Analisis sentimen memiliki banyak tantangan, di antaranya adalah penilain yang dikeluarkan dalam sebuah dokumen atau bagian dari dokumen ditujukan kepada subjek atau objek, dan apakah pendapat yang dinyatakan positif atau negatif. Analisis sentimen atau opinion mining mencakup berbagai macam tugas yang berbeda-beda seperti sentiment analysis, opinion mining, opinion extraction, sentiment mining, subjectivity analysis, affect analysis, emotion analysis, dan review mining. 1.2. Universitas PGRI Yogyakarta (UPY) Perguruan tinggi merupakan lembaga pendidikan tinggi yang menghasilkan lulusan-lulusan yang ahli dalam berbagai bidang demi menjawab berbagai kebutuhan masyarakat, bangsa, dan Negara. Saat ini semakin banyak penduduk Indonesia yang mengikuti pendidikan tinggi untuk memperoleh pendidikan yang lebih baik sehingga dapat meningkatkan harkat kehidupannya. Sebagai suatu organisasi, Universitas adalah organisme hidup yang terdiri dari sivitas akademika yang saling berinteraksi. Secara tradisional, Universitas didefinisikan sebagai a self-governing corporation of scholars. Ini berarti 1.3. Normalisasi Kata Merupakan pengubahan kata dari yang tidak baku menjadi baku, kata tidak baku ini bisa terjadi karena kesalahan ketik ataupun karena kebiasaan masyarakat menyingkat penulisan kata. Contohnya adalah untuk kalimat baku “kenapa” masyarakat kadang kala menyingkatnya dengan kata “knp” atau “knapa”. Untuk itu diperlukan normalisasi 101 Seminar Nasional Universitas PGRI Yogyakarta 2016 ISBN 978-602-73690-6-1 kata agar kata yang tidak baku menjadi baku dan menjadi satu kesatuan makna. Kuliah di Di Di UPY UPY Terhitung, dan seterusnya 5. 1-3Gram, yaitu membagi menjadi Unigram, Bigram dan Trigram, menghasilkan : Biaya Biaya kuliah Biaya kuliah di Kuliah Kuliah di Kuliah di UPY Di Di UPY Di UPY terhitung, dan seterusnya 1.4. Tokenisasi Proses tokenisasi adalah proses pemotongan string input berdasarkan tiap kata yang menyusunnya. Token yang dipakai dalam penelitian ini menggunakan tokenisasi Unigram, Bigram, Trigram, 1-2Gram dan 13Gram. Dengan adanya tokenisasi, penelitian ini tidak terikat dengan satu aturan bahasa apapun. Tokenisasi merupakan tahap pemrosesan dimana teks input dibagi menjadi unit-unit kecil yang disebut token sepanjang n karakter. Dalam bahasa Indonesia, frasa dengan satu kesatuan arti memiliki maksimal tiga kata, sehingga maximal pengambilan kata adalah sebanyak tiga kata. Contoh tokenisasi yang dilakukan pada penelitian ini dengan kalimat “biaya kuliah di upy terhitung murah” adalah sebagai berikut. 1. Unigram: yaitu token yang terdiri dari hanya satu kata, menghasilkan: biaya kuliah di upy terhitung murah. 2. Bigram: yaitu token yang terdiri dari dua kata, menghasilkan: biaya kuliah di upy terhitung murah atau terjangkau 3. Trigram: yaitu token yang terdiri dari tiga kata, menghasilkan: biaya kuliah di upy terhitung murah atau terjangkau 4. 1-2Gram, yaitu membagi menjadi Unigram dan Bigram, menghasilkan : Biaya Biaya kuliah Kuliah 1.5. Naive Bayes Naive Bayes adalah sebuah algoritma analisa statistik, yang melakukan pengolahan data terhadap data numerik menggunakan probabilitas Bayesian. Klasifikasi–klasifikasi Bayes adalah klasifikasi statistik yang dapat memprediksi kelas suatu anggota probabilitas. Untuk klasifikasi Bayes sederhana yang lebih dikenal sebagai naïve Bayesian Classifier dapat diasumsikan bahwa efek dari suatu nilai atribut sebuah kelas tidak dipengaruhi atau mempengaruhi nilai dari atribut lainnya. Asumsi ini disebut class conditional independence yang diciptakan untuk memudahkan perhitungan, pengertian ini dianggap “naive”, dalam bahasa lebih sederhana naïve itu mengasumsikan bahwa kemunculan suatu term kata dalam suatu kalimat tidak dipengaruhi kata-kata yang lain, sehingga dalam analisis sentimen kata yang muncul memiliki bobot masing-masing yang kemudian dihitung total bobot seluruhnya apakah kalimat tersebut termasuk positif ataupun negatif. 1.6. SVM Support Vector Machine (SVM) adalah sejenis model vector berbasiskan classifier 102 Seminar Nasional Universitas PGRI Yogyakarta 2016 ISBN 978-602-73690-6-1 yang mengharuskan sebuah teks harus diubah menjadi vector sebelum digunakan untuk klasifikasi. Key idea dari SVM adalah untuk menemukan permukaan keputusan (Hyperlane) yang maksimal dari setiap titik data. Untuk melakukan training mesin yang didukung oleh vector atau biasa disebut Support Vector Machine (SVM) memerlukan solusi Quadratic Programming (QP) yang sangat besar. Quadratic Programming adalah masalah matematika untuk menemukan vector “x” yang meminimalkan fungsi kuadrat, dengan melakukan pembagian kelas menggunakan hyperplane maka masingmasing kelas positif dan negatif dapat dibagi berdasarkan area masing-masing sehingga ketika terdapat data baru dapat ditentukan kelasnya berdasarkan area positif maupun negatif. angkatan 2014 terdapat 4 kelas, sehingga pengumpulan data dilakukan sebanyak 4 kali. Masing-masing mahasiswa diminta untuk jujur memberikan masukan positif dan negatif terhadap UPY, masing-masing mahasiswa diberikan selembar kertas yang berisi kolom positif dan negatif. Mahasiswa tidak diminta memasukkan nama, untuk menjaga privasi dan memberikan kebebasan berpendapat khususnya untuk masukan negatif. 2.2. Memasukkan data Selanjutnya data diketikkan ke dalam aplikasi notepad di komputer. 2.3. Melakukan preprocessing terhadap data. Data yang sudah diperoleh akan dilakukan preprocessing terlebih dahulu, preprocessing yang dilakukan adalah melakukan normalisasi tiap kata, sehingga kata yang tidak baku menjadi baku (misalkan : dgn, krn menjadi dengan, karena). 1.7. Decision Tree J48 Decision Tree J48 merupakan standar algoritma yang digunakan dalam machine learning. Algoritma ini merupakan salah satu algoritma klasifikasi dalam data mining. Algoritma klasifikasi merupakan algoritma yang secara induktif dalam pembelajaran dalam mengkonstruksikan sebuah model dari data set yang belum diklasifikasikan (preclassified data set). Setiap data dari item berdasarkan dari nilai dari setiap atribut. Klasifikasi dapat dilihat sebagai mapping dari sekelompok set dari atribut dari kelas tertentu. Decision Tree mengklasifikasikan data yang diberikan menggunakan nilai dari atribut. 2. METODE PENELITIAN Tahapan penelitian yang meliputi : 2.4. Data diubah ke Arff Arff adalah format data yang dapat dibaca oleh weka, sehingga data yang didapat harus diubah dulu ke dalam format .arff. 2.5. Mengubah data ke vektor Pada tahap ini, data yang berupa kalimat yang sudah dilabeli dengan positif dan negatif diubah menjadi bentuk vektor. Data yang sudah diubah ke .arff, selanjutnya dibuka di weka, setelah itu tekan tombol choose pada filter dan pilih StringToWordVector yang ada pada weka, kemudian filters, Unsupervised, attribute kemudian StringToWordVector. Selanjutnya data akan diubah menjadi vektor. dilakukan 2.1. Pengumpulan Mahasiswa Teknik Informatika UPY angkatan 2014 Pengumpulan mahasiswa dilakukan pada saat jam perkuliahan berlangsung. Untuk mahasiswa Teknik Informatika 103 Seminar Nasional Universitas PGRI Yogyakarta 2016 ISBN 978-602-73690-6-1 2.6. Melakukan klasifikasi data Data yang sudah dilakukan preprocessing, selanjutnya akan dilakukan klasifikasi data dengan menggunakan metode Naive Bayes, SVM dan Tree J48. 3.2. Berdasarkan Time Berdasarkan waktu yang dibutuhkan dalam membangun model, dapat dilihat pada Gambar 3. Waktu yang dibutuhkan dalam membangun model 3. HASIL DAN PEMBAHASAN 3.1. Berdasarkan Akurasi Gambar 1 merupakan akurasi yang di berdasarkan tiap metode baik menggunakan tokenisasi Unigram, Bigram, Trigram, 12Gram, maupun 1-3Gram. 13Gram 12Gram Hasil Klasifikasi 100 2.36 0.53 0.5 2.02 0.5 0.44 Trigram 0.64 0.6 Bigram 0.67 0.58 90 0.98 80 Akurasi (%) 70 60 50 Unigra m 40 30 20 0.86 0.42 0.33 0 2.12 1 10 2 3 Detik 0 J48 SVM Naive Bayes Naive Bayes SVM J48 Berdasarkan waktu yang dibutuhkan dalam membangun model, metode Naive Bayes lebih cepat dibandingkan metode SVM, baik menggunakan token Unigram, Bigram, Trigram, 1-2Gram, maupun 13Gram. Waktu rata-rata yang dibutuhkan dalam membangun model dapat dilihat pada Gambar 4. Akurasi tertinggi diperoleh dengan menggunakan metode SVM baik dengan menggunakan token Unigram, Bigram, Trigram, 1-2Gram maupun 1-3Gram. Nilai akurasi rata-rata dari tiap metode dapat dilihat pada Gambar 2. Waktu rata-rata Membangun Model 90 85 86.0793 83.3480 2 2 79.9118 8 Time Build (s) Persentase Akurasi (%) Rata-rata Akurasi Ketiga Metode 80 75 2 1.668 1.5 1 0.49 0.552 0.5 0 Rata-Rata Akurasi Naive Bayes SVM Time Tree J48 Naive Bayes 104 SVM J48 Seminar Nasional Universitas PGRI Yogyakarta 2016 ISBN 978-602-73690-6-1 4. KESIMPULAN Kesimpulan yang didapat dari penelitian yang dilakukan adalah sebagai berikut. 1. Metode SVM merupakan metode klasifikasi terbaik pada penelitian ini dengan akurasi tertinggi 92,0705% dengan menggunakan token 1-2Gram maupun Unigram. 2. Metode Naive Bayes merupakan Metode klasifikasi yang tercepat dengan token Unigram dengan waktu yang dibutuhkan untuk membangun model selama 0,33 detik. 3. Metode Decision Tree J48 kurang baik dalam melakukan klasifikasi analisis sentimen, baik itu dari segi akurasi maupun waktu yang dibutuhkan dalam membangun model. Classifier,” Universitas Gadjah Mada, 2014. B. Pang and L. Lee, “Opinion Mining and Sentiment Analysis,” Found Trends Inf Retr, vol. 2, no. 1–2, pp. 1–135, Jan. 2008. D. Kerami and H. Murfi, “Kajian Kemampuan Generalisasi Support Vector Machine dalam Pengenalan Jenis Splice Sites Pada Barisan DNA,” 03-Dec-2004. [Online]. Available: http://repository.ui.ac.id/dokumen/lihat /246.pdf. [Accessed: 08-Mar-2015]. D. Widiastuti, “Analisa Perbandingan Algoritma Svm, Naive Bayes, Dan Decision Tree Dalam Mengklasifikasikan Serangan (Attacks) Pada Sistem Pendeteksi Intrusi.” [Online]. Available: http://www.gunadarma.ac.id/library/ar ticles/graduate/computerscience/2008/Artikel_11104835.pdf. [Accessed: 26-Sep-2016]. H. Februariyanti, E. Zuliarso, and M. S. Utomo, “Prototipe Mesin Pencari Dokumen Teks,” 18-Aug-2010. [Online]. Available: http://eprints.unisbank.ac.id/1579/. [Accessed: 03-Dec-2014]. J. Blitzer, “Domain adaptation for sentiment classification.” [Online]. Available: http://john.blitzer.com/papers/sentimen t_domain.pdf. [Accessed: 03-Sep-2014]. J. K. Wibisono and M. S. Drs. Edi Winarko, “Opinion Mining Pada Twitter Untuk Bahasa Indonesia Dengan Metode Support Vector Machine Dan Metode Berbasis Lexicon,” Universitas Gadjah Mada, 2013. L. Seniati, “Pengaruh Masa Kerja, Trait Kepribadian, Kepuasan Kerja, Dan Iklim Psikologis Terhadap.” [Online]. Available: M. Merina, “Klasifikasi Dokumen Beropini Me nggunakan Metode Naive Bayes dan Metode Categorical Pr oportional Difference,” Klasifikasi Dok. Beropini Me Nggunakan Metode Naive Bayes Dan Metode Categ. Pr Oportional Differ., 2013. REFERENSI “Analisa Rekam Medis untuk Menentukan Pola Kelompok Penyakit Menggunakan Klasifikasi dengan Decision Tree J48 Google Scholar.” [Online]. Available: https://scholar.google.co.id/scholar?hl=e n&q=Analisa+Rekam+Medis+untuk+Men entukan+Pola+Kelompok+Penyakit+Men ggunakan+Klasifikasi+dengan+Decision+ Tree+J48&btnG=. [Accessed: 28-Sep-2016]. “http://repository.ui.ac.id/dokumen/lihat/ 402.pdf.” [Accessed: 11-Mar-2016]. “Quadratic Programming – MATLAB.” [Online]. Available: http://www.mathworks.com/discovery/ quadratic-programming.html. [Accessed: 07-Dec-2014]. “Universitas PGRI Yogyakarta (UPY), Bantul.” [Online]. Available: http://pkkumby.com/2015/10/Universit as-pgri-yogyakarta-upy-bantul/. [Accessed: 11-Mar-2016]. A. F. Hidayatullah and M. T. Dr. Azhari SN, “Analisis Sentimen Dan Klasifikasi Kategori Terhadap Tokoh Publik Pada Data Twitter Menggunakan Naive Bayes 105 Seminar Nasional Universitas PGRI Yogyakarta 2016 ISBN 978-602-73690-6-1 N. Adiyasa, “Sentiment Analysis Menggunakan Pendekatan LexiconBased,” Catatan Kecil. [Online]. Available: https://adidella.wordpress.com/tag/lexi con-based/. [Accessed: 02-Dec-2014]. N. Saputra, T. Bharata Adji, and A. Erna Permanasari, “Analisis Sentimen Data Presiden Jokowi dengan Preprocessing Normalisasi dan Stemming Menggunakan Metode Naive Bayes dan SVM.” [Online]. Available: http://upy.ac.id/ojs/index.php/dinf/arti cle/viewFile/113/82. [Accessed: 11-Mar2016]. S. Rahmawati, “Selfie: Peranan Jenis Komentarterhadap Hubungan Antara Kecemasan Sosial Dan Perilaku Agresif Pelaku Selfie,” psikologi.ub.ac.id. [Online]. Available: http://psikologi.ub.ac.id/wpcontent/uploads/2014/11/SartikaRahmawati_105120307111008_Psikologi_J urnal.pdf. [Accessed: 25-Nov-2014]. V. K. Singh, R. Piryani, A. Uddin, P. Waila, and Marisha, “Sentiment analysis of textual reviews; Evaluating machine learning, unsupervised and SentiWordNet approaches,” in 2013 5th International Conference on Knowledge and Smart Technology (KST), 2013, pp. 122–127. V. L. Sauter, Decision Support Systems for Business Intelligence. John Wiley & Sons, 2011. Y. Riyani, “Faktor-faktor yang Mempengaruhi Prestasi Belajar Mahasiswa.” [Online]. Available: https://www.google.com/search?q=keny amanan+dalam+belajar+mengajar+sangat +berpengaruh+terhadap+hasil+mahasisw a&ie=utf-8&oe=utf-8. [Accessed: 10-Mar2016]. V. L. Sauter, Decision Support Systems for Business Intelligence. John Wiley & Sons, 2011. 106