Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 PENGEMBANGAN LEKSIKON UNTUK DETEKSI EMOSI DARI TEKS BAHASA INDONESIA Julius Bata Program Studi Magister Teknik Informatika, Universitas Atma Jaya Yogyakarta Email: [email protected] ABSTRAK Emosi dari suatu teks dapat dikenali dari kata penyusun kalimat tersebut. Oleh karena itu, leksikon emosi memegang peranan penting dalam sistem deteksi emosi dari teks. Leksikon emosi telah banyak dikembangkan, meskipun demikian leksikon untuk bahasa Indonesia masih sedikit mendapat perhatian. Makalah ini melakukan percobaan untuk mengembangkan leksikon emosi. Leksikon yang dikembangkan bersumber pada korpus berisi lirik lagu Indonesia. Metode Pointwise Mutual Information (PMI) digunakan untuk memberi bobot setiap kata pada leksikon. Selanjutnya leksikon digunakan untuk melakukan deteksi emosi dari lirik lagu. Evaluasi dilakukan untuk mengetahui unjuk kerja dari leksikon. Hasil penelitian ini berupa leksikon emosi yang dapat digunakan untuk deteksi emosi dari teks. Kata Kunci: Deteksi Emosi, Pembobotan Kata Emosi, Leksikon Emosi Indonesia 1. PENDAHULUAN Salah satu aspek penting dalam komunikasi antara manusia adalah emosi. Kualitas interaksi manusia dan komputer dapat ditingkatkan dengan memperhatikan aspek emosi [1, 2]. Ketika komputer mampu mengenali emosi dari user maka komputer diharapkan dapat memberikan tanggapan sesuai dengan emosi tersebut. Oleh karena itu, deteksi emosi merupakan kemampuan pertama dan utama yang harus dimiliki komputer untuk dapat memproses emosi pengguna [3, 4]. Berbagai penelitian telah dilakukan untuk menyelesaikan persoalan deteksi emosi. Penelitian deteksi emosi telah dilakukan untuk mendeteksi emosi dari ekspresi wajah, suara, gerak tubuh maupun teks [3]. Deteksi emosi dari teks penting dilakukan karena sebagian besar komunikasi berbasis komputer menggunakan media teks [5, 6]. Pada sisi yang lain, perkembangan jumlah pengguna media sosial menyebabkan pertumbuhan data teks yang semakin besar. Data teks tersebut perlu diproses untuk menghasilkan informasi seperti sentimen maupun jenis emosi. Selanjutnya informasi sentimen dan emosi dapat digunakan pada berbagai bidang seperti sistem tutor, sistem dialog, analisa kepuasan pelanggan dan enterprise system [4, 7]. Berbagai pendekatan telah dilakukan untuk melakukan deteksi emosi dari teks. Metode deteksi emosi dari teks dapat dikelompokkan menjadi 3 yaitu keyword-spotting, statistik dan berbasis aturan(rule-base)[6, 8]. Pada dasarnya deteksi emosi dari teks dilakukan dengan melihat kata penyusun teks tersebut. Oleh karena itu kamus kata (leksikon) menjadi sumber yang sangat penting dalam deteksi emosi dari teks [9]. Leksikon emosi berperan penting dalam sistem deteksi emosi dari teks. Terdapat berbagai leksikon emosi seperti EmoLex [7], Wordnet-Affect Lexicon (WAL) [10], dan affect database [11]. Leksikon–leksikon tersebut umumnya berbahasa Inggris dan bersifat umum. Oleh karena itu untuk bahasa dan domain tertentu perlu dikembangkan leksikon yang sesuai. Penelitian ini merupakan tahap awal dalam pengembangan leksikon emosi untuk bahasa Indonesia. Tujuan utama penelitian adalah mengembangkan leksikon emosi dan melakukan evalusi terhadap leksikon. Berbagai penelitian telah dilakukan untuk mengembangkan leksikon emosi. Salah satu sumber data yang digunakan untuk mengembangkan leksikon adalah media sosial. Data tweets digunakan untuk mengembangkan leksikon emosi pada penelitian [12]. Tweets dikumpulkan berdasarkan hashtag (#). Tanda hashtag ini juga digunakan sebagai label emosi untuk setiap tweets. Data tweets yang dikumpulkan (TEC= Twiter emotion Corpus) selanjutnya digunakan untuk mengembangkan leksikon emosi. Leksikon yang dikembangkan terdiri dari n-gram kata serta bobot setiap kata. Bobot setiap kata merupakan nilai SoA (Strength of Association) yang menggambarkan tingkat asosiasi antara kata dengan jenis emosi. Data tweets juga digunakan untuk mengembangkan leksikon emosi pada penelitian [9]. Leksikon emosi juga telah dikembangkan dengan pendekatan manual. Pendekatan crowdsourcing digunakan untuk memberi label emosi terhadap sejumlah daftar kata pada penelitian [7]. Selain tweets, data artikel blog juga dapat digunakan untuk mengembangkan leksikon emosi. Artikel dari blog Yahoo! Kimo digunakan untuk mengembangkan leksikon emosi [13]. Pada penelitian tersebut, jenis emosi yang digunakan sesuai dengan emoticon. Pointwise Mutual Information (PMI) digunakan untuk menghitung nilai co (collocation) antara suatu kata terhadap suatu jenis emoticon. 289 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 Makalah ini melakukan adaptasi penelitian [13] untuk mengembangkan leksikon emosi bahasa Indonesia. Perbedaan utama yaitu pada jenis emosi dan data yang digunakan. Pada penelitian ini menggunakan data berupa lirik lagu Indonesia. Lirik lagu digunakan karena lirik lagu dapat menggambarkan emosi dari sebuah lagu [14]. Langkah–langkah dalam mengembangkan leksikon diberikan pada bagian 2. Evaluasi dilakukan terhadap leksikon dengan melakukan percobaan deteksi emosi (bagian 3). 2. METODE Pada bagian ini akan dijelaskan langkah yang digunakan untuk mengembangkan leksikon. Terlebih dahulu akan dijelaskan data yang digunakan. Selanjutnya dijelaskan detail proses pengembangan leksikon. Prosedur evaluasi diberikan pada bagian akhir. 2.1. Data Pada penelitian ini data yang digunakan adalah data lirik lagu. Lirik lagu digunakan karena dalam lirik lagu banyak memuat ungkapan emosi yang dapat mempengaruhi pendengarnya secara langsung. Selain itu, emosi dari suatu lagu juga dapat secara langsung terlihat dari lirik lagu tersebut [14]. Sejumlah 150 lirik lagu dikumpulkan dari berbagai situs internet. Proses selanjutnya adalah melakukan anotasi. Anotasi dilakukan secara manual oleh 3 orang (anotator). Jenis emosi yang digunakan adalah senang, rileks, sedih, dan marah. Jenis emosi ini banyak digunakan dalam penelitian deteksi emosi lagu [14]. Setelah proses anotasi, diperoleh 97 lagu yang memiliki anotasi sama dari ketiga anotator. Jumlah data untuk masing–masing kelas berbeda–beda, oleh karena itu data yang digunakan dalam percobaan ditetapkan sebanyak 80 data. Setiap jenis emosi memiliki 20 data. 2.2. PraProses Leksikon merupakan daftar kata yang memiliki hubungan dengan suatu jenis emosi. Daftar kata bersifat unik, dimana diharapkan kata–kata tersebut dapat secara langsung menunjukkan jenis emosi. Oleh karena itu maka perlu dilakukan proses awal terhadap data lirik lagu sebelum digunakan untuk mengembangkan leksikon. Pada proses awal diperoleh bahwa terdapat kata–kata yang jumlah kemunculannya sangat banyak di semua jenis emosi. Kata–kata seperti ini tidak dapat digunakan untuk leksikon emosi seperti kata “yang”, “di”, dan “aku”. Persoalan ini diselesaikan dengan melakukan proses penghapusan stop-words. Proses steeming tidak dilakukan karena kami berpendapat bahwa imbuhan memiliki pengaruh terhadap makna dari suatu kata sehingga dapat mempengaruhi jenis emosi kata tersebut. 2.3. Leksikon Emosi Data bersih hasil praproses selanjutnya digunakan untuk mengembangkan leksikon emosi. Proses pengembangan leksikon ini didasarkan pada ide bahwa semakin sering sebuah kata digunakan pada suatu jenis emosi maka kata tersebut semakin dapat menunjukkan jenis emosi. Oleh karen itu penelitian ini menggunakan PMI pada penelitian[13] untuk menghitung bobot setiap kata. Bobot setiap kata dihitung menggunakan persamaan (1). ( ) ( ) ( ) ( ) ( ) (1) Dimana: co(e,w) menunjukkan bobot dari kata w terhadap jenis emosi e, c(e,w) merupakan jumlah kemunculan kata w pada jenis emosi e, P(e,w) menunjukkan probabilitas kata w terhadap jenis emosi e, P(e) dan P(w) menunjukkan probalitas jenis emosi e dan kata w pada korpus. Leksikon emosi yang dihasilkan tersusun dari kata dan bobot untuk setiap jenis emosi. Jika suatu kata tidak pernah digunakan dalam suatu jenis emosi tertentu, maka bobot kata tersebut adalah 0. 2.4. Evaluasi Proses evaluasi dilakukan dengan menggunakan leksikon emosi untuk melakukan deteksi jenis emosi dari lirik lagu. Deteksi dilakukan dengan mencocokan setiap kata pada lirik lagu dengan kata dalam leksikon. Jika menemukan kata yang sesuai maka akan diambil setiap bobot dari kata tersebut. Seluruh bobot akan dijumlahkan dan jenis emosi ditentukan berdasarkan jenis emosi dengan bobot terbesar. Data lirik lagu sejumlah 80 dipisahkan menjadi data latih dan data uji. Data latih digunakan untuk mengembangkan leksikon sedangkan data uji digunakan untuk menguji leksikon. Pada setiap percobaan data latih berjumlah 60 data dan data uji sebanyak 20 data. 290 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 Evaluasi leksikon dilakukan dengan menghitung tingkat akurasi menggunakan persamaan (2). (2) 3. HASIL DAN PEMBAHASAN Penelitian ini bertujuan untuk mengembangkan leksikon emosi bahasa Indonesia. Percobaan pada penelitian ini berfokus pada pengembangan leksikon dan pengujian leksikon. Leksikon emosi yang dihasilkan seperti yang ditunjukkan pada Gambar 1. Kolom pertama menunjukkan kata dan kolom kedua hingga kolom ketujuh menunjukkan bobot dari kata tersebut. Sebagai contoh kata “percuma” yang memiliki bobot 0 untuk emosi positif, 4,53 untuk emosi negatif, 5,22 untuk jenis emosi marah dan bernilai 0 untuk jenis emosi senang, rileks, dan sedih. Gambar 1. Leksikon emosi bahasa Indonesia. Sebuah kata akan berbobot 0 jika kata tersebut tidak muncul pada emosi tertentu. Kata “percuma” hanya memiliki bobot untuk jenis emosi marah, hal ini terjadi karena pada data latih kata “percuma” hanya muncul pada lagu yang berlabel marah. Selanjutnya leksikon digunakan untuk melakukan deteksi emosi dari lirik lagu. Percobaan dilakukan sebanyak 4 percobaan dengan menggunakan 60 data latih dan 20 data uji pada setiap percobaan. Hasil percobaan seperti pada Tabel 1. Tabel 1. Akurasi percobaan Percobaan Akurasi Data1 30 % Data2 30 % Data3 20 % Data4 30 % Hasil yang diperoleh pada percobaan ini sangat rendah, dimana akurasi tertinggi hanya mencapai 30 %. Akurasi yang rendah ini terjadi karena banyak kata pada lirik lagu yang digunakan sebagai data uji tidak termasuk dalam leksikon emosi. Beberapa lirik lagu data uji hanya memuat kurang dari 5 kata dalam leksikon. Hal ini sangat mempengaruhi hasil deteksi. Untuk menguji hal tersebut maka dilakukan percobaan tambahan. Pada percobaan tambahan ini, data latih yang digunakan sebannyak 72 dan data uji sebanyak 8 buah data. Percobaan dilakukan sebanyak 10 kali. Pada percobaan tambahan ini diperoleh akurasi rata-rata sebesar 50 %. Hasil pecobaan tambahan ini menunjukkan bahwa jumlah data latih sangat mempengaruhi tingkat akurasi dari deteksi emosi. 4. SIMPULAN Pada makalah ini dilakukan pengembangan leksikon bahasa Indonesia. Leksikon dikembangkan menggunakan data lirik lagu Indonesia. Bobot setiap kata ditentukan menggunakan PMI. Hasil percobaan menggunakan 60 data latih menunjukkan tingkat akurasi yang rendah. Ketika data latih ditambah, hasil akurasi juga mengalami peningkatan. Oleh karena itu pada penelitian selanjutnya sebaiknya menggunakan data latih yang lebih benyak. Selain itu, pada penelitian ini untuk menentukan bobot setiap kata hanya menggunakan PMI. Perlu dilakukan penelitian yang menggunakan pembobotan lain seperti tfidf dan melihat pengaruhnya pada proses deteksi. Penelitian selanjutnya dapat juga difokuskan pada metode deteksi yang digunakan. 5. REFERENSI [1] Fragopanagos, N. dan Taylor, J. 2005. Emotion Recognition in Human-Computer Interaction. Neural Networks. 18: 389-405. [2] Lopatovska, I. dan Arapakis, I. 2011. Theories, Methods and Current Research on Emotion in Library and Information Science, Information Retrieval and Human-Computer Interaction. Information Processing and Management. 47(4):575-592. 291 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 [3] Calvo, R. A. dan D’Mello, S. 2010. Affect Detection: An Interdisciplinary Review of Models, Method, and Their Applications. IEEE Transc. on Affective Computing. 1(1):18-37. [4] Quan, C. dan Ren, F. 2014. Textual Emotion Recognition for Enhancing Enterprise Computing. Enterprise Information System. 37-41. [5] Liu, H., Lieberman, dan Selker, T. 2003. A Model of Textual Affect Sensing using Real-World Knowledge. Proc. of the 2003 Intl. Conf. on Intelligent User Interfaces. 125-132. [6] Neviarouskaya, A., Prendinger, H, dan Ishizuka, M. 2011. Affect Analysis Model: novel rule-based approach to affect sensing from text. Natural Language Engineering. 17: 95-135 [7] Turney, P. D. dan Mohammad, S. M. 2013. Crowdsourcing a word-emotion association lexicon. Computational Intelligence. 29(3):436-465. [8] Krcadinac, U., Pasquier, P., Jovanovic, J, dan Devedzic, V. 2013. Synesketch: An Open Source Library for Sentence-Based Emotion Recognition. IEEE Transc. on Affective Computing. 4(3): 312-325. [9] Bandhakavi, A., Wiratunga, N., Deepak. P, dan Massie, S. 2014. Generating a Word-Emotion Lexicon from #Emotional Tweets. Proc. of the Third Joint Conf. on Lexical and Computational Semantics(*SEM 2014).12-21. [10] Strapparava, C. dan Valitutti, A. 2004. WordNet-Affect: an affective extension of WordNet. Proc. of the Conf. on International Language Resources and Evaluation (LREC). 1083-1086. [11] Neviarouskaya, A., Prendinger, dan Ishizuka, M. 2007. Textual affect sensing for sociable and expressive online communication. Affective Computing and Intelligent Interaction LNCS. 4738: 218-229. [12] Mohammad, S. M. 2012. #Emotional Tweets. Proc. of the First Joint Conf. on Lexical and Computational Semantics(*SEM).246-255. [13] Yang, C., Lin, K. H-Y, dan Chen, H. H. 2007. Building Emotion Lexicon from Weblog Corpora. Proc. of the ACL 2007 Demo and Poster Sessions.133-136 [14] Yang, Y-H. dan Chen, H.H. 2012. Machine Recognition of Music Emotion: A Review. ACM Trans. Itell. Syst. Technol. 3(3):1-30. 292