pengembangan leksikon untuk deteksi emosi dari teks bahasa

advertisement
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015
ISBN: 978-602-1034-19-4
PENGEMBANGAN LEKSIKON UNTUK DETEKSI EMOSI DARI
TEKS BAHASA INDONESIA
Julius Bata
Program Studi Magister Teknik Informatika, Universitas Atma Jaya Yogyakarta
Email: [email protected]
ABSTRAK
Emosi dari suatu teks dapat dikenali dari kata penyusun kalimat tersebut. Oleh karena itu, leksikon emosi memegang
peranan penting dalam sistem deteksi emosi dari teks. Leksikon emosi telah banyak dikembangkan, meskipun
demikian leksikon untuk bahasa Indonesia masih sedikit mendapat perhatian. Makalah ini melakukan percobaan
untuk mengembangkan leksikon emosi. Leksikon yang dikembangkan bersumber pada korpus berisi lirik lagu
Indonesia. Metode Pointwise Mutual Information (PMI) digunakan untuk memberi bobot setiap kata pada leksikon.
Selanjutnya leksikon digunakan untuk melakukan deteksi emosi dari lirik lagu. Evaluasi dilakukan untuk mengetahui
unjuk kerja dari leksikon. Hasil penelitian ini berupa leksikon emosi yang dapat digunakan untuk deteksi emosi dari
teks.
Kata Kunci: Deteksi Emosi, Pembobotan Kata Emosi, Leksikon Emosi Indonesia
1. PENDAHULUAN
Salah satu aspek penting dalam komunikasi antara manusia adalah emosi. Kualitas interaksi manusia dan
komputer dapat ditingkatkan dengan memperhatikan aspek emosi [1, 2]. Ketika komputer mampu
mengenali emosi dari user maka komputer diharapkan dapat memberikan tanggapan sesuai dengan emosi
tersebut. Oleh karena itu, deteksi emosi merupakan kemampuan pertama dan utama yang harus dimiliki
komputer untuk dapat memproses emosi pengguna [3, 4].
Berbagai penelitian telah dilakukan untuk menyelesaikan persoalan deteksi emosi. Penelitian deteksi
emosi telah dilakukan untuk mendeteksi emosi dari ekspresi wajah, suara, gerak tubuh maupun teks [3].
Deteksi emosi dari teks penting dilakukan karena sebagian besar komunikasi berbasis komputer
menggunakan media teks [5, 6]. Pada sisi yang lain, perkembangan jumlah pengguna media sosial
menyebabkan pertumbuhan data teks yang semakin besar. Data teks tersebut perlu diproses untuk
menghasilkan informasi seperti sentimen maupun jenis emosi. Selanjutnya informasi sentimen dan emosi
dapat digunakan pada berbagai bidang seperti sistem tutor, sistem dialog, analisa kepuasan pelanggan dan
enterprise system [4, 7].
Berbagai pendekatan telah dilakukan untuk melakukan deteksi emosi dari teks. Metode deteksi emosi dari
teks dapat dikelompokkan menjadi 3 yaitu keyword-spotting, statistik dan berbasis aturan(rule-base)[6,
8]. Pada dasarnya deteksi emosi dari teks dilakukan dengan melihat kata penyusun teks tersebut. Oleh
karena itu kamus kata (leksikon) menjadi sumber yang sangat penting dalam deteksi emosi dari teks [9].
Leksikon emosi berperan penting dalam sistem deteksi emosi dari teks. Terdapat berbagai leksikon emosi
seperti EmoLex [7], Wordnet-Affect Lexicon (WAL) [10], dan affect database [11]. Leksikon–leksikon
tersebut umumnya berbahasa Inggris dan bersifat umum. Oleh karena itu untuk bahasa dan domain
tertentu perlu dikembangkan leksikon yang sesuai.
Penelitian ini merupakan tahap awal dalam pengembangan leksikon emosi untuk bahasa Indonesia.
Tujuan utama penelitian adalah mengembangkan leksikon emosi dan melakukan evalusi terhadap
leksikon. Berbagai penelitian telah dilakukan untuk mengembangkan leksikon emosi. Salah satu sumber
data yang digunakan untuk mengembangkan leksikon adalah media sosial. Data tweets digunakan untuk
mengembangkan leksikon emosi pada penelitian [12]. Tweets dikumpulkan berdasarkan hashtag (#).
Tanda hashtag ini juga digunakan sebagai label emosi untuk setiap tweets. Data tweets yang
dikumpulkan (TEC= Twiter emotion Corpus) selanjutnya digunakan untuk mengembangkan leksikon
emosi. Leksikon yang dikembangkan terdiri dari n-gram kata serta bobot setiap kata. Bobot setiap kata
merupakan nilai SoA (Strength of Association) yang menggambarkan tingkat asosiasi antara kata dengan
jenis emosi. Data tweets juga digunakan untuk mengembangkan leksikon emosi pada penelitian [9].
Leksikon emosi juga telah dikembangkan dengan pendekatan manual. Pendekatan crowdsourcing
digunakan untuk memberi label emosi terhadap sejumlah daftar kata pada penelitian [7].
Selain tweets, data artikel blog juga dapat digunakan untuk mengembangkan leksikon emosi. Artikel dari
blog Yahoo! Kimo digunakan untuk mengembangkan leksikon emosi [13]. Pada penelitian tersebut, jenis
emosi yang digunakan sesuai dengan emoticon. Pointwise Mutual Information (PMI) digunakan untuk
menghitung nilai co (collocation) antara suatu kata terhadap suatu jenis emoticon.
289
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015
ISBN: 978-602-1034-19-4
Makalah ini melakukan adaptasi penelitian [13] untuk mengembangkan leksikon emosi bahasa Indonesia.
Perbedaan utama yaitu pada jenis emosi dan data yang digunakan. Pada penelitian ini menggunakan data
berupa lirik lagu Indonesia. Lirik lagu digunakan karena lirik lagu dapat menggambarkan emosi dari
sebuah lagu [14]. Langkah–langkah dalam mengembangkan leksikon diberikan pada bagian 2. Evaluasi
dilakukan terhadap leksikon dengan melakukan percobaan deteksi emosi (bagian 3).
2. METODE
Pada bagian ini akan dijelaskan langkah yang digunakan untuk mengembangkan leksikon. Terlebih
dahulu akan dijelaskan data yang digunakan. Selanjutnya dijelaskan detail proses pengembangan
leksikon. Prosedur evaluasi diberikan pada bagian akhir.
2.1. Data
Pada penelitian ini data yang digunakan adalah data lirik lagu. Lirik lagu digunakan karena dalam lirik
lagu banyak memuat ungkapan emosi yang dapat mempengaruhi pendengarnya secara langsung. Selain
itu, emosi dari suatu lagu juga dapat secara langsung terlihat dari lirik lagu tersebut [14].
Sejumlah 150 lirik lagu dikumpulkan dari berbagai situs internet. Proses selanjutnya adalah melakukan
anotasi. Anotasi dilakukan secara manual oleh 3 orang (anotator). Jenis emosi yang digunakan adalah
senang, rileks, sedih, dan marah. Jenis emosi ini banyak digunakan dalam penelitian deteksi emosi lagu
[14]. Setelah proses anotasi, diperoleh 97 lagu yang memiliki anotasi sama dari ketiga anotator. Jumlah
data untuk masing–masing kelas berbeda–beda, oleh karena itu data yang digunakan dalam percobaan
ditetapkan sebanyak 80 data. Setiap jenis emosi memiliki 20 data.
2.2. PraProses
Leksikon merupakan daftar kata yang memiliki hubungan dengan suatu jenis emosi. Daftar kata bersifat
unik, dimana diharapkan kata–kata tersebut dapat secara langsung menunjukkan jenis emosi. Oleh karena
itu maka perlu dilakukan proses awal terhadap data lirik lagu sebelum digunakan untuk mengembangkan
leksikon.
Pada proses awal diperoleh bahwa terdapat kata–kata yang jumlah kemunculannya sangat banyak di
semua jenis emosi. Kata–kata seperti ini tidak dapat digunakan untuk leksikon emosi seperti kata “yang”,
“di”, dan “aku”. Persoalan ini diselesaikan dengan melakukan proses penghapusan stop-words. Proses
steeming tidak dilakukan karena kami berpendapat bahwa imbuhan memiliki pengaruh terhadap makna
dari suatu kata sehingga dapat mempengaruhi jenis emosi kata tersebut.
2.3. Leksikon Emosi
Data bersih hasil praproses selanjutnya digunakan untuk mengembangkan leksikon emosi. Proses
pengembangan leksikon ini didasarkan pada ide bahwa semakin sering sebuah kata digunakan pada suatu
jenis emosi maka kata tersebut semakin dapat menunjukkan jenis emosi. Oleh karen itu penelitian ini
menggunakan PMI pada penelitian[13] untuk menghitung bobot setiap kata. Bobot setiap kata dihitung
menggunakan persamaan (1).
(
)
(
)
(
)
( ) ( )
(1)
Dimana:
co(e,w) menunjukkan bobot dari kata w terhadap jenis emosi e,
c(e,w) merupakan jumlah kemunculan kata w pada jenis emosi e,
P(e,w) menunjukkan probabilitas kata w terhadap jenis emosi e,
P(e) dan P(w) menunjukkan probalitas jenis emosi e dan kata w pada korpus.
Leksikon emosi yang dihasilkan tersusun dari kata dan bobot untuk setiap jenis emosi. Jika suatu kata
tidak pernah digunakan dalam suatu jenis emosi tertentu, maka bobot kata tersebut adalah 0.
2.4. Evaluasi
Proses evaluasi dilakukan dengan menggunakan leksikon emosi untuk melakukan deteksi jenis emosi dari
lirik lagu. Deteksi dilakukan dengan mencocokan setiap kata pada lirik lagu dengan kata dalam leksikon.
Jika menemukan kata yang sesuai maka akan diambil setiap bobot dari kata tersebut. Seluruh bobot akan
dijumlahkan dan jenis emosi ditentukan berdasarkan jenis emosi dengan bobot terbesar.
Data lirik lagu sejumlah 80 dipisahkan menjadi data latih dan data uji. Data latih digunakan untuk
mengembangkan leksikon sedangkan data uji digunakan untuk menguji leksikon. Pada setiap percobaan
data latih berjumlah 60 data dan data uji sebanyak 20 data.
290
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015
ISBN: 978-602-1034-19-4
Evaluasi leksikon dilakukan dengan menghitung tingkat akurasi menggunakan persamaan (2).
(2)
3. HASIL DAN PEMBAHASAN
Penelitian ini bertujuan untuk mengembangkan leksikon emosi bahasa Indonesia. Percobaan pada
penelitian ini berfokus pada pengembangan leksikon dan pengujian leksikon.
Leksikon emosi yang dihasilkan seperti yang ditunjukkan pada Gambar 1. Kolom pertama menunjukkan
kata dan kolom kedua hingga kolom ketujuh menunjukkan bobot dari kata tersebut. Sebagai contoh kata
“percuma” yang memiliki bobot 0 untuk emosi positif, 4,53 untuk emosi negatif, 5,22 untuk jenis emosi
marah dan bernilai 0 untuk jenis emosi senang, rileks, dan sedih.
Gambar 1. Leksikon emosi bahasa Indonesia.
Sebuah kata akan berbobot 0 jika kata tersebut tidak muncul pada emosi tertentu. Kata “percuma” hanya
memiliki bobot untuk jenis emosi marah, hal ini terjadi karena pada data latih kata “percuma” hanya
muncul pada lagu yang berlabel marah.
Selanjutnya leksikon digunakan untuk melakukan deteksi emosi dari lirik lagu. Percobaan dilakukan
sebanyak 4 percobaan dengan menggunakan 60 data latih dan 20 data uji pada setiap percobaan. Hasil
percobaan seperti pada Tabel 1.
Tabel 1. Akurasi percobaan
Percobaan
Akurasi
Data1
30 %
Data2
30 %
Data3
20 %
Data4
30 %
Hasil yang diperoleh pada percobaan ini sangat rendah, dimana akurasi tertinggi hanya mencapai 30 %.
Akurasi yang rendah ini terjadi karena banyak kata pada lirik lagu yang digunakan sebagai data uji tidak
termasuk dalam leksikon emosi. Beberapa lirik lagu data uji hanya memuat kurang dari 5 kata dalam
leksikon. Hal ini sangat mempengaruhi hasil deteksi. Untuk menguji hal tersebut maka dilakukan
percobaan tambahan. Pada percobaan tambahan ini, data latih yang digunakan sebannyak 72 dan data uji
sebanyak 8 buah data. Percobaan dilakukan sebanyak 10 kali. Pada percobaan tambahan ini diperoleh
akurasi rata-rata sebesar 50 %. Hasil pecobaan tambahan ini menunjukkan bahwa jumlah data latih sangat
mempengaruhi tingkat akurasi dari deteksi emosi.
4. SIMPULAN
Pada makalah ini dilakukan pengembangan leksikon bahasa Indonesia. Leksikon dikembangkan
menggunakan data lirik lagu Indonesia. Bobot setiap kata ditentukan menggunakan PMI. Hasil percobaan
menggunakan 60 data latih menunjukkan tingkat akurasi yang rendah. Ketika data latih ditambah, hasil
akurasi juga mengalami peningkatan. Oleh karena itu pada penelitian selanjutnya sebaiknya
menggunakan data latih yang lebih benyak. Selain itu, pada penelitian ini untuk menentukan bobot setiap
kata hanya menggunakan PMI. Perlu dilakukan penelitian yang menggunakan pembobotan lain seperti tfidf dan melihat pengaruhnya pada proses deteksi. Penelitian selanjutnya dapat juga difokuskan pada
metode deteksi yang digunakan.
5. REFERENSI
[1] Fragopanagos, N. dan Taylor, J. 2005. Emotion Recognition in Human-Computer Interaction. Neural
Networks. 18: 389-405.
[2] Lopatovska, I. dan Arapakis, I. 2011. Theories, Methods and Current Research on Emotion in
Library and Information Science, Information Retrieval and Human-Computer Interaction.
Information Processing and Management. 47(4):575-592.
291
Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015
ISBN: 978-602-1034-19-4
[3] Calvo, R. A. dan D’Mello, S. 2010. Affect Detection: An Interdisciplinary Review of Models,
Method, and Their Applications. IEEE Transc. on Affective Computing. 1(1):18-37.
[4] Quan, C. dan Ren, F. 2014. Textual Emotion Recognition for Enhancing Enterprise Computing.
Enterprise Information System. 37-41.
[5] Liu, H., Lieberman, dan Selker, T. 2003. A Model of Textual Affect Sensing using Real-World
Knowledge. Proc. of the 2003 Intl. Conf. on Intelligent User Interfaces. 125-132.
[6] Neviarouskaya, A., Prendinger, H, dan Ishizuka, M. 2011. Affect Analysis Model: novel rule-based
approach to affect sensing from text. Natural Language Engineering. 17: 95-135
[7] Turney, P. D. dan Mohammad, S. M. 2013. Crowdsourcing a word-emotion association lexicon.
Computational Intelligence. 29(3):436-465.
[8] Krcadinac, U., Pasquier, P., Jovanovic, J, dan Devedzic, V. 2013. Synesketch: An Open Source
Library for Sentence-Based Emotion Recognition. IEEE Transc. on Affective Computing. 4(3):
312-325.
[9] Bandhakavi, A., Wiratunga, N., Deepak. P, dan Massie, S. 2014. Generating a Word-Emotion
Lexicon from #Emotional Tweets. Proc. of the Third Joint Conf. on Lexical and Computational
Semantics(*SEM 2014).12-21.
[10] Strapparava, C. dan Valitutti, A. 2004. WordNet-Affect: an affective extension of WordNet. Proc. of
the Conf. on International Language Resources and Evaluation (LREC). 1083-1086.
[11] Neviarouskaya, A., Prendinger, dan Ishizuka, M. 2007. Textual affect sensing for sociable and
expressive online communication. Affective Computing and Intelligent Interaction LNCS. 4738:
218-229.
[12] Mohammad, S. M. 2012. #Emotional Tweets. Proc. of the First Joint Conf. on Lexical and
Computational Semantics(*SEM).246-255.
[13] Yang, C., Lin, K. H-Y, dan Chen, H. H. 2007. Building Emotion Lexicon from Weblog Corpora.
Proc. of the ACL 2007 Demo and Poster Sessions.133-136
[14] Yang, Y-H. dan Chen, H.H. 2012. Machine Recognition of Music Emotion: A Review. ACM Trans.
Itell. Syst. Technol. 3(3):1-30.
292
Download