SKRIPSI PENERAPAN ANALISIS MORFOLOGI UNTUK PENANGANAN KATA BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS STATISTIK IMPLEMENTING MORPHOLOGICAL ANALYZER FOR AFFIXES HANDLING IN STATISTIC BASED INDONESIAN POS TAGGER Diajukan untuk memenuhi salah satu syarat memperoleh gelar Sarjana Teknik Informatika Disusun Oleh : Nama : Umriya Afini NIM : A11.2012.07305 Program Studi : Teknik Informatika – S1 FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2016 PERSETUJUAN SKRIPSI Nama : Umriya Afini NIM : A11.2012.07305 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS STATISTIK Tugas Akhir ini telah diperiksa dan disetujui, Semarang, Menyetujui Mengetahui Pembimbing Dekan Fakultas Ilmu Komputer Muljono,SSi, M.Kom Dr. Abdul Syukur ii PENGESAHAN DEWA PENGUJI Nama : Umriya Afini NIM : A11.2012.07305 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS STATISTIK Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir tanggal 3 Agustus 2016. Menurut pandangan kami, tugas akhir ini memadahi dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom) Semarang, X 2016 Dewan Penguji : Pembimbing Ketua Penguji Muljono,SSi, M.Kom Hanny Haryanto,S.Kom, M.T iii PERNYATAAN KEASLIAN SKRIPSI Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan dibawah ini, saya: Nama : Umriya Afini NIM : A11.2012.07305 Menyatakan bahwa karya ilmiah saya berjudul: PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS STATISTIK Merupakan karya asli (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan seumbernya dan perangkat pendukung seperti webcamp dll). Apabila dikemudian hari, karya saya disinyalisir bukan merupakan karya asli saya, yang disertai bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada Tanggal : Yang Menyatakan (Umriya Afini) iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan dibawah ini, saya: Nama : Umriya Afini NIM : A11.2012.07305 Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-Exclusive Royalti-Free-Right) atas karya ilmiah saya yang berjudul: PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS STATISTIK beserta perangkat yang diperlukan. Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikan dan menampilkan/mempublikasi di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk hokum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada Tanggal : Yang Menyatakan (Umriya Afini) v UCAPAN TERIMAKASIH Dengan memanjatkan puji syukur kehadirat Allah SWT. Tuhan Yang Maha Pengasih dan Maha Penyayang yang telah melimpahkan segala rahmat, hidayah dan inayah-Nya kepada penulis sehingga laporan tugas akhir dengan judul “PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS STATISTIK” dapat penulis selesaikan sesuai rencana karena adanya dukungan dari berbagai pihak yang tidak ternilai besarnya. Oleh karena itu penulis menyampaikan terimakasih kepada : 1. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas Dian Nuswantoro. 2. Dr. Drs. Abdul Syukur, MM selaku Dekan Fasilkom. 3. Heru Agus Santoso, Ph.D selaku Ka.Progdi Teknik Informartika. 4. Muljono, SSi, M.Kom selaku pembimbing tugas akhir yang memberikan ide penelitian, informasi referensi dan bimbingan yang berkaitan dengan penelitian penulis. 5. Kedua orang tua penulis yang telah memberikan doa, dorongan, nasehat, dan kasih sayang. Adik-adik serta teman-teman penulis yang telah mendukung dalam pembuatan laporan tugas akhir ini. 6. Pihak-pihak yang telah banyak membantu penulis, yang tidak dapat penulis sebutkan namanya satu-persatu. Semoga Tuhan Yang Maha Esa memberikan balasan yang lebih besar kepada beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas akhir ini dapat bermanfaat dan berguna sabagaimana mestinya. Penulis sangat berharap penelitian ini dapat dikembangkan dan disempurnakan sehingga dapat menjadi lebih bermanfaat. Semarang, Agustus 2016 (Umriya Afini) vi ABSTRAK POS tagging (pelabelan kelas kata) merupakan salah satu proses penting pada aplikasi-aplikasi NLP. POS tagging otomatis dibutuhkan karena POS tagging secara manual membutuhkan waktu yang lama dan biaya mahal. Masalah utama dalam POS tagging secara otomatis adalah kata ambigu dan kata Out-ofVocabulary (OOV). Salah satu pendekatan untuk mengatasi masalah kata ambigu yang telah dikembangkan dan terbukti menghasilkan keakuratan tinggi adalah POS tagging menggunakan pendekatan statistik dengan Hidden Markov Model (HMM). Sistem POS tagger bahasa Indonesia yang menerapkan HMM adalah IPOSTAgger. Masalah lain yaitu penanganan kata OOV dalam penelitian ini digunakan penerapan metode pengalisis morfologi bahasa Indonesia. Sistem yang diterapkan adalah penganalisis morfologi Morphind. Selain untuk penanganan kata OOV, sistem Morphind juga digunakan untuk pemotongan klitik pada kata imbuhan berbentuk frasa. Dengan menggabungkan kedua sistem tersebut dihasilkan beberapa model yang dapat diterapkan untuk POS tagging pada korpus bahasa Indonesia. Korpus yang digunakan yaitu korpus latih terdiri dari 10.000 kata yang telah diberi 31 label POS dan 3 jenis korpus uji masing-masing berisi 3000 kata. Keakuratan tertinggi sebesar 95.683~% dihasilkan oleh model HMM trigram + MA pada korpus uji 1 dengan tingkat kata OOV 10%, pada korpus 2 dengan tingkat kata OOV 20% dihasilkan oleh model HMM trigram + MA dan HMM bigram + MA dengan keakuratan yang sama yaitu 92.809~%, sedangkan pada korpus 3 dengan tingkat kata OOV 30% dihasilkan oleh model HMM bigram + MA yaitu sebesar 88.3279~%. Kata kunci : Part of Speech Tagger, Hidden Markov Model, Analisis Morfologi vii ABSTRACT POS tagging (word class tagging) is one of essential process in many NLP applications. Automatic POS tagging is needed because manually POS tagging is time consuming and costly. The main problem of automatic POS tagging is word ambiguity and Out-of-Vocabulary (OOV) word. One of approach for handling word ambiguity problem which already developed and proven give high accuracy is POS tagging using Hidden Markov Model (HMM) statistic based tagger. POS tagger system for bahasa Indonesia using HMM is IPOSTAgger. Another POS tagging problem is OOV words handling, in this research is used morphology analyzer method for bahasa Indonesia. Applied System is morphology analyzer MorphInd. In addition to handling OOV word, system MorphInd is used for clitic segmentation in affix phrase form. With combining both system resulted several models which can be used for POS tagging in corpus using bahasa Indonesia. Used corpus is training corpus which consist of 10000 words given 31 POS tag and 3 kind of test corpus each consist of 3000 words. Highest accuracy in test corpus 1 with 10% OOV is 95.683~% resulted by HMM trigram + MA model, in test corpus 2 with 20% OOV is 92.809~% resulted by HMM trigram + MA model and HMM bigram + MA model, while in test corpus 3 with 30% OOV is 88.3279~% resulted by HMM bigram + MA model. Highest accuracy in test corpus 1 with 10% OOV is 95.683~% resulted by HMM trigram + MA model, in test corpus 2 with 20% OOV is 92.809~% resulted by HMM trigram + MA model and HMM bigram + MA model, while in test corpus 3 with 30% OOV is 88.3279~% resulted by HMM bigram + MA model. Key word : Part of Speech Tagger, Hidden Markov Model , Morphology Analysis viii DAFTAR ISI PERSETUJUAN SKRIPSI.....................................................................................ii PENGESAHAN DEWA PENGUJI.......................................................................iii PERNYATAAN KEASLIAN SKRIPSI.................................................................iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS................................................................................v UCAPAN TERIMAKASIH...................................................................................vi ABSTRAK............................................................................................................vii ABSTRACT.........................................................................................................viii DAFTAR ISI..........................................................................................................ix DAFTAR TABEL..................................................................................................xi DAFTAR GAMBAR............................................................................................xii BAB I PENDAHULUAN.......................................................................................1 1.1 Latar Belakang............................................................................................1 1.2 Rumusan Masalah.......................................................................................3 1.3 Batasan Masalah.........................................................................................3 1.4 Tujuan Penelitian........................................................................................4 1.5 Manfaat Penelitian......................................................................................4 Bab II TINJAUAN PUSTAKA...............................................................................5 2.1 Tinjauan Studi.............................................................................................5 2.2 Tinjauan Pustaka.........................................................................................9 2.2.1 Karakteristik Bahasa Indonesia......................................................9 2.2.2 Morfologi Bahasa Indonesia...........................................................9 2.2.3 Part-of-speech...............................................................................15 2.2.4 Sistem Yang Diterapkan...............................................................21 2.3 Kerangka Pemikiran..................................................................................23 BAB III METODE PENELITIAN........................................................................24 3.1 Instrumen Penelitian.................................................................................24 ix 3.1.1 Bahan............................................................................................24 3.1.2 Peralatan.......................................................................................24 3.2 Prosedur Pengumpulan Data.....................................................................25 3.2.1 Studi Pustaka................................................................................25 3.2.2 Eksperimen...................................................................................26 3.3 Teknik Analisis Data.................................................................................26 3.4 Model Atau Metode Yang Diusulkan........................................................27 3.4.1 Preprocessing................................................................................27 3.4.2 HMM Tagging..............................................................................29 3.4.3 Evaluation.....................................................................................32 3.5 Eksperimen Dan Cara Pengujian Model...................................................33 3.5.1 Pengujian Data..............................................................................33 3.5.2 Pengujian Keakuratan...................................................................34 Bab IV ANALISIS HASIL PENELITIAN DAN PEMBAHASAN.....................36 4.2 Analisis Data.............................................................................................36 4.3 Hasil Training............................................................................................36 4.4 Hasil Preprocesing....................................................................................39 4.5 Implementasi HMM..................................................................................42 4.6 Implementasi Morphology Analyzer........................................................50 4.7 Pengujian...................................................................................................54 BAB V KESIMPULAN DAN SARAN................................................................57 5.1 Kesimpulan...............................................................................................57 5.2 Saran.........................................................................................................57 DAFTAR PUSTAKA............................................................................................58 x DAFTAR TABEL Tabel 1: State Of The Art.........................................................................................7 Tabel 2: Perubahan Nada Suara.............................................................................13 Tabel 3: Tagset Yang Digunakan............................................................................33 Tabel 4: Contoh Ngram..........................................................................................37 Tabel 5: Penerjemah Label POS.............................................................................40 Tabel 6: Perhitungan Probabilitas Emisi Known Word..........................................43 Tabel 7: Hasil Penghitungan Decoding HMM Bigram..........................................47 Tabel 8: Hasil Penghitungan Decoding HMM Trigram.........................................49 Tabel 9: Hasil Penghitungan Decoding HMM Bigram Dan MA...........................53 Tabel 10: Persentase Overall Accuracy..................................................................55 Tabel 11: Persentase Known Word Accuracy.........................................................55 Tabel 12: Persentase Unknown Word Accuracy....................................................56 xi DAFTAR GAMBAR Gambar 1: Pohon Sufiks Pada Kepanjangan Tiga.................................................20 Gambar 2: Struktur Keluaran MorphInd................................................................22 Gambar 3: Tahapan Proses POS Tagging...............................................................27 Gambar 4: Tahap Preprocessing.............................................................................28 Gambar 5: Tahap HMM Tagging...........................................................................30 Gambar 6: Ilustrasi Pelabelan Decoding HMM.....................................................32 Gambar 7: File Ngram.trn Dan File Lexicon.trn....................................................37 Gambar 8: Preprocesing Korpus Uji......................................................................39 Gambar 9: File Token-tag.txt.................................................................................41 Gambar 10: Ilustrasi Decoding HMM Bigram......................................................48 Gambar 11: Ilustrasi Decoding HMM Trigram......................................................49 Gambar 12: Ilustrasi Decoding HMM Bigram Dan MA.......................................54 xii BAB I PENDAHULUAN 1.1 Latar Belakang Bahasa Indonesia adalah bahasa resmi negara Indonesa yang secara luas digunakan sebagai alat komunikasi sehari-hari oleh lebih dari 222 juta orang. Dengan lebih dari 742 bahasa daerah yang berbeda, Bahasa Indonesia merupakan bahasa pemersatu bagi penduduk Indonesia [1]. Sehingga memiliki peralatan untuk penelitian Natural Language Processing (NLP) yang tersedia untuk masyarakat luas menjadi penting. Label Part-of-Speech (POS) adalah label kategori kelas kata yang berupa kata kerja (verb), kata benda (noun), kata sifat (adjectives), kata keterangan (adverb) dan seterusnya pada tiap kata dalam suatu kalimat. POS tagging (pelabelan kelas kata) merupakan salah satu bagian yang sangat penting dalam aplikasi NLP seperti Speech Recognition, Question Answering dan Informarion Retrieval. Melakukan palabelan POS secara manual membutuhkan waktu yang lama dan biaya yang mahal karena harus memerlukan ahli bahasa. Oleh karena itu mengembangkan POS tagging secara otomatis merupakan kebutuhan yang mendesak. POS tagging telah secara luas dipelajari dan dikembangkan untuk bahasa Indonesia. Beberapa pendekatan telah digunakan untuk mengembangkan POS tagging diantaranya adalah pendekatan Statistic-Based [2,3,4], pendekatan RuleBased [5] dan pendekatan Transformasion-Based learning [6]. Salah satu metode POS tagging yang telah dikembangkan dan menghasilkan keakuratan yang tinggi adalah POS tagging dengan pendekatan berbasis statistik (Statistic-Based) menggunakan metode Hidden Markov Model (HMM) dikombinasikan dengan metode lain [7]. HMM sendiri merupakan pengembangan dari Markov Model yang mengasumsikan bahwa kata secara probabilitas bergantung hanya pada 1 2 kategori POS dua kata sebelumnya. Salah satu POS tagging untuk bahasa Indonesia yang menerapkan pendekatan statistik dengan metode HMM adalah IPOSTAgger, yang dikembangkan oleh Wicaksono dan Purwarianti [3]. Dengan menggunakan HMM bigram (urutan pertama) dan HMM trigram (urutan kedua) sebagai model dasar IPOSTAgger juga menerapkan beberapa metode lain seperti Jelinek-Mercer smoothing, Affix Tree (pohon prefix – suffix), Lexicon (kamus) dari KBBIKateglo dan Succeding POS tag. Metode-metode tersebut diuji untuk mengetahui konfigurasi yang menghasilkan nilai keakuratan terbaik. Adapun konfigurasi terbaik yang didapatkan kombinasi metode HMM trigram, Affix tree dan Lexicon. Masalah utama dalam POS tagging antara lain kata ambigu dan kata Outof-Vocabulary (OOV) [8]. Kata ambigu merupakan kata yang memiliki sifat berbeda jika ditempakan pada konteks yang berbeda. Sedangkan kata OOV merupakan kata yang ada dalam korpus uji namun tidak ada dalam korpus latih, hal ini akan menyebabkan masalah sparse data. Sistem morfologi bahasa Indonesia cukup rumit, termasuk diantaranya afiksasi yang menjadi salah satu sumber dari masalah kata OOV. Bahasa Indonesia menggunakan banyak kata imbuhan untuk membuat kata jadian. Penggunaan prefik, sufiks, infiks, atau kombinasinya dapat merubah label POS dan makna dari suatu kata. Kata kerja dapat menjadi kata benda, kata keterangan maupun kata sifat. Salah satu bagian dari afiksasi adalah pengklitikan. Fenomena pengklitikan (proklitik, enklitik) sangat sering terjadi dalam bahasa sehari-hari. Kata berimbuhan yang ketambahan klitik akan menjadi kata ambigu, contohnya kata kumengirimkanmu (kata benda nama diri) yang terdiri dari kata mengirimkan (kata kerja transitif) ketambahan proklitik ku (kata benda) dan enklitik mu (kata benda). Sehingga diperlukannya proses pengolahan berupa pemotongan pada kata berklitik. Penentuan kombinasi afiks ataupun pemotongan klitik memerlukan analisis morfologi terlebih dahulu sehingga tidak menimbulkan kesalahan pemberian label POS atau kesalahan pemotongan klitik yang akan mengurangi tingkat keakuratan POS tagger. Penerapan analisis morfologi dapat membantu pemberian kategori kelas kata karena dapat diketahui unsur-unsur pembuat kata tersebut. Salah satu metode 3 analisis morfologi adalah Affix tree yang diadaptasi oleh IPOSTAgger. Namun Affix tree hanya dapat melakukan pencocokan pola tidak memberikan informasi morfologi lebih jauh. Sistem yang menerapkan analisis morfologi untuk bahasa Indonesia yang dapat menangani afiksasi dan pengklitikan salah satunya adalah penganalisis morfologi (Morphology Analyzer ) MorphInd [9]. Penelitian ini menerapkan analisis morfologi pada POS tagging untuk mengatasi masalah kata ambigu dan kata OOV yang banyak disebabkan oleh kata berimbuhan. Sistem MorphInd diterapkan untuk pelabelan POS pada kata OOV dan membantu pemotongan klitik pada tahap preprocessing. Selanjutnya tahap HMM tagging dilakukan menggunakan IPOSTAgger, konfigurasi model terbaik akan dibandingkan untuk mengetahui nilai keakuratan tertinggi pada korpus uji yang telah disiapkan. Berdasarkan analisis tersebut, penelitian ini mengambil judul “Penerapan analisis morfologi untuk penanganan kata berimbuhan pada POS Tagger bahasa Indonesia berbasis statistik”. 1.2 Rumusan Masalah Berdasarkan uraian pada latar belakang, masalah yang ada pada POS tagging seperti penanganan kata OOV dan kata ambigu sangat penting untuk meningkatkan keakuratan pada model POS tagging. Salah satu masalah dalam POS tagging bahasa Indonesia adalah kata imbuhan. Hal ini dapat diatasi dengan menerapkan analisis morfologi pada POS tagging. Dengan demikian rumusan dari masalah tersebut adalah, “Bagaimana menerapkan analisis morfologi untuk penanganan kata berimbuhan dalam POS tagging bahasa Indonesia berbasis statistik”. 1.3 Batasan Masalah Untuk menyelesaikan permasalahan yang ada, diperlukan adanya batasan yang dapat mencakup kajian yang berhubungan dengan masalah tersebut sehingga 4 penyelesaian tidak menyimpang dari masalah. Adapun batasannya adalah sebagai berikut: 1. Penelitian diterapkan pada sistem POS tagging IPOSTAgger. 2. Penelitian menggunaan MorphInd untuk penganalisis morfologi bahasa Indonesia. 3. Korpus latih dan korpus uji menggunakan bahasa Indonesia yang baku dan merupakan korpus yang telah ditentukan. 1.4 Tujuan Penelitian Tujuan yang ingin dicapai dalam penelitian ini adalah sebagai berikut: 1. Mengimplementasikan analisis morfologi pada POS tagging berbasis statistik. 2. Menentukan konfigurasi model POS tagging dengan penerapan analisis morfologi yang dapat meningkatkan keakuratan POS tagger. 1.5 Manfaat Penelitian Penelitian ini diharapkan dapat bermanfaat bagi: 1. Universitas Dian Nuswantoro (a) Penelitian ini dapat menjadi tinjauan pustaka baru untuk studi pada bidang NLP khususnya POS tagging. 2. Masyarakat Umum (a) Dapat diterapkan untuk alat preprocessing pada aplikasi-aplikasi NLP. (b) Dapat dimanfaatkan kembali untuk penelitian tentang analisis morfologi dalam komputasi linguistik, POS tagging ataupun penelitian NLP selanjutnya. BAB II TINJAUAN PUSTAKA 2 2.1 Tinjauan Studi Dasar pemikiran penelitian tentang POS tagging bahasa Indonesia yang penulis buat mengacu pada beberapa penelitian terkait sebelumnya. Pertama penelitian yang dilakukan oleh A.F. Wicaksono dan Ayu Purwarianti dalam jurnal berjudul “HMM Based Part-of-Speech Tagger for Bahasa Indonesia” membahas tentang pengembangan IPOSTAgger, sistem POS tagger bahasa Indonesia yang menerapkan pendekatan statistik dan beberapa metode lain untuk mengatasi masalah keambiguan label POS. Model dasar yang diterapkan adalah HMM bigram dan HMM trigram. Jelinek-Mercer smoothing diterapkan untuk mengatasi masalah sparse data pada probabilitas transisi. Sedangkan model Affix tree dan Lexicon seperti yang digunakan oleh Helmut Schmid juga diterapkan untuk penanganan OOV. Terakhir metode Succeeding POS tag yang diadaptasi dari penelitian Tetsuji Nakagawa juga diterapkan. Dengan menggunakan 12.000 kata korpus latih dan 3.000 kata korpus uji, pengujian dilakukan sebanyak 3 kali dengan presentasi kata OOV berbeda yaitu 15% kata OOV, 21% kata OOV dan 30% kata OOV. Dari ketiga pengujian keakuratan tertinggi dihasilkan dari kombinasi metode HMM trigram, Affix tree dan Lexicon, sedangkan penggunaan Succeeding POS tag meunjukkan penurunan keakuratan. Pada ketiga pengujian yang dilakukan tingkat keakuratan cenderung menurun pada korpus uji dengan tinggat kata OOV tinggi yaitu 96.50% pada korpus 15% kata OOV, 94.46% pada korpus 21% kata OOV, dan 91.30% pada korpus 30% kata OOV [3]. Kedua penelitian oleh H. Mohamed, N. Omar, dan M. J. Ab Aziz dalam jurnal berjudul “Statistical Malay Part-of-Speech (POS) Tagger using Hidden Markov Approach” membahas pengembangan POS tagging berbasis statistik 5 6 untuk bahasa Malaysia. Pada proses morfologi penanganan klitik dilakukan dengan cara pemotongan pada enklitik nya dan lah. Penelitian ini menggunakan metode HMM trigram, Linear Successive Abstraction smoothing dan untuk memprediksi kata OOV digunakan informasi afiks (prefiks, sufiks) seperti yang digunakan dalam TnT POS tagger, sedangakan informasi sirkumfiks menggunakan chain rule. Percobaan menggunakan 18.400 token korpus latih dan diujikan pada 1.840 token korpus uji dengan 15 % kata OOV. Keakuratan terbaik dihasilkan pada pemrediksi prefiks dengan keakuratan overall 94%, keakuratan pada known word mencapai 98,6% dan unknown word mencapai 67,9% [10]. Ketiga penelitian yang dilakukan oleh A. B. Juhaida dalam jurnal berjudul “Morphology Analysis in Malay POS Prediction” membahas pengembangan POS tagging pada bahasa Malaysia menggunakan informasi morfologi. Penelitian ini menggunakan dua algoritma machine learning yaitu Decision Tree (J48) dan Nearest Neighbor (kNN) untuk dibandingkan hasilnya. Sedangkan pada informasi morfologi digunakan pada open class word. Percobaan dilakukan menggunakan Weka 3.7.9 menunjukkan hasil keakuratan, kesalahan RMS dan waktu untuk membangun model ditunjukkan oleh Decision Tree (J48) yaitu sebesar 92.86%. Ini menunjukkan bahwa analisis morfologi terbukti berpengaruh pada hasil komputasi [11]. Keempat penelitian oleh S. D. Larasati, V. Kuboˇn, dan D. Zeman dalam jurnal berjudul “Indonesian Morphology Tool (MorphInd): Towards an Indonesian Corpus” merupakan penelitian yang dilakukan untuk perbaikan beberapa isu pada IndMA, alat analisis morfologi bahasa Indonesia sebelumnya. Penelitian ini membahas tentang pengembangan MorphInd, alat analisis morfologi untuk bahasa Indonesia yang dapat mengatasi analisis morfologi dan lexical pada bahasa Indonesia dengan lebih baik. Fenomena morfologi dalam bahasa Indonesia diantaranya karakter tidak biasa, seperti afiksasi (prefik, sufik, sirkumfik, dan infik), reduplikasi dan pengklitikan (proklitik dan enklitik). Alat berbasis finite state ini menggunakan teknologi Foma yang mengimplementasi pendekatan dua level morfologi. Pengujian menggunakan korpus paralel yang terdiri dari 39% kalimat-kalimat terjemah dari PENN Treebank, 7% subtitle film, 7 10% artikel olahraga, 14% artikel pengetahuan umum, 15% artikel internasional, dan 15% artikel ekonomi. Hasil menunjukkan secara overall ( rasio jumlah kata yg dianalisis dan jumlah kata dalam teks ) MorphInd menunjukkan nilai yang lebih baik dari pada IndMA ini karena MorphInd secara utama mencakup klitik, numeral alternation, dan tambahan partikel morfem yg tidak ditanggulangi oleh IndMA [9]. Semua penelitian diatas, penulis rangkum dalam tabel state of the art untuk merumuskan lingkup penelitian. Tabel 1: State of the art No Tahun 1 2010 Judul Peneliti Metode Hasil HMM Based Alfan Farizki HMM bigram, Keakuratan Part-of- Wicaksono, HMM trigram, tertinggi pada Speech Ayu Linier POS tagging Tagger for Purwarianti interpolation dihasilkan dari Bahasa smoothing, kombinasi metode Indonesia Jelinek-Mercer HMM trigram, smoothing, pohon prefix – Affix tree, suffix dan Lexicon, Lexicon. Succeding POS Penggunaan tag Succeeding POS Tag meunjukkan penurunan keakuratan. 8 (Tabel State of the art lanjutan) No Tahun 2 2011 Judul Peneliti Metode Hasil Statistical Hassan HMM trigram, Keakuratan Malay Part- Mohamed Linear successive terbaik untuk of-Speech ,Nazlia Omar, abstraction penanganan kata (POS) Mohd Juzaidin smoothing, OOV dihasilkan Tagger using Ab Aziz Pemrediksi pada pemrediksi Hidden prefiks dan prefiks. Markov sufiks Approach 3 4 2013 2011 Morphology Juhaida Abu Decision Tree Keakuratan Analysis in Bakar, (J48) , Nearest tertinggi Malay POS Khairuddin neighbor (kNN), dihasilkan oleh Prediction Omar, informasi Decision Tree Mohammad morfologi pada (J48), dan Faidzul open class word membuktikan Indonesian Nasrudin dan analisis morfologi Mohd Zamri berpengaruh pada Murah hasil komputasi Septiana Dian Morphology Larasati, Tool Vladislav Teknologi Finite- Penganalisis state oleh Foma morfologi bahasa Indonesia yang (MorphInd): Kubon dan mencakup klitik, Towards an numeral Daniel Zeman Indonesian alternation, dan Corpus tambahan partikel morfem. 9 2.2 Tinjauan Pustaka 2.2.1 Karakteristik Bahasa Indonesia Bahasa Indonesia telah digunakan oleh lebih dari 222 milyar penduduk Indonesia sebagai bahasa pemersatu. Sebagai penjembatan dari lebih dari 742 bahasa daerah, kosa kata bahasa Indonesia dipengaruhi dari berbagai bahasa lain terutama bahasa Sansekerta, bahasa Arab, bahasa Cina, bahasa Belanda dan bahasa Inggris serta bahasa local seperti bahasa Jawa dan bahasa Batavia [1]. Seperti bahasa lainnya, bahasa Indonesia menggunakan abjad Romawi yaitu dibaca dari kiri ke kanan dan setiap kata dipisahkan dengan jarak atau spasi. Berbeda dengan bahasa Inggris bahasa Indonesia tidak memiliki tense, sehingga untuk ekspresi waktu suatu kejadian diggunakan kata fungsi dan kata keterangan waktu seperti akan, sudah, besok, sekarang dan sebagainya. Namun untuk struktur sederhana bahasa Indonesia memiliki pola yang sama dengan bahasa Inggis. Bahasa Indonesia juga memiliki banyak sekali kata imbuhan untuk membuat kata turunan. Kata imbuhan seperti prefiks, sufiks, infiks ataupun kombinasinya dapat merubah label POS suatu kata. Dalam bahasa Indonesia ungkapan jamak digunakan kata ganda seperti kata anak-anak. 2.2.2 Morfologi Bahasa Indonesia 2.2.2.1 Morfologi Morfologi secara harfiah berarti "ilmu bentuk" yang mulanya biasa digunakan dalam biologi, namun sejak pertengahan abad 19, juga digunakan untuk menjelaskan tipe pada penyelidikan yang menganalisis semua elemen-elemen dasar dalam bahasa. Elemen-elemen tersebut yang secara teknis disebut sebagai morfem [12]. Morfem berarti satuan terkecil yang memiliki arti dalam pembentukan sebuah kata, dapat dibagi menjadi dua bagian yaitu morfem bebas dan morfem terikat. Morfem bebas yaitu morfem yang ketika berdiri sendiri memiliki makna atau juga dapat 10 diartikan sebagai stem (akar kata) contohnya tidur, makan, sendok. Sedangkan morfem terikat adalah morfem yang jika berdiri sendiri tidak memiliki makna apapun seperti kata imbuhan. Contoh pembagian morfem bebas dan terikat sebagai berikut: Ketiduran ke tidur an Morfem terikat (prefiks) Morfem bebas (stem) Morfem terikat (sufiks) 2.2.2.2 Analisis Morfologi Analisis morfologi merupakan proses meneliti cara suatu kata dibentuk dengan menghubungkan morfem yang satu dengan yang lainnya. Prosesnya morfologi meliputi afiksasi, reduplikasi, perubahan intern, suplisi, dan modifikasi kosong [13]. Namun dalam bahasa Indonesia hanya melalui afiksasi dan reduplikasi. 2.2.2.3 Afiksasi Afiksasi merupakan penggabungan dari akar kata (stem) dengan afiks [14]. Dalam bahasa Indonesia terdapat empat jenis imbuhan yaitu awalah (prefiks), sisipan (infiks), akhiran (suffiks) dan imbuhan terbelah (konfiks) [15]. Penjelasan mengenai masingmasing afiks sebagai berikut: 1. Awalan atau prefiks Awalan atau disebut juga prefiks adalah kata imbuhan yang letaknya berada di depan kata dasar atau kata jadian. Jenis awalan dalam bahasa Indonesia yaitu: ber-, per-, meng-, di-, ter-, ke-, dan se- [15]. Contoh awalan dalam bahasa Indonesia seperti berikut: 11 Berjalan → Ber + Jalan Pelari → Per + Lari Tertawa → Ter + Tawa Ditulis → Di + Tulis Sekota → Se + Kota Keluar → Ke + Luar 2. Sisipan atau infiks Sisipan atau disebut juga Infiks adalah kata imbuhan yang letaknya berada di tengah kata dasar. Jenis sisipan dalam bahasa Indonesia ada empat yaitu: -el, -em, -er, dan -in [15]. Contoh sisipan dalam bahasa Indonesia sebagai berikut: Telapak → El + tapak Gemetar → Em + getar Girigi → Er + Gigi Kinerja → In + Kerja 3. Akhiran atau sufiks Akhiran atau disebut juga sufiks adalah kata imbuhan yang melekat pada akhir kata dasar atau kata serapan. Jenis akhiran dalam bahasa Indonesia yaitu: -i, -kan, -an, -man, -wan, -wati, -wi, -nya, -at, -in, -isme, -(is)asi, -logi, dan -tas [15]. Contoh afiksasi sufiks pada bahasa Indonesia sebagai berikut: Potogan → Potong + an Wisudawan → Wisuda + wan Bukakan → Buka + kan Duniawi → Dunia + wi 4. Imbuhan terbelah atau konfiks Imbuhan terbelah disebut juga konfiks yaitu imbuhan yang 12 melekat pada awal dan akhir kata dasar [15]. Contoh penerapan konfiks dalam bahasa Indonesia sebagai berikut: ke- … -an : Kematian, ketiduran, kesakitan Ber- … -an : Bertabrakan, bersalaman, berdesakan Peng- … -an : Pengalaman, penghembusan, penebusan Per- … -an : Pertemuan, perjudian, perdagangan Se- … -nya : Sebesar-besarnya, sebanyak-banyaknya Selain 4 jenis imbuhan diatas juga terdapat imbuhan gabung atau disebut juga simulfiks. Simulfiks adalah dua imbuhan atau lebih yang ditambahkan secara bertahap pada kata dasar atau kata turunan. Contoh simulfiks dalam bahasa Indonesia adalah kata imbuhan mem+ber-kan pada kata memberdayakan, memberlakukan dan sebagainya [15]. Secara afiksasi pada kata bersimulfiks sebagai berikut: Memberdayakan mem+ber+daya+kan Memberlakukan Mem+ber+laku+kan Memperbolehkan Mem+per+boleh+kan Pemberdayaan Pem+ber+daya+an Memperkayakan Men+per+kaya+kan Afiks dalam bahasa Indonesia berperan penting karena keberadaan kata imbuhan dapat menentukan bentuk, makna, fungsi, dan kategori kata yang dilekatinya tersebut. Contohnya suatu kata kerja (verb) dapat berubah menjadi kata benda (noun), kata keterangan (adverb), kata sifat (adjective) ataupun sebaliknya. Contoh perubahan kelas kata pada kata kirim dan makan berikut: Kirim → Kata kerja (verb) Makan→ Kata kerja (verb) Mengirim → Kata kerja (verb) Memakan → Kata kerja (verb) Pengirim → kata benda (noun) Pemakan → kata benda (noun) 13 Kiriman → kata benda (noun) Makanan → kata benda (noun) Kumengirimnya → frasa Kumemakannya → frasa Pada contoh diatas dapat diketahui jika suatu kata dasar mendapat awalan me- kata akan masuk dalam kelas kata kerja dan jika mendapat akhiran -an masuk dalam kelas kata benda. Namun kata kumengiriminya dan kata kumemakannya merupakan kata frasa yang berasal dari kata berimbuhan dan klitik harus memerlukan proses morfologi untuk menentukan kelas kata yang tepat. Selain itu, suatu kata dapat dibuat lebih dari dua kombinasi kata imbuhan yang dapat menimbulkan keambiguan. Contohnya kata desakan berasal dari desa (kata benda) +kan atau bisa juga diartikan sebagai desak (kata kerja) +an. Keambiguan yang diakibatkan oleh afiks lainnya yaitu perubahan nada suara saat kata imbuhan tertentu bertemu dengan kata dasar berawalan huruf tertentu, misalnya awalan me- ketika bertemu dengan huruf awalan “s” pada kata sorak maka imbuhan me- berubah menjadi menypada kata menyorakan. Berikut tabel perubahan nada suara yang terjadi pada awalan me-, pe-, be-. Tabel 2: Perubahan nada suara Huruf awal kata Perubahan awalan a,e,g,h,i,o,u me meng/menge b,f,p,v me → mem pe → pem be → bel c,d,j,t me → men pe → pen be → ber s me → men/meny pe → pen/peny be → ber k,l,m,n,v,w,y me → meny 2.2.2.4 → pe → be → ber peng/penge pe → peny be → ber Pengklitikan Klitik berasal dari kata “klinein” yang dalam bahasa Yunani 14 bermakna bersandar. Klitik biasa dipakai untuk menyebutkan katakata singkat, kata tidak beraksen yang selalu bersandar pada suatu kata [16]. Kridalaksana menjelaskan, klitik adalah bentuk terikat yang secara fonologis tidak memiliki tekanan sendiri atau tidak dianggap sebagai morfem terikat, tetapi memiliki ciri-ciri kata karena dapat berlaku sebagai bentuk bebas [13]. Dengan kata lain suatu klitik secara sintaksis merupakan sebuah kata yang jelas namun secara morfologi dan fonologi hanya berupa morfem [17]. Klitik dapat dibedakan menjadi dua macam, yaitu proklitik dan enklitik. 1. Proklitik Proklitik merupakan klitik yang teletak dimuka (kata utama) misalnya ku- pada kata kuambil, kau- pada kata kauambil [18]. contoh bentuk-bentuk proklitik adalah non-, anti-, ku-, kau-, maha-, purna-, dan nir-. 2. Enklitik Enklitik adalah klitik yang terletak dibelakang (kata utama) misalnya -ku pada kata rumahku, -mu pada kata rumahmu, dan –nya pada kata rumahnya[18]. Moeliono menulis, enklitik dalam tata bahasa baku Indonesia terdapat bentuk ku, mu, nya, lah, tah, kah, dan pun. Bentuk enklitik kah, lah, pun, tidak dapat berdiri sendiri, tetapi selalu melekat pada bentuk lain [19]. Klitik dalam sebuah kalimat dapat mengubah kalimat menjadi kategori lain atau kelas lain. Klitik ku yang berkategori nomina (noun) apabila melekat pada kata ambil yang berkategori verba (verb) akan menjadi kategori verba dengan kalimat kuambil. Sehingga walaupun dieja seperti afiks, tetapi secara kelas kata berada di tingkat frasa. Pada penelitian ini keambiguan klitik difokuskan hanya 15 pada klitik pronomina. Icuk prayogi dalam hasil tesisnya menyimpulkan bahwa terdapat tiga suku kata yang termasuk klitik pronomina yaitu proklitik ku- dan enklitik -ku, -mu, serta -nya. Untuk penyebarannya proklitik hanya melekat pada kata kerja atau kata jadian dari kata kerja, sementara enklitik melekat pada kata kerja trasitif dan kata benda [20]. Contoh keambiguan pada pengklitikan sebagai berikut: Antar (kata kerja) Kuantar (frasa) Ku (kata ganti) + antar (kata kerja) Kuantarmu (frasa) Ku (kata ganti) + antar (kata kerja) + mu (kata ganti) Jalan (kata benda) Jalannya (frasa) Jalan (kata benda) + nya (kata ganti) Kujalaninya (frasa) Ku (kata ganti) + jalani (kata kerja) + nya (kata ganti) 2.2.3 Part-of-speech Secara kategori tata bahasa kata dapat dibagi menjadi 2 yaitu kelas terbuka (open class) dan kelas tertutup (closed class). Kelas terbuka merupakan kategori kelas yang kata-katanya selalu meningkat sepanjang waktu sedangkan kelas tertutup yang katanya tidak bertambah. Anggota dari kelas-kelas ini biasa disebut Part-of-Speech yang juga dikenal sebagai POS, kelas kata, atau kategori sintaksis [21]. POS sendiri dalam bahasa Indonesia terbagi menjadi: kata kerja (verb), kata benda (noun), kata sifat (adjective), kata angka (word number), kata ganti (pronoun), kata keterangan (adverb), kata penunjuk (demonstrative), kata tanya (interrogatives), artikulasi (articulatory), kata depan (preposition), kata seru (interjection), kata sambung (conjunction) dan kata ganda (reduplication) [22]. 16 2.2.3.1 Part-of-speech Tagging Pelabelan kelas kata atau yang disebut POS tagging berarti proses memberikan tanda Part-of-Speech pada tiap kata yang diinputkan. Permasalahan dalam POS tagging ini adalah suatu kata berkemungkinan memiliki lebih dari satu label POS yang membuat kata menjadi ambigu, sehingga tujuan tagging ini adalah sebagai tugas disambiguasi untuk mencari label POS yang benar untuk kata tersebut [23]. Kebanyakan proses POS tagging yaitu menyelesaikan dua langkah dasar yaitu analisis morfologi dan disambiguaisi. Disambiguaisi ini dapat dilakkan menggunakan beberapa pendekatan seperti Statistic-Based, pendekatan RuleBased dan pendekatan Transformasion-Based learning. Dari ketiga pendekatan tersebut, pendekatan berbasis statistik banyak diminati karena tidak memerlukan banyak sumber daya linguistik dan terbukti memberi tingkat keakuratan yang tinggi pada penelitianpenelitian sebelumnya [2, 3, 4, 7]. 2.2.3.2 Tagset Pada komputasi linguistik POS digunakan untuk memberi label suatu kata yang diberikan, urutan label yang mungkin diberikan biasa disebut tagset. Tagset memiliki banyak versi, contohnya tagset untuk bahasa Inggris versi Penn Treebank tagset yang terdiri 45 label POS. Tagset ini telah banyak digunakan untuk keperluan komputasi linguistik seperti digunakan pada Brown corpus, Switchboard corpus, dan Street Journal Corpus [23]. Varian tagset untuk bahasa-bahasa lain juga teredia seperti tagset untuk bahasa Arab oleh O. Hajic memiliki 21 label POS, K. Simov menggunakan 54 label POS untuk bahasa Bulgaria, S. Brants menggunakan 54 label POS untuk bahasa Jerman dan M. A. Mart menggunakan 47 label POS untuk bahasa Spayol [24, 25, 26, 27]. 17 Sedangkan tagset bahasa Indonesia juga memiliki banyak versi diantaranya POS versi PAN Localization Project mengembangkan tagset dari Penn Treebank yang tersidi dari 29 label POS, F. Pisceldo mengembangkan 37 label POS, A.F. Wicaksono dan Ayu Purwarianti menggunakan tagset yang terdiri 35 label POS untuk pengembangan IPOSTAgger, S. D. Larasati menggunakan 19 label POS pada pengembangan MorphInd dan A. Dinakaramani menggunakan 22 label POS untuk melabeli 250.000 korpus bahasa Indonesia secara manual [2, 3, 9, 28]. 2.2.3.3 Teknik POS Tagging 2.3.3.1.1 HMM Part-of-speech Hidden Markov Model (HMM) merupakan kelanjutan dari Markov Chain yang menyatakan bahwa probabilitas dari state tertentu hanya bergantung pada state sebelumnya. Markov chain berguna saat perhitungan probabilitas urutan kejadian yang dapat diamati, sedangkan HMM dapat melakukan perhitungan probabilitas urutan yang dapat diamati dan yang tersembunyi (hidden) seperti label Part-of-Speech (kelas kata). Menurut Daniel Jurafsky, HMM adalah urutan probabilitas urutan model: diberikan urutan dari suatu kesatuan (kata, huruf, morfem, kalimat dll) lalu meghitung probabilitas distribusi melalui urutan label yang mungkin dan memilih urutan label terbaik [23]. Adapun persamaan dasar HMM seperti ditunjukkan pada persamaan (1) di bawah ini. (1) λ=( Λ , Β , π) Simbol λ pada persamaan (1) diatas 18 menunjukkan sebuah HMM, simbol Λ menunjukkan vektor probabilitas transisi, simbol Β sebagai vektor probabilitas emisi dan π sebagai distribusi state awal. Berdasarkan tutorial dari Jack Ferguson di tahun 1960, dalam HMM terdapat tiga masalah dasar yaitu masalah likelihood, decoding, dan learning. Dari ketiga masalah tersebut, yang digunakan untuk POS tagging adalah masalah decoding. Masalah decoding ini yaitu ketika diberikan input berupa sebuah HMM urutan pengamatan λ =( Λ , Β) dan Ο=o 1 , o 2 , ... , oT lalu akan mencari urutan state yang paling mungkin. Sehingga tujuan dari HMM decoding pada POS tagging adalah mencari urutan label POS yang paling mungkin ketika diberikan sejumlah urutan kata-kata. Adapun persamaan HMM decoding untuk POS tagging yang diadaptasi dari milik A.F Wicaksono ditunjukkan pada persamaan (2) untuk bigram dan persamaan (3) untuk trigram. n n i=2 i=1 t 1−n =arg maxt ...t Ρ (t 1)×∏ Ρ (t i∣t i−1)×∏ Ρ (wi∣t i) 1 n n n i=3 i=1 t 1−n =arg maxt ...t Ρ (t 1) Ρ ( t 2∣t 1 )×∏ Ρ (t i∣t i−1 ,t i−2)×∏ Ρ (w i∣t i) 1 n (2) (3) Pada persamaan diatas t 1−n merupakan urutan label POS terbaik dari tagset, w 1 ... wn merupakan urutan kata-kata. Ρ ( t 1 ) dan Ρ ( t 2∣t 1 ) bukan merupakan unigram dan bigram merupakan token pertama dalam suatu kalimat. Ρ ( t i∣t i−1 ) dan Ρ (t i∣t i−1 , t i−2 ) adalah probabilitas transisi. Serta Ρ ( wi∣t i ) adalah probabilitas emisi. 19 2.3.3.1.2 Teknik Smoothing HMM POS tagging menggunakan korpus latih untuk mendapatkan vektor probabilitas transisi, namun korpus latih ini jumlahnya terbatas sehingga memungkinkan pada kondisi tertentu keadaan tidak pernah terpenuhi sehingga nilai akan menjadi nol, masalah ini sering disebut sebagai masalah sparse data. Teknik untuk mengatasi masalah spase data adalah dengan teknik smoothing. Salah satu teknik smoothing yang dapat digunakan adalah JelinekMercer smoothing untuk probabilitas transisi HMM bigram seperti yang ditunjukkan pada persamaan (4). Sedangkan teknik Linier Interpolation smoothing dapat digunakan untuk probabilitas transisi pada HMM trigram seperti pada persamaan (5). (4) Ρ (t i∣ti−1 )=λ Ρ '(t i∣ti−1)+(1− λ ) Ρ ' (t i) Ρ (t i∣t i−1 , t i−2 )=λ 1 Ρ ' (t i)+ λ 2 Ρ ' (t i∣t i−1)+ λ3 Ρ '(t i∣t i−1 ,t i−2) Pada kedua persamaan di probabilitas transisi HMM sedangakan Pada persamaan (4) atas (5) Ρ adalah Ρ ' adalah MLE. λ 1+ λ2 + λ3=1 di mana λ 1 , λ 2 , λ3 didapatkan menggunakan algoritma deleted interpolation. Sedangkan masalah sparse data pada probabilitas emisi yang timbul akibat kata OOV dapat dilakukan dengan salah satunya analisis morfologi. 2.3.3.1.3 Teknik Penanganan Kata OOV Untuk menghasilkan keakuratan yang tinggi, suatu model POS tagging penting memiliki penanganan terhadap 20 kata Out-of-Vocabulary (OOV). Beberapa teknik penanganan kata OOV pada POS tagging diantaranya adalah teknik Affixs tree dan teknik analisis morfologi. 1. Affix tree Gambar 1: Pohon sufiks pada kepanjangan tiga Affix tree disebut juga pohon afiks pertama diusulkan oleh Helmut Schmid pada TreeTagger. Pohon afiks diatur seperti sebuah pohon, tiap simpul pohon (kecuali pada simpul akar) dilabeli dengan sebuah karakter. Pada simpul daun, probabilitas vektor label disematkan. Pohon afiks dapat berupa pohon prefiks, sufiks maupun gabungan prefiks, dan sufiks. Pada proses pencarian pohon sufiks, pencarian dimulai pada simpul akar. Pada tiap langkahnya, ranting yang di lebeli dengan karakter berikutnya dari akhir kata akhiran sampai 21 seterusnya. Pada gambar 1 ditunjukkan contoh pohon sufiks dengan tiga tingkat kepanjangan [29]. Pada IPOSTAgger, wicaksono mengadaptasi model Affix tree milik Schmid untuk bahasa Indonesia dengan membuat tiga tipe pohon yang dapat menangani kata berkapital, kata tak berkapital, dan kata kardinal (ke-5, 100, dst). Pada percobaaan terdapat tiga konfigurasi pohon afiks yang diujikan yaitu pohon prefiks, pohon sufiks, dan pohon prefiks-sufiks. Pohon afiks ini dibangun berdasarkan pada korpus latih dan memanfaatkan informasi Lexicon dari KBBI dan Kateglo untuk mengurangi jumlah vektor probabilitas emisi yang dihasilkan pada pohon afiks tersebut [3]. 2. Analisis Morfologi Analisis morfologi (Morphological Analyzer) pada POS tagging digunakan untuk memberi informasi morfologi kepada kata-kata. Teknik ini digunakan oleh Fam Rashel dalam pembuatan POS tagging bahasa Indonesia dengan pendekatan RuleBased dan Abu Bakar pada POS tagging bahasa Malaysia [5, 11]. Teknik analisis morfologi ini digunakan untuk memberikan label POS pada kata yang masuk dalam kategori open class words. 2.2.4 Sistem Yang Diterapkan 2.2.4.1 IPOSTAgger IPOSTAgger merupakan sistem POS tagging berbasis statistik untuk bahasa Indonesia yang dikembangkan oleh A. F. 22 Wicaksono dengan bahasa pemrograman Java. Adapun metode yang diterapkan pada IPOSTAgger adalah Hidden Markov Model (HMM) bigram dan trigram, metode smoothing, metode Affix tree, metode Lexicon dan Succeeding POS tag. Sistem dapat melakukan training pada korpus latih dan mengujikannya pada korpus uji. Hasil keluaran berupa dokumen yang berisi urutan kata diikuti dengan label POSnya, contohnya pelabelan dengan konfigurasi terbaik sesuai penelitian dengan 35 label POS sebagai berikut: Mengapa/WP lebah/NN betina/NN sering/JJ pergi/VBI keluar/VBI sarangnya/NNG ?/. 2.2.4.2 Morphind Gambar 2: Struktur keluaran MorphInd MorphInd merupakan tool analisis morfologi untuk bahasa Indonesia berbasis finite state, yang dapat menangani analisis morfologi, lemmatization untuk bentuk kata permukaan yang diberikan sehingga dapat dilakukan pengolahan kata selanjutnya. MorphInd terdiri aturan-aturan morfosintaktis dan morfofonemik untuk kata turunan atau infleksi kata permukaan pada bahasa Indonesia. Hasil keluaran yang ditunjukan pada gambar 2 terdiri 23 dari tiga label berbeda yang ditempatakan setelah morfem. 2.3 Kerangka Pemikiran Masalah Kata OOV yang disebabkan oleh kata berimbuhan pada POS tagging bahasa Indonesia berbasis statistik. Tujuan Menerapkan analisis morfologi pada POS tagging bahasa Indonesia berbasis statistik untuk penanganan kata OOV yang disebabkan oleh kata berimbuhan Eksperimen Data Metode Korpus latih terdiri dari 10000 token, korpus uji HMM bigram, HMM terdiri dari kurang lebih 3000 token dengan trigram, Teknik smoothing, masing-masing 10% kata OOV, 20% kata ambigu, Morpholgy Analyzer. 30% kata berimbuhan. Hasil Perbandingan persentase keakuratan POS tagging antar model yang diajukan serta dengan metode pada IPOSTAgger. Manfaat Sebagai pembanding POS tagging bahasa Indonesia yang telah ada khususnya POS tagging berbasis statistik. 24 BAB III METODE PENELITIAN 2.4 3 3.1 Instrumen Penelitian Dalam penelitian ini diperlukan beberapa perangakat agar penelitian berjalan lancar dan sesuai yang diharapkan. Perangkat yang digunakan dalam penelitian ini dibagi menjadi dua, yaitu bahan dan peralatan. 3.1.1 Bahan Bahan-bahan yang digunakan penulis dalam penelitian ini adalah korpus dalam bahasa Indonesia diambil dari korpus A. Dinakaramani yang telah melabeli lebih dari 250.000 token secara manual dengan 23 jenis label POS [28]. Korpus tersebut kemudian akan diolah menjadi korpus latih untuk proses training dan korpus uji untuk pengujian. 3.1.2 Peralatan Peralatan yang digunakan penulis dalam penelitian ini adalah perangakat keras (hardware) dan perangkat lunak (software), meliputi : 1. Perangkat keras (a) Processor Inter Core i5 (b) RAM 4GB (c) Harddisk 1TB (d) Monitor LCD 14'' 2. Perangkat lunak (a) Sistem Operasi : Elementary OS Freya (b) Sublime Text Editor 3 25 (c) IPOSTagger 1.1 (d) MorphInd 1.4 3.2 Prosedur Pengumpulan Data Prosedur pengumpulan data yang dilakukan dalam penelitian ini menggunakan 2 metode yaitu studi pustaka dan eksperimen. 3.2.1 Studi Pustaka Metode studi pustaka dilakukan dengan cara mencari referensi dari berbagai sumber yang mendukung penelitian, diantaranya: 1. Materi tentang POS tagging beserta metode-metode dan tagset didapat dari buku dan jurnal penelitian. 2. Materi tentang morfologi, kata imbuhan dan klitik pada bahasa Indonesia didapat dari beberapa buku bahasa Indonesia. 3. Materi tentang Hidden Markov Model (HMM) didapat dari buku dan jurnal penelitian. 4. Materi penelitian penggunaan metode HMM pada POS tagging didapat dari jurnal penelitian. Selain informasi dari jurnal dan buku-buku informasi ataupun materi-materi juga penulis dapatkan dari berbagai sumber di internet diantaranya: 1. http://books.google.com/ 2. http://scholar.google.com/ 3. http://septinalarasati.com/work/morphind/ 4. http://www.panl10n.net/ 5. http://jedlik.phy.bme.hu/~gerjanos/HMM/node2.html 6. https://web.stanford.edu/~jurafsky/slp3/ 26 Hasil dari studi pustaka yang dikumpulkan diantaranya adalah referensi tentang morfologi bahasa Indonesia, POS tagging beserta metode-metode pengembangannya, dan pengaruh morfologi pada bahasa Indonesia seperti kata imbuhan dan pengklitikan pada POS tagging khususnya POS tagging dengan pendekatan statistik menggunakan HMM. 3.2.2 Eksperimen Metode eksperimen dilakukan dengan pencatatan percobaan menggunakan perangkat-perangkat terkait yaitu IPOSTagger dan MorphInd berupa hasil keluaran perangkat tersebut. Pada percobaan disiapkan 3 jenis korpus uji yang memiliki tingkan kata OOV berbeda untuk kemudian diujikan pada tiap model sistem untuk mengetahui hasil dan tingkat keakuratan yang didapatkan pada perangkat dari tiap korpus. 3.3 Teknik Analisis Data Pada penelitian ini menggunakan teknik analisis data untuk mendapatkan metode yang tepat untuk diterapkan pada POS tagging bahasa Indonesia. Pada POS tagging berbasis statistik proses utama yang dilakukan adalah proses morfologi dan proses ambiguasi. Pada beberapa jurnal proses morfologi yang dilakukan adalah penanganan kata imbuhan. Adapun metode yang digunakan diantaranya adalah pemrediksi afiks [10], dan pohon afiks (Affix tree) [3]. Sedangkan proses ambiguasi pada pendekatan statistik dilakukan dengan penghitungan probabilitas. Beberapa metode yang digunakan untuk proses ambiguasi dalam POS tagging ini seperti HMM, MEMM, Decision Tree, kNN dan sebagainya. Pada penelitian sebelumnya, POS tagging menggunakan metode HMM yang digabungkan dengan beberapa metode sebagai fitur terbukti selain memiliki tingkat keakuratan yang tinggi juga memilki waktu pemrosesan yang rendah [7]. Adapun metode-metode yang ditambahkan sebagai fitur HMM adalah untuk 27 penanganan masalah sparse data dan penanganan kata OOV. Metode penanganan masalah sparse data yang digunakan adalah metode smoothing sedangkan penanganan kata OOV diantaranya adalah Affix tree, Succeding POS tag, Lexicon, Morphology Analyzer dan sebagainya. Dalam penelitian ini peneliti menggabungkan metode HMM dengan beberapa metode lain antara lain adalah metode smoothing menggunakan JelinekMercer smoothing dan Linier Interpolation smoothing serta menggunakan penganalisi morfologi untuk penanganan kata OOV. 3.4 Model Atau Metode Yang Diusulkan Berdasarkan hasil dari analisis data metode yang diusulkan dalam penelitian ini adalah penerapan metode penganalisis morfologi untuk penanganan kata OOV berupa kata imbuhan pada POS tagging berbasis statistik. Tahap pemrosesan yang didapatkan berdasar analisis tersebut ditunjukan pada gambar 3 sebagai berikut: Gambar 3: Tahapan proses POS tagging Dari gambar diatas, Tahapan proses tagging meliputi proses preprocessing, HMM tagging dan evaluation. 3.4.1 Preprocessing Proses preprocessing dilakukan untuk menyiapkan korpus uji 28 proses ini terdiri dari tiga tahap yaitu pemotongan kata, pemotongan kalimat, pemotongan klitik dan analisis morfologi sebagai berikut : Gambar 4: Tahap preprocessing 3.4.1.1 Pemotongan Kata Pemotongan kata atau word segmentation hanya dilakukan pada tanda baca pada akhir kalimat seperti tanda “.” (titik), “,” (koma), “?” (tanya), “!” (seru) “””” (petik dua) dan sebagainya. Tanda baca pada tengah kalimat seperti pada kata buah-buahan dan 0.5 tidak dipisah. 3.4.1.2 Pemotongan Kalimat Pemotongan kalimat atau sentence segmentation dilakukan untuk memisahkan kalimat satu dengan kalimat lain. Tiap kalimat akan diberi jarak satu baris baru. 29 3.4.1.3 Pemotongan Klitik Pemotongan klitik atau clitic segmentation dilakukan untuk memisahkan kata dengan klitik yang bersifat pronomina. Pemotongan ini dibantu dengan sistem Morphind. 3.4.1.4 Analisis Morfologi Tahap analisis morfologi pada preprocessing ini dilakukan dengan menerapkan sistem MorphInd sebagai penganalisis morfologi bahasa Indonesia yang akan digunakan untuk mendapatkan informasi morfologi berupa label POS pada tiap kata di korpus uji yang telah melewati tahapan preprocessing sebelumnya. Label POS hasil sistem Morphind akan diubah menjadi label POS yang digunakan untuk sistem dan digunakan untuk penghitungan probabilitas emisi pada kata OOV saat proses HMM tagging. 3.4.2 HMM Tagging Proses HMM tagging yaitu pelabelan POS secara otomatis menggunakan metode Hidden Markov Model (HMM). Dalam HMM terdapat beberapa komponen penting yaitu urutan state ( Q ), vektor probabilitas transisi ( Λ ), urutan pengamatan ( Ο ), vektor probabilitas emisi ( Β ) dan state awal ( π ). Urutan state merupakan urutan label POS di korpus latih dan urutan pengamatan merupakan urutan kata-kata di korpus latih. Sistem akan menerapkan dua model HMM untuk POS tagging yaitu HMM bigram (first order) dan HMM trigram (second order) seperti gambar 5 dibawah. 30 Gambar 5: Tahap HMM tagging Probabilitas transisi, probabilitas emisi, dan state awal dihitung dari korpus latih melalui persamaan berikut : Λ= Λ= { { n ∏ Ρ (t 1∣t i−1) i=2 } n ∏ Ρ (t 1∣t i−1 ,t i−2) i=2 Β= { n ∏ Ρ (wi∣ti ) i=1 (6) } } π={ Ρ (⟨STARTTAG ⟩) } (7) (8) (9) Probabilitas transisi untuk bigram ditunjukan oleh persamaan (6) dan persamaan untuk trigram (7). Probabilitas emisi menghitung probabilitas kata yang diamati dengan label POS ditunjukan pada persamaan (8). Sedangakan state awal ditunjukan pada persamaan (9). Setelah komponen telah dipenuhi, proses decoding HMM dilakukan untuk mendapatkan urutan label POS paling mungkin. 31 Persamaan decoding HMM bigram dan trigram yang diterapkan pada IPOSTAgger ditunjukan pada persamaan (2) dan (3) sebelumnya. Perhitungan probabilitas transisi dan probabilitas emisi dilakukan menggunakan Maximum Likelihood Estimation (MLE) sebagai berikut: Count (t i−1 , t i ) Count (t i−1) (10) Count (t i −2 , t i−1 , t i ) Count (t i −2 , t i−1 ) (11) Count (t i , wi ) Count (t i ) (12) Ρ ' (t i∣t i−1 )= Ρ '( t i∣t i−1 , t i−2 )= Ρ ' (wi∣t i)= Pada pelabelan decoding HMM metode smoothing diterapkan untuk mengatasi sparse data pada probabilitas transisi. Metode smoothing yang diterapkan adalah Jelinek-Mercer smoothing ditunjukan pada persamaan (4) dan metode Linier Interpolation smoothing ditunjukan pada persamaan (5). Kata OOV menyebabkan sparse data pada probabilitas emisi, untuk menghindari masalah tersebut perhitungan probabilitas emisi dilakukan dengan menghitung unigram label POS hasil dari proses preprocessing menggunakan MorpInd. Label POS dari MorphInd kemudian akan diterjemahkan kedalam tagset yang digunakan dan dihitung bentuk unigramnya sesuai persamaan (13). Ρ '( t i )= Count(t i) N Pada persamaan unigram diatas nilai (13) t i adalah label POS dari Morphind pada ururtan ke i sedangkan N adalah jumlah token dalam korpus latih. Ilustrasi proses pelabelan menggunakan decoding HMM ditunjukan pada diagram trellis pada gambar 6 dibawah ini. 32 Gambar 6: Ilustrasi pelabelan decoding HMM Pada gambar 6 diatas START mewakilkan state awal, label-label POS sebagai hidden state ditunjukkan pada lingkaran, dan garis paling jelas mewakilkan jalur urutan terbaik. 3.4.3 Evaluation Proses evaluation ditujukan untuk mengetahui tingkat keakuratan tiap model yang diujikan. Tiap model akan dibandingkan dengan hasil baseline. Baseline ini merupakan model yang hanya menggunakan HMM bigram dan Jelinek-Mercer smoothing tanpa menerapkan penanganan kata OOV, sehingga kata yang termasuk kata OOV akan langsung diberi label (NN) Noun. Nilai keakuratan dari baseline ini akan dibandingkan dari model yang diterapkan pada sistem, sehingga dapat diketahui kinerja model terbaik. 33 3.5 Eksperimen Dan Cara Pengujian Model 3.5.1 Pengujian Data Penelitian ini menggunakan dua macam korpus yaitu korpus latih dan korpus uji. Korpus diadaptasi dari korpus POS bahasa Indonesia milik A. Dinakaramani yang melabeli lebih dari 250.000 token secara manual dengan 23 jenis label POS [28]. Korpus latih terdiri dari kurang lebih 10.000 token diambil dari korpus tersebut namun dengan mengganti dan menambah beberapa jenis tagset. Tagset yang digunakan penulis dalam penelitian ini berjumlah 31 label POS yang dimodifikasi dari tagset asli dari korpus A. Dinakaramani dan tagset dari A. Wicaksono, tagset ditunjukkan pada tabel 3. Tabel 3: Tagset yang digunakan NO POS Nama POS Contoh 1 OP Open Parenthesis ({[ 2 CP Close Parenthesis )}] 3 GM Slash / 4 ; Semocolon ; 5 : Colon : 6 " Quotation " 7 . Sentence Terminator .!? 8 , Comma , 9 - Dash - 10 CC Coordinating Conjuction Dan, atau, tetapi, dll. 11 CD Cardinal number Dua, juta, 7916 dll. 12 OD Ordinal number Pertama, ketiga, ke-4 dll. 13 DT Determiner Para, sang, si dll. 14 FW Foreign Words Foreign, word, origin dll. 15 IN Preposition Di, ke, dari dll. 16 JJ Adjective Kaya, senang, bersih dll. 17 MD Modal Bisa, boleh, harus dll. 18 NEG Negation Bukan, tidak dll 34 (Tabel Tagset yang digunakan lanjutan) NO POS Nama POS Contoh 19 NN Common Noun Mobil, kertas, rupiah dll. 20 NNP Proper Noun Semarang, Indonesia, Jawa dll. 21 NND Classifier, partitive, and Orang, helai, lembar dll. measurement noun 22 PR Demonstrative pronoun Ini, itu, sini dll. 23 PRP Personal Pronouns Saya, kamu, dia dll. 24 RB Adverb Sementara, nanti, sangat dll. 25 RP Practicles Pun, kah, lah 26 SC Subordinating conjunction Jika, ketika, supaya, dll. 27 SYM Symbols @#$%^& 28 UH Interjection Wah, aduh, Oi, oh, hai dll. 29 VB Verb Membeli, memakan, tidur dll. 30 WH WH-Pronouns Apa, siapa, kapan dll. 31 X Unknown Bangedd, G0k!L, jus+ice dll. Pengujian dilakukan pada tiga korpus uji yang berbeda masingmasing berisi kurang lebih 3.000 token. Pengujian pertama pada korpus uji yang mengandung 10% kata OOV, kedua menggunakan korpus dengan 20% kata OOV dan ketiga menggunakan korpus dengan 30% kata OOV. 3.5.2 Pengujian Keakuratan Pengujian POS tagging dengan pengubahan variabel data akan dihitung prosentase keakuratannya pada tiap model. Prosentase yang dihitung adalah prosentase keseluruhan keakuratan (Overall accuracy), keakuratan kata yang diketahui (Known word accuracy) dan keakuratan kata OOV (Unknown word accuracy). Hasil prosentase tiap model akan dibandingkan 35 satu sama lain untuk mengetahui keakuratan tertinggi yang didapatkan. Pada model dengan keakuratan tertinggi akan dibandingkan dengan model IPOSTagger yaitu dengan metode Affix tree dan Lexicon. BAB IV ANALISIS HASIL PENELITIAN DAN PEMBAHASAN 4 4.1 4.2 Analisis Data Penelitian ini menggunakan data berupa korpus yang telah diberi 31 jenis label POS yang ditunjukkan pada tabel 3. Korpus diadaptasi dari korpus A. Dinakaramani yang telah mengalami perubahan pada tagset dan pelabelan. Perubahan tagset yang dilakukan seperti perubahan dari label “Z” dibagi menjadi label ., ,, “, :, ;, OP, CP, dan GM. Perubahan pelabelan yang dilakukan seperti merubah semua kata asing menjadi berlabel “FW”. Data dipilih dan dibagi menjadi dua untuk korpus latih dan korpus uji. Korpus latih terdiri dari kurang lebih 10.000 kata, sedangakan korpus uji terdiri dari kurang lebih 3.000 kata. Terdapat tiga macam korpus yang diujikan dengan tingkat kata OOV yang berbeda pada tiap korpusnya. Korpus uji pertama berisi 10% kata OOV, korpus uji kedua berisi 20% kata OOV dan korpus ketiga berisi 30% kata OOV. 4.3 Hasil Training Proses training (pelatihan) dilakukan dengan menggunakan sistem IPOSTAgger dengan menggunakan korpus latih yang telah disiapkan. Proses ini dilakukan untuk mencari persebaran kemunculan label POS dan persebaran kemunculan kata dengan label POS yang mengikutinya. Saat proses training berlangsung sistem akan menghasilkan dua file yaitu Ngram.trn pada dan Lexicon.trn seperti gambar dibawah ini. 36 37 Gambar 7: File Ngram.trn dan file Lexicon.trn Gambar 7 diatas merupakan hasil proses training oleh sistem IPOSTAgger, yaitu file Ngram.trn (kiri) dan Lexicon.trn (kanan). File Ngram.trn berisi persebaran urutan label kata unigram, bigram dan trigram beserta jumlah kemunculannya. Nilai kemunculan ini akan digunakan untuk menghitung probabilitas transisi menggunakan MLE, masing-masing pada unigram seperti persamaan (13), bigram seperti persamaan (10) dan trigram seperti persamaan (11). Sebagai contoh pada tabel yang berisi urutan label POS dan frekuensinya sebagai berikut: Tabel 4: Contoh Ngram Jenis Ngram Urutan Label POS Frekuensi Unigram NN 1254 Bigram NN PR 70 Trigram NN PR VB 25 Pada tabel 4 yang didapatkan dari file Ngram.trn hasil proses training korpus latih yang terdiri dari 5577 kata, akan dihitung probabilitas transisi masing-masing Ngram sebagai berikut: 38 Perhitungan unigram: Ρ '(NN )= Count (NN ) 5577 Ρ '(NN )= 1254 5577 Ρ '(NN )=0,224852071 Perhitungan bigram: Ρ '(PR∣NN )= Count (NN , PR) Count ( NN ) Ρ '(PR∣NN )= 70 1254 Ρ '(PR∣NN )=0,055821372 Perhitungan Trigram: Ρ '(VB∣PR , NN )= Count (NN , PR , VB) Count (NN , PR) Ρ '(VB∣PR , NN )= 25 70 Ρ '(VB∣PR , NN )=0,357142857 Sesuai perhitungan diatas masing-masing hasil probabilitas transisi unigram NN adalah 0,224852071, bigram NN PR adalah 0,055821372 dan trigram NN PR VB adalah 0,357142857. Sedangkan file Lexicon.trn berisi persebaran kata, label, dan jumlahnya dalam korpus latih. Nilai jumlah ini yang akan digunakan untuk mendapatkan probabilitas emisi pada masing-masing kata. Kata yang tidak ada dalam file Lexicon.trn ini akan dianggap sebagai kata OOV. Sebagai contoh perhitungan probabilitas emisi sesuai persamaan (12) pada kata Paskah berlabel NNP yang muncul sebanyak sekali dengan jumlah label NNP sebanyak 698 pada korpus latih, sebagai berikut: 39 Perhitungan probabilitas emisi kata Paskah Ρ ' (Paskah∣NNP)= Count ( NNP , Paskah) Count (NNP) Ρ '(Paskah∣NNP)= 1 698 Ρ '(Paskah∣NNP)=0,001432665 Sesuai perhitungan di atas, maka hasil dari probabilitas emisi pada kata Paskah adalah 0,001432665. 4.4 Hasil Preprocesing Preprocesing dilakukan dengan menyiapkan korpus uji melalui beberapa tahap yaitu word segmentation, sentence segmentation dan terakhir analisis morfologi seperti yang ditunjukkan pada gambar 4 tahapan preprocessing. Analisis morfologi ini diantaranya adalah pemotongan klitik yang bersifat pronomina. Pemotongan kata dan pemotongan kalimat dilakukan dengan menerapkan sistem tokenizer-id [30] sedangkan pemotongan klitik dengan penganalisis morfologi menggunakan sistem MorphInd. Gambar 8: Preprocesing korpus uji 40 Gambar 8 menunjukkan contoh korpus uji sebelum preprocessing (kiri) dan setelah preprocesing (kanan). Korpus hasil preprocesing ini disimpan dalam file bernama korpus-final.txt (kanan) menjadi korpus uji yang siap untuk proses POS tagging menggunakan HMM selanjutnya. Penerapan Morphind selain untuk pemotongan klitik juga untuk penanganan kata OOV pada korpus uji. Tiap kata pada korpus uji akan diterjemahkan dalam bentuk MorphInd lalu diberi label POS yang sesuai. Namun karena tagset Morphind berbeda dengan tagset yang digunakan pada penelitian ini maka digunakan tabel penerjemah label POS seperti yang ditunjukkan pada tabel 5 dibawah ini. Tabel 5: Penerjemah label POS NO Label Morphind Label POS 1 A JJ 2 B DT 3 CD CD 4 CC CD 5 CO OD 6 D RB 7 G NEG 8 H CC 9 I UH 10 M MD 11 N NN,NNP,NND 12 O VB 13 P PR,PRP 14 R IN 15 S SC 16 T RP 17 V VB 18 W WH 41 (Tabel Penerjemah Label POS lanjutan) NO Label Morphind Label POS 19 X X 20 Z .,,,-,\",;,:,GM,OP,CP Hasil dari kata yang telah diberi label MorphInd dan telah diterjemahkan tersebut nantinya akan digunakan sebagai label kandidat pada kata OOV. Setiap kata dalam korpus uji yang telah dilabeli dengan label kandidat kemudian dimasukkan kedalam file token-tag.txt. Gambar 9: File token-tag.txt Gambar 9 diatas menunjukkan file token-tag.txt pada contoh korpus uji yang diinputkan sebelumnya. File ini digunakan pada perhitungan probabilitas emisi untuk kata OOV pada proses POS tagging menggunakan Morpholgy Analyzer selajutnya. 42 4.5 Implementasi HMM Sistem IPOSTagger menerapkan Hidden Markov Model (HMM) untuk POS tagging. Algorima decoding yang diterapkan adalah algoritma viterbi. Algoritma viterbi digunakan untuk menentukan urutan label POS terbaik pada kalimat yang diinputkan. Proses decoding seperti pada persamaan (2) untuk decoding HMM bigram dan persamaan (3) decoding HMM trigram dilakukan dalam bentuk penjumlahan logaritma. Sebelum sistem melakukan proses decoding HMM, sistem terlebih dulu melakukan beberapa persiapan sebagai berikut : 1. Memilih model HMM yang akan digunakan yaitu model HMM bigram atau HMM trigram. 2. Menyiapkan tagset yang akan digunakan untuk pelabelan yang didapatkan dari proses training korpus latih. Tagset yang digunakan ditunjukan pada tabel 3. 3. Menyiapkan urutan kata perkalimat yang diambil dari korpus uji dalam file korpus-final.txt yaitu korpus uji yang telah melewati proses preprocessing. Sebagi contoh kalimat dalam korpus uji yang akan diberi label misalnya adalah kalimat “Perebutan jamrud Bahia raksasa .” 4. Menyiapkan urutan kata perkalimat dengan memberikan label POS <STARTTAG> pada awal kalimat dan label POS <ENDTAG> pada akhir tiap kalimat pada model bigram dan memberikan label POS <STARTTAG>, <STARTTAG> pada awal kalimat dan label POS <ENDTAG> pada akhir kalimat pada model trigram. Contoh (bigram): “<STARTTAG> Perebutan jamrud Bahia raksasa . <ENDTAG> ” Contoh (trigram): “<STARTTAG> <STARTTAG> Perebutan jamrud Bahia raksasa . <ENDTAG> ” 5. Menyiapkan probabilitas emisi untuk known word (kata yang ada dalam korpus latih) dengan menggunakan file Lexicon.trn hasil dari proses 43 training sebelumnya. Dalam file ini akan didapatkan pasangan kata, label POS dan frekuensinya sehingga dapat digunakan untuk menghitung probabilitas emisi sesuai dengan persamaan (12). Hasil dari probabilitas emisi tiap kata akan diterjemahkan kedalam bentuk logaritma untuk memudahkan proses decoding HMM. Tabel 6: Perhitungan probabilitas emisi known word Kata perebutan jamrud jamrud Bahia raksasa jaksa Kalifornia akan mulai menanyai kepemilikan sejumlah pihak untuk untuk menentukan mengenai mengenai … Label POS NN NN NNP NNP JJ NN NNP MD MD VB NN CP NN IN SC VB IN SC … Probabilitas Emisi log( Ρ ( wi∣t i )) log(1.0 / 1254.0) log(5.0 / 1254.0) log(3.0 / 698.0) log(3.0 / 698.0) log(4.0 / 187.0) log(2.0 / 1254.0) log(2.0 / 698.0) log(44.0 / 116.0) log(4.0 / 116.0) log(1.0 / 585.0) log(4.0 / 1254.0) log(5.0 / 374.0) log(15.0 / 1254.0) log(21.0 / 425.0) log(32.0 / 242.0) log(2.0 / 585.0) log(5.0 / 425.0) log(1.0 / 242.0) … Hasil -7.1340937212 -5.5246558088 -5.4496068141 -5.4496068141 -3.8448142557 -6.4409465406 -5.8550719222 -0.9694005572 -3.36729583 -6.3716118472 -5.7477993601 -4.314817885 -4.4260435201 -3.0075667312 -2.0232018234 -5.6784646667 -4.4426512565 -5.4889377262 … Tabel 6 terdiri dari 4 kolom yaitu kolom Kata yang berisi tiap kata dalam korpus latih, kolom Label POS berisi label-label POS pada tiap kata, kolom Probabilitas Emisi berisi bentuk logaritma dari persamaan (12) dan terakhir kolom Hasil yaitu hasil dari perhitungan probabilitas emisi. Nilai pada kolom Hasil probabilitas emisi ini akan digunakan untuk proses 44 selanjutnya. 6. Menyiapkan probabilitas transisi untuk model HMM yang dipilih yaitu HMM bigram atau model HMM trigram. Jika model yang dipilih adalah HMM bigram maka sistem menghitung probabilitas transisi bigram dengan Jelinek-Mercer smoothing seperti pada persamaan (4). Proses smoothing akan menghitung nilai bigram dan unigram menggunakan file Ngram.trn yang berisi urutan label POS beserta frekuensinya dan sistem akan memberikan nilai λ = 0.2. Contoh perhitungan probabilitas transisi pada kata perebutan dan jamrud sebagai berikut: Kata : perebutan Label POS : NN log( Ρ (t i∣t i−1))=log( λ Ρ ' (t i)+(1−λ ) Ρ ' (t i∣t i−1)) log( Ρ (NN∣⟨ STARTTAG ⟩))=log(0.2 Ρ ' ( NN )+( 1−0.2) Ρ ' ( NN∣⟨STARTTAG⟩)) log( Ρ (NN∣⟨ STARTTAG⟩))=log(0.2∗0.22485207100591717+(1−0.2)∗0.15625) log( Ρ (NN∣⟨STARTTAG ⟩))=−1.772130891188254 Kata : jamrud Label POS : NN log( Ρ (t i∣t i−1))=log( λ Ρ ' (t i)+(1−λ ) Ρ ' (t i∣t i−1)) log( Ρ (NN∣NN ))=log( 0.2 Ρ ' (NN )+(1−0.2) Ρ '( NN∣NN )) log( Ρ (NN∣NN ))=log(0.2∗0.22485207100591717+(1−0.2)0.3413078149920255) log( Ρ (NN∣NN ))=−1.1456514881576636 Kata : jamrud Label POS : NNP log( Ρ (t i∣t i−1))=log( λ Ρ ' (t i)+(1−λ ) Ρ ' (t i∣t i−1)) log( Ρ (NNP∣NN ))=log(0.2 Ρ ' ( NNP)+(1−0.2) Ρ ' ( NNP∣NN )) log( Ρ (NNP∣NN ))=log(0.2∗0.12515689438766361+(1−0.2)0.0861244019138756) log( Ρ (NNP∣NN ))=−2.365195869067935 45 Pada contoh perhitungan diatas seperti pada probabilitas emisi nilai akan diubah kedalam bentuk logaritma. Kata perebutan dengan label POS NN sebagai kata awal akan dihitung transisinya dengan label <STARTTAG> sehingga probabilitas transisi <STARTTAG>,NN sebesar -1.772130891188254, pada kata jamrud muncul di korpus uji dengan memiliki dua kemungkinan label POS yaitu NN dan NNP keduanya masing-masing akan dicari nilai probabilitas transisinya jika sebelumnya kata perebutan berlabel POS NN. Nilai probabilitas transisi jamrud berlabel POS NN yang didahului label POS NN sebesar -1.1456514881576636 dan jamrud berlabel POS NNP yang sebelumnya didahului label POS NN sebesar -2.365195869067935. Sedangkan Jika model yang dipilih adalah HMM trigram maka sistem akan menghitung nilai probabilitas transisi trigram dengan Linier Interpolation smoothing seperti pada persamaan (5). Pada Linier Interpolation smoothing akan dicari nilai trigram, bigram dan unigramnya dari file Ngram.trn lalu sistem akan menentukan nilai λ1 , λ2 , λ3 yang akan memberikan nilai probabilitas transisi maksimal. Perhitungan model HMM trigram dengan Linier Interpolation smoothing pada korpus uji sebagai berikut: Kata : Perebutan Label POS: NN log( Ρ (t i∣t i−1 ,t i−2))=log( λ 1 Ρ ' (t i )+ λ 2 Ρ ' (t i∣t i−1)+ λ 3 Ρ '(t i∣t i−1 ,t i−2)) log ( Ρ (NN∣⟨ STARTTAG ⟩ , ⟨ STARTTAG⟩ )) = log ( λ1 Ρ ' ( NN )+ λ 2 Ρ ' ( NN∣⟨ STARTTAG⟩ )+ λ3 Ρ ' ( NN∣⟨ STARTTAG ⟩ , ⟨ STARTTAG ⟩)) = log ( 0.139033314∗0.224852071+0.273830156∗0.15625+0.5871365299∗0.3125) log ( Ρ ( NN∣⟨ STARTTAG ⟩ , ⟨ STARTTAG⟩ ))=−1.3566266091310688 46 Kata : jamrud Label POS : NN log( Ρ (t i∣t i−1 ,t i−2))=log( λ 1 Ρ ' (t i )+ λ 2 Ρ ' (t i∣t i−1)+ λ 3 Ρ '(t i∣t i−1 ,t i−2)) log ( Ρ (NN∣NN , ⟨ STARTTAG ⟩)) = log ( λ1 Ρ ' ( NN )+ λ 2 Ρ ' ( NN∣NN )+ λ 3 Ρ ' (NN∣NN , ⟨ STARTTAG ⟩)) log ( Ρ (NN∣NN , ⟨ STARTTAG ⟩)) = log (0.139033314∗0.224852071+0.273830156∗0.341307815+0.5871365299∗0.416667) log( Ρ (NN∣NN , ⟨ STARTTAG ⟩))=−0.9959766737675019 Kata : jamrud Label POS : NNP log( Ρ (t i∣t i−1 ,t i−2))=log( λ 1 Ρ ' (ti )+ λ 2 Ρ ' (t i∣t i−1)+ λ 3 Ρ '(t i∣t i−1 ,t i−2)) log ( Ρ ( NNP∣NN , ⟨ STARTTAG⟩ )) = log ( λ1 Ρ ' ( NNP )+ λ2 Ρ ' ( NNP∣NN )+ λ 3 Ρ ' ( NNP∣NN , ⟨ STARTTAG ⟩)) log ( Ρ ( NNP∣NN , ⟨ STARTTAG⟩ )) = log( 0.139033314∗0.1251568944+ 0.273830156∗0.086124402+ 0.5871365299∗0.05) log ( Ρ ( NNP∣NN , ⟨ STARTTAG⟩ ))=−2.6543967005313633 Pada contoh perhitungan diatas sama seperti perhitungan HMM bigram yang menghitung probabilitas transisi bergantung satu label POS sebelumnya model trigram bergantung pada dua label POS sebelumnya. Kata perebutan sebagai kata pertama akan didahului <STARTTAG>,<STARTTAG> sehingga nilai probabilitas transisinya -1.3566266091310688. Kata jamrud yang memiliki kemungkinan label POS NN dan NNP akan dihitung pula probabilitas transisinya bergantung pada dua label POS yang muncul sebelumnya masing-masing nilainya untuk <STARTTAG>,NN,NN yaitu -0.9959766737675019 sedangkan untuk <STARTTAG>,NN,NNP yaitu -2.6543967005313633. 7. Menyiapkan nilai state awal. Pada tahap 4 sebelumnya sistem telah memberikan label <STARTTAG> pada semua kalimat yang ada dalam korpus uji maka hanya ada satu macam label yang akan dihitung 47 probabilitasnya seperti pada persamaan (9). Jika semisal terdapat 5 kalimat dalam korpus uji dan masing-masing kalimat didahului dengan label <STARTTAG> maka kemungkinan label state awal adalah <STARTTAG> sebagai berikut: 5 log( Ρ (⟨ STARTTAG ⟩))=log( ) 5 log( Ρ (⟨STARTTAG⟩))=0 Dari perhitungan diatas maka didapatkan nilai state awal <STARTTAG> adalah 0. Setelah melakukan persiapan diatas didapatkan nilai probabilitas emisi dan nilai probabilitas transisi, sistem melakukan proses decoding untuk mendapatkan urutan label yang memberikan nilai akhir terbaik. Perhitungan pada proses decoding HMM bigram sesuai persamaan (2) ditunjukkan pada tabel berikut: Tabel 7: Hasil penghitungan decoding HMM bigram Kata Label POS Probabilitas Sebelumnya Probabilitas Transisi Probabilitas Emisi Jumlah Perebutan NN 0 -1.7721308912 -7.134093721 -8.9062246124 jamrud NN -8.9062246124 -1.1456514882 -5.524655809 -15.576531909 jamrud NNP -8.9062246124 -2.3651958691 -5.449606814 -16.721027296 Bahia NNP -15.576531909 -2.3651958691 -5.449606814 -23.391334592 Bahia NNP -16.721027296 -0.9311865758 -5.449606814 -23.101820685 raksasa JJ -23.101820685 -4.4837810717 -3.844814256 -31.430416013 . . -31.430416013 -2.7042287617 -0.005115101 -34.139759875 Pada tabel 7 diatas terdapat 6 kolom yaitu kolom Kata berisi urutan kata yang diujikan, kolom Label POS berisi kemungkinan label POS pada kata, kolom Probabilitas Sebelumnya berisi akumulasi jumlah probabilitas sebelumnya, kolom Probabilitas Transisi berisi probabilitas transisi tiap label POS bergantung pada label POS sebelumnya, kolom Probabilitas Emisi berisis porbabilitas emisi kata dengan masing-masing label POSnya dan kolom Jumlah yang menunjukkan 48 jumlah penambahan dari kolom probabilitas sebelumnya. Pada kata Perebutan memiliki nilai 0 pada kolom Probabilitas Sebelumnya karena nilai state awal yaitu <STARTTAG> bernilai 0. Kata jamrud memiliki dua kemungkinan label POS yaitu NN dan label NNP, untuk menentukan label yang tepat untuk kata jamrud sistem menghitung kemungkinan untuk kata Bahia yang sebelumnya berlabel POS NN yang memiliki jumlah akhir -23.3913345925 atau NNP yang memiliki jumlah akhir -23.1018206854. Kata jamrud yang berlabel POS NNP yang mendahului kata Bahia berlabel POS NN ternyata menunjukkan hasil yang lebih baik dengan selisih 0,289513907, sehingga sistem memilih label NNP untuk label POS kata jamrud. Gambar 10: Ilustrasi decoding HMM bigram Gambar 10 diatas menunjukkan ilustrasi pelabelan menggunakan decoding HMM bigram. Hasil akhir dari urutan terbaik yang dihasilkan sistem adalah <STARTTAG>, NN, NNP, NNP, JJ, ., <ENDTAG>. Sedangkan untuk proses perhitungan decoding pada model HMM trigram ditunjukkan pada tabel 8 dibawah ini. 49 Tabel 8: Hasil penghitungan decoding HMM trigram Kata Label POS Probabilitas Sebelumnya Probabilitas Transisi Probabilitas Emisi Jumlah Perebutan NN 0 -1.3566266091 -7.134093721 -8.4907203303 jamrud NN -8.4907203303 -0.9959766738 -5.524655809 -15.011352813 jamrud NNP -8.4907203303 -2.6543967005 -5.449606814 -16.594723845 Bahia NNP -15.011352813 -2.3166775493 -5.449606814 -22.777637176 Bahia NNP -16.594723845 -1.1993806875 -5.449606814 -23.243711347 raksasa JJ -22.777637176 -4.4509443816 -3.844814256 -31.073395814 raksasa JJ -23.243711347 4.6174548801 -3.844814256 -31.705980482 . . -31.073395814 -1.7592669919 -0.005115101 -32.837777906 Sama seperti decoding HMM bigram hanya saja pada kolom Probabilitas Transisi akan menghitung trigram dari urutan label POS lalu Sistem akan memilih urutan label yang menghasilkan nilai akhir terbaik. Hasil akhir pada decoding HMM bigram kata jamrud berlabel NNP memberikan nilai maksimal, namun pada decoding HMM trigram label NN yang memberikan nilai maksimal. Gambar 11: Ilustrasi decoding HMM trigram 50 Gambar 11 diatas menunjukkan ilustrasi pelabelan menggunakan decoding HMM trigram. Hasil akhir dari urutan terbaik yang dihasilkan sistem adalah <STARTTAG>, <STARTTAG>, NN, NN, NNP, JJ, ., <ENDTAG>. 4.6 Implementasi Morphology Analyzer Pada contoh sebelumnya kata dalam korpus uji yang diujikan merupakan known word sehingga tidak memerlukan penanganan kata OOV. Dalam penelitian ini metode yang diusulkan untuk penanganan kata OOV adalah menggunakan Morphology Analyzer (MA) yaitu dengan menerapkan sistem MorpInd untuk pelabelan kata OOV. Pada proses POS tagging dengan mengimplementasikan HMM dan model MA ini sama seperti model HMM sebelumnya hanya saja cara mendapatkan probabilitas emisnya yang berbeda. Pertama sistem akan menyiapkan tagset yang digunakan, korpus uji, nilai probabilitas emisi untuk kata known word, nilai probabilitas transisi dan state awal, namun untuk probabilitas emisi untuk kata OOV tidak menggunakan persamaan (12) seperti sebelumnya. Saat proses preprocesing sistem akan membuat secara otomatis file tokentag.txt yang akan digunakan untuk mencari label kandidat untuk kata OOV. Labellabel kandidat ini akan dicari nilai unigramnya melalui persamaan (13) lalu digunakan untuk memberi nilai probabilitas emisi pada kata OOV. Contoh perhitungan nilai unigram label-label kandidat pada urutan kata yang diujikan sebagai berikut: Kalimat : “Kakek sedang tidur di kamarnya.” Kata OOV : kakek, tidur, dan kamar. Kandidat label : Kakek : NN,NNP,NND tidur : VB kamar : NN,NNP,NND 51 Perhitungan : Kata : Kakek Label : NN log( Ρ '(t i))=log( Count (t i ) ) N log( Ρ '( NN ))=log( Count (NN ) ) N log( Ρ '( NN ))=log( 1254.0 ) 5577.0 log( Ρ '(NN ))=−1.4923125551966876 Kata : Kakek Label : NNP log( Ρ '(t i))=log( Count (t i ) ) N log( Ρ '( NNP))=log( Count ( NNP) ) N log( Ρ '( NNP))=log( 698.0 ) 5577.0 log( Ρ '(NNP))=−2.0781871736271813 Kata : Kakek Label : NND log( Ρ '(t i))=log( Count (t i ) ) N log( Ρ '( NND))=log( Count ( NND) ) N log( Ρ '( NND))=log( 28.0 ) 5577.0 log( Ρ '(NND))=−5.29420176621435 52 Kata : tidur Label : VB log( Ρ '(t i))=log( Count (t i ) ) N log( Ρ '(VB))=log( Count (VB) ) N log( Ρ '(VB))=log( 585.0 ) 5577.0 log( Ρ '(VB))=−2.2547944291576973 Pada perhitungan diatas didapatkan nilai unigram yang akan dijadikan sebagai probabilitas emisi untuk kata OOV. Pada kata Kakek label Morphind menunjukka label N lalu diterjemahkan dengan tabel 5 penrjemah label POS didapatkan label kandidat yaitu NN,NNP dan NND. Masing-masing dihitung unigramnya yaitu label POS NN sebesar -1.4923125551966876, label POS NNP sebesar -2.0781871736271813 dan label POS -5.29420176621435. Pada kata tidur label kandidat hanya VB sehingga nilainya sebesar -2.2547944291576973. Sedangkan pada kamar karena memiliki label kandidat seperti label kandidat kata kakek maka nilainya pun sama. Setelah mendapatkan nilai probabilitas emisi untuk kata OOV baru dilakukan proses decoding HMM. Pada contoh ini akan diterapkan model HMM bigram, sehingga perhitungannya seperti berikut: 53 Tabel 9: Hasil penghitungan decoding HMM bigram dan MA Kata Label POS Probabilitas Sebelumnya Probabilitas Transisi Probabilitas Emisi Jumlah kakek NN 0 -1.7721308912 -1.492312555 -3.2644434464 kakek NND 0 -5.2647296529 -5.294201766 -10.558931419 kakek NNP 0 -2.3448173292 -2.078187174 -4.4230045029 sedang MD -3.2644434464 -3.9721452196 -4.753590191 -11.990178857 sedang MD -10.558931419 -5.4822539977 -4.753590191 -20.794775608 sedang MD -4.4230045029 -3.7446381432 -4.753590191 -12.921232837 tidur JJ -11.990178857 -0.3513496604 -2.254794429 -14.596322947 di SC -14.596322947 -3.1820856157 -5.488937726 -23.267346288 di IN -14.596322947 -1.939414051 -1.761629728 -18.297366725 kamar NN -23.267346288 -1.7492976639 -1.492312555 -26.508956508 kamar NN -18.297366725 -0.7383295204 -1.492312555 -20.528008801 kamar NND -23.267346288 -6.9036396786 -5.294201766 -35.465187733 kamar NND -18.297366725 -3.9206776746 -5.294201766 -27.512246166 kamar NNP -23.267346288 -2.9666073544 -2.078187174 -28.312140816 kamar NNP -18.297366725 -1.5903467721 -2.078187174 -21.965900671 nya PRP -20.528008801 nya PRP -27.512246166 -3.399867613 -0.531304155 -24.459180569 -5.2386319151 -0.531304155 -33.282182236 Pada tabel diatas pada kata sedang, di, nya, ., <ENDTAG> merupakan known word sehingga menggunakan probabilitas emisi dari sistem sedangkan untuk kata kakek, tidur dan kamar menggunakan bentuk unigram label POSnya. Proses decoding pada tabel diatas dapat diilustrasikan seperti pada gambar 12. 54 Gambar 12: Ilustrasi decoding HMM bigram dan MA Adapun hasil urutan label terbaik yang dihasilkan oleh sistem pada model HMM bigram dengan MA untuk penanganan kata OOV adalah <STARTTAG>, NN, MD, VB, IN, NN, PRP, ., <ENDTAG>. Menghasilkan output : kakek/NN sedang/MD tidur/VB di/IN kamar/NN nya/PRP ./. 4.7 Pengujian Pengujian dilakukan untuk mengetahui kekauratan label POS pada korpus uji pada suatu model. Model yang diujikan pada penelitian ini adalah model HMM bigram dengan metode MA dan model HMM trigram dengan metode MA. Kedua model akan dibandingkan dengan model baseline yaitu HMM bigram dan HMM trigram tanpa penanganan kata OOV untuk mengetahui peningkatan keakuratan. Model lain yang akan juga akan diujikan sebagai pembanding adalah model yang sudah ada pada sistem IPOSTagger yaitu HMM bigram dengan Affixtree, model HMM trigram dengan Affixtree, HMM bigram dengan Affixtree dan Lexicon dan HMM trigram dengan Affixtree dan Lexicon. 55 Korpus yang diujikan ada tiga macam korpus yaitu korpus pertama berisi 3058 kata dengan kata OOV berjumlah 322. Korpus kedua berisi 3143 kata dengan kata OOV berjumlah 609. Korpus terakhir berisi 3110 kata dengan kata OOV berjumlah 941. Adapun hasil pengujian model pada sistem IPOSTagger sebagai berikut: Tabel 10: Persentase Overall accuracy Model Korpus 1 Korpus 2 Korpus 3 HMM Bigram (baseline) 90.1569653368 84.4416162902 76.334405145 HMM Trigram (baseline) 90.6474820144 84.6643334394 HMM Bigram + MA 95.3237410072 92.8094177537 88.327974277 HMM Trigram + MA 95.6834532374 92.8094177537 88.263665595 HMM Bigram + Affixtree 93.1981687377 88.8959592746 84.276527331 HMM Trigram + Affixtree 93.7867887508 89.341393573 84.437299035 HMM Bigram + Affixtree + Lexicon 93.3616742969 89.7231944003 85.144694534 HMM Trigram + Affixtree + Lexicon 94.146500981 90.1686286987 85.241157556 76.52733119 Keakuratan overall tertinggi pada korpus uji 1 dihasilkan oleh model HMM trigram + MA dengan nilai persentase 95.683~%. Pada korpus uji 2 model dengan prosentase tertinggi adalah model HMM bigram + MA dan model HMM trigram + MA yang memiliki nilai sama yaitu 92.809~%. Sedangakan pada korpus uji 3 model dengan prosentase tertinggi adalah model HMM bigram + MA dengan nilai 88.3279~% keakuratan. Tabel 11: Persentase Known word accuracy Model Korpus 1 Korpus 2 Korpus 3 HMM Bigram (baseline) 94.9470252649 93.2432432432 90.844298246 HMM Trigram (baseline) 95.5175224124 93.5585585586 91.173245614 HMM Bigram + MA 96.8622656887 95.9459459459 HMM Trigram + MA 97.4327628362 96.2162162162 94.572368421 HMM Bigram + Affixtree 96.6585167074 95.5855855856 94.024122807 HMM Trigram + Affixtree 97.3512632437 96.1261261261 94.462719298 HMM Bigram + Affixtree + Lexicon 96.5770171149 89.7231944003 94.024122807 HMM Trigram + Affixtree + Lexicon 97.4327628362 96.1261261261 94.407894737 94.51754386 56 Dari tabel 11 percobaan keakuratan known word pada model rata-rata mencapai 94.88%. Nilai tertinggi dihasilkan oleh model HMM trigram + MA dan HMM trigram + Affixtree + Lexicon dengan nilai yang sama yaitu 97.43% di korpus 1, model HMM trigram + MA dengan nilai 96.22% di korpus 2 dan model yang sama yaitu HMM trigram + MA dengan nilai 94.57% di korpus 3. Tabel 12: Persentase Unknown word accuracy Model Korpus 1 Korpus 2 Korpus 3 HMM Bigram (baseline) 45.0310559006 44.4991789819 39.95749203 HMM Trigram (baseline) 45.0310559006 44.4991789819 39.95749203 HMM Bigram + MA 79.5031055901 77.8325123153 72.476089267 HMM Trigram + MA 78.5714285714 76.8472906404 72.15727949 HMM Bigram + Affixtree 60.8695652174 58.9490968801 60.04250797 HMM Trigram + Affixtree 61.1801242236 59.2775041051 59.723698193 HMM Bigram + Affixtree + Lexicon 63.0434782609 63.2183908046 62.911795962 HMM Trigram + Affixtree + Lexicon 63.9751552795 63.5467980296 62.486716259 Dari tabel 12 percobaan keakuratan kata OOV diketahui rata-rata pada semua model hanya mencapai 60.65%. Model dengan keakuratan tertinggi didapatkan oleh model HMM bigram + MA dengan prosentase pada korpus uji 1 sebesar 79.503~%, pada korpus uji 2 sebesar 77.832~% dan pada korpus uji 3 sebesar 72.427~%. BAB V KESIMPULAN DAN SARAN 5 5.1 Kesimpulan Kesimpulan yang dapat diambil dari penelitian ini adalah sebagai berikut : 1. Analisis Morfologi dengan menerapkan MorphInd dapat digunakan untuk proses preprocesing pemotongan klitik pada kata berimbuhan berbentuk frasa. 2. MorphInd dapat digunakan untuk melabeli kata OOV pada IPOSTagger. 3. Model dengan penerapan analisis morphologi Morphind untuk penanganan kata OOV pada sistem IPOSTagger memberikan keakuratan tertinggi dibanding model lainnya yaitu model HMM trigram + MA pada korpus 1 sebesar 95.683~%, model HMM trigram + MA dan HMM bigram + MA yang memiliki nilai keakuratan sama sebesar 92.809~% pada korpus uji 2 dan HMM bigram + MA pada korpus uji 3 sebesar 88.3279~%. 5.2 Saran Penelitian ini menghasilkan sistem IPOSTagger yang telah ditambahkan preprocesing untuk korpus uji, dan model penanganan kata OOV menggunakan teknik penganalisis morfologi yang menerapkan sistem MorphInd. Meskipun model yang diajukan dapat meningkatkan keakuratan pelabelan POS namun keakuratan pada korpus uji dengan tingkat kata OOV tinggi masih cukup rendah, sehingga peneliti lain dapat mengajukan model lain yang dapat meningkatkan keakuratan pelabelan POS. 57 DAFTAR PUSTAKA [1] Lewis, M. P., Ethnologue: Languages of the World, 6th ed., Dallas, SIL International, 2009. [2] Pisceldo, F., Adriani, M., and Manurung, R., “Probabilistic Part of Speech Tagging for Bahasa Indonesia,” in Third International MALINDO Workshop, Colocated Event ACL-IJCNLP, Singapore, 2009. [3] Wicaksono, A. F. and Purwarianti, A., “HMM Based Part-of-Speech Tagger for Bahasa Indonesia,” in 4 th International MALINDO (Malay and Indonesian Language) Workshop, Jakarta, 2010. [4] Nurwidyantoro, A., and Winarko, E., "Parallelization of Maximum Entropy POS Tagging for Bahasa Indonesia with MapReduce," International Journal of Computer Science Issues (IJCSI), vol. 9, issue. 4, no. 2, 2012. [5] Rashel, F., Luthfi, A., Dinakaramani, A., and Manurung, R., “Building an Indonesian Rule-Based Part-of-Speech Tagger,” In Asian Language Processing (IALP), Kuching, 2014. [6] Sari, S., Hayurani, H., Adriani, M., and Bressan, S., “Developing Part of Speech Tagger for Bahasa Indonesia Using Brill Tagger,” The International Second MALINDO Workshop, 2008. [7] Brants, T., "TnT - A Statistical Part-of-Speech Tagger," Proceedings of the sixth conference on Applied Natural Language Processing, Seattle, 2000. [8] Woodland, P. C., Johnson, S. E., Jourlin, P. & Jones, K. S., “Effect of Out of Vocabulary Words in Spoken Document Retrieval”. © 2000 ACM 158113-226-3100/0007. [9] Larasati, S. D., Kubon, V., and Zeman, D., “Indonesian Morphology Tool (MorphInd): Towards Indonesian Corpus,” in Proceedings of the Workshop on Systems and Frameworks for Computational Morphology, Zurich, 2011. [10] Mohamed, H., Omar, N., & Aziz, M. J. A., “Statistical malay part-of- 58 59 speech (POS) tagger using Hidden Markov approach,” In Semantic Technology and Information Retrieval (STAIR), Kuala Lumpur, 2013. [11] Bakar, J. A., Omar, K., Nasrudin, M. F. and Murah, M. Z., “Morphology Analysis in Malay POS Prediction”, Proceeding of International Conference on Artificial Intelligent in Computer Science and ICT (AICS 2013), Langkawi, 2013. [12] George, Y.,The Study of Language, 4th ed., Cambridge, Cambridge University Press, 2010. [13] Harimurti, K., Pembentukan Kata dalam Bahasa Indonesia, Jakarta, Gramedia Pustaka Utama, 1993. [14] Samsuri, Analisis Morfologi, Malang, Gramedia, 1994. [15] Arifin, E. Z., Junaiyah, H. M, Morfologi: Bentuk Makna, dan Fungsi, Jakarta, Grasindo, 2007. [16] Verhaar, J. W. M, Asas-Asas Linguistik Umum, Yogyakarta, Gadjah Mada University Press, 1982. [17] Richard, H., ”Clitics in word grammar,” UCLWorking Papers in Linguistics, 2001. [18] Ramlan, M., Morfologi Suatu Tinjauan Deskriptif, Yogyakarta, Karyono, 1987. [19] Alwi, H., Tata Bahasa Baku Bahasa Indonesia, Jakarta, Departemen Pendidikan Dan Kebudayaan, 1988. [20] Icuk, P., ”Klitik Pronomina Dalam Bahasa Indonesia,” Tesis Linguistik Universitas Gadjah Mada, Yogyakarta, 2012. [21] Koehn, P., Statistical Machine Translation, Cambridge University Press, New York, 2010. [22] Waridah, E., EYD dan Seputar Kebahasa-Indonesiaan, Jakarta, Kawan Pustaka, 2008. [23] Jurafsky, D. and Martin, J. H., Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 2 nd ed., New Jersey, USA: Pearson Education, Inc., 2009. [24] Hajic, O., Smrz P., Zemanek, J.S., and Beska, E., ”Prague Arabic 60 dependency treebank: Development in data and tools” In Proceedings of NEMLAR, Kairo, 2004. [25] Simov, K., Osenova P., Kolkovska, S., Balabanova, E., Doikoff, D., Ivanova, K., Simov, A., and Kouylekov, M., “Building a Linguistically Interpreted Corpus of Bulgarian: the BulTreeBank”. In Proceedings of LREC, Las Palmas, 2002. [26] Brants, S., Dipper, S., Hansen, W., Lezius, and Smith, G., “The TIGER Treebank”, In Proceedings of the Workshop on Treebanks and Linguistic Theories, Bulgaria, 2002. [27] M. Civit, M, and M.A. Mart, “Building cast3lb: A Spanish treebank”, Research on Language & Computation, 2(4):549– 574, 2004. [28] Dinakaramani, A., Rashel, F., Luthfi, A., & Manurung, R, “Designing an Indonesian Part of speech Tagset and Manually Tagged Indonesian Corpus”, In Asian Language Processing (IALP), Kuching, 2014. [29] Helmut, S., “Probabilistic Part-of-Speech Tagging using Decision Tree”, In Proceedings of International Conference on New Methods in Language Processing, Manchester 1994. [30] Syaifudin, Y., “Tokenizer for Bahasa Indonesia,” 11 Maret 2016. [online] Available : https://github.com/yusufsyaifudin/tokenizer-id. [Accessed 4 Juni 2016].