skripsi - Universitas Dian Nuswantoro

advertisement
SKRIPSI
PENERAPAN ANALISIS MORFOLOGI UNTUK
PENANGANAN KATA BERIMBUHAN PADA POS TAGGER
BAHASA INDONESIA BERBASIS STATISTIK
IMPLEMENTING MORPHOLOGICAL ANALYZER FOR
AFFIXES HANDLING IN STATISTIC BASED INDONESIAN
POS TAGGER
Diajukan untuk memenuhi salah satu syarat
memperoleh gelar Sarjana Teknik Informatika
Disusun Oleh :
Nama
: Umriya Afini
NIM
: A11.2012.07305
Program Studi
: Teknik Informatika – S1
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2016
PERSETUJUAN SKRIPSI
Nama
: Umriya Afini
NIM
: A11.2012.07305
Program Studi
: Teknik Informatika
Fakultas
: Ilmu Komputer
Judul Tugas Akhir : PENERAPAN ANALISIS MORFOLOGI UNTUK
PENGGUNAAN KATA BERIMBUHAN PADA POS
TAGGER BAHASA INDONESIA BERBASIS STATISTIK
Tugas Akhir ini telah diperiksa dan disetujui,
Semarang,
Menyetujui
Mengetahui
Pembimbing
Dekan Fakultas Ilmu Komputer
Muljono,SSi, M.Kom
Dr. Abdul Syukur
ii
PENGESAHAN DEWA PENGUJI
Nama
: Umriya Afini
NIM
: A11.2012.07305
Program Studi
: Teknik Informatika
Fakultas
: Ilmu Komputer
Judul Tugas Akhir : PENERAPAN ANALISIS MORFOLOGI UNTUK
PENGGUNAAN KATA BERIMBUHAN PADA POS
TAGGER BAHASA INDONESIA BERBASIS STATISTIK
Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir tanggal 3 Agustus 2016. Menurut pandangan kami, tugas
akhir ini memadahi dari segi kualitas maupun kuantitas untuk tujuan
penganugrahan gelar Sarjana Komputer (S.Kom)
Semarang, X 2016
Dewan Penguji :
Pembimbing
Ketua Penguji
Muljono,SSi, M.Kom
Hanny Haryanto,S.Kom, M.T
iii
PERNYATAAN KEASLIAN SKRIPSI
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan dibawah
ini, saya:
Nama
: Umriya Afini
NIM
: A11.2012.07305
Menyatakan bahwa karya ilmiah saya berjudul:
PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA
BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS
STATISTIK
Merupakan karya asli (kecuali cuplikan dan ringkasan yang masing-masing telah
saya jelaskan seumbernya dan perangkat pendukung seperti webcamp dll).
Apabila dikemudian hari, karya saya disinyalisir bukan merupakan karya asli
saya, yang disertai bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan
gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian
surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di : Semarang
Pada Tanggal :
Yang Menyatakan
(Umriya Afini)
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan dibawah
ini, saya:
Nama
: Umriya Afini
NIM
: A11.2012.07305
Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada
Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-Exclusive
Royalti-Free-Right) atas karya ilmiah saya yang berjudul:
PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA
BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS
STATISTIK beserta perangkat yang diperlukan. Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy
ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan
data (database), mendistribusikan dan menampilkan/mempublikasi di internet atau
media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama
tetap mencantumkan nama saya sebagai penulis/pencipta.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak
Universitas Dian Nuswantoro, segala bentuk hokum yang timbul atas pelanggaran
Hak Cipta dalam karya ilmiah saya ini.
Demikian surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di : Semarang
Pada Tanggal :
Yang Menyatakan
(Umriya Afini)
v
UCAPAN TERIMAKASIH
Dengan memanjatkan puji syukur kehadirat Allah SWT. Tuhan Yang Maha
Pengasih dan Maha Penyayang yang telah melimpahkan segala rahmat, hidayah
dan inayah-Nya kepada penulis sehingga laporan tugas akhir dengan judul
“PENERAPAN ANALISIS MORFOLOGI UNTUK PENGGUNAAN KATA
BERIMBUHAN PADA POS TAGGER BAHASA INDONESIA BERBASIS
STATISTIK” dapat penulis selesaikan sesuai rencana karena adanya dukungan
dari berbagai pihak yang tidak ternilai besarnya. Oleh karena itu penulis
menyampaikan terimakasih kepada :
1. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas Dian
Nuswantoro.
2. Dr. Drs. Abdul Syukur, MM selaku Dekan Fasilkom.
3. Heru Agus Santoso, Ph.D selaku Ka.Progdi Teknik Informartika.
4. Muljono, SSi, M.Kom selaku pembimbing tugas akhir yang memberikan
ide penelitian, informasi referensi dan bimbingan yang berkaitan dengan
penelitian penulis.
5. Kedua orang tua penulis yang telah memberikan doa, dorongan, nasehat,
dan kasih sayang. Adik-adik serta teman-teman penulis yang telah
mendukung dalam pembuatan laporan tugas akhir ini.
6. Pihak-pihak yang telah banyak membantu penulis, yang tidak dapat
penulis sebutkan namanya satu-persatu.
Semoga Tuhan Yang Maha Esa memberikan balasan yang lebih besar kepada
beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas
akhir ini dapat bermanfaat dan berguna sabagaimana mestinya. Penulis sangat
berharap penelitian ini dapat dikembangkan dan disempurnakan sehingga dapat
menjadi lebih bermanfaat.
Semarang, Agustus 2016
(Umriya Afini)
vi
ABSTRAK
POS tagging (pelabelan kelas kata) merupakan salah satu proses penting
pada aplikasi-aplikasi NLP. POS tagging otomatis dibutuhkan karena POS
tagging secara manual membutuhkan waktu yang lama dan biaya mahal. Masalah
utama dalam POS tagging secara otomatis adalah kata ambigu dan kata Out-ofVocabulary (OOV). Salah satu pendekatan untuk mengatasi masalah kata ambigu
yang telah dikembangkan dan terbukti menghasilkan keakuratan tinggi adalah
POS tagging menggunakan pendekatan statistik dengan Hidden Markov Model
(HMM). Sistem POS tagger bahasa Indonesia yang menerapkan HMM adalah
IPOSTAgger. Masalah lain yaitu penanganan kata OOV dalam penelitian ini
digunakan penerapan metode pengalisis morfologi bahasa Indonesia. Sistem yang
diterapkan adalah penganalisis morfologi Morphind. Selain untuk penanganan
kata OOV, sistem Morphind juga digunakan untuk pemotongan klitik pada kata
imbuhan berbentuk frasa. Dengan menggabungkan kedua sistem tersebut
dihasilkan beberapa model yang dapat diterapkan untuk POS tagging pada korpus
bahasa Indonesia. Korpus yang digunakan yaitu korpus latih terdiri dari 10.000
kata yang telah diberi 31 label POS dan 3 jenis korpus uji masing-masing berisi
3000 kata. Keakuratan tertinggi sebesar 95.683~% dihasilkan oleh model HMM
trigram + MA pada korpus uji 1 dengan tingkat kata OOV 10%, pada korpus 2
dengan tingkat kata OOV 20% dihasilkan oleh model HMM trigram + MA dan
HMM bigram + MA dengan keakuratan yang sama yaitu 92.809~%, sedangkan
pada korpus 3 dengan tingkat kata OOV 30% dihasilkan oleh model HMM
bigram + MA yaitu sebesar 88.3279~%.
Kata kunci : Part of Speech Tagger, Hidden Markov Model, Analisis Morfologi
vii
ABSTRACT
POS tagging (word class tagging) is one of essential process in many NLP
applications. Automatic POS tagging is needed because manually POS tagging is
time consuming and costly. The main problem of automatic POS tagging is word
ambiguity and Out-of-Vocabulary (OOV) word. One of approach for handling
word ambiguity problem which already developed and proven give high accuracy
is POS tagging using Hidden Markov Model (HMM) statistic based tagger. POS
tagger system for bahasa Indonesia using HMM is IPOSTAgger. Another POS
tagging problem is OOV words handling, in this research is used morphology
analyzer method for bahasa Indonesia. Applied System is morphology analyzer
MorphInd. In addition to handling OOV word, system MorphInd is used for clitic
segmentation in affix phrase form. With combining both system resulted several
models which can be used for POS tagging in corpus using bahasa Indonesia.
Used corpus is training corpus which consist of 10000 words given 31 POS tag
and 3 kind of test corpus each consist of 3000 words. Highest accuracy in test
corpus 1 with 10% OOV is 95.683~% resulted by HMM trigram + MA model, in
test corpus 2 with 20% OOV is 92.809~% resulted by HMM trigram + MA model
and HMM bigram + MA model, while in test corpus 3 with 30% OOV is
88.3279~% resulted by HMM bigram + MA model. Highest accuracy in test
corpus 1 with 10% OOV is 95.683~% resulted by HMM trigram + MA model, in
test corpus 2 with 20% OOV is 92.809~% resulted by HMM trigram + MA model
and HMM bigram + MA model, while in test corpus 3 with 30% OOV is
88.3279~% resulted by HMM bigram + MA model.
Key word : Part of Speech Tagger, Hidden Markov Model , Morphology Analysis
viii
DAFTAR ISI
PERSETUJUAN SKRIPSI.....................................................................................ii
PENGESAHAN DEWA PENGUJI.......................................................................iii
PERNYATAAN KEASLIAN SKRIPSI.................................................................iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS................................................................................v
UCAPAN TERIMAKASIH...................................................................................vi
ABSTRAK............................................................................................................vii
ABSTRACT.........................................................................................................viii
DAFTAR ISI..........................................................................................................ix
DAFTAR TABEL..................................................................................................xi
DAFTAR GAMBAR............................................................................................xii
BAB I PENDAHULUAN.......................................................................................1
1.1 Latar Belakang............................................................................................1
1.2 Rumusan Masalah.......................................................................................3
1.3 Batasan Masalah.........................................................................................3
1.4 Tujuan Penelitian........................................................................................4
1.5 Manfaat Penelitian......................................................................................4
Bab II TINJAUAN PUSTAKA...............................................................................5
2.1 Tinjauan Studi.............................................................................................5
2.2 Tinjauan Pustaka.........................................................................................9
2.2.1 Karakteristik Bahasa Indonesia......................................................9
2.2.2 Morfologi Bahasa Indonesia...........................................................9
2.2.3 Part-of-speech...............................................................................15
2.2.4 Sistem Yang Diterapkan...............................................................21
2.3 Kerangka Pemikiran..................................................................................23
BAB III METODE PENELITIAN........................................................................24
3.1 Instrumen Penelitian.................................................................................24
ix
3.1.1 Bahan............................................................................................24
3.1.2 Peralatan.......................................................................................24
3.2 Prosedur Pengumpulan Data.....................................................................25
3.2.1 Studi Pustaka................................................................................25
3.2.2 Eksperimen...................................................................................26
3.3 Teknik Analisis Data.................................................................................26
3.4 Model Atau Metode Yang Diusulkan........................................................27
3.4.1 Preprocessing................................................................................27
3.4.2 HMM Tagging..............................................................................29
3.4.3 Evaluation.....................................................................................32
3.5 Eksperimen Dan Cara Pengujian Model...................................................33
3.5.1 Pengujian Data..............................................................................33
3.5.2 Pengujian Keakuratan...................................................................34
Bab IV ANALISIS HASIL PENELITIAN DAN PEMBAHASAN.....................36
4.2 Analisis Data.............................................................................................36
4.3 Hasil Training............................................................................................36
4.4 Hasil Preprocesing....................................................................................39
4.5 Implementasi HMM..................................................................................42
4.6 Implementasi Morphology Analyzer........................................................50
4.7 Pengujian...................................................................................................54
BAB V KESIMPULAN DAN SARAN................................................................57
5.1 Kesimpulan...............................................................................................57
5.2 Saran.........................................................................................................57
DAFTAR PUSTAKA............................................................................................58
x
DAFTAR TABEL
Tabel 1: State Of The Art.........................................................................................7
Tabel 2: Perubahan Nada Suara.............................................................................13
Tabel 3: Tagset Yang Digunakan............................................................................33
Tabel 4: Contoh Ngram..........................................................................................37
Tabel 5: Penerjemah Label POS.............................................................................40
Tabel 6: Perhitungan Probabilitas Emisi Known Word..........................................43
Tabel 7: Hasil Penghitungan Decoding HMM Bigram..........................................47
Tabel 8: Hasil Penghitungan Decoding HMM Trigram.........................................49
Tabel 9: Hasil Penghitungan Decoding HMM Bigram Dan MA...........................53
Tabel 10: Persentase Overall Accuracy..................................................................55
Tabel 11: Persentase Known Word Accuracy.........................................................55
Tabel 12: Persentase Unknown Word Accuracy....................................................56
xi
DAFTAR GAMBAR
Gambar 1: Pohon Sufiks Pada Kepanjangan Tiga.................................................20
Gambar 2: Struktur Keluaran MorphInd................................................................22
Gambar 3: Tahapan Proses POS Tagging...............................................................27
Gambar 4: Tahap Preprocessing.............................................................................28
Gambar 5: Tahap HMM Tagging...........................................................................30
Gambar 6: Ilustrasi Pelabelan Decoding HMM.....................................................32
Gambar 7: File Ngram.trn Dan File Lexicon.trn....................................................37
Gambar 8: Preprocesing Korpus Uji......................................................................39
Gambar 9: File Token-tag.txt.................................................................................41
Gambar 10: Ilustrasi Decoding HMM Bigram......................................................48
Gambar 11: Ilustrasi Decoding HMM Trigram......................................................49
Gambar 12: Ilustrasi Decoding HMM Bigram Dan MA.......................................54
xii
BAB I
PENDAHULUAN
1.1
Latar Belakang
Bahasa Indonesia adalah bahasa resmi negara Indonesa yang secara luas
digunakan sebagai alat komunikasi sehari-hari oleh lebih dari 222 juta orang.
Dengan lebih dari 742 bahasa daerah yang berbeda, Bahasa Indonesia merupakan
bahasa pemersatu bagi penduduk Indonesia [1]. Sehingga memiliki peralatan
untuk penelitian Natural Language Processing (NLP) yang tersedia untuk
masyarakat luas menjadi penting.
Label Part-of-Speech (POS) adalah label kategori kelas kata yang berupa
kata kerja (verb), kata benda (noun), kata sifat (adjectives), kata keterangan
(adverb) dan seterusnya pada tiap kata dalam suatu kalimat. POS tagging
(pelabelan kelas kata) merupakan salah satu bagian yang sangat penting dalam
aplikasi NLP seperti Speech Recognition, Question Answering dan Informarion
Retrieval. Melakukan palabelan POS secara manual membutuhkan waktu yang
lama dan biaya yang mahal karena harus memerlukan ahli bahasa. Oleh karena itu
mengembangkan POS tagging secara otomatis merupakan kebutuhan yang
mendesak.
POS tagging telah secara luas dipelajari dan dikembangkan untuk bahasa
Indonesia. Beberapa pendekatan telah digunakan untuk mengembangkan POS
tagging diantaranya adalah pendekatan Statistic-Based [2,3,4], pendekatan RuleBased [5] dan pendekatan Transformasion-Based learning [6]. Salah satu metode
POS tagging yang telah dikembangkan dan menghasilkan keakuratan yang tinggi
adalah POS tagging dengan pendekatan berbasis statistik (Statistic-Based)
menggunakan metode Hidden Markov Model (HMM) dikombinasikan dengan
metode lain [7]. HMM sendiri merupakan pengembangan dari Markov Model
yang mengasumsikan bahwa kata secara probabilitas bergantung hanya pada
1
2
kategori POS dua kata sebelumnya.
Salah satu POS tagging untuk bahasa Indonesia yang menerapkan
pendekatan
statistik
dengan
metode
HMM
adalah
IPOSTAgger, yang
dikembangkan oleh Wicaksono dan Purwarianti [3]. Dengan menggunakan HMM
bigram (urutan pertama) dan HMM trigram (urutan kedua) sebagai model dasar
IPOSTAgger juga menerapkan beberapa metode lain seperti
Jelinek-Mercer
smoothing, Affix Tree (pohon prefix – suffix), Lexicon (kamus) dari KBBIKateglo dan Succeding POS tag. Metode-metode tersebut diuji untuk mengetahui
konfigurasi yang menghasilkan nilai keakuratan terbaik. Adapun konfigurasi
terbaik yang didapatkan kombinasi metode HMM trigram, Affix tree dan Lexicon.
Masalah utama dalam POS tagging antara lain kata ambigu dan kata Outof-Vocabulary (OOV) [8]. Kata ambigu merupakan kata yang memiliki sifat
berbeda jika ditempakan pada konteks yang berbeda. Sedangkan kata OOV
merupakan kata yang ada dalam korpus uji namun tidak ada dalam korpus latih,
hal ini akan menyebabkan masalah sparse data. Sistem morfologi bahasa
Indonesia cukup rumit, termasuk diantaranya afiksasi yang menjadi salah satu
sumber dari masalah kata OOV. Bahasa Indonesia menggunakan banyak kata
imbuhan untuk membuat kata jadian. Penggunaan prefik, sufiks, infiks, atau
kombinasinya dapat merubah label POS dan makna dari suatu kata. Kata kerja
dapat menjadi kata benda, kata keterangan maupun kata sifat. Salah satu bagian
dari afiksasi adalah pengklitikan. Fenomena pengklitikan (proklitik, enklitik)
sangat sering terjadi dalam bahasa sehari-hari. Kata berimbuhan yang ketambahan
klitik akan menjadi kata ambigu, contohnya kata kumengirimkanmu (kata benda
nama diri) yang terdiri dari kata mengirimkan (kata kerja transitif) ketambahan
proklitik ku (kata benda) dan enklitik mu (kata benda). Sehingga diperlukannya
proses pengolahan berupa pemotongan pada kata berklitik. Penentuan kombinasi
afiks ataupun pemotongan klitik memerlukan analisis morfologi terlebih dahulu
sehingga tidak menimbulkan kesalahan pemberian label POS atau kesalahan
pemotongan klitik yang akan mengurangi tingkat keakuratan POS tagger.
Penerapan analisis morfologi dapat membantu pemberian kategori kelas
kata karena dapat diketahui unsur-unsur pembuat kata tersebut. Salah satu metode
3
analisis morfologi adalah Affix tree yang diadaptasi oleh IPOSTAgger. Namun
Affix tree hanya dapat melakukan pencocokan pola tidak memberikan informasi
morfologi lebih jauh. Sistem yang menerapkan analisis morfologi untuk bahasa
Indonesia yang dapat menangani afiksasi dan pengklitikan salah satunya adalah
penganalisis morfologi (Morphology Analyzer ) MorphInd [9].
Penelitian ini menerapkan analisis morfologi pada POS tagging untuk
mengatasi masalah kata ambigu dan kata OOV yang banyak disebabkan oleh kata
berimbuhan. Sistem MorphInd diterapkan untuk pelabelan POS pada kata OOV
dan membantu pemotongan klitik pada tahap preprocessing. Selanjutnya tahap
HMM tagging dilakukan menggunakan IPOSTAgger, konfigurasi model terbaik
akan dibandingkan untuk mengetahui nilai keakuratan tertinggi pada korpus uji
yang telah disiapkan.
Berdasarkan analisis tersebut, penelitian ini mengambil judul “Penerapan
analisis morfologi untuk penanganan kata berimbuhan pada POS Tagger bahasa
Indonesia berbasis statistik”.
1.2
Rumusan Masalah
Berdasarkan uraian pada latar belakang, masalah yang ada pada POS
tagging seperti penanganan kata OOV dan kata ambigu sangat penting untuk
meningkatkan keakuratan pada model POS tagging. Salah satu masalah dalam
POS tagging bahasa Indonesia adalah kata imbuhan. Hal ini dapat diatasi dengan
menerapkan analisis morfologi pada POS tagging. Dengan demikian rumusan dari
masalah tersebut adalah, “Bagaimana menerapkan analisis morfologi untuk
penanganan kata berimbuhan dalam POS tagging bahasa Indonesia berbasis
statistik”.
1.3
Batasan Masalah
Untuk menyelesaikan permasalahan yang ada, diperlukan adanya batasan
yang dapat mencakup kajian yang berhubungan dengan masalah tersebut sehingga
4
penyelesaian tidak menyimpang dari masalah. Adapun batasannya adalah sebagai
berikut:
1. Penelitian diterapkan pada sistem POS tagging IPOSTAgger.
2. Penelitian menggunaan MorphInd untuk penganalisis morfologi bahasa
Indonesia.
3. Korpus latih dan korpus uji menggunakan bahasa Indonesia yang baku dan
merupakan korpus yang telah ditentukan.
1.4
Tujuan Penelitian
Tujuan yang ingin dicapai dalam penelitian ini adalah sebagai berikut:
1. Mengimplementasikan analisis morfologi pada POS tagging berbasis
statistik.
2. Menentukan konfigurasi model POS tagging dengan penerapan analisis
morfologi yang dapat meningkatkan keakuratan POS tagger.
1.5
Manfaat Penelitian
Penelitian ini diharapkan dapat bermanfaat bagi:
1. Universitas Dian Nuswantoro
(a) Penelitian ini dapat menjadi tinjauan pustaka baru untuk studi pada
bidang NLP khususnya POS tagging.
2. Masyarakat Umum
(a) Dapat diterapkan untuk alat preprocessing pada aplikasi-aplikasi NLP.
(b) Dapat dimanfaatkan kembali untuk penelitian tentang analisis morfologi
dalam komputasi linguistik, POS tagging ataupun penelitian NLP
selanjutnya.
BAB II
TINJAUAN PUSTAKA
2
2.1
Tinjauan Studi
Dasar pemikiran penelitian tentang POS tagging bahasa Indonesia yang
penulis buat mengacu pada beberapa penelitian terkait sebelumnya. Pertama
penelitian yang dilakukan oleh A.F. Wicaksono dan Ayu Purwarianti dalam jurnal
berjudul “HMM Based Part-of-Speech Tagger for Bahasa Indonesia” membahas
tentang pengembangan IPOSTAgger, sistem POS tagger bahasa Indonesia yang
menerapkan pendekatan statistik dan beberapa metode lain untuk mengatasi
masalah keambiguan label POS. Model dasar yang diterapkan adalah HMM
bigram dan HMM trigram. Jelinek-Mercer smoothing diterapkan untuk mengatasi
masalah sparse data pada probabilitas transisi. Sedangkan model Affix tree dan
Lexicon seperti yang digunakan oleh Helmut Schmid juga diterapkan untuk
penanganan OOV. Terakhir metode Succeeding POS tag yang diadaptasi dari
penelitian Tetsuji Nakagawa juga diterapkan. Dengan menggunakan 12.000 kata
korpus latih dan 3.000 kata korpus uji, pengujian dilakukan sebanyak 3 kali
dengan presentasi kata OOV berbeda yaitu 15% kata OOV, 21% kata OOV dan
30% kata OOV. Dari ketiga pengujian keakuratan tertinggi dihasilkan dari
kombinasi metode HMM trigram, Affix tree dan Lexicon, sedangkan penggunaan
Succeeding POS tag meunjukkan penurunan keakuratan. Pada ketiga pengujian
yang dilakukan tingkat keakuratan cenderung menurun pada korpus uji dengan
tinggat kata OOV tinggi yaitu 96.50% pada korpus 15% kata OOV, 94.46% pada
korpus 21% kata OOV, dan 91.30% pada korpus 30% kata OOV [3].
Kedua penelitian oleh H. Mohamed, N. Omar, dan M. J. Ab Aziz dalam
jurnal berjudul “Statistical Malay Part-of-Speech (POS) Tagger using Hidden
Markov Approach” membahas pengembangan POS tagging berbasis statistik
5
6
untuk bahasa Malaysia. Pada proses morfologi penanganan klitik dilakukan
dengan cara pemotongan pada enklitik nya dan lah. Penelitian ini menggunakan
metode HMM trigram, Linear Successive Abstraction smoothing dan untuk
memprediksi kata OOV digunakan informasi afiks (prefiks, sufiks) seperti yang
digunakan
dalam
TnT
POS
tagger,
sedangakan
informasi
sirkumfiks
menggunakan chain rule. Percobaan menggunakan 18.400 token korpus latih dan
diujikan pada 1.840 token korpus uji dengan 15 % kata OOV. Keakuratan terbaik
dihasilkan pada pemrediksi prefiks dengan keakuratan overall 94%, keakuratan
pada known word mencapai 98,6% dan unknown word mencapai 67,9% [10].
Ketiga penelitian yang dilakukan oleh A. B. Juhaida dalam jurnal berjudul
“Morphology Analysis in Malay POS Prediction” membahas pengembangan POS
tagging pada bahasa Malaysia menggunakan informasi morfologi. Penelitian ini
menggunakan dua algoritma machine learning yaitu Decision Tree (J48) dan
Nearest Neighbor (kNN) untuk dibandingkan hasilnya. Sedangkan pada informasi
morfologi digunakan pada open class word. Percobaan dilakukan menggunakan
Weka 3.7.9 menunjukkan hasil keakuratan, kesalahan RMS dan waktu untuk
membangun model ditunjukkan oleh Decision Tree (J48) yaitu sebesar 92.86%.
Ini menunjukkan bahwa analisis morfologi terbukti berpengaruh pada hasil
komputasi [11].
Keempat penelitian oleh S. D. Larasati, V. Kuboˇn, dan D. Zeman dalam
jurnal berjudul “Indonesian Morphology Tool (MorphInd): Towards an
Indonesian Corpus” merupakan penelitian yang dilakukan untuk perbaikan
beberapa isu pada IndMA, alat analisis morfologi bahasa Indonesia sebelumnya.
Penelitian ini membahas tentang pengembangan MorphInd, alat analisis
morfologi untuk bahasa Indonesia yang dapat mengatasi analisis morfologi dan
lexical pada bahasa Indonesia dengan lebih baik. Fenomena morfologi dalam
bahasa Indonesia diantaranya karakter tidak biasa, seperti afiksasi (prefik, sufik,
sirkumfik, dan infik), reduplikasi dan pengklitikan (proklitik dan enklitik). Alat
berbasis finite state ini menggunakan teknologi Foma yang mengimplementasi
pendekatan dua level morfologi. Pengujian menggunakan korpus paralel yang
terdiri dari 39% kalimat-kalimat terjemah dari PENN Treebank, 7% subtitle film,
7
10% artikel olahraga, 14% artikel pengetahuan umum, 15% artikel internasional,
dan 15% artikel ekonomi. Hasil menunjukkan secara overall ( rasio jumlah kata
yg dianalisis dan jumlah kata dalam teks ) MorphInd menunjukkan nilai yang
lebih baik dari pada IndMA ini karena MorphInd secara utama mencakup klitik,
numeral alternation, dan tambahan partikel morfem yg tidak ditanggulangi oleh
IndMA [9].
Semua penelitian diatas, penulis rangkum dalam tabel state of the art untuk
merumuskan lingkup penelitian.
Tabel 1: State of the art
No Tahun
1
2010
Judul
Peneliti
Metode
Hasil
HMM Based Alfan Farizki
HMM bigram,
Keakuratan
Part-of-
Wicaksono,
HMM trigram,
tertinggi pada
Speech
Ayu
Linier
POS tagging
Tagger for
Purwarianti
interpolation
dihasilkan dari
Bahasa
smoothing,
kombinasi metode
Indonesia
Jelinek-Mercer
HMM trigram,
smoothing,
pohon prefix –
Affix tree,
suffix dan
Lexicon,
Lexicon.
Succeding POS
Penggunaan
tag
Succeeding POS
Tag meunjukkan
penurunan
keakuratan.
8
(Tabel State of the art lanjutan)
No Tahun
2
2011
Judul
Peneliti
Metode
Hasil
Statistical
Hassan
HMM trigram,
Keakuratan
Malay Part-
Mohamed
Linear successive terbaik untuk
of-Speech
,Nazlia Omar,
abstraction
penanganan kata
(POS)
Mohd Juzaidin smoothing,
OOV dihasilkan
Tagger using Ab Aziz
Pemrediksi
pada pemrediksi
Hidden
prefiks dan
prefiks.
Markov
sufiks
Approach
3
4
2013
2011
Morphology Juhaida Abu
Decision Tree
Keakuratan
Analysis in
Bakar,
(J48) , Nearest
tertinggi
Malay POS
Khairuddin
neighbor (kNN), dihasilkan oleh
Prediction
Omar,
informasi
Decision Tree
Mohammad
morfologi pada
(J48), dan
Faidzul
open class word
membuktikan
Indonesian
Nasrudin dan
analisis morfologi
Mohd Zamri
berpengaruh pada
Murah
hasil komputasi
Septiana Dian
Morphology Larasati,
Tool
Vladislav
Teknologi Finite- Penganalisis
state oleh Foma
morfologi bahasa
Indonesia yang
(MorphInd): Kubon dan
mencakup klitik,
Towards an
numeral
Daniel Zeman
Indonesian
alternation, dan
Corpus
tambahan partikel
morfem.
9
2.2
Tinjauan Pustaka
2.2.1
Karakteristik Bahasa Indonesia
Bahasa Indonesia telah digunakan oleh lebih dari 222 milyar
penduduk Indonesia sebagai bahasa pemersatu. Sebagai penjembatan dari
lebih dari 742 bahasa daerah, kosa kata bahasa Indonesia dipengaruhi dari
berbagai bahasa lain terutama bahasa Sansekerta, bahasa Arab, bahasa
Cina, bahasa Belanda dan bahasa Inggris serta bahasa local seperti bahasa
Jawa dan bahasa Batavia [1]. Seperti bahasa lainnya, bahasa Indonesia
menggunakan abjad Romawi yaitu dibaca dari kiri ke kanan dan setiap
kata dipisahkan dengan jarak atau spasi. Berbeda dengan bahasa Inggris
bahasa Indonesia tidak memiliki tense, sehingga untuk ekspresi waktu
suatu kejadian diggunakan kata fungsi dan kata keterangan waktu seperti
akan, sudah, besok, sekarang dan sebagainya. Namun untuk struktur
sederhana bahasa Indonesia memiliki pola yang sama dengan bahasa
Inggis. Bahasa Indonesia juga memiliki banyak sekali kata imbuhan untuk
membuat kata turunan. Kata imbuhan seperti prefiks, sufiks, infiks ataupun
kombinasinya dapat merubah label POS suatu kata. Dalam bahasa
Indonesia ungkapan jamak digunakan kata ganda seperti kata anak-anak.
2.2.2
Morfologi Bahasa Indonesia
2.2.2.1
Morfologi
Morfologi secara harfiah berarti "ilmu bentuk" yang
mulanya biasa digunakan dalam biologi, namun sejak pertengahan
abad 19, juga digunakan untuk menjelaskan tipe pada penyelidikan
yang menganalisis semua elemen-elemen dasar dalam bahasa.
Elemen-elemen tersebut yang secara teknis disebut sebagai morfem
[12]. Morfem berarti satuan terkecil yang memiliki arti dalam
pembentukan sebuah kata, dapat dibagi menjadi dua bagian yaitu
morfem bebas dan morfem terikat. Morfem bebas yaitu morfem
yang ketika berdiri sendiri memiliki makna atau juga dapat
10
diartikan sebagai stem (akar kata) contohnya tidur, makan, sendok.
Sedangkan morfem terikat adalah morfem yang jika berdiri sendiri
tidak memiliki makna apapun seperti kata imbuhan. Contoh
pembagian morfem bebas dan terikat sebagai berikut:
Ketiduran
ke
tidur
an
Morfem terikat
(prefiks)
Morfem bebas
(stem)
Morfem terikat
(sufiks)
2.2.2.2
Analisis Morfologi
Analisis morfologi merupakan proses meneliti cara suatu kata
dibentuk dengan menghubungkan morfem yang satu dengan yang
lainnya. Prosesnya morfologi meliputi afiksasi, reduplikasi,
perubahan intern, suplisi, dan modifikasi kosong [13]. Namun
dalam bahasa Indonesia hanya melalui afiksasi dan reduplikasi.
2.2.2.3
Afiksasi
Afiksasi merupakan penggabungan dari akar kata (stem)
dengan afiks [14]. Dalam bahasa Indonesia terdapat empat jenis
imbuhan yaitu awalah (prefiks), sisipan (infiks), akhiran (suffiks)
dan imbuhan terbelah (konfiks) [15]. Penjelasan mengenai masingmasing afiks sebagai berikut:
1. Awalan atau prefiks
Awalan atau disebut juga prefiks adalah kata imbuhan yang
letaknya berada di depan kata dasar atau kata jadian. Jenis
awalan dalam bahasa Indonesia yaitu: ber-, per-, meng-, di-,
ter-, ke-, dan se- [15]. Contoh awalan dalam bahasa
Indonesia seperti berikut:
11
Berjalan
→
Ber
+
Jalan
Pelari
→
Per
+
Lari
Tertawa
→
Ter
+
Tawa
Ditulis
→
Di
+
Tulis
Sekota
→
Se
+
Kota
Keluar
→
Ke
+
Luar
2. Sisipan atau infiks
Sisipan atau disebut juga Infiks adalah kata imbuhan yang
letaknya berada di tengah kata dasar. Jenis sisipan dalam
bahasa Indonesia ada empat yaitu: -el, -em, -er, dan -in [15].
Contoh sisipan dalam bahasa Indonesia sebagai berikut:
Telapak
→
El
+
tapak
Gemetar
→
Em
+
getar
Girigi
→
Er
+
Gigi
Kinerja
→
In
+
Kerja
3. Akhiran atau sufiks
Akhiran atau disebut juga sufiks adalah kata imbuhan yang
melekat pada akhir kata dasar atau kata serapan. Jenis
akhiran dalam bahasa Indonesia yaitu: -i, -kan, -an, -man,
-wan, -wati, -wi, -nya, -at, -in, -isme, -(is)asi, -logi, dan -tas
[15]. Contoh afiksasi sufiks pada bahasa Indonesia sebagai
berikut:
Potogan
→
Potong
+
an
Wisudawan
→
Wisuda
+
wan
Bukakan
→
Buka
+
kan
Duniawi
→
Dunia
+
wi
4. Imbuhan terbelah atau konfiks
Imbuhan terbelah disebut juga konfiks yaitu imbuhan yang
12
melekat pada awal dan akhir kata dasar [15]. Contoh
penerapan konfiks dalam bahasa Indonesia sebagai berikut:
ke- … -an
:
Kematian, ketiduran, kesakitan
Ber- … -an
:
Bertabrakan, bersalaman, berdesakan
Peng- … -an
:
Pengalaman, penghembusan, penebusan
Per- … -an
:
Pertemuan, perjudian, perdagangan
Se- … -nya
:
Sebesar-besarnya, sebanyak-banyaknya
Selain 4 jenis imbuhan diatas juga terdapat imbuhan gabung
atau disebut juga simulfiks. Simulfiks adalah dua imbuhan atau
lebih yang ditambahkan secara bertahap pada kata dasar atau kata
turunan. Contoh simulfiks dalam bahasa Indonesia adalah kata
imbuhan
mem+ber-kan
pada
kata
memberdayakan,
memberlakukan dan sebagainya [15]. Secara afiksasi pada kata
bersimulfiks sebagai berikut:
Memberdayakan
mem+ber+daya+kan
Memberlakukan
Mem+ber+laku+kan
Memperbolehkan
Mem+per+boleh+kan
Pemberdayaan
Pem+ber+daya+an
Memperkayakan
Men+per+kaya+kan
Afiks dalam bahasa Indonesia berperan penting karena
keberadaan kata imbuhan dapat menentukan bentuk, makna, fungsi,
dan kategori kata yang dilekatinya tersebut. Contohnya suatu kata
kerja (verb) dapat berubah menjadi kata benda (noun), kata
keterangan (adverb), kata sifat (adjective) ataupun sebaliknya.
Contoh perubahan kelas kata pada kata kirim dan makan berikut:
Kirim → Kata kerja (verb)
Makan→ Kata kerja (verb)
Mengirim → Kata kerja (verb)
Memakan → Kata kerja (verb)
Pengirim → kata benda (noun)
Pemakan → kata benda (noun)
13
Kiriman → kata benda (noun)
Makanan → kata benda (noun)
Kumengirimnya → frasa
Kumemakannya → frasa
Pada contoh diatas dapat diketahui jika suatu kata dasar
mendapat awalan me- kata akan masuk dalam kelas kata kerja dan
jika mendapat akhiran -an masuk dalam kelas kata benda. Namun
kata kumengiriminya dan kata kumemakannya merupakan kata
frasa yang berasal dari kata berimbuhan dan klitik harus
memerlukan proses morfologi untuk menentukan kelas kata yang
tepat. Selain itu, suatu kata dapat dibuat lebih dari dua kombinasi
kata imbuhan yang dapat menimbulkan keambiguan. Contohnya
kata desakan berasal dari desa (kata benda) +kan atau bisa juga
diartikan sebagai desak (kata kerja) +an. Keambiguan yang
diakibatkan oleh afiks lainnya yaitu perubahan nada suara saat kata
imbuhan tertentu bertemu dengan kata dasar berawalan huruf
tertentu, misalnya awalan me- ketika bertemu dengan huruf awalan
“s” pada kata sorak maka imbuhan me- berubah menjadi menypada kata menyorakan. Berikut tabel perubahan nada suara yang
terjadi pada awalan me-, pe-, be-.
Tabel 2: Perubahan nada suara
Huruf awal kata
Perubahan awalan
a,e,g,h,i,o,u
me
meng/menge
b,f,p,v
me → mem
pe → pem
be → bel
c,d,j,t
me → men
pe → pen
be → ber
s
me → men/meny pe → pen/peny be → ber
k,l,m,n,v,w,y
me → meny
2.2.2.4
→ pe
→ be → ber
peng/penge
pe → peny
be → ber
Pengklitikan
Klitik berasal dari kata “klinein” yang dalam bahasa Yunani
14
bermakna bersandar. Klitik biasa dipakai untuk menyebutkan katakata singkat, kata tidak beraksen yang selalu bersandar pada suatu
kata [16]. Kridalaksana menjelaskan, klitik adalah bentuk terikat
yang secara fonologis tidak memiliki tekanan sendiri atau tidak
dianggap sebagai morfem terikat, tetapi memiliki ciri-ciri kata
karena dapat berlaku sebagai bentuk bebas [13]. Dengan kata lain
suatu klitik secara sintaksis merupakan sebuah kata yang jelas
namun secara morfologi dan fonologi hanya berupa morfem [17].
Klitik dapat dibedakan menjadi dua macam, yaitu proklitik dan
enklitik.
1. Proklitik
Proklitik merupakan klitik yang teletak dimuka (kata utama)
misalnya ku- pada kata kuambil, kau- pada kata kauambil
[18]. contoh bentuk-bentuk proklitik adalah non-, anti-, ku-,
kau-, maha-, purna-, dan nir-.
2. Enklitik
Enklitik adalah klitik yang terletak dibelakang (kata utama)
misalnya -ku pada kata rumahku, -mu pada kata rumahmu,
dan –nya pada kata rumahnya[18]. Moeliono menulis,
enklitik dalam tata bahasa baku Indonesia terdapat bentuk
ku, mu, nya, lah, tah, kah, dan pun. Bentuk enklitik kah,
lah, pun, tidak dapat berdiri sendiri, tetapi selalu melekat
pada bentuk lain [19].
Klitik dalam sebuah kalimat dapat mengubah kalimat
menjadi kategori lain atau kelas lain. Klitik ku yang berkategori
nomina (noun) apabila melekat pada kata ambil yang berkategori
verba (verb) akan menjadi kategori verba dengan kalimat kuambil.
Sehingga walaupun dieja seperti afiks, tetapi secara kelas kata
berada di tingkat frasa.
Pada penelitian ini keambiguan klitik difokuskan hanya
15
pada klitik pronomina. Icuk prayogi dalam hasil tesisnya
menyimpulkan bahwa terdapat tiga suku kata yang termasuk klitik
pronomina yaitu proklitik ku- dan enklitik -ku, -mu, serta -nya.
Untuk penyebarannya proklitik hanya melekat pada kata kerja atau
kata jadian dari kata kerja, sementara enklitik melekat pada kata
kerja trasitif dan kata benda [20]. Contoh keambiguan pada
pengklitikan sebagai berikut:
Antar (kata kerja)
Kuantar (frasa)
Ku (kata ganti) + antar (kata kerja)
Kuantarmu (frasa)
Ku (kata ganti) + antar (kata kerja) + mu
(kata ganti)
Jalan (kata benda)
Jalannya (frasa)
Jalan (kata benda) + nya (kata ganti)
Kujalaninya (frasa)
Ku (kata ganti) + jalani (kata kerja) +
nya (kata ganti)
2.2.3
Part-of-speech
Secara kategori tata bahasa kata dapat dibagi menjadi 2 yaitu kelas
terbuka (open class) dan kelas tertutup (closed class). Kelas terbuka
merupakan kategori kelas yang kata-katanya selalu meningkat sepanjang
waktu sedangkan kelas tertutup yang katanya tidak bertambah. Anggota
dari kelas-kelas ini biasa disebut Part-of-Speech yang juga dikenal sebagai
POS, kelas kata, atau kategori sintaksis [21]. POS sendiri dalam bahasa
Indonesia terbagi menjadi: kata kerja (verb), kata benda (noun), kata sifat
(adjective), kata angka (word number), kata ganti (pronoun), kata
keterangan
(adverb),
kata
penunjuk
(demonstrative),
kata
tanya
(interrogatives), artikulasi (articulatory), kata depan (preposition), kata
seru (interjection), kata sambung (conjunction) dan kata ganda
(reduplication) [22].
16
2.2.3.1
Part-of-speech Tagging
Pelabelan kelas kata atau yang disebut POS tagging berarti
proses memberikan tanda Part-of-Speech pada tiap kata yang
diinputkan. Permasalahan dalam POS tagging ini adalah suatu kata
berkemungkinan memiliki lebih dari satu label POS yang membuat
kata menjadi ambigu, sehingga tujuan tagging ini adalah sebagai
tugas disambiguasi untuk mencari label POS yang benar untuk kata
tersebut
[23].
Kebanyakan
proses
POS
tagging
yaitu
menyelesaikan dua langkah dasar yaitu analisis morfologi dan
disambiguaisi.
Disambiguaisi ini dapat dilakkan menggunakan
beberapa pendekatan seperti Statistic-Based, pendekatan RuleBased dan pendekatan Transformasion-Based learning. Dari ketiga
pendekatan tersebut, pendekatan berbasis statistik banyak diminati
karena tidak memerlukan banyak sumber daya linguistik dan
terbukti memberi tingkat keakuratan yang tinggi pada penelitianpenelitian sebelumnya [2, 3, 4, 7].
2.2.3.2
Tagset
Pada komputasi linguistik POS digunakan untuk memberi
label suatu kata yang diberikan, urutan label yang mungkin
diberikan biasa disebut tagset. Tagset memiliki banyak versi,
contohnya tagset untuk bahasa Inggris versi Penn Treebank tagset
yang terdiri 45 label POS. Tagset ini telah banyak digunakan untuk
keperluan komputasi linguistik seperti digunakan pada Brown
corpus, Switchboard corpus, dan Street Journal Corpus [23]. Varian
tagset untuk bahasa-bahasa lain juga teredia seperti tagset untuk
bahasa Arab oleh O. Hajic memiliki 21 label POS, K. Simov
menggunakan 54 label POS untuk bahasa Bulgaria, S. Brants
menggunakan 54 label POS untuk bahasa Jerman dan M. A. Mart
menggunakan 47 label POS untuk bahasa Spayol [24, 25, 26, 27].
17
Sedangkan tagset bahasa Indonesia juga memiliki banyak versi
diantaranya POS versi PAN Localization Project mengembangkan
tagset dari Penn Treebank yang tersidi dari 29 label POS, F.
Pisceldo mengembangkan 37 label POS, A.F. Wicaksono dan Ayu
Purwarianti menggunakan tagset yang terdiri 35 label POS untuk
pengembangan IPOSTAgger, S. D. Larasati menggunakan 19 label
POS pada pengembangan MorphInd dan A. Dinakaramani
menggunakan 22 label POS untuk melabeli 250.000 korpus bahasa
Indonesia secara manual [2, 3, 9, 28].
2.2.3.3
Teknik POS Tagging
2.3.3.1.1 HMM Part-of-speech
Hidden
Markov
Model
(HMM)
merupakan
kelanjutan dari Markov Chain yang menyatakan bahwa
probabilitas dari state tertentu hanya bergantung pada state
sebelumnya. Markov chain berguna saat perhitungan
probabilitas urutan kejadian yang dapat diamati, sedangkan
HMM dapat melakukan perhitungan probabilitas urutan
yang dapat diamati dan yang tersembunyi (hidden) seperti
label Part-of-Speech (kelas kata). Menurut Daniel Jurafsky,
HMM adalah urutan probabilitas urutan model: diberikan
urutan dari suatu kesatuan (kata, huruf, morfem, kalimat dll)
lalu meghitung probabilitas distribusi melalui urutan label
yang mungkin dan memilih urutan label terbaik [23].
Adapun persamaan dasar HMM seperti ditunjukkan pada
persamaan (1) di bawah ini.
(1)
λ=( Λ , Β , π)
Simbol
λ
pada
persamaan
(1)
diatas
18
menunjukkan sebuah HMM, simbol
Λ
menunjukkan
vektor probabilitas transisi, simbol
Β sebagai vektor
probabilitas emisi dan π sebagai distribusi state awal.
Berdasarkan tutorial dari Jack Ferguson di tahun
1960, dalam HMM terdapat tiga masalah dasar yaitu
masalah likelihood, decoding, dan learning. Dari ketiga
masalah tersebut, yang digunakan untuk POS tagging
adalah masalah decoding. Masalah decoding ini yaitu ketika
diberikan input berupa sebuah HMM
urutan pengamatan
λ =( Λ , Β) dan
Ο=o 1 , o 2 , ... , oT lalu akan mencari
urutan state yang paling mungkin. Sehingga tujuan dari
HMM decoding pada POS tagging adalah mencari urutan
label POS yang paling mungkin ketika diberikan sejumlah
urutan kata-kata. Adapun persamaan HMM decoding untuk
POS tagging yang diadaptasi dari milik A.F Wicaksono
ditunjukkan pada persamaan (2) untuk bigram dan
persamaan (3) untuk trigram.
n
n
i=2
i=1
t 1−n =arg maxt ...t Ρ (t 1)×∏ Ρ (t i∣t i−1)×∏ Ρ (wi∣t i)
1
n
n
n
i=3
i=1
t 1−n =arg maxt ...t Ρ (t 1) Ρ ( t 2∣t 1 )×∏ Ρ (t i∣t i−1 ,t i−2)×∏ Ρ (w i∣t i)
1
n
(2)
(3)
Pada persamaan diatas t 1−n merupakan urutan
label POS terbaik dari tagset,
w 1 ... wn merupakan urutan
kata-kata. Ρ ( t 1 ) dan Ρ ( t 2∣t 1 ) bukan merupakan unigram
dan bigram merupakan token pertama dalam suatu kalimat.
Ρ ( t i∣t i−1 ) dan Ρ (t i∣t i−1 , t i−2 ) adalah probabilitas transisi.
Serta Ρ ( wi∣t i ) adalah probabilitas emisi.
19
2.3.3.1.2 Teknik Smoothing
HMM POS tagging menggunakan korpus latih untuk
mendapatkan vektor probabilitas transisi, namun korpus
latih ini jumlahnya terbatas sehingga memungkinkan pada
kondisi tertentu keadaan tidak pernah terpenuhi sehingga
nilai akan menjadi nol, masalah ini sering disebut sebagai
masalah sparse data. Teknik untuk mengatasi masalah
spase data adalah dengan teknik smoothing. Salah satu
teknik smoothing yang dapat digunakan adalah JelinekMercer smoothing untuk probabilitas transisi HMM bigram
seperti yang ditunjukkan pada persamaan (4). Sedangkan
teknik Linier Interpolation smoothing dapat digunakan
untuk probabilitas transisi pada HMM trigram seperti pada
persamaan (5).
(4)
Ρ (t i∣ti−1 )=λ Ρ '(t i∣ti−1)+(1− λ ) Ρ ' (t i)
Ρ (t i∣t i−1 , t i−2 )=λ 1 Ρ ' (t i)+ λ 2 Ρ ' (t i∣t i−1)+ λ3 Ρ '(t i∣t i−1 ,t i−2)
Pada
kedua
persamaan
di
probabilitas transisi HMM sedangakan
Pada persamaan (4)
atas
(5)
Ρ adalah
Ρ ' adalah MLE.
λ 1+ λ2 + λ3=1 di mana
λ 1 , λ 2 , λ3
didapatkan menggunakan algoritma deleted interpolation.
Sedangkan masalah sparse data pada probabilitas
emisi yang timbul akibat kata OOV dapat dilakukan dengan
salah satunya analisis morfologi.
2.3.3.1.3 Teknik Penanganan Kata OOV
Untuk menghasilkan keakuratan yang tinggi, suatu
model POS tagging penting memiliki penanganan terhadap
20
kata
Out-of-Vocabulary
(OOV).
Beberapa
teknik
penanganan kata OOV pada POS tagging diantaranya
adalah teknik Affixs tree dan teknik analisis morfologi.
1. Affix tree
Gambar 1: Pohon sufiks pada
kepanjangan tiga
Affix tree disebut juga pohon afiks pertama
diusulkan oleh Helmut Schmid pada TreeTagger.
Pohon afiks diatur seperti sebuah pohon, tiap simpul
pohon (kecuali pada simpul akar) dilabeli dengan
sebuah karakter. Pada simpul daun, probabilitas
vektor label disematkan. Pohon afiks dapat berupa
pohon prefiks, sufiks maupun gabungan prefiks, dan
sufiks.
Pada
proses
pencarian
pohon
sufiks,
pencarian dimulai pada simpul akar. Pada tiap
langkahnya, ranting yang di lebeli dengan karakter
berikutnya
dari
akhir
kata
akhiran
sampai
21
seterusnya. Pada gambar 1 ditunjukkan contoh
pohon sufiks dengan tiga tingkat kepanjangan [29].
Pada IPOSTAgger, wicaksono mengadaptasi
model Affix tree milik Schmid untuk bahasa
Indonesia dengan membuat tiga tipe pohon yang
dapat menangani kata berkapital, kata tak berkapital,
dan kata kardinal (ke-5, 100, dst). Pada percobaaan
terdapat tiga konfigurasi pohon afiks yang diujikan
yaitu pohon prefiks, pohon sufiks, dan pohon
prefiks-sufiks. Pohon afiks ini dibangun berdasarkan
pada korpus latih dan memanfaatkan informasi
Lexicon dari KBBI dan Kateglo untuk mengurangi
jumlah vektor probabilitas emisi yang dihasilkan
pada pohon afiks tersebut [3].
2. Analisis Morfologi
Analisis morfologi (Morphological Analyzer)
pada POS tagging digunakan untuk memberi
informasi morfologi kepada kata-kata. Teknik ini
digunakan oleh Fam Rashel dalam pembuatan POS
tagging bahasa Indonesia dengan pendekatan RuleBased dan Abu Bakar pada POS tagging bahasa
Malaysia
[5, 11]. Teknik analisis morfologi ini
digunakan untuk memberikan label POS pada kata
yang masuk dalam kategori open class words.
2.2.4
Sistem Yang Diterapkan
2.2.4.1
IPOSTAgger
IPOSTAgger merupakan sistem POS tagging berbasis
statistik untuk bahasa Indonesia yang dikembangkan oleh A. F.
22
Wicaksono dengan bahasa pemrograman Java. Adapun metode
yang diterapkan pada IPOSTAgger adalah Hidden Markov Model
(HMM) bigram dan trigram, metode smoothing, metode Affix tree,
metode Lexicon dan Succeeding POS tag. Sistem dapat melakukan
training pada korpus latih dan mengujikannya pada korpus uji.
Hasil keluaran berupa dokumen yang berisi urutan kata diikuti
dengan label POSnya, contohnya pelabelan dengan konfigurasi
terbaik sesuai penelitian dengan 35 label POS sebagai berikut:
Mengapa/WP lebah/NN betina/NN sering/JJ pergi/VBI keluar/VBI
sarangnya/NNG ?/.
2.2.4.2
Morphind
Gambar 2: Struktur keluaran MorphInd
MorphInd merupakan tool analisis morfologi untuk bahasa
Indonesia berbasis finite state, yang dapat menangani analisis
morfologi, lemmatization untuk bentuk kata permukaan yang
diberikan sehingga dapat dilakukan pengolahan kata selanjutnya.
MorphInd terdiri aturan-aturan morfosintaktis dan morfofonemik
untuk kata turunan atau infleksi kata permukaan pada bahasa
Indonesia. Hasil keluaran yang ditunjukan pada gambar 2 terdiri
23
dari tiga label berbeda yang ditempatakan setelah morfem.
2.3
Kerangka Pemikiran
Masalah
Kata OOV yang disebabkan oleh kata berimbuhan pada POS tagging bahasa
Indonesia berbasis statistik.
Tujuan
Menerapkan analisis morfologi pada POS tagging bahasa Indonesia berbasis
statistik untuk penanganan kata OOV yang disebabkan oleh kata berimbuhan
Eksperimen
Data
Metode
Korpus latih terdiri dari 10000 token, korpus uji HMM bigram, HMM
terdiri dari kurang lebih 3000 token dengan trigram, Teknik smoothing,
masing-masing 10% kata OOV, 20% kata ambigu, Morpholgy Analyzer.
30% kata berimbuhan.
Hasil
Perbandingan persentase keakuratan POS tagging antar model yang diajukan
serta dengan metode pada IPOSTAgger.
Manfaat
Sebagai pembanding POS tagging bahasa Indonesia yang telah ada khususnya
POS tagging berbasis statistik.
24
BAB III
METODE PENELITIAN
2.4
3
3.1
Instrumen Penelitian
Dalam penelitian ini diperlukan beberapa perangakat agar penelitian berjalan
lancar dan sesuai yang diharapkan. Perangkat yang digunakan dalam penelitian ini
dibagi menjadi dua, yaitu bahan dan peralatan.
3.1.1
Bahan
Bahan-bahan yang digunakan penulis dalam penelitian ini adalah
korpus dalam bahasa Indonesia diambil dari korpus A. Dinakaramani yang
telah melabeli lebih dari 250.000 token secara manual dengan 23 jenis
label POS [28]. Korpus tersebut kemudian akan diolah menjadi korpus
latih untuk proses training dan korpus uji untuk pengujian.
3.1.2
Peralatan
Peralatan yang digunakan penulis dalam penelitian ini adalah
perangakat keras (hardware) dan perangkat lunak (software), meliputi :
1. Perangkat keras
(a) Processor Inter Core i5
(b) RAM 4GB
(c) Harddisk 1TB
(d) Monitor LCD 14''
2. Perangkat lunak
(a) Sistem Operasi : Elementary OS Freya
(b) Sublime Text Editor 3
25
(c) IPOSTagger 1.1
(d) MorphInd 1.4
3.2
Prosedur Pengumpulan Data
Prosedur pengumpulan data yang dilakukan dalam penelitian ini
menggunakan 2 metode yaitu studi pustaka dan eksperimen.
3.2.1
Studi Pustaka
Metode studi pustaka dilakukan dengan cara mencari referensi dari
berbagai sumber yang mendukung penelitian, diantaranya:
1. Materi tentang POS tagging beserta metode-metode dan tagset
didapat dari buku dan jurnal penelitian.
2. Materi tentang morfologi, kata imbuhan dan klitik pada bahasa
Indonesia didapat dari beberapa buku bahasa Indonesia.
3. Materi tentang Hidden Markov Model (HMM) didapat dari buku
dan jurnal penelitian.
4. Materi penelitian penggunaan metode HMM pada POS tagging
didapat dari jurnal penelitian.
Selain informasi dari jurnal dan buku-buku informasi ataupun
materi-materi juga penulis dapatkan dari berbagai sumber di internet
diantaranya:
1. http://books.google.com/
2. http://scholar.google.com/
3. http://septinalarasati.com/work/morphind/
4. http://www.panl10n.net/
5. http://jedlik.phy.bme.hu/~gerjanos/HMM/node2.html
6. https://web.stanford.edu/~jurafsky/slp3/
26
Hasil dari studi pustaka yang dikumpulkan diantaranya adalah
referensi tentang morfologi bahasa Indonesia, POS tagging beserta
metode-metode pengembangannya, dan pengaruh morfologi pada bahasa
Indonesia seperti kata imbuhan dan pengklitikan pada POS tagging
khususnya POS tagging dengan pendekatan statistik menggunakan HMM.
3.2.2
Eksperimen
Metode eksperimen dilakukan dengan pencatatan percobaan
menggunakan
perangkat-perangkat
terkait
yaitu
IPOSTagger
dan
MorphInd berupa hasil keluaran perangkat tersebut. Pada percobaan
disiapkan 3 jenis korpus uji yang memiliki tingkan kata OOV berbeda
untuk kemudian diujikan pada tiap model sistem untuk mengetahui hasil
dan tingkat keakuratan yang didapatkan pada perangkat dari tiap korpus.
3.3
Teknik Analisis Data
Pada penelitian ini menggunakan teknik analisis data untuk mendapatkan
metode yang tepat untuk diterapkan pada POS tagging bahasa Indonesia. Pada
POS tagging berbasis statistik proses utama yang dilakukan adalah proses
morfologi dan proses ambiguasi. Pada beberapa jurnal proses morfologi yang
dilakukan adalah penanganan kata imbuhan. Adapun metode yang digunakan
diantaranya adalah pemrediksi afiks [10], dan pohon afiks (Affix tree) [3].
Sedangkan proses ambiguasi pada pendekatan statistik dilakukan dengan
penghitungan probabilitas. Beberapa metode yang digunakan untuk proses
ambiguasi dalam POS tagging ini seperti HMM, MEMM, Decision Tree, kNN
dan sebagainya.
Pada penelitian sebelumnya, POS tagging menggunakan metode HMM
yang digabungkan dengan beberapa metode sebagai fitur terbukti selain memiliki
tingkat keakuratan yang tinggi juga memilki waktu pemrosesan yang rendah [7].
Adapun metode-metode yang ditambahkan sebagai fitur HMM adalah untuk
27
penanganan masalah sparse data dan penanganan kata OOV. Metode penanganan
masalah sparse data yang digunakan adalah metode smoothing sedangkan
penanganan kata OOV diantaranya adalah Affix tree, Succeding POS tag,
Lexicon, Morphology Analyzer dan sebagainya.
Dalam penelitian ini peneliti menggabungkan metode HMM dengan
beberapa metode lain antara lain adalah metode smoothing menggunakan JelinekMercer smoothing dan Linier Interpolation smoothing serta menggunakan
penganalisi morfologi untuk penanganan kata OOV.
3.4
Model Atau Metode Yang Diusulkan
Berdasarkan hasil dari analisis data metode yang diusulkan dalam
penelitian ini adalah penerapan metode penganalisis morfologi untuk penanganan
kata OOV berupa kata imbuhan pada POS tagging berbasis statistik. Tahap
pemrosesan yang didapatkan berdasar analisis tersebut ditunjukan pada gambar 3
sebagai berikut:
Gambar 3: Tahapan proses POS tagging
Dari gambar diatas, Tahapan proses tagging meliputi proses preprocessing,
HMM tagging dan evaluation.
3.4.1
Preprocessing
Proses preprocessing dilakukan untuk menyiapkan korpus uji
28
proses ini terdiri dari tiga tahap yaitu pemotongan kata, pemotongan
kalimat, pemotongan klitik dan analisis morfologi sebagai berikut :
Gambar 4: Tahap preprocessing
3.4.1.1
Pemotongan Kata
Pemotongan kata atau word segmentation hanya dilakukan
pada tanda baca pada akhir kalimat seperti tanda “.” (titik), “,”
(koma), “?” (tanya), “!” (seru) “””” (petik dua) dan sebagainya.
Tanda baca pada tengah kalimat seperti pada kata buah-buahan dan
0.5 tidak dipisah.
3.4.1.2
Pemotongan Kalimat
Pemotongan kalimat atau sentence segmentation dilakukan
untuk memisahkan kalimat satu dengan kalimat lain. Tiap kalimat
akan diberi jarak satu baris baru.
29
3.4.1.3
Pemotongan Klitik
Pemotongan klitik atau clitic segmentation dilakukan untuk
memisahkan kata dengan klitik yang bersifat pronomina.
Pemotongan ini dibantu dengan sistem Morphind.
3.4.1.4
Analisis Morfologi
Tahap analisis morfologi pada preprocessing ini dilakukan
dengan menerapkan sistem MorphInd sebagai penganalisis
morfologi
bahasa
Indonesia
yang
akan
digunakan
untuk
mendapatkan informasi morfologi berupa label POS pada tiap kata
di korpus uji yang telah melewati tahapan preprocessing
sebelumnya. Label POS hasil sistem Morphind akan diubah
menjadi label POS yang digunakan untuk sistem dan digunakan
untuk penghitungan probabilitas emisi pada kata OOV saat proses
HMM tagging.
3.4.2
HMM Tagging
Proses HMM tagging yaitu pelabelan POS secara otomatis
menggunakan metode Hidden Markov Model (HMM).
Dalam HMM
terdapat beberapa komponen penting yaitu urutan state ( Q ), vektor
probabilitas
transisi
( Λ ),
urutan
pengamatan
( Ο ),
vektor
probabilitas emisi ( Β ) dan state awal ( π ). Urutan state merupakan
urutan label POS di korpus latih dan urutan pengamatan merupakan urutan
kata-kata di korpus latih. Sistem akan menerapkan dua model HMM untuk
POS tagging yaitu HMM bigram (first order) dan HMM trigram (second
order) seperti gambar 5 dibawah.
30
Gambar 5: Tahap HMM tagging
Probabilitas transisi, probabilitas emisi, dan state awal dihitung dari
korpus latih melalui persamaan berikut :
Λ=
Λ=
{
{
n
∏ Ρ (t 1∣t i−1)
i=2
}
n
∏ Ρ (t 1∣t i−1 ,t i−2)
i=2
Β=
{
n
∏ Ρ (wi∣ti )
i=1
(6)
}
}
π={ Ρ (⟨STARTTAG ⟩) }
(7)
(8)
(9)
Probabilitas transisi untuk bigram ditunjukan oleh persamaan (6)
dan persamaan untuk trigram (7). Probabilitas emisi menghitung
probabilitas kata yang diamati dengan label POS ditunjukan pada
persamaan (8). Sedangakan state awal ditunjukan pada persamaan (9).
Setelah komponen telah dipenuhi, proses decoding HMM
dilakukan untuk mendapatkan urutan label POS paling mungkin.
31
Persamaan decoding HMM bigram dan trigram yang diterapkan pada
IPOSTAgger ditunjukan pada persamaan (2) dan (3) sebelumnya.
Perhitungan probabilitas transisi dan probabilitas emisi dilakukan
menggunakan Maximum Likelihood Estimation (MLE) sebagai berikut:
Count (t i−1 , t i )
Count (t i−1)
(10)
Count (t i −2 , t i−1 , t i )
Count (t i −2 , t i−1 )
(11)
Count (t i , wi )
Count (t i )
(12)
Ρ ' (t i∣t i−1 )=
Ρ '( t i∣t i−1 , t i−2 )=
Ρ ' (wi∣t i)=
Pada pelabelan decoding HMM metode smoothing diterapkan
untuk mengatasi sparse data pada probabilitas transisi. Metode smoothing
yang diterapkan adalah Jelinek-Mercer smoothing ditunjukan pada
persamaan (4) dan metode Linier Interpolation smoothing ditunjukan pada
persamaan (5).
Kata OOV menyebabkan sparse data pada probabilitas emisi, untuk
menghindari masalah tersebut perhitungan probabilitas emisi dilakukan
dengan menghitung unigram label POS hasil dari proses preprocessing
menggunakan MorpInd. Label POS dari MorphInd kemudian akan
diterjemahkan kedalam tagset yang digunakan dan dihitung bentuk
unigramnya sesuai persamaan (13).
Ρ '( t i )=
Count(t i)
N
Pada persamaan unigram diatas nilai
(13)
t i adalah label POS dari
Morphind pada ururtan ke i sedangkan N adalah jumlah token dalam
korpus latih.
Ilustrasi proses pelabelan menggunakan decoding HMM ditunjukan
pada diagram trellis pada gambar 6 dibawah ini.
32
Gambar 6: Ilustrasi pelabelan decoding HMM
Pada gambar 6 diatas START mewakilkan state awal, label-label
POS sebagai hidden state ditunjukkan pada lingkaran, dan garis paling
jelas mewakilkan jalur urutan terbaik.
3.4.3
Evaluation
Proses evaluation ditujukan untuk mengetahui tingkat keakuratan
tiap model yang diujikan. Tiap model akan dibandingkan dengan hasil
baseline. Baseline ini merupakan model yang hanya menggunakan HMM
bigram dan Jelinek-Mercer smoothing tanpa menerapkan penanganan kata
OOV, sehingga kata yang termasuk kata OOV akan langsung diberi label
(NN) Noun. Nilai keakuratan dari baseline ini akan dibandingkan dari
model yang diterapkan pada sistem, sehingga dapat diketahui kinerja
model terbaik.
33
3.5
Eksperimen Dan Cara Pengujian Model
3.5.1
Pengujian Data
Penelitian ini menggunakan dua macam korpus yaitu korpus latih
dan korpus uji. Korpus diadaptasi dari korpus POS bahasa Indonesia milik
A. Dinakaramani yang melabeli lebih dari 250.000 token secara manual
dengan 23 jenis label POS [28]. Korpus latih terdiri dari kurang lebih
10.000 token diambil dari korpus tersebut namun dengan mengganti dan
menambah beberapa jenis tagset. Tagset yang digunakan penulis dalam
penelitian ini berjumlah 31 label POS yang dimodifikasi dari tagset asli
dari korpus A. Dinakaramani dan tagset dari A. Wicaksono, tagset
ditunjukkan pada tabel 3.
Tabel 3: Tagset yang digunakan
NO
POS
Nama POS
Contoh
1
OP
Open Parenthesis
({[
2
CP
Close Parenthesis
)}]
3
GM
Slash
/
4
;
Semocolon
;
5
:
Colon
:
6
"
Quotation
"
7
.
Sentence Terminator
.!?
8
,
Comma
,
9
-
Dash
-
10 CC
Coordinating Conjuction Dan, atau, tetapi, dll.
11 CD
Cardinal number
Dua, juta, 7916 dll.
12 OD
Ordinal number
Pertama, ketiga, ke-4 dll.
13 DT
Determiner
Para, sang, si dll.
14 FW
Foreign Words
Foreign, word, origin dll.
15 IN
Preposition
Di, ke, dari dll.
16 JJ
Adjective
Kaya, senang, bersih dll.
17 MD
Modal
Bisa, boleh, harus dll.
18 NEG
Negation
Bukan, tidak dll
34
(Tabel Tagset yang digunakan lanjutan)
NO
POS
Nama POS
Contoh
19 NN
Common Noun
Mobil, kertas, rupiah dll.
20 NNP
Proper Noun
Semarang, Indonesia, Jawa dll.
21 NND
Classifier, partitive, and Orang, helai, lembar dll.
measurement noun
22 PR
Demonstrative pronoun
Ini, itu, sini dll.
23 PRP
Personal Pronouns
Saya, kamu, dia dll.
24 RB
Adverb
Sementara, nanti, sangat dll.
25 RP
Practicles
Pun, kah, lah
26 SC
Subordinating conjunction Jika, ketika, supaya, dll.
27 SYM
Symbols
@#$%^&
28 UH
Interjection
Wah, aduh, Oi, oh, hai dll.
29 VB
Verb
Membeli, memakan, tidur dll.
30 WH
WH-Pronouns
Apa, siapa, kapan dll.
31 X
Unknown
Bangedd, G0k!L, jus+ice dll.
Pengujian dilakukan pada tiga korpus uji yang berbeda masingmasing berisi kurang lebih 3.000 token. Pengujian pertama pada korpus uji
yang mengandung 10% kata OOV, kedua menggunakan korpus dengan
20% kata OOV dan ketiga menggunakan korpus dengan 30% kata OOV.
3.5.2
Pengujian Keakuratan
Pengujian POS tagging dengan pengubahan variabel data akan dihitung
prosentase keakuratannya pada tiap model. Prosentase yang dihitung adalah
prosentase keseluruhan keakuratan (Overall accuracy), keakuratan kata
yang diketahui (Known word accuracy) dan keakuratan kata OOV
(Unknown word accuracy). Hasil prosentase tiap model akan dibandingkan
35
satu sama lain untuk mengetahui keakuratan tertinggi yang didapatkan. Pada
model dengan keakuratan tertinggi akan dibandingkan dengan model
IPOSTagger yaitu dengan metode Affix tree dan Lexicon.
BAB IV
ANALISIS HASIL PENELITIAN DAN PEMBAHASAN
4
4.1
4.2
Analisis Data
Penelitian ini menggunakan data berupa korpus yang telah diberi 31 jenis
label POS yang ditunjukkan pada tabel 3. Korpus diadaptasi dari korpus A.
Dinakaramani yang telah mengalami perubahan pada tagset dan pelabelan.
Perubahan tagset yang dilakukan seperti perubahan dari label “Z” dibagi menjadi
label ., ,, “, :, ;, OP, CP, dan GM. Perubahan pelabelan yang dilakukan seperti
merubah semua kata asing menjadi berlabel “FW”.
Data dipilih dan dibagi menjadi dua untuk korpus latih dan korpus uji.
Korpus latih terdiri dari kurang lebih 10.000 kata, sedangakan korpus uji terdiri
dari kurang lebih 3.000 kata. Terdapat tiga macam korpus yang diujikan dengan
tingkat kata OOV yang berbeda pada tiap korpusnya. Korpus uji pertama berisi
10% kata OOV, korpus uji kedua berisi 20% kata OOV dan korpus ketiga berisi
30% kata OOV.
4.3
Hasil Training
Proses training (pelatihan) dilakukan dengan menggunakan sistem
IPOSTAgger dengan menggunakan korpus latih yang telah disiapkan. Proses ini
dilakukan untuk mencari persebaran kemunculan label POS dan persebaran
kemunculan kata dengan label POS yang mengikutinya. Saat proses training
berlangsung sistem akan menghasilkan dua file yaitu Ngram.trn pada dan
Lexicon.trn seperti gambar dibawah ini.
36
37
Gambar 7: File Ngram.trn dan file Lexicon.trn
Gambar 7 diatas merupakan hasil proses training oleh sistem IPOSTAgger,
yaitu file Ngram.trn (kiri) dan Lexicon.trn (kanan). File Ngram.trn berisi
persebaran urutan label kata unigram, bigram dan trigram beserta jumlah
kemunculannya. Nilai kemunculan ini akan digunakan untuk menghitung
probabilitas transisi menggunakan MLE, masing-masing pada unigram seperti
persamaan (13), bigram seperti persamaan (10) dan trigram seperti persamaan
(11). Sebagai contoh pada tabel yang berisi urutan label POS dan frekuensinya
sebagai berikut:
Tabel 4: Contoh Ngram
Jenis Ngram
Urutan Label POS
Frekuensi
Unigram
NN
1254
Bigram
NN PR
70
Trigram
NN PR VB
25
Pada tabel 4 yang didapatkan dari file Ngram.trn hasil proses training
korpus latih yang terdiri dari 5577 kata, akan dihitung probabilitas transisi
masing-masing Ngram sebagai berikut:
38
Perhitungan unigram:
Ρ '(NN )=
Count (NN )
5577
Ρ '(NN )=
1254
5577
Ρ '(NN )=0,224852071
Perhitungan bigram:
Ρ '(PR∣NN )=
Count (NN , PR)
Count ( NN )
Ρ '(PR∣NN )=
70
1254
Ρ '(PR∣NN )=0,055821372
Perhitungan Trigram:
Ρ '(VB∣PR , NN )=
Count (NN , PR , VB)
Count (NN , PR)
Ρ '(VB∣PR , NN )=
25
70
Ρ '(VB∣PR , NN )=0,357142857
Sesuai perhitungan diatas masing-masing hasil probabilitas transisi
unigram NN adalah 0,224852071, bigram NN PR adalah 0,055821372 dan trigram
NN PR VB adalah 0,357142857.
Sedangkan file Lexicon.trn berisi persebaran kata, label, dan jumlahnya
dalam korpus latih. Nilai jumlah ini yang akan digunakan untuk mendapatkan
probabilitas emisi pada masing-masing kata. Kata yang tidak ada dalam file
Lexicon.trn ini akan dianggap sebagai kata OOV. Sebagai contoh perhitungan
probabilitas emisi sesuai persamaan (12) pada kata Paskah berlabel NNP yang
muncul sebanyak sekali dengan jumlah label NNP sebanyak 698 pada korpus
latih, sebagai berikut:
39
Perhitungan probabilitas emisi kata Paskah
Ρ ' (Paskah∣NNP)=
Count ( NNP , Paskah)
Count (NNP)
Ρ '(Paskah∣NNP)=
1
698
Ρ '(Paskah∣NNP)=0,001432665
Sesuai perhitungan di atas, maka hasil dari probabilitas emisi pada kata
Paskah adalah 0,001432665.
4.4
Hasil Preprocesing
Preprocesing dilakukan dengan menyiapkan korpus uji melalui beberapa
tahap yaitu word segmentation, sentence segmentation dan terakhir analisis
morfologi seperti yang ditunjukkan pada gambar 4 tahapan preprocessing.
Analisis morfologi ini diantaranya adalah pemotongan klitik yang bersifat
pronomina. Pemotongan kata dan pemotongan kalimat dilakukan dengan
menerapkan sistem tokenizer-id [30] sedangkan pemotongan klitik dengan
penganalisis morfologi menggunakan sistem MorphInd.
Gambar 8: Preprocesing korpus uji
40
Gambar 8 menunjukkan contoh korpus uji sebelum preprocessing (kiri)
dan setelah preprocesing (kanan). Korpus hasil preprocesing ini disimpan dalam
file bernama korpus-final.txt (kanan) menjadi korpus uji yang siap untuk proses
POS tagging menggunakan HMM selanjutnya.
Penerapan Morphind selain untuk pemotongan klitik juga untuk
penanganan kata OOV pada korpus uji. Tiap kata pada korpus uji akan
diterjemahkan dalam bentuk MorphInd lalu diberi label POS yang sesuai. Namun
karena tagset Morphind berbeda dengan tagset yang digunakan pada penelitian ini
maka digunakan tabel penerjemah label POS seperti yang ditunjukkan pada tabel
5 dibawah ini.
Tabel 5: Penerjemah label POS
NO
Label Morphind
Label POS
1
A
JJ
2
B
DT
3
CD
CD
4
CC
CD
5
CO
OD
6
D
RB
7
G
NEG
8
H
CC
9
I
UH
10
M
MD
11
N
NN,NNP,NND
12
O
VB
13
P
PR,PRP
14
R
IN
15
S
SC
16
T
RP
17
V
VB
18
W
WH
41
(Tabel Penerjemah Label POS lanjutan)
NO
Label Morphind
Label POS
19
X
X
20
Z
.,,,-,\",;,:,GM,OP,CP
Hasil dari kata yang telah diberi label MorphInd dan telah diterjemahkan
tersebut nantinya akan digunakan sebagai label kandidat pada kata OOV. Setiap
kata dalam korpus uji yang telah dilabeli dengan label kandidat kemudian
dimasukkan kedalam file token-tag.txt.
Gambar 9: File token-tag.txt
Gambar 9 diatas menunjukkan file token-tag.txt pada contoh korpus uji
yang diinputkan sebelumnya. File ini digunakan pada perhitungan probabilitas
emisi untuk kata OOV pada proses POS tagging menggunakan Morpholgy
Analyzer selajutnya.
42
4.5
Implementasi HMM
Sistem IPOSTagger menerapkan Hidden Markov Model (HMM) untuk
POS tagging. Algorima decoding yang diterapkan adalah algoritma viterbi.
Algoritma viterbi digunakan untuk menentukan urutan label POS terbaik pada
kalimat yang diinputkan. Proses decoding seperti pada persamaan (2) untuk
decoding HMM bigram dan persamaan (3) decoding HMM trigram dilakukan
dalam bentuk penjumlahan logaritma.
Sebelum sistem melakukan proses decoding HMM, sistem terlebih dulu
melakukan beberapa persiapan sebagai berikut :
1. Memilih model HMM yang akan digunakan yaitu model HMM bigram
atau HMM trigram.
2. Menyiapkan tagset yang akan digunakan untuk pelabelan yang didapatkan
dari proses training korpus latih. Tagset yang digunakan ditunjukan pada
tabel 3.
3. Menyiapkan urutan kata perkalimat yang diambil dari korpus uji dalam
file korpus-final.txt yaitu korpus uji yang telah melewati proses
preprocessing. Sebagi contoh kalimat dalam korpus uji yang akan diberi
label misalnya adalah kalimat “Perebutan jamrud Bahia raksasa .”
4. Menyiapkan urutan kata perkalimat dengan memberikan label POS
<STARTTAG> pada awal kalimat dan label POS <ENDTAG> pada akhir
tiap
kalimat
pada
model
bigram
dan
memberikan
label
POS
<STARTTAG>, <STARTTAG> pada awal kalimat dan label POS
<ENDTAG> pada akhir kalimat pada model trigram.
Contoh (bigram): “<STARTTAG> Perebutan jamrud Bahia
raksasa . <ENDTAG> ”
Contoh (trigram): “<STARTTAG> <STARTTAG> Perebutan
jamrud Bahia raksasa . <ENDTAG> ”
5. Menyiapkan probabilitas emisi untuk known word (kata yang ada dalam
korpus latih) dengan menggunakan file Lexicon.trn hasil dari proses
43
training sebelumnya. Dalam file ini akan didapatkan pasangan kata, label
POS dan frekuensinya sehingga dapat digunakan untuk menghitung
probabilitas emisi sesuai dengan persamaan (12). Hasil dari probabilitas
emisi tiap kata akan diterjemahkan kedalam bentuk logaritma untuk
memudahkan proses decoding HMM.
Tabel 6: Perhitungan probabilitas emisi known word
Kata
perebutan
jamrud
jamrud
Bahia
raksasa
jaksa
Kalifornia
akan
mulai
menanyai
kepemilikan
sejumlah
pihak
untuk
untuk
menentukan
mengenai
mengenai
…
Label POS
NN
NN
NNP
NNP
JJ
NN
NNP
MD
MD
VB
NN
CP
NN
IN
SC
VB
IN
SC
…
Probabilitas Emisi
log( Ρ ( wi∣t i ))
log(1.0 / 1254.0)
log(5.0 / 1254.0)
log(3.0 / 698.0)
log(3.0 / 698.0)
log(4.0 / 187.0)
log(2.0 / 1254.0)
log(2.0 / 698.0)
log(44.0 / 116.0)
log(4.0 / 116.0)
log(1.0 / 585.0)
log(4.0 / 1254.0)
log(5.0 / 374.0)
log(15.0 / 1254.0)
log(21.0 / 425.0)
log(32.0 / 242.0)
log(2.0 / 585.0)
log(5.0 / 425.0)
log(1.0 / 242.0)
…
Hasil
-7.1340937212
-5.5246558088
-5.4496068141
-5.4496068141
-3.8448142557
-6.4409465406
-5.8550719222
-0.9694005572
-3.36729583
-6.3716118472
-5.7477993601
-4.314817885
-4.4260435201
-3.0075667312
-2.0232018234
-5.6784646667
-4.4426512565
-5.4889377262
…
Tabel 6 terdiri dari 4 kolom yaitu kolom Kata yang berisi tiap kata dalam
korpus latih, kolom Label POS berisi label-label POS pada tiap kata,
kolom Probabilitas Emisi berisi bentuk logaritma dari persamaan (12) dan
terakhir kolom Hasil yaitu hasil dari perhitungan probabilitas emisi. Nilai
pada kolom Hasil probabilitas emisi ini akan digunakan untuk proses
44
selanjutnya.
6. Menyiapkan probabilitas transisi untuk model HMM yang dipilih yaitu
HMM bigram atau model HMM trigram. Jika model yang dipilih adalah
HMM bigram maka sistem menghitung probabilitas transisi bigram
dengan Jelinek-Mercer smoothing seperti pada persamaan (4). Proses
smoothing akan menghitung nilai bigram dan unigram menggunakan file
Ngram.trn yang berisi urutan label POS beserta frekuensinya dan sistem
akan memberikan nilai
λ
= 0.2. Contoh perhitungan probabilitas
transisi pada kata perebutan dan jamrud sebagai berikut:
Kata : perebutan
Label POS : NN
log( Ρ (t i∣t i−1))=log( λ Ρ ' (t i)+(1−λ ) Ρ ' (t i∣t i−1))
log( Ρ (NN∣⟨ STARTTAG ⟩))=log(0.2 Ρ ' ( NN )+( 1−0.2) Ρ ' ( NN∣⟨STARTTAG⟩))
log( Ρ (NN∣⟨ STARTTAG⟩))=log(0.2∗0.22485207100591717+(1−0.2)∗0.15625)
log( Ρ (NN∣⟨STARTTAG ⟩))=−1.772130891188254
Kata : jamrud
Label POS : NN
log( Ρ (t i∣t i−1))=log( λ Ρ ' (t i)+(1−λ ) Ρ ' (t i∣t i−1))
log( Ρ (NN∣NN ))=log( 0.2 Ρ ' (NN )+(1−0.2) Ρ '( NN∣NN ))
log( Ρ (NN∣NN ))=log(0.2∗0.22485207100591717+(1−0.2)0.3413078149920255)
log( Ρ (NN∣NN ))=−1.1456514881576636
Kata : jamrud
Label POS : NNP
log( Ρ (t i∣t i−1))=log( λ Ρ ' (t i)+(1−λ ) Ρ ' (t i∣t i−1))
log( Ρ (NNP∣NN ))=log(0.2 Ρ ' ( NNP)+(1−0.2) Ρ ' ( NNP∣NN ))
log( Ρ (NNP∣NN ))=log(0.2∗0.12515689438766361+(1−0.2)0.0861244019138756)
log( Ρ (NNP∣NN ))=−2.365195869067935
45
Pada contoh perhitungan diatas seperti pada probabilitas emisi nilai akan
diubah kedalam bentuk logaritma. Kata perebutan dengan label POS NN
sebagai kata awal akan dihitung transisinya dengan label <STARTTAG>
sehingga
probabilitas
transisi
<STARTTAG>,NN
sebesar
-1.772130891188254, pada kata jamrud muncul di korpus uji dengan
memiliki dua kemungkinan label POS yaitu NN dan NNP keduanya
masing-masing akan dicari nilai probabilitas transisinya jika sebelumnya
kata perebutan berlabel POS NN. Nilai probabilitas transisi jamrud
berlabel
POS
NN
yang
didahului
label
POS
NN
sebesar
-1.1456514881576636 dan jamrud berlabel POS NNP yang sebelumnya
didahului label POS NN sebesar -2.365195869067935.
Sedangkan Jika model yang dipilih adalah HMM trigram maka sistem
akan menghitung nilai probabilitas transisi trigram dengan Linier
Interpolation smoothing seperti pada persamaan (5). Pada Linier
Interpolation smoothing akan dicari nilai trigram, bigram dan unigramnya
dari file Ngram.trn lalu sistem akan menentukan nilai
λ1 , λ2 , λ3
yang akan memberikan nilai probabilitas transisi maksimal. Perhitungan
model HMM trigram dengan Linier Interpolation smoothing pada korpus
uji sebagai berikut:
Kata : Perebutan
Label POS: NN
log( Ρ (t i∣t i−1 ,t i−2))=log( λ 1 Ρ ' (t i )+ λ 2 Ρ ' (t i∣t i−1)+ λ 3 Ρ '(t i∣t i−1 ,t i−2))
log ( Ρ (NN∣⟨ STARTTAG ⟩ , ⟨ STARTTAG⟩ )) =
log ( λ1 Ρ ' ( NN )+ λ 2 Ρ ' ( NN∣⟨ STARTTAG⟩ )+ λ3 Ρ ' ( NN∣⟨ STARTTAG ⟩ , ⟨ STARTTAG ⟩)) =
log ( 0.139033314∗0.224852071+0.273830156∗0.15625+0.5871365299∗0.3125)
log ( Ρ ( NN∣⟨ STARTTAG ⟩ , ⟨ STARTTAG⟩ ))=−1.3566266091310688
46
Kata : jamrud
Label POS : NN
log( Ρ (t i∣t i−1 ,t i−2))=log( λ 1 Ρ ' (t i )+ λ 2 Ρ ' (t i∣t i−1)+ λ 3 Ρ '(t i∣t i−1 ,t i−2))
log ( Ρ (NN∣NN , ⟨ STARTTAG ⟩)) =
log ( λ1 Ρ ' ( NN )+ λ 2 Ρ ' ( NN∣NN )+ λ 3 Ρ ' (NN∣NN , ⟨ STARTTAG ⟩))
log ( Ρ (NN∣NN , ⟨ STARTTAG ⟩)) =
log (0.139033314∗0.224852071+0.273830156∗0.341307815+0.5871365299∗0.416667)
log( Ρ (NN∣NN , ⟨ STARTTAG ⟩))=−0.9959766737675019
Kata : jamrud
Label POS : NNP
log( Ρ (t i∣t i−1 ,t i−2))=log( λ 1 Ρ ' (ti )+ λ 2 Ρ ' (t i∣t i−1)+ λ 3 Ρ '(t i∣t i−1 ,t i−2))
log ( Ρ ( NNP∣NN , ⟨ STARTTAG⟩ )) =
log ( λ1 Ρ ' ( NNP )+ λ2 Ρ ' ( NNP∣NN )+ λ 3 Ρ ' ( NNP∣NN , ⟨ STARTTAG ⟩))
log ( Ρ ( NNP∣NN , ⟨ STARTTAG⟩ )) =
log( 0.139033314∗0.1251568944+ 0.273830156∗0.086124402+ 0.5871365299∗0.05)
log ( Ρ ( NNP∣NN , ⟨ STARTTAG⟩ ))=−2.6543967005313633
Pada contoh perhitungan diatas sama seperti perhitungan HMM bigram
yang menghitung probabilitas transisi bergantung satu label POS
sebelumnya model trigram bergantung pada dua label POS sebelumnya.
Kata
perebutan
sebagai
kata
pertama
akan
didahului
<STARTTAG>,<STARTTAG> sehingga nilai probabilitas transisinya
-1.3566266091310688. Kata jamrud yang memiliki kemungkinan label
POS NN dan NNP akan dihitung pula probabilitas transisinya bergantung
pada dua label POS yang muncul sebelumnya masing-masing nilainya
untuk <STARTTAG>,NN,NN yaitu -0.9959766737675019 sedangkan
untuk <STARTTAG>,NN,NNP yaitu -2.6543967005313633.
7. Menyiapkan nilai state awal. Pada tahap 4 sebelumnya sistem telah
memberikan label <STARTTAG> pada semua kalimat yang ada dalam
korpus uji maka hanya ada satu macam label yang akan dihitung
47
probabilitasnya seperti pada persamaan (9). Jika semisal terdapat 5 kalimat
dalam korpus uji dan masing-masing kalimat didahului dengan label
<STARTTAG> maka kemungkinan label state awal adalah <STARTTAG>
sebagai berikut:
5
log( Ρ (⟨ STARTTAG ⟩))=log( )
5
log( Ρ (⟨STARTTAG⟩))=0
Dari perhitungan diatas maka didapatkan nilai state awal <STARTTAG>
adalah 0.
Setelah melakukan persiapan diatas didapatkan nilai probabilitas emisi dan
nilai probabilitas transisi, sistem melakukan proses decoding untuk mendapatkan
urutan label yang memberikan nilai akhir terbaik. Perhitungan pada proses
decoding HMM bigram sesuai persamaan (2) ditunjukkan pada tabel berikut:
Tabel 7: Hasil penghitungan decoding HMM bigram
Kata
Label POS
Probabilitas
Sebelumnya
Probabilitas
Transisi
Probabilitas
Emisi
Jumlah
Perebutan
NN
0 -1.7721308912 -7.134093721 -8.9062246124
jamrud
NN
-8.9062246124
-1.1456514882 -5.524655809 -15.576531909
jamrud
NNP
-8.9062246124
-2.3651958691 -5.449606814 -16.721027296
Bahia
NNP
-15.576531909
-2.3651958691 -5.449606814 -23.391334592
Bahia
NNP
-16.721027296
-0.9311865758 -5.449606814 -23.101820685
raksasa
JJ
-23.101820685
-4.4837810717 -3.844814256 -31.430416013
.
.
-31.430416013
-2.7042287617 -0.005115101 -34.139759875
Pada tabel 7 diatas terdapat 6 kolom yaitu kolom Kata berisi urutan kata
yang diujikan, kolom Label POS berisi kemungkinan label POS pada kata, kolom
Probabilitas Sebelumnya berisi akumulasi jumlah probabilitas sebelumnya, kolom
Probabilitas Transisi berisi probabilitas transisi tiap label POS bergantung pada
label POS sebelumnya, kolom Probabilitas Emisi berisis porbabilitas emisi kata
dengan masing-masing label POSnya dan kolom Jumlah yang menunjukkan
48
jumlah penambahan dari kolom probabilitas sebelumnya. Pada kata Perebutan
memiliki nilai 0 pada kolom Probabilitas Sebelumnya karena nilai state awal yaitu
<STARTTAG> bernilai 0.
Kata jamrud memiliki dua kemungkinan label POS yaitu NN dan label
NNP, untuk menentukan label yang tepat untuk kata jamrud sistem menghitung
kemungkinan untuk kata Bahia yang sebelumnya berlabel POS NN yang memiliki
jumlah akhir -23.3913345925 atau NNP yang memiliki jumlah akhir
-23.1018206854. Kata jamrud yang berlabel POS NNP yang mendahului kata
Bahia berlabel POS NN ternyata menunjukkan hasil yang lebih baik dengan
selisih 0,289513907, sehingga sistem memilih label NNP untuk label POS kata
jamrud.
Gambar 10: Ilustrasi decoding HMM bigram
Gambar 10 diatas menunjukkan ilustrasi pelabelan menggunakan decoding
HMM bigram. Hasil akhir dari urutan terbaik yang dihasilkan sistem adalah
<STARTTAG>, NN, NNP, NNP, JJ, ., <ENDTAG>.
Sedangkan untuk proses perhitungan decoding pada model HMM trigram
ditunjukkan pada tabel 8 dibawah ini.
49
Tabel 8: Hasil penghitungan decoding HMM trigram
Kata
Label POS
Probabilitas
Sebelumnya
Probabilitas
Transisi
Probabilitas
Emisi
Jumlah
Perebutan
NN
0
-1.3566266091 -7.134093721 -8.4907203303
jamrud
NN
-8.4907203303
-0.9959766738 -5.524655809 -15.011352813
jamrud
NNP
-8.4907203303
-2.6543967005 -5.449606814 -16.594723845
Bahia
NNP
-15.011352813
-2.3166775493 -5.449606814 -22.777637176
Bahia
NNP
-16.594723845
-1.1993806875 -5.449606814 -23.243711347
raksasa
JJ
-22.777637176
-4.4509443816 -3.844814256 -31.073395814
raksasa
JJ
-23.243711347
4.6174548801 -3.844814256 -31.705980482
.
.
-31.073395814
-1.7592669919 -0.005115101 -32.837777906
Sama seperti decoding HMM bigram hanya saja pada kolom Probabilitas
Transisi akan menghitung trigram dari urutan label POS lalu Sistem akan memilih
urutan label yang menghasilkan nilai akhir terbaik. Hasil akhir pada decoding
HMM bigram kata jamrud berlabel NNP memberikan nilai maksimal, namun
pada decoding HMM trigram label NN yang memberikan nilai maksimal.
Gambar 11: Ilustrasi decoding HMM trigram
50
Gambar 11 diatas menunjukkan ilustrasi pelabelan menggunakan decoding
HMM trigram. Hasil akhir dari urutan terbaik yang dihasilkan sistem adalah
<STARTTAG>, <STARTTAG>, NN, NN, NNP, JJ, ., <ENDTAG>.
4.6
Implementasi Morphology Analyzer
Pada contoh sebelumnya kata dalam korpus uji yang diujikan merupakan
known word sehingga tidak memerlukan penanganan kata OOV. Dalam penelitian
ini metode yang diusulkan untuk penanganan kata OOV adalah menggunakan
Morphology Analyzer (MA) yaitu dengan menerapkan sistem MorpInd untuk
pelabelan kata OOV.
Pada proses POS tagging dengan mengimplementasikan HMM dan model
MA ini sama seperti model HMM sebelumnya hanya saja cara mendapatkan
probabilitas emisnya yang berbeda. Pertama sistem akan menyiapkan tagset yang
digunakan, korpus uji, nilai probabilitas emisi untuk kata known word, nilai
probabilitas transisi dan state awal, namun untuk probabilitas emisi untuk kata
OOV tidak menggunakan persamaan (12) seperti sebelumnya.
Saat proses preprocesing sistem akan membuat secara otomatis file tokentag.txt yang akan digunakan untuk mencari label kandidat untuk kata OOV. Labellabel kandidat ini akan dicari nilai unigramnya melalui persamaan (13) lalu
digunakan untuk memberi nilai probabilitas emisi pada kata OOV.
Contoh perhitungan nilai unigram label-label kandidat pada urutan kata
yang diujikan sebagai berikut:
Kalimat : “Kakek sedang tidur di kamarnya.”
Kata OOV : kakek, tidur, dan kamar.
Kandidat label :
Kakek
: NN,NNP,NND
tidur
: VB
kamar
: NN,NNP,NND
51
Perhitungan :
Kata : Kakek
Label : NN
log( Ρ '(t i))=log(
Count (t i )
)
N
log( Ρ '( NN ))=log(
Count (NN )
)
N
log( Ρ '( NN ))=log(
1254.0
)
5577.0
log( Ρ '(NN ))=−1.4923125551966876
Kata : Kakek
Label : NNP
log( Ρ '(t i))=log(
Count (t i )
)
N
log( Ρ '( NNP))=log(
Count ( NNP)
)
N
log( Ρ '( NNP))=log(
698.0
)
5577.0
log( Ρ '(NNP))=−2.0781871736271813
Kata : Kakek
Label : NND
log( Ρ '(t i))=log(
Count (t i )
)
N
log( Ρ '( NND))=log(
Count ( NND)
)
N
log( Ρ '( NND))=log(
28.0
)
5577.0
log( Ρ '(NND))=−5.29420176621435
52
Kata : tidur
Label : VB
log( Ρ '(t i))=log(
Count (t i )
)
N
log( Ρ '(VB))=log(
Count (VB)
)
N
log( Ρ '(VB))=log(
585.0
)
5577.0
log( Ρ '(VB))=−2.2547944291576973
Pada perhitungan diatas didapatkan nilai unigram yang akan dijadikan
sebagai probabilitas emisi untuk kata OOV. Pada kata Kakek label Morphind
menunjukka label N lalu diterjemahkan dengan tabel 5 penrjemah label POS
didapatkan label kandidat yaitu NN,NNP dan NND. Masing-masing dihitung
unigramnya yaitu label POS NN sebesar -1.4923125551966876, label POS NNP
sebesar -2.0781871736271813 dan label POS -5.29420176621435. Pada kata
tidur label kandidat hanya VB sehingga nilainya sebesar -2.2547944291576973.
Sedangkan pada kamar karena memiliki label kandidat seperti label kandidat kata
kakek maka nilainya pun sama.
Setelah mendapatkan nilai probabilitas emisi untuk kata OOV baru
dilakukan proses decoding HMM. Pada contoh ini akan diterapkan model HMM
bigram, sehingga perhitungannya seperti berikut:
53
Tabel 9: Hasil penghitungan decoding HMM bigram dan MA
Kata
Label POS
Probabilitas
Sebelumnya
Probabilitas
Transisi
Probabilitas
Emisi
Jumlah
kakek
NN
0
-1.7721308912 -1.492312555 -3.2644434464
kakek
NND
0
-5.2647296529 -5.294201766 -10.558931419
kakek
NNP
0
-2.3448173292 -2.078187174 -4.4230045029
sedang
MD
-3.2644434464
-3.9721452196 -4.753590191 -11.990178857
sedang
MD
-10.558931419
-5.4822539977 -4.753590191 -20.794775608
sedang
MD
-4.4230045029
-3.7446381432 -4.753590191 -12.921232837
tidur
JJ
-11.990178857
-0.3513496604 -2.254794429 -14.596322947
di
SC
-14.596322947
-3.1820856157 -5.488937726 -23.267346288
di
IN
-14.596322947
-1.939414051 -1.761629728 -18.297366725
kamar
NN
-23.267346288
-1.7492976639 -1.492312555 -26.508956508
kamar
NN
-18.297366725
-0.7383295204 -1.492312555 -20.528008801
kamar
NND
-23.267346288
-6.9036396786 -5.294201766 -35.465187733
kamar
NND
-18.297366725
-3.9206776746 -5.294201766 -27.512246166
kamar
NNP
-23.267346288
-2.9666073544 -2.078187174 -28.312140816
kamar
NNP
-18.297366725
-1.5903467721 -2.078187174 -21.965900671
nya
PRP
-20.528008801
nya
PRP
-27.512246166
-3.399867613 -0.531304155 -24.459180569
-5.2386319151 -0.531304155 -33.282182236
Pada tabel diatas pada kata sedang, di, nya, ., <ENDTAG> merupakan
known word sehingga menggunakan probabilitas emisi dari sistem sedangkan
untuk kata kakek, tidur dan kamar menggunakan bentuk unigram label POSnya.
Proses decoding pada tabel diatas dapat diilustrasikan seperti pada gambar 12.
54
Gambar 12: Ilustrasi decoding HMM bigram dan MA
Adapun hasil urutan label terbaik yang dihasilkan oleh sistem pada model
HMM bigram dengan MA untuk penanganan kata OOV adalah <STARTTAG>,
NN, MD, VB, IN, NN, PRP, ., <ENDTAG>. Menghasilkan output : kakek/NN
sedang/MD tidur/VB di/IN kamar/NN nya/PRP ./.
4.7
Pengujian
Pengujian dilakukan untuk mengetahui kekauratan label POS pada korpus
uji pada suatu model. Model yang diujikan pada penelitian ini adalah model
HMM bigram dengan metode MA dan model HMM trigram dengan metode MA.
Kedua model akan dibandingkan dengan model baseline yaitu HMM bigram dan
HMM trigram tanpa penanganan kata OOV untuk mengetahui peningkatan
keakuratan. Model lain yang akan juga akan diujikan sebagai pembanding adalah
model yang sudah ada pada sistem IPOSTagger yaitu HMM bigram dengan
Affixtree, model HMM trigram dengan Affixtree, HMM bigram dengan Affixtree
dan Lexicon dan HMM trigram dengan Affixtree dan Lexicon.
55
Korpus yang diujikan ada tiga macam korpus yaitu korpus pertama berisi
3058 kata dengan kata OOV berjumlah 322. Korpus kedua berisi 3143 kata
dengan kata OOV berjumlah 609. Korpus terakhir berisi 3110 kata dengan kata
OOV berjumlah 941. Adapun hasil pengujian model pada sistem IPOSTagger
sebagai berikut:
Tabel 10: Persentase Overall accuracy
Model
Korpus 1
Korpus 2
Korpus 3
HMM Bigram (baseline)
90.1569653368
84.4416162902 76.334405145
HMM Trigram (baseline)
90.6474820144
84.6643334394
HMM Bigram + MA
95.3237410072
92.8094177537 88.327974277
HMM Trigram + MA
95.6834532374
92.8094177537 88.263665595
HMM Bigram + Affixtree
93.1981687377
88.8959592746 84.276527331
HMM Trigram + Affixtree
93.7867887508
89.341393573 84.437299035
HMM Bigram + Affixtree + Lexicon
93.3616742969
89.7231944003 85.144694534
HMM Trigram + Affixtree + Lexicon
94.146500981
90.1686286987 85.241157556
76.52733119
Keakuratan overall tertinggi pada korpus uji 1 dihasilkan oleh model
HMM trigram + MA dengan nilai persentase 95.683~%. Pada korpus uji 2 model
dengan prosentase tertinggi adalah model HMM bigram + MA dan model HMM
trigram + MA yang memiliki nilai sama yaitu 92.809~%. Sedangakan pada korpus
uji 3 model dengan prosentase tertinggi adalah model HMM bigram + MA dengan
nilai 88.3279~% keakuratan.
Tabel 11: Persentase Known word accuracy
Model
Korpus 1
Korpus 2
Korpus 3
HMM Bigram (baseline)
94.9470252649
93.2432432432 90.844298246
HMM Trigram (baseline)
95.5175224124
93.5585585586 91.173245614
HMM Bigram + MA
96.8622656887
95.9459459459
HMM Trigram + MA
97.4327628362
96.2162162162 94.572368421
HMM Bigram + Affixtree
96.6585167074
95.5855855856 94.024122807
HMM Trigram + Affixtree
97.3512632437
96.1261261261 94.462719298
HMM Bigram + Affixtree + Lexicon
96.5770171149
89.7231944003 94.024122807
HMM Trigram + Affixtree + Lexicon
97.4327628362
96.1261261261 94.407894737
94.51754386
56
Dari tabel 11 percobaan keakuratan known word pada model rata-rata
mencapai 94.88%. Nilai tertinggi dihasilkan oleh model HMM trigram + MA dan
HMM trigram + Affixtree + Lexicon dengan nilai yang sama yaitu 97.43% di
korpus 1, model HMM trigram + MA dengan nilai 96.22% di korpus 2 dan model
yang sama yaitu HMM trigram + MA dengan nilai 94.57% di korpus 3.
Tabel 12: Persentase Unknown word accuracy
Model
Korpus 1
Korpus 2
Korpus 3
HMM Bigram (baseline)
45.0310559006
44.4991789819
39.95749203
HMM Trigram (baseline)
45.0310559006
44.4991789819
39.95749203
HMM Bigram + MA
79.5031055901
77.8325123153 72.476089267
HMM Trigram + MA
78.5714285714
76.8472906404
72.15727949
HMM Bigram + Affixtree
60.8695652174
58.9490968801
60.04250797
HMM Trigram + Affixtree
61.1801242236
59.2775041051 59.723698193
HMM Bigram + Affixtree + Lexicon
63.0434782609
63.2183908046 62.911795962
HMM Trigram + Affixtree + Lexicon
63.9751552795
63.5467980296 62.486716259
Dari tabel 12 percobaan keakuratan kata OOV diketahui rata-rata pada
semua model hanya mencapai 60.65%. Model dengan keakuratan tertinggi
didapatkan oleh model HMM bigram + MA dengan prosentase pada korpus uji 1
sebesar 79.503~%, pada korpus uji 2 sebesar 77.832~% dan pada korpus uji 3
sebesar 72.427~%.
BAB V
KESIMPULAN DAN SARAN
5
5.1
Kesimpulan
Kesimpulan yang dapat diambil dari penelitian ini adalah sebagai berikut :
1. Analisis Morfologi dengan menerapkan MorphInd dapat digunakan untuk
proses preprocesing pemotongan klitik pada kata berimbuhan berbentuk
frasa.
2. MorphInd dapat digunakan untuk melabeli kata OOV pada IPOSTagger.
3. Model dengan penerapan analisis morphologi Morphind untuk penanganan
kata OOV pada sistem IPOSTagger memberikan keakuratan tertinggi
dibanding model lainnya yaitu model HMM trigram + MA pada korpus 1
sebesar 95.683~%, model HMM trigram + MA dan HMM bigram + MA
yang memiliki nilai keakuratan sama sebesar 92.809~% pada korpus uji 2
dan HMM bigram + MA pada korpus uji 3 sebesar 88.3279~%.
5.2
Saran
Penelitian ini menghasilkan sistem IPOSTagger yang telah ditambahkan
preprocesing untuk korpus uji, dan model penanganan kata OOV menggunakan
teknik penganalisis morfologi yang menerapkan sistem MorphInd. Meskipun
model yang diajukan dapat meningkatkan keakuratan pelabelan POS namun
keakuratan pada korpus uji dengan tingkat kata OOV tinggi masih cukup rendah,
sehingga peneliti lain dapat mengajukan model lain yang dapat meningkatkan
keakuratan pelabelan POS.
57
DAFTAR PUSTAKA
[1]
Lewis, M. P., Ethnologue: Languages of the World, 6th ed., Dallas, SIL
International, 2009.
[2]
Pisceldo, F., Adriani, M., and Manurung, R., “Probabilistic Part of Speech
Tagging for Bahasa Indonesia,” in Third International MALINDO
Workshop, Colocated Event ACL-IJCNLP, Singapore, 2009.
[3]
Wicaksono, A. F. and Purwarianti, A., “HMM Based Part-of-Speech
Tagger for Bahasa Indonesia,” in 4 th International MALINDO (Malay and
Indonesian Language) Workshop, Jakarta, 2010.
[4]
Nurwidyantoro,
A., and Winarko, E., "Parallelization of Maximum
Entropy POS Tagging for Bahasa Indonesia with MapReduce,"
International Journal of Computer Science Issues (IJCSI), vol. 9, issue. 4,
no. 2, 2012.
[5]
Rashel, F., Luthfi, A., Dinakaramani, A., and Manurung, R., “Building an
Indonesian Rule-Based Part-of-Speech Tagger,” In Asian Language
Processing (IALP), Kuching, 2014.
[6]
Sari, S., Hayurani, H., Adriani, M., and Bressan, S., “Developing Part of
Speech Tagger for Bahasa Indonesia Using Brill Tagger,” The
International Second MALINDO Workshop, 2008.
[7]
Brants, T., "TnT - A Statistical Part-of-Speech Tagger," Proceedings of the
sixth conference on Applied Natural Language Processing, Seattle, 2000.
[8]
Woodland, P. C., Johnson, S. E., Jourlin, P. & Jones, K. S., “Effect of Out
of Vocabulary Words in Spoken Document Retrieval”. © 2000 ACM 158113-226-3100/0007.
[9]
Larasati, S. D., Kubon, V., and Zeman, D., “Indonesian Morphology Tool
(MorphInd): Towards Indonesian Corpus,” in Proceedings of the Workshop
on Systems and Frameworks for Computational Morphology, Zurich, 2011.
[10] Mohamed, H., Omar, N., & Aziz, M. J. A., “Statistical malay part-of-
58
59
speech (POS) tagger using Hidden Markov approach,” In Semantic
Technology and Information Retrieval (STAIR), Kuala Lumpur, 2013.
[11] Bakar, J. A., Omar, K., Nasrudin, M. F. and Murah, M. Z., “Morphology
Analysis in Malay POS Prediction”, Proceeding of International
Conference on Artificial Intelligent in Computer Science and ICT (AICS
2013), Langkawi, 2013.
[12] George, Y.,The Study of Language, 4th ed., Cambridge, Cambridge
University Press, 2010.
[13] Harimurti, K., Pembentukan Kata dalam Bahasa Indonesia, Jakarta,
Gramedia Pustaka Utama, 1993.
[14] Samsuri, Analisis Morfologi, Malang, Gramedia, 1994.
[15] Arifin, E. Z., Junaiyah, H. M, Morfologi: Bentuk Makna, dan Fungsi,
Jakarta, Grasindo, 2007.
[16] Verhaar, J. W. M, Asas-Asas Linguistik Umum, Yogyakarta, Gadjah Mada
University Press, 1982.
[17] Richard, H., ”Clitics in word grammar,” UCLWorking Papers in
Linguistics, 2001.
[18] Ramlan, M., Morfologi Suatu Tinjauan Deskriptif, Yogyakarta, Karyono,
1987.
[19] Alwi, H., Tata Bahasa Baku Bahasa Indonesia, Jakarta, Departemen
Pendidikan Dan Kebudayaan, 1988.
[20] Icuk, P., ”Klitik Pronomina Dalam Bahasa Indonesia,” Tesis Linguistik
Universitas Gadjah Mada, Yogyakarta, 2012.
[21] Koehn, P., Statistical Machine Translation, Cambridge University Press,
New York, 2010.
[22] Waridah, E., EYD dan Seputar Kebahasa-Indonesiaan, Jakarta, Kawan
Pustaka, 2008.
[23] Jurafsky, D. and Martin, J. H., Speech and Language Processing An
Introduction to Natural Language Processing, Computational Linguistics,
and Speech Recognition, 2 nd ed., New Jersey, USA: Pearson Education,
Inc., 2009.
[24] Hajic, O., Smrz P., Zemanek, J.S., and Beska, E., ”Prague Arabic
60
dependency treebank: Development in data and tools” In Proceedings of
NEMLAR, Kairo, 2004.
[25] Simov, K., Osenova P., Kolkovska, S., Balabanova, E., Doikoff, D.,
Ivanova, K., Simov, A., and Kouylekov, M., “Building a Linguistically
Interpreted Corpus of Bulgarian: the BulTreeBank”. In Proceedings of
LREC, Las Palmas, 2002.
[26] Brants, S., Dipper, S., Hansen, W., Lezius, and Smith, G., “The TIGER
Treebank”, In Proceedings of the Workshop on Treebanks and Linguistic
Theories, Bulgaria, 2002.
[27] M. Civit, M, and M.A. Mart, “Building cast3lb: A Spanish treebank”,
Research on Language & Computation, 2(4):549– 574, 2004.
[28] Dinakaramani, A., Rashel, F., Luthfi, A., & Manurung, R, “Designing an
Indonesian Part of speech Tagset and Manually Tagged Indonesian
Corpus”, In Asian Language Processing (IALP), Kuching, 2014.
[29] Helmut, S., “Probabilistic Part-of-Speech Tagging using Decision Tree”, In
Proceedings of International Conference on New Methods in Language
Processing, Manchester 1994.
[30] Syaifudin, Y., “Tokenizer for Bahasa Indonesia,” 11 Maret 2016. [online]
Available : https://github.com/yusufsyaifudin/tokenizer-id. [Accessed 4
Juni 2016].
Download