IV-1 BAB IV PENENTUAN JENIS KATA (PART OF SPEECH

advertisement
BAB IV
PENENTUAN JENIS KATA (PART OF SPEECH TAGGING)
UNTUK BAHASA INDONESIA
Pada Bab IV ini akan dijelaskan mengenai proses-proses yang diperlukan dalam
proses penentuan jenis kata (part of speech tagging) yang diambil dari kamus
maupun yang tidak ada dalam kamus. Gambaran proses penentuan jenis kata
dapat dilihat pada Gambar IV-1.
kalimat yang mengandung kata
yang akan ditentukan jenis katanya
diambil per kata untuk ditentukan jenis katanya
mengambil data
melihat jenis kata di dalam kamus
jika ditemukan
jika tidak ditemukan
leksikon
memprediksi jenis kata dengan aturan morfologi
jika tidak dapat diprediksi
jika dapat diprediksi
memprediksi jenis kata dengan metode bigram
grammar
memberikan tag jenis kata pada kata
POS tagging
kata selanjutnya
semua kata dalam kalimat masukan
telah ditentukan jenis katanya
Gambar IV-1 Proses Penentuan Jenis Kata
IV-1
Proses penentuan jenis kata akan dilakukan dalam tiga tingkat, tapi jika penentuan
jenis kata pada setiap tingkat telah berhasil maka tingkat selanjutnya tidak perlu
dialui. Tingkat yang pertama adalah melihat pada kamus yang telah disiapkan,
jika kata ada dalam kamus maka tag akan langsung diberikan pada kata, jika tidak
maka akan dilanjutkan ke proses tingkat berikutnya. Tingkat berikutnya adalah
memeriksa morfologi kata dan mencoba menentukan jenis kata menggunakan
aturan morfologi pada bahasa Indonesia. Jika kata dapat diprediksi maka hasil dari
tingkatan proses tersebut juga dapat digunakan untuk memperkaya kamus. Jika
kata masih belum bisa ditentukan jenis katanya maka pada tingkatan ketiga akan
digunakan metode bigram untuk memprediksi jenis kata. Jika kata dapat
diprediksi maka hasil dari bigram juga akan digunakan untuk memperkaya kamus.
Jika kata belum dapat diprediksi jenis katanya maka kata akan diberi label X
(unknown).
IV.1 Leksikon/Kamus
Proses POS tagging tidak akan berjalan tanpa adanya leksikon/kamus. Dipilih
berbasis kamus karena menurut penelitian yang dilakukan Fadillah Z. Tala (2003)
bahwa pemrosesan temu balik informasi POS tagging dan stemming untuk bahasa
Indonesia lebih baik berbasis kamus yang menghasilkan lebih sedikit kesalahan
dibanding berbasis aturan [26]. Kamus kata yang digunakan adalah kamus KEBI
(Kamus Elektronik Bahasa Indonesia) yang didapat dari ITB. KEBI merupakan
Kamus Bahasa Indonesia - Bahasa Inggris yang dikembangkan oleh Badan
Pengkajian dan Penerapan Teknologi (BPPT) yang boleh digunakan untuk
keperluan riset. Kamus ini mengandung 29.396 kata berbahasa Indonesia. Jenis
kata dalam kamus dikelompokkan menjadi lima belas jenis kata antara lain kata
sifat (adjektiva), kata keterangan (adverbia), kata sandang (dibedakan menjadi
determiner dan article), kata bantu (auxiliary), kata hubung (konjungsi), kata seru
(interjeksi), kata benda (nomina), kata bilangan (dibedakan menjadi numeral dan
ordinal), kata tugas partikel, kata fatis (kata yang menekankan seperti
assalamualaikum, bismillah), kata depan (preposisi), kata ganti (pronomina), dan
kata kerja (verba). Namun kamus KEBI tidak dapat langsung digunakan karena
IV-2
harus diubah menjadi format leksikon pada pengurai Collins. Proses yang harus
dilakukan untuk mempersiapkan kamus antara lain:

Menghapus frase pada kamus (kamus KEBI juga memuat frase)

Mengurutkan kata pada kamus KEBI

Diubah formatnya menjadi
[kata] [jenis_kata] [klasifikasi]
misal menjadi
cangkul NN 0
dimana klasifikasi diisi dengan 0 jika kata termasuk jarang muncul
(dihitung probabilitasnya pada file treebank) dan diisi dengan 1 jika kata
tergolong sering muncul. Pengklasifikasian jarang atau sering muncul
dihitung secara probabilistik kemunculan kata saat proses pembelajaran
menggunakan treebank dengan nilai threshold yang ditentukan oleh
penulis yaitu 0.3.
Kamus ini akan menjadi kamus awal yang disiapkan dan akan terus diperkaya
seiring dengan banyaknya pohon kalimat pada treebank yang digunakan untuk
pembelajaran. Pada saat sistem melakukan pembelajaran maka akan digunakan
metode bootstrapping untuk memperkaya kamus seperti pada Gambar IV-2.
Bootstrapping dalam konteks tesis ini merupakan proses memperkaya leksikon
kamus dengan menggunakan treebank untuk menambah leksikon beserta jenis
katanya.
IV-3
treebank
Pembelajaran
diuraikan menjadi struktur pohon
dalam struktur program per kalimat
pembangkitan events
leksikon
bootstrapping
file events
Gambar IV-2 Proses Memperkaya Kamus
IV.2 Morfologi Tata Bahasa Indonesia
Morfologi (ilmu tata kata) adalah cabang ilmu bahasa yang mengidentifikasi
satuan-satuan dasar bahasa sebagai satuan makna yang dapat berubah-ubah
bergantung pada urutan kata, intonasi, bentuk, serta kata tugas penentu kalimat
(gramatikal). Morfologi dapat digunakan untuk mengidentifikasi jenis sebuah kata
bentukan dari kata dasar yang berimbuhan. Oleh karena itu morfologi juga
diperlukan untuk memprediksi jenis kata yang tidak ada di dalam kamus.
IV.2.1 Jenis Kata
Kata adalah satuan sintaksis (makna) dalam tutur atau kalimat. Penamaan jenis
kata mengacu pada Penn treebank yang juga digunakan oleh pengurai Collins
dengan penambahan jenis kata jika tidak ada pada Penn treebank [20] (misal
untuk jenis tanda baca, pada tesis ini menggunakan PU sedangkan pada pengurai
IV-4
Collins diberi tag yang sama dengan tanda baca itu). Daftar penamaan jenis kata
(tag) yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-1.
Tabel IV-1 Penamaan Jenis Kata yang Digunakan
Simbol
JJ
Jenis Kata
Adjektiva
Keterangan
Kata sifat; kata yang memberi penjelasan
tentang suatu benda
Contoh
cantik, baik,
buruk
RB
Adverbia
Kata keterangan
nanti, sekarang
AR
Artikula
Kata sandang
si, sang
CC
Konjungtor
Koordinatif
Kata hubung yang menghubungkan klausa
pada kalimat majemuk setara.
dan, lalu
CS
Konjungtor
Subordinatif
Kata hubung pada kalimat majemuk
bertingkat
ketika,
walaupun
MD
Modal
Kata Keterangan Modalitas
boleh
PR
Pronomina
Kata ganti; kata yang dipakai untuk
menggantikan kata atau yang dibendakan
saya, itu
WH
Kata Tanya
Kata yang digunakan untuk menanyakan
sesuatu
siapakah,
bagaimanakah
NN
Nomina
Kata benda; kata yang menyebut benda
atau yang dibendakan
buku, meja,
orang
CD
Numeralia
Kata bilangan; kata yang menyatakan
jumlah benda atau jumlah kumpulan atau
jurusan dari nama-nama benda
seribu
IN
Preposisi
Kata depan; kata yang merangkaikan katakata atau bagian-bagian kalimat
di, ke, dari
UH
Interjeksi
Kata seru
ai, ah, ceile
RP
Partikel
Kata tugas partikel
pun, per
VB
Verba
Kata kerja; kata yang bermakna melakukan
aktivitas atau kegiatan, atau lebih jelas
kalau dikatakan melakukan pekerjaan
mencoba,
lempar, menari
AUX
Kata bantu
Kata bantu
akan, dapat
FW
Kata asing
Kata asing
download,
notebook
PU
Tanda baca
Tanda baca
., , , :, (, ), “, ‘,
”, ’
SYM
Simbol
matematika
Simbol matematika
+, #, $
unknown
Kata yang tidak dapat diprediksi jenis
katanya
X
IV-5
Jenis kata akan menjadi simbol terminal pada tesis ini. Penjelasan selengkapnya
mengenai jenis-jenis kata dapat dilihat di Lampiran 1. Simbol-simbol non
terminal yang digunakan pada tesis juga meliputi simbol yang menyatakan sub
kalimat atau frase (satuan makna yang terdiri lebih dari satu kata yang memiliki
jabatan tertentu pada kalimat). Simbol-simbol non-terminal untuk subkalimat/frase yang digunakan dalam tesis ini dapat dilihat pada Tabel IV-2.
Tabel IV-2 Simbol Non Terminal
Simbol
Keterangan
S
ADJP
Kalimat
frase yang
adjektiva)
ADVP
frase yang menyatakan keterangan (frase
adverbia)
NP
frase yang
nomina)
SBAR
sub kalimat majemuk
SBARQ
sub kalimat setelah kata tanya
VP
frase yang menyatakan kerja (frase verba)
menyatakan
menyatakan
sifat
(frase
benda
(frase
IV.2.2 Imbuhan
Imbuhan dalam bahasa Indonesia adalah tambahan yang melekat pada kata untuk
membentuk sebuah makna baru [21]. Imbuhan dapat digunakan untuk
memprediksi kata-kata yang tidak ada di dalam kamus. Imbuhan pada bahasa
Indonesia antara lain prefiks atau awalan, sufiks atau akhiran, infiks atau sisipan,
dan konfiks (imbuhan di depan dan di belakang kata dasar). Prefiks disebut juga
awalan. Prefiks adalah afiks (imbuhan) yang ditempatkan di bagian muka suatu
kata dasar. Kumpulan awalan yang ada dalam bahasa Indonesia dapat dilihat pada
Lampiran 2 berikut jenis kata yang dapat dibentuk dari awalan. Sufiks atau
akhiran adalah afiks (imbuhan) yang digunakan di bagian belakang kata.
Kumpulan akhiran yang ada dalam bahasa Indonesia dapat dilihat pada Lampiran
3 berikut jenis kata yang dapat dibentuk dari akhiran. Infiks atau sisipan adalah
IV-6
afiks (imbuhan) yang diselipkan di tengah kata dasar. Infiks tidak digunakan pada
tesis ini karena sangat sulit mendeteksinya. Infiks yang ada pada bahasa Indonesia
misalnya –in-, -em-, -el-, dan –er-. Konfiks adalah afiks (imbuhan) yang ada di
depan dan di belakang kata dasar secara bersamaan. Kumpulan konfiks yang ada
dalam bahasa Indonesia dapat dilihat pada Lampiran 4 berikut jenis kata yang
dapat dibentuk dari konfiks. Kaidah bahasa Indonesia memiliki aturan imbuhan
yang akan membentuk suatu jenis kata. Aturan-aturan imbuhan yang ada dalam
bahasa Indonesia dapat dilihat pada Tabel IV-3.
Tabel IV-3 Aturan Imbuhan [21]
Pola Imbuhan
meN + kata dasar (jenis kata
bebas) + kan
peN-ber + kata dasar (jenis
kata bebas) + an
ke-ber- + kata dasar (jenis
kata bebas) + an
kata dasar (jenis kata kerja,
kata benda, kata sifat) + i
beR- + kata dasar
teR- + kata dasar
Contoh
Jenis Kata
mengantuk, mengkritik
kata kerja (verba)
pelukis, pemburu
kata benda (nomina)
kebersamaan,
keberterimaan
terangi, sinari
kata benda (nomina)
becermin, beserta,
berternak, bekerja
terbawa, tertidur
kata kerja (verba)
kata kerja (verba)
kata kerja (verba)
Penjelasan selengkapnya mengenai aturan imbuhan dan variasinya dapat dilihat
pada Lampiran 5.
IV.2.3 Pengulangan Kata
Pengulangan kata dalam bahasa indonesia dipisahkan dengan menggunakan tanda
hubung (-). Pengulangan juga dapat membentuk sebuah arti gramatikal (makna
yang berubah sesuai dengan kalimat) dari bentuk kata dasarnya. Pengulangan kata
dasar akan membentuk jenis kata sesuai dengan jenis kata jika tidak diulang misal
“cepat-cepat” memiliki kata dasar “cepat” yang berjenis kata keterangan maka
kata “cepat-cepat” akan berjenis kata keterangan. Contoh lain misalnya bukubuku yang berarti kumpulan buku merupakan pengulangan dari kata dasar buku
yang merupakan kata benda maka buku-buku juga merupakan kata benda. Adapun
kata pengulangan yang merupakan satu kesatuan kata benda misal kupu-kupu,
IV-7
laba-laba. Pengulangan juga dapat disertai imbuhan sehingga membentuk makna
gramatikal yang bisa berbeda dengan kata dasarnya. Aturan pengulangan
berimbuhan dalam bahasa Indonesia dapat dilihat pada Tabel IV-4.
Tabel IV-4 Aturan Pengulangan Kata Berimbuhan
Pola
Contoh
Jenis Kata
ke + kata dasar (jenis kata bebas) kebarat-baratan
kata benda (nomina)
yang diulang + an
ber + kata dasar yang diulang berlari-lari
kata kerja (verba)
(jenis kata kerja)
ber + kata dasar yang diulang berlama-lama,
(jenis kata benda)
berjam- kata
jam
kata dasar (jenis kata kerja) + tanam-menanam
keterangan
(adverbia)
kata kerja (verba)
meN + kata dasar (jenis kata
kerja)
se- + kata dasar + -nya
secepat-cepatnya,
kata sifat atau edjektiva
sepandai-pandainya,
sebaik-baiknya
Pengulangan juga ada yang merupakan pengulangan berubah bunyi seperti bolakbalik, sayur-mayur, gerak-gerik. Pengulangan ini akan dicari di kamus kedua
katanya, jika ada salah satu maka dapat simpulkan jenis katanya karena jenis
pengulangan ini akan membentuk kata sesuai kata asal yang diulang, tapi berubah
bunyi.
IV.2.4 Proses Pemeriksaan Imbuhan
Mengacu pada penelitian yang dilakukan oleh Femphy Piceldo dkk (2008) [22]
mengenai penganalisis morfologi pada bahasa Indonesia bahwa pemeriksaan
imbuhan pada sebuah kata memiliki urutan proses tertentu agar tidak terjadi
kesalahan pengenalan kata dilihat dari segi morfologi pada bahasa Indonesia. Pada
penelitian Femphy Piceldo [22], proses dimulai dengan memeriksa awalan kata.
Hasil kata dasar dari pemisahan awalan akan diperiksa di dalam kamus apakah
IV-8
ada kata dasarnya, jika ada maka kata sudah dapat diprediksi jenis katanya dengan
hanya menggunakan awalan. Jika kata belum dapat diprediksi maka akan
diperiksa akhiran kata, dicari kata dasarnya beserta gabungan hasil proses
sebelumnya (apakah ada pengulangan atau awalan), jika ada di kamus maka kata
sudah dapat diprediksi jenis katanya. Jika kata tidak mengandung awalan maka
akan diperiksa apakah kata merupakan pengulangan kata dasar, jika benar maka
kata dasarnya diperiksa di kamus, jika ada maka kata dapat diprediksi jenis
katanya. Jika kata masih belum dapat diprediksi maka dilakukan pemeriksaan
apakah kata merupakan kata pengulangan berimbuhan dan dicoba mencari kata
dasarnya di kamus, jika ada maka kata dapat diprediksi jenis katanya. Untuk
semua tahapan pemeriksaan kata. jika hanya dengan menggunakan pola imbuhan
kata sudah dapat diprediksi maka tidak perlu mencari kata dasar di dalam kamus,
misal bila ada pola imbuhan tertentu yang digabungkan dengan kata dasar jenis
apapun akan membentuk suatu jenis kata tertentu.
Pada tesis ini akan ditambahkan beberapa proses pemeriksaan untuk menentukan
jenis kata, misalnya seperti pemeriksaan apakah kata termasuk kata singkatan
yang ditandai dengan huruf besar semua, kata singkatan akan diberi label NN
yang berarti kata benda, atau apakah kata termasuk kata bilangan jika ada karakter
berupa angka pada kata, atau apakah kata termasuk kata nama yang ditandai
dengan penulisan huruf besar di awal kata, kata nama diberi label NN yang berarti
kata benda. Urutan proses yang harus dilakukan untuk menganalisis morfologi
pembentukan kata pada bahasa Indonesia dapat dilihat pada Gambar IV-3.
Penjelasan mengenai struktur data dan format penulisan file untuk keperluan POS
tagging menggunakan aturan morfologi yang digunakan pada tesis ini dapat
dilihat pada Lampiran 14.
IV-9
kata
Pemeriksaan kata bilangan
jika belum dapat diprediksi jenis katanya
Pemeriksaan kata singkatan
jika belum dapat diprediksi jenis katanya
Pemeriksaan awalan saja untuk mendapatkan
kata dasarnya
jika belum dapat diprediksi jenis katanya
Pemeriksaan akhiran
jika sudah dapat
diprediksi jenis
katanya
jika belum dapat diprediksi jenis katanya
Pemeriksaan awalan dan akhiran
jika belum dapat diprediksi jenis katanya
Pemeriksaan pengulangan
jika belum dapat diprediksi jenis katanya
Pemeriksaan kata nama
jika belum dapat diprediksi jenis katanya
Penyimpulan tag (jenis kata)
jika sudah dapat
diprediksi
tag (jenis kata)
jika belum dapat diprediksi jenis katanya
memprediksi jenis kata
dengan metode bigram
Gambar IV-3. Urutan Proses Prediksi Jenis Kata dengan Morfologi
IV.3 Prediksi Jenis Kata dengan Metode Bigram
Model N-gram adalah sebuah tipe model probabilistik untuk memperkirakan
elemen selanjutntya pada sebuah urutan. N-gram digunakan untuk berbagai area
statistik dari pemrosesan bahasa alami dan analisis urutan genetik. Sebuah n-gram
adalah sebuah sub-urutan dari sejumlah n elemen dari urutan yang diberikan.
Elemen dapat berupa fonem, huruf, kata tergantung dari kebutuhan aplikasi [27].
IV-10
Model bigram adalah model n-gram yang hanya melibatkan dua buah elemen.
Model bigram menggunakan teorema bayes dalam perhitungannya yaitu:
P (Wn 1 , Wn )
P (Wn 1 )
P(Wn|Wn-1) =
(IV-1)
dimana P adalah probabilitas kata yang diberikan oleh kata sebelumnya. Sebuah
kalimat akan memiliki probabilitas sebagai berikut:
n
P ( w1n )   P ( wk |wk  1)
(IV-2)
k 1
sehingga jika probabilitas bigram diterapkan pada sebuah kalimat “I want to eat
Chinese food” maka probabiltasnya adalah sebagai berikut:
P(I want to eat Chinese food) = P(I | <start>) *
P(want | I) *
P(to | want) *
P(eat | to) *
P(Chinese | eat) *
P(food | Chinese)
(IV-3)
Metode bigram yang digunakan pada tesis ini menggunakan dua buah jenis aturan
grammar untuk mencari jenis kata. Aturan grammar yang pertama adalah aturan
grammar yang memiliki simbol jenis kata sama dengan kata di depan kata yang
dicari jenis katanya, sedangkan jenis aturan grammar kedua adalah aturan
grammar yang memiliki simbol jenis kata sama dengan kata di belakang kata
yang dicari jenis katanya. Misalnya kata yang akan dicari jenis katanya adalah
“guru” dalam kalimat “Bapak guru menulis di papan tulis” maka aturan grammar
yang akan dihitung probabilitasnya adalah aturan grammar yang memenuhi halhal berikut:
IV-11

Aturan grammar memiliki simbol awal yang sama dengan tag kata
sebelum kata yang dicari, misal
NP → NN NN
NN yang pertama sama dengan tag kata “Bapak” maka aturan grammar ini
masuk dalam kumpulan grammar yang akan dihitung probabilitasnya,

Aturan grammar memiliki simbol akhir yang sama dengan tag kata setelah
kata yang dicari, misal
VP → JJ VB
VB sama dengan tag kata “menulis” maka aturan grammar ini masuk
dalam kumpulan grammar yang akan dihitung probabilitasnya

Misalkan ada aturan grammar
NP → NN NN
VP → NN VB
maka aturan VP → NN VB tidak akan dimasukkan pada kumpulan aturan
grammar yang akan dihitung probabilitasnya karena memiliki kesimpulan
tag yang sama untuk kata yang dicari tag-nya (NN), tapi kemunculan
aturan grammar kedua akan dimasukkan dalam jumlah kemunculan aturan
grammar pertama.
Aturan grammar pada pengurai Collins ditulis dengan aturan triple. Aturan
penulisan aturan grammar pada pengurai Collins dapat dilihat pada Lampiran.7
dan Lampiran 13.
Perhitungan akan dilakukan dengan menggunakan probabilitas. Pada kumpulan
aturan grammar yang terpilih akan dipilih probabilitas yang paling besar.
Perhitungan probabilitas aturan grammar dihitung dengan menggunakan rumus
berikut:
P(untuk tag kata yang dicari) =
jumlah( pola tata bahasa yang memiliki bagian NN untuk kata yang dicari)
jumlah( pola tata bahasa )
(IV-4)
IV-12
Pola yang memiliki probabilitas terbesar akan digunakan untuk pelabelan pada
kata yang dicari jenis katanya. Secara garis besar proses perhitungan probabilistik
bigram pada tesis ini seperti pada Gambar IV-4.
kalimat yang mengandung kata yang tidak
bisa diprediksi kelas katanya
periksa kata di depan dan di belakang kata
yang tidak dapat diprediksi kelas katanya
cari pola tata bahasa/aturan grammar
yang mengandung simbol jenis kata di
depan kata yang akan diprediksi jenis
katanya
cari pola tata bahasa/aturan grammar yang
mengandung simbol jenis kata di belakang
kata yang akan diprediksi jenis katanya
memberikan tag pada kata yang tidak diketahui jenis
katanya berdasarkan aturan grammar yang memiliki
probabilitas terbesar
kelas kata/tag
Gambar IV-4 Urutan Proses Prediksi Jenis Kata dengan Metode Bigram
IV-13
Download