BAB II TINJAUAN PUSTAKA

advertisement
BAB II
TINJAUAN PUSTAKA
2.1 Tinjauan Empiris
Pada penelitian ini, ada beberapa penelitian terkait yang peneliti gunakan
sebagai tinjauan studi. Berikut merupakan penelitian – penelitian terkait yang
pernah dilakukan oleh peneliti lain :
a. HMM Based Part-of-Speech Tagger for Bahasa Indonesia (Wicaksono
dan Purwarianti, 2010)
Pada
penelitian
meningkatkan
ini,
akurasi
ada
beberapa
POS-Tagging
metode
untuk
digabungkan
Bahasa
untuk
Indonesia
menggunakan metode HMM. Metode pertama adalah menggunakan pohon
afiks yang mencakup akhiran kata dan awalan. Metode kedua adalah
menggunakan succeeding POS-tag sebagai salah satu fitur untuk HMM.
Metode terakhir dengan menggunakan leksikon tambahan (dari KBBIKateglo) untuk membatasi tag yang dihasilkan oleh pohon afiks. Model
HMM menggunakan 15.000-token data corpus. Dalam percobaan,
menggunakan 15% OOV tes corpus, akurasi terbaik adalah 96,50% dengan
99,4% untuk kata yang terdapat pada kamus dan 80,4% untuk OOV (out of
vocabulary) atau kata yang tidak ada dalam kamus. Penelitian
menunjukkan bahwa pohon afiks dan leksikon tambahan efektif dalam
meningkatkan akurasi POS-Tagger, sedangkan penggunaan succeeding
POS-tag tidak memberikan banyak perbaikan pada penanganan OOV.
b. POS Tagging Bahasa Indonesia Dengan HMM dan Rule Based
(Kathryn Widhiyanti dan Agus Harjoko, 2012)
Pelabelan kelas kata bahas Indonesia menggunakan metode Hidden
Markov Model dan Rule Based memiliki keakuratan yang tinggi yaitu
100% untuk teks yang ada di dalam corpus. Hasil ini lebih baik daripada
hanya menggunakan metode HMM saja yang menghasilkan akurasi
99,29% untuk corpus yang sama. Namun, penelitian ini masih memiliki
kekurangan, yaitu belum dapat membedakan kata yang memiliki makna
ambigu atau kelas kata ganda.
7
8
c. Implementasi Brill Tagger untuk Memberikan POS-Tagging Pada
Dokumen Bahasa Indonesia (Viny Christanti, 2012)
Program Brill Tagger dapat diimplementasikan dengan baik untuk
memberikan kelas kata pada dokumen bahasa Indonesia. Aturan leksikal
dan kontekstual yang dihasilkan oleh Brill Tagger dapat digunakan sebagai
aturan untuk memberikan kelas kata untuk kalimat bahasa Indonesia
dengan nilai akurasi 98,65%. Namun masih terdapat kesalahan aturan
sehingga menghasilkan kelas kata yang tidak tepat. Setelah memperbaiki
aturan leksikal dan kontekstual akurasi meningkat menjadi 99,75%.
Penerapan aturan leksikal dan kontesktual yang tepat dapat meningkatkan
keakuratan pelabelan kelas kata.
2.2 Tinjauan Teoritis
2.2.1 Part-of-SpeechTagging
Part-of-Speech tagging (atau disingkat tagging) merupakan suatu proses
memberi tanda (mark) kelas kata pada setiap kata dalam korpus (Jurafsky,2000).
Tagging dapat dimanfaatkan pada aplikasi Natural Language Processing seperti :
Question and Answering (Q&A), Machine Translation, Text Summarization dll.
Penelitian
mengenai
Part-of-Speech
Tagging
sudah
banyak
dilakukan
menggunakan berbagai metode seperti : Genetic Brill Tagger (W Joose,2006)
dengan nilai akurasi 97% untuk dokumen bahasa Belanda, Hidden Markov
Models dan Rule Based (Kathryn & Agus, 2012) dengan nilai akurasi 92,2%
untuk dokumen bahasa Indonesia, dan Brill Tagger (Viny,dkk.,2012) dengan nilai
akurasi 99,75% untuk dokumen bahasa Indonesia.
2.2.2 Penentuan Kelas Kata
Proses part-of-speech tagging memerlukan kamus/leksikon untuk dapat
digunakan dalam penentuan kelas kata.
Leksikon merupakan kumpulan kata
dasar disertai dengan tag atau kelas katanya. Leksikon dalam bahasa Bali hingga
saat ini masih terbatas keberadaannya, sehingga digunakan kumpulan kata dasar
yang didapatkan dari dataset sebagai leksikon dalam penelitian. Bentuk penulisan
leksikon adalah sebagai berikut :
9
Tabel 2. 1 Contoh Lexicon
Word
Most Frequent Tag
Other Possible Tags
Bisa
NN
RB ... L1
Lima
NN
CD ... L2
Gunting
NN
VB ... L2
Deretan L1 menunjukkan bahwa kata “bisa” memiliki most frequent tag
NN dan pada suatu kondisi juga dapat diberi tag RB. Deretan L2 menunjukkan
bahwa kata “lima” memiliki most frequent tag NN dan pada suatu kondisi juga
dapat diberi tag CD. L3 menunjukkan bahwa kata “aji” memiliki most frequent
tag NN dan pada suatu kondisi juga dapat diberi tag VB. Begitu selanjutnya untuk
setiap kata yang terdapat dalam leksikon.
2.2.3 Morfologi Tata Bahasa Bali
Morfologi merupakan bagian dari ilmu bahasa (linguistik) khususnya tata
bahasa. Objek analisisnya meliputi satuan gramatikal pada tingkat morfem dan
kata. Bagaimana tata bentuk, struktur, dan klasifikasi kata – kata adalah
merupakan masalah pokok kajian morfologi. Oleh karena itu morfologi juga
diperlukan untuk memprediksi kelas kata yang tidak ada di dalam kamus.
2.2.3.1 Kelas Kata
Menurut (Granoka,dkk.,1984), kata dasar maupun kata turunan dapat
dikelompokkan atas suatu kategori atau kelas. Penggolongan kata seperti itu
disebut kategori kata atau kelas kata. Penggolongan kategori kata atau kelas kata
seperti itu dapat dilakukan dengan melihat prilaku satuan tersebut secara
gramatikal dalam tataran yang lebih kompleks yaitu pada tingkat frase maupun
kalimat. Secara garis besar, terdapat sejumlah kata yang dapat menduduki fungsi
objek dalam suatu kalimat, di samping terdapat pula sejumlah kata yang tidak
dapat menduduki fungsi objek, tetapi dapat menduduki fungsi predikat. Untuk
kedua kelas kata di atas, diberikan istilah yaitu, kelas kata yang pertama disebut
nominal, dan yang kedua disebut adjektiva. Sedangkan kata – kata yang lainnya
yang tidak dapat digolongkan ke dalam kelas nominal maupun adjektiva
dimasukkan dalam suatu kelas kata yang disebut partikel.
10
Ketiga kategori atau kelas kata di atas dapat diperinci lagi menjadi
beberapa sub kategori. Kelas kata nominal dibedakan menjadi tiga sub kategori,
yaitu : kata benda, kata ganti, dan kata bilangan. Kelas kata adjektiva dibedakan
menjadi dua sub kategori, yaitu : kata kerja dan kata sifat. Sedangkan kelas kata
partikel dapat diperinci menjadi enam sub kategori, yaitu : kata penjelas, kata
keterangan, kata penanda, kata perangkai, kata tanya, dan kata seru. Namun, kelas
kata yang digunakan dalam penelitian ini disesuaikan dengan kelas kata yang saat
ini lebih banyak digunakan dalam bahasa Bali. Sehingga kelas kata penjelas dan
penanda tidak digunakan dalam penelitian ini.
Penentuan kelas kata menggunakan tagset pada Penn Treebank
(Santorini,1991). Kelas kata dalam bahasa Bali jika disesuaikan dengan tag pada
Penn Treebank, maka diperoleh kelas kata sifat (JJ), kata keterangan (RB), kata
perangkai yang dibagi menjadi konjungtor koordinatif (CC) dan konjungtor
subordinatif (CS), kata ganti (PR), kata Tanya (WH), kata benda (NN), kata
bilangan (CD), kata seru (UH), dan kata kerja (VB). Ada beberapa kelas kata yang
ditambahkan peneliti, yaitu : kelas kata sandang (AR), kata benda khusus (NNP),
kata depan (IN), kata asing (FW), tanda baca (TB), dan simbol (SYM). Sehingga
total kelas kata yang digunakan dalam kelas kata ini sebanyak 16 kelas kata.
Berikut merupakan daftar kelas kata yang dilengkapi dengan deskripsi dan
contohnya:
Tabel 2. 2 Daftar Kelas Kata yang Digunakan dalam Penelitian
Tag
Kelas Kata
JJ
Adjectiva
Deskripsi
Kata
sifat;
kata
yang
Contoh
memberi
Gede, putih, miik
penjelasan tentang suatu benda
RB
Adverbia
Kata Keterangan
Teken, olih, lakar
AR
Artikula
Kata Sandang
I, Ni, Ipun
CC
Konjungtor
Kata perangkai yang menghubungkan Lan, tur, muah
Koordinatif
klausa pada kalimat majemuk setara
Konjungtor
Kata hubung pada kalimat majemuk Sawireh, Sane
Subordinatif
bertingkat
CS
PR
Pronomina
Kata ganti; kata yang dipakai untuk Tiang, ragane, cai,
menggantikan
kata
atau
yang ento, ia, niki
11
dibendakan
WH
Kata Tanya
Kata
yang
digunakan
untuk Sire, kenapi
menanyakan sesuatu
NN
Nomina
Kata benda; kata yang menyebut Sate, umah, gegaen
benda atau yang dibendakan
NNP
Kata Benda
Khusus
CD
Numeralia
Kata benda khusus adalah kata benda Jawa, Jakarta, Ani
yang mewakili suatu entitas tertentu
Kata bilangan; kata yang menyatakan Abesik, dadua,
jumlah benda atau jumlah kumpulan seket, karo belah.
nama benda
IN
Preposisi
Kata depan; kata yang merangkaikan di, ke, uli, ring,
kata – kata atau bagian – bagian saking
kalimat
UH
Interjeksi
VB
Verba
Kata seru
Ih, beh, aduh, aruh
Kata kerja; kata yang bermakna Adep, meli, melaib,
melakukan aktivitas atau kegiatan atau dingeh
lebih jelas kalau dikatakan melakukan
pekerjaan
FW
Kata asing
Kata asing
Online, handphone
TB
Tanda baca
Tanda baca
., , , ; , (, ), “, ‘
SYM
Simbol
Simbol matematika
+, #, $
Matematika
2.2.3.2 Kata Berimbuhan
Menurut (Granoka,dkk.,1984), kata berimbuhan adalah kata turunan yang
dihasilkan melalui proses morfologis dengan penambahan imbuhan. Imbuhan
adalah berupa morfem terikat yang dapat dibedakan, menurut tempatnya melekat
pada kata dasar, yaitu : prefiks (awalan), infiks (sisipan), sufiks (akhiran), dan
konfiks atau disebut juga simulfiks.
1. Prefiks (awalan)
Prefiks atau awalan yaitu imbuhan yang terletak di depan kata dasar.
Dalam bahasa Bali disebut pengater. Pengater dalam bahasa Bali, yaitu :N- , ma- ,
ka- , pa- , sa- , a- , pra- , pari- , pati- , maka- , saka- , kuma- .
12
Dari penjelasan di atas, akan dibuat aturan imbuhan prefiks yang dirangkum pada
tabel berikut :
Tabel 2. 3 Aturan Imbuhan Prefiks (Awalan)
No
1
Pola Imbuhan
N- + kata dasar
Kelas Kata
Kata Kerja
Contoh
Ngidih,
Ngalih,
Ngwangun
2
ma- + kata dasar
Kata Kerja
Makarya,
maburuh,
madagang
3
ka- + kata dasar
Kata Kerja
Kacrita,
katulung,
kakaplug
4
pa- + kata dasar
Kata Benda, Kata Kerja
Patakon,
pangrasa,
padengok
5
sa- + kata dasar
Kata Keterangan
6
a-+ kata dasar
Kata
Sawai, sapeteng, sarahina
Benda,Kata Apeteng, adiri, aukud
Bilangan
7
pra-+ kata dasar
Kata Benda
Prabekel, prajani
8
pari- + kata dasar
Kata Benda
Paribahasa, pariboya
9
pati-+ kata dasar
Kata Kerja
Patigrape, patijemak
10
maka-+ kata dasar
Kata Bilangan
Sakaukud, sakabungkul
11
saka- + kata dasar
Kata Bilangan
Sakabesik, sakatugel
11
kuma-+ kata dasar
Kata Benda
Kumajaum, kumalipan
2. Infiks (sisipan)
Infiks adalah imbuhan yang terletak di tengah kata dasar. Dalam bahasa
Bali disebut seselan. Jika sebuah kata dasar memiliki huruf vokal, maka seselan
yang ditambahkan sebelum huruf vocal. Sedangkan, jika sebuah kata dasar
memiliki huruf konsonan, maka seselan terletak di akhir huruf konsonan pertama
pada kata dasar tersebut. Seselan dalam bahasa Bali, seperti :-in-, -um-, -el-, daner-.
13
Tabel 2. 4 Aturan Imbuhan Infiks (Sisipan)
No
Pola Imbuhan
Kelas Kata
Contoh
1
kata dasar + -in-
Kata Kerja
Sinurat, tinulung
2
kata dasar + -um-
Kata Kerja
Tumurun, sumeken
3
kata dasar + -el-
Kata Benda
Telapak, telusuk
4
kata dasar + -er-
Kata Benda
Gerudug
3. Sufiks (akhiran)
Sufiks adalah imbuhan yang terletak di akhir kata dasar. Dalam bahasa
Bali disebut pengiring, yang termasuk pengiring yaitu :-ang,-in, -an, -a, -n, -ing, é, -né.
Tabel 2. 5 Aturan Imbuhan Sufiks (Akhiran)
No
1
Pola Imbuhan
kata dasar + -ang
Kelas Kata
Kata Kerja
Contoh
Nyemakang,
alihang,
suratang
2
kata dasar + -in
Kata Kerja
Jagurin, tanemin, tegakin
3
kata dasar + -an
Kata Benda
Diwangan, ketekan
4
kata dasar + -a
Kata
Kerja,
Kata Abana, batisa
Benda
5
kata dasar + -e
Kata Benda
Temboke, dagange, payuke
6
kata dasar + -ne
Kata Benda
Umahne, tanahne, gigine
Akhiran –n dan –ing tidak memiliki pola yang pasti karena kedua akhiran
ini bukan pembentuk kata. Akhiran –n dan –ing digunakan sebagai alat untuk
menyatakan hubungan antara dua kata dalam bentuk frase secara nyata (eksplesit).
Terutama akhiran –n diikuti dengan unsur kepemilikan. Berikut adalah contoh
akhiran –n dan –ing :
Akhiran –n
: liman tiange.
Akhiran –ing
: kalaning purnama.
4. Konfiks (awalan dan akhiran)
Konfiks adalah gabungan imbuhan terdiri dari dua buah imbuhan yaitu
(pangater dan pengiring). Gabungan imbuhan dalam bahasa Bali, seperti : pa-an,
ma-an, ka-an, bra-an, dan n-ang.
14
Tabel 2. 6 Aturan Imbuhan Konfiks
No
Pola Imbuhan
Kelas Kata
Contoh
1
pa + kata dasar + an
Kata Benda
pasirepan, panyemuhan
2
ma + kata dasar + an
Kata Kerja
mangkidan, majemakan
3
ka + kata dasar + an
Kata Benda
kalacuran, karahayuan
4
bra + kata dasar + an
Kata Sifat
brakapakan, bramahan
5
N + kata dasar + ang
Kata Kerja
nyenikang, ngamaelang
2.2.3.3 Proses Morfofonemis
Sebagai akibat pertemuan sebuah morfem dengan morfem lainnya dapat
terjadi suatu perubahan bentuk morfem. Misalnya, morfem N- apabila
dipasangkan dengan morfem ‘gae’ yang berarti kerja, ‘jagur’ yang berarti pukul
sebagai kata dasarnya dapat menghasilkan bentuk baru menjadi ‘ngae’ yang
berarti membuat, ‘nyagur’ yang berarti memukul. Berikut merupakan daftar
perubahan morfem dalam Bahasa Bali (Kamus Bahasa Bali, 1990) :
Tabel 2. 7 Daftar Proses Hilangnya Fonem
1
Bentuk Dasar Berawalan
k,g
Menjadi
ng
2
c,j,s
ny
3
t,d
n
4
p,b
m
5
ny,n,m
nga + (ny,n,m)
6
y,r,l,w
ng + (y,r,l,w)
7
vokal
ng + vokal
No
Contoh
kutang
ngutang
gambar
ngambar
cacad
nyacad
jaring
nyaring
sampat
nyampat
tegul
negul
dandan
nandan
papag
mapag
batek
matek
nyanggluh
nganyanggluh
nengneng
nganengneng
maling
ngamaling
yasaang
ngyasaang
rasa
ngrasa
lawan
nglawan
wangun
ngwangun
alih
ngalih
ibing
ngibing
ubuh
ngubuh
ebet
ngebet
olah
ngolah
ejuk
ngejuk
15
Pada tabel di atas dapat dilihat pembubuhan morfem terhadap bentuk kata
dasar berawalan fonem konsonan diikuti dengan meluluhnya fonem konsonan
tersebut, sehingga diperoleh rumusan kaidah di atas dengan penjelasan sebagai
berikut :
1. Fonem k,g yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem
ng, sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
2. Fonem c,j,s yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem
ny, sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
3. Fonem t,d yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem n,
sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
4. Fonem p,b yang mengawali bentuk kata dasar hilang, diluluhkan oleh fonem
m, sebagai akibat pertemuan morfem N- dengan bentuk dasarnya.
2.2.4 Brill Tagger
Brill Tagger diperkenalkan pertama kali oleh Eric Brill pada tahun 1995.
Algoritma ini mencapai tingkat akurasi 95% pada tagging bahasa inggris
(Bjerva,2013). Secara umum Brill Tagger disebut juga Transformation-based
Error-driven Learning (TEL). Faktanya Tagger adalah dasar transformation atau
rules dan belajar dari mendeteksi nilai errors. Pada gambar 2.1 deskripsi dari TEL
yaitu pertama input merupakan unannotated text kemudian diberi tag inisialisasi
dan keluaran dari inisialisasi adalah inisialisasi pada temporary corpus (TC) yang
akan dibandingkan dengan corpus tujuan (training corpus). Temporary corpus
menghasilkan rule baru dan rule dihasilkan secara berurutan.
Brill Tagger melakukan pemberian anotasi pada corpus dengan duaaturan,
yaitu :Aturan leksikal untuk memberi tag pada unknown word dan aturan
kontekstual untuk memperoleh aturan yang meningkatkan akurasi dari perbaikan
skor. Kedua aturan ini menggunakan dua jenis corpus, yaitu corpus tujuan
(training corpus) dan corpus sementara (Temporary Corpus) untuk meningkatkan
akurasi rule yang dihasilkan tahap demi tahap.
Brill Tagger dengan metode rule based banyak dilatih untuk berbagai
macam bahasa, seperti Inggis, Belanda, dan Indonesia. Dalam bahasa Indonesia
telah tersedia rule based Tagger-nya, tetapi untuk bahasa Bali belum tersedia.
Oleh karena itu, pada penelitian ini akan dilakukan proses training terlebih dahulu
16
sehingga aturan seperti aturan leksikal sebagai rule based Tagger untuk bahasa
Bali dapat terbentuk. Algoritma Brill Tagger terdiri dari (Christanti,2012) :
1.
Proses Inisialisasi
a. Known words (di dalam kosakata) : menentukan tag yang paling sering
diberikan ke suatu bentuk kata.
b. Uknown word (di luar kosakata) :
Kata benda umum (NNP) jika diawali dengan huruf kapital dan kata
benda lainnya (NN) jika sebaliknya.
2.
Fase Pembelajaran
a. Pengulangan dalam menghitung nilai kesalahan dari setiap calon
aturan (perbedaan antara jumlah kesalahan sebelum dan sesudah
menerapkan aturan).
b. Pilih aturan yang terbaik (skor yang lebih tinggi).
c. Tambahkan dalam daftar aturan dan diterapkan pada teks.
d. Ulangi sampai tidak ada aturan yang memiliki skor di atas ambang
tertentu atau yang telah diberikan (jika ambang yang dipilih adalah
nol).
Unannotated
corpus
Initial state
annotator
Temporary
corpus
Lexical / Contextual
Learner
Goal
corpus
Rules
Gambar 2. 1 Error-driven learning module(Brill,1995)
Pada aturan leksikal, corpus tujuan adalah daftar kata yang terdiri dari
informasi mengenai frekuensi tag pada training corpus. Kemudian corpus
17
sementara (temporary corpus) adalah daftar kata yang sama dengan corpus tujuan.
Pada aturan kontekstual, corpus tujuan adalah training corpus yang di tag secara
manual dan copus sementara menampung perbaikan jika masih terjadi error atau
skor belum mencapai threshold. Berikut merupakan contoh dari Transformationbased Error Driven Learning(Brill,1995).
Pada gambar 2.2 diasumsikan ada 4 transformasi (T) yang mungkin, yaitu
T1 – T4. Training corpus yang belum di tag diproses pada tahap inisialisasi dan
menghasilkan errors = 5,100, diperoleh dari membandingkan keluaran dari
inisialisasi dengan tag manual corpus. Selanjutnya, transformasi yang mungkin
yang digunakan, yaitu T2 yang mengalami reduksi error tertinggi pada
pembelajaran pertama dan pembelajaran selanjutnya T3 yang mengalami reduksi
error tertinggi. Transformasi berhenti saat nilai skor sudah mencapai threshold.
Annotated
Corpus
Errors = 5,100
Unannotated
Corpus
Initial State
Annotator
T1
T2
Annotated
Corpus
Errors = 3,145
T1
T2
Annotated
Corpus
Errors = 2,110
T3
Annotated
Corpus
Errors = 5,100
T3
Annotated
Corpus
Errors = 3,910
Annotated
Corpus
Errors = 1,410
Annotated
Corpus
Errors = 3,310
T1
T2
Annotated
Corpus
Errors = 1,231
T3
T4
T4
Annotated
Corpus
Errors = 6,300
Annotated
Corpus
Errors = 1,251
Annotated
Corpus
Errors = 4,255
Annotated
Corpus
Errors = 1,231
T4
Annotated
Corpus
Errors = 1,231
Gambar 2. 2 Contoh Transformation-based Error Driven Learning(Brill,1995)
2.2.4.1 Pembelajaran Aturan Leksikal
Pada aturan leksikal adalah menemukan aturan (rule) untuk memberi tag
pada kata dengan most likely tag pada training corpus. Contohnya adalah tag kata
dengan tag yang memiliki nilai probabilitas tertinggi atau frekuensi tertinggi.
Permasalahan yang muncul adalah menentukan tag pada unknown word.
18
Dalam mempelajari aturan leksikal, diperlukan smallwordtaglist yang
terdiri dari kata-kata pada small corpus yang sudah diberi tag secara manual,
berfungsi sebagai goal corpus dan mengandung frekuensi setiap word. Freq (W,
T) digunakan untuk menghitung most likely tag T untuk word W.
P(T|W) = Freq(W,T) / Freq(W)
2.1
Selain smallwordtaglist, dalam aturan leksikal juga digunakan bigwordlist dan
bigbigramlist. Bigwordlist mengandung semua word yang muncul pada corpus
yang belum diberi tag (unannotated corpus). Sedangkan, bigbigramlist adalah list
yang berisi semua pasangan word (bigram) dalam unannotated corpus.
Pada fase training, pertama-tama dibuat word list dari smallwordtaglist
yang sudah dibuat, namun kali ini tagnya dihilangkan. Tag setiap kata di-assign
dengan inisialisasi default most likely tag (NNP untuk kata yang diawali dengan
huruf kapital dan NN untuk kata yang tidak diawali dengan huruf kapital). Word
list yang didapat dari initial temporary corpus TC0 dinamakan WL0. Setelah itu,
generate Permissable Rules (PR) dari semua kemungkinan instansiasi dari lexical
template (smallwordtaglist) yang sudah ditentukan, lalu hitung skor untuk setiap
rule R pada PR. Rule dengan skor tertinggi menjadi rule nomor satu pada output.
Dengan mengaplikasikan rule tersebut, WL0 sekarang menjadi WL1.Lanjutkan
dengan menghitung skor semua rule pada PR, kemudian pilih satu rule dengan
skor tertinggi, outputkan rule ini sebagai rule nomor dua dan aplikasikan pada
WL1 untuk memperoleh WL2. Proses ini terus diulangi sampai tidak ada lagi rule
yang dapat dipilih yang skornya lebih besar dari nilai threshold.
Menghitung skor pada rule:
Misalkan terdapat rule R dengan template:
if Trigger then change X to tag Y,
dan w adalah word pada WLi dengan tag sebelumnya X yang memenuhi kondisi
rule R. Maka, skor R adalah P(Y|w) - P(X|w) untuk word w. Total skor R
diperoleh dari menjumlahkan semua ‘skor word’.
skor(R) =
Misalkan terdapat rule R dengan template:
if Trigger than change current tag to tag Y,
2.2
19
dan w adalah word pada WLi yang memenuhi kondisi rule R, maka skor R adalah
P(Y|w) - P(current tag of w | w) untuk word w. Total skor R diperoleh dari
menjumlahkan semua ‘skor word’.
skor(R) =
2.3
Skor yang diperoleh R akan selalu berbentuk P(new tag|w) - P(old tag|w). Skor
positif menunjukkan tag yang baru more likely dibandingkan tag sebelumnya,
sedangkan skor negatif menunjukkan tag yang baru less likely dibanding tag
sebelumnya. Kondisi triggernya dites dengan menggunakan bigwordlist dan
bigbigramlist,
dan
perhitungan
probabilitas
digunakan
frekuensi
pada
smallwordtaglist. Lexical rule yang didapatkan dari modul pembelajaran leksikal
ini akan digunakan untuk memberi tag pada unknown words pada contextual
training corpus.
2.2.4.2 Pembelajaran Aturan Kontekstual
Saat Tagger telah mempelajari most likely tag untuk setiap word pada
corpus yang diberi tag secara manual dan metode untuk memprediksi most likely
tag untuk unknown words, aturan kontekstual dipelajari untuk disambiguation.
Dicari rule sebagai basis konteks dari token-token word.
Proses pembelajaran kontekstual ini memerlukan initially annotated text.
Input pada initial state annotator adalah corpus yang belum diberi tag. List
traininglexicon digunakan untuk menampung list word dengan beberapa tag yang
melabeli setiap word. Tag-tag tersebut didapat dari modul leksikal. Tag pertama
adalah most likely tag.
word tag1, tag2, …, tagn
Dengan bantuan traininglexicon, bigbigramlist, dan lexical rules, most
likely tag dilabelkan pada setiap known word pada corpus yang belum diberi tag
(untagged corpus). Known word yang dimaksud adalah word-word pada
traininglexicon dengan most frequent tag. Sedangkan, untuk unknown words
diberi tag dengan lexical rules. Input dari pembelajaran kontekstual ini adalah
goal corpus, initial temporary corpus RT0, dan traininglexicon. Pertama, digenerate semua Permissable Rules(PR) dari semua kemungkinan instansiasi dari
semua template kontekstual yang sudah ditetapkan. PR pada modul kontekstual
dengan PR pada leksikal modul adalah berbeda karena kedua modul
20
menggunakan template transformasi yang berbeda. Berikut ini trigger-trigger pada
template transformasi kontekstual:
change taga to tag b when :
1. Jika kata sebelumnya ditag z.
2. Jika dua kata sebelumnya ditag z.
3. Salah satu dari dua kata sebelumnyaditag z.
4. Salah satu dari tiga kata sebelumnyaditag z.
5. Kata sebelumnya ditag z dan kata berikut ditag w.
6. Jika kata sebelumnyaditag z dan dua kata sebelumnya ditag w.
Keterangan : a, b, z dan w adalah variabel part-of-speech.
Setiap rule pada PR dengan kondisi trigger yang terpenuhi, skor temporary
corpus RT0 dihitung. Diambil rule dengan skor tertinggi R1 yang kemudian
ditempatkan pada output list. Lalu aplikasikan R1 pada RT0 dan menghasilkan
RT1, dan seterusnya. Jika R merupakan rule pada PR, maka skor dihitung dengan
membandingkan tag pada kata di RTdengan correct tag pada goal corpus. Setelah
rule diaplikasikan ada word w score rule dihitung dengan menjumlahkan
frekuensi semua tag yang sebelumnya salah menjadi benar (fixed) dikurangi
dengan jumlah tag yang sebelumnya benar menjadi salah (broken) atau dapat
dirumuskan sebagai berikut :
Skor = Fixed – Broken
2.4
Download