Pengembangan Treebank Bahasa Indonesia

advertisement
Pengembangan Treebank Bahasa Indonesia
Arawinda
Fam Rashel
Andry Luthfi
Ruli Manurung
Dinakaramani
Fakultas Ilmu
Fakultas Ilmu
Fakultas Ilmu
Fakultas Ilmu
Komputer
Komputer
Komputer
Komputer
Universitas Indonesia Universitas Indonesia Universitas Indonesia
Universitas Indonesia
Depok, Indonesia
Depok, Indonesia
Depok, Indonesia
Depok, Indonesia
fam.rashel@ui. andry.luthfi@u [email protected]
ac.id
i.ac.id
c.id
[email protected]
Abstract
Kami mendeskripsikan penelitian kami
mengenai pengembangan Treebank Bahasa
Indonesia, yaitu korpus yang terdiri atas
1.000 kalimat bahasa Indonesia yang telah
diurai dan dianotasi secara manual. Untuk
menghasilkan Treebank Bahasa Indonesia ini,
kami juga membuat pedoman anotasi
Treebank Bahasa Indonesia dan alat anotasi
berbasis web. Kami menggunakan pedoman
anotasi dari proyek the Penn Treebank (Bies
et al., 1995) sebagai dasar dalam
perancangan pedoman anotasi Treebank
Bahasa Indonesia. Pengembangan Treebank
Bahasa Indonesia dilakukan dalam beberapa
tahap. Pada tahap awal, kami merancang
pedoman anotasi Treebank Bahasa Indonesia
dan mengembangkan alat anotasi berbasis
web. Pada tahap selanjutnya, melalui
beberapa iterasi, kami menganotasi 1.000
kalimat bahasa Indonesia dan sekaligus
menyempurnakan pedoman anotasi Treebank
Bahasa Indonesia dan alat anotasi berbasis
web. Hasil penelitian kami, yaitu (1)
pedoman anotasi Treebank Bahasa Indonesia,
(2) alat anotasi berbasis web, dan (3)
Treebank Bahasa Indonesia, telah dirilis
dengan lisensi Creative Commons di
http://bahasa.cs.ui.ac.id/tree
bank/.
1
Pendahuluan
Treebank adalah korpus teks yang terdiri atas
kalimat-kalimat yang telah diurai dan dianotasi
berdasarkan struktur sintaktis atau semantis.
Treebank menjadi salah satu sumber yang
penting dalam pengembangan aplikasi di bidang
Pemrosesan Bahasa Alami dan Linguistik
Komputasi.
Pada makalah ini, kami mempresentasikan
penelitian kami dalam pengembangan Treebank
Bahasa Indonesia. Tujuan dari penelitian ini
adalah menghasilkan Treebank Bahasa Indonesia
yang
berukuran
cukup
besar.
Untuk
menghasilkan Treebank Bahasa Indonesia ini,
kami juga membuat pedoman anotasi Treebank
Bahasa Indonesia dan alat anotasi berbasis web.
Pengembangan Treebank Bahasa Indonesia
dilakukan dalam beberapa tahap. Pada tahap
awal, kami merancang pedoman anotasi
Treebank Bahasa Indonesia dan mengembangkan
alat anotasi berbasis web. Pada tahap selanjutnya,
melalui beberapa iterasi, kami menganotasi
1.000 kalimat bahasa Indonesia dan sekaligus
menyempurnakan pedoman anotasi Treebank
Bahasa Indonesia dan alat anotasi berbasis web.
2
Perancangan
Pedoman
Treebank Bahasa Indonesia
Anotasi
Pada tahap awal penelitian ini, kami merancang
pedoman anotasi Treebank Bahasa Indonesia.
Kami menggunakan pedoman anotasi dari
proyek the Penn Treebank (Bies et al., 1995)
sebagai dasar dalam perancangan pedoman
anotasi Treebank Bahasa Indonesia. The Penn
Treebank adalah korpus bahasa Inggris
beranotasi yang terdiri atas 4.5 juta kata yang
telah diberi tag kelas kata dan lebih dari
separuhnya telah dianotasi (Marcus et al., 1993).
Terdapat sejumlah perbedaan antara struktur
kalimat bahasa Indonesia dengan struktur
kalimat bahasa Inggris, sehingga kami perlu
memodifikasi pedoman anotasi the Penn
Treebank supaya sesuai dan dapat diaplikasikan
untuk struktur kalimat bahasa Indonesia.
Aturan-aturan dari pedoman anotasi the Penn
Treebank yang sudah sesuai dan dapat
diaplikasikan untuk struktur kalimat bahasa
Indonesia kami masukkan ke dalam pedoman
anotasi Treebank Bahasa Indonesia. Contohnya
adalah aturan frasa preposisional (1) frasa
preposisional memiliki induk preposisi dan (2)
preposisi dalam frasa preposisional dapat diikuti
oleh frasa nominal dan frasa adjektival.
Aturan-aturan dari pedoman anotasi the Penn
Treebank yang perlu atau penting dimasukkan ke
dalam pedoman anotasi Treebank Bahasa
Indonesia, tetapi belum sesuai dengan struktur
kalimat bahasa Indonesia, kami modifikasi
sehingga sesuai dan dapat diaplikasikan untuk
struktur kalimat Bahasa Indonesia. Kami
memodifikasi aturan-aturan tersebut dengan
mengacu ke referensi-referensi tata bahasa
Indonesia (Alwi et al., 2003; Sneddon et al.,
2010).
Perumusan struktur kalimat dalam pedoman
anotasi
Treebank
Bahasa
Indonesia
menggunakan label kategori sintaktis dan tag
fungsi dari pedoman anotasi the Penn Treebank,
sedangkan tag kelas kata berasal dari kumpulan
tag kelas kata yang dikembangkan dalam
penelitian Dinakaramani et al. (2014).
3
Deskripsi Data
Dalam mengembangkan Treebank Bahasa
Indonesia, kami menggunakan kalimat bahasa
Indonesia dari korpus yang telah dikembangkan
dalam penelitian Dinakaramani et al. (2014).
Korpus ini terdiri atas 10.000 kalimat bahasa
Indonesia yang telah diurai menjadi token
leksikal dan diberi tag kelas kata. Korpus ini
disimpan dalam format berkas TSV.
Proses anotasi Treebank Bahasa Indonesia
dilakukan menggunakan alat anotasi berbasis
web yang kami kembangkan dalam penelitian ini.
Alat anotasi berbasis web ini dapat menerima
berkas masukan dalam format berkas BRACKET,
sehingga kami mengonversi format berkas
korpus dari TSV menjadi BRACKET.
Sebagai contoh, kalimat “Pembahasan tadi
masih dalam tahap awal.” jika disimpan dalam
format berkas TSV, menjadi
Pembahasan
tadi
PR
masih
MD
dalam
IN
tahap
NN
awal
NN
.
Z
NN
dan jika disimpan dalam format berkas
BRACKET, menjadi (NN (Pembahasan))
(PR
(tadi))(MD
(masih))(IN
(dalam))(NN (tahap))(NN (awal))(Z
(.)).
Kami tetap mempertahankan tag kelas kata
dari korpus ini. Kami berasumsi dengan adanya
informasi kelas kata ini, anotator dapat lebih
cepat dan mudah dalam melakukan anotasi.
4
Proses Anotasi
Proses anotasi dilakukan dalam dua fase. Pada
fase pertama, proses anotasi dilakukan secara
manual dan hasil anotasi disimpan dalam format
berkas teks TXT. Pada fase kedua, proses anotasi
dilakukan menggunakan alat anotasi berbasis
web yang kami kembangkan.
4.1 Proses Anotasi
Berbasis Web
tanpa
Alat
Anotasi
Pada proses anotasi fase pertama, dua orang
anotator menganotasi 100 kalimat pertama dari
korpus kami secara manual tanpa menggunakan
alat anotasi berbasis web. Pada fase pertama ini,
anotator mengikuti aturan-aturan dari pedoman
anotasi Treebank Bahasa Indonesia yang telah
kami rancang dan menyimpan hasil anotasi
dalam format berkas teks TXT.
Berikut ini contoh kalimat yang dianotasi pada
proses anotasi fase pertama.
(S (PP-TMP Selama
(NP bertahun-tahun))
(NP-SBJ monyet)
(VP mengganggu
(NP warga Delhi))
.)
Hasil anotasi dari kedua anotator kemudian
dibandingkan dan didiskusikan. Hasil diskusi
digunakan untuk menyempurnakan pedoman
anotasi Treebank Bahasa Indonesia.
4.2 Proses Anotasi dengan Alat Anotasi
Berbasis Web
Pada proses anotasi fase kedua, tiga orang
anotator menganotasi 1.000 kalimat pertama dari
korpus kami. Proses anotasi dilakukan dengan
mengikuti aturan-aturan dari pedoman anotasi
Treebank Bahasa Indonesia dan menggunakan
alat anotasi berbasis web yang kami kembangkan.
Pada fase kedua ini, selain menganotasi 1.000
kalimat bahasa Indonesia, kami juga sekaligus
menyempurnakan pedoman anotasi Treebank
Bahasa Indonesia dan alat anotasi berbasis web.
Proses anotasi fase kedua dilakukan dalam tiga
langkah.
Langkah pertama: Pada langkah pertama,
tiga orang anotator menganotasi ulang 100
kalimat pertama dari korpus kami dengan
mengikuti aturan-aturan dari pedoman anotasi
Treebank Bahasa Indonesia yang telah
disempurnakan pada proses anotasi fase pertama.
Proses anotasi dilakukan menggunakan alat
anotasi berbasis web yang kami kembangkan.
Setelah selesai melakukan anotasi, ketiga
anotator memberikan saran yang kami gunakan
untuk menyempurnakan alat anotasi berbasis
web tersebut.
Hasil anotasi dari ketiga anotator kemudian
dibandingkan dan didiskusikan. Hasil diskusi
digunakan untuk menyempurnakan pedoman
anotasi Treebank Bahasa Indonesia dan membuat
100 kalimat beranotasi definitif yang akan
dijadikan contoh untuk anotasi kalimat-kalimat
selanjutnya.
Hasil dari langkah pertama ini adalah alat
anotasi berbasis web versi terbaru, pedoman
anotasi Treebank Bahasa Indonesia versi terbaru,
dan 100 kalimat beranotasi definitif.
Langkah kedua: Pada langkah kedua, tiga
orang anotator menganotasi 100 kalimat
selanjutnya dari korpus kami. Proses anotasi
dilakukan menggunakan ketiga hasil dari
langkah pertama, yaitu alat anotasi berbasis web
versi terbaru, pedoman anotasi Treebank Bahasa
Indonesia versi terbaru, dan 100 kalimat
beranotasi definitif.
Setelah selesai melakukan anotasi, ketiga
anotator memberikan saran yang kami gunakan
untuk menyempurnakan alat anotasi berbasis
web. Hasil anotasi dari ketiga anotator kemudian
dibandingkan dan didiskusikan. Hasil diskusi
digunakan untuk menyempurnakan pedoman
anotasi Treebank Bahasa Indonesia.
Hasil dari langkah kedua ini adalah alat
anotasi berbasis web versi terbaru, pedoman
anotasi Treebank Bahasa Indonesia versi terbaru,
dan tambahan 100 kalimat beranotasi.
Langkah ketiga: Pada langkah ketiga, dua
orang anotator menganotasi 1.000 kalimat
pertama dari korpus kami. Proses anotasi
dilakukan menggunakan alat anotasi berbasis
web versi terbaru dan pedoman anotasi Treebank
Bahasa Indonesia versi terbaru yang dihasilkan
dari langkah kedua.
Hasil anotasi dari kedua anotator kemudian
dibandingkan
dan
didiskusikan
untuk
memfinalisasi pedoman anotasi Treebank Bahasa
Indonesia dan membuat Treebank
Indonesia versi final yang akan dirilis.
5
Bahasa
Hasil
Dalam penelitian ini, kami mengembangkan dan
menghasilkan pedoman anotasi Treebank Bahasa
Indonesia, alat anotasi berbasis web, dan
Treebank Bahasa Indonesia. Hasil penelitian
kami telah dirilis dengan lisensi Creative
Commons di http://bahasa.cs.ui.ac.
id/treebank/.
5.1 Pedoman Anotasi
Indonesia
Treebank
Bahasa
Pedoman anotasi Treebank Bahasa Indonesia
berisi petunjuk cara menganotasi struktur kalimat
bahasa
Indonesia
dalam
pengembangan
Treebank Bahasa Indonesia. Pedoman anotasi
Treebank Bahasa Indonesia yang kami
kembangkan mencakup struktur kalimat, klausa,
dan frasa bahasa Indonesia.
Struktur kalimat mencakup kalimat deklaratif
sederhana, kalimat pasif, kalimat imperatif,
kalimat interogatif, kalimat inversi, dan kutipan
langsung. Struktur klausa mencakup klausa
subordinatif, koordinasi antarklausa, dan kutipan
tidak langsung. Struktur frasa mencakup frasa
adjektival, frasa adverbial, frasa konjungtor,
frasa nominal, frasa numeral, frasa preposisional,
frasa verbal, dan koordinasi frasa tak sejenis.
5.2 Alat Anotasi Berbasis Web
Alat anotasi berbasis web yang kami
kembangkan dapat menerima dua jenis masukan,
yaitu (1) teks yang ditulis langsung oleh
pengguna di halaman web alat anotasi dan (2)
berkas teks dengan format BRACKET.
Setiap kalimat dalam berkas masukan
BRACKET akan muncul di area kanvas halaman
web alat anotasi. Selanjutnya, anotator dapat
menganotasi kalimat tersebut menjadi diagram
pohon. Berikut ini contoh diagram pohon kalimat
yang sudah diurai dan dianotasi menggunakan
alat anotasi berbasis web.
Corpus". Dalam Proceedings of the 2014
International Conference on Asian Language
Processing.
H. Alwi, S. Dardjowidjojo, H. Lapoliwa, dan A.
Moeliono. 2003. Tata Bahasa Baku Bahasa
Indonesia. Edisi Ketiga. Balai Pustaka, Jakarta.
J. Sneddon, A. Adelaar, D. Djenar, dan M. Ewing.
2010. Indonesian Reference Grammar. Edisi
Kedua. Allen & Unwin, Crows Nest.
Gambar 1. Diagram Pohon dalam Alat Anotasi
Berbasis Web
Setelah selesai melakukan anotasi, pengguna
dapat menyimpan hasil anotasi dalam format
berkas BRACKET. Diagram pohon dalam
Gambar 1 jika disimpan dalam format berkas
BRACKET akan menjadi (S (NP-SBJ (PR
(Ini))) (VP (MD (akan)) (VP (VB
(mempengaruhi)) (NP (NN (neraca
pembayaran)) (PRP (kita))))) (Z
(.))).
5.3 Treebank Bahasa Indonesia
Dalam penelitian ini, kami telah menganotasi
1.000 kalimat bahasa Indonesia secara manual
menggunakan alat anotasi berbasis web dengan
mengikuti pedoman anotasi Treebank Bahasa
Indonesia. Korpus Treebank Bahasa Indonesia
disimpan dalam format berkas BRACKET.
6
Kesimpulan
Kami telah mengembangkan Treebank Bahasa
Indonesia yang terdiri atas 1.000 kalimat bahasa
Indonesia yang telah diurai dan dianotasi secara
manual. Dalam penelitian ini, kami juga
merancang pedoman anotasi Treebank Bahasa
Indonesia dan mengembangkan alat anotasi
berbasis web. Hasil penelitian kami telah dirilis
dengan
lisensi
Creative
Commons
di
http://bahasa.cs.ui.ac.id/
treebank/.
Referensi
A. Bies, M. Ferguson, K. Katz, dan R. MacIntyre.
1995. "Bracketing Guidelines for Treebank II Style
Penn
Treebank
Project".
https://catalog.ldc.upenn.edu/docs/LDC99T42/prsg
uid1.pdf. Diakses September 2013.
A. Dinakaramani, F. Rashel, A. Luthfi, dan R.
Manurung. 2014. "Designing an Indonesian Part of
Speech Tagset and Manually Tagged Indonesian
M. Marcus, B. Santorini, dan M.A. Marcinkiewicz.
1993. Building a large annotated corpus of English:
the Penn Treebank. Computational Linguistics, Vol.
19, No. 2, pp. 313-330.
Download