Pengembangan Treebank Bahasa Indonesia Arawinda Fam Rashel Andry Luthfi Ruli Manurung Dinakaramani Fakultas Ilmu Fakultas Ilmu Fakultas Ilmu Fakultas Ilmu Komputer Komputer Komputer Komputer Universitas Indonesia Universitas Indonesia Universitas Indonesia Universitas Indonesia Depok, Indonesia Depok, Indonesia Depok, Indonesia Depok, Indonesia fam.rashel@ui. andry.luthfi@u [email protected] ac.id i.ac.id c.id [email protected] Abstract Kami mendeskripsikan penelitian kami mengenai pengembangan Treebank Bahasa Indonesia, yaitu korpus yang terdiri atas 1.000 kalimat bahasa Indonesia yang telah diurai dan dianotasi secara manual. Untuk menghasilkan Treebank Bahasa Indonesia ini, kami juga membuat pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web. Kami menggunakan pedoman anotasi dari proyek the Penn Treebank (Bies et al., 1995) sebagai dasar dalam perancangan pedoman anotasi Treebank Bahasa Indonesia. Pengembangan Treebank Bahasa Indonesia dilakukan dalam beberapa tahap. Pada tahap awal, kami merancang pedoman anotasi Treebank Bahasa Indonesia dan mengembangkan alat anotasi berbasis web. Pada tahap selanjutnya, melalui beberapa iterasi, kami menganotasi 1.000 kalimat bahasa Indonesia dan sekaligus menyempurnakan pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web. Hasil penelitian kami, yaitu (1) pedoman anotasi Treebank Bahasa Indonesia, (2) alat anotasi berbasis web, dan (3) Treebank Bahasa Indonesia, telah dirilis dengan lisensi Creative Commons di http://bahasa.cs.ui.ac.id/tree bank/. 1 Pendahuluan Treebank adalah korpus teks yang terdiri atas kalimat-kalimat yang telah diurai dan dianotasi berdasarkan struktur sintaktis atau semantis. Treebank menjadi salah satu sumber yang penting dalam pengembangan aplikasi di bidang Pemrosesan Bahasa Alami dan Linguistik Komputasi. Pada makalah ini, kami mempresentasikan penelitian kami dalam pengembangan Treebank Bahasa Indonesia. Tujuan dari penelitian ini adalah menghasilkan Treebank Bahasa Indonesia yang berukuran cukup besar. Untuk menghasilkan Treebank Bahasa Indonesia ini, kami juga membuat pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web. Pengembangan Treebank Bahasa Indonesia dilakukan dalam beberapa tahap. Pada tahap awal, kami merancang pedoman anotasi Treebank Bahasa Indonesia dan mengembangkan alat anotasi berbasis web. Pada tahap selanjutnya, melalui beberapa iterasi, kami menganotasi 1.000 kalimat bahasa Indonesia dan sekaligus menyempurnakan pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web. 2 Perancangan Pedoman Treebank Bahasa Indonesia Anotasi Pada tahap awal penelitian ini, kami merancang pedoman anotasi Treebank Bahasa Indonesia. Kami menggunakan pedoman anotasi dari proyek the Penn Treebank (Bies et al., 1995) sebagai dasar dalam perancangan pedoman anotasi Treebank Bahasa Indonesia. The Penn Treebank adalah korpus bahasa Inggris beranotasi yang terdiri atas 4.5 juta kata yang telah diberi tag kelas kata dan lebih dari separuhnya telah dianotasi (Marcus et al., 1993). Terdapat sejumlah perbedaan antara struktur kalimat bahasa Indonesia dengan struktur kalimat bahasa Inggris, sehingga kami perlu memodifikasi pedoman anotasi the Penn Treebank supaya sesuai dan dapat diaplikasikan untuk struktur kalimat bahasa Indonesia. Aturan-aturan dari pedoman anotasi the Penn Treebank yang sudah sesuai dan dapat diaplikasikan untuk struktur kalimat bahasa Indonesia kami masukkan ke dalam pedoman anotasi Treebank Bahasa Indonesia. Contohnya adalah aturan frasa preposisional (1) frasa preposisional memiliki induk preposisi dan (2) preposisi dalam frasa preposisional dapat diikuti oleh frasa nominal dan frasa adjektival. Aturan-aturan dari pedoman anotasi the Penn Treebank yang perlu atau penting dimasukkan ke dalam pedoman anotasi Treebank Bahasa Indonesia, tetapi belum sesuai dengan struktur kalimat bahasa Indonesia, kami modifikasi sehingga sesuai dan dapat diaplikasikan untuk struktur kalimat Bahasa Indonesia. Kami memodifikasi aturan-aturan tersebut dengan mengacu ke referensi-referensi tata bahasa Indonesia (Alwi et al., 2003; Sneddon et al., 2010). Perumusan struktur kalimat dalam pedoman anotasi Treebank Bahasa Indonesia menggunakan label kategori sintaktis dan tag fungsi dari pedoman anotasi the Penn Treebank, sedangkan tag kelas kata berasal dari kumpulan tag kelas kata yang dikembangkan dalam penelitian Dinakaramani et al. (2014). 3 Deskripsi Data Dalam mengembangkan Treebank Bahasa Indonesia, kami menggunakan kalimat bahasa Indonesia dari korpus yang telah dikembangkan dalam penelitian Dinakaramani et al. (2014). Korpus ini terdiri atas 10.000 kalimat bahasa Indonesia yang telah diurai menjadi token leksikal dan diberi tag kelas kata. Korpus ini disimpan dalam format berkas TSV. Proses anotasi Treebank Bahasa Indonesia dilakukan menggunakan alat anotasi berbasis web yang kami kembangkan dalam penelitian ini. Alat anotasi berbasis web ini dapat menerima berkas masukan dalam format berkas BRACKET, sehingga kami mengonversi format berkas korpus dari TSV menjadi BRACKET. Sebagai contoh, kalimat “Pembahasan tadi masih dalam tahap awal.” jika disimpan dalam format berkas TSV, menjadi Pembahasan tadi PR masih MD dalam IN tahap NN awal NN . Z NN dan jika disimpan dalam format berkas BRACKET, menjadi (NN (Pembahasan)) (PR (tadi))(MD (masih))(IN (dalam))(NN (tahap))(NN (awal))(Z (.)). Kami tetap mempertahankan tag kelas kata dari korpus ini. Kami berasumsi dengan adanya informasi kelas kata ini, anotator dapat lebih cepat dan mudah dalam melakukan anotasi. 4 Proses Anotasi Proses anotasi dilakukan dalam dua fase. Pada fase pertama, proses anotasi dilakukan secara manual dan hasil anotasi disimpan dalam format berkas teks TXT. Pada fase kedua, proses anotasi dilakukan menggunakan alat anotasi berbasis web yang kami kembangkan. 4.1 Proses Anotasi Berbasis Web tanpa Alat Anotasi Pada proses anotasi fase pertama, dua orang anotator menganotasi 100 kalimat pertama dari korpus kami secara manual tanpa menggunakan alat anotasi berbasis web. Pada fase pertama ini, anotator mengikuti aturan-aturan dari pedoman anotasi Treebank Bahasa Indonesia yang telah kami rancang dan menyimpan hasil anotasi dalam format berkas teks TXT. Berikut ini contoh kalimat yang dianotasi pada proses anotasi fase pertama. (S (PP-TMP Selama (NP bertahun-tahun)) (NP-SBJ monyet) (VP mengganggu (NP warga Delhi)) .) Hasil anotasi dari kedua anotator kemudian dibandingkan dan didiskusikan. Hasil diskusi digunakan untuk menyempurnakan pedoman anotasi Treebank Bahasa Indonesia. 4.2 Proses Anotasi dengan Alat Anotasi Berbasis Web Pada proses anotasi fase kedua, tiga orang anotator menganotasi 1.000 kalimat pertama dari korpus kami. Proses anotasi dilakukan dengan mengikuti aturan-aturan dari pedoman anotasi Treebank Bahasa Indonesia dan menggunakan alat anotasi berbasis web yang kami kembangkan. Pada fase kedua ini, selain menganotasi 1.000 kalimat bahasa Indonesia, kami juga sekaligus menyempurnakan pedoman anotasi Treebank Bahasa Indonesia dan alat anotasi berbasis web. Proses anotasi fase kedua dilakukan dalam tiga langkah. Langkah pertama: Pada langkah pertama, tiga orang anotator menganotasi ulang 100 kalimat pertama dari korpus kami dengan mengikuti aturan-aturan dari pedoman anotasi Treebank Bahasa Indonesia yang telah disempurnakan pada proses anotasi fase pertama. Proses anotasi dilakukan menggunakan alat anotasi berbasis web yang kami kembangkan. Setelah selesai melakukan anotasi, ketiga anotator memberikan saran yang kami gunakan untuk menyempurnakan alat anotasi berbasis web tersebut. Hasil anotasi dari ketiga anotator kemudian dibandingkan dan didiskusikan. Hasil diskusi digunakan untuk menyempurnakan pedoman anotasi Treebank Bahasa Indonesia dan membuat 100 kalimat beranotasi definitif yang akan dijadikan contoh untuk anotasi kalimat-kalimat selanjutnya. Hasil dari langkah pertama ini adalah alat anotasi berbasis web versi terbaru, pedoman anotasi Treebank Bahasa Indonesia versi terbaru, dan 100 kalimat beranotasi definitif. Langkah kedua: Pada langkah kedua, tiga orang anotator menganotasi 100 kalimat selanjutnya dari korpus kami. Proses anotasi dilakukan menggunakan ketiga hasil dari langkah pertama, yaitu alat anotasi berbasis web versi terbaru, pedoman anotasi Treebank Bahasa Indonesia versi terbaru, dan 100 kalimat beranotasi definitif. Setelah selesai melakukan anotasi, ketiga anotator memberikan saran yang kami gunakan untuk menyempurnakan alat anotasi berbasis web. Hasil anotasi dari ketiga anotator kemudian dibandingkan dan didiskusikan. Hasil diskusi digunakan untuk menyempurnakan pedoman anotasi Treebank Bahasa Indonesia. Hasil dari langkah kedua ini adalah alat anotasi berbasis web versi terbaru, pedoman anotasi Treebank Bahasa Indonesia versi terbaru, dan tambahan 100 kalimat beranotasi. Langkah ketiga: Pada langkah ketiga, dua orang anotator menganotasi 1.000 kalimat pertama dari korpus kami. Proses anotasi dilakukan menggunakan alat anotasi berbasis web versi terbaru dan pedoman anotasi Treebank Bahasa Indonesia versi terbaru yang dihasilkan dari langkah kedua. Hasil anotasi dari kedua anotator kemudian dibandingkan dan didiskusikan untuk memfinalisasi pedoman anotasi Treebank Bahasa Indonesia dan membuat Treebank Indonesia versi final yang akan dirilis. 5 Bahasa Hasil Dalam penelitian ini, kami mengembangkan dan menghasilkan pedoman anotasi Treebank Bahasa Indonesia, alat anotasi berbasis web, dan Treebank Bahasa Indonesia. Hasil penelitian kami telah dirilis dengan lisensi Creative Commons di http://bahasa.cs.ui.ac. id/treebank/. 5.1 Pedoman Anotasi Indonesia Treebank Bahasa Pedoman anotasi Treebank Bahasa Indonesia berisi petunjuk cara menganotasi struktur kalimat bahasa Indonesia dalam pengembangan Treebank Bahasa Indonesia. Pedoman anotasi Treebank Bahasa Indonesia yang kami kembangkan mencakup struktur kalimat, klausa, dan frasa bahasa Indonesia. Struktur kalimat mencakup kalimat deklaratif sederhana, kalimat pasif, kalimat imperatif, kalimat interogatif, kalimat inversi, dan kutipan langsung. Struktur klausa mencakup klausa subordinatif, koordinasi antarklausa, dan kutipan tidak langsung. Struktur frasa mencakup frasa adjektival, frasa adverbial, frasa konjungtor, frasa nominal, frasa numeral, frasa preposisional, frasa verbal, dan koordinasi frasa tak sejenis. 5.2 Alat Anotasi Berbasis Web Alat anotasi berbasis web yang kami kembangkan dapat menerima dua jenis masukan, yaitu (1) teks yang ditulis langsung oleh pengguna di halaman web alat anotasi dan (2) berkas teks dengan format BRACKET. Setiap kalimat dalam berkas masukan BRACKET akan muncul di area kanvas halaman web alat anotasi. Selanjutnya, anotator dapat menganotasi kalimat tersebut menjadi diagram pohon. Berikut ini contoh diagram pohon kalimat yang sudah diurai dan dianotasi menggunakan alat anotasi berbasis web. Corpus". Dalam Proceedings of the 2014 International Conference on Asian Language Processing. H. Alwi, S. Dardjowidjojo, H. Lapoliwa, dan A. Moeliono. 2003. Tata Bahasa Baku Bahasa Indonesia. Edisi Ketiga. Balai Pustaka, Jakarta. J. Sneddon, A. Adelaar, D. Djenar, dan M. Ewing. 2010. Indonesian Reference Grammar. Edisi Kedua. Allen & Unwin, Crows Nest. Gambar 1. Diagram Pohon dalam Alat Anotasi Berbasis Web Setelah selesai melakukan anotasi, pengguna dapat menyimpan hasil anotasi dalam format berkas BRACKET. Diagram pohon dalam Gambar 1 jika disimpan dalam format berkas BRACKET akan menjadi (S (NP-SBJ (PR (Ini))) (VP (MD (akan)) (VP (VB (mempengaruhi)) (NP (NN (neraca pembayaran)) (PRP (kita))))) (Z (.))). 5.3 Treebank Bahasa Indonesia Dalam penelitian ini, kami telah menganotasi 1.000 kalimat bahasa Indonesia secara manual menggunakan alat anotasi berbasis web dengan mengikuti pedoman anotasi Treebank Bahasa Indonesia. Korpus Treebank Bahasa Indonesia disimpan dalam format berkas BRACKET. 6 Kesimpulan Kami telah mengembangkan Treebank Bahasa Indonesia yang terdiri atas 1.000 kalimat bahasa Indonesia yang telah diurai dan dianotasi secara manual. Dalam penelitian ini, kami juga merancang pedoman anotasi Treebank Bahasa Indonesia dan mengembangkan alat anotasi berbasis web. Hasil penelitian kami telah dirilis dengan lisensi Creative Commons di http://bahasa.cs.ui.ac.id/ treebank/. Referensi A. Bies, M. Ferguson, K. Katz, dan R. MacIntyre. 1995. "Bracketing Guidelines for Treebank II Style Penn Treebank Project". https://catalog.ldc.upenn.edu/docs/LDC99T42/prsg uid1.pdf. Diakses September 2013. A. Dinakaramani, F. Rashel, A. Luthfi, dan R. Manurung. 2014. "Designing an Indonesian Part of Speech Tagset and Manually Tagged Indonesian M. Marcus, B. Santorini, dan M.A. Marcinkiewicz. 1993. Building a large annotated corpus of English: the Penn Treebank. Computational Linguistics, Vol. 19, No. 2, pp. 313-330.