2_Hananto SETALI 2014x

advertisement
Pembuatan Daftar Kata Bahasa Indonesia untuk Program Pemeriksa Ejaan dan Tantangannya*
Hananto
[email protected]
Universitas Pelita Harapan
Makalah ini membahas upaya pembuatan daftar kata bahasa Indonesia (BI) sebagai
sumber acuan alat pemeriksa ejaan untuk penulisan naskah BI menggunakan paket
program Microsoft Office yang hingga versi terbarunya (2013) belum dilengkapi dengan
pemeriksa ejaan BI. Pertama-tama pemakalah akan mengupas hal ikhwal pemeriksa
ejaan, kemudian memaparkan perkembangan gagasan pembuatan daftar kata BI
berdasarkan korpus BI dan Kamus Besar Bahasa Indonesia (KBBI) versi elektronik
(PDF) serta seluk beluk pelaksanaannya. Makalah ini secara khusus menguraikan
tantangan atau kesulitan yang dihadapi dalam pembuatan daftar kata BI berdasarkan
KBBI, yaitu membersihkan daftar kata bersumber KBBI tersebut dari kata-kata non-BI
yang muncul akibat ketidaksempurnaan proses konversi teks elektronik dari satu format
ke format yang lainnya, dalam hal ini dari format aslinya ke format PDF dan kemudian
ke format TXT. Konversi ke format TXT perlu dilakukan agar teks dapat diproses oleh
program pembuat daftar kata otomatis untuk menghasilkan daftar kata BI yang dapat
dijadikan acuan dalam proses pemeriksaan ejaan naskah BI pada paket Microsoft Office.
Pemeriksa Ejaan
Pemeriksa ejaan adalah sebuah program yang memeriksa ejaan kata-kata yang ditulis secara elektronik.
Program ini sudah menjadi bagian yang tidak terpisahkan dari program pengolah kata seperti Microsoft
Word dari paket Microsoft Office. Sayangnya sampai saat ini Microsoft Word masih belum
menyediakan pemeriksa ejaan untuk naskah bahasa Indonesia (BI). Hal itu berpotensi menyebabkan
kesalahan mengeja sewaktu menyusun naskah dalam BI dengan Microsoft Word tidak disadari oleh
penyusun naskah dan karenanya tidak dikoreksi. Untungnya paket program Microsoft Office ini
menyediakan fasilitas untuk menambahkan daftar kata yang dapat dipakai sebagai acuan untuk
memeriksa ejaan naskah dalam bahasa yang belum disediakan.
Cara kerja program pemeriksa ejaan sebenarnya relatif sederhana. Program ini berjalan secara
otomatis sebagai latar belakang, membandingkan kata yang ditulis di pengolah kata tersebut dengan
”kamus” atau daftar kata elektronik yang sudah ditentukan sebelumnya. Apabila kata tersebut tidak
ditemukan dalam daftar kata yang bersangkutan, maka kata tersebut dianggap ”salah” dan pemeriksa
ejaan akan memberikan saran atau alternatif perbaikan. Program pemeriksa ejaan ini biasanya sudah
menjadi bagian dari program pengolah kata, yang perlu ditambahkan ”kamus” atau daftar kata
elektronik yang akan dijadikan acuan untuk memeriksa setiap kata yang ditulis pada pengolah kata
tersebut.
Jadi permasalahannya adalah bagaimana kita dapat membuat daftar kata elektronik BI selengkap
mungkin sebagai sumber acuan untuk memeriksa ejaan kata dalam naskah BI yang ditulis dengan paket
Microsoft Office? Pembuatan daftar kata BI untuk keperluan pemeriksaan ejaan dapat ditempuh melalui
beberapa cara, misalnya:
•
Mengumpulkan kata berdasarkan pengalaman mengetik di Microsoft Word (Anon., 2009).
•
•
Mengumpulkan kata dari kamus elektronik Inggris-Indonesia (Krause, n.d.).
Menghasilkan daftar kata secara otomatis dari korpus BI dengan menggunakan perangkat lunak
yang sesuai.
Gagasan Awal
Ide awal dari usaha untuk membuat daftar kata bahasa Indonesia untuk keperluan pemeriksaan ejaan
dokumen dalam bahasa Indonesia berasal dari penelitian terdahulu yang bertujuan membuat daftar
2.000 kata dalam bahasa Indonesia yang paling sering dipakai dengan menggunakan pendekatan
linguistik korpus. (Hananto, et al., 2011). Sebuah korpus (kumpulan teks elektronik dalam jumlah
yang besar) BI disusun dengan rancang bangun yang mengarah pada suatu korpus yang mencerminkan
pemakaian BI secara umum. Daftar kata yang dihasilkan dari korpus ini diharapkan dapat membantu
pemelajar BI khususnya penutur asing.
Berawal dari daftar 2000 kata ini, kemudian timbul gagasan baru: mengapa tidak
mengidentifikasi semua kata BI yang ada dalam korpus tersebut untuk dijadikan acuan dalam
pembuatan pemeriksa ejaan? Dengan menggunakan sebagian teks dari korpus tersebut, ternyata bisa
dihasilkan daftar kata yang bisa dijadikan sebagai acuan untuk pemeriksaan ejaan naskah BI yang
diketik dengan menggunakan program pengolah kata Microsoft Word. (Hananto, 2013). Daftar kata
yang dihasilkan bisa mencapai puluhan atau ratusan ribu tergantung besar/kecilnya korpus yang
dipakai. Permasalahan yang utama dengan daftar ini adalah banyaknya kata-kata yang salah sebagai
akibat konversi teks yang tidak mulus dan kesalahan ketik atau kata-kata yang tidak standar yang ada
dalam korpus tersebut.
Selain itu, suatu korpus, betapa pun besarnya, sangat mungkin tidak berisikan semua kata
dalam suatu bahasa. Sumber yang lebih dapat diandalkan merangkum (hampir) semua kata dalam suatu
bahasa adalah sebuah kamus umum. Oleh karenanya, untuk melengkapi daftar kata dari korpus tersebut
perlu dibuat daftar kata bahasa Indonesia yang standar berdasarkan Kamus Besar Bahasa Indonesia
(KBBI) yang memang bertujuan mencakup sebanyak mungkin kata BI. Penggabungan daftar kata dari
sumber korpus BI dengan daftar kata berdasarkan KBBI diharapkan akan menghasilkan daftar kata
yang lebih lengkap dan baik untuk dijadikan acuan untuk pemeriksaan ejaan bahasa Indonesia. Makalah
ini menguraikan upaya untuk membuat daftar kata bahasa Indonesia yang dikumpulkan berdasarkan
KBBI elektronik dalam format pdf (http://perpus.unimus.ac.id/wp-content/uploads/2012/05/KamusBesar-Bahasa-Indonesia.pdf) dan permasalahannya.
Langkah-langkah untuk membuat daftar kata BI berdasarkan KBBI versi tersebut di atas sebenarnya
cukup mudah karena sumber awalnya sudah berupa naskah elektronik. Naskah tersebut tinggal
dikonversi ke format text (.txt) dan dimasukkan ke dalam program yang dapat secara otomatis
menghasilkan daftar kata dari naskah tersebut. Namun ternyata sangat sulit untuk menghasilkan daftar
kata yang baik karena banyak terselip bentukan yang bukan kata BI.
Permasalahan yang timbul
Ada tiga jenis persoalan yang muncul dalam proses pembuatan daftar kata dari naskah KBBI
berformat pdf sebagai sumber data, yakni: besarnya naskah sumber yang berkaitan erat dengan
kemampuan dan kecepatan pengolahan data, masalah yang disebabkan oleh konversi naskah sumber
dari format pdf ke format txt, serta ketidaksempurnaan naskah sumber itu sendiri.
Kecepatan pemrosesan data berkaitan erat dengan kemampuan prosessor komputer yang
dipakai. KBBI dalam format pdf yang dipakai sebagai sumber data atau naskah sumber adalah sebuah
dokumen yang sangat besar ukurannya yang terdiri dari 1.634 halaman (belum termasuk bagian depan
seperti tata cara penggunaan kamus, kata sambutan dll.). Untuk itu diperlukan komputer dengan
prossessor berkecepatan tinggi dengan memori yang besar agar teks/data dapat diolah dengan cepat.
Tanpa dukungan perangkat keras yang memadai, pengolahan data akan berjalan sangat lambat.
Bahkan dapat terjadi komputer tidak mampu lagi memroses data atau komputer akan sering berhenti
bekerja dan pemrosesan harus diulang dari awal. Masalah ini dapat diatasi dengan menggunakan
komputer berkapasitas tinggi.
Konversi KBBI dari format pdf menjadi format txt diperlukan agar naskah sumber tersebut bisa
diolah oleh program yang dipakai untuk membuat daftar kata AntConc versi 3.2.4w (Anthony, 2012).
Yang menjadi permasalahan adalah bahwa konversi naskah dari format pdf ke format txt tidaklah
sempurna. Ada beberapa bagian teks asli KBBI dalam format pdf itu yang tidak dapat dikonversi
dengan baik. Misalnya pada penggalan lema 2bawang seperti dapat dilihat di gambar 1. Banyak terjadi
pengulangan huruf yang menghasilkan kata-kata yang tidak ada/salah.
22
bbaawwaanngg nn ssuunnggaaii bbuuaattaann,, ppaannjjaannggnnyyaa ppaa-lliinngg sseeddiikkiitt 220000 mm,, ddiigguunnaakkaann uunnttuukk
mmeennggaarraahhkkaann iikkaann--iikkaann yygg bbeerraassaall ddrr
ssuunnggaaii bbeessaarr aaggaarr mmaassuukk kkee ddll ppeerraannggkkaapp
Gambar 1: Hasil konversi lema 2bawang
Ketidaksempuraan konversi naskah sumber dari format pdf ke format txt ini menyebabkan
cukup banyak waktu tersita untuk memeriksa dan menyunting naskah hasil konversi sebelum diproses
menjadi daftar kata. Setiap halaman dari naskah hasil konversi dilihat secara cepat (scanning) dan
hanya kesalahan yang menyolok seperti contoh di atas saja yang dibetulkan. Kesalahan kecil, seperti
hilangnya jarak/spasi antara dua kata tidak dibetulkan karena ini berarti harus membaca dan
membandingkan dengan teliti setiap kata hasil konversi yang tentunya akan memakan waktu yang
sangat lama. Kata bergabung tanpa spasi ini nantinya dikoreksi setelah muncul di daftar kata dengan
cara membandingkannya dengan kamus (berdasarkan) KBBI elektronik daring, baik yang ada di laman
Badan Bahasa/Pusat Bahasa maupun yang lainnya.
Selain permasalahan hasil konversi KBBI dari format pdf ke format txt, ada banyak
penyimpangan atau kesalahan pada teks dalam KBBI format pdf itu sendiri. Gambar 2 memberikan
empat contoh: bagaikanmayang (bagaikan mayang), bermasyara-kat (bermasyarakat), tawa-menawar
(tawar-menawar), dan tia-tiap (tiap-tiap). Kata bagaikanmayang, yang ditulis menjadi satu, mungkin
disebabkan oleh hasil konversi dari naskah aslinya yang tidak dalam format pdf menjadi naskah PDF.
Tiga contoh lainnya mungkin disebabkan oleh salah ketik dalam naskah aslinya.
Bagian teks dari KBBI PDF
Bagian teks dari KBBI PDF
Gambar 2: Contoh kesalahan dalam teks KBBI format pdf
Naskah KBBI dalam format txt kemudian diproses dengan program AntConc versi 3.2.4w
(Anthony, 2012) untuk menghasilkan daftar kata BI. Menurut hasil olah dengan program ini, naskah
KBBI itu panjangnya 572.684 kata (word token) dan mengandung 60.079 kata yang berbeda (word
type). Jumlah ini tentu saja bukan jumlah yang tepat karena adanya kesalahan yang belum diperbaiki;
demikian pula daftar kata yang dihasilkan masih jauh dari sempurna karena adanya permasalahan
dengan konversi dari satu format teks ke format teks lain dan karena kemungkinan kesalahan ketik yang
telah dibahas di atas. Maka dari itu daftar kata yang dihasilkan harus diperiksa satu demi satu untuk
memisahkan kata-kata mana yang akan dimasukkan ke dalam daftar kata yang akan dipakai sebagai
acuan untuk program pemeriksa ejaan. Salah satu jenis bukan-kata dari daftar yang dihasilkan adalah
yang berhubungan dengan kata-kata di KBBI format pdf yang ditulis dengan tanda pemisah
(dipenggal). Kata bermasyara-kat, misalnya, akan menghasilkan dua kata terpisah yang salah atau
bukan kata dalam bahasa Indonesia yaitu bermasyara dan kat
Selain karena pemenggalan kata, ada banyak kata lain yang harus dipisahkan, misalnya katakata yang ditulis dengan tanda diakritik biasanya pada huruf é untuk menunjukkan cara mengucapkan
kata-kata tersebut, seperti mentereng /mentéréng/, mentega /mentéga/, mental /méntal/.
Kata-kata lain yang perlu dipisahkan adalah kata-kata asing baik dari bahasa Inggris maupun
latin yang biasanya merupakan nama Latin dari tanaman dan hewan, seperti Pemphis acidula (mentigi),
Luffa acutangula (oyong), dll.
Pemeriksaan daftar kata yang ada dapat dilakukan dengan menggunakan kamus bahasa
Indonesia daring/dalam jaringan seperti yang ada pada laman resmi KBBI Daring (Pusat Bahasa, 2008),
maupun kamus elektronik yang tidak resmi berdasarkan data dari KBBI (Anon., n.d.) dan (Setiawan,
2014). Kamus-kamus bahasa Indonesia elektronik tersebut memiliki keterbatasan yang sama yaitu tidak
bisa memeriksa semua jenis kata yang berawalan dan/atau berakhiran seperti mengempenak,
mengempo, mengempoh, mengempul, mengemulsi, mengemut, mengencang, mengendal, mengendala.
Pemeriksaan daftar kata tersebut sulit dilakukan secara manual karena keterbatasan pengetahuan
kosakata bahasa Indonesia kita walau kita adalah penutur asli.
Untuk menentukan apakah kata-kata tersebut termasuk dalam kosakata bahasa Indonesia atau
tidak perlu dicari kata dasarnya terlebih dulu: empenak, empo, empoh, kempul, emulsi, kemut, kencang,
kendal, kendala. Apabila kata-kata dasar tersebut adalah lema dalam KBBI maka bentukan kata
tersebut dianggap benar, bila tidak ditemukan maka akan dipisahkan/tidak dimasukkan daftar kata
untuk memeriksa ejaan.
Kesimpulan
Membuat daftar kata dari KBBI format pdf untuk dijadikan acuan dalam untuk memeriksa ejaan naskah
elektronik tidaklah semudah yang diperkirakan sebelumnya. Banyak permasalahan yang dihadapi baik
yang berhubungan dengan perangkat keras maupun perangkat lunaknya. Diperlukan perangkat keras
yang memadai agar berbagai proses konversi dapat dilakukan dengan cepat dan waktu yang sangat
banyak untuk memeriksa sekitar 60.000 kata yang dihasilkan. Pemeriksaan dapat dilakukan dengan
membandingkan daftar kata yang ada dengan beberapa kamus bahasa Indonesia elektronik dalam
jaringan baik yang resmi yang dibuat oleh Pusat Bahasa maupun yang dibuat oleh pihak lain
berdasarkan data dari KBBI.
Kamus KBBI elektronik yang ada saat ini masih tidak memuat semua bentukan kata yang
berakhiran dan/atau berawalan. Karena itu untuk membuat daftar kata yang lengkap untuk dipakai
sebagai acuan dalam pemeriksaan ejaan tidak cukup hanya mengandalkan kata-kata dalam KBBI saja,
melainkan harus dilengkapi dengan kata-kata dari korpus bahasa Indonesia.
*Proyek pembuatan pemeriksa ejaan bahasa Indonesia ini didanai oleh DIKTI berdasarkan Surat
Perjanjian Pelaksanaan Hibah Penelitian bagi dosen Perguruan Tinggi Swasta Kopertis Willayah III
Tahun Anggaran 2014, Nomor: 186/K3/KM/2014 tanggal 7 Mei 2014.
Daftar Pustaka
Anon., 2009. Catatan Kecil. [Online]
Tersedia di: http://stufi1983.at.ua/load/3-1-0-7
[Diakses 3 Juni 2014].
Anon., n.d. Kamus Bahasa Indonesia Online. [Online]
Tersedia di: http://kamusbahasaindonesia.org/
[Diakses 3 Juni 2014].
Anthony, L., 2012. Laurence Anthony's Website. [Online]
Tersedia di: http://www.antlab.sci.waseda.ac.jp/software.html
[Diakses 3 Juni 2014].
Hananto, 2013. Corpus-based Indonesian spelling checker. Jakarta, Atma Jaya Catholic University, pp.
1-4.
Hananto, Kurnia, N. & Markus, I. M., 2011. Frequency-Based Indonesian Word Lists. Jakarta, SEAMEO
QITEP.
Krause, W. B., n.d. IndoDic E-Kamus. [Online]
Tersedia di: http://indodic.com/SpellCheckInstall.html
[Diakses 3 Juni 2014].
Pusat Bahasa, 2008. KBBI Daring. [Online]
Tersedia di: http://pusatbahasa.kemdiknas.go.id/kbbi/
[Diakses 3 Juni 2014].
Setiawan, E., 2014. Kamus Besar Bahasa Indonesia (KBBI). [Online]
Tersedia di: http://kbbi.web.id/
[Diakses 3 Juni 2014].
Download