Pembuatan Daftar Kata Bahasa Indonesia untuk Program Pemeriksa Ejaan dan Tantangannya* Hananto [email protected] Universitas Pelita Harapan Makalah ini membahas upaya pembuatan daftar kata bahasa Indonesia (BI) sebagai sumber acuan alat pemeriksa ejaan untuk penulisan naskah BI menggunakan paket program Microsoft Office yang hingga versi terbarunya (2013) belum dilengkapi dengan pemeriksa ejaan BI. Pertama-tama pemakalah akan mengupas hal ikhwal pemeriksa ejaan, kemudian memaparkan perkembangan gagasan pembuatan daftar kata BI berdasarkan korpus BI dan Kamus Besar Bahasa Indonesia (KBBI) versi elektronik (PDF) serta seluk beluk pelaksanaannya. Makalah ini secara khusus menguraikan tantangan atau kesulitan yang dihadapi dalam pembuatan daftar kata BI berdasarkan KBBI, yaitu membersihkan daftar kata bersumber KBBI tersebut dari kata-kata non-BI yang muncul akibat ketidaksempurnaan proses konversi teks elektronik dari satu format ke format yang lainnya, dalam hal ini dari format aslinya ke format PDF dan kemudian ke format TXT. Konversi ke format TXT perlu dilakukan agar teks dapat diproses oleh program pembuat daftar kata otomatis untuk menghasilkan daftar kata BI yang dapat dijadikan acuan dalam proses pemeriksaan ejaan naskah BI pada paket Microsoft Office. Pemeriksa Ejaan Pemeriksa ejaan adalah sebuah program yang memeriksa ejaan kata-kata yang ditulis secara elektronik. Program ini sudah menjadi bagian yang tidak terpisahkan dari program pengolah kata seperti Microsoft Word dari paket Microsoft Office. Sayangnya sampai saat ini Microsoft Word masih belum menyediakan pemeriksa ejaan untuk naskah bahasa Indonesia (BI). Hal itu berpotensi menyebabkan kesalahan mengeja sewaktu menyusun naskah dalam BI dengan Microsoft Word tidak disadari oleh penyusun naskah dan karenanya tidak dikoreksi. Untungnya paket program Microsoft Office ini menyediakan fasilitas untuk menambahkan daftar kata yang dapat dipakai sebagai acuan untuk memeriksa ejaan naskah dalam bahasa yang belum disediakan. Cara kerja program pemeriksa ejaan sebenarnya relatif sederhana. Program ini berjalan secara otomatis sebagai latar belakang, membandingkan kata yang ditulis di pengolah kata tersebut dengan ”kamus” atau daftar kata elektronik yang sudah ditentukan sebelumnya. Apabila kata tersebut tidak ditemukan dalam daftar kata yang bersangkutan, maka kata tersebut dianggap ”salah” dan pemeriksa ejaan akan memberikan saran atau alternatif perbaikan. Program pemeriksa ejaan ini biasanya sudah menjadi bagian dari program pengolah kata, yang perlu ditambahkan ”kamus” atau daftar kata elektronik yang akan dijadikan acuan untuk memeriksa setiap kata yang ditulis pada pengolah kata tersebut. Jadi permasalahannya adalah bagaimana kita dapat membuat daftar kata elektronik BI selengkap mungkin sebagai sumber acuan untuk memeriksa ejaan kata dalam naskah BI yang ditulis dengan paket Microsoft Office? Pembuatan daftar kata BI untuk keperluan pemeriksaan ejaan dapat ditempuh melalui beberapa cara, misalnya: • Mengumpulkan kata berdasarkan pengalaman mengetik di Microsoft Word (Anon., 2009). • • Mengumpulkan kata dari kamus elektronik Inggris-Indonesia (Krause, n.d.). Menghasilkan daftar kata secara otomatis dari korpus BI dengan menggunakan perangkat lunak yang sesuai. Gagasan Awal Ide awal dari usaha untuk membuat daftar kata bahasa Indonesia untuk keperluan pemeriksaan ejaan dokumen dalam bahasa Indonesia berasal dari penelitian terdahulu yang bertujuan membuat daftar 2.000 kata dalam bahasa Indonesia yang paling sering dipakai dengan menggunakan pendekatan linguistik korpus. (Hananto, et al., 2011). Sebuah korpus (kumpulan teks elektronik dalam jumlah yang besar) BI disusun dengan rancang bangun yang mengarah pada suatu korpus yang mencerminkan pemakaian BI secara umum. Daftar kata yang dihasilkan dari korpus ini diharapkan dapat membantu pemelajar BI khususnya penutur asing. Berawal dari daftar 2000 kata ini, kemudian timbul gagasan baru: mengapa tidak mengidentifikasi semua kata BI yang ada dalam korpus tersebut untuk dijadikan acuan dalam pembuatan pemeriksa ejaan? Dengan menggunakan sebagian teks dari korpus tersebut, ternyata bisa dihasilkan daftar kata yang bisa dijadikan sebagai acuan untuk pemeriksaan ejaan naskah BI yang diketik dengan menggunakan program pengolah kata Microsoft Word. (Hananto, 2013). Daftar kata yang dihasilkan bisa mencapai puluhan atau ratusan ribu tergantung besar/kecilnya korpus yang dipakai. Permasalahan yang utama dengan daftar ini adalah banyaknya kata-kata yang salah sebagai akibat konversi teks yang tidak mulus dan kesalahan ketik atau kata-kata yang tidak standar yang ada dalam korpus tersebut. Selain itu, suatu korpus, betapa pun besarnya, sangat mungkin tidak berisikan semua kata dalam suatu bahasa. Sumber yang lebih dapat diandalkan merangkum (hampir) semua kata dalam suatu bahasa adalah sebuah kamus umum. Oleh karenanya, untuk melengkapi daftar kata dari korpus tersebut perlu dibuat daftar kata bahasa Indonesia yang standar berdasarkan Kamus Besar Bahasa Indonesia (KBBI) yang memang bertujuan mencakup sebanyak mungkin kata BI. Penggabungan daftar kata dari sumber korpus BI dengan daftar kata berdasarkan KBBI diharapkan akan menghasilkan daftar kata yang lebih lengkap dan baik untuk dijadikan acuan untuk pemeriksaan ejaan bahasa Indonesia. Makalah ini menguraikan upaya untuk membuat daftar kata bahasa Indonesia yang dikumpulkan berdasarkan KBBI elektronik dalam format pdf (http://perpus.unimus.ac.id/wp-content/uploads/2012/05/KamusBesar-Bahasa-Indonesia.pdf) dan permasalahannya. Langkah-langkah untuk membuat daftar kata BI berdasarkan KBBI versi tersebut di atas sebenarnya cukup mudah karena sumber awalnya sudah berupa naskah elektronik. Naskah tersebut tinggal dikonversi ke format text (.txt) dan dimasukkan ke dalam program yang dapat secara otomatis menghasilkan daftar kata dari naskah tersebut. Namun ternyata sangat sulit untuk menghasilkan daftar kata yang baik karena banyak terselip bentukan yang bukan kata BI. Permasalahan yang timbul Ada tiga jenis persoalan yang muncul dalam proses pembuatan daftar kata dari naskah KBBI berformat pdf sebagai sumber data, yakni: besarnya naskah sumber yang berkaitan erat dengan kemampuan dan kecepatan pengolahan data, masalah yang disebabkan oleh konversi naskah sumber dari format pdf ke format txt, serta ketidaksempurnaan naskah sumber itu sendiri. Kecepatan pemrosesan data berkaitan erat dengan kemampuan prosessor komputer yang dipakai. KBBI dalam format pdf yang dipakai sebagai sumber data atau naskah sumber adalah sebuah dokumen yang sangat besar ukurannya yang terdiri dari 1.634 halaman (belum termasuk bagian depan seperti tata cara penggunaan kamus, kata sambutan dll.). Untuk itu diperlukan komputer dengan prossessor berkecepatan tinggi dengan memori yang besar agar teks/data dapat diolah dengan cepat. Tanpa dukungan perangkat keras yang memadai, pengolahan data akan berjalan sangat lambat. Bahkan dapat terjadi komputer tidak mampu lagi memroses data atau komputer akan sering berhenti bekerja dan pemrosesan harus diulang dari awal. Masalah ini dapat diatasi dengan menggunakan komputer berkapasitas tinggi. Konversi KBBI dari format pdf menjadi format txt diperlukan agar naskah sumber tersebut bisa diolah oleh program yang dipakai untuk membuat daftar kata AntConc versi 3.2.4w (Anthony, 2012). Yang menjadi permasalahan adalah bahwa konversi naskah dari format pdf ke format txt tidaklah sempurna. Ada beberapa bagian teks asli KBBI dalam format pdf itu yang tidak dapat dikonversi dengan baik. Misalnya pada penggalan lema 2bawang seperti dapat dilihat di gambar 1. Banyak terjadi pengulangan huruf yang menghasilkan kata-kata yang tidak ada/salah. 22 bbaawwaanngg nn ssuunnggaaii bbuuaattaann,, ppaannjjaannggnnyyaa ppaa-lliinngg sseeddiikkiitt 220000 mm,, ddiigguunnaakkaann uunnttuukk mmeennggaarraahhkkaann iikkaann--iikkaann yygg bbeerraassaall ddrr ssuunnggaaii bbeessaarr aaggaarr mmaassuukk kkee ddll ppeerraannggkkaapp Gambar 1: Hasil konversi lema 2bawang Ketidaksempuraan konversi naskah sumber dari format pdf ke format txt ini menyebabkan cukup banyak waktu tersita untuk memeriksa dan menyunting naskah hasil konversi sebelum diproses menjadi daftar kata. Setiap halaman dari naskah hasil konversi dilihat secara cepat (scanning) dan hanya kesalahan yang menyolok seperti contoh di atas saja yang dibetulkan. Kesalahan kecil, seperti hilangnya jarak/spasi antara dua kata tidak dibetulkan karena ini berarti harus membaca dan membandingkan dengan teliti setiap kata hasil konversi yang tentunya akan memakan waktu yang sangat lama. Kata bergabung tanpa spasi ini nantinya dikoreksi setelah muncul di daftar kata dengan cara membandingkannya dengan kamus (berdasarkan) KBBI elektronik daring, baik yang ada di laman Badan Bahasa/Pusat Bahasa maupun yang lainnya. Selain permasalahan hasil konversi KBBI dari format pdf ke format txt, ada banyak penyimpangan atau kesalahan pada teks dalam KBBI format pdf itu sendiri. Gambar 2 memberikan empat contoh: bagaikanmayang (bagaikan mayang), bermasyara-kat (bermasyarakat), tawa-menawar (tawar-menawar), dan tia-tiap (tiap-tiap). Kata bagaikanmayang, yang ditulis menjadi satu, mungkin disebabkan oleh hasil konversi dari naskah aslinya yang tidak dalam format pdf menjadi naskah PDF. Tiga contoh lainnya mungkin disebabkan oleh salah ketik dalam naskah aslinya. Bagian teks dari KBBI PDF Bagian teks dari KBBI PDF Gambar 2: Contoh kesalahan dalam teks KBBI format pdf Naskah KBBI dalam format txt kemudian diproses dengan program AntConc versi 3.2.4w (Anthony, 2012) untuk menghasilkan daftar kata BI. Menurut hasil olah dengan program ini, naskah KBBI itu panjangnya 572.684 kata (word token) dan mengandung 60.079 kata yang berbeda (word type). Jumlah ini tentu saja bukan jumlah yang tepat karena adanya kesalahan yang belum diperbaiki; demikian pula daftar kata yang dihasilkan masih jauh dari sempurna karena adanya permasalahan dengan konversi dari satu format teks ke format teks lain dan karena kemungkinan kesalahan ketik yang telah dibahas di atas. Maka dari itu daftar kata yang dihasilkan harus diperiksa satu demi satu untuk memisahkan kata-kata mana yang akan dimasukkan ke dalam daftar kata yang akan dipakai sebagai acuan untuk program pemeriksa ejaan. Salah satu jenis bukan-kata dari daftar yang dihasilkan adalah yang berhubungan dengan kata-kata di KBBI format pdf yang ditulis dengan tanda pemisah (dipenggal). Kata bermasyara-kat, misalnya, akan menghasilkan dua kata terpisah yang salah atau bukan kata dalam bahasa Indonesia yaitu bermasyara dan kat Selain karena pemenggalan kata, ada banyak kata lain yang harus dipisahkan, misalnya katakata yang ditulis dengan tanda diakritik biasanya pada huruf é untuk menunjukkan cara mengucapkan kata-kata tersebut, seperti mentereng /mentéréng/, mentega /mentéga/, mental /méntal/. Kata-kata lain yang perlu dipisahkan adalah kata-kata asing baik dari bahasa Inggris maupun latin yang biasanya merupakan nama Latin dari tanaman dan hewan, seperti Pemphis acidula (mentigi), Luffa acutangula (oyong), dll. Pemeriksaan daftar kata yang ada dapat dilakukan dengan menggunakan kamus bahasa Indonesia daring/dalam jaringan seperti yang ada pada laman resmi KBBI Daring (Pusat Bahasa, 2008), maupun kamus elektronik yang tidak resmi berdasarkan data dari KBBI (Anon., n.d.) dan (Setiawan, 2014). Kamus-kamus bahasa Indonesia elektronik tersebut memiliki keterbatasan yang sama yaitu tidak bisa memeriksa semua jenis kata yang berawalan dan/atau berakhiran seperti mengempenak, mengempo, mengempoh, mengempul, mengemulsi, mengemut, mengencang, mengendal, mengendala. Pemeriksaan daftar kata tersebut sulit dilakukan secara manual karena keterbatasan pengetahuan kosakata bahasa Indonesia kita walau kita adalah penutur asli. Untuk menentukan apakah kata-kata tersebut termasuk dalam kosakata bahasa Indonesia atau tidak perlu dicari kata dasarnya terlebih dulu: empenak, empo, empoh, kempul, emulsi, kemut, kencang, kendal, kendala. Apabila kata-kata dasar tersebut adalah lema dalam KBBI maka bentukan kata tersebut dianggap benar, bila tidak ditemukan maka akan dipisahkan/tidak dimasukkan daftar kata untuk memeriksa ejaan. Kesimpulan Membuat daftar kata dari KBBI format pdf untuk dijadikan acuan dalam untuk memeriksa ejaan naskah elektronik tidaklah semudah yang diperkirakan sebelumnya. Banyak permasalahan yang dihadapi baik yang berhubungan dengan perangkat keras maupun perangkat lunaknya. Diperlukan perangkat keras yang memadai agar berbagai proses konversi dapat dilakukan dengan cepat dan waktu yang sangat banyak untuk memeriksa sekitar 60.000 kata yang dihasilkan. Pemeriksaan dapat dilakukan dengan membandingkan daftar kata yang ada dengan beberapa kamus bahasa Indonesia elektronik dalam jaringan baik yang resmi yang dibuat oleh Pusat Bahasa maupun yang dibuat oleh pihak lain berdasarkan data dari KBBI. Kamus KBBI elektronik yang ada saat ini masih tidak memuat semua bentukan kata yang berakhiran dan/atau berawalan. Karena itu untuk membuat daftar kata yang lengkap untuk dipakai sebagai acuan dalam pemeriksaan ejaan tidak cukup hanya mengandalkan kata-kata dalam KBBI saja, melainkan harus dilengkapi dengan kata-kata dari korpus bahasa Indonesia. *Proyek pembuatan pemeriksa ejaan bahasa Indonesia ini didanai oleh DIKTI berdasarkan Surat Perjanjian Pelaksanaan Hibah Penelitian bagi dosen Perguruan Tinggi Swasta Kopertis Willayah III Tahun Anggaran 2014, Nomor: 186/K3/KM/2014 tanggal 7 Mei 2014. Daftar Pustaka Anon., 2009. Catatan Kecil. [Online] Tersedia di: http://stufi1983.at.ua/load/3-1-0-7 [Diakses 3 Juni 2014]. Anon., n.d. Kamus Bahasa Indonesia Online. [Online] Tersedia di: http://kamusbahasaindonesia.org/ [Diakses 3 Juni 2014]. Anthony, L., 2012. Laurence Anthony's Website. [Online] Tersedia di: http://www.antlab.sci.waseda.ac.jp/software.html [Diakses 3 Juni 2014]. Hananto, 2013. Corpus-based Indonesian spelling checker. Jakarta, Atma Jaya Catholic University, pp. 1-4. Hananto, Kurnia, N. & Markus, I. M., 2011. Frequency-Based Indonesian Word Lists. Jakarta, SEAMEO QITEP. Krause, W. B., n.d. IndoDic E-Kamus. [Online] Tersedia di: http://indodic.com/SpellCheckInstall.html [Diakses 3 Juni 2014]. Pusat Bahasa, 2008. KBBI Daring. [Online] Tersedia di: http://pusatbahasa.kemdiknas.go.id/kbbi/ [Diakses 3 Juni 2014]. Setiawan, E., 2014. Kamus Besar Bahasa Indonesia (KBBI). [Online] Tersedia di: http://kbbi.web.id/ [Diakses 3 Juni 2014].