BAB II TINJAUAN PUSTAKA 2.1 Pemrosesan Bahasa Alami (Natural Language Processing) Pemrosesan bahasa alami (Natual Language Processing - NLP) merupakan salah satu bidang ilmu Kecerdasan Buatan (Artificial Intelligence) yang mempelajari komunikasi antara manusia dengan komputer melalui bahasa alami, baik lisan maupun tulisan. Proses representasi bahasa dalam bentuk yang lebih memungkinkan untuk dikomputasi telah dilakukan oleh seorang ahli bernama Chomsky pada tahun 1957 (Desiani dan Arhami, 2006). Pada bidang ilmu pemrosesan bahasa alami tidak mudah untuk dilakukan karena terdapat beberapa alasan yang menyulitkan pada pemrosesan bahasa alami (Desiani dan Arhami, 2006). Salah satu kesulitan dalam pemrosesan bahasa alami adalah pemilihan arti yang tepat dari suatu kata bermakna ganda seperti kata “bisa” yang dapat berarti “racun” atau “dapat” sesuai dengan kalimatnya. Fenomena ini terjadi dalam penentuan jenis kata (part of speech) seperti kata “advanced” yang dapat berfungsi sebagai kata kerja aktif lampau, kata kerja pasif, atau kata sifat. Selain itu, jumlah kosa kata (vocabulary) dalam bahasa alami besar dan terus berkembang dari waktu ke waktu (Desiani dan Arhami, 2006). NLP sering diterapkan pada aplikasi bahasa tertulis, tetapi saat ini pengembangan aplikasi bahasa lisan juga dilakukan yang kesulitannya mungkin terjadi dimana dalam bahasa lisan, manusia sangat sering membentuk ucapan yang tidak sesuai dengan aturan-aturan yang berlaku. Salah satu aplikasi dari pemrosesan bahasa alami adalah sistem penerjemah bahasa alami (natural language translator) seperti sistem penerjemah dari bahasa Inggris ke bahasa Indonesia. Translator tidak hanya dapat menerjemahkan kata per kata (kamus) tetapi juga dapat mentranslasikan dari bahasa asal ke bahasa target dengan maksud yang dapat dimengerti (Desiani dan Arhami, 2006). 5 6 2.2 Sistem Penerjemah Pemrosesan bahasa alami merupakan teknologi yang memungkinkan berbagai macam jenis pemrosesan terhadap bahasa alami yang biasa digunakan oleh manusia. Pemrosesan bahasa alami mencakup aplikasi yang sangat banyak. Salah satu aplikasi yang sangat penting dari kajian ilmu pemrosesan bahasa alami yaitu sistem penerjemah atau machine translation (Barkade et al, 2010). Sistem penerjemah atau machine translation merupakan suatu sistem yang dapat menerjemahkan bahasa sumber (source language) ke dalam bahasa tujuan (target language). Tujuan dari sistem ini adalah untuk menerima masukan dari bahasa sumber dan memberikan keluaran yang berarti dalam bahasa tujuan (Fromkin et al, 2003). Penerapan sistem penerjemah dimulai sejak tahun 1940 yaitu sejak penggunaan komputer dalam memproses bahasa alami. Dalam perkembangannya, sistem penerjemah tidak hanya berupa teks (text) tetapi juga telah berkembang menjadi penerjemah ucapan (speech) dari satu bahasa ke bahasa lainnya (Fromkin et al, 2003). Selain itu, dikembangkan juga sistem penerjemah ucapan ke dalam bentuk teks maupun teks ke dalam bentuk ucapan. Sistem penerjemah memiliki beberapa pendekatan yang digunakan dalam menerjemahkan bahasa. Pendekatan tersebut memiliki tiga pendekatan utama yaitu pendekatan berbasis aturan (rule based), statistik (statistical), dan berbasis contoh (example based) (Kamatani et al, 2009). Pendekatan berbasis aturan (rule based) menggunakan banyak aturan penerjemahan yang diuraikan secara konkret untuk mendapatkan terjemahan yang sesuai dalam bahasa tujuan. Aturan-aturan tersebut memberikan ketahanan yang baik pada sistem tetapi juga kadang-kadang menyebabkan sistem menjadi kurang lancar. Sistem dengan pendekatan statistik (statistical) menggunakan basis statistik dengan analisis korpus dwibahasa yang dapat menghemat biaya pengembangan, tetapi dalam beberapa kasus, hasil terjemahan sistem dengan pendekatan berbasis aturan (rule based) memiliki hasil yang lebih sesuai daripada menggunakan pendekatan berbasis statistik. Sistem dengan pendekatan berbasis contoh (example based) merupakan sistem dengan memanfaatkan contoh terjemahan (dari korpus maupun kitab bahasa) sehingga lebih alami maknanya daripada hasil dari pendekatan berbasis aturan. Namun, 7 pada sistem ini hanya tergantung pada basis data contoh sehingga memiliki ketahanan yang rendah (Kamatani et al, 2009). Pendekatan berbasis statistik dan pendekatan berbasis contoh menggunakan korpus dua bahasa untuk melakukan proses-proses pada sistem (Saraswathi et al, 2011). 2.3 Sistem Penerjemah Berbasis Aturan (Rule Based) Sistem penerjemah berbasis aturan (rule based) merupakan suatu sistem penerjemah dengan pendekatan yang menggunakan aturan dalam proses penerjemahan. Aturan (rule) yang diimplementasikan pada sistem dapat dinyatakan dengan menggunakan ″If - Then″. Setiap kalimat dari bahasa asal diklasifikasikan menurut kelasnya masing-masing menggunakan atribut (jenis kata) dari bahasa asal yang kemudian dialihbahasakan ke bahasa target dengan menggunakan aturan-aturan yang terdapat pada sistem penerjemah. Dalam mengalihbahasakan bahasa asal ke bahasa target digunakan kamus (dictionary) yang memuat kedua bahasa (Francisca et al, 2011). Dari tiga tipe pendekatan pada penerjemah bahasa, pendekatan berbasis aturan merupakan salah satu pendekatan yang efektif (Barkade et al, 2010). Bagian terpenting dari sistem penerjemah berbasis aturan (rule based) adalah koleksi dari aturan-aturan tersebut. Tidak ada standarisasi untuk implementasi dari aturan tersebut (Arman, 2007). Beberapa contoh aturan (rule) dalam sistem penerjemah bahasa Inggris ke bahasa Indonesia adalah sebagai berikut (Arman, 2007) : 1. Aturan kata kerja dalam tenses present continous (contoh : is eating, are going, am waiting) adalah <TO_BE> <VERB_ING> diterjemahkan ke dalam <sedang> <VERB>. Berikut algoritma yang digunakan untuk mengimplementasikan aturan tersebut. IF ((category of WORD[n]) = TO_BE) AND ((category of WORD[n+1]) = VERB_ING) THEN do something 2. Aturan yang merepresentasikan frase benda yang menggunakan adjektif sebagai informasi (contoh : red car, high building). Aturannya : <ADJ> 8 <NOUN> yang diterjemahkan ke <NOUN> <ADJ>. Berikut algoritma yang digunakan untuk mengimplementasikan aturan tersebut. IF ((category of WORD[n]) = ADJ) AND ((category of WORD[n+1]) = NOUN) THEN do something Sistem penerjemah berbasis aturan dapat digambarkan sebagai berikut. RULE COLLECTIONS (All Rules) RULE-BASED TRANSLATOR Source Language Target Language DICTIONARY Gambar 2.1 Sistem Penerjemah Berbasis Aturan (Sumber : Arman, 2007) Beberapa penelitian sistem penerjemah berbasis aturan (rule based) dari berbagai macam bahasa adalah sebagai berikut : Tabel 2.1 Penelitian Mengenai Penerjemah Bahasa Berbasis Aturan No. Peneliti Tahun Bahasa 1 Nurul 2005 Bahasa Inggris ke Sistem dapat Wikantyasning 2 bahasa Jawa Kesimpulan menerjemahkan bahasa (Wikantyasning, Inggris ke bahasa Jawa 2005) dengan baik Ema Utami dan Sri Hartati 2007 Bahasa Inggris ke Sistem dapat bahasa Indonesia menerjemahkan kalimat (Utami dan dengan cukup baik Hartati, 2007) menggunakan metode rule based 9 3 Yusuf 2008 (Yusuf, 2008) Bahasa Inggris ke Metode berbasis aturan bahasa Indonesia dengan aturan translasi MD-DM dan Translasi Padanan arti memberikan rata-rata kinerja terbaik 4 Ari Triwibowo 2009 (Triwibowo, Bahasa Inggris ke Sistem yang dibuat telah bahasa Indonesia 2009) sesuai dengan aturan penggunaan tata bahasa Inggris dan Indonesia yang ada 5 Muhammad 2010 Syaukani Bahasa Inggris ke Pendekatan berbasis aturan bahasa Indonesia (Syaukani, 2010) berhasil diimplementasikan pada aplikasi komunikasi online InggrisIndonesia 6 Ms VM Barkade 2010 (Barkade et al, Bahasa Inggris ke Implementasi modul bahasa Sanskrit 2010) 7 Judith Francisca semantic mapper untuk memetakan kedua bahasa 2011 (Francisca et al, 2011) Bahasa Inggris ke Implementasi pendekatan bahasa Bangla dengan algoritma baru pada proses penerjemahan 2.4 Context Free Grammar Sebagian besar sistem dalam memodelkan struktur konstituen dalam bahasa Inggris atau bahasa alami lainnya adalah dengan menggunakan Context Free Grammar atau CFG (Jurafsky and Martin, 1999). Konstituen adalah unsurunsur pembentuk kalimat yang dapat berdiri sendiri seperti noun phrase atau verb phrase. Sebuah CFG terdiri dari rule atau productions, kumpulan kata maupun simbol. Kalimat yang dapat diperoleh dengan tata bahasa formal (formal grammar) disebut kalimat yang sesuai dengan tata bahasa (grammatical sentence) sedangkan yang tidak dapat diperoleh disebut kalimat yang tidak sesuai dengan tata bahasa (ungrammatical) (Jurafsky and Martin, 1999). 10 Simbol yang dipergunakan dalam CFG terdiri dari dua kelas yaitu simbol terminal dan simbol non terminal. Simbol terminal merupakan kata dalam setiap bahasa (‘the’, ‘nightclub’). Pada aturan context-free, simbol non terminal berada di sebelah kiri tanda panah (→) dan kategori dari masing-masing simbol terminal atau kata disebelah kanan tanda panah. Simbol non terminal merupakan suatu ekspresi generalisasi (NP, VP). Sehingga untuk sebuah Context Free Grammar mempunyai empat parameter (secara teknik disebut 4-tuple) (Jurafsky and Martin, 1999) : 1. N : Kumpulan simbol non terminal (atau variabel) 2. ∑ : Kumpulan simbol terminal 3. P : Kumpulan produksi, yang dinyatakan dalam bentuk A → α dimana A merupakan simbol non terminal 4. S : Simbol permulaan Pada context free grammar, penggunaan pohon parsing berguna untuk memeriksa grammar dari suatu aplikasi pengolahan kata. Suatu masukan, seperti kalimat yang tidak dapat di parsing kemungkinan memiliki struktur gramatikal yang salah (atau sulit untuk dibaca) (Jurafsky and Martin, 1999). Parsing atau analisa sintaks adalah proses dalam menganalisa teks, yang terdiri dari urutan token (seperti kata) untuk menentukan struktur dengan memperhatikan tata bahasa yang diberikan (Barkade et al, 2010). Dalam melakukan suatu parsing, metode yang umum digunakan yaitu top-down dan bottom-up. Pemilihan metode parsing yang digunakan harus dilakukan secara jeli, dengan memperhatikan kompleksitas tata bahasa dan kebutuhan aplikasi (Suciadi, 2001). Parser bottom up tidak membedakan antara rule (grammar) dan word (lexicon) sehingga cara kerjanya sangat sederhana namun sangat "bodoh" karena akan terus mengulang-ulang kesalahan yang sama (Suciadi, 2001). Top-down parser mencari pohon parsing dari root node yaitu ‘S’. Langkahnya dimulai dari penempatan simbol permulaan ‘S’ untuk semua kasus dan kemudian mencari semua aturan tata-bahasa (grammar rule) yang sesuai. Dalam top-down parser terdapat strategi yang bernama depth-first yang mencari grammar yang sesuai dari setiap masukan yang paling pertama dan selanjutnya. 11 Gambar 2.2 Top Down Depth-First Derivation (Sumber : Jurafsky and Martin, 1999) 2.5 Tata Bahasa Inggris Bahasa Inggris merupakan salah satu bahasa alami manusia yang mempunyai tata bahasa dengan pola untuk setiap kalimatnya. Penelitian ini mencakup masukan (input) berupa teks. Teks yang dicakup dalam penelitian ini berupa satuan bahasa yang berupa kata, frase, dan kalimat tunggal. Kata merupakan gabungan morfem yang dapat diujarkan sebagai bentuk bebas yang paling kecil. Contoh kata dalam bahasa Inggris beserta padanannya dalam bahasa Bali yaitu I (Titiang). Frase merupakan sekelompok kata-kata yang memiliki fungsi sama. Dalam penelitian ini hanya menggunakan frase benda, verba, preposisi serta tidak mempergunakan frase idiom. Contoh dari frase yaitu in the basement (frase preposisi). Kalimat tunggal berbentuk aktif merupakan kalimat yang memiliki satu verba dan subjeknya yang melakukan suatu tindakan (Phythian, 1995). 12 Pada kata-kata yang ditulis seringkali terlihat bahwa terdapat kata yang dihilangkan. Contractions atau singkatan merupakan kata-kata yang ditulis dengan penghapusan huruf-huruf tertentu untuk mencerminkan cara pengucapan yang lazim (Phythian, 1995). Contoh beberapa singkatan untuk tenses yang dipergunakan yaitu I’ll berarti I will dan don’t berarti do not. Beberapa hal yang perlu dikaji dalam bahasa inggris yaitu struktur bahasa Inggris dalam bentuk waktu (tenses), bentuk kata benda, dan jenis kata. 2.5.1 Bentuk Waktu (Tenses) Dalam Bahasa Inggris Dalam struktur bahasa Inggris dikenal adanya tenses atau waktu kejadian. Struktur kalimat yang terdapat pada kalimat bahasa Inggris terdiri dari 12 macam tenses (Azar, 1992). Dalam penelitian ini hanya menggunakan dua macam tenses yaitu simple present tense dan simple future tense. Berikut pemaparan kedua macam tenses tersebut : 1. Simple Present Tense Tenses ini digunakan untuk menyatakan suatu kegiatan yang dilakukan sehari-hari atau biasa dilakukan. Tenses ini juga dapat digunakan dalam kondisi kebenaran umum serta suatu kegiatan yang dilakukan secara berulang atau kebiasaan. Predikat pada tenses ini memakai kata kerja bentuk pertama (Verb 1) dan memakai to be untuk bentuk nominal. Rumus : Bentuk nominal : Subject + to be (is, am, are) + Complement Bentuk verbal : They/We/I/You + Verb 1 + Object He/She/It + Verb 1 + s/es + Object Kata-kata yang disingkat pada tenses ini seperti kata am yang disingkat m (′m), kata are yang disingkat re (′re), kata is yang disingkat s (′s), kata not yang disingkat n′t. 2. Simple Future Tense Tenses ini digunakan untuk menyatakan sesuatu yang akan dilakukan pada waktu atau masa yang akan datang. Predikat pada tenses ini yaitu kata kerja bentuk pertama (Verb 1). 13 Rumus: Subject + will + Verb 1 + Object Kata-kata yang disingkat pada tenses ini seperti kata will yang disingkat menjadi ll (′ll), kata will not yang disingkat menjadi won’t. 2.5.2 Bentuk Kata Benda Kata benda memiliki dua bentuk, yaitu bentuk tunggal (singular) dan bentuk jamak (plural). Dalam bahasa Inggris, juga dikenal adanya perubahan bentuk kata benda dari bentuk tunggal ke bentuk jamak. Aturan perubahan tersebut adalah : 1. Secara umum menambahkan huruf ′s′, contoh book + ′s′ menjadi books. 2. Menambahkan rangkaian ′es′ jika bentuk tunggalnya berakhiran dengan bunyi desis, seperti ′sh′, ′ch′, ′s′, ′z′, ′x′. 3. Menambahkan ′ies′ jika bentuk tunggalnya berakhiran dengan huruf ′y′ yang sebelumnya adalah huruf mati. 2.5.3 Jenis Kata Berikut merupakan kajian jenis kata beserta dengan fungsinya masingmasing (Phythian, 1995) : 1. Kata Benda (Noun) Noun atau nomina adalah kata yang digunakan untuk menamai benda atau orang. Contoh dari noun adalah rabbit, child, man. Untuk nomina yang digunakan untuk menamai orang disebut dengan proper noun. Seperti contoh Nicholas Nickleby. 2. Kata Ganti (Pronoun) Pronoun merupakan kata yang berfungsi sebagai pengganti nomina. Sebagai contoh dari pronoun yaitu I, She, We, It. 3. Kata Sifat (Adjective) Adjective merupakan kata yang melukiskan nomina. Contoh dari adjective yaitu invisible, beautiful, cold. 14 4. Kata Kerja (Verb) Kata yang menunjukkan suatu tindakan atau keadaan. Contoh dari verb yaitu walk, think, kick. 5. Kata Keterangan (Adverb) Adverb atau adverbia merupakan kata yang melukiskan verba, adjective. Contoh dari adverb adalah loudly, weekly. 6. Kata Depan (Preposition) Kata depan merupakan kata yang menunjukkan hubungan antara nomina dan bagian-bagian lainnya. Contoh dari kata depan yaitu in, into, from. 7. Kata Sambung (Conjunction) Kata yang menggabungkan dua kata. Contoh kata sambung adalah and, or, because, before. 2.6 Tata Bahasa Bali Bahasa Bali mempunyai sejarah yang panjang, sejak zaman Bali Kuno sampai sekarang. Sepanjang perkembangan sejarahnya itu bahasa Bali mengalami banyak perubahan-perubahan dan mendapat banyak pengaruh dari bahasa Sanskerta maupun Jawa Kuno. Bahkan juga dari bahasa Cina, Inggris, Prancis, Portugis, dan Arab. Belakangan bahasa Bali mendapatkan banyak pengaruh dari bahasa Indonesia (Sancaya, 1990). Bahasa Bali merupakan bahasa yang terbesar dipakai di Bali, secara umum dan secara garis besar dikatakan memiliki dua dialek yaitu dialek Bali Dataran dan dialek Baliaga. Selain itu juga bahasa Bali dilihat dari sudut pandang sosiologi terdapat adanya tingkatan-tingkatan bahasa (level of speech) yang disebut dengan anggah ungguhing basa. Dalam penelitian ini hanya menggunakan bahasa Bali Kepara. 2.6.1 Bahasa Bali Kepara Terdapat beberapa pendapat yang saling berbeda mengenai pengertian bahasa Bali Kepara ini. Adanya perbedaan tersebut rupanya disebabkan oleh perbedaan rasa. Dalam bahasa yang keberadaannya banyak ditentukan oleh 15 stratifikasi sosial masyarakat penuturnya, tergantung pada tempat, waktu, dan manusianya. Halus dan kasarnya suatu bahasa tidak bisa ditentukan secara obyektif dari keberadaan bahasa tersebut (Sancaya, 1990). Penggunaan istilah bahasa Bali Kepara sebagai salah satu bagian dari bahasa Bali sebenarnya masih tetap relevan dan perlu dipertahankan. Hal tersebut dikarenakan lebih mencerminkan kenyataan bahasa Bali yang masih hidup dan berkembang dewasa ini. Dari beberapa pendapat para ahli dapat disimpulkan bahwa bahasa Bali Kepara merupakan bahasa Bali yang dipakai sebagai alat komunikasi dalam kehidupan sehari-hari, termasuk di dalamnya tingkatan bahasa Kasar, bahasa Madia, dan bahasa Alus (Sancaya, 1990). 2.6.2 Pola Dasar Kalimat Bahasa Bali Dalam bahasa Bali dikenal adanya struktur yang mengikat tata bahasa Bali, seperti struktur fonologi, morfologi, dan sintaksis. Struktur fonem berhubungan dengan tata bunyi dalam bahasa Bali, struktur morfologi yaitu bagian dari tata bahasa yang membahas mengenai seluk-beluk struktur kata serta pengaruh perubahan struktur kata terhadap jenis kata. Sedangkan stuktur sintaksis yaitu mencakup bagian yang melingkupi pada tata kalimat (Anom et al, 1993). Kalimat bahasa Bali memiliki beberapa pola dasar yaitu : (Tinggen, 1993) 1. Subyek – Predikat Pola dalam kalimat ini merupakan pola kalimat bahasa Bali yang paling mendasar hanya dengan terdiri dari subyek dan predikat. Dalam predikat dapat terdiri dari predikat verbal, obyek, maupun kata keterangan. Contoh : Pianakne lulus S P 2. Subyek – Predikat – Keterangan Pola dalam kalimat ini memiliki subyek, predikat, dan keterangan. Keterangan dalam hal ini dapat berupa obyek atau kata keterangan seperti keterangan tempat, waktu dan sebagainya. Contoh : Ia medagang ditu S P K 16 3. Subyek – Predikat – Pelengkap Pola dalam kalimat ini memiliki subyek, predikat, dan pelengkap. Pelengkap dalam hal ini dapat berupa obyek atau kata keterangan seperti keterangan tempat, waktu dan sebagainya. Contoh : Ia medagang di peken S P Pel. 4. Subyek – Predikat – Obyek – Keterangan Pola dalam kalimat ini memiliki subyek, predikat, obyek, dan keterangan. Keterangan dalam hal ini dapat seperti keterangan tempat, waktu dan sebagainya. Contoh : Ia meli baju di peken S P O K