(Natural Language Processing) Pemrosesan bahasa alami

advertisement
BAB II
TINJAUAN PUSTAKA
2.1 Pemrosesan Bahasa Alami (Natural Language Processing)
Pemrosesan bahasa alami (Natual Language Processing - NLP)
merupakan salah satu bidang ilmu Kecerdasan Buatan (Artificial Intelligence)
yang mempelajari komunikasi antara manusia dengan komputer melalui bahasa
alami, baik lisan maupun tulisan.
Proses representasi bahasa dalam bentuk yang lebih memungkinkan untuk
dikomputasi telah dilakukan oleh seorang ahli bernama Chomsky pada tahun 1957
(Desiani dan Arhami, 2006). Pada bidang ilmu pemrosesan bahasa alami tidak
mudah untuk dilakukan karena terdapat beberapa alasan yang menyulitkan pada
pemrosesan bahasa alami (Desiani dan Arhami, 2006). Salah satu kesulitan dalam
pemrosesan bahasa alami adalah pemilihan arti yang tepat dari suatu kata
bermakna ganda seperti kata “bisa” yang dapat berarti “racun” atau “dapat” sesuai
dengan kalimatnya. Fenomena ini terjadi dalam penentuan jenis kata (part of
speech) seperti kata “advanced” yang dapat berfungsi sebagai kata kerja aktif
lampau, kata kerja pasif, atau kata sifat. Selain itu, jumlah kosa kata (vocabulary)
dalam bahasa alami besar dan terus berkembang dari waktu ke waktu (Desiani dan
Arhami, 2006).
NLP sering diterapkan pada aplikasi bahasa tertulis, tetapi saat ini
pengembangan aplikasi bahasa lisan juga dilakukan yang kesulitannya mungkin
terjadi dimana dalam bahasa lisan, manusia sangat sering membentuk ucapan
yang tidak sesuai dengan aturan-aturan yang berlaku.
Salah satu aplikasi dari pemrosesan bahasa alami adalah sistem
penerjemah bahasa alami (natural language translator) seperti sistem penerjemah
dari bahasa Inggris ke bahasa Indonesia. Translator tidak hanya dapat
menerjemahkan kata per kata (kamus) tetapi juga dapat mentranslasikan dari
bahasa asal ke bahasa target dengan maksud yang dapat dimengerti (Desiani dan
Arhami, 2006).
5
6
2.2 Sistem Penerjemah
Pemrosesan bahasa alami merupakan teknologi yang memungkinkan
berbagai macam jenis pemrosesan terhadap bahasa alami yang biasa digunakan
oleh manusia. Pemrosesan bahasa alami mencakup aplikasi yang sangat banyak.
Salah satu aplikasi yang sangat penting dari kajian ilmu pemrosesan bahasa alami
yaitu sistem penerjemah atau machine translation (Barkade et al, 2010).
Sistem penerjemah atau machine translation merupakan suatu sistem yang
dapat menerjemahkan bahasa sumber (source language) ke dalam bahasa tujuan
(target language). Tujuan dari sistem ini adalah untuk menerima masukan dari
bahasa sumber dan memberikan keluaran yang berarti dalam bahasa tujuan
(Fromkin et al, 2003). Penerapan sistem penerjemah dimulai sejak tahun 1940
yaitu sejak penggunaan komputer dalam memproses bahasa alami. Dalam
perkembangannya, sistem penerjemah tidak hanya berupa teks (text) tetapi juga
telah berkembang menjadi penerjemah ucapan (speech) dari satu bahasa ke bahasa
lainnya (Fromkin et al, 2003). Selain itu, dikembangkan juga sistem penerjemah
ucapan ke dalam bentuk teks maupun teks ke dalam bentuk ucapan.
Sistem penerjemah memiliki beberapa pendekatan yang digunakan dalam
menerjemahkan bahasa. Pendekatan tersebut memiliki tiga pendekatan utama
yaitu pendekatan berbasis aturan (rule based), statistik (statistical), dan berbasis
contoh (example based) (Kamatani et al, 2009). Pendekatan berbasis aturan (rule
based) menggunakan banyak aturan penerjemahan yang diuraikan secara konkret
untuk mendapatkan terjemahan yang sesuai dalam bahasa tujuan. Aturan-aturan
tersebut memberikan ketahanan yang baik pada sistem tetapi juga kadang-kadang
menyebabkan sistem menjadi kurang lancar. Sistem dengan pendekatan statistik
(statistical) menggunakan basis statistik dengan analisis korpus dwibahasa yang
dapat menghemat biaya pengembangan, tetapi dalam beberapa kasus, hasil
terjemahan sistem dengan pendekatan berbasis aturan (rule based) memiliki hasil
yang lebih sesuai daripada menggunakan pendekatan berbasis statistik. Sistem
dengan pendekatan berbasis contoh (example based) merupakan sistem dengan
memanfaatkan contoh terjemahan (dari korpus maupun kitab bahasa) sehingga
lebih alami maknanya daripada hasil dari pendekatan berbasis aturan. Namun,
7
pada sistem ini hanya tergantung pada basis data contoh sehingga memiliki
ketahanan yang rendah (Kamatani et al, 2009). Pendekatan berbasis statistik dan
pendekatan berbasis contoh menggunakan korpus dua bahasa untuk melakukan
proses-proses pada sistem (Saraswathi et al, 2011).
2.3 Sistem Penerjemah Berbasis Aturan (Rule Based)
Sistem penerjemah berbasis aturan (rule based) merupakan suatu sistem
penerjemah dengan pendekatan yang menggunakan aturan dalam proses
penerjemahan. Aturan (rule) yang diimplementasikan pada sistem dapat
dinyatakan dengan menggunakan ″If - Then″. Setiap kalimat dari bahasa asal
diklasifikasikan menurut kelasnya masing-masing menggunakan atribut (jenis
kata) dari bahasa asal yang kemudian dialihbahasakan ke bahasa target dengan
menggunakan aturan-aturan yang terdapat pada sistem penerjemah. Dalam
mengalihbahasakan bahasa asal ke bahasa target digunakan kamus (dictionary)
yang memuat kedua bahasa (Francisca et al, 2011).
Dari tiga tipe pendekatan pada penerjemah bahasa, pendekatan berbasis
aturan merupakan salah satu pendekatan yang efektif (Barkade et al, 2010).
Bagian terpenting dari sistem penerjemah berbasis aturan (rule based) adalah
koleksi dari aturan-aturan tersebut. Tidak ada standarisasi untuk implementasi dari
aturan tersebut (Arman, 2007). Beberapa contoh aturan (rule) dalam sistem
penerjemah bahasa Inggris ke bahasa Indonesia adalah sebagai berikut (Arman,
2007) :
1. Aturan kata kerja dalam tenses present continous (contoh : is eating, are
going, am waiting) adalah <TO_BE> <VERB_ING> diterjemahkan ke dalam
<sedang>
<VERB>.
Berikut
algoritma
yang
digunakan
untuk
mengimplementasikan aturan tersebut.
IF ((category of WORD[n]) = TO_BE) AND
((category of WORD[n+1]) = VERB_ING)
THEN do something
2. Aturan yang merepresentasikan frase benda yang menggunakan adjektif
sebagai informasi (contoh : red car, high building). Aturannya : <ADJ>
8
<NOUN>
yang diterjemahkan ke <NOUN> <ADJ>. Berikut algoritma yang
digunakan untuk mengimplementasikan aturan tersebut.
IF ((category of WORD[n]) = ADJ) AND
((category of WORD[n+1]) = NOUN)
THEN do something
Sistem penerjemah berbasis aturan dapat digambarkan sebagai berikut.
RULE
COLLECTIONS
(All Rules)
RULE-BASED
TRANSLATOR
Source Language
Target Language
DICTIONARY
Gambar 2.1 Sistem Penerjemah Berbasis Aturan
(Sumber : Arman, 2007)
Beberapa penelitian sistem penerjemah berbasis aturan (rule based) dari
berbagai macam bahasa adalah sebagai berikut :
Tabel 2.1 Penelitian Mengenai Penerjemah Bahasa Berbasis Aturan
No.
Peneliti
Tahun
Bahasa
1
Nurul
2005
Bahasa Inggris ke Sistem dapat
Wikantyasning
2
bahasa Jawa
Kesimpulan
menerjemahkan bahasa
(Wikantyasning,
Inggris ke bahasa Jawa
2005)
dengan baik
Ema Utami dan
Sri Hartati
2007
Bahasa Inggris ke Sistem dapat
bahasa Indonesia
menerjemahkan kalimat
(Utami dan
dengan cukup baik
Hartati, 2007)
menggunakan metode rule
based
9
3
Yusuf
2008
(Yusuf, 2008)
Bahasa Inggris ke Metode berbasis aturan
bahasa Indonesia
dengan aturan translasi
MD-DM dan Translasi
Padanan arti memberikan
rata-rata kinerja terbaik
4
Ari Triwibowo
2009
(Triwibowo,
Bahasa Inggris ke Sistem yang dibuat telah
bahasa Indonesia
2009)
sesuai dengan aturan
penggunaan tata bahasa
Inggris dan Indonesia yang
ada
5
Muhammad
2010
Syaukani
Bahasa Inggris ke Pendekatan berbasis aturan
bahasa Indonesia
(Syaukani, 2010)
berhasil diimplementasikan
pada aplikasi
komunikasi online InggrisIndonesia
6
Ms VM Barkade
2010
(Barkade et al,
Bahasa Inggris ke Implementasi modul
bahasa Sanskrit
2010)
7
Judith Francisca
semantic mapper untuk
memetakan kedua bahasa
2011
(Francisca et al,
2011)
Bahasa Inggris ke Implementasi pendekatan
bahasa Bangla
dengan algoritma baru pada
proses penerjemahan
2.4 Context Free Grammar
Sebagian besar sistem dalam memodelkan struktur konstituen dalam
bahasa Inggris atau bahasa alami lainnya adalah dengan menggunakan Context
Free Grammar atau CFG (Jurafsky and Martin, 1999). Konstituen adalah unsurunsur pembentuk kalimat yang dapat berdiri sendiri seperti noun phrase atau verb
phrase. Sebuah CFG terdiri dari rule atau productions, kumpulan kata maupun
simbol. Kalimat yang dapat diperoleh dengan tata bahasa formal (formal
grammar) disebut kalimat yang sesuai dengan tata bahasa (grammatical sentence)
sedangkan yang tidak dapat diperoleh disebut kalimat yang tidak sesuai dengan
tata bahasa (ungrammatical) (Jurafsky and Martin, 1999).
10
Simbol yang dipergunakan dalam CFG terdiri dari dua kelas yaitu simbol
terminal dan simbol non terminal. Simbol terminal merupakan kata dalam setiap
bahasa (‘the’, ‘nightclub’). Pada aturan context-free, simbol non terminal berada
di sebelah kiri tanda panah (→) dan kategori dari masing-masing simbol terminal
atau kata disebelah kanan tanda panah. Simbol non terminal merupakan suatu
ekspresi generalisasi (NP, VP). Sehingga untuk sebuah Context Free Grammar
mempunyai
empat
parameter
(secara
teknik
disebut
4-tuple)
(Jurafsky and Martin, 1999) :
1. N : Kumpulan simbol non terminal (atau variabel)
2. ∑ : Kumpulan simbol terminal
3. P : Kumpulan produksi, yang dinyatakan dalam bentuk A → α dimana
A merupakan simbol non terminal
4. S : Simbol permulaan
Pada context free grammar, penggunaan pohon parsing berguna untuk
memeriksa grammar dari suatu aplikasi pengolahan kata. Suatu masukan, seperti
kalimat yang tidak dapat di parsing kemungkinan memiliki struktur gramatikal
yang salah (atau sulit untuk dibaca) (Jurafsky and Martin, 1999). Parsing atau
analisa sintaks adalah proses dalam menganalisa teks, yang terdiri dari urutan
token (seperti kata) untuk menentukan struktur dengan memperhatikan tata bahasa
yang diberikan (Barkade et al, 2010). Dalam melakukan suatu parsing, metode
yang umum digunakan yaitu top-down dan bottom-up. Pemilihan metode parsing
yang digunakan harus dilakukan secara jeli, dengan memperhatikan kompleksitas
tata bahasa dan kebutuhan aplikasi (Suciadi, 2001). Parser bottom up tidak
membedakan antara rule (grammar) dan word (lexicon) sehingga cara kerjanya
sangat sederhana namun sangat "bodoh" karena akan terus mengulang-ulang
kesalahan yang sama (Suciadi, 2001).
Top-down parser mencari pohon parsing dari root node yaitu ‘S’.
Langkahnya dimulai dari penempatan simbol permulaan ‘S’ untuk semua kasus
dan kemudian mencari semua aturan tata-bahasa (grammar rule) yang sesuai.
Dalam top-down parser terdapat strategi yang bernama depth-first yang mencari
grammar yang sesuai dari setiap masukan yang paling pertama dan selanjutnya.
11
Gambar 2.2 Top Down Depth-First Derivation
(Sumber : Jurafsky and Martin, 1999)
2.5 Tata Bahasa Inggris
Bahasa Inggris merupakan salah satu bahasa alami manusia yang
mempunyai tata bahasa dengan pola untuk setiap kalimatnya. Penelitian ini
mencakup masukan (input) berupa teks. Teks yang dicakup dalam penelitian ini
berupa satuan bahasa yang berupa kata, frase, dan kalimat tunggal. Kata
merupakan gabungan morfem yang dapat diujarkan sebagai bentuk bebas yang
paling kecil. Contoh kata dalam bahasa Inggris beserta padanannya dalam bahasa
Bali yaitu I (Titiang). Frase merupakan sekelompok kata-kata yang memiliki
fungsi sama. Dalam penelitian ini hanya menggunakan frase benda, verba,
preposisi serta tidak mempergunakan frase idiom. Contoh dari frase yaitu in the
basement (frase preposisi). Kalimat tunggal berbentuk aktif merupakan kalimat
yang memiliki satu verba dan subjeknya yang melakukan suatu tindakan
(Phythian, 1995).
12
Pada kata-kata yang ditulis seringkali terlihat bahwa terdapat kata yang
dihilangkan. Contractions atau singkatan merupakan kata-kata yang ditulis
dengan penghapusan huruf-huruf tertentu untuk mencerminkan cara pengucapan
yang lazim (Phythian, 1995). Contoh beberapa singkatan untuk tenses yang
dipergunakan yaitu I’ll berarti I will dan don’t berarti do not. Beberapa hal yang
perlu dikaji dalam bahasa inggris yaitu struktur bahasa Inggris dalam bentuk
waktu (tenses), bentuk kata benda, dan jenis kata.
2.5.1 Bentuk Waktu (Tenses) Dalam Bahasa Inggris
Dalam struktur bahasa Inggris dikenal adanya tenses atau waktu kejadian.
Struktur kalimat yang terdapat pada kalimat bahasa Inggris terdiri dari 12 macam
tenses (Azar, 1992). Dalam penelitian ini hanya menggunakan dua macam tenses
yaitu simple present tense dan simple future tense. Berikut pemaparan kedua
macam tenses tersebut :
1. Simple Present Tense
Tenses ini digunakan untuk menyatakan suatu kegiatan yang dilakukan
sehari-hari atau biasa dilakukan. Tenses ini juga dapat digunakan dalam kondisi
kebenaran umum serta suatu kegiatan yang dilakukan secara berulang atau
kebiasaan. Predikat pada tenses ini memakai kata kerja bentuk pertama (Verb
1) dan memakai to be untuk bentuk nominal.
Rumus :
Bentuk nominal
: Subject + to be (is, am, are) + Complement
Bentuk verbal
: They/We/I/You + Verb 1 + Object
He/She/It + Verb 1 + s/es + Object
Kata-kata yang disingkat pada tenses ini seperti kata am yang disingkat m
(′m), kata are yang disingkat re (′re), kata is yang disingkat s (′s), kata not yang
disingkat n′t.
2. Simple Future Tense
Tenses ini digunakan untuk menyatakan sesuatu yang akan dilakukan
pada waktu atau masa yang akan datang. Predikat pada tenses ini yaitu kata
kerja bentuk pertama (Verb 1).
13
Rumus:
Subject + will + Verb 1 + Object
Kata-kata yang disingkat pada tenses ini seperti kata will yang disingkat
menjadi ll (′ll), kata will not yang disingkat menjadi won’t.
2.5.2 Bentuk Kata Benda
Kata benda memiliki dua bentuk, yaitu bentuk tunggal (singular) dan
bentuk jamak (plural). Dalam bahasa Inggris, juga dikenal adanya perubahan
bentuk kata benda dari bentuk tunggal ke bentuk jamak. Aturan perubahan
tersebut adalah :
1. Secara umum menambahkan huruf ′s′, contoh book + ′s′ menjadi books.
2. Menambahkan rangkaian ′es′ jika bentuk tunggalnya berakhiran dengan bunyi
desis, seperti ′sh′, ′ch′, ′s′, ′z′, ′x′.
3. Menambahkan ′ies′ jika bentuk tunggalnya berakhiran dengan huruf ′y′ yang
sebelumnya adalah huruf mati.
2.5.3 Jenis Kata
Berikut merupakan kajian jenis kata beserta dengan fungsinya masingmasing (Phythian, 1995) :
1. Kata Benda (Noun)
Noun atau nomina adalah kata yang digunakan untuk menamai benda atau
orang. Contoh dari noun adalah rabbit, child, man. Untuk nomina yang digunakan
untuk menamai orang disebut dengan proper noun. Seperti contoh Nicholas
Nickleby.
2. Kata Ganti (Pronoun)
Pronoun merupakan kata yang berfungsi sebagai pengganti nomina.
Sebagai contoh dari pronoun yaitu I, She, We, It.
3. Kata Sifat (Adjective)
Adjective merupakan kata yang melukiskan nomina. Contoh dari adjective
yaitu invisible, beautiful, cold.
14
4. Kata Kerja (Verb)
Kata yang menunjukkan suatu tindakan atau keadaan. Contoh dari verb
yaitu walk, think, kick.
5. Kata Keterangan (Adverb)
Adverb atau adverbia merupakan kata yang melukiskan verba, adjective.
Contoh dari adverb adalah loudly, weekly.
6. Kata Depan (Preposition)
Kata depan merupakan kata yang menunjukkan hubungan antara nomina
dan bagian-bagian lainnya. Contoh dari kata depan yaitu in, into, from.
7. Kata Sambung (Conjunction)
Kata yang menggabungkan dua kata. Contoh kata sambung adalah and, or,
because, before.
2.6 Tata Bahasa Bali
Bahasa Bali mempunyai sejarah yang panjang, sejak zaman Bali Kuno
sampai sekarang. Sepanjang perkembangan sejarahnya itu bahasa Bali mengalami
banyak perubahan-perubahan dan mendapat banyak pengaruh dari bahasa
Sanskerta maupun Jawa Kuno. Bahkan juga dari bahasa Cina, Inggris, Prancis,
Portugis, dan Arab. Belakangan bahasa Bali mendapatkan banyak pengaruh dari
bahasa Indonesia (Sancaya, 1990).
Bahasa Bali merupakan bahasa yang terbesar dipakai di Bali, secara umum
dan secara garis besar dikatakan memiliki dua dialek yaitu dialek Bali Dataran
dan dialek Baliaga. Selain itu juga bahasa Bali dilihat dari sudut pandang
sosiologi terdapat adanya tingkatan-tingkatan bahasa (level of speech) yang
disebut dengan anggah ungguhing basa. Dalam penelitian ini hanya
menggunakan bahasa Bali Kepara.
2.6.1 Bahasa Bali Kepara
Terdapat beberapa pendapat yang saling berbeda mengenai pengertian
bahasa Bali Kepara ini. Adanya perbedaan tersebut rupanya disebabkan oleh
perbedaan rasa. Dalam bahasa yang keberadaannya banyak ditentukan oleh
15
stratifikasi sosial masyarakat penuturnya, tergantung pada tempat, waktu, dan
manusianya. Halus dan kasarnya suatu bahasa tidak bisa ditentukan secara
obyektif dari keberadaan bahasa tersebut (Sancaya, 1990).
Penggunaan istilah bahasa Bali Kepara sebagai salah satu bagian dari
bahasa Bali sebenarnya masih tetap relevan dan perlu dipertahankan. Hal tersebut
dikarenakan lebih mencerminkan kenyataan bahasa Bali yang masih hidup dan
berkembang dewasa ini. Dari beberapa pendapat para ahli dapat disimpulkan
bahwa bahasa Bali Kepara merupakan bahasa Bali yang dipakai sebagai alat
komunikasi dalam kehidupan sehari-hari, termasuk di dalamnya tingkatan bahasa
Kasar, bahasa Madia, dan bahasa Alus (Sancaya, 1990).
2.6.2 Pola Dasar Kalimat Bahasa Bali
Dalam bahasa Bali dikenal adanya struktur yang mengikat tata bahasa
Bali, seperti struktur fonologi, morfologi, dan sintaksis. Struktur fonem
berhubungan dengan tata bunyi dalam bahasa Bali, struktur morfologi yaitu
bagian dari tata bahasa yang membahas mengenai seluk-beluk struktur kata serta
pengaruh perubahan struktur kata terhadap jenis kata. Sedangkan stuktur sintaksis
yaitu mencakup bagian yang melingkupi pada tata kalimat (Anom et al, 1993).
Kalimat bahasa Bali memiliki beberapa pola dasar yaitu : (Tinggen, 1993)
1. Subyek – Predikat
Pola dalam kalimat ini merupakan pola kalimat bahasa Bali yang paling
mendasar hanya dengan terdiri dari subyek dan predikat. Dalam predikat dapat
terdiri dari predikat verbal, obyek, maupun kata keterangan.
Contoh : Pianakne lulus
S
P
2. Subyek – Predikat – Keterangan
Pola dalam kalimat ini memiliki subyek, predikat, dan keterangan.
Keterangan dalam hal ini dapat berupa obyek atau kata keterangan seperti
keterangan tempat, waktu dan sebagainya.
Contoh : Ia medagang ditu
S
P
K
16
3. Subyek – Predikat – Pelengkap
Pola dalam kalimat ini memiliki subyek, predikat, dan pelengkap.
Pelengkap dalam hal ini dapat berupa obyek atau kata keterangan seperti
keterangan tempat, waktu dan sebagainya.
Contoh : Ia medagang di peken
S
P
Pel.
4. Subyek – Predikat – Obyek – Keterangan
Pola dalam kalimat ini memiliki subyek, predikat, obyek, dan keterangan.
Keterangan dalam hal ini dapat seperti keterangan tempat, waktu dan
sebagainya.
Contoh : Ia meli baju di peken
S P
O
K
Download