1 BAB I PENDAHULUAN 1.1. Latar Belakang

advertisement
1
BAB I
PENDAHULUAN
1.1. Latar Belakang
Pengenalan lafal manusia agar dapat dilakukan oleh sebuah mesin telah
menjadi fokus dari berbagai riset selama lebih dari empat dekade. Ide dasar yang
sederhana yaitu agar sebuah mesin dapat mengenali ucapan yang disampaikan
oleh manusia, lalu menginterpretasikan maksud dari ucapan tersebut sesuai
dengan arti yang terkandung di dalamnya. Kemudian setelah sebuah mesin
mampu mengenali ucapan yang disampaikan oleh manusia, tentunya banyak
sekali manfaat yang bisa dikembangkan. Salah satunya adalah manusia dapat
memberikan perintah pada sebuah mesin hanya dengan masukan berupa suara,
kemudian mesin tersebut menjalankan aksi sesuai yang diperintahkan. Atau
dikembangkan agar mesin dapat menyimpan ucapan suara manusia ke dalam
bentuk teks. Namun untuk dapat mencapai tujuan tersebut, masih diperlukan risetriset yang berkesinambungan karena keberhasilan mesin untuk mengenali ucapan
manusia dipengaruhi oleh banyak faktor. Antara lain mesin harus mampu
mengenali ucapan dari berbagai variasi suara manusia, mesin harus mampu
mengenali suara manusia dalam berbagai pengaruh lingkungan yang berbeda,
mesin juga harus mengenali ucapan dari bahasa yang digunakan oleh manusia.
Dari sekian banyak kebutuhan yang diharapkan dapat dicapai oleh sebuah
mesin pengenalan suara, terdapat beberapa pengelompokan yang dilakukan
dengan melihat dari jenis suara ucapan yang akan dikenali (Anusuya dan Katti,
2009). Pengelompokan tersebut antara lain sebagai berikut:
a. Isolated words
Pada jenis ini, mesin akan mengenali pengucapan kata yang tunggal
dalam satu waktu tertentu. Jika ingin mengenali ucapan kata selanjutnya,
maka pengucapan kata tersebut harus memiliki jeda waktu tunda yang
yang cukup setelah pengucapan kata yang sebelumnya. Dengan
1
2
mekanisme seperti ini maka sistem memiliki fungsi untuk melakukan
kegiatan Listen/Not-listen, sehingga biasanya proses pengenalan
dilakukan ketika fungsi Not-listen dijalankan.
b. Connected words
Mesin pengenalan pada jenis ini memiliki kesamaan seperti pada jenis
isolated-words namun mesin mengijinkan proses pengucapan banyak
kata secara berkelanjutan dengan jeda waktu pengucapan yang lebih
singkat.
c. Continuous speech
Mesin pengenalan suara jenis ini mengijinkan pemakai untuk
mengucapkan rangkaian kata yang saling berkesinambungan. Mesin ini
memiliki tingkat kesulitan yang lebih tinggi dari mesin sebelumnya. Hal
ini disebabkan karena mesin harus memiliki metode khusus agar dapat
mengenali batasan-batasan di antara masing-masing kata yang terucap.
d. Spontaneous speech
Suatu pengucapan yang alami dan tidak dibuat-buat merupakan
masukan dari mesin ini. Agar dapat mengenali pengucapan secara alami
tersebut, maka mesin pengenalan ucapan harus mampu menangani
variasi dari berbagai fitur yang ada pada pengucapan alami tersebut.
Masing-masing jenis masukan tersebut memiliki karakteristik khusus yang
dapat mempengaruhi penentuan metode di dalam mesin pengenalan suara. Metode
yang dikembangkan pun telah banyak dikembangkan dengan menawarkan
berbagai kelebihan disamping beberapa kekurangan yang tidak dapat dihindari.
Lebih lanjut lagi, proses pengembangan mesin pengenalan suara dapat
dibedakan ke dalam tiga bentuk pendekatan (Rabiner dan Juang,1993), yaitu
pendekatan akustik-fonetik (the acoustic-phonetic approach), pendekatan
kecerdasan buatan (the artificial intelligence approach), dan pendekatan
pengenalanpola (the pattern recognition approach). Pendekatan pengenalan pola
terdiri dari dua langkah yaitu pembelajaran pola suara dan pengenalan pola
3
melalui perbandingan pola. Tahap perbandingan pola adalah tahap bagi ucapan
yang akan dikenali, dibandingkan polanya dengan setiap kemungkinan pola yang
telah dipelajari dalam fase pembelajaran, untuk kemudian diklasifikasi dengan
pola terbaik yang cocok.
Jika dilihat dari implementasi proses pengenalan suara, telah ada beberapa
program aplikasi pengenalan suara yang dapat digunakan untuk berbagai
keperluan seperti aplikasi pendeteksi keamanan berbasis suara, aplikasi perintah
berbasis suara maupun aplikasi untuk diktasi yang telah disematkan pada
perangkat komunikasi sebagai salah satu metode masukan. Namun aplikasi
tersebut masih menggunakan bahasa inggris sebagai dasar dalam proses
pengenalan kata. Sedangkan aplikasi yang menggunakan bahasa Indonesia
sebagai dasar pengenalan suara masih perlu banyak pengembangan yang
berkesinambungan agar dapat diimplementasikan dan dimanfaatkan secara
meluas.
Berdasarkan
karakteristik
dari
masukan
jenis
suara
yang
juga
mempengaruhi banyak atau sedikitnya data yang harus dikenali. Berbagai
penelitian telah dilakukan secara umum untuk mengenali ucapan suatu kata dasar
menjadi teks. Semakin banyak data kata yang dikenali oleh mesin maka semakin
meningkatkan kemampuan dari mesin tersebut. Namun jika data yang dikenali
berupa data kata tunggal, maka bisa dipastikan mesin harus merekam setiap
kemungkinan atau variasi dari pengucapan kata tersebut. Baik berupa pengucapan
kata dasar, maupun pengucapan kata yang telah mengalami transformasi, seperti
penambahan imbuhan maupun sisipan. Juga variasi bahasa tertentu yang memiliki
sejumlah kata dasar tertentu pula, demikian juga dengan bahasa lainnya.
Salah satu penelitian yang berdasarkan penggalan kata dasar telah dilakukan
oleh Abriyono (2011), yang melakukan proses pengenalan kata berbahasa
Indonesia dengan berdasarkan pemenggalan kata menjadi bentuk suku kata dasar
bahasa lisan. Variasi suku kata yang digunakan pada penelitian tersebut mencapai
angka 1741 suku kata. Dengan pemenggalan ini maka telah mengurangi beban
kerja mesin untuk mengenali dan menyimpan variasi bunyi daripada mengolah
semua kata yang terdapat pada bahasa Indonesia.
4
Pada penelitian ini, penulis mencoba melakukan proses pengenalan lafal
suara berdasarkan penggalan fonem dalam pengucapan bahasa Indonesia. Fonem
merupakan satuan bunyi terkecil yang muncul dalam pengucapan kata atau
kalimat. Pemilihan fonem sebagai ciri yang diekstrak bertujuan untuk membatasi
data ciri yang akan disimpan dalam basis data. Ciri fonem diperoleh berdasarkan
kombinasi huruf dalam suatu lafal kata, yaitu setiap fonem vokal dipasangkan
dengan semua fonem konsonan. Pengenalan lafal fonem ini sangat berguna ketika
terdapat kosa kata baru yang tidak/belum termasuk pada daftar leksisal atau kosa
kata suatu bahasa (Kotwal dkk, 2011).
Kombinasi huruf pada penelitian ini dimaksudkan untuk mengenali bunyi
dari masing-masing pemilahan fonem bahasa Indonesia. Dengan pembatasan ini,
maka tidak ada ketergantungan dengan banyaknya kosa kata yang dimiliki dalam
tata bahasa Indonesia, dan tentunya diharapkan agar kinerja mesin tidak menitik
beratkan pada basis data ciri kosa kata tetapi lebih ke pada variasi cara
pengucapan bunyi dari masing-masing orang yang berbeda. Misal berdasarkan
intonasi, logat maupun tinggi rendahnya suara.
1.2. Perumusan Masalah
Berdasarkan latar belakang di atas, dirumuskan suatu permasalahan yang
akan diselesaikan, yaitu bagaimana membuat sistem untuk ekstraksi fonem yang
terdapat pada suatu kata dalam bahasa Indonesia. Hasil dari proses ekstraksi
kemudian dapat ditampilkan hasilnya dalam bentuk teks berupa kombinasi fonem
pembentuk kata.
1.3. Batasan Masalah
Seperti yang disampaikan pada bagian pendahuluan tentang banyaknya hal
yang dapat mempengaruhi keberhasilan proses pengenalan lafal suara manusia.
Maka dalam penelitian ini terdapat beberapa batasan permasalahan antara lain:
a. Lafal yang akan dikenal adalah berupa pengucapan satu buah kata
tunggal pada satu waktu tertentu, atau lebih dikenal sebagai jenis
pengenalan isolated word.
5
b. Bahasa yang diolah adalah bahasa Indonesia, dengan dialek umum
dalam pelafalan bahasa secara formal.
c. Proses perekaman lafal menggunakan perangkat input berupa mikrofon
mono.
1.4. Tujuan Penelitian
Penelitian ini bertujuan untuk menemukan cara dalam mengolah sinyal
suara manusia agar menghasilkan suatu sistem yang dapat mengenal lafal ucapan
manusia kemudian menghasilkan keluaran berupa teks.
1.5. Manfaat Penelitian
Manfaat yang diharapkan dari penelitian ini adalah :
a. Dapat mengenali komposisi fonem yang terdapat dalam sinyal kata yang
diucapkan.
b. Dapat mempermudah proses merubah suara dalam bahasa Indonesia
menjadi teks.
c. Dapat melihat pengaruh penggunaan metode Euclidean Distance
terhadap keberhasilan proses perbandingan sinyal.
d. Menambah wawasan tentang teknik pemotongan sinyal atau fragmentasi
fonem dalam modul pengenalan suara.
1.6. Keaslian Penelitian
Telah banyak penelitian yang dilakukan dalam bidang pengenalan lafal
suara manusia. Penelitian dengan masukan berupa bahasa Indonesia juga telah
banyak dilakukan. Namun untuk proses ekstraksi ciri suara berdasarkan fonem
dari lafal suara dalam bahasa Indonesia serta kombinasi penggunaan metode
pengembangannya belum ada peneliti yang membuat atau menghasilkan sistem
yang
serupa,
dengan
dipertanggungjawabkan.
demikian
keaslian
penelitian
ini
dapat
6
1.7. Metodologi Penelitian
Metode penelitian yang dilakukan pada penelitian ini terdiri dari beberapa
tahapan, mulai dari pengumpulan bahan hingga evaluasi sistem.
a.
Pengumpulan bahan dan data
Pada tahap ini, dilakukan beberapa kegiatan yaitu mengumpulkan serta
mempelajari dokumentasi literatur dan teori yang berkaitan dengan pengenalan
lafal suara. Kemudian mengumpulkan dan merumuskan lafal suara manusia
berdasarkan kombinasi fonem-fonem yang ada dalam ucapan bahasa
Indonesia.
b.
Perancangan dan Pembuatan Sistem
Perancangan sistem ini dilakukan dengan menentukan arsitektur sistem,
beserta kebutuhan-kebutuhan dari sistem. Sistem dibagi menjadi dua bagian,
yaitu bagian untuk analisis suara dan bagian pengenalan lafal suara.
Bagian analisis suara merupakan bagian pelatihan dari sistem. Bagian ini
memiliki fungsi yaitu untuk mendapatkan ekstraksi ciri fonem-fonem dan
menyimpannya ke dalam tabel ciri. Dari tabel ciri ini kemudian digunakan
sebagai data perbandingan pada bagian pengenalan lafal suara. Sedangkan pada
bagian pengenalan suara, berfungsi untuk mengetahui susunan fonem yang
terdapat di dalam lafal kata uji. Sistem yang akan dibangun pada penelitian ini
menggunakan analisis LPC dan Euclidean Distance.
c.
Perancangan Algoritma dan Antarmuka
Proses yang dilakukan pada tahap ini adalah membuat algoritma yang
sesuai dengan masing-masing proses yang membentuk sistem pengenalan lafal.
Kemudian diterjemahkan ke dalam kode-kode program serta menentukan
bentuk antarmuka sistem sebagai sarana interaksi dengan pengguna.
d.
Implementasi
Algoritma
yang
telah
dihasilkan
pada
tahap
sebelumnya
diimplementasikan menggunakan perkakas Matlab. Pemilihan matlab sebagai
perkakas utama karena ketersediaan fungsi-fungsi untuk pengolahan sinyal
diskrit lebih lengkap. Selain itu juga dimaksudkan agar penelitian lebih
7
terfokus pada bagaimana menerapkan algoritma untuk pengenalan lafal
berdasarkan pola-pola sinyal yang terbentuk sesuai dengan lafal yang
diucapkan. Penelitian ini juga menggunakan perkakas lain yang sesuai dalam
menganalisa suatu sinyal suara seperti Speech Analizer serta Adobe Audition
untuk melakukan pengolahan terhadap sinyal suara.
e.
Evaluasi
Merupakan tahap evaluasi terhadap sistem yang telah selesai dibuat. Pada
proses ini sistem akan diuji dengan berbagai variasi masukan antara lain:
1. Berkas lafal fonem data latih.
2. Berkas lafal fonem data uji.
3. Berkas lafal kata.
Dari setiap variasi tersebut di atas, akan dievaluasi pengaruhnya terhadap
keberhasilan proses pengenalan suara lafal. Tingkat keberhasilan dilihat
berdasarkan fonem-fonem yang terdapat pada suatu lafal yang diucapkan.
1.8. Sistematika Penulisan
Sistematika penulisan pada penelitian tesis ini adalah sebagai berikut:
BAB I
: Bab ini memberikan informasi yang berkaitan dengan penelitian
seperti latar belakang, perumusan masalah, batasan masalah, tujuan
penelitian, manfaat penelitian serta sistematika penulisan.
BAB II
: Bab ini memberikan informasi tinjauan pustaka dari sejumlah
penelitian yang telah dilakukan sebelumnya khususnya dalam
proses pengenalan suara.
BAB III
: Bab ini berisi informasi landasan teoritis berkaitan dengan fonologi
bahasa Indonesia, bunyi bahasa, serta beberapa teorema tentang
pengolahan sinyal suara.
BAB IV
: Bab
ini
menjelaskan
tentang
rincian
perancangan
sistem
pengenalan lafal suara berupa deskripsi sistem, rancangan sistem,
pemodelan sistem dan antarmuka grafis dari sistem.
BAB V
: Bab ini berisikan penulisan yang berkaitan dengan implementasi
dari modul-modul untuk proses pelatihan dan pengenalan suara.
8
BAB VI
: Bab ini merupakan uraian analisa hasil dan pembahasan berkaitan
dengan data pengujian lafal suara berdasarkan ekstraksi ciri fonem.
BAB VII
: Bab ini merupakan simpulan dari keseluruhan kerja sistem serta
saran-saran untuk pengembangan penelitian berikutnya.
Download