1 BAB I PENDAHULUAN 1.1. Latar Belakang Pengenalan lafal manusia agar dapat dilakukan oleh sebuah mesin telah menjadi fokus dari berbagai riset selama lebih dari empat dekade. Ide dasar yang sederhana yaitu agar sebuah mesin dapat mengenali ucapan yang disampaikan oleh manusia, lalu menginterpretasikan maksud dari ucapan tersebut sesuai dengan arti yang terkandung di dalamnya. Kemudian setelah sebuah mesin mampu mengenali ucapan yang disampaikan oleh manusia, tentunya banyak sekali manfaat yang bisa dikembangkan. Salah satunya adalah manusia dapat memberikan perintah pada sebuah mesin hanya dengan masukan berupa suara, kemudian mesin tersebut menjalankan aksi sesuai yang diperintahkan. Atau dikembangkan agar mesin dapat menyimpan ucapan suara manusia ke dalam bentuk teks. Namun untuk dapat mencapai tujuan tersebut, masih diperlukan risetriset yang berkesinambungan karena keberhasilan mesin untuk mengenali ucapan manusia dipengaruhi oleh banyak faktor. Antara lain mesin harus mampu mengenali ucapan dari berbagai variasi suara manusia, mesin harus mampu mengenali suara manusia dalam berbagai pengaruh lingkungan yang berbeda, mesin juga harus mengenali ucapan dari bahasa yang digunakan oleh manusia. Dari sekian banyak kebutuhan yang diharapkan dapat dicapai oleh sebuah mesin pengenalan suara, terdapat beberapa pengelompokan yang dilakukan dengan melihat dari jenis suara ucapan yang akan dikenali (Anusuya dan Katti, 2009). Pengelompokan tersebut antara lain sebagai berikut: a. Isolated words Pada jenis ini, mesin akan mengenali pengucapan kata yang tunggal dalam satu waktu tertentu. Jika ingin mengenali ucapan kata selanjutnya, maka pengucapan kata tersebut harus memiliki jeda waktu tunda yang yang cukup setelah pengucapan kata yang sebelumnya. Dengan 1 2 mekanisme seperti ini maka sistem memiliki fungsi untuk melakukan kegiatan Listen/Not-listen, sehingga biasanya proses pengenalan dilakukan ketika fungsi Not-listen dijalankan. b. Connected words Mesin pengenalan pada jenis ini memiliki kesamaan seperti pada jenis isolated-words namun mesin mengijinkan proses pengucapan banyak kata secara berkelanjutan dengan jeda waktu pengucapan yang lebih singkat. c. Continuous speech Mesin pengenalan suara jenis ini mengijinkan pemakai untuk mengucapkan rangkaian kata yang saling berkesinambungan. Mesin ini memiliki tingkat kesulitan yang lebih tinggi dari mesin sebelumnya. Hal ini disebabkan karena mesin harus memiliki metode khusus agar dapat mengenali batasan-batasan di antara masing-masing kata yang terucap. d. Spontaneous speech Suatu pengucapan yang alami dan tidak dibuat-buat merupakan masukan dari mesin ini. Agar dapat mengenali pengucapan secara alami tersebut, maka mesin pengenalan ucapan harus mampu menangani variasi dari berbagai fitur yang ada pada pengucapan alami tersebut. Masing-masing jenis masukan tersebut memiliki karakteristik khusus yang dapat mempengaruhi penentuan metode di dalam mesin pengenalan suara. Metode yang dikembangkan pun telah banyak dikembangkan dengan menawarkan berbagai kelebihan disamping beberapa kekurangan yang tidak dapat dihindari. Lebih lanjut lagi, proses pengembangan mesin pengenalan suara dapat dibedakan ke dalam tiga bentuk pendekatan (Rabiner dan Juang,1993), yaitu pendekatan akustik-fonetik (the acoustic-phonetic approach), pendekatan kecerdasan buatan (the artificial intelligence approach), dan pendekatan pengenalanpola (the pattern recognition approach). Pendekatan pengenalan pola terdiri dari dua langkah yaitu pembelajaran pola suara dan pengenalan pola 3 melalui perbandingan pola. Tahap perbandingan pola adalah tahap bagi ucapan yang akan dikenali, dibandingkan polanya dengan setiap kemungkinan pola yang telah dipelajari dalam fase pembelajaran, untuk kemudian diklasifikasi dengan pola terbaik yang cocok. Jika dilihat dari implementasi proses pengenalan suara, telah ada beberapa program aplikasi pengenalan suara yang dapat digunakan untuk berbagai keperluan seperti aplikasi pendeteksi keamanan berbasis suara, aplikasi perintah berbasis suara maupun aplikasi untuk diktasi yang telah disematkan pada perangkat komunikasi sebagai salah satu metode masukan. Namun aplikasi tersebut masih menggunakan bahasa inggris sebagai dasar dalam proses pengenalan kata. Sedangkan aplikasi yang menggunakan bahasa Indonesia sebagai dasar pengenalan suara masih perlu banyak pengembangan yang berkesinambungan agar dapat diimplementasikan dan dimanfaatkan secara meluas. Berdasarkan karakteristik dari masukan jenis suara yang juga mempengaruhi banyak atau sedikitnya data yang harus dikenali. Berbagai penelitian telah dilakukan secara umum untuk mengenali ucapan suatu kata dasar menjadi teks. Semakin banyak data kata yang dikenali oleh mesin maka semakin meningkatkan kemampuan dari mesin tersebut. Namun jika data yang dikenali berupa data kata tunggal, maka bisa dipastikan mesin harus merekam setiap kemungkinan atau variasi dari pengucapan kata tersebut. Baik berupa pengucapan kata dasar, maupun pengucapan kata yang telah mengalami transformasi, seperti penambahan imbuhan maupun sisipan. Juga variasi bahasa tertentu yang memiliki sejumlah kata dasar tertentu pula, demikian juga dengan bahasa lainnya. Salah satu penelitian yang berdasarkan penggalan kata dasar telah dilakukan oleh Abriyono (2011), yang melakukan proses pengenalan kata berbahasa Indonesia dengan berdasarkan pemenggalan kata menjadi bentuk suku kata dasar bahasa lisan. Variasi suku kata yang digunakan pada penelitian tersebut mencapai angka 1741 suku kata. Dengan pemenggalan ini maka telah mengurangi beban kerja mesin untuk mengenali dan menyimpan variasi bunyi daripada mengolah semua kata yang terdapat pada bahasa Indonesia. 4 Pada penelitian ini, penulis mencoba melakukan proses pengenalan lafal suara berdasarkan penggalan fonem dalam pengucapan bahasa Indonesia. Fonem merupakan satuan bunyi terkecil yang muncul dalam pengucapan kata atau kalimat. Pemilihan fonem sebagai ciri yang diekstrak bertujuan untuk membatasi data ciri yang akan disimpan dalam basis data. Ciri fonem diperoleh berdasarkan kombinasi huruf dalam suatu lafal kata, yaitu setiap fonem vokal dipasangkan dengan semua fonem konsonan. Pengenalan lafal fonem ini sangat berguna ketika terdapat kosa kata baru yang tidak/belum termasuk pada daftar leksisal atau kosa kata suatu bahasa (Kotwal dkk, 2011). Kombinasi huruf pada penelitian ini dimaksudkan untuk mengenali bunyi dari masing-masing pemilahan fonem bahasa Indonesia. Dengan pembatasan ini, maka tidak ada ketergantungan dengan banyaknya kosa kata yang dimiliki dalam tata bahasa Indonesia, dan tentunya diharapkan agar kinerja mesin tidak menitik beratkan pada basis data ciri kosa kata tetapi lebih ke pada variasi cara pengucapan bunyi dari masing-masing orang yang berbeda. Misal berdasarkan intonasi, logat maupun tinggi rendahnya suara. 1.2. Perumusan Masalah Berdasarkan latar belakang di atas, dirumuskan suatu permasalahan yang akan diselesaikan, yaitu bagaimana membuat sistem untuk ekstraksi fonem yang terdapat pada suatu kata dalam bahasa Indonesia. Hasil dari proses ekstraksi kemudian dapat ditampilkan hasilnya dalam bentuk teks berupa kombinasi fonem pembentuk kata. 1.3. Batasan Masalah Seperti yang disampaikan pada bagian pendahuluan tentang banyaknya hal yang dapat mempengaruhi keberhasilan proses pengenalan lafal suara manusia. Maka dalam penelitian ini terdapat beberapa batasan permasalahan antara lain: a. Lafal yang akan dikenal adalah berupa pengucapan satu buah kata tunggal pada satu waktu tertentu, atau lebih dikenal sebagai jenis pengenalan isolated word. 5 b. Bahasa yang diolah adalah bahasa Indonesia, dengan dialek umum dalam pelafalan bahasa secara formal. c. Proses perekaman lafal menggunakan perangkat input berupa mikrofon mono. 1.4. Tujuan Penelitian Penelitian ini bertujuan untuk menemukan cara dalam mengolah sinyal suara manusia agar menghasilkan suatu sistem yang dapat mengenal lafal ucapan manusia kemudian menghasilkan keluaran berupa teks. 1.5. Manfaat Penelitian Manfaat yang diharapkan dari penelitian ini adalah : a. Dapat mengenali komposisi fonem yang terdapat dalam sinyal kata yang diucapkan. b. Dapat mempermudah proses merubah suara dalam bahasa Indonesia menjadi teks. c. Dapat melihat pengaruh penggunaan metode Euclidean Distance terhadap keberhasilan proses perbandingan sinyal. d. Menambah wawasan tentang teknik pemotongan sinyal atau fragmentasi fonem dalam modul pengenalan suara. 1.6. Keaslian Penelitian Telah banyak penelitian yang dilakukan dalam bidang pengenalan lafal suara manusia. Penelitian dengan masukan berupa bahasa Indonesia juga telah banyak dilakukan. Namun untuk proses ekstraksi ciri suara berdasarkan fonem dari lafal suara dalam bahasa Indonesia serta kombinasi penggunaan metode pengembangannya belum ada peneliti yang membuat atau menghasilkan sistem yang serupa, dengan dipertanggungjawabkan. demikian keaslian penelitian ini dapat 6 1.7. Metodologi Penelitian Metode penelitian yang dilakukan pada penelitian ini terdiri dari beberapa tahapan, mulai dari pengumpulan bahan hingga evaluasi sistem. a. Pengumpulan bahan dan data Pada tahap ini, dilakukan beberapa kegiatan yaitu mengumpulkan serta mempelajari dokumentasi literatur dan teori yang berkaitan dengan pengenalan lafal suara. Kemudian mengumpulkan dan merumuskan lafal suara manusia berdasarkan kombinasi fonem-fonem yang ada dalam ucapan bahasa Indonesia. b. Perancangan dan Pembuatan Sistem Perancangan sistem ini dilakukan dengan menentukan arsitektur sistem, beserta kebutuhan-kebutuhan dari sistem. Sistem dibagi menjadi dua bagian, yaitu bagian untuk analisis suara dan bagian pengenalan lafal suara. Bagian analisis suara merupakan bagian pelatihan dari sistem. Bagian ini memiliki fungsi yaitu untuk mendapatkan ekstraksi ciri fonem-fonem dan menyimpannya ke dalam tabel ciri. Dari tabel ciri ini kemudian digunakan sebagai data perbandingan pada bagian pengenalan lafal suara. Sedangkan pada bagian pengenalan suara, berfungsi untuk mengetahui susunan fonem yang terdapat di dalam lafal kata uji. Sistem yang akan dibangun pada penelitian ini menggunakan analisis LPC dan Euclidean Distance. c. Perancangan Algoritma dan Antarmuka Proses yang dilakukan pada tahap ini adalah membuat algoritma yang sesuai dengan masing-masing proses yang membentuk sistem pengenalan lafal. Kemudian diterjemahkan ke dalam kode-kode program serta menentukan bentuk antarmuka sistem sebagai sarana interaksi dengan pengguna. d. Implementasi Algoritma yang telah dihasilkan pada tahap sebelumnya diimplementasikan menggunakan perkakas Matlab. Pemilihan matlab sebagai perkakas utama karena ketersediaan fungsi-fungsi untuk pengolahan sinyal diskrit lebih lengkap. Selain itu juga dimaksudkan agar penelitian lebih 7 terfokus pada bagaimana menerapkan algoritma untuk pengenalan lafal berdasarkan pola-pola sinyal yang terbentuk sesuai dengan lafal yang diucapkan. Penelitian ini juga menggunakan perkakas lain yang sesuai dalam menganalisa suatu sinyal suara seperti Speech Analizer serta Adobe Audition untuk melakukan pengolahan terhadap sinyal suara. e. Evaluasi Merupakan tahap evaluasi terhadap sistem yang telah selesai dibuat. Pada proses ini sistem akan diuji dengan berbagai variasi masukan antara lain: 1. Berkas lafal fonem data latih. 2. Berkas lafal fonem data uji. 3. Berkas lafal kata. Dari setiap variasi tersebut di atas, akan dievaluasi pengaruhnya terhadap keberhasilan proses pengenalan suara lafal. Tingkat keberhasilan dilihat berdasarkan fonem-fonem yang terdapat pada suatu lafal yang diucapkan. 1.8. Sistematika Penulisan Sistematika penulisan pada penelitian tesis ini adalah sebagai berikut: BAB I : Bab ini memberikan informasi yang berkaitan dengan penelitian seperti latar belakang, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian serta sistematika penulisan. BAB II : Bab ini memberikan informasi tinjauan pustaka dari sejumlah penelitian yang telah dilakukan sebelumnya khususnya dalam proses pengenalan suara. BAB III : Bab ini berisi informasi landasan teoritis berkaitan dengan fonologi bahasa Indonesia, bunyi bahasa, serta beberapa teorema tentang pengolahan sinyal suara. BAB IV : Bab ini menjelaskan tentang rincian perancangan sistem pengenalan lafal suara berupa deskripsi sistem, rancangan sistem, pemodelan sistem dan antarmuka grafis dari sistem. BAB V : Bab ini berisikan penulisan yang berkaitan dengan implementasi dari modul-modul untuk proses pelatihan dan pengenalan suara. 8 BAB VI : Bab ini merupakan uraian analisa hasil dan pembahasan berkaitan dengan data pengujian lafal suara berdasarkan ekstraksi ciri fonem. BAB VII : Bab ini merupakan simpulan dari keseluruhan kerja sistem serta saran-saran untuk pengembangan penelitian berikutnya.