BAB I PENDAHULUAN 1.1 LATAR BELAKANG Cara interaksi antara manusia dengan komputer sampai saat ini, yang secara umum digunakan sebagian besar masih dilakukan secara tanpa lisan. Cara tersebut dilakukan menggunakan keyboard sebagai piranti utama untuk memasukkan data dan layar monitor sebagai piranti utama untuk menyajikan hasil komputasi. Dengan berkembangnya sistem operasi berbasis grafik telah menyebabkan digunakannya piranti mouse sebagai pelengkap keyboard. Keinginan untuk membuat cara berinteraksi yang lebih alami menyebabkan perlunya dicari alternatif lain sebagai pengganti atau pelengkap piranti yang sudah ada. Manusia dalam berinteraksi dengan sesama manusia secara umum banyak dilakukan menggunakan ucapan. Dengan menerapkan cara interaksi antara sesama manusia tersebut diharapkan menjadi cara alternatif yang dapat dipakai untuk interaksi antara manusia dan komputer secara lisan layaknya interakasi antara manusia dengan manusia. Dengan didukung oleh berkembangnya teknologi multimedia memungkinkan dilakukan penelitian dan pengembangan dalam mengolah komponen multimedia, sehingga bisa dimanfaatkan sebagai sarana interaksi antara manusia dan komputer. Komponen multimedia terus dilakukan penelitian dan yang sudah banyak dikembangkan dari segi pemanfaatannya adalah suara. Dengan memanfaatkan masukan yang berupa suara ini dimungkinkan untuk melakukan interaksi secara lisan melalui ucapan. Cara interaksi menggunakan ucapan dianggap lebih mudah dan nyaman dilakukan. Untuk mewujudkan keinginan tersebut ada dua teknologi kunci yang diperlukan, yaitu sebagai berikut: 1. Teknologi Pengenalan Ucapan (Speech Recognition). diperlukan untuk mengenali setiap ucapan menjadi teks. 1 Teknologi ini 2 2. Teknologi Pensintesa Ucapan (Speech Synthesizer). Teknologi ini diperlukan untuk mengucapkan informasi teks yang dihasilkan oleh komputer. Sistem seperti ini dikenal pula dengan istilah sistem Text To Speech (TTS). Banyak penelitian yang telah dan sedang dilakukan untuk mendapatkan pengenalan ucapan yang cepat dan akurat. Salah satu yang terkenal adalah penelitian yang dilakukan oleh Microsoft Corporation yang dikembangkan untuk sistem operasi Windows. Selain mengembangkan mesin pengenalan ucapan, Microsoft juga mengembangkan standar untuk pengenalan ucapan yaitu SAPI ( Speech Application Programming Interface ). Sistem pengenalan ucapan serta sistem pensintesa ucapan telah diintegrasikan oleh Microsoft untuk mendukung produk buatannya. Aplikasiaplikasi dalam Microsoft Office 2003 seperti dalam Microsoft Word 2003 dan Microsoft Excel 2003 atau versi yang lebih baru telah terintegrasi dengan sistem pengenalan ucapan dan sistem pensintesa ucapan tersebut. Penerapan sistem pengenalan ucapan dan sistem pensintesa ucapan dalam aplikasi Microsoft Word 2003 dan Microsoft Excel 2003 menjadi satu dengan aplikasi tersebut dan tidak berdiri sendiri. Jadi ketika aplikasi Microsoft Word dan Microsoft Excel tersebut ditutup maka secara otomatis sistem pengenalan ucapan dan sistem pensintesa ucapan akan ikut tertutup. Kemudian penerapannya juga khusus hanya untuk aplikasi Microsoft Office saja. Sistem pengenalan ucapan dan sistem pensintesa yang diimplementasikan dalam aplikasi perintah suara yang dikembangkan dalam penelitian ini menggunakan sistem pengenalan ucapan dan sistem pensintesa ucapan yang sama dengan yang digunakan dalam Aplikasi Microsoft Office 2003 yaitu menggunakan Dynamic Link Library ( DLL ), sapi.dll. Perbedaan mendasar dalam pemakaian sistem pengenalan ucapan dan sistem pensintesa ucapan dalam aplikasi perintah suara ini dengan pemakaian pada aplikasi Microsoft Office adalah bahwa sistem pengenalan dan pensintesa ucapan dalam aplikasi perintah suara ini berdiri sendiri dan tidak terikat dengan aplikasi yang dijalankan. Harapan terbesar yang bisa diambil apabila berhasil merealisasikan hal tersebut adalah aplikasi perintah suara ini bisa menjalankan aplikasi-aplikasi Windows yang memiliki shortcut dan apabila aplikasi yang 3 dijalankan mengalami kesalahan tidak berpengaruh pada aplikasi ini. Karena hampir setiap aplikasi Windows memiliki shortcut maka hampir semua aplikasi windows bisa dijalankan dengan Aplikasi Perintah Suara ini. Sistem pengenalan ucapan SAPI memiliki dua mode dalam melakukan pengenalan ucapan yaitu: 1. Mode Diktasi. Pada mode ini sistem pengenalan ucapan dapat mengenali berbagai konteks ucapan tanpa adanya pembatasan dalam jumlah kata. 2. Mode Perintah dan Kontrol. Pada mode ini jumlah kata lebih terbatas, misalnya untuk mengoperasikan sistem menu maka mungkin hanya terdiri kurang dari satu lusin kata. Dengan adanya SAPI memungkinkan pembuat aplikasi untuk mengimplementasikan sistem pengenalan ucapan sesuai dengan mesin pengenalan ucapan yang diinginkan dengan lebih mudah dan cepat yang dapat dilakukan dengan menggunakan bahasa pemrograman seperti C /C++, Visual Basic, C#, JScript, dan Delphi. Penelitian ini mengimplementasikan sistem pengenalan ucapan dengan menggunakan SAPI 5.1 Microsoft Speech Engine dengan menggunakan mode command and control untuk membuat Aplikasi Perintah Suara dengan memakai bahasa pemrograman Visul Basic 6.0. Dengan adanya penelitian ini, diharapkan dapat memberikan solusi terhadap permasalahan-permasalahan dalam interaksi pada saat penggunaan komputer. 1.2 PERUMUSAN MASALAH Berdasarkan latar belakang masalah yang telah dipaparkan pada sub bab 1.1, maka dihasilkan rumusan masalah sebagai berikut: 1. Bagaimana mengimplementasikan sistem pengenalan ucapan SAPI 5.1 Microsoft Speech Engine untuk membuat sebuah Aplikasi Perintah Suara? 2. Bagaimana menggunakan teknologi pengenalan ucapan (Speech Recognition) dalam SAPI 5.1 untuk proses pengenalan masukan yang berupa ucapan untuk bisa dikenali dan diporoses oleh sistem? 4 3. Bagaimana menggunakan teknologi pensintesa ucapan (Speech Synthesizer) dalam SAPI 5.1 untuk proses pengucapan dari teks ke suara yang dilakukan oleh sistem? 4. Bagaimana melakukan pengembangan dari program yang digunakan dalam Speech SDK 5.1 sebagai contoh program yang menggunakan sistem pengenalan ucapan SAPI 5.1 Microsoft Speech Engine yaitu SAPI51ListBox? 5. Bagaimana mengintegrasikan ucapan yang dikenali sistem dengan kejadian (event) yang terjadi pada sistem operasi Windows untuk mengeksekusi kodekode shortcut? 6. Bagaimana melakukan kalibrasi pada aplikasi pengaturan suara komputer supaya masukan suara pada perangkat multimedia bisa diterima dengan baik oleh sistem pada Aplikasi Perintah Suara? 1.3 BATASAN MASALAH Dalam penelitian ini, juga terdapat beberapa batasan masalah yang menspesifikasikan hal-hal yang akan dibahas dan diimplementasikan. Hal ini dilakukan agar pembahasan dan pembuatan laporan dapat lebih fokus pada tujuan yang telah ditetapkan. Batasan masalah tersebut adalah sebagai berikut: 1) Aplikasi Perintah Suara hanya dibuat dengan mengimplementasikan Speech Application Programming Interface (SAPI) versi 5.1 untuk proses Speech Recognition dan Text-To-Speech 2) Aplikasi Perintah Suara hanya dibuat untuk sistem operasi Windows. 3) Sistem pengenalan ucapan yang digunakan dalam Aplikasi Perintah Suara hanya menggunakan mode perintah dan kontrol. 4) Sistem teks ke ucapan yang digunakan dalam Aplikasi Perintah Suara menggunakan metode teks ke ucapan sintesis. 5) Tidak bisa menangani diktasi. 6) Aplikasi ini sebagai piranti untuk melengkapi dan mempermudah penggunaan keybord dan mouse bukan menggantikannya. 7) Hanya menggunakan tata bahasa bahasa Inggris. 5 8) Aplikasi Perintah Suara hanya menerima perintah-perintah yang telah terdefinisi dalam basis data Aplikasi Perintah Suara. Penjelasan mengenai sistem pengenalan ucapan dan sistem teks ke ucapan tidak sampai kepada penjelasan secara algoritma. 1.4 METODOLOGI PENELITIAN Metodologi yang dilakukan di dalam penelitian ini adalah sebagai berikut: 1. Studi literatur, mempelajari buku, artikel dan berbagai tulisan yang mendukung penyusunan penelitian ini. 2. Implementasi dan pengembangan sistem, yaitu dengan melakukan beberapa hal sebagai berikut: a. Analisis dan perancangan sistem. Analisis dan perancangan sistem yang dikerjakan dilakukan menggunakan metode berorientasi objek. b. Uji coba. Uji coba dilakukan dengan membuat sebuah program Perintah Suara dengan mengimplementasikan SAPI 5.1 menggunakan mode perintah dan kontrol untuk melakukan eksekusi shortcut dengan perintah berupa ucapan dengan tata bahasa bahasa Inggris. Uji coba juga dilakukan dengan membandingkan keakuratan pengenalan ucapan antara tanpa pelatihan dan dengan pelatihan terlebih dahulu. c. Dokumentasi. Dokumentasi dibuat dalam bentuk laporan tugas akhir. 1.5 MAKSUD DAN TUJUAN Penelitian ini dimaksudkan untuk memberikan kajian tentang pemanfaatan sistem pengenalan ucapan SAPI 5.1 Microsoft Speech Engine untuk melakukan pembuatan aplikasi dengan perintah lisan yang disebut Aplikasi Perintah Suara. Aplikasi yang membuat interaksi antara manusia dan komputer lebih realistis dan 6 alami, serta memberikan kemudahan dan kenyamanan. Aplikasi ini diharapkan memberikan manfaat bagi mereka para pengguna komputer yang memiliki keterbatasan secara fisik dalam berinteraksi dengan komputer, karena aplikasi ini sebagai alternatif untuk melengkapi dan lebih mempermudah pemakaian keyboard dan mouse dalam berinteraksi dengan komputer. Penelitian ini juga dimaksudkan sebagai penerapan disiplin ilmu yang telah didapatkan selama kuliah untuk diterapkan dalam permasalahan nyata. 1.6 SISTEMATIKA PENULISAN Laporan tugas akhir ini akan disusun secara sistematis dan dibagi menjadi lima bab dengan rincian sebagai berikut: BAB I PENDAHULUAN Bab ini berisi tentang latar belakang, perumusan masalah, batasan masalah, metodologi penelitian, maksud dan tujuan serta sistematika penulisan. BAB II LANDASAN TEORI Bab ini berisi tentang dasar teori yang digunakan dalam mengimplementasikan, menganalisa dan mengembangkan sistem. BAB III ANALISIS DAN PERANCANGAN SISTEM Bab ini berisi analisis dan perancangan sistem yang akan dikerjakan. BAB IV IMPLEMENTASI DAN PENGUJIAN Bab ini berisi implementasi/realisasi sistem dan pengujian sistem. BAB V PENUTUP Bab ini berisi kesimpulan hasil tugas akhir dan saran-saran yang diperlukan untuk proses pengembangan selanjutnya.