Tugas Akhir - 2010 SPEECH SYNTHESIZER BERBASIS DIPHONE MENGGUNAKAN ALGORITMA FREQUENCY DOMAIN PITCH SYNCHRONOUS OVERLAP ADD (FD PSOLA) Aggie Y Prihandi¹, Iwan Iwut Tritoasmoro², Gelar Budiman³ ¹Teknik Telekomunikasi, Fakultas Teknik Elektro, Universitas Telkom Abstrak Perkembangan speech processing saat ini meningkat cukup pesat. Berawal dari hasil suara yang didapatkan tidak terdengar alami sama sekali, kemudian menuju ke arah prosodi yang semakin bagus. Speech synthesizer berada pada blok terakhir dalam sistem Text-to-Speech. Speech synthesizer merupakan sebuah sistem yang mampu menghasilkan suara tiruan manusia dengan sintesis ucapan. Metode speech synthesizer yang terdapat saat ini adalah formant synthesis, articulatory synthesis, dan concatenative synthesis. Metode yang digunakan dalam penyusunan tugas akhir ini menggunakan metode diphone concatenation. Pada awalnya sintesis ucapan dibentuk dengan melakukan perekaman suara, lalu setelah itu hasil yang telah didapat disimpan kedalam database. Kemudian suara rekaman tersebut diurai menjadi beberapa diphone yang merupakan transisi antar dua bunyi yang berdekatan (adjacent phones) sehingga akan lebih stabil ketika dirangkaikan dengan diphone yang lain. Untuk merangkai unit ucapan diphone, maka digunakan algoritma Frequency Domain Pitch Synchronous Overlap-Add (FD PSOLA). Dengan menggunakan algoritma FD PSOLA, proses perangkaian antar diphone yang mengandung transisi antar dua bunyi yang berdekatan (adjacent phones), menjadi halus tanpa bunyi yang bersifat eksplosif. Dari metode diphone concatenation dan penerapan algoritma FD PSOLA maka sintesis ucapan yang dihasilkan ternyata mendekati suara alami manusia dan dapat dimengerti dengan jelas. Selain itu, algoritma FD PSOLA memberikan kemudahan dalam memodifikasi pitch. Semakin bagus kualitas unit-unit diphone yang terdapat pada database akan memudahkan dalam pembentukan sintesis ucapan, sehingga akan meningkatkan kualitas hasil sintesis. Kata Kunci : : speech synthesizer, diphone concatenation, pitch, algoritma FD PSOLA Abstract Currently, the development of speech processing rising rapidly. From the voice results obtained does not sound natural at all, then headed toward an increasingly good prosody. Speech synthesizer is on the last block of the Text-to-Speech system. Speech synthesizer is a system that able to produce artificial human voice with speech synthesis. There are some method of speech synthesizer, that is formant synthesis, articulatory synthesis, and concatenative synthesis. The method used in this final assignment is diphone concatenation method. Speech synthesis was initially formed by the voice recording, then the results are stored in database. Then the voice recording parsed into some of the diphone, that is transition between two adjacent sounds (adjacent phones), that will be more stable when coupled with other diphone. Frequency Domain Pitch Synchronous Overlap-Add (FD PSOLA) algrithm used to assemble the speech diphone unit. By using FD PSOLA algorithm, the process of arranging the inter-containing diphone transition between two adjacent sounds (adjacent phones), became smooth without any noise. The result that can be obtained from combining diphone concatenation method with FD PSOLA algorithm is sound of speech synthesis more natural and can be clearly understood. In addition, the FD PSOLA algorithm provide an easy way in modifying pitch. The better the quality of diphone units contained in the database will facilitate the formation of speech synthesis and will improve the quality of synthesis results. Keywords : speech synthesizer, diphone concatenation, pitch, FD PSOLA algorithm. Fakultas Teknik Elektro Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Telekomunikasi Tugas Akhir - 2010 Bab I Pendahuluan 1 BAB I PENDAHULUAN 1.1 Latar Belakang Speech Processing merupakan suatu bidang kajian dalam pemrosesan sinyal digital yang cukup berkembang. Salah satu kajian yang masih dikembangkan hingga saat ini adalah speech synthesizer. Speech synthesizer merupakan suatu sistem yang mampu menghasilkan suara tiruan manusia. Penerapan speech synthesizer banyak dipergunakan untuk mendukung sistem lain, salah satunya adalah Text to Speech. Text to Speech (TTS) merupakan salah satu teknologi yang dapat mengkonversi teks menjadi ucapan atau suara manusia dengan menggunakan suatu sistem tertentu. Speech synthesizer merupakan blok terakhir dalam TTS yang berfungsi sebagai penghasil suara tiruan manusia melalui proses sintesis suara. Terdapat beberapa teknik alternatif yang dapat dipergunakan untuk mengimplementasikan bagian tersebut, yaitu formant synthesis, articulatory synthesis, dan concatenative synthesis. Dalam pengerjaan tugas akhir ini akan dibahas mengenai speech synthesizer yang menggunakan metode diphone concatenation. Synthesizer yang menggunakan teknik synthesis concatenation bekerja dengan cara menggabungkan beberapa segmen bunyi yang sebelumnya telah mengalami proses perekaman. Setiap segmen bunyi berupa diphone (gabungan dari dua macam fonem). Synthesizer jenis tersebut dapat menghasilkan suatu bunyi/ ucapan dengan tingkat kealamian (naturalness) yang tinggi. Dalam sistem yang menggunakan teknik diphone concatenation, sistem tersebut harus didukung oleh suatu database diphone yang berisikan rekaman dari beberapa segmen ucapan berupa diphone yang terdapat dalam bahasa tersebut sehingga dalam proses mensitesis suatu ucapan didapatkan hasil bahwa semua kata ataupun kalimat yang terdapat dalam suatu bahasa dapat terucapkan. Untuk proses penyusunan tugas akhir ini digunakan database diphone dalam bahasa Indonesia. Dalam penggabungan unit-unit diphone tersebut diterapkan algoritma Frequency Domain Pitch Synchronous Overlap Add (FD PSOLA). FD PSOLA mempunyai keunggulan dalam memodifikasi pitch sehingga akan didapatkan kualitas suara yang bagus, hal tersebut dikarenakan FD PSOLA mampu mengatasi mismatch fasa pada saat proses modifikasi pitch. IT Telkom Bandung Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi Tugas Akhir - 2010 Bab I Pendahuluan 1.2 2 Rumusan Masalah Berdasarkan latar belakang permasalahan, maka masalah yang akan diteliti dalam tugas akhir ini dapat dirumuskan sebagai berikut : 1. Bagaimana merancang suatu sistem speech synthesizer yang berbasis diphone dengan menggunakan metode concatenation. 2. Bagaimana menerapkan algoritma Frequency Domain Pitch Synchronous Overlap Add (FD PSOLA) sebagai teknik untuk merangkai diphone dalam proses mensintesis suara. 3. Bagaimana membuat database diphone yang dapat menunjang sistem agar didapatkan sintesis suara yang normal. 1.3 Tujuan dan Manfaat Penelitian Berdasarkan rumusan masalah yang telah dipaparkan sebelumnya, tugas akhir ini memiliki tujuan sebagai berikut : 1. Meneliti dan merancang suatu sistem dari speech synthesizer yang berbasis diphone dengan menggunakan metode concatenation. 2. Mempelajari serta menganalisis performansi penerapan algoritma FD PSOLA yang digunakan untuk mendapatkan penggabungan diphone yang optimal dan menghasilkan suara yang alami, jelas, dan dapat dimengerti. 3. Membuat database diphone yang dapat menunjang sistem agar didapatkan sintesis suara yang optimal. Merupakan suatu harapan bahwa tugas akhir ini tidak hanya bermanfaat bagi pribadi, tetapi juga bagi khalayak yang membutuhkan pada umumnya. Adapun manfaat dari penyusunan tugas akhir ini adalah sebagai berikut : 1. Dapat membuat suatu sistem speech synthesizer dengan menggunakan algoritma FD PSOLA. 2. Mendapatkan hasil sintesa ucapan yang optimal, alami, dan dapat dimengerti dari metode tersebut melalui simulasi dan pengujian yang dilakukan. 1.4 Batasan Masalah Berdasarkan rumusan masalah yang telah dipaparkan sebelumnya, maka pembatasan masalah dalam penyusunan tugas akhir ini adalah sebagai berikut : IT Telkom Bandung Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi Tugas Akhir - 2010 Bab I Pendahuluan 1. 3 Metode speech synthesizer yang digunakan dalam tugas akhir ini adalah diphone concatenation synthesizer. 2. Algoritma yang diterapkan untuk menggabungkan diphone adalah Frequency Domain Pitch Synchronous Overlap Add (FD PSOLA). 3. Bahasa yang dipergunakan dalam sistem speech synthesizer ini adalah bahasa Indonesia. 4. Diphone yang dipergunakan dalam sistem merupakan sejumlah diphone yang terdapat dalam bahasa Indonesia. 1.5 5. Sistem hanya mampu mengucapkan satu kata dalam bahasa Indonesia. 6. Intonasi (prosodi) tidak diperhatikan dalam proses pensintesis suara. Metodologi Penelitian Langkah – langkah yang digunakan dalam pengerjaan Tugas Akhir ini adalah : 1. Studi literatur Langkah ini dilaksanakan dalam bentuk : a. Mempelajari karakter-karakter speech seperti pitch, frekuensi fundamental dan energi b. Mempelajari metode diphone concatenation synthesizer c. Mempelajari konsep algoritma FD PSOLA 2. Perekaman diphone Merekam berbagai macam kata dalam bahasa Indonesia kemudian dilakukan segmentasi terhadap hasil rekaman tersebut untuk didapatkan unit-unit diphone. 3. Pengujian dan analisis Langkah ini terdiri dari : a. Menguji kemampuan algoritma FD PSOLA untuk menggabungkan unitunit diphone dari hasil rekaman dengan menggunakan software MATLAB R2007a. b. Menganalisis dan menyimpulkan hasil sintesis ucapan berdasarkan perangkaian unit-unit diphone dengan menerapkan algoritma FD PSOLA. c. Penyusunan laporan tugas akhir dan kesimpulan akhir. IT Telkom Bandung Fakultas Teknik Elektro Program Studi S1 Teknik Telekomunikasi Tugas Akhir - 2010 Bab I Pendahuluan 1.6 4 Sistematika Penulisan Secara umum sistematika penulisan tugas akhir ini dibagi menjadi lima bab uraian sebagai berikut: Bab I Pendahuluan Bab ini berisi latar belakang, Pada bab ini akan diuraikan mengenai latar belakang penelitian, rumusan masalah, tujuan penelitian yang ingin dicapai, batasan masalah, metodologi penelitian, serta sistematika penulisan. Bab II Dasar Teori Bab ini menjelaskan tentang teori-teori dasar yang menunjang penelitian diantaranya mengenai yaitu teori tentang teori dasar speech processing, speech synthesis, concatenation synthesis dan algoritma Frequency Domain Pitch Synchronous Overlap-Add (FD PSOLA). Bab III Perancangan dan Implementasi Sistem Bab ini akan menjelaskan tentang proses perancangan sistem concatenation synthesizer dimana unit-unit diphone hasil rekaman suara yang ada pada database digabungkan dengan menggunakan algoritma FD PSOLA. Bab IV Pengujian dan Analisa Sistem Pada bab ini akan dilakukan pengujian dan analisa dari sistem yang telah diperoleh pada tahap perancangan dan implementasi. Bab V Penutup Bab ini akan berisi kesimpulan yang diperoleh dari penelitian pada tugas akhir ini, serta berisi saran untuk pengembangan ke depan. IT Telkom Bandung Fakultas Teknik Elektro Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Telekomunikasi Tugas Akhir - 2010 Bab V Kesimpulan Dan Saran 35 BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan Dari hasil analisa subjektif maupun objektif terhadap kinerja sistem, maka dapat ditarik kesimpulan sebagai berikut : 1. Penggunaan diphone sebagai unit ucapan memberikan keuntungan, antara lain hanya menggunakan memori yang cukup kecil (sekitar 6 MB) namun jumlah unit diphone yang banyak pada database tidak berdampak pada proses sintesis serta dapat mengurangi terjadinya distorsi pada daerah penyambungan (overlap). Kualitas unit ucapan yang disimpan dalam database pun berpengaruh pada kualitas sinyal sintesis, hal tersebut disebabkan oleh beberapa faktor antara lain, proses perekaman dan segmentasi diphone. 2. Pengolahan diphone dengan melakukan sinkronisasi pitch terlebih dahulu akan menghasilkan sintesis ucapan yang lebih halus, datar dan jelas jika dibandingkan dengan sinyal yang tidak melalui proses sinkronisasi pitch terlebih dahulu. 3. Sinkronisasi pitch dianggap cukup jika nilai pitch antar diphone pada suatu rangkaian kata memiliki perbedaan dalam range 10-30 Hz. 4. Jenis kelamin tidak mempengaruhi kerja sistem dalam mensintesis suara, dengan kealamian dari suara yang dihasilkan cukup alami. 5. Berdasarkan hasil mean opinion score (MOS), kemampuan sistem dalam mensintesis suara termasuk dalam kategori cukup, dengan perolehan nilai untuk parameter intelligibility sebesar 3,25; parameter fluidity sebesar 3,04 dan parameter naturalness sebesar 3,26. 5.2 Saran 1. Meningkatkan kualitas database dari segi kualitas, kelengkapan unit ucapan yang mungkin serta mengganti unit ucapan yang digunakan menjadi triphone. 2. Meningkatkan performansi dari algoritma, dalam hal penyambungan serta modifikasi pitch. IT Telkom Bandung Fakultas Teknik Elektro Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Telekomunikasi Tugas Akhir - 2010 DAFTAR PUSTAKA [1] Ananto. 2004. Kontrol Persajakan Pada Text-to-Speech Bahasa Indonesia Berbasis Recurrent Neural Network. Tugas Akhir Jurusan Teknik Elektro Telekomunikasi STT Telkom Bandung : Tidak Diterbitkan. [2] Arman, Ari Akhmad. 2008. Konversi dari Teks Ke Ucapan. Departmen Teknik Elektro Institut Teknologi Bandung. [3] Arman, Ari Akhmad. 2008. Proses Pembentukan dan Karakteristik Sinyal Ucapan. Departmen Teknik Elektro Institut Teknologi Bandung. [4] Departemen Pendidikan Nasional. 2008. Kamus Besar Bahasa Indonesia. Jakarta : Pusat Bahasa. [5] Estephan, Habib., Scott Sawyer, Daniel Wanninger. 2006. Real-Time Speech Pitch Shifting on an FPGA. Depertemen Teknik Elektro dan Komputer. Universitas Villanova. [6] Hanser, John H. L, Jhon R. Deller Jr, John G. Proakis. 1993. Discrete-Time Processing of Speech Signal. New York : IEEE Press. [7] Lemmety, Sami. 1999. Review of Speech Synthesis Technology., Thesis Departemen Teknik Elektro dan Komunikasi, Helsinki University of Technology Espoo. [8] Moulines, Eric., Francis Charpentier. 1990. Pitch-Synchronous Waveform Processing Techniques For Text-To-Speech Synthesis Using Diphone. North Holland : Speech Comunication. [9] Winoto, Hamdani. 2005. Text-to-Video Konversi Menjadi Video Animasi Wajah. Tugas Akhir Jurusan Teknik Telekomunikasi STT Telkom Bandung : Tidak Diterbitkan. 36 Fakultas Teknik Elektro Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Telekomunikasi