speech synthesizer berbasis diphone menggunakan algoritma

advertisement
Tugas Akhir - 2010
SPEECH SYNTHESIZER BERBASIS DIPHONE MENGGUNAKAN ALGORITMA
FREQUENCY DOMAIN PITCH SYNCHRONOUS OVERLAP ADD (FD PSOLA)
Aggie Y Prihandi¹, Iwan Iwut Tritoasmoro², Gelar Budiman³
¹Teknik Telekomunikasi, Fakultas Teknik Elektro, Universitas Telkom
Abstrak
Perkembangan speech processing saat ini meningkat cukup pesat. Berawal dari hasil suara yang
didapatkan tidak terdengar alami sama sekali, kemudian menuju ke arah prosodi yang semakin
bagus. Speech synthesizer berada pada blok terakhir dalam sistem Text-to-Speech. Speech
synthesizer merupakan sebuah sistem yang mampu menghasilkan suara tiruan manusia dengan
sintesis ucapan. Metode speech synthesizer yang terdapat saat ini adalah formant synthesis,
articulatory synthesis, dan concatenative synthesis.
Metode yang digunakan dalam penyusunan tugas akhir ini menggunakan metode diphone
concatenation. Pada awalnya sintesis ucapan dibentuk dengan melakukan perekaman suara, lalu
setelah itu hasil yang telah didapat disimpan kedalam database. Kemudian suara rekaman
tersebut diurai menjadi beberapa diphone yang merupakan transisi antar dua bunyi yang
berdekatan (adjacent phones) sehingga akan lebih stabil ketika dirangkaikan dengan diphone
yang lain. Untuk merangkai unit ucapan diphone, maka digunakan algoritma Frequency Domain
Pitch Synchronous Overlap-Add (FD PSOLA). Dengan menggunakan algoritma FD PSOLA, proses
perangkaian antar diphone yang mengandung transisi antar dua bunyi yang berdekatan (adjacent
phones), menjadi halus tanpa bunyi yang bersifat eksplosif.
Dari metode diphone concatenation dan penerapan algoritma FD PSOLA maka sintesis ucapan
yang dihasilkan ternyata mendekati suara alami manusia dan dapat dimengerti dengan jelas.
Selain itu, algoritma FD PSOLA memberikan kemudahan dalam memodifikasi pitch. Semakin
bagus kualitas unit-unit diphone yang terdapat pada database akan memudahkan dalam
pembentukan sintesis ucapan, sehingga akan meningkatkan kualitas hasil sintesis.
Kata Kunci : : speech synthesizer, diphone concatenation, pitch, algoritma FD PSOLA
Abstract
Currently, the development of speech processing rising rapidly. From the voice results obtained
does not sound natural at all, then headed toward an increasingly good prosody. Speech
synthesizer is on the last block of the Text-to-Speech system. Speech synthesizer is a system that
able to produce artificial human voice with speech synthesis. There are some method of speech
synthesizer, that is formant synthesis, articulatory synthesis, and concatenative synthesis.
The method used in this final assignment is diphone concatenation method. Speech synthesis was
initially formed by the voice recording, then the results are stored in database. Then the voice
recording parsed into some of the diphone, that is transition between two adjacent sounds
(adjacent phones), that will be more stable when coupled with other diphone. Frequency Domain
Pitch Synchronous Overlap-Add (FD PSOLA) algrithm used to assemble the speech diphone unit.
By using FD PSOLA algorithm, the process of arranging the inter-containing diphone transition
between two adjacent sounds (adjacent phones), became smooth without any noise.
The result that can be obtained from combining diphone concatenation method with FD PSOLA
algorithm is sound of speech synthesis more natural and can be clearly understood. In addition,
the FD PSOLA algorithm provide an easy way in modifying pitch. The better the quality of diphone
units contained in the database will facilitate the formation of speech synthesis and will improve
the quality of synthesis results.
Keywords : speech synthesizer, diphone concatenation, pitch, FD PSOLA algorithm.
Fakultas Teknik Elektro
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Telekomunikasi
Tugas Akhir - 2010
Bab I Pendahuluan
1
BAB I
PENDAHULUAN
1.1
Latar Belakang
Speech Processing merupakan suatu bidang kajian dalam pemrosesan sinyal
digital yang cukup berkembang. Salah satu kajian yang masih dikembangkan hingga
saat ini adalah speech synthesizer. Speech synthesizer merupakan suatu sistem yang
mampu menghasilkan suara tiruan manusia. Penerapan speech synthesizer banyak
dipergunakan untuk mendukung sistem lain, salah satunya adalah Text to Speech.
Text to Speech (TTS) merupakan salah satu teknologi yang dapat mengkonversi teks
menjadi ucapan atau suara manusia dengan menggunakan suatu sistem tertentu.
Speech synthesizer merupakan blok terakhir dalam TTS yang berfungsi sebagai
penghasil suara tiruan manusia melalui proses sintesis suara.
Terdapat
beberapa
teknik
alternatif
yang
dapat
dipergunakan
untuk
mengimplementasikan bagian tersebut, yaitu formant synthesis, articulatory
synthesis, dan concatenative synthesis. Dalam pengerjaan tugas akhir ini akan
dibahas mengenai speech synthesizer yang menggunakan metode diphone
concatenation. Synthesizer yang menggunakan teknik synthesis concatenation
bekerja dengan cara menggabungkan beberapa segmen bunyi yang sebelumnya telah
mengalami proses perekaman. Setiap segmen bunyi berupa diphone (gabungan dari
dua macam fonem). Synthesizer jenis tersebut dapat menghasilkan suatu bunyi/
ucapan dengan tingkat kealamian (naturalness) yang tinggi.
Dalam sistem yang menggunakan teknik diphone concatenation, sistem tersebut
harus didukung oleh suatu database diphone yang berisikan rekaman dari beberapa
segmen ucapan berupa diphone yang terdapat dalam bahasa tersebut sehingga dalam
proses mensitesis suatu ucapan didapatkan hasil bahwa semua kata ataupun kalimat
yang terdapat dalam suatu bahasa dapat terucapkan. Untuk proses penyusunan tugas
akhir ini digunakan database diphone dalam bahasa Indonesia. Dalam penggabungan
unit-unit diphone tersebut diterapkan algoritma Frequency Domain Pitch
Synchronous Overlap Add (FD PSOLA). FD PSOLA mempunyai keunggulan dalam
memodifikasi pitch sehingga akan didapatkan kualitas suara yang bagus, hal tersebut
dikarenakan FD PSOLA mampu mengatasi mismatch fasa pada saat proses
modifikasi pitch.
IT Telkom Bandung
Fakultas Teknik Elektro
Program Studi S1 Teknik Telekomunikasi
Tugas Akhir - 2010
Bab I Pendahuluan
1.2
2
Rumusan Masalah
Berdasarkan latar belakang permasalahan, maka masalah yang akan diteliti dalam
tugas akhir ini dapat dirumuskan sebagai berikut :
1.
Bagaimana merancang suatu sistem speech synthesizer yang berbasis diphone
dengan menggunakan metode concatenation.
2.
Bagaimana menerapkan algoritma Frequency Domain Pitch Synchronous
Overlap Add (FD PSOLA) sebagai teknik untuk merangkai diphone dalam
proses mensintesis suara.
3.
Bagaimana membuat database diphone yang dapat menunjang sistem agar
didapatkan sintesis suara yang normal.
1.3
Tujuan dan Manfaat Penelitian
Berdasarkan rumusan masalah yang telah dipaparkan sebelumnya, tugas akhir ini
memiliki tujuan sebagai berikut :
1.
Meneliti dan merancang suatu sistem dari speech synthesizer yang berbasis
diphone dengan menggunakan metode concatenation.
2.
Mempelajari serta menganalisis performansi penerapan algoritma FD PSOLA
yang digunakan untuk mendapatkan penggabungan diphone yang optimal dan
menghasilkan suara yang alami, jelas, dan dapat dimengerti.
3.
Membuat database diphone yang dapat menunjang sistem agar didapatkan
sintesis suara yang optimal.
Merupakan suatu harapan bahwa tugas akhir ini tidak hanya bermanfaat bagi pribadi,
tetapi juga bagi khalayak yang membutuhkan pada umumnya. Adapun manfaat dari
penyusunan tugas akhir ini adalah sebagai berikut :
1. Dapat membuat suatu sistem speech synthesizer dengan menggunakan algoritma
FD PSOLA.
2. Mendapatkan hasil sintesa ucapan yang optimal, alami, dan dapat dimengerti
dari metode tersebut melalui simulasi dan pengujian yang dilakukan.
1.4
Batasan Masalah
Berdasarkan rumusan masalah yang telah dipaparkan sebelumnya, maka pembatasan
masalah dalam penyusunan tugas akhir ini adalah sebagai berikut :
IT Telkom Bandung
Fakultas Teknik Elektro
Program Studi S1 Teknik Telekomunikasi
Tugas Akhir - 2010
Bab I Pendahuluan
1.
3
Metode speech synthesizer yang digunakan dalam tugas akhir ini adalah diphone
concatenation synthesizer.
2.
Algoritma yang diterapkan untuk menggabungkan diphone adalah Frequency
Domain Pitch Synchronous Overlap Add (FD PSOLA).
3.
Bahasa yang dipergunakan dalam sistem speech synthesizer ini adalah bahasa
Indonesia.
4.
Diphone yang dipergunakan dalam sistem merupakan sejumlah diphone yang
terdapat dalam bahasa Indonesia.
1.5
5.
Sistem hanya mampu mengucapkan satu kata dalam bahasa Indonesia.
6.
Intonasi (prosodi) tidak diperhatikan dalam proses pensintesis suara.
Metodologi Penelitian
Langkah – langkah yang digunakan dalam pengerjaan Tugas Akhir ini adalah :
1. Studi literatur
Langkah ini dilaksanakan dalam bentuk :
a. Mempelajari karakter-karakter speech seperti pitch, frekuensi fundamental
dan energi
b. Mempelajari metode diphone concatenation synthesizer
c. Mempelajari konsep algoritma FD PSOLA
2. Perekaman diphone
Merekam berbagai macam kata dalam bahasa Indonesia kemudian dilakukan
segmentasi terhadap hasil rekaman tersebut untuk didapatkan unit-unit
diphone.
3. Pengujian dan analisis
Langkah ini terdiri dari :
a. Menguji kemampuan algoritma FD PSOLA untuk menggabungkan unitunit diphone dari hasil rekaman dengan menggunakan software MATLAB
R2007a.
b. Menganalisis dan menyimpulkan hasil sintesis ucapan berdasarkan
perangkaian unit-unit diphone dengan menerapkan algoritma FD PSOLA.
c. Penyusunan laporan tugas akhir dan kesimpulan akhir.
IT Telkom Bandung
Fakultas Teknik Elektro
Program Studi S1 Teknik Telekomunikasi
Tugas Akhir - 2010
Bab I Pendahuluan
1.6
4
Sistematika Penulisan
Secara umum sistematika penulisan tugas akhir ini dibagi menjadi lima bab uraian
sebagai berikut:
Bab I
Pendahuluan
Bab ini berisi latar belakang, Pada bab ini akan diuraikan mengenai
latar belakang penelitian, rumusan masalah, tujuan penelitian yang
ingin
dicapai,
batasan
masalah,
metodologi
penelitian,
serta
sistematika penulisan.
Bab II
Dasar Teori
Bab ini menjelaskan tentang teori-teori dasar yang menunjang
penelitian diantaranya mengenai yaitu teori tentang teori dasar speech
processing, speech synthesis, concatenation synthesis dan algoritma
Frequency Domain Pitch Synchronous Overlap-Add (FD PSOLA).
Bab III
Perancangan dan Implementasi Sistem
Bab ini akan menjelaskan tentang proses perancangan sistem
concatenation synthesizer dimana unit-unit diphone hasil rekaman
suara yang ada pada database digabungkan dengan menggunakan
algoritma FD PSOLA.
Bab IV
Pengujian dan Analisa Sistem
Pada bab ini akan dilakukan pengujian dan analisa dari sistem yang
telah diperoleh pada tahap perancangan dan implementasi.
Bab V
Penutup
Bab ini akan berisi kesimpulan yang diperoleh dari penelitian pada
tugas akhir ini, serta berisi saran untuk pengembangan ke depan.
IT Telkom Bandung
Fakultas Teknik Elektro
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Telekomunikasi
Tugas Akhir - 2010
Bab V Kesimpulan Dan Saran
35
BAB V
KESIMPULAN DAN SARAN
5.1
Kesimpulan
Dari hasil analisa subjektif maupun objektif terhadap kinerja sistem, maka dapat
ditarik kesimpulan sebagai berikut :
1. Penggunaan diphone sebagai unit ucapan memberikan keuntungan, antara lain
hanya menggunakan memori yang cukup kecil (sekitar 6 MB) namun jumlah
unit diphone yang banyak pada database tidak berdampak pada proses sintesis
serta dapat mengurangi terjadinya distorsi pada daerah penyambungan
(overlap). Kualitas unit ucapan yang disimpan dalam database pun berpengaruh
pada kualitas sinyal sintesis, hal tersebut disebabkan oleh beberapa faktor
antara lain, proses perekaman dan segmentasi diphone.
2. Pengolahan diphone dengan melakukan sinkronisasi pitch terlebih dahulu akan
menghasilkan sintesis ucapan yang lebih halus, datar dan jelas jika
dibandingkan dengan sinyal yang tidak melalui proses sinkronisasi pitch
terlebih dahulu.
3. Sinkronisasi pitch dianggap cukup jika nilai pitch antar diphone pada suatu
rangkaian kata memiliki perbedaan dalam range 10-30 Hz.
4. Jenis kelamin tidak mempengaruhi kerja sistem dalam mensintesis suara,
dengan kealamian dari suara yang dihasilkan cukup alami.
5. Berdasarkan hasil mean opinion score (MOS), kemampuan sistem dalam
mensintesis suara termasuk dalam kategori cukup, dengan perolehan nilai untuk
parameter intelligibility sebesar 3,25; parameter fluidity sebesar 3,04 dan
parameter naturalness sebesar 3,26.
5.2
Saran
1. Meningkatkan kualitas database dari segi kualitas, kelengkapan unit ucapan
yang mungkin serta mengganti unit ucapan yang digunakan menjadi triphone.
2. Meningkatkan performansi dari algoritma, dalam hal penyambungan serta
modifikasi pitch.
IT Telkom Bandung
Fakultas Teknik Elektro
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Telekomunikasi
Tugas Akhir - 2010
DAFTAR PUSTAKA
[1]
Ananto. 2004. Kontrol Persajakan Pada Text-to-Speech Bahasa Indonesia
Berbasis Recurrent Neural Network. Tugas Akhir Jurusan Teknik Elektro
Telekomunikasi STT Telkom Bandung : Tidak Diterbitkan.
[2]
Arman, Ari Akhmad. 2008. Konversi dari Teks Ke Ucapan. Departmen Teknik
Elektro Institut Teknologi Bandung.
[3]
Arman, Ari Akhmad. 2008. Proses Pembentukan dan Karakteristik Sinyal
Ucapan. Departmen Teknik Elektro Institut Teknologi Bandung.
[4]
Departemen Pendidikan Nasional. 2008. Kamus Besar Bahasa Indonesia. Jakarta
: Pusat Bahasa.
[5]
Estephan, Habib., Scott Sawyer, Daniel Wanninger. 2006. Real-Time Speech
Pitch Shifting on an FPGA. Depertemen Teknik Elektro dan Komputer. Universitas
Villanova.
[6]
Hanser, John H. L, Jhon R. Deller Jr, John G. Proakis. 1993. Discrete-Time
Processing of Speech Signal. New York : IEEE Press.
[7]
Lemmety, Sami. 1999. Review of Speech Synthesis Technology., Thesis
Departemen Teknik Elektro dan Komunikasi, Helsinki University of Technology
Espoo.
[8]
Moulines, Eric., Francis Charpentier. 1990. Pitch-Synchronous Waveform
Processing Techniques For Text-To-Speech Synthesis Using Diphone. North
Holland : Speech Comunication.
[9]
Winoto, Hamdani. 2005. Text-to-Video Konversi Menjadi Video Animasi Wajah.
Tugas Akhir Jurusan Teknik Telekomunikasi STT Telkom Bandung : Tidak
Diterbitkan.
36
Fakultas Teknik Elektro
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Telekomunikasi
Download