Aplikasi SMS dengan Text To Speech Bahasa Indonesia

advertisement
Aplikasi SMS dengan Text To Speech Bahasa Indonesia
pada Sistem Operasi Symbian
Edwin Rommel
Departemen Teknik Elektro – Institut Teknologi Bandung
E-mail : [email protected]
Abstract
Komunikasi melalui sms (short message service)
banyak digunakan oleh masyarakat karena penggunaannya
yang sederhana dan biaya yang murah. Namun, penderita tuna
netra memiliki keterbatasan dalam pembacaan pesan yang
diterima. Penderita tuna netra dapat menggunakan indra
pendengaran dengan memanfaatkan sistem Text to Speech yang
mengeluarkan suara ucapan dari teks Bahasa Indonesia. Sistem
text to speech terdiri dari dua sub sistem, yaitu konverter teks ke
fonem dan konverter fonem ke ucapan. Konversi teks ke fonem
mengubah teks, yang sesuai dengan penulisan Bahasa Indonesia
yang baik dan benar, menjadi kode-kode fonem, durasi, dan
pitch. Konverter fonem ke ucapan menggunakan SymbianMBROLA yang dibuat oleh MBROLA khusus untuk sistem
operasi symbian pada ponsel yang menghasilkan bunyi dari
keluaran proses sebelumnya. Sistem Text to Speech
diimplementasikan dengan membangun aplikasi dengan bahasa
pemograman Symbian C++ khusus untuk dijalankan di sistem
operasi symbian.
Kata kunci : teks, fonem, symbian, durasi, pitch.
1. Pendahuluan
Komunikasi melalui sms (short message service)
banyak
digunakan
oleh
masyarakat
karena
penggunaannya yang sederhana dan biaya yang murah.
Namun, interaksi antara pengguna dan ponsel sebagai
perangkat telekomunikasi merupakan masalah yang
dihadapi oleh para tuna netra, karena keterbatasan dalam
pembacaan pesan yang diterima. Penderita tuna netra
dapat memaksimalkan penggunaan indra pendengaran
dalam berinteraksi dengan ponsel yang digunakan, yaitu
dengan dukungan teknologi speech synthesizer. Para
pengembang teknologi telah membangun sistem Text to
Speech (TTS) pada sistem komputer. Akan tetapi,
penggunaan TTS pada perangkat telekomunikasi masih
terbatas untuk pembacaan teks Bahasa Inggris.
Sistem TTS Bahasa Indonesia telah dibangun sejak tahun
2000 yang menggunakan diphone database, yang disebut
IndoTTS. IndoTTS terbukti sangat membantu para
penderita tuna netra dalam berinteraksi dengan komputer.
Pada pelaksanaan tugas akhir ini, penulis mencoba
mengimplementasikan sistem Text to Speech Bahasa
Indonesia pada ponsel untuk membantu interaksi antara
pengguna dengan ponsel, terutama untuk penderita tuna
netra.
Gambar 1. Sistem Text to Speech
2. Sistem Text to Speech
Sistem Text to Speech melakukan dua proses
konversi, yaitu konversi teks ke fonem dan konversi
fonem ke ucapan, yang dilakukan secara berurutan
dengan input teks dan menghasilkan output ucapan.
a) Konversi Teks ke Fonem
Bagian Konverter Teks ke Fonem berfungsi untuk
mengubah kalimat masukan dalam suatu bahasa tertentu
yang berbentuk teks menjadi rangkaian kode-kode bunyi
yang biasanya direpresentasikan dengan kode fonem,
durasi serta pitch-nya. Untuk suatu bahasa baru, bagian
ini harus dikembangkan secara lengkap khusus untuk
bahasa tersebut.
Fonem, merupakan unit bunyi terkecil yang dapat
dibedakan oleh manusia, dan suatu ucapan kata atau
kalimat pada prinsipnya dapat dilihat sebagai urutan
fonem. Durasi, lama waktu pengucapan untuk setiap
fonem, dan pitch merupakan perubahan nilai frekuensi
dasar pada pengucapan fonem untuk menghasilkan
intonasi yang diinginkan.
Proses konversi dari teks ke fonem terdiri dari
beberapa tahap, yaitu normalisasi teks, konversi setiap
fonem menjadi kode fonem, dan penetapan durasi dan
pitch untuk setiap fonem. Normalisasi teks merupakan
suatu proses yang merepresentasikan teks tertulis menjadi
teks yang sesuai dengan pengucapan oleh manusia.
“Rommel membangun aplikasi TTS mulai tahun 2005 ”
Hasil normalisasi : “rommel membangun aplikasi tetees
mulai tahun duaribulima.”
Kemudian setiap pada teks hasil normalisasi dikonversi
ke fonem. Tidak setiap huruf sama dengan kode
fonemnya.
Untuk mendapatkan ucapan yang lebih alami,
ucapan yang dihasilkan harus memiliki intonasi
(prosody). Prosodi adalah perubahan nilai pitch
(frekuensi dasar) selama pengucapan kalimat dilakukan.
Pada prakteknya, informasi pembentuk prosodi berupa
data-data pitch serta durasi pengucapannya untuk setiap
fonem. Nilai-nilai yang dihasilkan diperoleh dari suatu
model prosodi.
Tabel 1. Daftar fonem unik (tidak sama dengan huruf
yang direpresentasikan)
Fonem
a
i
u
e
e
o
ng
ny
c
q
y
j
v
[spasi]
Kode fonem
V
I
U
e
@
Q
N
nY
tS
k
j
dZ
f
_
Contoh teks ke fonem
akan : /V/, /k/, /V/, /n/
aplikasi : /V/, /p/, /l/, /I/, /k/, /V/, /s/, /I/
dua : ./d/, /U/, /V/
tetees : /t/, /e/, /t/, /e/, /_/, /e/, /s/
menu : /m/, /@/, /n/, /U/
rommel : /r/, /Q/, /m/, /_/, /m/, /e/, /l/
Bangun : /b/, /V/, /N/, /U/, n/
nyanyi : /nY/, /V/, /nY/, /I/
cuci : /tS/, /U/, /tS/, /I/
kaki : /k/, /V/, /k/, I/
Yayang : /j/, /V/, /j/, /N/
jujur : /dZ/, /U/, /dZ/, /U/, /r/
novel : /n/, /Q/, /f/, /e/, /l/
/_/ (diam)
b) Konverter Fonem ke Ucapan
Konverter fonem ke ucapan berfungsi untuk
membangkitkan sinyal ucapan berdasarkan kode-kode
fonem yang dihasilkan dari proses sebelumnya. Teknik
yang sering digunakan pada bagian ini adalah teknik
diphone concatenation yang harus didukung oleh suatu
database diphone yang berisi rekaman segmen-segmen
ucapan yang berupa diphone (gabungan dua buah fonem).
Ucapan dalam suatu bahasa dibentuk dari satu set bunyi
yang mungkin berbeda untuk setiap bahasa, oleh karena
itu setiap bahasa harus dilengkapi dengan diphone
database yang berbeda.
Salah satu konverter yang menggunakan teknik
diphone concatenation untuk sistem operasi symbian
adalah Symbian-MBROLA. Symbian-MBROLA.exe,
database diphone, dan file input.pho (berisi daftar fonem,
durasi, dan pitch) harus diletakkan pada direktori Mbrola
pada MMC (Multi Media Card), sesuai dengan
spesifikasi Symbian-MBROLA.
3. Batasan dan Fitur Perangkat Lunak
Batasan masalah dalam pelaksanan tugas akhir ini
adalah :
• Pembangunan aplikasi sms dengan text to Speech
Bahasa Indonesia pada sistem operasi symbian
• Aplikasi ini terbatas untuk digunakan pada ponsel
dengan MMC (Multi Media Card)
Aplikasi Text to Speech untuk sistem operasi symbian
dibuat agar dapat melakukan pengiriman dan penerimaan
sms dengan tambahan menu untuk menjalankan TTS
Bahasa Indonesia.
4.Pembahasan dan Perancangan TTS
Implementasi TTS dilakukan dengan proses-proses
sebagai berikut :
1. Mengambil text pada aplikasi (aplikasi sms misalnya)
dan menulis teks tersebut ke file input.txt
2. Mengeksekusi file TtsEngine.exe, yang melakukan
operasi sebagai berikut :
o membaca teks dari input.txt
o melakukan proses normalisasi teks
o konversi ke phoneme + duration + pitch yang
ditulis pada file input.pho
3. Mengeksekusi
file
MBROLA.exe
yang
menghasilkan ucapan.
Gambar 2. Perancangan Text to Speech
Pembangunan sistem Text to Speech disesuaikan
dengan fitur-fitur yang pada pembangunan aplikasi
dengan symbian C++. TtsEngine.exe dan MBROLA.exe
berjalan pada level konsol, sedangkan aplikasi sms
berjalan pada level GUI (Graphical User Interface).
Pemograman dengan symbian C++ harus meminimalkan
penggunaan memori, karena sistem operasi symbian
memiliki resource yang terbatas, tidak seperti pada sistem
operasi pada komputer umumnya. Perangkat lunak yang
digunakan untuk implementasi adalah Series 60 Platform
Standard Development Kit's for Symbian OS, for C++,
dari Nokia.
Bagian Konverter Fonem ke Ucapan akan menerima
masukan berupa kode-kode fonem serta pitch dan durasi
pada file input.pho untuk menghasilkan keluaran berupa
bunyi atau sinyal ucapan yang sesuai dengan kalimat
yang ingin diucapkan. Sinyal ucapan dihasilkan dari
database Id1, yang berisi yang berisi rekaman segmensegmen ucapan khusus untuk Bahasa Indonesia.
5. Kesimpulan
Dari uraian diatas maka dapat ditarik kesimpulan
sebagai berikut :
¾ Pembangunan Text to Speech pada sistem operasi
symbian difokuskan pada proses konversi teks ke
fonem dan disesuaikan dengan fitur-fitur yang
tersedia pada symbian C++
¾ Proses konversi fonem ke ucapan menggunakan
teknik diphone concatenation yaitu dengan SymbianMBROLA dan diphone database Id1.
6 Referensi
Arman, Arry Akhmad.2002.Konversi dari Teks ke
Fonem. ITB : Bandung.
Dutoit, Thierry. A Short Introduction to Text-to-Speech
Synthesis. Faculté Polytechnique de Mons, Belgium.
Laya, Mauldy.2004. Sistem Operasi Symbian 1.1.
Stichbury, Jo.2004. Symbian Explained, Effective C++
Symbian for Smartphones. John Wiley and Sons :
England
7. Biodata Penulis
Edwin Rommel, lahir di
Kerinci, 7 Januari 1985. Sejak
tahun 2002 menjalani studi di
Departemen Teknik Elektro ITB,
program studi Teknik Komputer.
Tertarik di bidang sistem
informasi, aplikasi mobile, sms
gateway, dan sekarang sedang
melakukan penelitian untuk mengimplementasikan
Sistem Text to Speech pada sistem operasi Symbian.
Download