1. Pendahuluan 1.1 Latar Belakang Masalah Text-to-Speech Synthesis adalah sebuah sistem berbasis komputer yang mampu membaca teks secara keras[6]. Dalam sistem ini terdapat sebuah modul bernama Phonetization yang berperan untuk menemukan simbol pelafalan (fonem) yang tepat dari simbol eja/tulisan (grafem) pada kata, frase, atau kalimat yang terkait. Menemukan fonem yang tepat dari grafem yang bersangkutan ini sendiri sangat bergantung pada karakteristik bahasa yang menjadi konteks, dalam Tugas Akhir ini berupa bahasa Indonesia. Bahasa Indonesia, saat kita bicara tentang konversi grafem ke fonemnya maka tidak akan lepas dari aspek homograf, diftong, imbuhan. Homograf memiliki pengertian sebagai kata dengan penulisan sama namun pelafalan berbeda sehingga memiliki arti yang berbeda. Sementara diftong adalah gabungan bunyi (vokal) pada satu suku kata, sehingga terjadi perubahan kualitas vokal pada saat pengucapan. Dan imbuhan sendiri adalah satuan terikat yang jika ditambahkan pada kata dasar akan mengubah makna atau membentuk kata baru. Membangun sistem konversi grafem ke fonem pada bahasa Indonesia (dalam Tugas Akhir ini disebut juga sebagai sistem Indonesian G2P) berarti membangun sistem yang dapat bekerja secara benar pada aspek-aspek tersebut. Berbagai teknik dan metode telah diusulkan untuk mengimplementasikan sistem konversi grafem ke fonem berbasis aturan[2]. Salah satunya adalah sistem Indonesian G2P dengan model IG-Tree + strategi tebakan terbaik oleh Agus Hartoyo. Model IG-Tree + strategi tebakan terbaik dibangun dalam struktur pohonkeputusan yang mengkompres data secara lossless untuk kemudian ditawarkan diterapkannya mekanisme prunning (pemangkasan) atas model. Mekanisme tersebut menjadikan dimensi model lebih kecil karena adanya generalisasi namun pada beberapa kasus menjadikan performansi sistem tidak cukup bagus bahkan setelah dibantu dengan strategi tebakan terbaik. Hal ini merupakan trade off yang terjadi pada mekanisme pruning[2]. Lebih lanjut mengenai teknik dan metode berbasis aturan, menemukan aturan yang umum dimana data yang digunakan sangat banyak, adanya kemungkinan data tidak lengkap, terdapatnya perbedaan dari beberapa hal yang mirip, serta terdapatnya kesamaan dari dua hal atau lebih yang berbeda pada data maka hal ini dikategorikan ke dalam sebuah learning. Metode learning sendiri terbagi antara lain ke dalam decision tree learning, jaringan syaraf tiruan, dan algoritma genetika. 1 1.2 Perumusan Masalah Berdasarkan latar belakang masalah yang dikemukakan di atas penulis merumuskan bahwa masalah-masalah yang akan diselesaikan pada Tugas Akhir ini adalah sebagai berikut: 1. Bagaimana membangun pohon keputusan (aturan) untuk sistem Indonesian G2P dengan mengimplementasikan algoritma genetika. 2. Bagaimana mengukur dan menganalisis performansi sistem Indonesian G2P yang dibangun terhadap parameter input dan dataset. 1.3 Batasan Masalah Dalam rangka memecahkan dua masalah yang dirumuskan di atas penulis menetapkan batasan antara lain: 1. Dataset yang digunakan adalah dataset dari Tugas Akhir mahasiswa ITTelkom yang berjudul “INDONESIAN GRAPHEME-TO-PHONEME (G2P) MENGGUNAKAN MODEL IG-TREE + STRATEGI TEBAKAN TERBAIK” oleh Agus Hartoyo dengan NIM 113040329. 2. Pengukuran performansi dilakukan terhadap akurasi per fonem dan per kata dari data uji sehubung parameter input dan dataset. 1.4 Tujuan Berdasarkan rumusan masalah yang dikemukakan di atas penulis menetapkan tujuan Tugas Akhir ini sebagai berikut: 1. Mengimplementasikan algoritma genetika dalam membangun pohon keputusan (menemukan aturan) untuk sistem Indonesian G2P. 2. Menguraikan analisis tentang pengaruh parameter input dan dataset terhadap hasil pengukuran performansi sistem Indonesian G2P yang dibangun. 1.5 Metodologi Penyelesaian Masalah Metode yang akan digunakan untuk menyelesaikan permasalahan dalam Tugas Akhir ini adalah sebagai berikut: 1. Studi literatur Penulis mempelajari dasar teori tentang Bahasa Indonesia khususnya yang berkaitan dengan fonologi; algoritma genetika; serta evolving decision tree melalui buku-buku atau paper yang telah dipublikasikan. 2. Penggunaan dataset dari Tugas Akhir mahasiswa ITTelkom “INDONESIAN GRAPHEME-TO-PHONEME (G2P) MENGGUNAKAN MODEL IG-TREE + STRATEGI TEBAKAN TERBAIK” oleh Agus Hartoyo dengan NIM 113040329. 3. Perancangan perangkat lunak Indonesian G2P 2 4. Implementasi sistem perangkat lunak Indonesian G2P menggunakan bahasa pemrograman C# dengan editor Visual Studio 2008. 5. Analisis terhadap hasil pengujian sistem Indonesian G2P. 6. Pengambilan kesimpulan dan penulisan laporan. 1.6 Sistematika Penulisan Tugas Akhir ini disusun dengan sistematika sebagai berikut: 1. Pendahuluan Bab ini menguraikan Tugas Akhir ini secara umum, meliputi latar belakang, perumusan masalah, batasan masalah, tujuan, dan metodologi penyelesaian masalah. 2. Dasar Teori Bab ini membahas mengenai uraian teori yang berhubungan dengan grafem, fonem, alofon, diftong dalam bahasa Indonesia, serta decision tree, evolving decision tree, dan algoritma genetika. 3. Analisis Perancangan dan Implementasi Bab ini berisi analisis kebutuhan dari sistem yang kemudian dituangkan ke dalam suatu sistem pemodelan secara terstruktur. Dari tahap analisis kemudian dilanjutkan ke tahap perancangan dan implementasi. 4. Analisis Hasil Pengujian Bab ini membahas mengenai pengujian yang dilakukan terhadap sistem yang telah dibangun. Pengujian dilakukan dengan melihat perbandingan akurasi jika pada sistem dilakukan perubahan nilai pada parameterparameter evolusinya dan dataset yang digunakan. 5. Kesimpulan Berisi kesimpulan dari penulisan Tugas Akhir ini dan saran-saran yang diperlukan untuk pengembangan lebih lanjut. 3