DISKRIMINASI PERCAKAPAN DAN MUSIK YANG TERCAMPUR DALAM SALURAN TELEPON DORIS ERWANTORO 2209 203 201 BIDANG STUDI TELEKOMUNIKASI MULTIMEDIA JURUSAN TEKNIK ELEKTRO FTI –ITS SURABAYA SURABAYA 2012 Dosen Pembimbing : Dr. Ir. Wirawan, DEA 1 Latar Belakang • Aplikasi CTI pada sistem call center menggunakan event connected untuk melakukan prosedur berikutnya. • Penggunaan nada sambung (Ring Back Tone) mengubah karakteristik sinyal jawab konvensional pada sentral • Diperlukan diskriminasi untuk memisah sinyal sinyal musik dan sinyal wicara yang diterima dari saluran telepon 2 Pendekatan Diskrimasi Sinyal Audio • Domain Waktu • Domain Frekuensi • Domain Waktu Frekuensi 3 Permasalahan 1 Bagaimanakah pemodelan kelas musik dan kelas wicara pada sebuah sinyal yang tercampur dalam saluran telepon. Bagaimana menentukan fitur yang paling dominan dalam diskrimasi kelas musik dan kelas wicara. Menentukan batas ambang diskriminan pada kelas musik dan kelas wicara yang paling optimal 4 Batasan Masalah Sampel audio file yang digunakan mempunyai karakteristik sebagai audio yang dikodekankan 8 kHz PCM Sampel audio musik menggunkan berbagai genre musik yang ada, dengan perbandingan secara proporsional Sampel audio sinyal wicara menggunakan berbagai kategori, anak-anak, remaja, dewasa pria, dan dewasa wanita; dengan proporsi jumlah sampel dewasa lebih dominan Durasi tiap sampel audio adalah 30 detik Algoritma yang digunakan untuk diskriminasi adalah Analisa Fisher Linier Diskriminan 5 Tujuan Penelitian Mengembangkan algoritma/sistem klasifikasi suara. Mengembangkan metode diskriminasi audio yang tepat, cepat, dan tahan terhadap noise. Mendapatkan karakteristik fitur optimal yang diperlukan dalam melakukan diskriminasi percakapan dan musik yang tercampur dalam saluran telepon 6 Pengkodean Sinyal Wicara Sistem pengkodean sinyal wicara dirancang untuk mendukung aplikasi telekomunikasi, dengan frekuensi yang terbatas antara 300 dan 3400 Hz Speech source Filter Sampler A/D converter Source encoder Channel encoder Filter Output Speech Channel Channel decoder Source decoder D/A converter 7 Representasi Sinyal Wave File 0.8 0.6 Amplitude 0.4 0.2 0 -0.2 -0.4 -0.6 -0.8 0 5 10 15 20 25 30 35 Length (in seconds) Single-Sided Amplitude Spectrum of y(t) 0.02 |Y(f)| 0.015 0.01 0.005 0 0 500 1000 1500 2000 Frequency (Hz) 2500 3000 3500 4000 8 Ekstraksi Fitur Audio Fitur audio akan menentukan kelas dari sinyal. Metode ekstraksi fitur dapat diklasifikasikan menjadi analisis temporal dan analisis spektral. Analisis Temporal menggunakan bentuk gelombang dari sinyal audio. Analisis spektral menggunakan representasi spektral dari sinyal audio untuk analisis. Ekstraksi fitur audio dilakukan dengan memecah sinyal input ke dalam frame yang panjangnya 50 ms. 9 Ekstraksi Frame Audio waveform 0.8 0.6 0.4 amplitude 0.2 0 -0.2 -0.4 -0.6 -0.8 0 5 10 Frame 1 15 time (s) 20 25 30 Frame 2 Frame 3 Frame n 10 Pitch Pitch Pitch adalah atribut dari setiap nada musik. Harmonisa dasar atau pertama dari setiap nada dianggap sebagai pitch nya. Pitch mutlak adalah posisi nada dalam skala musik ditentukan sesuai dengan jumlah getaran per detik, dan mengabaikan nada lainnya 11 Fitur Timbral Warna suara atau "timbre" menggambarkan karakteristik suara, yang memungkinkan telinga untuk membedakannya. Dalam musik, timbre digunakan sebagai parameter yang membedakan berbagai jenis alat musik. Setiap parameter yang dihasilkan oleh alat musik dibentuk dari sejumlah frekuensi yang berbeda (Hz). Frekuensi terendah disebut fundamental atau pitch 12 Fitur Timbral (lanjutan) Zero-Crossing Rate Didefinisikan sebagai jumlah dari perubahan bentuk gelombang yang mengalami perubahan tanda dalam satu frame 1 ZCR 2 N 1 sgn( x [n]) sgn( x [n 1]) n 1 Untuk frekuensi tunggal, persamaan diatas adalah frekuensi 13 Fitur Timbral (lanjutan) Spectrum Centroid Didefinisikan sebagai Center of Gravifity (COG) dari spektrum audio frame f ( k ) k 0 X ( k ) K 1 Sc K 1 k 0 X (k ) 14 Fitur Timbral (lanjutan) Spectrum Rollof Point Didefinisikan sebagai batas frekensi fr, merupakan persentase energi spektral yang terkonsentrasi dibawah fr fr K 1 k 0 k 0 X (k ) p X (k ) 15 Fitur Timbral (lanjutan) Spektral Flux Dilfenisikan sebagai fluktuasi spektrum antar dua frame yang berurutan, yaitu jumlah kuadrat dari selisih frame terhadap magnitudo DFT K 1 Sf | X m (k ) | | X m1 (k ) | 2 k 0 16 Fitur Ritmis Fitur yang menunjukkan keteraturan atau struktur dari sinyal audio. Mendefinisikan karakteristik dari sinyal audio karena mengikuti pola tertentu. Dalam istilah musik keteraturan didefinisikan sebagai “ketukan”. 17 Fitur MPEG-7 Moving Pictures Expert Group (MPEG) mendefinisikan standar internasional teknik untuk menganalisis dan mendeskripsikan data dalam hal fitur tertentu. Fitur tersebut merupakan subset dari fitur yang ada. Tindakan untuk membakukan fitur yang digunakan dalam klasifikasi sinyal audio. 18 Fitur MPEG-7 (lanjutan) Moving Pictures Expert Group (MPEG) mendefinisikan standar internasional teknik untuk menganalisis dan mendeskripsikan data dalam hal fitur tertentu. Fitur tersebut merupakan subset dari fitur yang ada. Tindakan untuk membakukan fitur yang digunakan dalam klasifikasi sinyal audio. 19 Analisa Fisher Linier Diskriminan Metode ini mencoba menemukan subspace optimal dengan cara memaksimalkan perpisahan dua kelas Hal ini dapat diperoleh dengan meminimalkan jarak matriks sebaran within-class Sw dan memaksimalkan jarak matriks sebaran between-class Sb secara simultan sehingga menghasilkan Fisher Criterion JF yang maksimal Dengan memaksimalkan Fisher Criterion tersebut, Diskriminan Linier Fisher menemukan subspace dimana kelas-kelas saling terpisah secara linier 20 Analisa Fisher Linier Diskriminan Dekomposisi seluruh data menjadi 4 sub space 300 250 200 150 100 50 0 2 4 6 8 10 12 14 -3 x 10 21 Metode Penelitian Studi Literatur Konfigurasi Fase Pelatihan Perhitungan Nilai Fitur Objek Ucapan Perhitungan Nilai Fitur Objek Musik Perhitungan Fitur Statistik Objek Ucapan Perhitungan Fitur Statistik Objek Musik Penentuan Batas dan PDF Objek Ucapan Penentuan Batas dan PDF Objek Musik Perhitungan Diskriminan Perhitungan Ambang Diskriminan Fase Pengujian Analisa 22 Penentuan Objek Pembelajaran Energi entropi objek wicara Jumlah Min Max Rata-rata Deviasi 100 0.0219 0.0595 0.0361 0.0070 200 0.0104 0.0848 0.0366 0.0088 300 0.0104 0.0848 0.0375 0.0091 400 0.0104 0.0848 0.0375 0.0091 data 23 Penentuan Objek Pembelajaran Energi entropi objek wicara PDF(X) Energi Entropi based on 200 data samples @ 30 bins PDF(X) Energi Entropi based on 100 data samples @ 30 bins 80 120 70 100 60 50 80 40 60 30 40 20 10 20 0 0 0.02 0.025 0.03 0.035 0.04 0.045 0.05 0.055 0.06 0 0.01 0.02 0.03 0.04 0.065 0.05 0.06 0.07 0.08 0.09 X X PDF(X) Energi Entropi based on 300 data samples @ 30 bins PDF(X) Energi Entropi based on 400 data samples @ 30 bins 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 0 0.01 0.02 0.03 0.04 0.05 X 0.06 0.07 0.08 0.09 0 0 0.01 0.02 0.03 0.04 0.05 X 0.06 0.07 0.08 0.09 24 Penentuan Objek Pembelajaran Energi entropi objek musik Jumlah Min Max Rata-rata Deviasi 100 0.0067 0.0172 0.0107 0.0250 200 0.0063 0.0236 0.0116 0.0250 300 0.0054 0.0242 0.0119 0.0034 400 0.0041 0.0242 0.0116 0.0035 data 25 Penentuan Objek Pembelajaran Energi entropi objek musik PDF(X) Energi Entropi based on 100 data samples @ 30 bins 300 PDF(X) Energi Entropi based on 200 data samples @ 30 bins 180 160 250 140 200 120 100 150 80 100 60 40 50 20 0 0.006 0.008 0.01 0.012 0.014 0.016 0.018 0.02 0 0.006 0.008 0.01 0.012 0.014 X 0.016 0.018 0.02 0.022 0.024 X PDF(X) Energi Entropi based on 300 data samples @ 30 bins 180 PDF(X) Energi Entropi based on 400 data samples @ 30 bins 150 160 140 120 100 100 80 60 50 40 20 0 0.005 0.01 0.015 X 0.02 0.025 0 0 0.005 0.01 0.015 X 0.02 0.025 26 Perhitung fitur objek musik Fitur Min Max Rata-rata Deviasi Energi Entropi 0.0041 0.0242 0.0116 0.0035 Energi Sinyal 0.0288 0.9520 0.1623 0.1112 ZCR 0.0021 0.0117 0.0064 0.0017 Spec. Rollof 0.0282 0.1160 0.0598 0.0147 Spec Centroid 1.6315 13.0925 3.8091 1.2556 Spec. Flux 0.0415 2.3154 0.4760 0.3309 27 Perhitung fitur objek wicara Fitur Min Max Rata-rata Deviasi Energi Entropi 0.0104 0.0848 0.0375 0.0091 Energi Sinyal 0.0267 0.4392 0.1531 0.0614 ZCR 0.0030 0.0140 0.0094 0.0014 Spec. Rollof 0.0260 0.1978 0.1440 0.0192 Spec Centroid 2.8639 10.8082 6.6955 1.1787 Spec. Flux 0.3353 27.316 5.9080 4.0751 28 Penentuan Fitur Dominan Penentuan Fitur dominan dialkuakn dengan menghitung fisher criterion ( s m) Fd 2 2 S M 2 µs = Rata-rata wicara µm = Rata-rata musik s = Standard deviasi wicara m =Standard deviasi musik 29 Penentuan Fitur Dominan Fitur (µs) (µm) (s) (m) Fd Energ Entropi 0.0375 0.0116 0.0091 0.0035 7.0576 Energi Sinyal 0.1531 0.1623 0.0614 0.1112 0.0052 ZCR 0.0940 0.0064 0.0014 0.0017 1582.2 Spec. Rollof 0.1440 0.0598 0.0192 0.0147 12.1246 Spec Centroid 6.6955 3.8091 1.1787 1.2556 2.8091 Spec. Flux 6.3759 0.4760 5.8558 0.3309 2.7301 30 Penentuan Batas Ambang Diskriminasi PDF(X) Zero Crossing Rate Musik dan Wicara 300 Musik Wicara 250 200 150 100 50 0 2 4 6 8 10 12 14 -3 x 10 31 Pengujian Sample Fitur 1 Fitur 2 Total Musik 98.72 % 74.75 % 75.02 % Wicara 97.67 % 72.73 % 72.9 % 32 Kesimpulan Sinyal audio yang melalului saluran telepon akan berubah karakteristiknya karena lebar pita kanal yang terbatas. Representasi kelas objek pada fase pembelajaran, ditentukan oleh nilai rata-rata dan standard deviasi dari fitur yang diamati. Perhitungan nilai Fisher Discriminant Ratio menentukan kemampuan sebuah fitur untuk menjadi diskriminan. Fitur Zero Crossing Rate dapat digunakan sebagai diskriminan utama pada diskriminasi percakapan dan musik yang tercampur dalam saluran telepon dengan tingkat akurasi 97%. 33 DaftarPustaka • Aggelos Pikrakis, Theodoros Giannakopoulos and Sergios Theodoridis, “Speech/music Discrimination for Radio Broadcasts using a Hybrid HMMbayesian Network Architecture”, EURASIP 14th European Signal Processing Conference (EUSIPCO 2006), Italy, 2006 • Al-Shoshan A, “Speech and Music Clasification and Separation: A Review”, J. King Saud University, 2006 • Bergevin R and Wyatt A, “Contact Centers For Dummies®, Avaya Limited Edition”, Wiley Publishing, Inc, 2005 • El-Maleh K., Klein M., Petrucci G., and Kabal P., “Speech/Music Discriminator for Multimedia Application”, Proceeding IEEE International Conference Acoustics, Speech, Signal Processing, Istanbul, 2000. • International Telecommunication Union (ITU_T) Series E.180, “Operation, numbering, routing and mobile services –International operation – Tones in national signalling systems”, Geneva, Switzerland. 34 DaftarPustaka • Jacob Benesty, M. Mohan Sondhi, Yiteng Huang, “Handbook of Speech Processing”, Springer-Verlag Berlin Heidelberg, 2008 • Lartillot O and Toiviainen P, “A Matlab Toolbox for Musical Feature Extraction from Audio”, Proceedings of the 10th Int. Conference on Digital Audio Effects (DAFx-07), Bordeaux, France, 2007. • Lavner Y and Ruinskiy D, “A Decision-Tree-Based Algorithm for Speech/Music Classification and Segmentation”, EURASIP Journal on Audio, Speech, and Music Processing Volume 2009, Article ID 239892. • Rabiner L and Schafer R,”Introduction to Digital Speech Processing”, Foundations and Trends® in Signal Processing, Volume 1, Issue 1-2, 2007 35 SEKIAN DAN TERIMA KASIH 36