algoritma konsensus terdistribusi dengan menggunakan komunikasi

advertisement
DISKRIMINASI PERCAKAPAN DAN MUSIK
YANG TERCAMPUR DALAM SALURAN
TELEPON
DORIS ERWANTORO
2209 203 201
BIDANG STUDI TELEKOMUNIKASI MULTIMEDIA
JURUSAN TEKNIK ELEKTRO
FTI –ITS SURABAYA
SURABAYA 2012
Dosen Pembimbing :
Dr. Ir. Wirawan, DEA
1
Latar Belakang
• Aplikasi CTI pada sistem call center menggunakan event
connected untuk melakukan prosedur berikutnya.
• Penggunaan nada sambung (Ring Back Tone) mengubah
karakteristik sinyal jawab konvensional pada sentral
• Diperlukan diskriminasi untuk memisah sinyal sinyal musik
dan sinyal wicara yang diterima dari saluran telepon
2
Pendekatan Diskrimasi Sinyal Audio
• Domain Waktu
• Domain Frekuensi
• Domain Waktu Frekuensi
3
Permasalahan 1
 Bagaimanakah pemodelan kelas musik dan kelas wicara
pada sebuah sinyal yang tercampur dalam saluran telepon.
 Bagaimana menentukan fitur yang paling dominan dalam
diskrimasi kelas musik dan kelas wicara.
 Menentukan batas ambang diskriminan pada kelas musik
dan kelas wicara yang paling optimal
4
Batasan Masalah
 Sampel audio file yang digunakan mempunyai karakteristik
sebagai audio yang dikodekankan 8 kHz PCM
 Sampel audio musik menggunkan berbagai genre musik
yang ada, dengan perbandingan secara proporsional
 Sampel audio sinyal wicara menggunakan berbagai
kategori, anak-anak, remaja, dewasa pria, dan dewasa
wanita; dengan proporsi jumlah sampel dewasa lebih
dominan
 Durasi tiap sampel audio adalah 30 detik
 Algoritma yang digunakan untuk diskriminasi adalah
Analisa Fisher Linier Diskriminan
5
Tujuan Penelitian
 Mengembangkan algoritma/sistem klasifikasi suara.
 Mengembangkan metode diskriminasi audio yang tepat,
cepat, dan tahan terhadap noise.
 Mendapatkan karakteristik fitur optimal yang diperlukan
dalam melakukan diskriminasi percakapan dan musik yang
tercampur dalam saluran telepon
6
Pengkodean Sinyal Wicara
 Sistem pengkodean sinyal wicara dirancang untuk mendukung
aplikasi telekomunikasi, dengan frekuensi yang terbatas antara
300 dan 3400 Hz
Speech
source
Filter
Sampler
A/D
converter
Source
encoder
Channel
encoder
Filter
Output
Speech
Channel
Channel
decoder
Source
decoder
D/A
converter
7
Representasi Sinyal
Wave File
0.8
0.6
Amplitude
0.4
0.2
0
-0.2
-0.4
-0.6
-0.8
0
5
10
15
20
25
30
35
Length (in seconds)
Single-Sided Amplitude Spectrum of y(t)
0.02
|Y(f)|
0.015
0.01
0.005
0
0
500
1000
1500
2000
Frequency (Hz)
2500
3000
3500
4000
8
Ekstraksi Fitur Audio
 Fitur audio akan menentukan kelas dari sinyal.
 Metode ekstraksi fitur dapat diklasifikasikan menjadi
analisis temporal dan analisis spektral.
 Analisis Temporal menggunakan bentuk gelombang dari
sinyal audio.
 Analisis spektral menggunakan representasi spektral dari
sinyal audio untuk analisis.
 Ekstraksi fitur audio dilakukan dengan memecah sinyal
input ke dalam frame yang panjangnya 50 ms.
9
Ekstraksi Frame
Audio waveform
0.8
0.6
0.4
amplitude
0.2
0
-0.2
-0.4
-0.6
-0.8
0
5
10
Frame 1
15
time (s)
20
25
30
Frame 2
Frame 3
Frame n
10
Pitch
 Pitch
Pitch adalah atribut dari setiap nada musik. Harmonisa
dasar atau pertama dari setiap nada dianggap sebagai pitch
nya. Pitch mutlak adalah posisi nada dalam skala musik
ditentukan sesuai dengan jumlah getaran per detik, dan
mengabaikan nada lainnya
11
Fitur Timbral
 Warna suara atau "timbre" menggambarkan karakteristik
suara, yang memungkinkan telinga untuk membedakannya.
 Dalam musik, timbre digunakan sebagai parameter yang
membedakan berbagai jenis alat musik.
 Setiap parameter yang dihasilkan oleh alat musik dibentuk
dari sejumlah frekuensi yang berbeda (Hz).
 Frekuensi terendah disebut fundamental atau pitch
12
Fitur Timbral (lanjutan)
 Zero-Crossing Rate
Didefinisikan sebagai jumlah dari perubahan bentuk
gelombang yang mengalami perubahan tanda dalam satu
frame
1
ZCR 
2
N 1

sgn( x [n])  sgn( x [n  1])
n 1
Untuk frekuensi tunggal, persamaan diatas adalah frekuensi
13
Fitur Timbral (lanjutan)
 Spectrum Centroid
Didefinisikan sebagai Center of Gravifity (COG) dari
spektrum audio frame
f ( k )  k  0 X ( k )
K 1
Sc 

K 1
k 0
X (k )
14
Fitur Timbral (lanjutan)
 Spectrum Rollof Point
Didefinisikan sebagai batas frekensi fr, merupakan
persentase energi spektral yang terkonsentrasi dibawah fr
fr
K 1
k 0
k 0
 X (k )  p   X (k )
15
Fitur Timbral (lanjutan)
 Spektral Flux
Dilfenisikan sebagai fluktuasi spektrum antar dua frame
yang berurutan, yaitu jumlah kuadrat dari selisih frame
terhadap magnitudo DFT
K 1
Sf   | X m (k ) |  | X m1 (k ) |
2
k 0
16
Fitur Ritmis
 Fitur yang menunjukkan keteraturan atau struktur dari
sinyal audio.
 Mendefinisikan karakteristik dari sinyal audio karena
mengikuti pola tertentu.
 Dalam istilah musik keteraturan didefinisikan sebagai
“ketukan”.
17
Fitur MPEG-7
 Moving Pictures Expert Group (MPEG) mendefinisikan
standar internasional teknik untuk menganalisis dan
mendeskripsikan data dalam hal fitur tertentu.
 Fitur tersebut merupakan subset dari fitur yang ada.
 Tindakan untuk membakukan fitur yang digunakan dalam
klasifikasi sinyal audio.
18
Fitur MPEG-7 (lanjutan)
 Moving Pictures Expert Group (MPEG) mendefinisikan
standar internasional teknik untuk menganalisis dan
mendeskripsikan data dalam hal fitur tertentu.
 Fitur tersebut merupakan subset dari fitur yang ada.
 Tindakan untuk membakukan fitur yang digunakan dalam
klasifikasi sinyal audio.
19
Analisa Fisher Linier Diskriminan
 Metode ini mencoba menemukan subspace optimal dengan
cara memaksimalkan perpisahan dua kelas
 Hal ini dapat diperoleh dengan meminimalkan jarak matriks
sebaran within-class Sw dan memaksimalkan jarak matriks
sebaran between-class Sb secara simultan sehingga
menghasilkan Fisher Criterion JF yang maksimal
 Dengan memaksimalkan Fisher Criterion tersebut,
Diskriminan Linier Fisher menemukan subspace dimana
kelas-kelas saling terpisah secara linier
20
Analisa Fisher Linier Diskriminan
 Dekomposisi seluruh data menjadi 4 sub space
300
250
200
150
100
50
0
2
4
6
8
10
12
14
-3
x 10
21
Metode Penelitian
Studi Literatur
Konfigurasi
Fase Pelatihan
Perhitungan Nilai Fitur
Objek Ucapan
Perhitungan Nilai Fitur
Objek Musik
Perhitungan Fitur
Statistik Objek Ucapan
Perhitungan Fitur
Statistik Objek Musik
Penentuan Batas dan
PDF Objek Ucapan
Penentuan Batas dan
PDF Objek Musik
Perhitungan
Diskriminan
Perhitungan
Ambang
Diskriminan
Fase Pengujian
Analisa
22
Penentuan Objek Pembelajaran
Energi entropi objek wicara
Jumlah
Min
Max
Rata-rata
Deviasi
100
0.0219
0.0595
0.0361
0.0070
200
0.0104
0.0848
0.0366
0.0088
300
0.0104
0.0848
0.0375
0.0091
400
0.0104
0.0848
0.0375
0.0091
data
23
Penentuan Objek Pembelajaran
Energi entropi objek wicara
PDF(X) Energi Entropi based on 200 data samples @ 30 bins
PDF(X) Energi Entropi based on 100 data samples @ 30 bins
80
120
70
100
60
50
80
40
60
30
40
20
10
20
0
0
0.02
0.025
0.03
0.035
0.04
0.045
0.05
0.055
0.06
0
0.01
0.02
0.03
0.04
0.065
0.05
0.06
0.07
0.08
0.09
X
X
PDF(X) Energi Entropi based on 300 data samples @ 30 bins
PDF(X) Energi Entropi based on 400 data samples @ 30 bins
70
70
60
60
50
50
40
40
30
30
20
20
10
10
0
0
0.01
0.02
0.03
0.04
0.05
X
0.06
0.07
0.08
0.09
0
0
0.01
0.02
0.03
0.04
0.05
X
0.06
0.07
0.08
0.09
24
Penentuan Objek Pembelajaran
Energi entropi objek musik
Jumlah
Min
Max
Rata-rata
Deviasi
100
0.0067
0.0172
0.0107
0.0250
200
0.0063
0.0236
0.0116
0.0250
300
0.0054
0.0242
0.0119
0.0034
400
0.0041
0.0242
0.0116
0.0035
data
25
Penentuan Objek Pembelajaran
Energi entropi objek musik
PDF(X) Energi Entropi based on 100 data samples @ 30 bins
300
PDF(X) Energi Entropi based on 200 data samples @ 30 bins
180
160
250
140
200
120
100
150
80
100
60
40
50
20
0
0.006
0.008
0.01
0.012
0.014
0.016
0.018
0.02
0
0.006
0.008
0.01
0.012 0.014
X
0.016 0.018
0.02
0.022
0.024
X
PDF(X) Energi Entropi based on 300 data samples @ 30 bins
180
PDF(X) Energi Entropi based on 400 data samples @ 30 bins
150
160
140
120
100
100
80
60
50
40
20
0
0.005
0.01
0.015
X
0.02
0.025
0
0
0.005
0.01
0.015
X
0.02
0.025
26
Perhitung fitur objek musik
Fitur
Min
Max
Rata-rata
Deviasi
Energi Entropi
0.0041
0.0242
0.0116
0.0035
Energi Sinyal
0.0288
0.9520
0.1623
0.1112
ZCR
0.0021
0.0117
0.0064
0.0017
Spec. Rollof
0.0282
0.1160
0.0598
0.0147
Spec Centroid
1.6315
13.0925
3.8091
1.2556
Spec. Flux
0.0415
2.3154
0.4760
0.3309
27
Perhitung fitur objek wicara
Fitur
Min
Max
Rata-rata
Deviasi
Energi Entropi
0.0104
0.0848
0.0375
0.0091
Energi Sinyal
0.0267
0.4392
0.1531
0.0614
ZCR
0.0030
0.0140
0.0094
0.0014
Spec. Rollof
0.0260
0.1978
0.1440
0.0192
Spec Centroid
2.8639
10.8082
6.6955
1.1787
Spec. Flux
0.3353
27.316
5.9080
4.0751
28
Penentuan Fitur Dominan
Penentuan Fitur dominan dialkuakn dengan
menghitung fisher criterion
( s  m)
Fd 
2
2
S M
2
µs = Rata-rata wicara
µm = Rata-rata musik
s = Standard deviasi wicara
m =Standard deviasi musik
29
Penentuan Fitur Dominan
Fitur
(µs)
(µm)
(s)
(m)
Fd
Energ
Entropi
0.0375
0.0116
0.0091
0.0035
7.0576
Energi
Sinyal
0.1531
0.1623
0.0614
0.1112
0.0052
ZCR
0.0940
0.0064
0.0014
0.0017
1582.2
Spec.
Rollof
0.1440
0.0598
0.0192
0.0147
12.1246
Spec
Centroid
6.6955
3.8091
1.1787
1.2556
2.8091
Spec. Flux
6.3759
0.4760
5.8558
0.3309
2.7301
30
Penentuan Batas Ambang Diskriminasi
PDF(X) Zero Crossing Rate Musik dan Wicara
300
Musik
Wicara
250
200
150
100
50
0
2
4
6
8
10
12
14
-3
x 10
31
Pengujian Sample
Fitur 1
Fitur 2
Total
Musik
98.72 %
74.75 %
75.02 %
Wicara
97.67 %
72.73 %
72.9 %
32
Kesimpulan
 Sinyal audio yang melalului saluran telepon akan berubah
karakteristiknya karena lebar pita kanal yang terbatas.
 Representasi kelas objek pada fase pembelajaran, ditentukan
oleh nilai rata-rata dan standard deviasi dari fitur yang
diamati.
 Perhitungan nilai Fisher Discriminant Ratio menentukan
kemampuan sebuah fitur untuk menjadi diskriminan.
 Fitur Zero Crossing Rate dapat digunakan sebagai diskriminan
utama pada diskriminasi percakapan dan musik yang
tercampur dalam saluran telepon dengan tingkat akurasi 97%.
33
DaftarPustaka
• Aggelos Pikrakis, Theodoros Giannakopoulos and Sergios Theodoridis,
“Speech/music Discrimination for Radio Broadcasts using a Hybrid HMMbayesian Network Architecture”, EURASIP 14th European Signal
Processing Conference (EUSIPCO 2006), Italy, 2006
• Al-Shoshan A, “Speech and Music Clasification and Separation: A
Review”, J. King Saud University, 2006
• Bergevin R and Wyatt A, “Contact Centers For Dummies®, Avaya Limited
Edition”, Wiley Publishing, Inc, 2005
• El-Maleh K., Klein M., Petrucci G., and Kabal P., “Speech/Music
Discriminator for Multimedia Application”, Proceeding IEEE International
Conference Acoustics, Speech, Signal Processing, Istanbul, 2000.
• International Telecommunication Union (ITU_T) Series E.180, “Operation,
numbering, routing and mobile services –International operation – Tones in
national signalling systems”, Geneva, Switzerland.
34
DaftarPustaka
• Jacob Benesty, M. Mohan Sondhi, Yiteng Huang, “Handbook of Speech
Processing”, Springer-Verlag Berlin Heidelberg, 2008
• Lartillot O and Toiviainen P, “A Matlab Toolbox for Musical Feature
Extraction from Audio”, Proceedings of the 10th Int. Conference on Digital
Audio Effects (DAFx-07), Bordeaux, France, 2007.
• Lavner Y and Ruinskiy D, “A Decision-Tree-Based Algorithm for
Speech/Music Classification and Segmentation”, EURASIP Journal on
Audio, Speech, and Music Processing Volume 2009, Article ID 239892.
• Rabiner L and Schafer R,”Introduction to Digital Speech Processing”,
Foundations and Trends® in Signal Processing, Volume 1, Issue 1-2, 2007
35
SEKIAN
DAN
TERIMA KASIH
36
Download