pemisahan sinyal audio tercampur dari live music

advertisement
1
PEMISAHAN SINYAL AUDIO TERCAMPUR DARI LIVE
MUSIC RECORDING MULTI-SUMBER MULTI-KANAL
DENGAN METODE SMOOTH ITAKURA-SAITO NMF
(NONNEGATIVE MATRIX FACTORIZATION)
1
Bramara Danaba, 2Dhany Arifianto, 3Andi Rahmadiansah
Jurusan Teknik Fisika
Fakultas Teknologi Industri
Institut Teknologi Sepuluh Nopember (ITS)
Kampus ITS Sukolilo, Surabaya - 60111
email : 1{danaderbramara}@yahoo.com
23
{dhany, andi}@ep.its.ac.id
ABSTRAK
ekaman suara multi sumber dan multi
kanal (Multi Source Multi Channel =
MSMC)
sering
ditemui
dalam
perekaman musik hidup (Live Music
Recording), teleconferencing, dan lain - lain.
Perekaman multi sumber secara live dari 2
instrumen musik gitar dan bass ini akan
mengakibatkan terekamnya sinyal yang tidak
diinginkan pada taip kanal hasil pencampuran, hal
ini diakibatkan karena karakter suara dan frekuensi
kerja kedua instrumen tersebut yang hampir sama,
sehingga mengakibatkan terjadinya penumpukan
daya spektral. Pada metode Smooth Itakura-Saito
NMF (Nonnegative Matrix Factorization) yang
digunakan dalam pemisahan sinyal audio tercampur
ini, sebuah input sinyal audio tercampur akan
dianalogikan sebagai sebuah matrix non-negatif, di
mana matrix tersebut akan difaktorkan agar dapat
mengidentifikasi matrix – matrix non-negatif lain.
Setelah dilakukan perhitungan nilai MSE (Mean
Square Error), maka dapat diketahui bahwa error
pada mode smooth lebih besar 0,15668 dibanding
tanpa mode smooth yang bernilai 0,15664 untuk
kanal gitar. Untuk kanal bass, error pada mode
smooth lebih besar 0,1732 dibanding tanpa mode
smooth yang bernilai 0,1367. Karena nilai MSE
yang terbilang masih besar, maka perlu dilakukan
pengkajian ulang terhadap algoritma dari Metode
Smooth Itakura-Saito NMF ini.
Kata kunci : Sinyal Audio, Live Music Recording,
Multi-Sumber Multi-Kanal, Smooth Itakura-Saito
NMF.
I. PENDAHULUAN
Rekaman suara multi sumber dan multi kanal
(Multi Source Multi Channel = MSMC) sering
ditemui dalam perekaman musik hidup (Live Music
Recording), teleconferencing, dan lain - lain. Musik
itu sendiri dapat diciptakan atau dimainkan dari
beberapa instrumen atau alat - alat musik
pendukung, misal mikrofon, gitar, bass, drum,
keyboard, dan lain - lain, atau juga dengan alat - alat
musik tradisional lain. Perekaman di ruang studio,
dalam praktiknya juga menggunakan teknik
perekaman multi sumber, sehingga setiap
komponen nantinya akan direkam menjadi satu
kanal. Untuk selanjutnya, masing - masing sinyal
instrumen musik dilakukan proses ekualisasi,
pemberian efek reverberasi, dan lain - lain yang
dilakukan oleh Sound Engineer sebelum proses
pencampuran (mixing). Untuk itu diperlukan
pemisahan sinyal suara dari instrument - instrument
musik yang telah terekam dalam satu kanal agar
memudahkan Sound Engineer memproses sinyal
sesuai yang diinginkan.
Perekaman multi sumber dari 2 instrument
musik yang umum dijumpai dan paling mudah
untuk dimainkan ini akan mengakibatkan
terekamnya sinyal yang tidak diinginkan pada kanal
hasil pencampuran, di samping terjadinya kanselasi
fasa sinyal akibat perbedaan jarak sumber dan
2
penerima. Instrumen - instrumen musik di atas
memiliki spektrum yang saling berpotongan dan
sebuah musik dari genre musik tertentu biasanya
dapat menghasilkan tingkat tekanan suara (Sound
Pressure Level) mencapai 110 - 120 dB, sehingga
kebocoran sinyal dari komponen lain sulit
dihindarkan. Selain itu, pengadaan mikrofon dengan
karakteristik tertentu akan sangat mahal. Untuk
mengatasi terekamnya sinyal suara yang tidak
diinginkan (noise) pada suatu kanal, maka
diperlukan suatu metode pemisahan suara pada
kanal tersebut yang merupakan hasil dari
perekaman musik hidup (live music recording)
multi sumber.
Sinyal suara yang ditangkap pada kanal
rekaman merupakan sinyal yang telah melalui
proses propagasi, pencampuran, delay, dan
pemfilteran, di mana sebelumnya telah terjadi
proses pencampuran sinyal dari banyak sumber
suara yang berbeda. Dengan demikian proses
pencampuran sinyal suara pada suatu kanal akan
sulit untuk diketahui, karena dipengaruhi oleh
dinamika sinyal suara, perilaku akustik ruangan,
posisi sumber, dan penerima, serta karakteristik
sensor akustik yang digunakan.
Agar proses pemisahan sinyal suara musik
dapat dilakukan pada setiap kondisi perekaman,
maka digunakan metode pemisahan buta (Blind
Separation) yang dari beberapa penelitian
sebelumnya dapat mengestimasi sinyal suara
sumber dari sinyal suara tercampur. Beberapa
metode pemisahan buta pada sinyal audio tercampur
yang telah diketahui di antaranya adalah Blind
Source Separation (BSS) dan Computational
Auditory Scene Analysis (CASA), sedangkan untuk
penelitian tugas akhir ini metode yang digunakan
adalah Smooth Itakura-Saito NMF (Nonnegative
Matrix Factorization).
Pada penelitian tentang pemisahan sinyal
audio tercampur yang menggunakan metode
Smooth Itakura-Saito NMF (Nonnegative Matrix
Factorization) ini, sebuah sinyal audio tercampur
akan dianalogikan sebagai sebuah matrix nonnegatif, di mana matrix tersebut akan difaktorkan
agar dapat mengidentifikasi matrix non-negatif lain.
Permasalahan yang timbul dari pemfaktoran
tersebut adalah bagaimana mereduksi dimensi
matrix - matrix lain hasil pemfaktoran. Dengan
menggunakan Metode Itakura-Saito NMF, akan
dapat ditentukan jarak minimum antara matrix
sumber dan matrix hasil pemfaktoran. Sedangkan
mode smooth digunakan untuk mengatasi
permasalahan smoothness dari daya spektral sinyal
estimasi.
II. TINJAUAN PUSTAKA
2.1 Perekaman
Recording)
Musik
Hidup
(Live
Music
Perekaman musik hidup (Live Music
Recording) adalah perekaman audio dari berbagai
jenis alat (instrumen) musik yang dimainkan secara
bersama - sama dan bunyi yang dihasilkan langsung
dikeluarkan (sound out) dengan menggunakan
amplifier, speaker, atau sound system lain.
Perekaman musik hidup ini dapat dilakukan di
dalam studio, di mana proses pengolahan data hasil
perekaman, seperti mixing, equalizing, denoising,
dan lain - lain dilakukan pada saat itu juga.
Perekaman juga dapat dilakukan pada sebuah
konser live.
Gambar 1. Proses Perekaman Musik Hidup di dalam Studio
Sedangkan perekaman musik yang tidak
dilakukan secara live adalah misalnya pada
perekaman audio dari beberapa alat musik yang
dilakukan secara terpisah, kemudian hasil dari
perekaman terpisah tersebut dicampur (mixing)
untuk menghasilkan komposisi musik (lagu) yang
utuh. Untuk melakukannya, diperlukan sistem
recording yang terdiri dari mixer, synthesizer,
equalizer, software penunjang, dan instrumen lain,
serta tentunya seorang sound engineer untuk
mengoperasikan keseluruhan proses rekaman. Tentu
3
saja untuk melakukan keseluruhan proses
membutuhkan waktu yang lama dan biaya yang
tidak sedikit. Contoh lain dari perkekaman tidak live
adalah perekaman ulang dari file - file berformat
MIDI; .mp3; .wav; .wmv; dan lain – lain.
Untuk melakukan perekaman musik secara
hidup, biasanya diperlukan kemahiran bagi musisi
untuk memainkan alat musik sesuai dengan ketukan
atau tempo tertentu, agar tercipta alunan musik yang
sinkron dan tentu saja enak untuk didengar. Tempo
dari suatu alunan musik yang dimainkan biasanya
diukur dengan satuan BPM (beats per minute) atau
ketukan per menit. Untuk menyesuaikan permainan
alat musik dengan tempo, biasanya digunakan alat
bantu, yaitu metronom. Atau yang paling sederhana
dengan menggunakan salah satu alat musik sebagai
acuan, umunya drum atau bass. Musik dengan
tempo sedang biasanya memiliki tempo sekitar 120
BPM, yang dominan pada genre musik pop,
orkestra, atau slowrock, di mana diperlukan acuan
ketukan single-pedal dengan menggunakan drum.
Sedangkan untuk kategori musik cepat memiliki
tempo sekitar 200 – 240 BPM, biasanya dapat
diterapkan pada musik ber-genre hardrock, metal,
punk, dan lain - lain. Bila menggunakan alat musik
drum sebagai acuan, biasanya diperlukan ketukan
double-pedal atau twin-pedal.
2.2 Multi-Sumber Multi-Kanal
Dalam perekaman musik hidup dengan multisumber dan multi-kanal, tiap alat musik diberikan
satu mikrofon sebagai sensor. Mikrofon tersebut
mempunyai karakteristik polaritas pada arah dan
karakteristik frekuensi tertentu untuk merekam
sinyal yang diinginkan.
Dalam kenyataannya pada sebuah sistem
dengan banyak instrumen di dalamnya, sering
dijumpai permasalahan di mana sensor tidak hanya
menangkap sinyal yang diinginkan, tetapi juga
noise yang mungkin berasal dari sumber lain atau
dari sistem itu sendiri. Pada penelitian tugas akhir
ini akan dibahas permasalahan pada proses
perekaman musik hidup dengan multi sumber dan
multi kanal (Multi-Source and Multi-Channel =
MSMC), di mana sinyal yang ditangkap oleh sensor
pada masing - masing kanal tidak hanya berasal dari
satu sumber bunyi (alat musik). Dengan kata lain,
efek yang mungkin terjadi dalam metode
perekaman multi sumber dan multi kanal adalah
adanya kontribusi sinyal yang tidak diinginkan
(sebagai noise) pada setiap kanal rekam. Untuk
memisahkan sinyal suara yang dinginkan dari sinyal
tercampur tersebut diperlukan suatu metode
pemisahan sinyal yang tepat sesuai dengan
karakteristik sinyal yang hendak dipisahkan, serta
proses pencampurannya dengan sinyal yang tidak
dikehendaki.
Gambar 2. Efek Multi Sumber pada suatu Proses Rekaman
2.3 Itakura-Saito NMF (Nonnegative Matrix
Factorization)
NMF (Nonnegative Matrix Factorization)
adalah sebuah teknik regresi linier yang dapat
diterapkan pada data – data non-negatif. Misal
diberikan data matrix non-negatif masukan V 
berdimensi F  N  , permasalahan yang timbul
adalah bagaimana mereduksi dimensi data pada
pemfaktoran :
V   W H 
[11]
, di mana W  dan H  juga merupakan matrix nonnegatif dengan dimensi F  K  dan K  N  secara
berurutan. Dipilihnya nilai K agar pada persamaan
FK  KN  FN , sehingga dimensi data pada hasil
pemfaktoran dapat direduksi.
Pada proses pemisahan sinyal audio
tercampur ini, matrix V  merepresentasikan
magnituda atau daya spektral dari sinyal audio.
Jumlah pemfaktorannya merupakan dekomposisi
data spektrogram menjadi pola spektral dasar
4
amplitudo W  dan modulasi dalam domain waktu
H  .
Pemfaktoran V   W H  dapat dicapai
dengan meminimalisasi pengukuran dengan
persamaan :
DV WH   
F
f 1
, di mana
 d V  WH  
N
fn
2.5 Mean Square Error (MSE)
[12]
fn
n 1
d x y  adalah skala fungsi cost.
Minimisasi W  dan H  adalah kendala utama
non-negatif pada koefisien kedua faktor.
Pemfaktoran daya spektral menggunakan ItakuraSaito (IS) divergence didefinisikan dengan :
x
x
[13]
d IS x y    log  1
y
y
Persamaan Itakura-Saito (IS) divergence sangat
relevan dengan pemrosesan sinyal audio karena
memiliki dua sifat utama.
Pertama, Itakura-Saito (IS) divergence adalah
korelasi skala-invarian, d IS  x  y  d IS x y , di

menghasilkan
kemungkinan
pendekatan
V   W H  dengan cara meminimalkan dimensi
jarak antara V  dan W  H  , maka perlu
ditambahkan algoritma Smooth IS-NMF ini [21].

mana sifat tersebut tidak dimiliki persamaan fungsi
jarak Euclidean distance dan Kullback-Leibler
divergence. Skala-invarian relevan dengan proses
dekomposisi spektral audio, yang secara tipikal
memiliki range dinamik yang besar dan komponen
- komponen transien dengan daya spektral yang
rendah, seperti tone dengan not sustained.
Kedua, Itakura-Saito (IS) divergence memiliki
solusi secara statisitik untuk permasalahan
minimisasi atau teknik reduksi dimensi pada
pemfaktoran matrix non-negatif. Daya spektral hasil
dari pemisahan sinyal audio dengan metode ItakuraSaito NMF (Nonegative Matrix Factorization)
dapat
disusun
kembali
sebagai
estimasi
kemungkinan maksimum (Maximum Likelihood)
dari nilai W  dan H  .
2.4 Penambahan Mode Smooth
Penambahan mode Smooth pada persamaan
fungsi jarak Itakura-Saito NMF sebelumnya, karena
nilai dari W  dan H  yang dihasilkan belum
memberikan jarak yang minimal terhadap V  untuk
memenuhi syarat min DV WH  . Permasalahan ini
W , H 0
disebut dengan smoothness constraints. Untuk dapat
MSE didalam statistik merupakan kuadrat
rata-rata dari error. MSE adalah perbedaan antara
sinyal asli dengan sinyal estimasi. sinyal estimasi
merupakan sinyal output dari sistem [14]. Semakin
kecil nilai MSE maka sinyal asli dengan sinyal
estimasi mempunyai kesamaan. MSE digunakan
untuk mengukur rata-rata kesalahan yang berasal
dari kuantitas yang akan diestimasi.
1 n
S  S e 2

i 1
n
, di mana MSE = Mean Square Error
N
= banyaknya sample
S
= Sinyal baseline
Se
= Sinyal estimasi
MSE 
[15]
2.6 Signal to Noise Ratio (SNR)
SNR (Signal to Noise Ratio) merupakan
ukuran perbandingan daya antara sinyal dengan
bising. Jika perbandingan sinyal dengan bising
sama, maka daya sinyal dan daya bising yang
dicampur adalah sama dan jika perbandingan antara
sinyal dan bising yang didapatkan semakin kecil,
maka dapat disimpulkan jika bising latar yang
terjadi semakin besar. Secara matematis, SNR dapat
dirumuskan dengan persamaan sebagai berikut
2
A 
SNR  10 log s 
[9]
 An 
, di mana :
SNR = signal to noise ratio (dB)
= amplitudo sinyal sumber (m)
As
= amplitudo sinyal background noise (m)
An
5
III. METODOLOGI PENELITIAN
3
4
5
6
7
8
9
10
11
12
13
14
15
BASELINE GITAR (SOLMISASI)
BASELINE GITAR (MUSIK 1)
BASELINE GITAR (MUSIK 2)
BASELINE BASS (KORD E)
BASELINE BASS (KORD D)
BASELINE BASS (SOLMISASI)
BASELINE BASS (MUSIK 1)
BASELINE BASS (MUSIK 2)
CAMPURAN 1 + 6
CAMPURAN 2 + 7
CAMPURAN 3 + 8
CAMPURAN 4 + 9
CAMPURAN 5 + 10
Tabel 1. Urutan Proses Perekaman Data
Proses terjadinya pencampuran sinyal antara
sinyal asli yang ingin direkam dengan sinyal
pencampur pada kanal rekam gitar dan bass, dapat
dilihat pada diagram blok gambar 3.3 di bawah ini.
Pada gambar diagram blok tersebut, dapat dilihat
bahwa sinyal yang berasal dari amplifier gitar S1
direkam pada kanal gitar A11 setelah disensor oleh
mikrofon kanal gitar Mic 1, tetapi yang tersensor
oleh mikrofon kanal gitar tidak hanya sinyal yang
bersumber dari amplifier gitar, karena terdapat juga
sinyal yang bersumber dari amplifier bass S2 yang
tercampur melalui kanal A12, karena terekam oleh
Mic 1. Proses pencampuran tersebut menghasilkan
sinya tercampur V1.
GITAR
A11
V1
Gambar 3. Flowchart Penelitian
+
S1
3.1 Proses Pengambilan Data (Live Recording)
Pada proses pengambilan data, jarak antara
amplifier gitar dan bass adalah 50 cm. Sementara
itu, sensor mic diletakkan 5 cm di depan masing masing amplifier, sehingga bila diukur jarak antar
mic adalh 138 cm. Peletakan mikrofon perlu
diperhatikan untuk menghindari terjadinya spatial
aliasing, sehingga dalam penelitian ini mikrofon
diletakkan lurus di depan amplifier.
Proses perekaman sinyal audio dari alat musik
dilakukan dengan urutan sebagi berikut :
A12
MIC 1
A21
V2
+
BASS
A22
MIC 2
S2
SUMBER BUNYI
KANAL
PENCAMPURAN
SENSOR
Gambar 4. Diagaram Blok Proses Pencampuran Sinyal
DATA KE 1
2
SINYAL
BASELINE GITAR (KORD E)
BASELINE GITAR (KORD D)
Sedangkan sinyal yang bersumber dari
amplifier bass S2 direkam pada kanal rekam A22,
6
setelah disensor dengan menggunakan mikrofon
amplifier bass Mic 2. Tetapi yang tersensor oleh
mikrofon tersebut tidak hanya sinyal dari sumber
S2, tetapi juga sinyal yang bersumber dari amplifier
gitar S1 yang terekam pada kanal A21. Proses
pencampuran kedua sinyal tersebut pada mikrofon
Mic 2 menghasilkan sinyal tercampur V2.
3.2 Perhitungan SNR (Signal to Noise Ratio)
Sesuai dengan persamaan untuk menghitung
SNR (Signal to Noise Ratio), yaitu :
A
SNR  10 log s
 An



2
, di mana As merupakan amplitudo sinyal sumber
dan An adalah amplitudo dari sinyal background
noise. Untuk nilai SNR dari perbandingan sinyal
baseline gitar dan sinyal background noise pada
amplifier gitar, yaitu 47,4721 dB. Nilai SNR dari
perbandingan sinyal baseline bass dan sinyal
background noise pada amplifier bass, yaitu
38,1110 dB.
Bila sinyal sumber yang digunakan dalam
perbandingan merupakan hasil pencampuran dari
bunyai gitar dan bass, maka nilai SNR dari
perbandingan antara sinyal tercampur pada kanal
gitar dengan sinyal background noise pada
amplifier gitar adalah 41,5161 dB. Nilai SNR dari
perbandingan antara sinyal tercampur pada kanal
bass dengan sinyal background noise pada amplifier
bass adalah 26,4180 dB.
Gambar 5. Waveform Sinyal Baseline Gitar
Gambar 6 di bawah ini merupakan waveform dan
spektrogram sinyal tercampur pada kanal gitar.
Sinyal tercampur ini terjadi karena adanya sinyal
yang tidak diinginkan (noise) yang ikut terekam.
(a)
IV. ANALISA DATA DAN PEMBAHASAN
4.1
Analisa Data
4.1.1 Kanal Gitar (Kord E)
Pada gambar 5 di bawah ini merupakan
bentuk gelombang (waveform) dari sinyal baseline
gitar yang dimainkan pada kord E. Kord E pada
gitar ini dimulai dari nada terendah, yaitu pada
oktaf ke-2. Bila dikalibrasi maka frekuensi yang
dihasilkan adalah 82,407 Hz. Informasi lain yang
bisa diperoleh dari gambar waveform ini, yaitu
simpangan terjauh atau amplitudo yang dihasilkan
adalah 0,2, karena memang sinyal yang
dibangkitkan murni bersumber dari alat musik gitar.
(b)
Gambar 6. Waveform (a) dan Spektrogram (b) Sinyal
Tercampur pada Kanal Gitar
7
Noise yang terdapat pada kanal rekam ini bisa
berasal dari alat musik lain, maupun background
noise dari sistem atau amplifier. Dari waveform
sinyal tercampur dapat dilihat bahwa telah terjadi
peningkatan amplitudo yang diakibatkan oleh
penumpukan daya spektral.
dengan sinyal rekonstruksi, maka didapatkan nilai
MSE sebesar 0,1716.
4.1.2 Kanal Bass (Kord E)
Pada gambar 8 di bawah ini merupakan
bentuk gelombang (waveform) dari sinyal baseline
bass yang dimainkan pada kord E. Kord E pada bass
ini dimulai dari nada terendah, yaitu pada oktaf ke1. Bila dikalibrasi maka frekuensi yang dihasilkan
adalah 41,203 Hz. Informasi lain yang bisa
diperoleh dari gambar waveform ini, yaitu
simpangan terjauh atau amplitudo yang dihasilkan
adalah 0,1, karena memang sinyal yang
dibangkitkan murni bersumber dari alat musik bass.
(a)
Gambar 8. Waveform Sinyal Baseline Bass
(b)
Gambar 7. Waveform (a) dan Spektrogram (b) Sinyal
Rekonstruksi Gitar
Pada spektrogram dapat dilihat bahwa telah terjadi
penumpukan frekuensi yang diakibatkan oleh
adanya sinyal dari alat musik lain yang memiliki
karakter frekuensi sama yang ikut terekam. Warna
merah pada spektrogram merupakan frekuensi kerja
dari sinyal yang sering muncul.
Setelah dilakukan proses pemisahan
dpat dilihat pada waveform gambar 7 bahwa telah
terjadi penurunan nilai amplitudo dari 0,038
menjadi sekitar 0,013. Setelah dilakukan
perhitungan nilai MSE (Mean Square Error)
dengan cara membandingkan sinyal baseline
(a)
8
(b)
Gambar 9. Waveform (a) dan Spektrogram (b) Sinyal
Tercampur pada Kanal Bass
Gambar 9 di atas merupakan waveform dan
spektrogram sinyal tercampur pada kanal bass.
Sinyal tercampur ini terjadi karena adanya sinyal
yang tidak diinginkan (noise) yang ikut terekam.
Noise yang terdapat pada kanal rekam ini bisa
berasal dari alat musik lain, maupun background
noise dari sistem atau amplifier. Dari waveform
sinyal tercampur dapat dilihat bahwa telah terjadi
peningkatan amplitudo yang diakibatkan oleh
penumpukan daya spektral.
Pada spektrogram dapat dilihat bahwa telah
terjadi penumpukan frekuensi yang diakibatkan
oleh adanya sinyal dari alat musik lain yang
memiliki karakter frekuensi sama yang ikut
terekam. Warna merah pada spektrogram
merupakan frekuensi kerja dari sinyal yang sering
muncul.
(b)
Gambar 10. Waveform (a) dan Spektrogram (b) Sinyal
Rekonstruksi Bass
Setelah dilakukan proses pemisahan
dpat dilihat pada waveform gambar 10 bahwa telah
terjadi penurunan nilai amplitudo dari 0,038
menjadi sekitar 0,003. Setelah dilakukan
perhitungan nilai MSE (Mean Square Error)
dengan cara membandingkan sinyal baseline
dengan sinyal rekonstruksi, maka didapatkan nilai
MSE sebesar 0,1850.
4.1.3 Kanal Gitar (Musik 2)
Gambar 11. Waveform Sinyal Baseline Gitar
(a)
9
(a)
(b)
Gambar 13. Waveform (a) dan Spektrogram (b) Sinyal
Rekonstruksi Gitar
4.1.4 Kanal Bass (Musik 2)
(b)
Gambar 12. Waveform (a) dan Spektrogram (b) Sinyal
Tercampur pada Kanal Gitar
Gambar 14. Waveform Sinyal Baseline Bass
(a)
10
(a)
(b)
Gambar 16. Waveform (a) dan Spektrogram (b) Sinyal
Rekonstruksi Bass
4.2 Pembahasan
(b)
Gambar 15. Waveform (a) dan Spektrogram (b) Sinyal
Tercampur pada kanal Bass
(a)
Setelah dilakukan pengambilan data dengan
melakukan perekaman live pada kanal gitar dan
bass untuk mengambil sinyal baseline dan sinyal
campuran 2 alat musik, dilakukan proses pemisahan
dengan metode Smooth Itakura-Saito NMF.
Dari hasil pemisahan tersebut diperoleh sinyal
rekonstruksi alat musik pada masing - masing kanal.
Sinyal rekonstruksi tersebut dapat diamati dalam
bentuk waveform dan spektrogram.
Dilakukan juga hal yang sama ketika
mengambil data dengan melakukan perubahan pada
kord atau nada yang dimainkan, yaitu pada nada E,
D, dan Solmisasi (do-re-mi-fa-sol-la-si-do). Lalu
dilakukan juga perekaman dengan memainkan dua
buah musik yang diambil pada durasi reff-nya saja.
Lagu pertama berjudul “Move Along” dari The All
American Rejects dan lagu kedua berjudul “Face
Down” dari The Red Jumpsuit Apparatus.
Untuk mengetahui seberapa besar selisih atau
error dari sinyal rekonstruksi terhadap sinyal
baseline-nya, maka dilakukan perhitungan MSE
(Mean Square Error). Dan hasilnya dapat dilihat
pada tabel di bawah ini.
11
KANAL
GITAR
CHORD
IS-NMF
4. Setelah dilakukan perhitungan nilai MSE
pada alat musik bass, Metode Smooth ISNMF memiliki nilai MSE lebih tinggi
0,1732 daripada IS-NMF yang bernilai
0,1367.
5. Dari perbandingan nilai MSE pada poin 3
dan 4, maka dapat disimpulkan bahwa
Metode
Itakura-Saito
NMF
tanpa
menggunakan mode Smooth memiliki hasil
pemisahan yang lebih baik dibandingkan
dengan menggunakan mode Smooth, pada
pemisahan sinyal audio tercampur dari
perekaman musik hidup multi-sumber
multi-kanal.
Smooth
IS-NMF
E
0.1589
0.1716
D
0.0851
0.0696
Solmisasi
0.2693
0.2559
Musik 1
0.1641
0.1389
Musik 2
0.1058
0.1474
E
0.1332
0.1850
D
0.0907
0.1641
Solmisasi
0.1162
0.1265
Musik 1
0.1722
0.1957
Musik 2
0.1712
0.1974
5.2 Saran
BASS
Tabel 2. Perbandingan Nilai MSE IS-NMF dan Smooth ISNMF
V. PENUTUP
5.1 Kesimpulan
Berdasarkan penelitian yang telah dilakukan
maka dapat diambil beberapa kesimpulan sebagi
berikut:
1. Metode Smooth Itakura-Saito NMF dapat
diterapkan pada proses pemisahan sinyal
audio tercampur multi-sumber multi-kanal.
2. Metode Smooth Itakura-Saito NMF dapat
diterapkan pada alat musik dengan
frekuensi kerja 40 – 660 Hz, dalam hal ini
gitar dan bass
3. Setelah dilakukan perhitungan nilai MSE
pada alat musik gitar, Metode Smooth ISNMF memiliki nilai MSE lebih tinggi
0,15668 daripada IS-NMF yang bernilai
0,15664.
Dari kesimpulan penelitian maka saran yang
dapat diberikan sehubungan dengan hasil penelitian
ini adalah:
1. Sebaiknya dilakukan pengkajian ulang
terhadap algoritma Smooth Itakura-Saito
NMF, dengan tujuan agar nilai MSE (mean
square error) bisa lebih diperkecil lagi,
sehingga
performa
hasil
pemisahan
meningkat.
2. Sebaiknya dilakukan juga pemisahan sinyal
audio tercampur dengan metode Blind
Source Separation lain, seperti Independent
Component Analysis (ICA), Algoritma
DUET (Degenerate Unmixing Estimation
Technique), Algoritma JADE (Joint
Approximate Diagonaliztion of Eigenmatrices), CASA (Computational Auditory
Scene Analysis), dll.
3. Dapat dilakukan pemisahan sinyal audio
tercampur dari live music recording multisumber multi-kanal dengan melibatkan lebih
banyak alat musik lagi, misal pada skala
konser.
4. Proses pemisahan sinyal audio tercampur
diharapkan dapat dijadikan sebagai metode
alternatif untuk deteksi kerusakan atau cacat
nada (tone) pada alat musik.
VI. DAFTAR PUSTAKA
[1]
www.shure.com, ”Microphone Techniques for
Drums”, A SHURE Educational Publication,
SHURE Incorporated, 2004.
12
[2]
A. A. Wiratno, “Fisbang_Noise_Control.ppt”, Lab.
Rekayasa Akustik & Fisika Bangunan, Teknik
Fisika ITS.
[3]
A. A. Wiratno, “Fisbang_Noise_Control_2.ppt”,
Lab. Rekayasa Akustik & Fisika Bangunan, Teknik
Fisika ITS.
[4]
http://en.wikipedia.org/wiki/Microphone_array
[5]
Douglas, SC., 2001, “Microphone Array Technique
and Application: BSS of Acoustic
Signal”,
(Bredstein-D.Ware, Eds.), Berlin: Springer Inc.
[6]
Newland, D.E., 2005, “An Introduction to Random
Vibrations, Spectral and Wavelet Analysis”, Dover
Publishing Co., New York, 2005.
[7]
Anda, AR, “Penggunaan Frekuensi Sesaat Untuk
Deteksi Pola Suara Kerusakan Motor Listrik”,
Tugas Akhir, ITS, 2006.
[8]
Tris Atmaja, Bagus., “Pemisahan Banyak Sumber
Suara Mesin Dari Microphone Array Dengan
Metode Independent Componen Analysis (ICA)
Untuk Deteksi Kerusakan”, Tugas Akhir, ITS,
2008.
[9]
Alan H. S. Chan, Sio-Iong Ao (2008). Advances in
industrial engineering and operations research.
Springer.
[10]
A. Banerjee et al. (2004). "Clustering with Bregman
Divergences". In Michael W. Berry, Umeshwar
Dayal,
Chandrika
Kamath,
and
David
Skillicorn. Proceedings of the Fourth SIAM
International Conference on Data Mining.
[11]
D. D. Lee and H. S. Seung, “Learning The Parts of
Objects with Nonnegative Matrix Factorization”,
Nature, vol. 401, 1999.
[12]
P. Smaragdis and J.C. Brown, “Nonnegative Matrix
Factorization for Polyphonic Music Transcription”,
in IEEE Workshop on Application of Signal
Processing to Audio and Acoustics (WASPAA’03),
Oct. 2003.
[13]
T. Virtanen, “Monaural Sound Source Separation
by Nonnegative Matrix Factorization with
Temporal Continuity and Sparseness Criteria”,
IEEE Trans. Audio, Speech, and Language
Processing, vol.15, no.3, Mar. 2007.
[14]
http://en.wikipedia.org/wiki/Mean_squared_error
[15]
Girdhar, Paresh., 2004, ”Practical Machinery
Vibration Analysis and Predictive Maintenance”,
Oxford, Newnes Inc.
[16]
http://www.scribd.com/doc/41797173/BAB-IISkripsi
[17]
L. Benaroya, R. Gribonval, and F. Bimbot.
“Nonnegative Sparse Representation for Wiener
based Source Separation with A Single Sensor”, In
proceeding IEEE International Conference on
Acoustics, Speech, and Signal Processing
(ICASSP’03), pages 613-616. Hong Kong, 2003.
[18]
M. W. Berry, M. Brownc, A. N. Langville, V. P.
Pauca, and R. J. Plemmons. “Algorithms and
Applications for Approximate Nonnegative Matrix
Factorization”. Computational Statistics & Data
Analysis, 52(1):155-173, September 2007.
[19]
N. Bertin, R. Badeau, and G. Richard. “Blind Signal
Decompositions for Automatic Transcription of
Polyphonic Music”. NMF and K-SVD on the
benchmark. In proceeding In proceeding IEEE
International Conference on Acoustics, Speech, and
Signal Processing (ICASSP’07), Honolulu, Hawaii,
USA, 2007.
[20]
Seltzer, ML., Mitchel, L. 2003. “Microphone Array
Processing for Robust Speech Recognition”. PhD
Thesis,Carnegie Mellon University, 2003.
[21]
C. Fevotte, “Majorization - Minimization Algorithm
For Smooth Itakura-Saito Nonnegative Matrix
Factorization”. CNRS ; LTCI; Telecom ParisTech,
Paris, France.
BIODATA PENULIS
Nama : Bramara D.
Alamat : Jl. Teh no.12 PT. Petrokimia Gresik
TTL
: Gresik, 12 Januari 1989
Agama : Hindu
Riwayat Pendidikan :
SDN Sidokumpul 2 Gresik
(1995 - 2001)
SMP Negeri 1 Gresik
(2001 - 2004)
SMA Negeri 1 Gresik
(2004 - 2007)
Teknik Fisika ITS
(2007 - 2011)
Bidang Minat :
Rekayasa Akustik dan Fisika Bangunan
Download