automatic music emotion classification

advertisement
Sistem Automatic Music Emotion Classification
Ali Akbar – NIM : 23507042
Program Studi Informatika, Institut Teknologi Bandung
Jl. Ganesha 10, Bandung
E-mail : [email protected]
Abstrak
Kenyataan bahwa musik terkait dengan emosi adalah fakta yang umum dan tidak dapat dibantah.
Penggunaan musik pada kehidupan sehari-hari berdasarkan emosi yang terkandung di dalamnya sudah
banyak dilakukan. Akan tetapi, analisa emosi musik di komputer adalah hal yang sulit dilakukan [1].
Makalah menjabarkan hasil studi sistem automatic music emotion classification ( klasifikasi emosi musik
otomatis). Tujuan dari studi ini adalah untuk membuat sebuah usulan sistem automatic music emotion
classification (AMEC). Sistem ini adalah sistem yang dapat mendeteksi secara otonom mood atau emosi
yang terkandung di dalam musik. Studi literatur dilakukan terhadap setiap bagian dari sistem ini, kemudian
dirumuskan pendekatan yang dinilai terbaik pada rancangan ini.
Kata kunci : music, mood, emotion, system
1. Pendahuluan
Musik adalah seni, hiburan dan aktivitas manusia
yang melibatkan suara-suara yang teratur. Secara
khusus, musik diartikan sebagai ilmu dan seni
suara, yaitu berupa bentuk dan sinkronisasi
suara-suara yang membentuk harmoni nada-nada
sehingga terdengar estetik [2].
Elemen terkecil dari musik adalah nada. Nada
adalah suara yang memiliki nilai frekuensi
tertentu. Dalam musik, nada berada pada ruang
dua dimensi, dimensi vertikal dan horizontal.
Dimensi vertikal atau dimensi nada menyatakan
nada-nada yang ada atau berbunyi pada suatu
waktu tertentu. Dimensi horizontal atau dimensi
waktu adalah bagaimana nada-nada tersebut
berubah sejalan dengan waktu.
Musik berkaitan erat dengan psikologi manusia.
Kenyataan bahwa musik dapat terkait emosi
atau mood tertentu adalah fakta yang umum
diketahui dan tidak dapat dibantah. Penelitian
penelitian eksperimental memperkuat kenyataan
ini [3]. Dari sudut pandang psikologi musik,
emosi merupakan salah satu cara penggolongan
musik
yang
paling
penting.
Huron
mengemukakan bahwa karena fungsi utama dari
musik
adalah
sosial
dan
psikologis,
penggolongan musik yang paling penting adalah:
style, emosi, genre dan similarity [4].
Sistem automatic music emotion classification
(AMEC) adalah sistem yang dapat melakukan
klasifikasi terhadap musik berdasarkan emosi
atau mood yang terkait dengan musik tersebut.
Sistem ini masuk dalam bahasan bidang music
information retrieval. Dalam jurnal khusus music
information retrieval, SIGMIR, banyak makalah
dan penelitian yang dipublikasikan membahas
berbagai aspek
dari klasifikasi musik
berdasarkan emosi ini.
Penangkapan emosi dalam musik bersifat
subjektif. Satu individu dapat menangkap pesan
emosi yang berbeda dari individu lain dari musik
yang sama. Yang et al. membahas khusus
masalah ini pada [5]. Solusi yang ditempuh para
peneliti adalah dengan membuat ‘ground truth’
untuk data penilaian musik [6][7]. Pada bidang
musik sendiri belum dirumuskan formulasi
sebagai dasar penentuan klasifikasi emosi.
Sehingga, pendekatan yang dapat dilakukan
untuk mengklasifikasikan musik ke dalam
kategori emosi adalah dengan bergantung pada
pembelajaran terhadap penilaian subjektif oleh
manusia.
Makalah ini mengajukan sebuah rancangan
sistem AMEC. Sistem ini dirancang untuk dapat
melakukan klasifikasi emosi terhadap musik
secara umum. Sistem ini memakai pendekatan
machine learning, sehingga sistem terbagi atas
dua fase, pelatihan dan penggunaa. Penilaian
subjektif ‘ground truth’ diberikan sebagai data
pelatihan sistem AMEC untuk menghasilkan
suatu model klasifikasi. Model inilah yang akan
digunakan classifier untuk mengklasifikasikan
musik berdasarkan emosi.
Dalam makalah ini, bagian 3 membahas
gambaran umum sistem AMEC ini. Bagianbagian selanjutnya akan membahas masingmasing permasalahan yang ada pada sistem
AMEC ini.
2. Latar Belakang
Tak terhitung banyaknya upaya para filsuf,
penulis dan pemusik
untuk mencoba
menjelaskan keterkaitan antara musik dengan
emosi, tapi tidak menghasilkan kesepakatan.
Pada
beberapa
tahun
belakangan
ini,
perkembangan pada bidang psikologi kognitif
menunjukkan kembalinya ketertarikan pada
bidang ini. Pada makalahnya di tahun 2003,
Grund bahkan mencatatnya dalam wish list
utama penelitian dalam bidang psikologi musik
[9].
Jumlah music psychologist, yang mengkhususkan penelitiannya pada seputar msuik dan
keterkaitannya dengan emosi terus bertambah.
Walaupun begitu, hanya sedikit pembahasan
teoritis mengenai respon emosi terhadap musik
yang ditulis berdasarkan perspektif psikologi
musik yang dapat dijadikan acuan dalam studi
empiris lebih lanjut [10].
Diantara pemicunya yang terkenal adalah
penelitian Hevner pada tahun 1936 yang berjudul
‘Studi eksperimental mengenai elemen ekspresi
di dalam musik’ (‘Experimental studies of the
elements of expression in music’) [8]. Hevner
melakukan penelitian dengan melakukan
eksperimen
dimana
pendengar
diminta
menuliskan kata sifat yang muncul di pikiran
mereka yang paling deskriptif terhadap musik
yang diperdengarkan. Eksperimen ini dilakukan
utuk memperkuat hipotesis bahwa musik benarbenar membawa arti emosional. Hevner
menemukan adanya
kluster kata sifat
merumuskan delapan kata sifat utama yang
ditempatkannya di dalam sebuah lingkaran. Dia
juga menemukan dalam sebuah kelompok yang
mempunyai latar belakang kultural yang sama,
pelabelan emosi musik cenderung konsisten
antar tiap individunya [11].
Keterkaitan antara musik dengan emosi/mood ini
telah banyak digunakan dalam berbagai
kesempatan oleh manusia. Misalnya, pada film,
musik digunakan untuk mempertegas suasana
pada scene-scene tertentu: musik yang dramatis
digunakan untuk melatar belakangi scene yang
menegangkan, musik yang bersemangat untuk
scene perang, musik yang menyenangkan
digunakan sebagai latar belakang scene humor,
dsb. Di beberapa tempat di Tokyo, setiap pagi
diputar
musik
yang
tenang
sekaligus
bersemangat, untuk membuat penduduk lebih
tenang dan bersemangat. Pada kafe-kafe, diputar
musik bernuansa romantis. Masih banyak lagi
contoh yang tidak dapat disebutkan di sini.
Karena itu, klasifikasi musik berdasarkan
keterkaitannya dengan emosi tertentu menjadi
penting.
Klasifikasi musik berdasarkan emosi dapat
dilakukan secara manual dan subjektif oleh
manusia, seperti yang banyak dilakukan pada
kasus pemilihan musik untuk latar belakang
suatu film. Biasanya pada tim pembuat film
tersebut terdapat tim kecil yang khusus bertugas
untuk menangani masalah pemilihan, bahkan
pembuatan, musik latar belakang. Dapat dilihat
pada film-film yang telah dibuat bahwa emosi
atau mood yang digerakkan oleh musik latar
tersebut seringkali benar-benar mengena sesuai
dengan emosi yang diinginkan pada scene-scene
tertentu pada film tersebut.
Pertanyaan yang sering muncul adalah apakah
klasifikasi tersebut memang benar-benar dapat
diterapkan secara global, sehingga klasifikasi
tersebut tidak spesifik untuk segolongan manusia
tertentu dan musik-musik tertentu. Jika hal
tersebut benar, maka dapat dibuat pengklasifikasi
musik yang dibantu dengan komputer, sehingga
klasifikasi musik berdasarkan emosi dapat
dilakukan secara otomatis. Dengan adanya
sistem klasifikasi musik otomatis ini, prosesproses seperti pemilihan musik untuk film dapat
sangat terbantu.
J. Skowronek, et al. dalam penelitiannya
melakukan analisis apakah dari penilaian
subjektif klasifikasi emosi musik dapat dibuat
suatu ‘ground truth’ sebagai acuan untuk
mengembangkan sistem deteksi emosi secara
otomatis. Pada eksperimen yang dilakukan,
mereka mengumpulkan 60 potongan musik
berdurasi 20 detik. Kemudian dievaluasi oleh
sekelompok orang sedemikan sehingga satu
potongan musik terevaluasi oleh 4 orang.
Kesimpulan yang didapatkan oleh penelitian itu
adalah bahwa klasifikasi ini mungkin dilakukan,
dan disarankan untuk memilih label emosi/mood
yang mudah dipahami oleh subjek yang
mengevaluasi [6]. Penelitian yang dilakukan
Skorownek ini dan penelitian lain yang sejenis
memberikan dasar pada pengembangan sistem
klasifikasi emosi pada musik secara otomatis.
Didasari oleh hasil penelitian tersebut, pada
tahun 2007 MIREX (Music Information
Retrieval Evaluation eXchange), sebuah
kompetisi tahunan yang bertujuan untuk melihat
kemajuan dalam bidang
music information
retrieval (MIR), melombakan pembuatan sistem
klasifikasi musik berdasarkan emosi ini. Dengan
11 peserta, pemenang dari MIREX 2007 berhasil
menghasilkan ketepatan 60% dalam melakukan
klasifikasi [7].
3. Gambaran Umum Sistem
Sistem AMEC yang akan diusulkan di makalah
ini adalah sistem yang berbasiskan pembelajaran
terhadap klasifikasi musik yang sudah ada, yang
diklasifikasikan secara subyektif. Sistem AMEC
ini terbagi atas dua fase, yaitu fase pelatihan
seperti pada Gambar 1 dan fase classifier, seperti
pada Gambar 2, yang menggunakan model dari
hasil training di bagian pertama.
evaluasi secara subjektif untuk melabeli klip
musik pelatihan dengan label emosi tertentu.
Evaluasi secara subjektif ini dilakukan terhadap
hasil preprosesing agar degradasi yang terjadi
juga
mempengaruhi
evaluasi
subjektif.
Kemudian dilakukan pembelajaran untuk
menghasilkan model yang akan digunakan oleh
classifier untuk dapat mengklasifikasikan klip
musik tertentu.
Pada fase classifier, sistem AMEC ini dapat
digunakan untuk melakukan pelabelan klasifikasi
emosi suatu klip musik tertentu. Klip musik
diolah dulu oleh preprosesor dan diekstraksi
featurnya dengan cara yang sama dengan pada
fase pelatihan. Kemudian, terhadap feature hasil
ekstraksi
akan
dilakukan
classifying,
pengklasifikasian dengan menggunakan model
hasil dari fase pelatihan.
model
klip musik
Preprocessing
Ekstraksi Feature
Classifying
kelas
Gambar 2 Fase Classifier
4. Label Klasifikasi Emosi
Gambar 1 Fase Pelatihan
Pada fase pelatihan, diberikan sejumlah klip
(potongan) musik untuk menjadi bahan
pelatihan. Kemudian dilakukan preprocessing
untuk mempermudah pemrosesan berikutnya.
Dari hasil preprocessing ini kemudian dilakukan
ekstraksi feature. Selain itu, dilakukan pula
Salah satu permasalahan dalam AMEC ini
adalah taksonomi dari muatan emosi musik.
Pembagian label klasifikasi emosi musik tidak
dapat dilakukan sembarangan. Tanpa pembagian
label yang tepat dan hati-hati, mudah terjadi
label klasifikasi yang saling beririsan satu sama
lain, sehingga sulit untuk mengklasifikasikan
musik ke dalam label-label tersebut.
Dalam psikologi musik, pendekatan tradisional
pelabelan emosi adalah dengan menggunakan
label sifat, seperti sedih, suram dan murung.
Akan tetapi, pelabelan ini berlainan dalam setiap
penelitian. Tidak ada standar taksonomi emosi
yang disepakati oleh semua pada saat ini. Akan
tetapi, daftar kata sifat Hevner yang
dikemukakan pada tahun 1936 menjadi basis
bagi penelitian selanjutnya.
Hevner membagi klasifikasi emosi menjadi 64
kata sifat, yang dikelompokkan menjadi 8
cluster, yaitu sober, gloomy, longin, lyrical,
sprightly, joyous, restless dan robust [12].
Kemudian pengelompokan tersebut diperbaiki
oleh Farnsworth dan dikelompokkan ulang
menjadi 10 cluster, seperti dapat dilihat pada
Tabel 1.
Tabel 1 Klasifikasi Emosi Farnsworth [8]
A
B
C
D
E
F
G
H
I
J
cheerful,gay,happy
fanciful, light
delicate, graceful
dreamy, leisurely
longing, pathetic
dark, depressing
sacred, spiritual
dramatic, emphatic
agitated, exciting
frustated
Karena sistem klasifikasi seperti klasifikasi
Hevner/Farnsworth
dan
pengembangannya
masih saling tumpang tindih antara satu cluster,
maka klasifikasi tersebut susah untuk
diaplikasikan dalam suatu sistem AMEC.
Sebagai contoh, AMG (allmusicguide.com) yang
memakai daftar kata sifat turunan dari Hevner
memiliki sekitar 200 buah label emosi musik
[13]. Seperti yang disimpulkan oleh J.
Skowronek, et al. pada penelitiannya, pada
pengaplikasian klasifikasi musik, lebih baik
memakai sistem klasifikasi emosi yang
sederhana, terdiri atas sedikit cluster yang dapat
dengan mudah dibedakan [6].
Banyak peneliti yang akhirnya mengikuti saran
Skowronek, dan menyederhanakan pelabelan
emosinya menjadi hanya beberapa cluster (di
antaranya: [8][14][15]). Misalnya, dalam
MIREX 2007 bagian Automatic Mood Detection,
label emosi yang digunakan hanya dibagi lima
cluster [7] (lihat Tabel 2), atau MoodLogic yang
hanya membaginya menjadi lima: aggresive,
upbeat, happy, romantic, mellow dan sad [16].
Tabel 2 Cluster Emosi MIREX 2007 [7]
Cluster_1
Cluster_2
Cluster_3
Cluster_4
Cluster_5
passionate, rousing,
confident,boisterous, rowdy
rollicking, cheerful, fun, sweet,
amiable/goodnatured
literate, poignant, wistful,
bittersweet, autumnal, brooding
humorous, silly, campy, quirky,
whimsical, witty, wry
aggressive, fiery, tense/anxious,
intense, volatile visceral
Selain masalah ambiguitas, kategorisasi yang
berdasarkan Hevner ini memiliki kekurangan
lain, yaitu bahwa kategorisasi ini sama sekali
tidak menunjukkan stimulus terkait yang
menimbulkan suatu emosi tertentu. Keterkaitan
ini dapat sangat membantu dalam pemodelan
komputasi. Pada sekitar tahun 90an, Thayer
mengajukan
pendekatan
lain
terhadap
kategorisasi emosi
musik [17].
Thayer
mengajukan model dua dimensi yang memetakan
emosi musik. Tidak seperti Hevner yang
mempergunakan kata sifat yang secara kolektif
membentuk suatu pola emosi, pendekatan dua
dimensi ini mengadopsi teori yang menyatakan
bahwa emosi disebabkan oleh dua faktor: stress
(senang/cemas) dan energi (kalem/energetik).
Dengan begitu, Thayer membagi kategori emosi
musik menjadi empat cluster, contentment
(kepuasan), depression (depresi), exuberance
(gembira) dan anxious/frantic (cemas/kalut),
seperti pada Gambar 3.
Gambar 3 Model Emosi Thayer [12]
Model Thayer ini juga banyak diadopsi pada
penelitian mengenai emosi dalam musik. Istilah
yang digunakan utuk menyebut dua dimensi
emosi musik seringkali berlainan, tetapi
esensinya sama seperti model Thayer ini.
Misalnya, Pohle et al. dalam [18] menggunakan
istilah mood (dari senang, netral sampai sedih)
dan emosi (dari lembut, netral sampai agresif).
Y.H. Yang dalam beberapa papernya yang
berkenaan
dengan
klasifikasi
emosi
menyebutnya arousal (tingkat emosi) dan
valence (lihat Gambar 4) [5][19][20].
Gambar 5 Suara Sebagai Sinyal Digital [21]
2.
Gambar 4 Model Y.H. Yang [5]
Kelemahan dari model-model yang mengadopsi
Thayes dibandingkan dengan Hevner adalah
pembagian yang kaku, pasti 4 cluster. Dengan
begitu, model ini tidak dapat dikembangkan
untuk kebutuhan yang lebih spesifik, yang
membutuhkan pembagian cluster yang berbeda.
Walaupun begitu, hal ini dapat sedikit diatasi
dengan menggeser batas antara valence positifnegatif dan arousal high-low.
Dalam rancangan yang diusulkan, klasifikasi
emosi yang ingin dicapai tidaklah spesifik untuk
satu tujuan tertentu. Model klasifikasi emosi
yang dipilih haruslah dapat diaplikasikan secara
umum untuk emosi yang ada dalam semua
musik. Model yang dipilih juga harus cukup
sederhana, mudah dipahami dan tidak ambigu
agar memudahkan klasifikasi subjektif yang
dilakukan sebagai bahan pelatihan.
Atas dasar kebutuhan pada rancangan ini, maka
model klasifikasi yang dipakai adalah model
klasifikasi yang dipakai oleh Yang. Klasifikasi
Yang ini diambil karena dimensinya lebih jelas
daripada model aslinya yang dibuat oleh Thayer.
5. Musik Masukan
Musik yang diolah oleh sistem AMEC ini adalah
musik dalam bentuk digital. Terdapat dua
kategori format utama untuk musik dalam bentuk
digital, yaitu:
1.
Musik dalam bentuk data akustik atau audio,
yaitu rekaman permainan musik tersebut
dalam bentuk suara. Format ini dapat dibagi
atas dua kelompok besar, yaitu melodi
monofonik satu suara/channel dan musik
yang mixed multichannel.
Musik dalam bentuk simbolik, yaitu
informasi mengenai nada-nada yang
membentuk suatu musik tertentu. Format
yang umum digunakan yang masuk kategori
ini adalah MIDI. Data MIDI ini dapat
berupa permainan musik yang direkam
dalam bentuk MIDI atau partitur musik yang
dibuat oleh pengarang lagu.
Gambar 6 Musik Simbolik (divisualisasikan dalam
bentuk partitur)
Beberapa penelitian seputar bidang AMEC
menggunakan representasi simbolik. Liu [22]
mengemukakan sebuah sistem mood recognition
dengan classifier berupa fuzzy classifier
dipergunakan untuk mengklasifikasikan waltz
karya Johann Strauss ke dalam lima cluster
emosi. Sistem Liu mengekstraksi feature-feature
dari file MIDI lagu-lagu Johann Strauss.
Katayose juga mengemukakan sitem ekstraksi
emosi untuk musik pop, dimana data suara
monofonik dikonversi menjadi kode musik
terlebih dahulu. Kemudian, feature-feature musik
seperti melodi, ritme dan lainnya diekstraksi dari
kode musik tersebut [12].
Penelitian-penelitian tersebut menghasilkan hasil
yang
baik,
tetapi
penelitian
tersebut
berkonsentrasi pada representasi simbolik,
karena sulitnya mengekstraksi feature-feature
musik yang berguna dari data musik dalam
bentuk akustik. Akan tetapi, musik yang ada di
dunia nyata bukanlah dalam bentuk simbolik,
dan saat ini belum ada sistem transkripsi yang
dapat mentranslasikannya ke dalam representasi
simbolik dengan baik.
Penentuan format mana yang dipakai tergantung
pada konteks sistemnya. Pada sistem AMEC
yang diusulkan ini, karena sistemnya dibuat
untuk penggunaan secara umum, maka sistem
AMEC ini harus dapat menerima format dalam
bentuk data akustik atau audio. Permasalahan
apakah data akustik tersebut dikonversi dulu
menjadi data simbolik akan dibahas pada bagian
preprosesor.
Panjang Klip Musik
Selain masalah format, hal lain yang perlu
diperhatikan adalah panjangnya klip musik
masukan. Emosi yang terkandung dalam satu
musik tertentu seringkali tidak hanya satu. Pada
bagian tertentu, satu musik bisa saja cenderung
calm atau peaceful, kemudian berubah ke arah
valence negatif. Sebagai contoh, potongan lagu
“1812 Overture” di [12] diklasifikasikan seperti
pada Gambar 7. Atas dasar pertimbangan yang
sama dengan pertimbangan pemilihan format,
maka panjang klip musik tidak dibatasi.
Pemotongan akan dilakukan secara internal, dan
akan dibahas pada bagian preprosesor.
6. Feature Musik
Dalam proses pelatihan serta klasifikasi, sistem
AMEC perlu melakukan ekstraksi feature yang
mempunyai level lebih tinggi dari musik yang
diolah. Feature ini mempermudah dilakukannya
pelatihan dengan mengkaitkan feature-feature
tersebut dengan cluster emosi dari musik yang
diproses, dibandingkan dengan mengolah musik
apa adanya.
Banyak feature yang dapat diekstraksi dari
sebuah klip musik, dari mulai feature yang
paling sederhana seperti nada, tempo dan nada
dasar, feature yang lebih tinggi seperti tangga
nada (mayor/minor), ritme, beat, akor sampai
pada feature seperti chord progression, bentuk
melodi, genre, dan sebagainya. Tidak semua
feature tersebut memiliki andil pada emosi yang
terkandung pada musik. Misalnya, Blood
mengemukakan pada hasil penelitiannya bahwa
tingkat disonansi akor sangat berpengaruh besar
pada emosi antara cluster pleasant dan
unpleasant, tetapi tidak berpengaruh antara
cluster sad dan happy (lihat Gambar 8).
Lirik
Gambar 7 Mood dalam potongan “1812 Overture” [12]
Sebagian dari musik mengandung kata-kata yang
dinyanyikan oleh manusia. Kata-kata tersebut
disebut dengan lirik. Rangkaian lirik membawa
emosi tersendiri, dapat sejalan dan saling
menguatkan dengan emosi pada musik itu
sendiri, dapat juga tidak [23]. Pada sistem
AMEC ini, lirik diabaikan, karena permasalahan
speech recognition dari nyanyian, dan kemudian
ekstraksi emosi dari kata-kata memerlukan
pembahasan tersendiri. Oleh karena itu, maka
lirik dalam musik diabaikan, dan pada penilaian
subjektif yang diberikan pada pelatihan,
diharapkan penilaian subjektif yang diberikan
didapatkan dari penilaian musik saja, tidak
menilai emosi yang dibawa oleh liriknya.
Gambar 8 Contoh dari akor dengan versi paling
konsonan (akor triad mayor, Diss0) sampai ke
yang paling disonan (akor -13, Diss5), dan
keterkaitannya dengan rating pleasant (+5) /
unpleasant (-5) dan sad (+5) / happy (-5) [24].
Hevner dalam hasil penelitiannya mengemukakan hubungan antara cluster kategori emosi yang
dirumuskannya dengan beberapa feature (lihat
Tabel 3). Terdapat lima feature yang ditelitinya,
yaitu mode, tempo, pitch (tinggi nada), ritme,
harmoni
dan
bentuk
melodi.
Dengan
menggunakan cara klasifikasi Hevner, semua
feature yang mungkin berpengaruh besar harus
diteliti. Karena cara klasifikasi yang digunakan
Tabel 3 Rangkuman hubungan cluster emosi – feature yang disimpulkan Hevner [34].
(Nomer di sebelah feature mengindikasikan bobot relatif dari tiap feature untuk setiap cluster emosi.
pada sistem AMEC ini adalah model klasifikasi
Yang, yang diturunkan dari model Thayer,
feature
musik
yang
diperlukan
untuk
mengklasifikasi emosi dapat dibagi menjadi dua:
1. Feature yang berpengaruh terhadap dimensi
Arousal,
2. Feature yang menyebabkan perbedaan emosi
yang ditimbulkan, emosi positif atau negatif
(dimensi Valence).
Secara umum, dimensi Arousal lebih mudah
untuk dibedakan dibandingkan dengan dimensi
Valence [12]. Dimensi arousal berkenaan dengan
‘energi’ yang ada pada suatu musik. Jika musik
tersebut lebih berenergi, maka tingkat arousalnya
lebih besar. Berbeda dengan dimensi Arousal,
dimensi Valence tidak dapat dengan mudah
dijelaskan seperti itu.
Secara garis besar, feature yang dibutuhkan
untuk mendeteksi emosi dapat dibagi tiga:
1. Intensitas
2. Timbre dan tekstur
3. Ritme
Feature intensitas adalah feature utama yang
digunakan untuk mengukur Arousal. Cara
ekstraksi feature ini yang paling sederhana
adalah dengan mengukur MSE loudness dan
volume dari musik. Walaupun feature ini adalah
feature paling utama yang mempengaruhi
Arousal, tetapi Arousal juga dapat dipengaruhi
oleh kedua jenis feature lainnya.
Feature yang
berasal dari
ritme. Kedua
untuk diukur
intensitas.
mempengaruhi Valence utamanya
feature timbre dan tekstur serta
jenis feature ini relatif lebih susah
jika dibandingkan dengan feature
Salah satu feature yang termasuk dalam feature
timbre dan tekstur adalah tangga nada. Lagu
yang menggunakan tangga nada mayor
cenderung memiliki valence positif, sedangkan
lagi yang menggunakan tangga nada minor
sebagian besar memiliki valence yang cenderung
negatif. Akan tetapi, feature mode adalah feature
yang susah untuk diekstraksi.
Karena hubungan antara ketiga jenis feature
tersebut dengan dimensi Arousal maupun
Valence tidak dapat dipastikan, maka pada
proses pelatihan, seluruh feature dipelajari
hubungannya dengan kedua dimensi, Arousal
dan Valence.
7. Preprosesor dan Teknik Ekstraksi Feature
Preprosesor dan teknik yang digunakan dalam
ekstraksi feature sangat berkaitan satu sama lain.
Preprosesor harus menyesuaikan klip musik
menjadi sesuai dengan kebutuhan pada proses
ekstraksi feature. Begitu pula sebaliknya, teknik
ekstraksi feature yang digunakan harus dapat
mengolah musik hasil preproses sehingga
menghasilkan feature yang diinginkan.
Preprosesor
Seperti dijelaskan pada bagian sebelumnya,
ekstraksi feature dari data simbolik seperti MIDI
lebih mudah dilakukan dibandingkan dengan
dari data akustik. Akan tetapi, sampai saat ini
belum ada cara sistem transkripsi data akustik
yang mumpuni untuk mengkonversinya menjadi
data simbolik. Oleh karena itu, preprosesor pada
sistem AMEC ini tidak mengubah representasi
musik masukan, tetap sebagai data akustik.
Untuk menyeragamkan serta menyederhanakan
pemrosesan berikutnya, data akustik di-sampling
ulang menjadi 16-bit, mono, 16 kHz.
Downsampling dari stereo menjadi mono
dilakukan dengan menggabungkan kedua
channel
audio
menjadi
satu
channel.
Downsampling stereo menjadi mono ini tidak
berpengaruh terhadap ekstraksi feature untuk
klasifikasi emosi karena dua channel suara stereo
tersebut hanya berfungsi menyimpan kesan
‘ruang’ bagi pendengar musik.
Klip musik masukan dipotong-potong menjadi
potongan 30 detik untuk memperkecil perubahan
emosi yang ada dalam satu klip, mengadopsi
cara yang digunakan dalam MIREX 2007. Liu
dalam [12] mengemukakan cara yang lebih baik
untuk memotong berdasarkan emosi yang
terkandung di dalamnya. Cara itu disebutnya
sebagai ‘Mood Tracking’. Pada setiap perubahan
feature yang cukup drastis, klip musik dipotong,
sehingga menghasilkan potongan-potongan yang
masing-masing hanya membawa satu emosi.
Cara ini tidak diterapkan dalam sistem AMEC
ini agar tidak memperumit permasalahan.
Ekstraksi Feature
Hasil pengolahan preprosesor berupa data
akustik, sehingga teknik ekstraksi feature yang
digunakan haruslah teknik ekstraksi yang
berbasiskan pada data akustik. Untuk itu, sistem
AMEC ini menggunakan dua toolkit yang dapat
digunakan secara bebas: PsySound [36] dan
Marsyas [33]. Total 45 buah feature yang
termasuk pada kelompok feature yang dibahas di
bagian sebelumnya diekstraksi.
PsySound
mengekstraksi
feature-feature
berdasarkan model psikoakustik [35], sehingga
feature yang dihasilkan relevan dengan persepsi
emosi. Feature tersebut mencakup: loudness,
sharpness, lebar warnasuara, volume, disonansi
spektrum dan akor.
Marsyas adalah framework generik untuk
aplikasi audio [33]. Marsyas menghasilkan 19
feature tekstural, 6 feature ritmis (dengan deteksi
beat dan tempo) dan 5 feature berkenaan dengan
pitch.
8. Algoritma Klasifikasi dan Pelatihannya
Semua algoritma machine learning yang mampu
mempelajari data dengan dimensi besar (vektor
feature yang digunakan berdimensi 45) dapat
digunakan, seperti SVM (Support Vector
Machines), C4.5, naive bayes, ANN, k-Nearest
Neighbor, dan sebagainya. Untuk menilai
algoritma yang paling tepat untuk sistem AMEC
ini, sistem ini harus diimplementasikan,
kemudian diuji dan dinilai ketepatan hasil
klasifikasinya.
9. Kesimpulan
Rancangan sistem automatic music emotion
classification yang diajukan sudah mencakup
seluruh bagian dari sebuah sistem yang lengkap.
Setiap bagian telah dianalisis dan diambil
pendekatan yang paling sesuai, kecuali pada
algoritma klasifikasi. Pemilihan algoritma
klasifikasi yang sesuai memerlukan adanya
pengujian untuk masing-masing algoritma
klasifikasi yang mungkin digunakan.
Sistem ini perlu diimplementasikan dan diuji
terlebih dahulu, sebelum dikembangkan lebih
lanjut. Misalnya, dengan memasukkan algoritma
‘Mood Tracking’ untuk memotong klip musik,
ataupun memperbaiki rancangan dengan umpan
balik dari hasil pengujian.
10. Daftar Pustaka
[1] C.-C Liu, Y.-H. Yang, P.-H. Wu, H.-H.
Chen. (2006). Detecting and classifying
emotion in popular music. Proc. 9th Joint
Int. Conf. Information Sciences / 7th Int.
Conf. Computer Vision, Pattern Recognition
and Image Processing 2006
(JCIS/CVPRIP'06), Kaohsiung, Taiwan, pp.
996-999.
[2] B. Klein. (2007). Music Definition.
http://www.bklein.de/music_definition.htm
Diakses: Februari 2007.
[3] CTV News. (2002). Study explains link
between music and emotion.
http://www.ctv.ca/servlet/ArticleNews/story/
CTVNews/1039741748103_21/?hub=Healt
h. Diakses: Oktober 2007.
[4] D.Huron. (2000). Perceptual and Cognitive
Applications in Music Information Retrieval.
International Symposium on Music
Information Retrieval (ISMIR) 2000.
[5] Y.-H. Yang, Y.-F. Su, Y.-C. Lin, H.-H.
Chen. (2007). Music emotion recognition:
The role of individuality. Proc. ACM
SIGMM Int. Workshop on Human-centered
Multimedia 2007, in conjunction with ACM
Multimedia (ACM MM/HCM'07),
Augsburg, Germany, pp. 13-21.
[6] J. Skowronek, M.E. McKinney, S. van de
Par. (2006). Ground Truth for Automatic
Music Mood Classification. International
Symposium on Music Information Retrieval
(ISMIR) 2006.
http://ismir2006.ismir.net/PAPERS/ISMIR0
6105_Paper.pdf. Diakses: September 2007.
[7] Music Information Retrieval eXchange
(MIREX) 2007. http://www.musicir.org/mirex/2007. Diakses: Desember 2007.
[8] O. Li. (2003). Detecting Emotion in Music.
International Symposiun on Music
Information Retrieval 2003.
[9] C.M. Grund. (2006). A Philosophical Wish
List for Research in Music Information
Retrieval. International Symposium on
Music Information Retrieval (ISMIR) 2006.
http://ismir2006.ismir.net/PAPERS/ISMIR0
6149_Paper.pdf . Diakses: Oktober 2007.
[10] M.M. Lavy. (2001). Emotion and the
Experience of Listening to Music: A
Framework for Empirical Research. Jesus
College, Cambridge.
http://www.scribblin.gs/miscellanea/mlavythesis-noapp.pdf. Diakses: Oktober 2007.
[11] K. Hevner. Experimental studies of the
element sof expression in music. American
Journal of Psychology,48:246–268,1936.
[12] D. Liu, L. Lu, H.-J. Zhang. (2003).
Automatic Mood Detection from Acoustic
Music Data. ISMIR 2003.
http://ismir2003.ismir.net/papers/Liu.PDF.
Diakses: November 2007.
[13] AllMusicGuide (AMG). Explore by Moods.
http://wm02.allmusic.com/cg/amg.dll?p=am
g&sql=75:. Diakses: Januari 2008.
[14] M.I. Mandel, G.E. Poliner, D.P.W. Ellis
(2006). Support vector machine active
learning for music retrieval. Multimedia
Systems, Vol.12(1). Aug.2006.
http://www.ee.columbia.edu/~dpwe/pubs/M
andPE06-svm.pdf. Diakses: Desember 2007.
[15] N. Corthaut, Govaerts, S., dan Duval, E.
(2006). Moody Tunes: The Rockanango
Project . ISMIR 2006.
http://ismir2006.ismir.net/PAPERS/ISMIR0
688_Paper.pdf. Diakses: Oktober 2007.
[16] MoodLogic. http://www.moodlogic.com.
Diakses: Januari 2008
[17] R. E. Thayer. (1989). The biopsychology of
mood and arousal. Oxford University Press.
[18] Pohle, Pampalk, dan Widmer. (2005).
Evaluation of Frequently Used Audio
Features for Classification of Music into
Perceptual Categories.
[19] Y.-H. Yang, Y.-C. Lin, Y.-F. Su, and H.-H.
Chen, "Music emotion classification: A
regression approach," in Proc. IEEE Int.
Conf. Multimedia and Expo. 2007
(ICME'07), Bejing, China, pp. 208-211.
[20] Y.-H. Yang, C.-C Liu, and H.-H. Chen,
"Music emotion classification: A fuzzy
approach," in Proc. ACM Multimedia 2006
(ACM MM'06), Santa Barbara, CA, USA,
pp. 81-84.
[21] Langi, Armein (2006). Introduction to
Multimedia Data Compression. DSP
Research and Technology IURC
Microelectronics ITB.
[22] D. Liu, N. Y. Zhang, H. C. Zhu, (2003).
Form and mood recognition of Johann
Strauss’s waltz centos. Chinese Journal of
Electronics, 3.
[23] Taylor, Ken (2006) . Music, Meaning and
Emotion: Interview With Peter Kivy .
http://theblog.philosophytalk.org/2006/09/m
usic_meaning_a.html. Diakses: Oktober
2007.
[24] A.J. Blood, R.J. Zatorre, P. Bermudez, A.C.
Evans. (1999). Emotional responses to
pleasant and unpleasant music correlate
with activity in paralimbic brain regions.
Nature Neuroscience, 2, 382-387.
http://www.zlab.mcgill.ca/docs/Blood_et_al
_1999.pdf. Diakses: Desember 2007.
[25] Blood, A.J. & Zatorre, R.J. (2001 )
Intensely pleasurable responses to music
correlate with activity in brain regions
implicated with reward and emotion.
Proceedings of the National Academy of
Sciences, 98, 11818-11823. (Didapatkan
dari
http://www.zlab.mcgill.ca/docs/Blood_and_
Zatorre_2001.pdf)
[26] Dawson, Terence. Music: Emotion and
Feeling.
http://www.victorianweb.org/authors/wilde/
dawson2.html . Diakses: Oktober 2007.
[27] Worth, Sarah E. (2007). Music, Emotion
and Language: Using Music to
Communicate .
http://www.bu.edu/wcp/Papers/Aest/AestW
ort.htm . Diakses: Oktober 2007.
[28] American Association for Artificial Intellig
ence. AI Applications In Music.
http://www.aaai.org/aitopics/html/music.htm
l . Diakses: Oktober 2006.
[29] Dobrian, Chris. (1993). Music and Artificial
Intelligence.
http://music.arts.uci.edu/dobrian/CD.music.a
i.htm .
[30] Kawakimi. (1975). Arranging Popular
Music: A Practical Guide. Yamaha Music
Foundation .
[31] Kheng, Loh Phaik. 1991. A Handbook of
Music Theory. Muzikal .
[32] Pope, A.T., Holm, F., Kouznetsov, A.
(2004). Feature Extraction and Database
Design for Music Software. Proc. 2004 Int’l
Computer Music Conference. University of
Miami.
http://fastlabinc.com/PopeHolmKouznetsov
_icmc2.pdf. Diakses: November 2007.
[33] Music Analysis, Retrieval, and Synthesis for
Audio Signals (MARSYAS).
http://marsyas.sness.net. Diakses: Desember
2007.
[34] E.Farrar. (2002). A Method for Mapping
Expressive Qualities of Music to Expressive
Qualities of Animation. Advanced
Computing Center for the Arts and Design,
The College Of Arts, The Ohio State
University.
http://accad.osu.edu/~efarrar/thesis/proposal
120602.pdf. Diakses: Januari 2008.
[35] D. Cabrera. (1999). Psysound: A computer
program for psychoacoustical analysis.
Proceedings of the Australian Acoustical
Society Conference, Melbourne, 24-26
November 1999, pp 47-54.
http://members.tripod.com/~densil/software/
PsySound.PDF. Diakses: Januari 2008.
[36] PsySound3. http://psysound.org. Diakses:
Januari 2008.
Download