TEKNIK KOMPRESI MP3 A. Pendahuluan Dalam zaman yang

advertisement
TEKNIK KOMPRESI MP3
A. Pendahuluan
Dalam zaman yang makin maju ini,teknologi baru yang belum
pernah dibayangkan sebelumnya makin banyak bermunculan. Mulai
dari munculnya komputer , handphone,dan masih banyak lagi. Salah
satu teknologi baru yang muncul adalah MP3 Player.MP3 Player ini bisa
membuat seseorang mendengarkan lagu secara digital,tidak perlu
menggunakan kaset atau CD seperti zaman dahulu. MP3, format yang
bisa dimainkan oleh MP3 Player adalah salah satu format audio yang
paling sering digunakan dalam penyimpanan data audio.
MP3
merupakan
bentuk
audio
yang
paling
sering
digunakan,karena data yang disimpan menyerupai data yang asli pada
saat
direkam,
dan
memiliki
ukuran
yang
tidak
terlalu
besar
dibandingkan format lain. Tapi, bagaimana dengan cara pembentukan
MP3 bisa memiliki ukuran data yang kecil? Untuk memiliki ukuran data
yang tidak besar , diperlukan metode kompresi. Kompresi memiliki arti
untuk mepersingkat ukuran bit yang diperlukan dalam suatu data.
Metode kompresi data dalam audio yang paling sering digunakan
adalah metode pengkodean Huffman. Kode Huffman merupakan salah
satu
metode
kompresi
data
yang
terkenal.
Kompresi
data
ini
memperkecil bit untuk kata yang sering muncul dan memperbesar bit
yang jarang muncul.Sebagai contoh, data yang awalnya memiliki
panjang 56 bit, bisa dikompresi menjadi 11 bit tanpa ada informasi yang
hilang.
B. Pengenalan Format MP3 dan Kode Huffman
1. Pengenalan MP3
MP3
merupakan
format
yang
menarik
karena
bisa
mempertahankan kualitas suara sementara memiliki ukuran yang
tidak terlalu besar. Teknologi ini dikembangkan oleh seorang insinyur
Institut Fraunhofer di Jerman, Karlheinz Brandenburg. MP3 terdiri dari
banyak sekali frame ,dimana setiap frame mengandung sebagian
detik dari data audio yang berguna,yang siap dikonstruksi ulang oleh
decoder. Yang dimasukkan ke setiap bagian awal dari frame data
adalah “header frame”,yang mengandung 32 bit meta-data yang
berhubungan dengan frame data yang masuk.
Gambar 1. Data yang mendeskripsikan bentuk struktural dari frame
tersebut;
data inilah yang disebut header dari frame
Gambar 2.Frame Header MP3 secara visual
Tabel 2.Karakteristik file header
Walau MP3 terlihat begitu hebat, ternyata format ini juga
memiliki keterbatasannya tersendiri :
a. Bit rate terbatas, maksimum 320 kbit/s (beberapa encoder
dapat menghasilkan bit rate yang lebih tinggi, tetapi sangat
sedikit dukungan untuk mp3-mp3 tersebut yang memiliki bit rate
tinggi
b. Resolusi waktu yang digunakan mp3 dapat menjadi terlalu
rendah untuk sinyal-sinyal suara yang sangat transient, sehingga
dapat menyebabkan noise.
c. Resolusi frekuensi terbatasi oleh ukuran window yang panjang
kecil, mengurangi efisiensi coding.
d. Tidak ada scale factor band untuk frekuensi di atas 15,5 atau
15,8 kHz.
e. Mode jointstereo dilakukan pada basis per frame.
f. Delay bagi encoder/decoder tidak didefinisikan, sehingga tidak
ada dorongan untuk gapless playback (pemutaran audio tanpa
gap).
Tetapi,
beberapa
encoder
seperti
LAME
dapat
menambahkan metadata tambahan yang memberikan informasi
kepada MP3 player untuk mengatasi hal itu.
2. Pengenalan Kode Huffman
Pertama, akan dikenalkan lebih dalam tentang kompresi.
Kompresi
merupakan
proses
melakukan
encoding
informasi
menggunakan bit yang lebih sedikit dari informasi awal. Terdapat dua
jenis tipe kompresi, yaitu : lossless dan lossy . Dalam kompresi
lossless, awalnya data akan dipecah menjadi ukuran yang lebih kecil
dan pada akhirnya data disatukan kembali. Sedangkan, dalam
kompresi lossy, ada bit informasi yang dieliminasi setelah dilakukan
kompresi.Kompresi
tipe
ini
sering
dilakukan
untuk
kompresi
gambar.Prinsip umum dalam proses kompresi adalah mengurangi
duplikasi data sehingga memori untuk merepresentasikan menjadi
lebih sedikit daripada representasi data digital semula.
Beberapa perbandingan antar lossy dan lossless :
a. Keuntungan dari metode lossy atas lossless adalah dalam
bebeapa kasus metode lossy dapat menghasilkan file kompresi
yang lebih kecil dibandingkan dengan metode lossless yang ada,
ketika masih memenuhi persyaratan aplikasi.
b. Metode lossy sering digunakan untuk mengkompresi suara,
gambar dan video. karena data tersebut dimaksudkan kepada
human interpretation dimana pikiran dapat dengan mudah
“mengisi bagian-bagian yang kosong” atau melihat kesalahan
masa lalu sangat kecil atau inkonsistensi-idealnya lossy adalah
kompresi transparan, yg dapat diverifikasi dengan tes ABX.
c. Sedangkan lossless digunakan untuk mengkompresi data untuk
diterima ditujuan dalam kondisi asli seperti dokumen teks.
d. Lossy akan mengalami generation loss pada data sedangkan
pada lossless tidak terjadi karena data yang hasil dekompresi
sama dengan data asli. Kode Huffman merupakan salah satu
metode kompresi data yang diciptakan oleh David A. Huffman.
Kode
Huffman
menggunakan
metode
tertentu
untuk
merepresentasikan tiap simbol dimana ekspresi yang paling
sering muncul mendapat ukuran bit terkecil dan ekspresi yang
jarang muncul mendapat ukuran bit yang lebih banyak.
Proses pembentukan dari kode Huffman adalah :
a. Pilih 2 simbol dengan peluang paling kecil. Kedua simbol tadi
dikombinasikan sebagai simpul
orangtua dan peluang nya
dijumlahkan.
b. Simbol
baru
ini
diperlakukan
sebagai
simpul
baru
dan
diperhitungkan dalam mencari simbol selanjutnya yang memiliki
peluang paling kecil.
c. Selanjutnya, pilih dua simbol berikutnya,termasuk simbol baru,
yang mempunyai peluang terkecil.
Lakukan hal yang sama
seperti langkah sebelumnya.
d. Ulangi hingga seluruh tulisan terkode.
Sebagai
contoh,akan
diberikan
tabel
dari
kemunculan suatu tulisan “ABCCAAD”:
Tabel 1. Tabel Kemunculan Tulisan Simbol Kekerapan Peluang
banyaknya
Pada saat dilakukan langkah - langkah pengkodean Huffman
seperti diatas, maka hasilnya adalah :
Kode A : 0
Kode B : 110
Kode C : 10
Kode D : 111
3. Kompresi Audio MP3
Asal-usul MP3 dimulai dari penelitian IIS-FHG (Institut Integriette
Schaltungen-Fraunhofer Gesellschaft), sebuah lembaga penelitian
terapan di Munich, Jerman dalam penelitian coding audio perceptual.
Penelitian tersebut menghasilkan suatu algoritma yang menjadi
standard sebagai ISO-MPEG Audio Layer-3 (MP3)
Untuk melakukan kompresi audio , terdapat beberapa metode
yang dapat digunakan,antara lain :
a. Model psikoakustik ,critical band,dan joint stereo.
Dalam melakukan kompresi MP3,metode yang dilakukan
adalah model psikoakustik. Model psikoakustik adalah model yang
menggambarkan karakteristik pendengaran manusia. Salah satu
karakteristik
pendengaran
manusia
adalah
memiliki
batas
frekuensi 20 Hz s/d 20 kHz, dimana suara yang memiliki frekuensi
yang berada di bawah ambang batas ini tidak dapat didengar oleh
manusia, sehingga suara seperti itu tidak perlu dikodekan.
Beberapa percobaan pada psikoakustik adalah MPEG Layer1,diikuti MPEG Layer-2. Kedua model pertama ini mengurangi
secara drastis tingkat data yang diperlukan untuk memroduksi
ulang suara berkualitas CD. MPEG Layer-3 menguranginya lebih
jauh(Layer-1 : 384 kbps,Layer-2: 192 kbps,Layer-3 :112 kbps).
Perbedaan antara MPEG Layer 1,2 dan 3 dari segi desain :
Gambar 3. MPEG Layer 1 dan 2
Gambar 4. MPEG Layer 3
Gambar 5. Proses Pembentukan File MP3
Blok
Fraunhofer
pertama
yang
dilihat
adalah
blok
menggunakan
solusi
hibrid
untuk
Filter
Bank.
MP3
yang
mengkombinasikan sebuah bank filter polifase dan sebuah
Modified Discrete Cosine Transform (MDCT). Bank filter polifase
adalah pemisahan awal audio stream menjadi frekuensi sub-band
yang berjarak sama. Dengan sampel ini,frekuensi inti dipilih dan
kemudian digunakan untuk kompresi. Satu masalah yang muncul
dari pemilihan ini adalah frekuensi inti yang bertumpang tindih
dengan subband, yang menyebabkan masalah kualitas dan
kejernihan suara. Untuk mencegah masalah ini, MDCT digunakan
pada 32 sub-band dari bank filter. Setiap jarak sub-band
dilebarkan untuk bertumpang tindih dengan sub-band tetangga.
Sampel baru diproses melalui MDCT dan ditambah dengan fungsi
inversnya untuk membatalkan setiap kesalahan pada MDCT.
Proses
pembatalan
cancellation.Ini
ini
adalah
dinamakan
proses
yang
time
domain
memakan
aliasing
waktu,
tapi
kalkulasi dan waktu yang dibutuhkan dikurangi menggunakan
faktorisasi rekursif.
Sampel hasil dilewatkan ke porsi dari encoder joint stereo
coding.Joint
stereo
coding
adalah
dimana
informasi
yang
berlebihan dan tidak penting dibuang dari bit stream. Model
perseptual (perceptual model) mengkalkulasikan akan menjadi
apa frekuensi limit untuk tiap sub-band,yang digunakan dalam
penentuan frekuensi kritis. Fungsi lainnya adalah menentukan
permulaan masking untuk setiap sub-band. Masking adalah ketika
satu suara membuat suara yang lain tidak dapat didengar,atau
menutupi suara lain.Jadi berdasarkan model psikoakustik, encoder
dapat menentukan untuk melakukan eliminasi atau mengurangi
jumlah bit yang dialokasi untuk setiap suara dibawah permulaan
masking untuk setiap subband. Faktor lain yang menentukan
apakah
yang
dapat
dihilangkan
adalah
bit
rate
dari
encoding.Semakin rendah bit rate,semakin banyak data yang
dihilangkan.
Aliran
data
dialirkan
ke
sepasang
loop:noise
control/distortion loop(control loop)dan rate loop.Keseluruhan
aliran data dibagi menjadi beberapa potong,dan juga subband.Control loop mengecek setiap potongan untuk menentukan
noise berada dalam tiap subband melebihi batas masking,atau
noise yang diperbolehkan.Jika sub-band melebihi noise yang
diperbolehkan,maka faktor skala untuk sub-band tersebut harus
disesuaikan. Faktor skala menyediakan gain yang diperoleh untuk
setiap sub-band. Gain adalah perbandingan sinyal keluaran dan
masukan. Untuk mengganti syarat bit rate yang meningkat,rate
loop diinisialisasikan.
Rate loop melakukan dan mengecek kode Huffman. Kode
Huffman
adalah
memroduksi
metode
sebuah
merepresentasikan
menganalisa
set
bit
data.Semakin
sebuah
yang
sering
setdata
optimal
dan
untuk
sampel
input
digunakan,diberikan string bit yang lebih kecil,dengan demikian
melakukan kompresi lossless pada data lossy dari porsi enkoding
psikoakustik,dan
digunakan
tabel
untuk
pengkodean
spektrum
Huffman
frekuensi
yang
yang
berbeda
berbeda
untuk
memperoleh pengurangan ukuran maksimum.Jika jumlah bit dari
kode Huffman lebih besar dari bitrate yang diperbolehkan,maka
jumlah potongan waktu dikurangi.
b. Auditory Masking
Auditory Masking Effect, yaitu ketidakmampuan manusia
untuk mendengarkan suara pada frekuensi tertentu dengan
amplitudo tertentu, dimana pada frekuensi didekatnya terdapat
suara dengan amplitudo yang tinggi. Contoh : kita dapat
mendengar nafas seseorang dalam ruangan sunyi, namun jika
dimainkan sebuah lagu dengan piano maka nafas jadi tak
terdengar.
Manusia tidak mampu mendengarkan suara pada frekuensi
tertentu dengan amplitudo tertentu jika pada frekuensi di
dekatnya terdapat suara dengan amplitudo yang jauh lebih tinggi.
Masking pendengaran adalah ketika persepsi satu suara
dipengaruhi oleh adanya suara lain. Masking dapat simultan atau
non simultan, masking simultan adalah ketika sebuah sinyal,
suara yang diinginkan untuk didengar, dibuat tak terdengar oleh
masker, kebisingan atau suara yang tidak diinginkan yang ada di
seluruh sinyal.
Ambang batas tidak bertopeng adalah tingkat paling tenang
dari
sinyal
yang
dapat
dirasakan
dalam
tenang.
Ambang
bertopeng adalah tingkat paling tenang dari sinyal yang dirasakan
ketika disajikan dalam kebisingan.
Jumlah
masking adalah
perbedaan antara ambang bertopeng dan tidak bertopeng.
Sebagai contoh jika ambang bertopeng adalah 20dB dan ambang
batas tidak bertopeng adalah 35dB jumlah masking akan 15dB.
Tes masking dasarnya terkait dengan ambang batas tidak
bertopeng yang diukur pada subjek. Kemudian suara masking
diperkenalkan pada tingkat suara tetap dan sinyal disajikan pada
saat yang sama. Tingkat sinyal yang bervariasi sampai batas baru
diukur. Ini adalah ambang bertopeng.
Fenomena masking sering digunakan untuk menyelidiki
kemampuan sistem pendengaran untuk memisahkan komponenkomponen suara yang kompleks. Sebagai contoh jika dua suara
dari dua frekuensi yang berbeda (lapangan) yang dimainkan pada
saat yang sama, dua suara yang terpisah sering terdengar
daripada nada kombinasi. Hal ini dikenal sebagai resolusi
frekuensi
atau
selektivitas
frekuensi.
Resolusi
frekuensi
diperkirakan terjadi karena penyaringan di dalam koklea, organ
pendengaran di telinga dalam. Sebuah suara yang kompleks
dibagi
ke
dalam
komponen
frekuensi
yang
berbeda
dan
komponen ini menyebabkan puncak dalam pola getaran pada
tempat tertentu pada membran basilar dalam koklea
Masking menggambarkan batas-batas selektivitas frekuensi
bahkan pada orang pendengaran normal. Jika sinyal yang
diperlukan tertutup oleh masker dengan frekuensi yang berbeda
untuk sinyal maka sistem pendengaran tidak dapat membedakan
antara dua frekuensi. Oleh karena itu dengan melakukan
percobaan untuk melihat kondisi yang diperlukan untuk satu
suara untuk menutupi sinyal sebelumnya mendengar, selektivitas
frekuensi dari sistem pendengaran dapat diselidiki.
Masking menggambarkan batas-batas selektivitas frekuensi.
Jika sinyal yang diperlukan tertutup oleh masker dengan frekuensi
yang berbeda untuk sinyal maka sistem pendengaran tidak dapat
membedakan antara dua frekuensi. Dengan bereksperimen
dengan kondisi di mana satu suara dapat menutupi sinyal
sebelumnya
mendengar,
pendengaran dapat diuji.
selektivitas
frekuensi
dari
sistem
Pengaruh frekuensi pada pola masking
frekuensi Similar
Seberapa efektif masker adalah pada meningkatkan
ambang sinyal tergantung pada frekuensi dari sinyal dan
frekuensi masker tersebut. Grafik pada Gambar B adalah
serangkaian pola masking, juga dikenal sebagai masking
audiogram . Setiap grafik menunjukkan jumlah masking
dihasilkan pada masing-masing frekuensi masker ditampilkan
di sudut atas, 250, 500, 1000 dan 2000Hz. Sebagai contoh,
dalam grafik pertama masker tersebut disajikan pada
frekuensi 250Hz pada saat yang sama sebagai sinyal. Jumlah
masker akan meningkatkan ambang sinyal diplot dan ini
diulang
untuk
ditunjukkan
frekuensi
pada
sumbu
sinyal
X.
yang
Frekuensi
berbeda,
yang
masker
yang
dipertahankan konstan. Efek masking ditampilkan di setiap
grafik pada tingkat suara masker berbagai.
Diadaptasi dari Ehmer (a)
Gambar diatas menunjukkan sepanjang sumbu Y
jumlah masking. Para masking terbesar adalah ketika masker
dan sinyal adalah frekuensi yang sama dan ini menurun
sebagai frekuensi sinyal bergerak lebih jauh dari frekuensi
masker. Fenomena ini disebut on-frekuensi masking dan
terjadi karena masker dan sinyal berada dalam sama
pendengaran filter (gambar b). Ini berarti bahwa pendengar
tidak dapat membedakan antara mereka dan mereka
dianggap sebagai salah satu suara dengan suara tenang
tertutup oleh satu lebih keras (gambar c).
Diadaptasi dari Gelfand 2004 (b)
Diadaptasi dari
Gelfand 2004 (c)
Jumlah masker menimbulkan ambang sinyal jauh lebih
sedikit di masking frekuensi off, tetapi memiliki beberapa
efek masking karena beberapa tumpang tindih masker ke
filter pendengaran dari sinyal (gambar b)
Diadaptasi Dari Moore 1998 (d)
Masking frekuensi Off membutuhkan tingkat masker lebih
besar untuk memiliki efek masking, ini ditunjukkan pada
Gambar e.
Diadaptasi Dari Moore 1998 (e)
frekuensi rendah
Perubahan pola masking tergantung pada frekuensi
dari masker dan intensitas (gambar a). Untuk tingkat rendah
pada grafik 1000Hz, seperti kisaran 20-40 dB, kurva relatif
paralel. Sebagai intensitas masker meningkatkan kurva
terpisah, terutama untuk sinyal pada frekuensi yang lebih
tinggi dari masker tersebut. Hal ini menunjukkan bahwa ada
penyebaran efek masking ke atas dalam frekuensi sebagai
intensitas masker meningkat. Kurva ini jauh lebih dangkal
dalam frekuensi tinggi daripada di frekuensi rendah. Ini
merata menyebar ke atas disebut masking dan mengapa
sebuah topeng suara mengganggu sinyal frekuensi tinggi
jauh lebih baik dari sinyal frekuensi rendah.
Gambar
A
juga
menunjukkan
bahwa
dengan
meningkatnya frekuensi masker, pola masking menjadi
semakin
terkompresi.
Ini
menunjukkan
bahwa
masker
frekuensi tinggi hanya efektif pada rentang sempit frekuensi,
dekat dengan frekuensi masker. Masker frekuensi rendah di
sisi lain adalah efektif pada rentang frekuensi yang luas.
Fletcher melakukan percobaan untuk menemukan
berapa banyak dari sebuah band kebisingan berkontribusi
pada masking dari nada. Dalam percobaan, sinyal nada tetap
memiliki bandwidth berbagai kebisingan berpusat di atasnya.
Ambang bertopeng tercatat untuk bandwidth masing-masing.
Penelitiannya menunjukkan bahwa ada bandwidth yang kritis
terhadap kebisingan
yang menyebabkan efek
masking
maksimum dan energi di luar band yang tidak mempengaruhi
masking. Hal ini dapat dijelaskan oleh sistem pendengaran
memiliki filter pendengaran yang berpusat di frekuensi nada.
Bandwidth
dari
masker
yang
ada di
dalam filter
ini
pendengaran efektif masker nada tapi masker bagian luar
filter tidak berpengaruh (gambar F.)
Diadaptasi Dari Sebuah Diagram Dengan Gelfand (F)
Pengaruh intensitas
Berbagai tingkat intensitas juga dapat memiliki efek
pada masking. Ujung bawah filter menjadi lebih datar dengan
tingkat desibel yang meningkat, sedangkan akhir yang lebih
tinggi menjadi sedikit lebih curam (Moore 1998). Perubahan
kemiringan sisi frekuensi tinggi saringan dengan intensitas
yang kurang konsisten dari yang ada pada frekuensi rendah.
Pada frekuensi menengah (1-4 kHz) kemiringan meningkat
dengan meningkatnya intensitas, tetapi pada frekuensi
rendah tidak ada kecenderungan yang jelas dengan tingkat
dan filter pada frekuensi pusat yang tinggi menunjukkan
penurunan kecil di lereng dengan tingkat meningkat. Para
ketajaman filter tergantung pada tingkat input dan bukan
tingkat output ke filter. Sisi bawah dari filter pendengaran
juga memperluas dengan tingkat meningkat. Pengamatan ini
diilustrasikan pada Gambar g.
Diadaptasi Dari Moore 1998 (G)
Kondisi Masking Lain
Masking ipsilateral ("sisi yang sama") bukan satusatunya kondisi di mana masking terjadi. Situasi lain dimana
terjadi masking disebut kontralateral ("sisi lain") masking
simultan. Dalam hal ini, contoh di mana sinyal mungkin
terdengar pada satu telinga tetapi sengaja diambil dengan
menerapkan masker ke telinga yang lain. Situasi terakhir di
mana terjadi masking masking pusat. Hal ini mengacu pada
kasus di mana sebuah masker menyebabkan elevasi ambang
batas. Ini bisa dalam ketiadaan, atau di samping, efek lain
dan karena interaksi dalam sistem saraf pusat antara input
saraf terpisah diperoleh dari masker dan sinyal.
Mencari H - Masking Simultan Ipsilateral
Mekanisme Masking
Ada mekanisme yang berbeda banyak masking, satu
penekanan makhluk. Ini adalah ketika ada pengurangan
respon terhadap sinyal karena kehadiran orang lain. Hal ini
terjadi karena aktivitas saraf asli disebabkan oleh sinyal
pertama tersebut dikurangi dengan aktivitas saraf dari suara
lain.
Penambahan
adalah
penambahan
masker
beberapa
mengakibatkan ambang masker meningkat akhir lebih besar
dari masker asli (Lincoln 1998).
Kombinasi nada adalah produk dari sinyal / s dan sebuah
masker / s. Hal ini terjadi ketika dua suara berinteraksi
penyebab suara baru, yang dapat lebih terdengar dari sinyal
asli. Hal ini disebabkan oleh distorsi non linier yang terjadi di
telinga.
Sebagai contoh, nada kombinasi dua masker
bisa
menjadi masker lebih baik dari dua masker asli saja. Suara
berinteraksi
dengan
berbagai
cara
tergantung
pada
perbedaan frekuensi antara dua suara. Dua yang paling
penting adalah nada perbedaan kubik dan nada perbedaan
kuadrat.
Sistem Masking Suara
Pengaruh
masking
pendengaran
digunakan
dalam
sistem masking suara . Ini adalah sistem audio yang
disiarkan White noise untuk tujuan menyembunyikan suara
yang tidak diinginkan. Bunyi yang tidak diinginkan mungkin
intermiten
suara
dari
mesin,
orang
atau
sumber
lain.
Biasanya, suara ini disaring untuk memberikan efek terbaik
menyembunyikan bunyi yang tidak diinginkan.
Masking Spektral
Masking
spektral
adalah
versi
frekuensi-domain
masking sementara , dan cenderung terjadi pada suara
dengan frekuensi yang sama: lonjakan kuat pada 1 kHz akan
cenderung untuk menutupi sebuah nada tingkat rendah
sebesar 1,1 kHz. Ini juga dapat dimanfaatkan oleh model
psychoacoustic .
c. Critical Band
Critical
Band atau pita frekuensi kritis, yaitu daerah
frekuensi tertentu yang harus diperhatikan lebih teliti lagi, karena
pendengaran manusia lebih peka pada frekuensi-frekuensi ini.
Dengan demikian frekuensi sensitif seperti frekuensi rendah
mendapatan alokasi bit dan alokasi sub-band pada filter lebih
banyak daripada frekuensi yang tidak sensistif (frekuensi tinggi).
Psychophysiologically,
mengalahkan
dan
pendengaran
sensasi kekasaran dapat dihubungkan dengan ketidakmampuan
mekanisme frekuensi pendengaran untuk menyelesaikan analisis
input yang frekuensi perbedaan lebih kecil dari bandwidth kritis
dan ke "gelitikan" tidak teratur sehingga dari sistem mekanis
(membran
basilar
)
yang
beresonansi
dalam
menanggapi
masukan tersebut. Band Kritis juga terkait erat dengan fenomena
masking pendengaran - penurunan kemampuan mendengar
sinyal suara saat di hadapan sinyal kedua intensitas tinggi dan
dalam band kritis yang sama. Fenomena masking memiliki
implikasi luas, mulai dari hubungan yang kompleks antara
kenyaringan (bingkai persepsi dari referensi) dan intensitas
(frame fisik referensi) terdengar algoritma kompresi.
Filter digunakan dalam banyak aspek audiologi dan
psychoacoustics termasuk sistem pendengaran perifer. Filter
adalah perangkat yang meningkatkan frekuensi tertentu dan
melemahkan
orang
memungkinkan
lain.
rentang
Secara
frekuensi
khusus,
dalam
filter
band-pass
bandwidth
untuk
melewati waktu menghentikan mereka di luar cut-off frekuensi.
Sebuah filter Band-pass menunjukkan frekuensi tengah (Fc),
semakin rendah (Fl) dan atas (Fu) memotong frekuensi dan
bandwidth. Cut-off atas dan bawah frekuensi didefinisikan sebagai
titik di mana amplitudo jatuh ke 3dB bawah amplitudo puncak.
Bandwidth adalah daerah antara cut-off frekuensi atas dan bawah
dan adalah rentang frekuensi melewati filter.
d. Joint stereo
Stereo Bersama adalah properti dari aliran data audio yang
mendukung lebih dari satu metode pengkodean stereo, seperti SS
("sederhana" atau "L / R" stereo), MS ("pertengahan sisi" stereo),
atau IS ("intensitas" stereo). Aliran stereo bersama mungkin
masih hanya menggunakan metode pengkodean tunggal, tetapi
demi efisiensi atau kualitas mungkin beralih antara metode pada
bingkai atau bahkan sub-frame dasar.
Sebagai contoh, tinggi bitrate "stereo bersama" MP3 file
dapat mengandung campuran SS dan MS frame, atau mungkin
berisi semua frame SS atau semua frame MS. Sebuah "stereo
bersama" non-MP3 tidak akan pernah mengandung campuran
jenis frame.
Bersama
metode
pengkodean
stereo
dalam
prosa
umumnya mengacu pada apa pun alternatif sederhana (L / R)
coding stereo didukung oleh format tertentu, meskipun stereo
sederhana juga merupakan pilihan.
Terkadang dual channel stereo mengirimkan informasi
yang sama. Dengan menggunakan joint stereo, informasi yang
sama ini cukup ditempatkan dalam salah satu channel saja dan
ditambah dengan informasi tertentu. Dengan teknik ini bitrate
dapat diperkecil
Bentuk stereo bersama menggunakan teknik yang dikenal
sebagai pengkodean frekuensi bersama, yang berfungsi pada
prinsip lokalisasi suara . Pendengaran manusia adalah terutama
akut di kurang memahami arah frekuensi audio tertentu. Dengan
memanfaatkan karakteristik ini, intensitas coding stereo dapat
mengurangi tingkat data stream audio dengan perubahan yang
dirasakan sedikit atau tidak dalam kualitas yang jelas.
Lebih khusus lagi, dominasi antar-aural perbedaan waktu
(ITD) untuk lokalisasi suara oleh manusia hanya hadir untuk
frekuensi rendah. Yang meninggalkan perbedaan amplitudo
antar-aural (IAD) sebagai indikator lokasi yang dominan untuk
frekuensi yang lebih tinggi. Ide coding stereo intensitas adalah
menggabungkan spektrum atas menjadi hanya satu saluran
(sehingga mengurangi perbedaan secara keseluruhan antara
saluran) dan mengirimkan informasi samping sedikit tentang cara
menggeser daerah frekuensi tertentu untuk memulihkan isyarat
IAD.
Jenis coding tidak sempurna merekonstruksi audio asli
karena hilangnya informasi yang menghasilkan penyederhanaan
gambar
stereo
dan
dapat
menghasilkan
kentara
artefak
kompresi . Namun, untuk laju bit yang sangat rendah jenis coding
biasanya
menghasilkan
keuntungan
dalam
kualitas
yang
dirasakan dari audio. Hal ini didukung oleh banyak format
kompresi audio (termasuk MP3 , AAC dan Vorbis ) tetapi tidak
selalu oleh setiap encoder.
C. Kesimpulan
Beberapa
karakteristik
dari
MP3
memanfaatkan
kelemahan
pendengaran manusia:
1. Model psikoakustik
Model psikoakustik adalah model yang menggambarkan karakteristik
pendengaran manusia. Salah satu karakteristik pendengaran manusia
adalah memiliki batas frekuensi 20 Hz s/d 20 kHz, dimana suara yang
memiliki frekuensi yang berada di bawah ambang batas ini tidak
dapat didengar oleh manusia, sehingga suara seperti itu tidak perlu
dikodekan.
2. Auditory masking
Manusia tidak mampu mendengarkan suara pada frekuensi tertentu
dengan amplitudo tertentu jika pada frekuensi di dekatnya terdapat
suara dengan amplitudo yang jauh lebih tinggi.
3. Critical band
Critical
band
merupakan
daerah
frekuensi
tertentu
dimana
pendengaran manusia lebih peka pada frekuensi-frekuensi rendah,
sehingga alokasi bit dan alokasi sub-band pada filter critical band
lebih banyak dibandingkan frekuensi lebih tinggi.
4. Joint stereo
Terkadang dual channel stereo mengirimkan informasi yang sama.
Dengan menggunakan joint stereo, informasi yang sama ini cukup
ditempatkan dalam salah satu channel saja dan ditambah dengan
informasi tertentu. Dengan teknik ini bitrate dapat diperkecil.
REFERENSI
Munir,Rinaldi ,“Diktat Kuliah IF 2091 Struktur Diskrit”, STEI,ITB,2008
Ruckert,Martin , “Understanding MP3: syntax, semantics, mathematics,
and algorithms”, Birkhäuser,2005
http://www.omninerd.com/articles/How_Audio_Compression_
Works
.
Tanggal akses : 19 Desember 2009
http://en.wikipedia.org/wiki/Audio_file_format
.Tanggal
akses
:
15
Desember 2009.
http://en.wikipedia.org/wiki/Huffman_coding . Tanggal akses : 15
Desember 2009
http://computer.howstuffworks.com/file-compression3.htm
Tanggal
akses : 15 Desember 2009
http://www.mp3-converter.com/mp3codec/huffman_coding.htm
Tanggal akses : 19 Desember 2009
Download