Mixture Modelling Menggunakan Prinsip Minimum Message Length

advertisement
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
Mixture Modelling Menggunakan Prinsip
Minimum Message Length
Yudi Agusta, PhD
Bali Data Mining Center, STIKOM BALI, Denpasar, Bali
Abstraksi: Mixture Modelling yang dikenal juga dengan istilah Clustering
merupakan metode pengklasifikasian data tanpa arahan yang mengelompokkan
data-data di dalam suatu dataset menjadi satu kelompok atau lebih, yang
sebelumnya tidak terdifinisikan. Ada dua proses utama yang diperlukan dalam
melakukan pengelompokan data menggunakan metode ini: pertama,
mengestimasi parameter-parameter yang digunakan untuk menjelaskan tiap
kelompok yang dihasilkan dan kedua, mencari model pengelompokan yang
paling sesuai untuk dataset yang dianalisa. Di dalam pengembangan metode
penganalisaan data berbasis mixture modelling ini, prinsip Minimum Message
Length (MML) dapat diaplikasikan secara bersamaan baik dalam
pengestimasian parameter dan pencarian model. Di dalam tulisan ini, metode
mixture modelling untuk penganalisaan data kontinyu univariate dan
multivariate tidak berkorelasi akan dikembangkan. Metode ini juga dilengkapi
dengan fasilitas untuk mengamati keberadaan outliers di dalam kelompokkelompok yang dihasilkan.
Kata Kunci: Minimum Message Length (MML), Mixture Modelling,
Clustering, Pengestimasian Parameter, Pencarian Model, Data Kontinyu
Univariate, Outliers
1. Pendahuluan
Mixture modelling[1,8,9,10,16], yang juga disebut dengan istilah-istilah lain seperti
clustering[2,3,7,16], intrinsic classification[15] dan numerical taxonomy, memodel atau
mengelompokkan data-data di dalam suatu dataset menjadi kelompok-kelompok data yang
sebelumnya tidak terdifinisikan. Di dalam tulisan ini, metode yang diulas adalah
pengelompokan data yang memodel suatu distribusi statistik bercampur dengan distribusi
statistik yang lain dalam bentuk mixture (penjumlahan berproporsi). Penganalisaan data
menggunakan mixture modelling menghasilkan analisa berupa jumlah kelompok di dalam
model tersebut, persentase data di dalam setiap kelompok relatif terhadap jumlah
keseluruhan data, parameter yang menerangkan setiap kelompok yang ditemukan dan
keterangan data-data yang tercakup di dalam setiap kelompok.
1
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
Dalam melakukan mixture modelling, penentuan jumlah kelompok yang paling sesuai untuk
dataset yang sedang dianalisa merupakan masalah yang cukup komplek. Untuk bisa
melaksanakan proses ini, keseimbangan antara kesempurnaan suatu model dengan pas
tidaknya suatu model terhadap data yang dianalisa harus benar-benar terjaga. Dengan kata
lain, model yang dipilih untuk suatu dataset haruslah cukup sempurna agar bisa mencakup
semua informasi yang terkandung di dalam dataset tersebut, tetapi tidak harus terlalu
sempurna agar tidak mengalami permasalahan over-fit.
Banyak teori yang telah digunakan dalam mengembangkan metode ini, termasuk
diantaranya Minimum Message Length (MML)[14], Maximum Likelihood (ML), Akaike
Information Criterion (AIC)[4], Schwarz’s Bayesian Information Criterion (BIC)[11],
Maximum A Posterior (MAP)[5] dan Markov Chain Monte Carlo (MCMC)[9]. Teori-teori ini
juga telah diimplementasikan menjadi paket-paket program pengelompokan data seperti
SNOB[14,15,17] yang menggunakan MML dalam proses pengestimasian parameter dan
pemilihan model, EMMIX[9] yang menggunakan ML untuk pengestimasian parameter dan
AIC serta BIC untuk pemilihan model dan MCLUST[6] yang juga menggunakan ML untuk
pengestimasian parameter dan BIC untuk pemilihan model.
Di dalam tulisan ini, Minimum Message Length (MML) [14] digunakan secara bersamaan
dalam pengestimasian parameter dan pemilihan model. Jenis data yang bisa diolah
menggunakan metode pengelompokan data seperti ini dapat berupa data berkategori
univariate dan multivariate, data kontinyu univariate dan multivariate baik yang berkorelasi
maupun tidak. Sebagai salah satu contoh pengembangan metode mixture modelling
menggunakan prinsip MML ini, sebuah metode untuk menganalisa data kontinyu univariate
dan multivariate tidak berkorelasi akan dikembangkan di dalam tulisan ini. Selain itu,
keberadaan outliers di dalam kelompok-kelompok yang ditemukan di dalam pemodelan juga
akan ditelusuri.
Untuk keperluan itu, dua distribusi statistik akan digabungkan di dalam pengembangan
metode ini. Mereka adalah distribusi Normal dan distribusi Student t. Mixture modelling
menggunakan kedua distribusi ini sudah dibahas secara terpisah dan menggunakan metode
yang berbeda-beda[1,2,3,7,14,15,16,17]. Kedua distribusi ini merupakan distribusi-distribusi yang
berbentuk lonceng. Perbedaan di antara kedua distribusi ini terletak pada kemampuan
mereka untuk memodel data yang mengandung outliers. Distribusi Student t mempunyai
satu parameter tambahan dibandingkan distribusi Normal. Parameter ini disebut dengan
degree of freedom (ν). Degree of freedom (ν) yang kecil membuat kedua sisi pada distribusi
Student t tersebut makin tebal dan panjang, sedangkan degree of freedom (ν) yang besar dan
menuju tidak terhingga akan menyerupai distribusi Normal dengan sisi yang tipis. Dengan
kelebihan ini distribusi Student t sering digunakan untuk mengidentifikasi apakah data
dalam suatu kelompok yang ditemukan mengandung outliers atau tidak.
Secara keseluruhan tulisan ini menjelaskan kedua proses yang diperlukan dalam melakukan
pengembangan metode mixture modelling menggunakan prinsip MML. Bagian 2.
menjelaskan tentang teori dasar pengembangan metode pengestimasian parameter
menggunakan MML. Bagian 3. menjelaskan penyusunan message length yang digunakan
2
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
dalam proses pencarian model. Bagian 4. menggambarkan pengembangan metode
pengestimasian parameter untuk data kontinyu univariate dimana keberadaan outliers di
dalam setiap kelompok juga dianalisa. Tiga distribusi statistik tercakup dalam pemodelan ini
yaitu: distribusi Normal, distribusi Student t dan distribusi multi-nomial. Distribusi statistik
yang terakhir diperlukan untuk memodel proporsi data yang terdapat di dalam setiap
kelompok yang terdapat di dalam model yang ditemukan. Bagian 5. dan 6. masing-masing
menjelaskan metode alternatif dan metode pengevaluasian yang sering digunakan dalam
mengevaluasi metode pengelompokan data. Bagian 7. memuat hasil-hasil pemodelan dan
perbandingan-perbandingan terhadap pemodelan yang dikembangkan dengan teori yang lain.
Bagian 8. memberikan kesimpulan atas pengembangan yang diilustrasikan dalam tulisan ini.
2. Pengestimasian Parameter Menggunakan MML
Minimum Message Length (MML)[14] merupakan teknik pengestimasian sebuah titik dan
pemilihan model berbasis teori Bayesian dan teori informasi[12] serta bersifat invariance. Ide
dasar dari MML adalah menemukan sebuah model yang dapat meminimalkan total dari
message length yang terdiri dari dua bagian dimana bagian pertama berisikan encoding
untuk model yang terpilih dan bagian kedua berisikan encoding untuk data yang dikompresi
berdasarkan model terpilih tersebut.
Misalkan data yang sedang dianalisa dilambangkan dengan D dan hipotesa yang sedang
ditinjau diberi lambang H dimana prior probability untuk suatu hipotesa H tersebut
dilambangkan dengan P(H). Menggunakan teori Bayesian, masalah dalam melakukan
pengestimasian suatu titik dan pemilihan model dapat dikatakan sebagai masalah yang
memaksimalkan posterior probability P(H)⋅P(D|H).
Dari sudut pandang teori informasi, suatu kejadian, dengan probability untuk terjadi adalah
p, dapat di-encode dengan message yang panjangnya l = -log2 p bits. Sehingga masalah
tersebut di atas dapat disamakan dengan meminimalisasikan
MessLen
= − log 2 ( P ( H )) − log 2 ( P ( D | H ))
(1)
dimana bagian pertama dari persamaan (1) di atas merupakan message length dari hipotesa
H untuk terjadi dan bagian kedua dari persamaan merupakan message length dari data yang
di-encode berdasarkan hipotesa yang ditinjau.
Dalam topik permasalahan yang dibahas dalam makalah ini, MML digunakan untuk
melakukan pemilihan model pengelompokan dimana setiap kelompok di dalam model
tersebut didefinisikan menggunakan dua jenis distribusi yaitu distribusi Normal dan
distribusi Student t. Oleh karena itu, permasalahan ini memerlukan pengestimasian
parameter-parameter yang tercakup dalam kedua distribusi statistik tersebut. Disamping itu,
dalam mengembangkan metode pengelompokan data yang berbasis mixture (penjumlahan
berproporsi), sebuah distribusi statistik yaitu distribusi multi-nomial juga diperlukan untuk
menerangkan proporsi data yang tercakup di dalam masing-masing kelompok. Untuk
3
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
pengestimasian parameter-parameter tersebut, disini digunakan MML approximation yang
dikembangkan pada tahun 1987 oleh Wallace and Freeman[18].
Misalkan data yang sedang dianalisa dilambangkan dengan x, parameter yang akan
r
r
diestimasi dilambangkan dengan θ , maka distribusi untuk prior probability pada θ dapat
r
r
dilambangkan dengan h(θ ) , likelihood function dilambangkan dengan f ( x | θ ) , negative
r
log-likelihood function L = − log f ( x | θ ) dan Fisher information – yang merupakan
determinan dari matrik nilai expected second derivatives dari negative log-likelihood-nya
dilambangkan dengan[18]:
r
  ∂ 2 L 
F (θ ) = det  E  r r 
  ∂θ ∂θ ′ 
(2)
Berpijak pada persamaan (1), dan dengan mengembangkan negative rlog-likelihood, L,
sampai ke term kedua dari Taylor series di wilayah sekitar parameter θ , maka message
length dapat dihitung menggunakan rumus sebagai berikut:
 h(θ ) 
 + L + D = − log h(θ ) f ( x | θ )  + D (1 + log κ )
MessLen = − log
D

 κ D F (θ ) 
2
F (θ )  2


 D
(3)
dimana D merupakan jumlah parameter yang diestimasi dan κD merupakan konstanta lattice
r
yang berdimensi D dengan κ1 = 1/12 dan κD ≤ 1/12. Estimasi dari parameter θ bisa
didapatkan dengan meminimalisasikan persamaan (3).
Dengan memikirkan bahwa distribusi Normal dan Student t merupakan distribusi kontinyu,
maka coding yang terhingga untuk message yang diturunkan, dapat diperoleh dengan
memperhitungkan bahwa semua data kontinyu dan parameter-parameter yang tercakup,
hanya perlu dicatat sampai tingkat presisi yang terbatas – dimana dalam praktiknya dibuat
sampai suatu tingkat presisi – ε. Dengan pemikiran ini, konstanta sebesar Nlog(1/ε) harus
ditambahkan ke dalam persamaan message length di atas, dimana N merupakan jumlah data
yang tercakup. Disamping itu, untuk sembarang attribute kontinyu, disini diasumsikan
bahwa parameter sebaran yang biasanya dilambangkan dengan σ bernilai minimal sama
dengan 0.4ε.
3. Mixture Modelling Menggunakan MML
Untuk dapat mengaplikasikan MML dalam memecahkan permasalahan pengelompokan data,
message yang terdiri dari dua bagian yang berisikan informasi mengenai model
pengelompokan data tersebut perlu untuk dibangun. Sesuai dengan teori yang dijelaskan
pada Bagian 2., hipotesa dari model pengelompokan data terdiri dari beberapa bagian
message yang dapat dipecah seperti berikut ini[1,2,3,14,15,16,17]:
4
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
1a. Jumlah kelompok: Mengasumsikan bahwa semua jumlah kelompok (misalnya, dari 1
sampai 100) mempunyai kemungkinan yang sama untuk menjadi jumlah kelompok
hasil pengelompokan data. Dalam hal ini, message bagian ini dimodel menggunakan
distribusi uniform dengan batas wilayah tertentu.
1b. Proporsi setiap kelompok: Dengan memikirkan bahwa proporsi dari masing-masing
kelompok di dalam model pengelompokan dengan jumlah kelompok sebesar M, hal
ini adalah sama dengan kondisi dari distribusi multi-nomial dengan jumlah state
sama dengan M.
1c. Untuk setiap kelompok, parameter dari distribusi statistik yang digunakan untuk
menjelaskan masing-masing attribute dalam kelompok tersebut: Dalam hal ini,
attribute dalam suatu kelompok dimodel menggunakan satu atau lebih distribusi
statistik.
1d. Untuk setiap data: Kelompok ke mana data tersebut dikelompokkan.
Setelah message bagian pertama dibangun, bagian kedua dari message akan berisikan
encoding dari data sesuai dengan model yang telah diturunkan pada message bagian pertama.
Karena tujuan utama dari MML adalah untuk menemukan model yang meminimalisasikan
message length, maka kita tidak perlu untuk benar-benar membangun kedua bagian message
tersebut. Dengan kata lain, kita hanya perlu untuk menghitung panjang message yang
digunakan untuk merepresentasikan sebuah model dan memilih model yang memberikan
panjang message yang terpendek.
4. Pemodelan Data Kontinyu Univariate
Di dalam tulisan ini, sebuah metode pengelompokan data untuk data kontinyu univariate
dan multivariate tidak berkorelasi dikembangkan sebagai contoh pengimplementasian MML
dalam pengembangan metode pengelompokan data. Dalam hal ini, pemodelan attribute di
dalam satu kelompok dilakukan dengan menggunakan distribusi statistik yang bersifat
kontinyu. Salah satu feature yang juga ditinjau dalam tulisan ini adalah keberadaan outliers
pada masing-masing attribute di dalam suatu kelompok. Untuk keperluan tersebut, distribusi
statistik yang digunakan di sini adalah distribusi Normal dan distribusi Student t.
Seperti yang telah dijelaskan dalam bagian sebelumnya, untuk memodel proporsi jumlah
data yang terdapat pada masing-masing kelompok digunakan distribusi multi-nomial dengan
jumlah state yang ditinjau adalah sebanyak kelompok yang terdapat di dalam model yang
ditinjau. Oleh karena itu, di sini perlu disediakan metode pengestimasian parameterparameter yang tercakup di dalam ketiga distribusi statistik yang disebutkan di atas. Rincian
penurunan metode pengestimasian parameter-parameter yang tercakup di dalam ketiga
distribusi statistik tersebut dijelaskan secara berturut-turut pada bagian di bawah ini.
4.1. Distribusi Multi-nomial
Untuk distribusi multi-nomial dengan jumlah state M (dan dengan jumlah sample N),
likelihood function dari distribusi ini adalah sebagai berikut:
5
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
f (n1 , n2 , L , n M | p1 , p 2 ,L , p M ) = p1n1 p xn2 L p MnM
(4)
dimana p1 + p 2 + L + p M = 1 , dan untuk semua m: p m ≥ 0 dan n1 + n2 + L + n M = N .
Dengan menggunakan persamaan (2) tentang Fisher information di atas, dapat diketahui
bahwa F ( p1 , p 2 , L, p M ) = N ( M −1) / p1 p x L p M [1,2,3,14,15,16,17].
r
Dengan mengasumsikan prior uniform h( p) = ( M − 1)! di atas wilayah berdimensi M-1 dari
hyper-volume 1 /( M − 1)! , dan meminimalisasikan persamaan message length (3), estimasi
terhadap parameter p̂ m dengan menggunakan MML didapat dengan rumus berikut ini:
pˆ m = (nm + 1 / 2) /( N + M / 2)
(5)
Mensubstitusikan persamaan likelihood function seperti pada persamaan (4), prior
probability yang ditentukan, dan Fisher information yang dijelaskan di atas, ke dalam
persamaan (3) memberikan message terdiri dari dua bagian dengan panjang:
− log( M − 1)!+ (( M − 1) / 2)(log( Nκ M −1 )+ 1) − ∑m =1 (nm + 1 / 2) log pˆ m
M
(6)
4.2. Distribusi Normal
Untuk distribusi Normal dengan likelihood function:
f ( x | µ,σ ) =
1
2π σ
e
−
( x−µ )2
2σ 2
(7)
Fisher information-nya adalah sebagai berikut[1,2,3,14,15,16,17]:
F ( µ , σ ) = 2 N 2 / σ 4 or F ( µ , σ 2 ) = N 2 / 2(σ 2 ) 3
(8)
Dengan mengasumsikan prior uniform pada µ di atas range terbatas R dan prior 1/σ pada σ
(yang sama artinya dengan prior uniform pada logσ dan sama juga artinya dengan prior 1/σ2
N
pada σ2) pada range e −4 , e 4 , dan juga melakukan setting s 2 = ∑i =1 ( xi − x ) 2 , serta dengan
[
]
meminimalisasikan persamaan (3), maka estimate untuk parameter µ dan σ menggunakan
MML dapat dihitung dengan rumus sebagai berikut:
µˆ MML = x =
6
(∑ x )/ N , σˆ
N
i =1
i
2
MML
= s 2 /( N − 1)
(9)
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
Untuk range bagi prior pada σ yang telah dinyatakan di atas, kita perlu untuk
menormalisasikan prior tersebut dengan nilai sebesar 0.125 dan untuk range
 R R
R = − ,  bagi prior pada µ, dalam prakteknya kita memilih range dengan ukuran
 2 2
max{10, perbedaan antara data terkecil dan terbesar dari keseluruhan data yang dianalisa}.
4.3. Distribusi Student t
Distribusi Student t dengan mean µ, standard deviation σ, dan degree of freedom ν
merupakan sebuah distribusi kontinyu yang mengeneralisasikan beberapa distribusi statistik
yang lain seperti distribusi Normal (ν = ∞) dan distribusi Cauchy (ν = 1). Untuk ν yang
besar (>100), distribusi Student t dapat diaproksimasikan menggunakan distribusi Normal.
Makin kecil nilai ν, makin panjang sisi dari distribusi Student t ini. Menggunakan
keistimewaan ini, distribusi Student t sering digunakan untuk memodel data yang
mengandung observasi yang tidak biasa seperti outliers. Distribusi ini mempunyai likelihood
function seperti berikut ini:
f ( x | µ , σ ,ν ) =
(ν + 1)
(ν +1)
)
2 − 2


µ
−
1
(
x
)
2
1+

ν σ 
νσ 2 
πν Γ( )
2
Γ(
(10)
dimana Γ(x) adalah fungsi Gamma yang dirumuskan sebagai berikut:
∞
Γ( x) = ∫ t x −1e −t dt , dimana ψ ( x) = dΓ( x) / dx dan ψ (1) ( x) = d 2 Γ( x) / dx 2
0
(11)
Untuk sembarang integer positif, x, Γ( x) = ( x − 1)!.
Untuk x yang besar, penghitungan langsung dari definisi asli fungsi Gamma di atas
menghasilkan angka yang sangat besar. Dengan mensubstitusi perbandingan kedua fungsi
Gamma di dalam likelihood function dari distribusi Student t di atas menggunakan rumus
berikut ini:
1
Γ( J + )
5
2 ≈ J (1 − 1 + 1 +
+ O(| J | −3 ))
2
3
8 J 128 J
Γ( J )
1024 J
(12)
maka likelihood function dari distribusi Student t dapat diaproksimasikan menggunakan
persamaan di bawah ini:
7
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
1
1
5
1 1  (x − µ)2 
+
+
f ( x | µ , σ ,ν ) = (1 −
)
1 +
4ν 32ν 2 128ν 3 2π σ 
νσ 2 
−
(ν +1)
2
(13)
Pendekatan ini berbeda dengan pendekatan di dalam paper terdahulu[3]. Di dalam tulisan ini,
untuk parameter ketiga dari distribusi Student t yaitu parameter ν (degree of freedom),
diasumsikan mempunyai nilai yang diketahui. Untuk keperluan ini, Fisher information pada
saat ν dianggap sebagai parameter yang diketahui adalah sebagai berikut[1,3]:
F (µ ,σ ) =
2 N 2ν (ν + 1)
σ 4 (ν + 3) 2
(14)
Mengasumsikan prior uniform bagi µ di atas range terbatas R dan prior 1/σ bagi σ di atas
range e −4 , e 4 , estimasi bagi parameter yang tercakup di dalam distribusi Student t
menggunakan MML, yaitu µ dan σ dihitung dengan meminimalisasikan persamaan (3)
terhadap setiap parameter yang tercakup. Karena tidak ada sufficient statistics yang dapat
digunakan untuk mengestimasi parameter-parameter tersebut dan karena parameter yang
satu terkait dengan parameter yang lain, maka estimasi dilakukan dengan melakukan binary
search melalui setting ∂MessLen / ∂θ = 0 dan mengulang proses search tersebut sampai
tingkat akurasi yang diinginkan tercapai.
[
]
5. Teori Alternatif
Selain MML, ada beberapa teori alternatif yang sering digunakan untuk melakukan
pengembangan metode pengelompokan data berbasis mixture ini. Beberapa di antaranya
telah digunakan dalam mengembangkan paket program pengelompokan data antara lain
EMMIX[9] yang menggunakan Maximum Likelihood (ML) untuk melakukan pengestimasian
parameter dan AIC serta BIC untuk pemilihan model. MCLUST[6] juga menggunakan ML
untuk mengestimasi parameter dan BIC untuk memilih model. Berikut ini akan dijelaskan
secara ringkas mengenai teori-teori alternatif ini.
5.1. Maximum Likelihood (ML)
Sesuai dengan namanya, ML method melakukan pengestimasian parameter dengan
memaksimalkan likelihood function dari data yang sedang dianalisa, terhadap parameter dari
distribusi statistik yang digunakan untuk memodel data tersebut. Atau kalau ditinjau dari sisi
lain, metode ini berusaha meminimalisasikan negative logarithm dari likelihood function
data yang sedang di analisa. Teori ini mempunyai keunggulan dalam hal waktu pencarian
estimasi. Walaupun, estimasi dari parameter yang tercakup tidak bisa dicari secara langsung
melalui persamaan, pengestimasian masih bisa dilakukan dengan menggunakan metode
Expectation Maximisation (EM). Tetapi di balik itu, ada beberapa kelemahan yang sering
menjadi kendala bagi teori ini untuk bisa menghasilkan pemodelan yang baik. Salah satunya
adalah metode ML sering memberikan estimasi yang bersifat bias, dimana cara
8
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
pengestimasian tidak selalu sama untuk semua kejadian yang dianalisa. Selain itu, teori ini
sering terbawa ke dalam permasalahan over-fit, dimana pemodelan cenderung memilih
model yang lebih kompleks dari yang seharusnya.
5.2. Akaike Information Criterion (AIC)
Akaike Information Criterion (AIC) [4] diperkenalkan pertama kali oleh Akaike (1974) untuk
mengidentifikasikan model dari suatu dataset. Metode ini merupakan salah satu dari metode
yang menerapkan pendekatan penalized Maximum Likelihood. Persamaan AIC dalam
melakukan pemilihan model adalah sebagai berikut:
AIC = L + N p
(15)
dimana L merupakan negative logarithm dari likelihood function dan Np merupakan jumlah
parameter yang diestimasi di dalam model tersebut. Jumlah parameter yang diestimasi
tergantung pada asumsi yang digunakan untuk menjelaskan setiap data di dalam suatu
kelompok. Untuk data kontinyu univariate yang akan ditinjau dalam tulisan ini, jumlah
parameter yang diestimasi adalah sebanyak k-1+kp dimana k adalah jumlah kelompok dan p
adalah jumlah parameter dalam setiap kelompok. Karena kita akan memodel data kontinyu
univariate dan multivariate tidak berkorelasi dengan distribusi Normal atau Student t, maka
p di sini adalah sama dengan 2 untuk distribusi Normal dan 3 untuk distribusi Student t
untuk setiap attribute di dalam model terpilih.
5.3. Bayesian Information Criterion (BIC)
Bayesian Information Criterion (BIC) [11] yang juga merupakan suatu tipe metode pemilihan
model dengan memanfaatkan pendekatan penalized Maximum Likelihood, diperkenalkan
pertama kali oleh Schwarz (1978). Sama seperti MML, metode ini dikembangkan dengan
basis teori Bayesian. Persamaan yang digunakan BIC dalam melakukan pemilihan model
adalah sebagai berikut:
BIC = L +
Np
2
log N
(16)
dimana L merupakan negative logarithm dari likelihood function-nya, Np merupakan jumlah
parameter independen yang diestimasi dan N merupakan jumlah data. Untuk kasus yang
ditinjau di dalam tulisan ini, Np diset sama dengan k-1+kp, dimana k merupakan jumlah
kelompok dan p merupakan jumlah parameter yang diestimasi di dalam setiap kelompok.
Nilai p diset sama seperti setting yang dilakukan pada AIC.
9
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
6. Metode Pengevaluasian
Dalam ekperimen yang dilakukan di dalam tulisan ini, dua metode pengevaluasian akan
diterapkan. Mereka adalah metode Kullback-Leibler (KL) Distance dan Probability BitCosting.
6.1. Kullback-Leibler (KL) Distance
Kullback-Leibler (KL) distance[1] merupakan metode pengevaluasian yang digunakan untuk
mengukur kedekatan suatu model terhadap model yang lain. KL distance dari sebuah model
kontinyu, f ( x | θ ) , terhadap model kontinyu lainnya, f ( x | θˆ) , didifinisikan sebagai berikut
ini:
∞
f (x |θ )
KL(θ ,θˆ) = ∫ f ( x | θ ) log
dx
−∞
f ( x | θˆ)
(17)
Nilai dari KL distance selalu positif dan sama dengan 0 bila θ = θˆ .
6.2. Probability Bit-Costing
Probability Bit-Costing[1] merupakan metode penilaian digunakan untuk mengevaluasi
model yang didapat bila tidak ada model yang terdifinisikan sebelumnya untuk data yang
dianalisa. Metode ini dipergunakan dengan membagi dataset yang sedang dianalisa menjadi
dataset training dan dataset test. Dataset training dianalisa terlebih dahulu menggunakan
metode pengelompokan data yang ditinjau. Kemudian dataset test disesuaikan dengan model
yang dipilih sebagai model terbaik untuk dataset training. Penyesuaian ini dilakukan dengan
menghitung probability bit-costing sebagai berikut:
bit − cos ting = ∑ − log( P ( xi | θ training )
(18)
i
untuk setiap data, xi, di dalam dataset test. Di sini, P( xi | θ training ) merupakan probability
untuk mendapatkan data, xi, menggunakan model, θ training , yang terpilih untuk dataset
training.
7. Hasil Ekperimen
Dalam tulisan ini, dua contoh pengimplementasian metode yang telah dikembangkan di atas
akan diulas. Contoh pertama merupakan analisa menggunakan dataset buatan. Dataset ini
dibuat dengan mengasumsikan bahwa setiap attribute di dalam setiap kelompok di-sample
dari distribusi statistik, baik distribusi Normal maupuan distribusi Student t, dengan
parameter yang telah ditentukan terlebih dahulu. Contoh kedua merupakan analisa terhadap
10
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
dataset Old Faithful Geyser yang telah dianalisa di dalam penelitian yang dipublikasikan
oleh McLachlan and Peel, 2000[7]. Penjelasan lebih lanjut mengenai masing-masing dataset
dapat dilihat pada masing-masing bagian di bawah ini.
7.1. Dataset 1
Untuk contoh ini, kami menggunakan dataset yang juga telah digunakan di dalam penelitian
yang dipublikasikan oleh Agusta dan Dowe, 2002[2] dan Agusta dan Dowe, 2002[3]. Dataset
ini merupakan dataset mixture yang terdiri dari tiga kelompok dan dua variable yang dibuat
menggunakan fungsi seperti yang diperlihatkan pada judul dari Gambar 1. Fungsi ini
merupakan kombinasi antara distribusi Normal dan Student t. Dataset ini terdiri dari 150
data dengan proporsi untuk masing-masing kelompok adalah 50:50:50. Satu contoh dari
dataset tersebut diperlihatkan pada Gambar 1.
6
4
2
0
y
-2
-4
Kelompok 1
Kelompok 2
-6
Kelompok 3
-8
-10
-8
-6
-4
-2
x
0
2
4
6
Gambar 1: 150 data dengan dua variable dalam bentuk mixture dengan tiga kelompok yang
dibuat menggunakan kombinasi distribusi Normal dan Student t:
1 / 3[ N ( µ x1 = −2.0, σ x21 = 1.0) × N ( µ y1 = −3.5, σ y21 = 1.0)] +
1 / 3[tν x2 =1.0 ( µ x2 = 0.0, σ x21 = 1.0) × N ( µ y 2 = 0.0, σ y22 = 1.0)] +
1 / 3[ N ( µ x3 = 2.0, σ x23 = 1.0) × N ( µ y3 = 3.5, σ y23 = 1.0)].
Tabel 1 mengilustrasikan sebuah contoh hasil pemodelan menggunakan metode pengolahan
data yang dikembangkan di dalam tulisan ini dengan parameter ν di dalam distribusi
Student t dianggap sebagai parameter yang telah diketahui. Pada saat data dimodel
menggunakan hanya distribusi Normal saja, model yang dihasilkan terdiri dari tiga
kelompok dengan message lebih panjang (= 2714,639 nits) daripada kedua model yang
didapat dengan menggunakan kombinasi antara distribusi Normal dan distribusi Student t.
11
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
No. Klp.
Proporsi
Att. 1
Mean
SD
DefOfF
Att. 2
Mean
SD
DegOfF
MML Gaussian dan t (v=1.0)
2709,859 nits
Klp. 1
Klp. 2
Klp. 3
0,328
0,344
0,328
--- presisi pengukuran e = 0,0001 ---2,244
-0,149
2,012
1,079
0,644
0,815
Infinity
Infinity
1,000
--- presisi pengukuran e = 0,0001 ---3,631
-0,010
3,518
0,951
0,920
0,855
Infinity
Infinity
Infinity
Tabel 1: Perbandingan antara dua hasil pengelompokan menggunkan distribusi Normal dan
Student t dimana parameter v dianggap sebagai parameter yang diketahui. (Distribusi
Normal merupakan bagian khusus dari distribusi Student t dengan v = Infinity).
Rata-rata KL Distance
1
2
Jumlah
3 true
Kelompok
4
5
MML
0,0097 ( ± 0,011)
0
0
20
0
0
AIC
0,0109 ( ± 0,011)
0
0
17
3
0
BIC
0,0122 ( ± 0,010)
0
0
17
3
0
Tabel 2: Perbandingan antara MML, AIC dan BIC untuk pemodelan dataset buatan yang
terdiri dari tiga kelompok dibuat menggunakan fungsi yang tercantum pada penjelasan
Gambar 1. Perbandingan dilakukan terhadap nilai rata-rata KL distance dan jumlah
kelompok yang dihasilkan terhadap 20 dataset buatan yang dibuat menggunakan fungsi yang
sama.
Table 2 memperlihatkan perbandingan antara pemodelan menggunakan MML, AIC dan BIC.
Di sini, dataset dibuat sebanyak 20 kali menggunakan fungsi yang disebutkan di atas. Dari
pemodelan menggunakan MML, AIC dan BIC diperoleh hasil bahwa keduapuluh dataset
buatan yang dimodel dengan MML, semuanya menghasilkan model dengan tiga kelompok.
Sedangkan AIC dan BIC masing-masing menghasilkan 17 model dengan tiga kelompok
serta 3 model dengan empat kelompok. Dilihat dari rata-rata Kullback-Leibler distance dari
model yang dihasilkan terhadap model asli yang digunakan untuk membuat data buatan ini,
didapat bahwa MML memodel dataset buatan ini lebih dekat kepada aslinya daripada AIC
dan BIC dengan rata-rata KL distance yang lebih kecil.
12
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
7.2. Dataset 2 (Old Faithful Geyser Dataset)
Old Faithful Geyser dataset terdiri dari 272 data univariate dari lama setiap semburan yang
terjadi di Old Faithful Geyser. Dataset ini dianalisa sebagai permasalahan pengelompokan
data oleh McLachlan dan Peel, 2002[6] dan Agusta and Dowe, 2002[3]. Dalam penganalisaan
ini data yang ada di-lag menjadi dataset yang terdiri dari dua variable. Kali ini, dataset
dianalisa untuk mengetahui adanya outliers atau tidak. Dalam bagian ini, dataset ini
dianalisa menggunakan metode pengelompokan data yang menggunakan kombinasi antara
distribusi Normal dan distribusi Student t. Sebagai perbandingan data dimodel juga
menggunakan metode yang menggunakan distribusi Normal saja.
Perbandingan metode yang menggunakan MML dengan metode yang menggunakan AIC
dan BIC dilakukan dengan membagi dataset aslinya menjadi dua dataset yaitu dataset
training dan dataset test dengan proporsi 244:27. Dataset training dimodel terlebih dahulu
menggunakan metode yang dianalisa dan kemudian dataset test disesuaikan dengan model
yang didapat dari dataset training tersebut. Pengevaluasian dilakukan menggunakan metode
probability bit-costing, − log( P( x)) , untuk setiap data, x, di dalam dataset test. Proses ini
diulangi 20 kali. Rata-rata probability bit-costings ketiga metode yang digunakan (MML,
AIC dan BIC) adalah masing-masing 454,940 ( ± 26,075), 455,450 ( ± 50,871) dan 509,380
( ± 91,899) nits (1 nit = log 2 e bits). Hasil ini memperlihatkan bahwa MML bekerja lebih
baik dibandingkan AIC dan BIC.
5
Previous Eruption Length
4.5
4
3.5
Component 1
3
Component 2
Component 3
2.5
Component 4
2
1.5
1.5
2
2.5
3
3.5
4
4.5
5
Eruption Length
Gambar 2: Model mixture yang terdiri dari empat kelompok sebagai model terbaik yang
ditemukan saat memodel Old Faithful Geyser dataset menggunakan metode pengelompokan
data berbasis MML. Semua attribute dari semua kelompok yang dihasilkan dimodel
13
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
menggunakan distribusi Normal. Perlu diketahui di sini bahwa semua data yang ada di
bagian kiri bawah dari gambar dimodel sebagai satu distribusi Normal.
Dalam penganalisaan lebih lanjut, dataset ini memperlihatkan hasil yang paling bagus
dengan panjang message yang terpendek saat dimodel menjadi empat kelompok dimana
masing-masing attribute pada masing-masing kelompok dimodel menggunakan distribusi
Normal saja. Gambar 2 memperlihatkan hasil pemodelan tersebut. Sedangkan, bila dataset
dimodel menggunakan metode yang mengkombinasikan distribusi Normal dan distribusi
Student t, didapat bahwa dataset ini paling bagus dimodel dengan 3 kelompok. Pemodelan
kedua ini diperlihatkan pada Gambar 3. Tetapi message yang didapat pada pemodelan yang
kedua memiliki panjang yang lebih besar daripada pemodelan pertama. Dengan kata lain,
pemodelan pertama memang lebih tepat dibandingkan dengan pemodelan kedua.
5
Previous Eruption Length
4.5
4
3.5
Component 1
Component 2
Component 3
3
2.5
2
1.5
1.5
2
2.5
3
3.5
Eruption Length
4
4.5
5
Gambar 3: Hasil pemodelan dari Old Faithful Geyser dataset menggunakan metode
pengelompokan data yang dikembangkan dalam tulisan ini. Di sini keenam data yang
terletak di kiri bawah dimodel sebagai outliers dari attribute kedua dari kelompok ketiga.
8. Kesimpulan
Sebagai kesimpulan, tulisan ini mengajak pembaca untuk memahami pengembangan metode
mixture modelling menggunakan prinsip Minimum Message Length (MML) dimana data
yang diolah merupakan data kontinyu univariate/multivariate tidak berkorelasi dan
keberadaan outliers di dalam kelompok yang dihasilkan juga diobservasi. Perbandingan
14
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
antara metode pengelompokan data menggunakan MML ini juga dibandingkan dengan teori
alternatif lain seperti Maximum Likelihood (ML), Akaike Information Criterion (AIC) serta
Schwarz’s Bayesian Information Criterion (BIC). Eksperimen menunjukkan MML bekerja
lebih baik dalam menentukan jumlah kelompok dari data yang dianalisa dan dalam
penganalisaan data buatan (Bagian 7.1.) dapat dilihat bahwa MML memodel data buatan
tersebut lebih dekat pada model aslinya dibandingkan AIC dan BIC dengan KullbackLeibler distance yang lebih kecil dibandingkan kedua metode alternatif yang ditinjau. Dalam
penganalisaan real-data Old Faithful Geyser, MML juga menunjukkan hasil yang sama
dengan probability bit-costing yang lebih kecil daripada AIC dan BIC.
Daftar Pustaka
[1] Agusta, Y. (2004). Minimum Message Length Mixture Modelling for Uncorrelated and
Correlated Continuous Data Applied to Mutual Funds Classification, Ph.D. Thesis,
School of Computer Science and Software Engineering, Monash University, Clayton,
3800 Australia
[2] Agusta, Y. and Dowe, D.L. (2002a). MML Clustering of Continuous-Valued Data
using Gaussian and t Distributions, in B. McKay and J. Slaney (eds), Lecture Notes in
Artificial Intelligence 2557, Proceedings of the 15th Australian Joint Conference on
Artificial Intelligence (AI02), Springer-Verlag, Berlin, Germany, pp. 143-154
[3] Agusta, Y and Dowe, D.L. (2002b). Clustering of Gaussian and t Distribution using
Minimum Message Length, in M. Sasikumar, H. J. Jayprasad and M. Kavitha (eds),
Artificial Intelligence: Theory and Practice, Proceedings of the International
Conference Knowledge-Based Computer Systems (KBCS-2002), Vikas Publishing
House Pvt. LTD., New Delhi, India, pp. 289-299.
[4] Akaike, H. (1974). A New Look at the Statistical Model Identification, IEEE
Transaction on Automatic Control AC-19(6): 716-723.
[5] Cheeseman, P. and Stutz, J. (1996). Bayesian Classification (AutoClass): Theory and
Results, in U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth and R. Uthurusamy (eds),
Advances in Knowledge Discovery and Data Mining, AAAI Press/MIT Press,
Cambridge, MA, pp. 153-180.
[6] Fraley, C. and Raftery, A. E. (1998). MCLUST: Software for Model-Based Cluster and
Discriminant Analysis, Technical Report 342, Department of Statistics, University of
Washington, Box 354322, Seattle, WA, USA.
[7] McLachlan, G.J. and Peel, D. (2202a). On Computational Aspects of Clustering via
Mixtures of Normal and t-Components, Proceedings of the American Statistical
Association (Bayesian Statistical Science Section), Indianapolis, Alexandria, Virginia.
[8] McLachlan, G.J. and Peel, D. (2002b). Finite Mixture Models, John Wiley and Sons,
New York.
[9] McLachlan, G. J., Peel, D., Basford, K. E. and Adams, P. (1999). The EMMIX
Software for the Fitting of Mixtures of Normal and t-Components, Journal of Statistical
Software 4(2): 1087-1092.
15
Jurnal Sistem dan Informatika Vol. 1 (Agustus 2005), 1 - 16
[10] Neal, R. M. (1991). Bayesian Mixture Modeling by Monte Carlo Simulation, Technical
Report CRG-TR-91-2, Department of Computer Science, University of Toronto,
Toronto, Canada.
[11] Schwarz, G. (1978). Estimating the Dimension of a Model, The Annals of Statistics 6:
461 – 464.
[12] Shannon, C. E. (1948). A Mathematical Theori of Communication, Bell System Tech.
Journal 27: 379-423.
[13] Wallace, C. S. (1986). An Improved Program for Classification, Proceedings of the 9th
Australian Computer Science Conference (ACSC-9), Vol. 8, Monash University,
Australia, pp. 357-366.
[14] Wallace, C. S. and Boulton, D. M. (1968). An Information Measure for Classification,
Computer Journal 11(2): 185-194.
[15] Wallace, C. S. and Dowe D. L. (1994). Intrinsic Classification by MML – the Snob
Program, Proceedings of the 7th Autralian Joint Conference on Artificial Intelligence
(AI94), World Scientific, Singapore, pp. 37-44.
[16] Wallace, C. S. and Dowe, D. L. (1997). MML Mixture Modelling of Multi-State,
Poisson, von Mises Circular and Gaussian Distribusions, Proceedings of the 6th
International Workshop on Artificial Intelligence and Statistics, Fort Launderdale,
Florida, pp. 529-536.
[17] Wallace, C. S. and Dowe, D. L. (2000). MML Clustering of Multi-state, Poisson, von
Mises Circular and Gaussian Distributions, Statistics and Computing 10: 73-83.
[18] Wallace, C. S. and Freeman, P. R. (1987). Estimation and Inference by Compact
Coding, Journal of the Royal Statistical Society B 49(3): 240-265.
16
Download