(061) Pudji Is

advertisement
Seminar Nasional Statistika IX
Institut Teknologi Sepuluh Nopember, 7 November 2009
ESTIMATION METHODS ISSUES IN MULTILEVEL MODEL FOR
HIERARCHICAL DATA ANALYSIS
Pudji Ismartini1), Susanti Linuwih2), Setiawan2) , Brodjol Sutijo Supri Ulama2)
1
Mahasiswa S3 pada Jurusan Statistika FMIPA-ITS
Staf Pengajar pada Jurusan Statistika FMIPA-ITS
Departement of Statistics FMIPA-ITS
Kampus ITS Sukolilo Gedung U Lantai 2 Surabaya 60111
Telp : (031) 5943352 Fax : (031) 5922940
[email protected]
2
Email : [email protected]
ABSTRACT
Data in sosial research is often view as hierarchical data structure, with
individuals and groups defined at separate levels of this hierarchical systems. The
problem of this hieararchical data type is the individual observations are in
general not independents. Uni-level analysis methods are not appropriate for the
analysis of such hierarchical data. Multilevel models are statistical methods which
specifically analyze data that have hierarchical structure. However, there are
some problems occur in the practice of multilevel modelling (i.e. sample size of
the second level and normality assumption). Those problems lead to a biased
estimator of the standard error at the second level. To overcome the constraint in
multilevel model, a suitable estimation technique should be selected. Previous
studies in multilevel models use different estimation methods (e.g. Maximum
Likelihood Estimator, Bootstrap Estimator and Sandwich Estimator). The
comparison between those estimation techniques can be used as a basis for
estimation technique selection which appropriate for particular research that have
hierarchical data structure.
KEY WORDS: Hierarchical Data; Multilevel model; Estimation Methods;
Sample Size; Normality Assumption.
Pendahuluan
Data di bidang sosial pada umumnya mempunyai struktur yang berhirarki, dimana
data dapat diklasifikasikan dalam tingkatan yang berbeda yaitu data individu dan
data komunitas (kelompok). Metode standar dengan menggunakan unilevel
analisis tidak tepat digunakan untuk menganalisa data berhirarki ini, walaupun
data yang digunakan dalam analisis hanya data pada level terendah saja yaitu data
1
individu. Hal ini disebabkan karena pada umumnya observasi untuk data tersebut
tidak independen dan tidak memenuhi asumsi distribusi yang identik. Penggunaan
metode unilevel analisis pada data berhirarki tersebut akan menghasilkan penduga
yang tidak efisien dan standar error yang bias.
Multilevel model merupakan teknik analisis yang baik untuk data berhirarki.
Namun demikian ada keterbatasan pada analisis multilevel model ini yaitu asumsi
kenormalan dan besarnya sampel pada setiap tingkatan. Pada prakteknya,
besarnya sampel kelompok lebih kecil dibandingkan dengan besarnya sampel
individu. Multilevel model memerlukan sampel yang lebih besar pada tingkat
kelompok dibandingkan dengan sampel pada tingkat individu. Hal ini dapat
menjadi kendala dalam menentukan metode estimasi yang tepat dengan
keterbatasan yang ada.
Terdapat beberapa metode estimasi yang dapat digunakan pada model multilevel.
Masing-masing metode tersebut memiliki kelebihan dan kekurangan. Makalah ini
akan mengulas beberapa alternatif metode estimasi yang dapat digunakan pada
analisis multilevel model sehubungan dengan keterbatasan pada model multilevel.
Model Regresi Multilevel
Model regresi multilevel digunakan untuk data dengan struktur hirarki dimana
respon variabelnya diukur pada tingkat terendah. Sesuai dengan konsep
multilevel, model regresi multilevel akan menghasilkan persamaan regresi yang
bertingkat. Secara umum pembentukan model persamaan regresi dua tingkat
adalah sebagai berikut. Jika terdapat J kelompok dengan banyaknya individu pada
setiap kelompok adalah Nj.. Selanjutnya pada tingkat terendah (individu) terdapat
dependen Yij dan variabel penjelas Zij. Maka persamaan regresi yang dapat
dibentuk untuk masing-masing kelompok adalah :
dimana
, Zj adalah matriks variabel penjelas berukurn Nj x q ,
adalah vektor koefisien regresi berukuran q x 1 dan
error vektor.
2
adalah
Jika βj adalah vektor dari random koefisien regresi yang variasinya dijelaskan
oleh variabel penjelas
pada tingkat kedua (kelompok), maka model antar
kelompok yang dapat dibentuk adalah sebagai berikut:
dimana
adalah matriks variabel penjelas (termasuk konstanta) pada tingkat
kedua dengan ukuran q x p .
adalah vektor koefisien konstan dan
adalah error
vektor berukuran q x 1.
Substitusi dari persamaan diatas menghasilkan persamaan umum untuk model
regresi dua tahap yaitu :
dimana
. Fix komponen dari persamaan diatas adalah
sedangkan random komponen dari persamaan regresi dua tahap adalah
Dengan asumsi
dan
dimana
.
( error varians
pada tingkat pertama) merupakan skalar parameter yang tidak diketahui dan θ
adalah error kovarians matriks pada level kedua. Jadi setiap tingkat pada model
multilevel akan menghasilkan error masing-masing.
Vj adalah kovarians matrik dari dari random komponen yj bersyarat terhadap Xj
dan Zj.
Permasalahan yang sering muncul pada analisis data multilevel adalah
keterbatasan jumlah sampel pada setiap tingkatan. Dalam analisis regresi
multilevel, banyaknya sampel kelompok lebih penting dibandingkan banyaknya
sampel individu. Oleh karena itu idealnya diperoleh sampel yang besar di tingkat
kelompok dibandingkan sampel yang besar di tingkat individu. Akan tetapi pada
prakteknya hal ini sulit ditemui. Besarnya sampel ini akan berpengaruh terhadap
penentuan metode estimasi yang akan digunakan dalam analisis regresi multilevel.
3
Hal ini disebabkan karena beberapa metode estimasi sangat sensitif terhadap
besarnya sampel dan asumsi kenormalan.
Maksimum Likelihood Estimator
Metode Maximum Likelihood Estimator (MLE) memerlukan asumsi residualnya
berdistribusi normal independen dengan jumlah sampel yang cukup besar. Jika
asumsi kenormalan dan besarnya sampel tidak terpenuhi,
maka MLE akan
menghasilkan estimasi parameter yang tidak bias akan tetapi standar error yang
dihasilkan akan negatif (Van Der Leeden dan Busing (1997)).
Estimasi dengan metode Full Information Maximum Likelihood (FIML) diperoleh
dengan meminimalkan fungsi dari minus likelihoodnya.
Apabila asumsi kenormalan tidak terpenuhi dan jumlah sampel tidak mencukupi
maka estimasi dengan menggunakan maximum likelihood akan menghasilkan
varians komponen yang bias negatif sedangkan estimasi fix parameternya relative
tidak bias.
Batasan besarnya sampel yang dibutuhkan pada tingkat kelompok masih
diperdebatkan. Penelitian yang dilakukan oleh Busing (1993), Van Der Leeden
dan Busing (1994) (Van Der Leeden dan Busing (1997)) menyatakan untuk
memperoleh estimasi varians kelompok dengan tingkat akurasi yang tinggi
banyaknya kelompok yang dibutuhkan paling sedikit 100 kelompok. Sementara
Brown dan Draper (2000) (Van Der Leeden dan Busing (1997)) berpendapat
besarnya sampel kelompok yang dibutuhkan berkisar antara enam sampai
duabelas.
Bootstrap Estimator
Metode Bootstrap dapat digunakan untuk melakukan estimasi besarnya bias dan
varians dari suatu estimasi parameter dengan keterbatasan pemenuhan asumsi
umum yang harus dipenuhi dalam suatu pendugaan parameter. Sehingga pada
4
akhirnya dapat diperoleh hasil estimasi yang sudah terkoreksi dari estimasi
biasnya.
dimana b = 1,2,…,B diambil
Jika B adalah sampel bootstrap
dengan pengembalian dari
(dari
). Pada setiap sampel B,
dilakukan estimasi terhadap parameter θ sehingga diperoleh estimasi sebanyak B
yaitu
dimana b= 1,2,…,B.
Estimasi θ yang sudah terkoreksi adalah
Beberapa jenis metode Bootstrap yang dapat diterapkan pada multilevel model
adalah Parametric Bootstrap, Residual Bootstrap dan Cases Bootstrap. Perbedaan
diantara ketiga jenis Bootstrap ini didasarkan pada asumsi yang harus dipenuhi.
Parametric Bootstrap memerlukan asumsi yang ketat yaitu variabel
penjelasnya merupakan komponen yang fix, spesifikasi model dan
distribusi yang sesuai. Hasil yang diperoleh dari metode Parametric
Bootstrap ini hampir sama dengan hasil yang diperoleh dari metode FIML.
Residual Bootstrap memerlukan asumsi yang tidak terlalu ketat yaitu
variabel penjelasnya merupakan komponen yang fix, dengan spesifikasi
model yang sesuai (homoskedastik).
Cases Bootstrap memerlukan asumsi yang minimal yaitu struktur hirarki
dari data harus benar.
Hasil estimasi terhadap random komponen pada tingkat pertama dan tingkat
kedua, Residual Bootstrap memberikan hasil yang lebih baik dibandingkan
FIML dan metode Bootstrap lainnya. Dalam hal estimasi standar error dari
metode Bootstrap dan FIML menghasilkan bias yang sama-sama cukup besar.
Cases Bootstrap menghasilkan bias dan MSE yang terkecil dibandingkan
5
metode FIML dan metode Bootstrap lainnya (Van Der Leeden and Busing
(1997)).
Residual Bootstrap cukup baik digunakan untuk sampel kecil (khususnya
sampel pada tingkat kedua) dan asumsi kenormalan untuk distribusi errornya
tidak terpenuhi. Metode ini dapat menghasilkan estimasi yang tidak bias untuk
komponen varians untuk kedua tingkat data dengan MSE yang relatif rendah.
Sandwich Estimator
Sandwich estimator ini sering disebut pula sebagai Huber/White estimator.
Pada metode maksimum likelihood, estimasi matrik varians kovarians untuk
koefisien regresinya adalah
Sedangkan pada sandwich estimator adalah sebagai berikut
Dimana
adalah asymptotic kovarians matrik dari koefisien regresi, H
adalah Hessian Matrik, VR adalah robust kovarians matrik untuk koefisien
regresi dan C adalah matrik koreksi yang diperoleh dari perkalian dari matrik
errornya.
Sandwich estimator ini tidak terlalu tergantung kepada asumsi kenormalan.
Jika asumsi kenormalan dari error terpenuhi, metode MLE menghasilkan
estimasi yang lebih efisien dibandingkan sandwich estimator. Tetapi apabila
asumsi kenormalan tidak terpenuhi, sandwich estimator tetap akan
menghasilkan estimasi yang konsisten sedangkan MLE menghasilkan estimasi
yang tidak akurat dan tidak konsisten
Kesimpulan
Bootstrap estimator dapat digunakan sebagai alternatif metode estimasi dalam
analisis model multilevel apabila asumsi kenormalan tidak terpenuhi dan
sampel pada tingkat kedua tidak terlalu besar
6
Daftar Pustaka
Goldstein, H., 1995. Multilevel Statistical Models, Edward Arnold, London.
Hox, J.J., 1995. Applied Multilevel Analysis, TT-Publikaties, Amsterdam.
Hox, J.J., 1998. Multilevel Modeling : When and Why, in: I. Balderjahn, R.
Mathar and M. Schader (eds), Classification, data analysis and data
highways, Springer Verlag, NewYork, 147-154.
Maas, C. J. M. H., dan Hox, J.J. ,2004. Robustness Issues in Multilevel
Regression Analysis, Statistica Neerlandica, vol. 58, nr. 2, 127-137.
Van der Leeden, R., Busing, F. M. T. A., dan Meijer, E., 1997. Bootstrap
Methods for Two Level Model, Paper, Multilevel Conference,
Amsterdam, April 1-2, 1997.
7
Download