Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009 ESTIMATION METHODS ISSUES IN MULTILEVEL MODEL FOR HIERARCHICAL DATA ANALYSIS Pudji Ismartini1), Susanti Linuwih2), Setiawan2) , Brodjol Sutijo Supri Ulama2) 1 Mahasiswa S3 pada Jurusan Statistika FMIPA-ITS Staf Pengajar pada Jurusan Statistika FMIPA-ITS Departement of Statistics FMIPA-ITS Kampus ITS Sukolilo Gedung U Lantai 2 Surabaya 60111 Telp : (031) 5943352 Fax : (031) 5922940 [email protected] 2 Email : [email protected] ABSTRACT Data in sosial research is often view as hierarchical data structure, with individuals and groups defined at separate levels of this hierarchical systems. The problem of this hieararchical data type is the individual observations are in general not independents. Uni-level analysis methods are not appropriate for the analysis of such hierarchical data. Multilevel models are statistical methods which specifically analyze data that have hierarchical structure. However, there are some problems occur in the practice of multilevel modelling (i.e. sample size of the second level and normality assumption). Those problems lead to a biased estimator of the standard error at the second level. To overcome the constraint in multilevel model, a suitable estimation technique should be selected. Previous studies in multilevel models use different estimation methods (e.g. Maximum Likelihood Estimator, Bootstrap Estimator and Sandwich Estimator). The comparison between those estimation techniques can be used as a basis for estimation technique selection which appropriate for particular research that have hierarchical data structure. KEY WORDS: Hierarchical Data; Multilevel model; Estimation Methods; Sample Size; Normality Assumption. Pendahuluan Data di bidang sosial pada umumnya mempunyai struktur yang berhirarki, dimana data dapat diklasifikasikan dalam tingkatan yang berbeda yaitu data individu dan data komunitas (kelompok). Metode standar dengan menggunakan unilevel analisis tidak tepat digunakan untuk menganalisa data berhirarki ini, walaupun data yang digunakan dalam analisis hanya data pada level terendah saja yaitu data 1 individu. Hal ini disebabkan karena pada umumnya observasi untuk data tersebut tidak independen dan tidak memenuhi asumsi distribusi yang identik. Penggunaan metode unilevel analisis pada data berhirarki tersebut akan menghasilkan penduga yang tidak efisien dan standar error yang bias. Multilevel model merupakan teknik analisis yang baik untuk data berhirarki. Namun demikian ada keterbatasan pada analisis multilevel model ini yaitu asumsi kenormalan dan besarnya sampel pada setiap tingkatan. Pada prakteknya, besarnya sampel kelompok lebih kecil dibandingkan dengan besarnya sampel individu. Multilevel model memerlukan sampel yang lebih besar pada tingkat kelompok dibandingkan dengan sampel pada tingkat individu. Hal ini dapat menjadi kendala dalam menentukan metode estimasi yang tepat dengan keterbatasan yang ada. Terdapat beberapa metode estimasi yang dapat digunakan pada model multilevel. Masing-masing metode tersebut memiliki kelebihan dan kekurangan. Makalah ini akan mengulas beberapa alternatif metode estimasi yang dapat digunakan pada analisis multilevel model sehubungan dengan keterbatasan pada model multilevel. Model Regresi Multilevel Model regresi multilevel digunakan untuk data dengan struktur hirarki dimana respon variabelnya diukur pada tingkat terendah. Sesuai dengan konsep multilevel, model regresi multilevel akan menghasilkan persamaan regresi yang bertingkat. Secara umum pembentukan model persamaan regresi dua tingkat adalah sebagai berikut. Jika terdapat J kelompok dengan banyaknya individu pada setiap kelompok adalah Nj.. Selanjutnya pada tingkat terendah (individu) terdapat dependen Yij dan variabel penjelas Zij. Maka persamaan regresi yang dapat dibentuk untuk masing-masing kelompok adalah : dimana , Zj adalah matriks variabel penjelas berukurn Nj x q , adalah vektor koefisien regresi berukuran q x 1 dan error vektor. 2 adalah Jika βj adalah vektor dari random koefisien regresi yang variasinya dijelaskan oleh variabel penjelas pada tingkat kedua (kelompok), maka model antar kelompok yang dapat dibentuk adalah sebagai berikut: dimana adalah matriks variabel penjelas (termasuk konstanta) pada tingkat kedua dengan ukuran q x p . adalah vektor koefisien konstan dan adalah error vektor berukuran q x 1. Substitusi dari persamaan diatas menghasilkan persamaan umum untuk model regresi dua tahap yaitu : dimana . Fix komponen dari persamaan diatas adalah sedangkan random komponen dari persamaan regresi dua tahap adalah Dengan asumsi dan dimana . ( error varians pada tingkat pertama) merupakan skalar parameter yang tidak diketahui dan θ adalah error kovarians matriks pada level kedua. Jadi setiap tingkat pada model multilevel akan menghasilkan error masing-masing. Vj adalah kovarians matrik dari dari random komponen yj bersyarat terhadap Xj dan Zj. Permasalahan yang sering muncul pada analisis data multilevel adalah keterbatasan jumlah sampel pada setiap tingkatan. Dalam analisis regresi multilevel, banyaknya sampel kelompok lebih penting dibandingkan banyaknya sampel individu. Oleh karena itu idealnya diperoleh sampel yang besar di tingkat kelompok dibandingkan sampel yang besar di tingkat individu. Akan tetapi pada prakteknya hal ini sulit ditemui. Besarnya sampel ini akan berpengaruh terhadap penentuan metode estimasi yang akan digunakan dalam analisis regresi multilevel. 3 Hal ini disebabkan karena beberapa metode estimasi sangat sensitif terhadap besarnya sampel dan asumsi kenormalan. Maksimum Likelihood Estimator Metode Maximum Likelihood Estimator (MLE) memerlukan asumsi residualnya berdistribusi normal independen dengan jumlah sampel yang cukup besar. Jika asumsi kenormalan dan besarnya sampel tidak terpenuhi, maka MLE akan menghasilkan estimasi parameter yang tidak bias akan tetapi standar error yang dihasilkan akan negatif (Van Der Leeden dan Busing (1997)). Estimasi dengan metode Full Information Maximum Likelihood (FIML) diperoleh dengan meminimalkan fungsi dari minus likelihoodnya. Apabila asumsi kenormalan tidak terpenuhi dan jumlah sampel tidak mencukupi maka estimasi dengan menggunakan maximum likelihood akan menghasilkan varians komponen yang bias negatif sedangkan estimasi fix parameternya relative tidak bias. Batasan besarnya sampel yang dibutuhkan pada tingkat kelompok masih diperdebatkan. Penelitian yang dilakukan oleh Busing (1993), Van Der Leeden dan Busing (1994) (Van Der Leeden dan Busing (1997)) menyatakan untuk memperoleh estimasi varians kelompok dengan tingkat akurasi yang tinggi banyaknya kelompok yang dibutuhkan paling sedikit 100 kelompok. Sementara Brown dan Draper (2000) (Van Der Leeden dan Busing (1997)) berpendapat besarnya sampel kelompok yang dibutuhkan berkisar antara enam sampai duabelas. Bootstrap Estimator Metode Bootstrap dapat digunakan untuk melakukan estimasi besarnya bias dan varians dari suatu estimasi parameter dengan keterbatasan pemenuhan asumsi umum yang harus dipenuhi dalam suatu pendugaan parameter. Sehingga pada 4 akhirnya dapat diperoleh hasil estimasi yang sudah terkoreksi dari estimasi biasnya. dimana b = 1,2,…,B diambil Jika B adalah sampel bootstrap dengan pengembalian dari (dari ). Pada setiap sampel B, dilakukan estimasi terhadap parameter θ sehingga diperoleh estimasi sebanyak B yaitu dimana b= 1,2,…,B. Estimasi θ yang sudah terkoreksi adalah Beberapa jenis metode Bootstrap yang dapat diterapkan pada multilevel model adalah Parametric Bootstrap, Residual Bootstrap dan Cases Bootstrap. Perbedaan diantara ketiga jenis Bootstrap ini didasarkan pada asumsi yang harus dipenuhi. Parametric Bootstrap memerlukan asumsi yang ketat yaitu variabel penjelasnya merupakan komponen yang fix, spesifikasi model dan distribusi yang sesuai. Hasil yang diperoleh dari metode Parametric Bootstrap ini hampir sama dengan hasil yang diperoleh dari metode FIML. Residual Bootstrap memerlukan asumsi yang tidak terlalu ketat yaitu variabel penjelasnya merupakan komponen yang fix, dengan spesifikasi model yang sesuai (homoskedastik). Cases Bootstrap memerlukan asumsi yang minimal yaitu struktur hirarki dari data harus benar. Hasil estimasi terhadap random komponen pada tingkat pertama dan tingkat kedua, Residual Bootstrap memberikan hasil yang lebih baik dibandingkan FIML dan metode Bootstrap lainnya. Dalam hal estimasi standar error dari metode Bootstrap dan FIML menghasilkan bias yang sama-sama cukup besar. Cases Bootstrap menghasilkan bias dan MSE yang terkecil dibandingkan 5 metode FIML dan metode Bootstrap lainnya (Van Der Leeden and Busing (1997)). Residual Bootstrap cukup baik digunakan untuk sampel kecil (khususnya sampel pada tingkat kedua) dan asumsi kenormalan untuk distribusi errornya tidak terpenuhi. Metode ini dapat menghasilkan estimasi yang tidak bias untuk komponen varians untuk kedua tingkat data dengan MSE yang relatif rendah. Sandwich Estimator Sandwich estimator ini sering disebut pula sebagai Huber/White estimator. Pada metode maksimum likelihood, estimasi matrik varians kovarians untuk koefisien regresinya adalah Sedangkan pada sandwich estimator adalah sebagai berikut Dimana adalah asymptotic kovarians matrik dari koefisien regresi, H adalah Hessian Matrik, VR adalah robust kovarians matrik untuk koefisien regresi dan C adalah matrik koreksi yang diperoleh dari perkalian dari matrik errornya. Sandwich estimator ini tidak terlalu tergantung kepada asumsi kenormalan. Jika asumsi kenormalan dari error terpenuhi, metode MLE menghasilkan estimasi yang lebih efisien dibandingkan sandwich estimator. Tetapi apabila asumsi kenormalan tidak terpenuhi, sandwich estimator tetap akan menghasilkan estimasi yang konsisten sedangkan MLE menghasilkan estimasi yang tidak akurat dan tidak konsisten Kesimpulan Bootstrap estimator dapat digunakan sebagai alternatif metode estimasi dalam analisis model multilevel apabila asumsi kenormalan tidak terpenuhi dan sampel pada tingkat kedua tidak terlalu besar 6 Daftar Pustaka Goldstein, H., 1995. Multilevel Statistical Models, Edward Arnold, London. Hox, J.J., 1995. Applied Multilevel Analysis, TT-Publikaties, Amsterdam. Hox, J.J., 1998. Multilevel Modeling : When and Why, in: I. Balderjahn, R. Mathar and M. Schader (eds), Classification, data analysis and data highways, Springer Verlag, NewYork, 147-154. Maas, C. J. M. H., dan Hox, J.J. ,2004. Robustness Issues in Multilevel Regression Analysis, Statistica Neerlandica, vol. 58, nr. 2, 127-137. Van der Leeden, R., Busing, F. M. T. A., dan Meijer, E., 1997. Bootstrap Methods for Two Level Model, Paper, Multilevel Conference, Amsterdam, April 1-2, 1997. 7