Pemodelan Regresi Tiga Level pada Data

advertisement
1
PENDAHULUAN
Latar Belakang
Pada kehidupan sehari-hari sering kali
dijumpai data yang memiliki struktur
berjenjang (hierarchical) atau berkelompok
(clustered).
Pada
struktur
berjenjang,
individu-individu dalam kelompok yang sama
memiliki karakteristik yang cenderung mirip,
dengan kata lain antar amatan pada level yang
lebih rendah tidak saling bebas, sehingga
melanggar
asumsi
kebebasan
dalam
pendekatan statistika konvensional, misalnya
regresi linear sederhana satu level. Jika
pelanggaran asumsi ini diabaikan maka akan
mengakibatkan nilai dugaan galat baku
koefisien regresi berbias ke bawah sehingga
akan banyak ditemukan hubungan yang
signifikan secara statistik dalam pengujian
hipotesis. Hal inilah yang menjadi salah satu
alasan mengapa diperlukan analisis multilevel
pada data berjenjang (www.tramss.dataarchive.ac.uk).
Salah satu jenis data berjenjang adalah
data pengamatan berulang. Dikatakan data
pengamatan berulang jika peubah responnya
diukur secara berulang pada unit analisis
yang sama berdasarkan faktor pengamatan
yang berbeda. Salah satu contoh dari faktor
pengamatan yang berbeda adalah waktu.
Setiap unit amatan yang sama akan diamati
secara berulang berdasarkan waktu yang
berbeda-beda. Secara alamiah, pengamatan
yang diukur secara berulang pada individu
yang sama memiliki keterkaitan (tidak saling
bebas).
Metode Statistika (STK211) merupakan
mata kuliah interdep yang berada di bawah
naungan
Departemen
Statistika
sejak
berlakunya sistem Mayor-Minor di IPB tahun
2005. Pada tahun 2008/2009, kelas paralel
mata kuliah Metode Statistika mencapai lebih
dari 30 kelas paralel. Pada umumnya setiap
kelas paralel terdiri dari satu departemen dan
kelas-kelas tersebut di bawah tanggung jawab
dosen Departemen Statistika ataupun dosen
departemen lain yang sudah terbiasa mengajar
mata kuliah ini. Setiap kelas paralel terdiri
dari sejumlah mahasiswa dan setiap
mahasiswa memiliki nilai ujian yang
dilakukan pada beberapa titik waktu. Pada
umumnya setiap mata kuliah diuji pada dua
titik waktu yaitu pada saat ujian tengah
semester (UTS) dan ujian akhir semester
(UAS). Namun ada pula dosen yang
memberikan ujian sampai tiga ataupun empat
waktu. Oleh Karena itu data nilai capaian
mahasiswa pada mata kuliah Metode
Statistika memiliki struktur data berjenjang
pengamatan
berulang
dengan
faktor
pengamatan berulang yang digunakan adalah
waktu ujian.
Selain struktur datanya berjenjang,
banyaknya kelas paralel yang terdiri dari
mahasiswa dengan IPK TPB yang berbedabeda diduga menimbulkan keragaman dalam
capaian nilai mahasiswa dalam mata kuliah
ini. Demikian pula faktor jenis kelamin, asal
daerah, serta jumlah mahasiswa per kelas.
Berdasarkan permasalahan di atas, akan
dilakukan pemodelan regresi tiga level pada
data pengamatan berulang. Nilai amatan
berulang sebagai level kesatu yang tersarang
pada level kedua (mahasiswa) tersarang pada
level ketiga (kelas paralel).
Tujuan
Penelitian ini bertujuan untuk:
1. Mengkaji penerapan model regresi tiga
level data pengamatan berulang untuk
menganalisis hubungan antara capaian
mahasiswa dalam mata kuliah Metode
Statistika dengan faktor-faktor yang
mempengaruhinya.
2. Mencari faktor-faktor yang berpengaruh
dalam keragaman capaian mahasiswa
untuk mata kuliah Metode Statistika, baik
pada level kesatu, kedua (mahasiswa)
maupun pada level ketiga (kelas paralel).
3. Menduga komponen-komponen ragam
capaian mahasiswa dalam mata kuliah
Metode Statistika.
TINJAUAN PUSTAKA
Data Kelompok dan Data Pengamatan
Berulang
Data kelompok merupakan data dimana
peubah responnya diukur hanya satu kali pada
setiap satuan analisis pada level terendah.
Setiap satuan analisis pada data ini tersarang
dalam unit kelompok sebagai level yang lebih
tinggi.
Sebuah data dikatakan data pengamatan
berulang jika peubah respon diukur lebih dari
satu kali pengamatan pada satuan analisis
yang sama dengan memberikan faktor
pengamatan yang berbeda. Faktor pengamatan
berulang dapat berupa waktu, perlakuan
percobaan atau berupa kondisi observasi.
(West et al., 2007).
Pemodelan Multilevel
Struktur
multilevel
mengindikasikan
bahwa data yang akan dianalisis berasal dari
beberapa level, dimana level yang lebih
2
rendah tersarang dalam level yang lebih
tinggi.
Pemodelan multilevel merupakan
suatu pemodelan statistik untuk menduga
hubungan antar peubah yang diamati pada
level-level yang berbeda dalam struktur data
berjenjang.
1. Model Regresi Tiga Level dengan
Pengamatan Berulang
Analisis regresi mengkaji pola
hubungan antara satu peubah respon
dengan satu atau lebih peubah penjelas.
Jika datanya memiliki struktur berjenjang
atau mengandung data pengamatan
berulang
yang
berjenjang,
regresi
multilevel lebih tepat digunakan dalam
masalah ini. Pada regresi multilevel, satu
peubah respon hanya diukur pada level
terendah dan peubah penjelas dapat berada
pada semua level. Secara konseptual,
model dipandang sebagai suatu sistem
berjenjang dari persamaan-persamaan
regresi.
Jika Ytij merupakan peubah respon
dalam waktu ke-t pada mahasiswa ke-i dan
pada kelas paralel ke-j, dan diasumsikan
setiap level memiliki satu peubah penjelas
dengan intersep dan kemiringan acak,
maka model regresi tiga level pada data
pengamatan
berulang
dapat
diformulasikan sebagai berikut:
Model Level 1 (Pengamatan Berulang)
Ytij = β0ij + β1ij Ttij +
tij
Model Level 2 (Mahasiswa)
β0ij = β00j + β01j Vti + u0ij
β1ij = β10j + β11j Vti + u1ij
Model Level 3 (Kelas Paralel)
β00j = β000 + β001 Zt + w00j
β01j = β010 + β011 Zt + w01j
β10j = β100 + β101 Zt + w10j
β11j = β110 + β111 Zt + w11j
Ketiga model di atas dapat digabung
menjadi model regresi tiga level sebagai
berikut:
Ytij = β000 + β001 Zt + β010 Vti + β100 Ttij +
β011 Zt Vti + β101 Zt Ttij + β110 Vti Ttij +
β111 Zt Vti Ttij + w01j Vti + w10j Ttij +
w11j Vti Ttij + u1ij Ttij + w00j+ u0ij + tij
dimana t=1,2,...,nij. i=1,2,..,nj, dan
merupakan
j=1,2,..,n. Indeks nij
banyaknya pengamatan berulang pada
mahasiswa ke–i dalam kelas ke–j. Dalam
model tersebut T adalah peubah penjelas
pada level satu, V merupakan peubah
penjelas pada level dua, dan Z merupakan
peubah penjelas pada level tiga. Meskipun
demikian, pada pemodelan multilevel tidak
diharuskan kehadiran peubah penjelas
pada setiap levelnya. Tantular (2009)
misalnya, hanya menggunakan satu
peubah penjelas pada level terendah dalam
analisis regresi tiga level tanpa
pengamatan berulang, dan tidak ada
peubah penjelas pada level kedua dan
ketiga.
Secara umum model regresi multilevel
dapat diformulasikan melalui catatan
matriks dan vektor dalam bentuk model
linear
campuran
(Linear
Mixed
Model/LMM) sebagai berikut: (West et
al., 2007)
y = X β + Z u+ ε
Tetap Acak
u ~ N (0, G) dan ε ~ N (0, R)
dimana y merupakan peubah respon
berukuran nx1, dimana n merupakan
jumlah dari nij. X adalah matriks rancangan
untuk efek tetap dan Z adalah matriks
rancangan untuk afek acak. β adalah
parameter efek tetap, sedangkan u dan ε
masing-masing
merupakan
vektor
G
parameter efek acak dan sisaan..
merupakan matriks blok diagonal yang
merepresentasikan ragam koragam untuk
semua efek acak dalam u, dan R adalah
matriks
blok
diagonal
yang
merepresentasikan matriks ragam koragam
untuk semua sisaan dalam ε. Matriks G
dan R keduanya merupakan matriks
simetrik dan definit positif. Dalam model
dengan pengamatan berulang, sisaan
dalam individu yang sama dapat
ε
berkorelasi, namun antara u dan
diasumsikan saling bebas.
2. Pendugaan Parameter
Pendugaan parameter (koefisien regresi
dan komponen ragam) yang umum
digunakan pada pemodelan multilevel
adalah metode kemungkinan maximum
likelihood (ML) atau Restricted Maximum
Likelihood (REML).
3
3. Pendugaan Koefisien Korelasi Intraklas
Jika kita mempunyai data dengan
struktur berjenjang yang sederhana, maka
regresi multilevel dapat digunakan untuk
memberikan nilai dugaan bagi korelasi
intraklas. Korelasi intraklas menunjukkan
proporsi keragaman yang dijelaskan oleh
struktur kelompok dalam populasi, yang
dapat juga diinterpretasikan sebagai
korelasi harapan antara dua unit yang
dipilih secara acak yang berada dalam
kelompok yang sama (Hox, 2002).
Korelasi intraklas dapat diperoleh pada
setiap level kelompok. Pada model regresi
tiga level terdapat dua korelasi intraklas
yaitu korelasi intra kelas dan korelasi intra
mahasiswa (Goldstein, 1999). Jika efek
acak keragaman yang berhubungan dengan
level ketiga dilambangkan dengan σ23 dan
efek acak keragaman yang berhubungan
dengan level kedua yang tersarang pada
level ketiga dilambangkan dengan σ22,
maka korelasi intra kelas (ρ3) dan korelasi
intra mahasiswa (ρ2) dengan asumsi
intersep acak dan tanpa peubah penjelas
adalah sebagai berikut:
Pada regresi tiga level, korelasi intra
kelas dan proporsi keragaman yang dapat
dijelaskan oleh struktur kelas memiliki
formula yang sama, sedangkan proporsi
keragaman yang dapat dijelaskan oleh
struktur mahasiswa adalah sebagai berikut:
Pengujian Hipotesis
Hipotesis dalam LMM terdiri dari
hipotesis nol (H0) dan hipotesis alternatif
(HA). Hipotesis dapat menjadi formula dalam
dua model yang memiliki hubungan tersarang.
Model yang lebih umum yang mengandung
kedua hipotesis H0 dan HA disebut model
referensi sedangkan model yang hanya
mencakup H0 disebut sebagai model
tersarang. Model referensi mengandung
semua parameter yang diuji sedangkan model
tersarang tidak. Model tersarang merupakan
bagian dari model referensi. Uji hipotesis ini
biasanya digunakan untuk menentukan model
mana yang akan dipilih antara
tersarang dengan model referensi.
model
Likelihood Ratio Test (LRT)
LRT digunakan untuk membandingkan
nilai fungsi likelihood antara model tersarang
dengan model referensi dalam pengujian
hipotesis. Fungsi dari LRT dituliskan sebagai:
-2 log
Ltersarang
= -2 log Ltersarang
Lreferensi
- -2 log Lreferensi
-2 log
Ltersarang
~χ2df
Lreferensi
Statistik di atas menyebar mengikuti
sebaran khi kuadrat dengan derajat bebas
selisih dari banyaknya parameter antara kedua
model. Pada LRT untuk pengujian efek tetap,
pendugaan
parameternya
menggunakan
metode ML. Penghitungan uji statistik dalam
pendugaan efek tetap adalah selisih dari -2
ML log-likelihood antara dua model yang
menyebar khi kuadrat dengan nilai derajat
bebas selisih dari banyaknya parameter efek
tetap antara kedua model.
Uji hipotesis untuk parameter kovarian
dalam LMM menggunakan pendugaan REML
baik untuk model tersarang ataupun untuk
model referensi. Penghitungan uji statistik
untuk pendugaan ini adalah selisih dari -2
REML log-likelihood antara dua model yang
menyebar khi kuadrat dengan nilai derajat
bebas selisih dari banyaknya parameter acak
antara dua model (West et al., 2007).
Centering Covariates
Centering Covariates berfungsi untuk
mengubah interpretasi intersep. Biasanya
intersep dimaknai sebagai nilai tengah dari
peubah respon saat peubah penjelasnya
bernilai nol. Pada kenyataannya nilai nol
sering berada di luar wilayah hasil. Untuk
menghindari hal tersebut maka dilakukanlah
centering. Centering dilakukan supaya makna
intersep menjadi nilai tengah peubah respon
saat peubah penjelas bernilai tertentu yang
pasti terkandung di dalam data (misalnya
rataan atau median). Selain itu centering juga
dapat mengurangi kolinearitas antar peubah
penjelas (West et al, 2007).
4
Kelas 2
Kelas 1
Mahasiswa
Mahasiswa
Mahasiswa
N1
N1
Mahasiswa
N2
N1
N2
N1
N2
N2
N3
N4
N3
N4
Gambar 1 Struktur data kelompok dalam pengukuran berulang pada data Metode Statistika
BAHAN DAN METODE
Bahan
Data yang digunakan adalah data nilai
capaian mahasiswa dalam mata kuliah Metode
Statistika tahun 2008/2009 pada beberapa titik
waktu yang menjadi peubah respon pada level
satu. Peubah penjelas pada level satu adalah
waktu ujian. Peubah penjelas level dua adalah
IPK TPB, jenis kelamin, dan asal daerah.
Jumlah mahasiswa per kelas dan persentase
nilai Pengantar Matematika minimal berhuruf
mutu B merupakan peubah-peubah penjelas
pada level ketiga. Struktur data dapat dilihat
pada Gambar 1.
Metode
Langkah-langkah yang dilakukan pada
penelitian ini adalah:
1. Melakukan konversi nilai capaian
Metode Statistika untuk kelas paralel
yang nilai maksimumnya melebihi 100.
2. Melakukan analisis deskriptif per kelas
paralel untuk mendapatkan gambaran
umum data.
3. Mengeksplorasi
hubungan
antara
capaian mahasiswa dalam mata kuliah
Metode Statistika dengan peubah-peubah
penjelasnya secara grafis.
4. Melakukan centering terhadap beberapa
peubah penjelas, yaitu mengurangkan
data dengan rataannya.
5. Mencari model terbaik yang dapat
memodelkan hubungan antara capaian
mahasiswa dalam mata kuliah Metode
Statistika
dengan
peubah-peubah
penjelasnya, dengan tahapan:
1. Memilih struktur intersep acak
2. Memilih struktur efek tetap
3. Memilih struktur kemiringan acak
6.
4. Memasukkan
interaksi
peubah
penjelas antar level ke dalam model
5. Memilih struktur kovarian untuk
sisaan pada level satu
Menduga komponen ragam capaian
mahasiswa dalam mata kuliah Metode
Statistika berdasarkan model yang telah
diperoleh.
PEMBAHASAN
Deskripsi Data
Perkuliahan Metode Statistika tahun 2008/
2009 terbagi menjadi dua waktu yaitu
semester ganjil dan semester genap. Jika
waktu yang berdasarkan semester itu
diabaikan dan data diamati hanya pada satu
angkatan (2007), maka diperoleh jumlah kelas
paralel seluruhnya sebanyak 30 kelas. Urutan
kelas paralel dapat dilihat pada Lampiran 1.
Data yang diamati merupakan data nilai
mahasiswa yang terdaftar mengambil mata
kuliah Metode Statistika tahun 2008/2009.
Secara umum pengambilan nilai dilakukan
sebanyak dua kali, yaitu pada saat ujian
tengah semester (UTS) dan ujian akhir
semester (UAS). Namun ada pula dosen yang
memberikan ujian lebih dari dua waktu.
Dosen kelas TIN memberikan ujian Metode
Statistika sebanyak tiga waktu yaitu ujian 1
saat UTS, ujian 2 (antara UTS dan UAS), dan
ujian 3 saat UAS. Selain kelas TIN, kelas
paralel AGH memiliki empat waktu
pengambilan nilai ujian, yaitu ujian1 (sebelum
UTS), ujian 2 (saat UTS), ujian 3 (antara UTS
dengan UAS), dan ujian 4 (UAS). Meskipun
demikian, perbedaan frekuensi ujian antar
kelas paralel tidak menjadi masalah dalam
analisis ini.
Download