Pendeteksian Pengamatan Pencilan dan Berpengaruh dengan

advertisement
TINJAUAN PUSTAKA
Model Regresi Linier Ganda
Hubungan antara y dan X dalam model regresi linier umum adalah
y=Xß + e
(1)
dengan y merupakan vektor pengamatan pada peubah respon (peubah tak bebas)
berukuran (n x 1) dan X adalah matriks berukuran (n x p) dengan p peubah bebas
dan n pengamatan, ß adalah vektor koefisien regresi (parameter) berukuran (p x
1) dan ε adalah vektor sisaan berukuran (n x 1). Model regresi linier umum
memiliki asumsi bahwa: (1) εi merupakan suatu peubah acak, εi ~ N(0, σ2 ), (2)
εi dan ε j tidak berkorelasi, sehingga ragam-peragam ( εi , ε j ) = 0, dengan i ≠ j
(Draper & Smith 1981).
Metode kuadrat terkecil sering digunakan untuk menduga parameter.
Penduga yang dihasilkan metode kuadrat terkecil tidak berbias, terbaik dan
konsisten. Ragam penduganya bernilai minimum dibandingkan dengan ragam
penduga tak bias lainnya. Penggunaan metode kuadrat terkecil ini peka terhadap
penyimpangan asumsi-asumsi yang diperlukan, sehingga adanya pengamatan
pencilan dalam data dapat mengakibatkan persamaan regresi yang diperoleh
memiliki penduga yang tidak tepat (Aunuddin 1989)
Kolinieritas
Kolinieritas pada regresi linier ganda terjadi karena adanya korelasi yang
cukup tinggi di antara peubah bebas. Suatu metode formal untuk mendeteksi
adanya kolinieritas adalah Variance Inflation Factors (VIF). VIF merupakan
faktor yang mengukur seberapa besar kenaikan ragam koefisien regresi dugaan bk
dibandingkan terhadap peubah bebas lainnya yang saling ortogonal. VIF
diformulasikan dalam bentuk :
VIFk =
1
(1 − Rk2 )
(Fox dan Monette 1992)
5
dengan Rk2 adalah koefisien determinasi dari peubah bebas Xk diregresikan
terhadap semua peubah bebas X yang lainnya di dalam model. Nilai VIF yang
lebih besar dari 10 mengindikasikan bahwa terjadi kolinieritas dalam data (Neter
et al. 1990).
Pendeteksian Pencilan
Pendeteksian pengamatan pencilan terhadap nilai- nilai X dapat digunakan
matriks H (hat matrix) yang didefinisikan sebagai :
H = X(X’X)-1 X’
(2)
Unsur ke- i pada diagonal utama matriks H dinamakan hii . Unsur diagonal hii di
dalam matriks H dapat diperoleh dari
hii = xi' (X’X)-1 xi
(3)
n
nilai hii berkisar antara 0 dan 1, dan
∑ hii
= p, dengan p adalah banyaknya
i=1
koefisien regresi di dalam fungsi termasuk konstanta (intercept) (Neter et al.
1990). Unsur diagonal hii dinamakan leverage ke- i yang merupakan ukuran jarak
antara nilai X untuk pengamatan ke- i dan rataan X untuk semua pengamatan.
Nilai hii yang lebih besar dari 2p/n dinyatakan sebagai pengamatan pencilan dan
berpengaruh. Nilai hii yang semakin besar menunjukkan semakin besar
potensinya untuk berpengaruh (Aunuddin 1989).
Pendeteksian pencilan juga dapat dilakukan dengan menggunakan nilai Rstudent (externally studentized residual) yang didefinisikan sebagai :
ti
=
yi − yˆ i
s ( −i ) 1 − hii
(4)
dengan yi adalah nilai peubah respon pada pengamatan ke-i, ŷ i adalah nilai
dugaan y pada pengamatan ke- i, s(-i) merupakan dugaan simpangan baku tanpa
pengamatan ke- i. R-student menyebar mengikuti sebaran t-student dengan derajat
bebas (n-p-1). Suatu pengamatan dikatakan pencilan jika t > t(n-p-1;α/2) dalam taraf
nyata α (Myers 1990).
6
Pendeteksian Pengamatan Berpengaruh
Pendeteksian pengamatan berpengaruh ditentukan berdasarkan nilai
DFFITS dan Cook’s D. Nilai DFFITSi merupakan suatu ukuran pengaruh yang
ditimbulkan oleh pengamatan ke-i terhadap nilai dugaan ŷi apabila pengamatan
ke-i dihapus. Nilai DFFITSi diperoleh dari rumus berikut :
(DFFITS)i =
yˆ i − yˆ i , − i
s ( − i) 1 − hii
(5)
dengan yˆ i, − i adalah nilai dugaan yi tanpa pengamatan ke–i. Suatu pengamatan
1/ 2
 p
dikatakan berpengaruh apabila nilai DFFITS i > 2 
n
(Myers 1990).
Cook’s D merupakan suatu ukuran pengaruh pengamatan ke- i terhadap
semua koefisien regresi dugaan. Pada Cook’s D, pengaruh pengamatan ke- i diukur
oleh jarak Di. Jarak tersebut diperoleh dari rumus berikut :
Di =
(b − b− 1 )' ( X' X )(b − b− 1 )
ps 2
(6)
dengan b-i adalah vektor koefisien regresi dugaan tanpa pengamatan ke-i, b
adalah vektor koefisien regresi dugaan termasuk pengamatan ke-i, p merupakan
banyaknya parameter regresi di dalam model termasuk konstanta. Suatu
pengamatan merupakan pengamatan berpengaruh apabila mempunya i nilai D >
F(p; n-p; α) dengan taraf nyata α (Myers 1990).
Pengaruh Lokal
Teknik pengaruh lokal diperkenalkan oleh Cook (1986) sebagai alat
diagnosis umum untuk metode kemungkinan maksimum. Pada regresi linier
ganda, metode pengaruh lokal berbeda dengan metode penghapusan (Cook’s D).
Metode pengaruh lokal digunakan untuk menaksir dampak pembobotan di titik
pengamatan tertentu dalam suatu model, sedangkan Cook’s D menaksir dampak
pengahapusan di titik pengamatan tertentu dalam suatu model. Metode pengaruh
lokal menyatakan bahwa pengamatan yang pembobotnya lebih besar adalah
pengamatan paling berpengaruh.
7
Misalkan β̂ merupakan penduga kemungkinan maksimum dari model
regresi linier ganda dari persamaan (1), yang diperoleh dari fungsi kemungkinan
maksimum L (β;y). Misalkan W adalah matriks pembobot berukuran n x p
dituliskan sebagai berikut :
w1 wn+ 1 w2 n + 1 L

w2 wn + 2 L L
W = 
M
O

w3 n L
wn w2 n
w p ( n− 1) +1 

w p ( n−1) + 2 

M

w pn 
Pembobot W dimasukkan ke dalam model sehingga model regresi linier ganda
menjadi
y = (X+ W) ß + e
Misalkan
(7)
β̂ w merupakan penduga kemungkinan maksimum dari
persamaan (7) yang diperoleh dari kemungkinan maksimum Lw (β;y). Misalkan
dalam ruang pembobot terdapat pembobot yang tidak berarti w0 (pembobot nol)
sehingga Lw0 (β;y) = L (β;y), dengan demikian pembobot dapat ditulis sebagai
w = w0 + a v
(8)
dengan v mewakili arah vektor dan a mewakili jarak w dari w0 .
Ukuran dari pembobot dinya takan sebagai
||w – w0 || = |a|
(9)
Ukuran dari pembobot pada pendugaan kemungkinan maksimum adalah
perpindahan kemungkinan (LD) :
LD (w) = 2 [L ( β̂ ;y) – L ( β̂ w; y)]
(10)
fungsinya mencapai nilai minimum nol pada pembobot nol. Penerapan
pendekatan deret taylor orde kedua pada persamaan 10 menghasilkan
&& v
LD(w) ≈ ½ a2 v’ A
2
&& = 2 ∂ L (βˆw ; y)
dengan A
∂w∂w'
0
(11)
, dengan |0 dinotasikan evaluasi pada β = β̂ , w = w0
&& v adalah matriks kuadrat yang menyatakan kurva normal dari grafik
v’ A
pengaruh di w0 mengarah ke v yang merupakan ukuran pembobot. Jika kurva
mengarah ke v 1 , t kali lebih besar mengarah ke v 2 , maka pembobot w = w0 + av 1 ,
t kali lebih besar dibandingkan pembobot w = w0 + av2 , oleh karena itu suatu
8
pembobot dikatakan berpengaruh jika pembobot pengamatan tersebut lebih besar
β]
dibandingkan pembobot pengamatan lainnya. C [max
yang merupakan kurva
β]
terbesar yang bersesuaian dengan arah v [max
, dapat dicari dengan menggunakan
&& .
vektor ciri (eigenvector) dan akar ciri (eigenvalue) dari matriks A
&& mempunyai r ≤ minimum (p,q) akar ciri λ1 ≥ λ2 ≥ . . . ≥ λr ≥ 0
Matriks A
yang tidak nol, yang bersesuaian dengan vektor ciri v 1 , v2 , . . ., v r dengan p adalah
β]
banyaknya peubah bebas dan q = n x p. Kurva terbesar adalah C [max
= λ1 , yang
β]
bersesuaian dengan arah v [max
= v 1 . Kurva terbesar kedua adalah λ2 yang
bersesuaian dengan arah v 2 , atau dapat ditulis kurva terbesar ke-r adalah λr yang
bersesuaian dengan arah v r.
Untuk memperoleh pengaruh pada β̂ , Cook (1986) menunjukkan bahwa
&& [β ] yang berukuran np x np adalah :
matriks A
&& [β ] = 2 (Ip ⊗ r - β̂ ⊗ X) ((X’X)-1 ⊗ r’ - β̂ ’ ⊗ (X’X)-1 X’) / σ2
A
(12)
dengan ⊗ menunjukkan perkalian kronecker.
&& [β ] mempunyai p akar ciri yang tidak nol yaitu :
Matriks A
λj
[β ]
= 2 (n/δ p-j+1 + || β̂ ||2 / σ2 ), j = 1,2, …, p
dengan δ j adalah akar ciri ke-j dari X’X. Untuk j = 1 diperoleh λ j
[β ]
C max = 2 (n/δ j + || β̂ ||2 / σ̂2 )
(13)
[β ]
β]
= C [max
(14)
&& [β ] mempunyai p vektor ciri yang bersesuaian dengan akar ciri
Matriks A
didefinisikan sebagai berikut :
[ß ] ∝ ϕ
p-j+1 ⊗ r - β̂ ⊗ X ϕ p-j+1 , dengan j = 1,2, …, p
vj
(15)
dengan ϕ j adalah vektor ciri ke-j dari X’X dan vektor Zj = Xϕj merupakan
komponen utama ke-j. Komponen ini menjelaskan bagian terbesar dari keragaman
yang dikandung oleh data. Komponen Z yang lain menjelaskan proporsi
keragaman yang semakin kecil sampai semua keragaman datanya terjelaskan.
β]
Untuk j = 1 maka v [βj] = v [max
[β ]
v max ∝ ϕp ⊗ r - ß̂ ⊗ Zp
(16)
9
β]
plot v [max
terhadap nomor pengamatan akan mengidentifikasi x ij yang paling
berpengaruh terhadp ß̂ berdasarkan pencaran data yang jauh dari titik nol.
[β ]
Misalkan W max
dinotasikan sebagai ukuran pembobot dengan definisi :
[β ]
W max
∝ [ϕp1 r - β̂ 1 Zp
ϕp2 r - β̂ 2 Zp
….
ϕpp r - β p Zp ]
(17)
[β ]
wij dari W max
berpengaruh jika pengamatan ke-i sebuah pencilan (|ri| besar) atau
mempunyai leverage yang besar (|zpi| besar). Pembobot yang ditambahkan pada
data dapat mengub ah penduga koefisien regresi linier ganda (Lesaffre & Verbeke
1998).
Pendeteksian Peubah Berpengaruh
Nilai
[β ]
v max
digunakan
untuk
mendeteksi
adanya
peubah
bebas
β]
berpengaruh. Nilai x ij pada v [max
yang semakin besar menunjukkan semakin besar
potensi peubah bebas ke-j untuk berpengaruh. Suatu peubah bebas dikatakan
β]
berpengaruh apabila nilai v [max
untuk pengamatan tersebut lebih besar dari
1
β]
, dengan q menyatakan banyaknya anggota v [max
dalam model yaitu sebesar
q
n x p (Littell at al. 2003).
Pendeteksian Pengamatan Pencilan dan Berpengaruh
Pendeteksian pengamatan pencilan pada peubah bebas berpengaruh
didasarkan oleh besarnya pengaruh dari setiap pengamatan (C i) yang didefinisikan
sebagai berikut :
r
Ci = 2 ∑ λ j ν 2ji ,
i= 1, 2, …, n
(18)
j=1
&& [β ] (Zhu & Zhang
dengan λ j dan ν ji akar ciri dan vektor ciri dari matriks A
2004).
10
Suatu pengamatan dikatakan berpengaruh apabila ukuran pengaruh
n
C
pengamatan (C i) lebih besar dari 2 ∑ i dengan n banyaknya pengamatan
n
i =1
(Lesaffre & Verbeke 1998).
Regresi Komponen Utama
Regresi komponen utama merupakan salah satu metode untuk mengatasi
masalah kolinieritas dalam data. Regresi komponen utama bermula dari analisis
komponen utama pada peubah bebas yang akan menghasilkan komponenkomponen utama dari peubah bebas yang saling ortogonal. Komponen utama
inilah yang kemudian diperlukan sebagai peubah bebas. Masing- masing
komponen utama tidak berkorelasi sehingga tidak ada kolinieritas diantara
komponen utama tersebut. Jika semua komponen utama diikutkan dalam regresi
komponen utama, model yang dihasilkan ekuivalen dengan metode kuadrat
terkecil, namun varian penduga yang besar akibat multikolinieritas tidak
tereduksi. Untuk mereduksi varian tersebut tidak semua komponen utama
diikutkan dalam regresi komponen utama. Berikut ini algoritma dari regresi
komponen utama (Jolliffe 1986) :
a.
Menentukan peubah Xs hasil dari standarisasi peubah X.
Xsij =
X ij − X j
, i = 1,2,3, . . . , n dan j = 1,2,3, . . . , p.
Sj
b.
Menentukan akar ciri dari persamaan |Xs’Xs - λI| = 0.
c.
Menentukan nilai vektor ciri ϕj dari setiap akar ciri λj melalui persamaan
(Xs’Xs-λjI) ϕj = 0.
d.
Menentukan komponen utama Zj melalui prosedur seleksi akar ciri λj,
Zj = ϕ1j Xs1 + ϕ2j Xs2 + . . . + ϕrj Xsr, di mana r < p dan r adalah banyaknya
komponen yang terpilih.
e.
Regresikan komponen utama Z1 , Z2 , Z3 , . . . , Zr dengan peubah respon y.
f.
Menghitung nilai ŷ
11
g.
Melakukan transformasi model regresi dari ŷ = f (Z) ke ŷ = f (Xs) melalui
suatu hubungan b = ϕ j * a
b = adalah penduga koefisien regresi ŷ = f (Z)
a = adalah penduga koefisien regresi ŷ = f (Xs)
ϕ j = adalah vektor ciri dari komponen yang ke-j
Download