2 tinjauan pustaka

advertisement
3
2 TINJAUAN PUSTAKA
Regresi Logistik
Regresi logistik adalah suatu teknik analisis statistika yang digunakan untuk
mendeskripsikan hubungan antara peubah respon yang memiliki dua kategori atau
lebih dengan satu atau lebih peubah penjelas berskala kategori atau kontinu
(Hosmer dan Lemeshow 2000). Apabila peubah responnya terdiri dari 2 kategori
yaitu Y=1 (sukses) dan Y=0 (gagal) maka metode regresi logistik yang dapat
diterapkan adalah regresi logistik biner (Agresti 2007).
Hosmer dan Lemeshow (2000) menjelaskan bahwa model regresi logistik
dibentuk dengan menyatakan nilai P(Y=1|x) sebagai π(x), yang dinotasikan
sebagai berikut:
exp(β0 +β1 X1 +…+βp Xp )
π(x)=
1+exp(β0 +β1 X1 +…+βp Xp )
Fungsi regresi di atas berbentuk non linear sehingga untuk membuatnya menjadi
fungsi linear dilakukan transformasi logit sebagai berikut:
π(x)
�
logit[π(x)]=β0 +β1 X1 +…+βp Xp =ln �
1-π(x)
Untuk peubah bebas yang bersifat kategorik maka diperlukan peubah
boneka. Secara umum jika sebuah peubah berskala nominal atau ordinal
mempunyai k kategori, maka diperlukan k-1 peubah boneka. Misalnya, peubah
penjelas ke-j mempunyai kj kategori. Dju melambangkan kj-1 peubah boneka dan
βju merupakan koefisien peubah boneka dengan u=1,2,…,k j -1. Dengan demikian
model transformasi logitnya menjadi:
kj -1
g(x)=β0 +β1 x1 +…+ � βju Dju +βp xp
u=1
Pendugaan parameter dalam model regresi logistik dilakukan dengan
menggunakan metode kemungkinan maksimum. Jika antara amatan yang satu
dengan yang lain diasumsikan bebas, maka fungsi kemungkinannya adalah:
n
l(β)= � π(xi )yi [1-π(xi )]1-yi
i=1
dengan:
i
= 1, 2, ..., p
yi = pengamatan pada peubah respon ke-i
π(xi) = peluang untuk peubah penjelas ke-i bernilai Y=1
Koefisien logit diduga dengan memaksimumkan l(β) dengan pendekatan
logaritma sehingga fungsinya sebagai berikut:
n
L(β)= �{yi ln[π(xi )]+(1-yi )ln[1-π(xi )]}
i=1
4
Nilai dugaan βi dapat diperoleh dengan membuat turunan pertama L(β) terhadap
βi = 0 dengan i = 1, 2, ..., p.
Menguji peranan dari tiap peubah penjelas terhadap peubah responnya
dalam regresi logistik menggunakan statistik uji G dan uji Wald. Statistik uji G
adalah uji rasio kemungkinan yang digunakan untuk menguji peranan peubah
penjelas di dalam model secara serentak. Hipotesis yang diuji yaitu:
H0: β1 = ... = βp = 0
H1: minimal ada satu βi ≠ 0; i = 1, 2, ..., p
Rumus umum untuk uji G adalah:
L0
G=-2ln � �
Lp
dengan L0 adalah fungsi kemungkinan tanpa peubah penjelas dan Lp merupakan
fungsi kemungkinan dengan p peubah penjelas. Hipotesis nol ditolak jika
2
G > χp(α)
.
Statistik uji Wald digunakan untuk menguji parameter βi secara parsial.
Hipotesis yang akan diuji adalah:
H0: βi = 0
H1: βi ≠ 0; i = 1, 2, ..., p
Statistik uji Wald adalah:
β�i
Wi =
SE(β�i)
dengan β�i sebagai penduga βi dan SE(β�i ) sebagai penduga galat baku βi. Hipotesis
nol ditolak jika |W| > Zα/2.
Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan
dengan melihat nilai rasio oddsnya. Rasio odds merupakan ukuran asosiasi yang
memperkirakan berapa besar kecenderungan pengaruh peubah-peubah penjelas
terhadap peubah respon. Rasio odds (ψ) didefinisikan sebagai berikut
� = exp(βi )
Ψ
Perhitungan kebaikan model yang sering digunakan adalah Akaike
Information Criterion (AIC). Akaike mendefinisikan perhitungan AIC sebagai
berikut:
AIC=-2lnL(y|μ�)+2p
dengan lnL(y|μ�) adalah logaritma natural dari model yang melibatkan semua
peubah penjelas dan p yaitu banyaknya parameter. Nilai AIC yang semakin kecil
menunjukkan model yang semakin baik. Uji kebaikan model yang lain yang bisa
digunakan adalah Schwarz Criterion (SC).
Regresi Poisson
Regresi Poisson sering digunakan untuk memodelkan kejadian yang jarang
terjadi dengan data berupa data cacah. Fungsi peluang dari sebaran Poisson
dengan parameter μ (Hardin dan Hilbe 2007) adalah:
exp(-μ)μy
(
|
)
P Y=y μ =
;y=0,1,2,…
y!
dengan asumsi E(Y)=Var(Y)=μ.
5
Model regresi Poisson dapat ditulis sebagai berikut (Myers 1990):
yi =μi +εi = exp�xi' β� +εi ; i=1,2,…,n
dengan μi adalah nilai tengah jumlah kejadian.
Pendugaan dari parameter koefisien regresi Poisson dapat dilakukan dengan
menggunakan metode kemungkinan maksimum. Fungsi kemungkinan dari regresi
Poisson adalah (Yesilova et al. 2010):
n
exp(- ∑ni=1 [ exp(xi β) ]){ ∏ni=1 [ exp(xi β) ]yi }
L(β)= � P(yi |β)=
∏ni=1 yi !
i=1
dan logaritma natural dari fungsi kemungkinannya sebagai berikut:
n
ln L(β)= � {yi xi β- exp(xi β) - ln(yi !) }
i=1
Data cacah untuk regresi Poisson dikatakan mengandung overdispersi
apabila keragamannya lebih besar dari nilai tengahnya. Fenomena overdispersi
(McCullagh dan Nelder 1983) dapat dituliskan:
Var(Y)>E(Y)
Overdispersi dapat diindikasikan dengan nilai dispersi yaitu Pearson Chi-square
dibagi dengan derajat bebasnya. Jika nilai dispersi lebih besar dari 1 maka
dikatakan terjadi overdispersi pada data.
Regresi Zero Inflated Poisson (ZIP)
Model regresi ZIP merupakan model campuran untuk data cacah dengan
banyak nilai nol pada peubah respon. Model ini merupakan kombinasi dari
sebaran poisson dengan sebaran kejadian yang bernilai nol (Cameron dan Trivedi
1998). Fungsi sebaran dari ZIP sebagai berikut:
ω+�1-ω�e-μ , y=0
P(Y=y) = �
e-μ μy
�1-ω�
, y>0
y!
dengan Y~ZIP(𝜇𝜇, 𝜔𝜔). 𝜇𝜇 adalah parameter dari sebaran Poisson dan 𝜔𝜔 adalah
peluang dari kejadian bernilai nol (Ridout et al. 1998). Model penghubung yang
digunakan untuk μ dan ω adalah
ω
ln(μ) =Xβ dan ln �
� =Gγ
1-ω
X dan G adalah matriks peubah penjelas (Yesilova et al. 2010b), sedangkan β dan
γ adalah vektor-vektor parameter model berukuran (p+1)x1 dan (q+1)x1 yang
akan diduga nilainya.
Fungsi kemungkinan logaritma untuk model zero inflated Poisson sebagai
berikut:
n
lnL(β,γ)= � I(yi =0) ln(exp(g i γ) + exp(- exp(xi β)))
i=1
n
n
i=1
i=1
+ ��1-I(yi =0)�(yi xi β- exp(xi β))- � ln(1+ exp(g i γ) )
dengan I(yi=0) bernilai 1 jika yi=0 dan bernilai 0 jika yi selainnya.
6
Pengujian kesesuaian model regresi zero inflated poisson dilakukan dengan
menggunakan uji nisbah kemungkinan. Hipotesis untuk pengujian kesesuaian
model adalah:
H0: β1 = β2 = ... = βk = γ1 = γ2 = ... = γk = 0
H1: Paling sedikit ada satu βi ≠ 0 atau γi ≠ 0
dimana βi adalah parameter model log ke-i, dan γi adalah parameter model logit
ke-i. Statistik uji untuk pengujian kesesuaian model sebagai berikut:
n
n
G= �2 � zi xi' γ�- ln�1+ exp�xi' γ��� +2 �(1-zi )(yi xi' β�- exp�xi' β�� )�
i=1
n
n
i=1
i=1
i=1
- �2 � zi γ�0 - ln�1+xi' γ�0 � +2 �(1-zi )�yi β�0 - exp�β�0 ���
Pengujian parameter secara individu ada dua, yaitu pengujian parameter
model log dan pengujian model logit. Berikut ini adalah perumusan hipotesis
untuk pengujian parameter model log:
H0: βi = 0
H1: βi ≠ 0
Statistik uji untuk pengujian parameter model log secara individu adalah
sebagai berikut:
n
n
G= �2 � zi xi' γ�- ln�1+ exp�xi' γ��� +2 �(1-zi )�yi xi' β�- exp�xi' β����
i=1
i=1
n
-2 �(1-zi )(yi xi' β�i - exp�xi' β�i �
i=1
Perumusan hipotesis untuk pengujian parameter model logit secara individu
adalah sebagai berikut:
H0: γi = 0
H1: γi ≠ 0
Statistik uji yang digunakan untuk pengujian parameter model logit adalah
sebagai berikut:
n
n
G= �2 � zi xi' γ�- ln�1+ exp�xi' γ��� +2 �(1-zi )�yi xi' β�- exp�xi' β����
i=1
i=1
n
n
- �2 �(1-zi ) ln(yi )!+2 � (zi y� 0 -ln(1+exp(γ�0 )�
i=1
i=1
Kriteria pengujian diatas adalah H0 ditolak pada taraf signifikansi α, jika
G hitung>χ2(v,α) dengan v adalah derajat bebas.
Download