3 2 TINJAUAN PUSTAKA Regresi Logistik Regresi logistik adalah suatu teknik analisis statistika yang digunakan untuk mendeskripsikan hubungan antara peubah respon yang memiliki dua kategori atau lebih dengan satu atau lebih peubah penjelas berskala kategori atau kontinu (Hosmer dan Lemeshow 2000). Apabila peubah responnya terdiri dari 2 kategori yaitu Y=1 (sukses) dan Y=0 (gagal) maka metode regresi logistik yang dapat diterapkan adalah regresi logistik biner (Agresti 2007). Hosmer dan Lemeshow (2000) menjelaskan bahwa model regresi logistik dibentuk dengan menyatakan nilai P(Y=1|x) sebagai π(x), yang dinotasikan sebagai berikut: exp(β0 +β1 X1 +…+βp Xp ) π(x)= 1+exp(β0 +β1 X1 +…+βp Xp ) Fungsi regresi di atas berbentuk non linear sehingga untuk membuatnya menjadi fungsi linear dilakukan transformasi logit sebagai berikut: π(x) � logit[π(x)]=β0 +β1 X1 +…+βp Xp =ln � 1-π(x) Untuk peubah bebas yang bersifat kategorik maka diperlukan peubah boneka. Secara umum jika sebuah peubah berskala nominal atau ordinal mempunyai k kategori, maka diperlukan k-1 peubah boneka. Misalnya, peubah penjelas ke-j mempunyai kj kategori. Dju melambangkan kj-1 peubah boneka dan βju merupakan koefisien peubah boneka dengan u=1,2,…,k j -1. Dengan demikian model transformasi logitnya menjadi: kj -1 g(x)=β0 +β1 x1 +…+ � βju Dju +βp xp u=1 Pendugaan parameter dalam model regresi logistik dilakukan dengan menggunakan metode kemungkinan maksimum. Jika antara amatan yang satu dengan yang lain diasumsikan bebas, maka fungsi kemungkinannya adalah: n l(β)= � π(xi )yi [1-π(xi )]1-yi i=1 dengan: i = 1, 2, ..., p yi = pengamatan pada peubah respon ke-i π(xi) = peluang untuk peubah penjelas ke-i bernilai Y=1 Koefisien logit diduga dengan memaksimumkan l(β) dengan pendekatan logaritma sehingga fungsinya sebagai berikut: n L(β)= �{yi ln[π(xi )]+(1-yi )ln[1-π(xi )]} i=1 4 Nilai dugaan βi dapat diperoleh dengan membuat turunan pertama L(β) terhadap βi = 0 dengan i = 1, 2, ..., p. Menguji peranan dari tiap peubah penjelas terhadap peubah responnya dalam regresi logistik menggunakan statistik uji G dan uji Wald. Statistik uji G adalah uji rasio kemungkinan yang digunakan untuk menguji peranan peubah penjelas di dalam model secara serentak. Hipotesis yang diuji yaitu: H0: β1 = ... = βp = 0 H1: minimal ada satu βi ≠ 0; i = 1, 2, ..., p Rumus umum untuk uji G adalah: L0 G=-2ln � � Lp dengan L0 adalah fungsi kemungkinan tanpa peubah penjelas dan Lp merupakan fungsi kemungkinan dengan p peubah penjelas. Hipotesis nol ditolak jika 2 G > χp(α) . Statistik uji Wald digunakan untuk menguji parameter βi secara parsial. Hipotesis yang akan diuji adalah: H0: βi = 0 H1: βi ≠ 0; i = 1, 2, ..., p Statistik uji Wald adalah: β�i Wi = SE(β�i) dengan β�i sebagai penduga βi dan SE(β�i ) sebagai penduga galat baku βi. Hipotesis nol ditolak jika |W| > Zα/2. Interpretasi koefisien untuk model regresi logistik biner dapat dilakukan dengan melihat nilai rasio oddsnya. Rasio odds merupakan ukuran asosiasi yang memperkirakan berapa besar kecenderungan pengaruh peubah-peubah penjelas terhadap peubah respon. Rasio odds (ψ) didefinisikan sebagai berikut � = exp(βi ) Ψ Perhitungan kebaikan model yang sering digunakan adalah Akaike Information Criterion (AIC). Akaike mendefinisikan perhitungan AIC sebagai berikut: AIC=-2lnL(y|μ�)+2p dengan lnL(y|μ�) adalah logaritma natural dari model yang melibatkan semua peubah penjelas dan p yaitu banyaknya parameter. Nilai AIC yang semakin kecil menunjukkan model yang semakin baik. Uji kebaikan model yang lain yang bisa digunakan adalah Schwarz Criterion (SC). Regresi Poisson Regresi Poisson sering digunakan untuk memodelkan kejadian yang jarang terjadi dengan data berupa data cacah. Fungsi peluang dari sebaran Poisson dengan parameter μ (Hardin dan Hilbe 2007) adalah: exp(-μ)μy ( | ) P Y=y μ = ;y=0,1,2,… y! dengan asumsi E(Y)=Var(Y)=μ. 5 Model regresi Poisson dapat ditulis sebagai berikut (Myers 1990): yi =μi +εi = exp�xi' β� +εi ; i=1,2,…,n dengan μi adalah nilai tengah jumlah kejadian. Pendugaan dari parameter koefisien regresi Poisson dapat dilakukan dengan menggunakan metode kemungkinan maksimum. Fungsi kemungkinan dari regresi Poisson adalah (Yesilova et al. 2010): n exp(- ∑ni=1 [ exp(xi β) ]){ ∏ni=1 [ exp(xi β) ]yi } L(β)= � P(yi |β)= ∏ni=1 yi ! i=1 dan logaritma natural dari fungsi kemungkinannya sebagai berikut: n ln L(β)= � {yi xi β- exp(xi β) - ln(yi !) } i=1 Data cacah untuk regresi Poisson dikatakan mengandung overdispersi apabila keragamannya lebih besar dari nilai tengahnya. Fenomena overdispersi (McCullagh dan Nelder 1983) dapat dituliskan: Var(Y)>E(Y) Overdispersi dapat diindikasikan dengan nilai dispersi yaitu Pearson Chi-square dibagi dengan derajat bebasnya. Jika nilai dispersi lebih besar dari 1 maka dikatakan terjadi overdispersi pada data. Regresi Zero Inflated Poisson (ZIP) Model regresi ZIP merupakan model campuran untuk data cacah dengan banyak nilai nol pada peubah respon. Model ini merupakan kombinasi dari sebaran poisson dengan sebaran kejadian yang bernilai nol (Cameron dan Trivedi 1998). Fungsi sebaran dari ZIP sebagai berikut: ω+�1-ω�e-μ , y=0 P(Y=y) = � e-μ μy �1-ω� , y>0 y! dengan Y~ZIP(𝜇𝜇, 𝜔𝜔). 𝜇𝜇 adalah parameter dari sebaran Poisson dan 𝜔𝜔 adalah peluang dari kejadian bernilai nol (Ridout et al. 1998). Model penghubung yang digunakan untuk μ dan ω adalah ω ln(μ) =Xβ dan ln � � =Gγ 1-ω X dan G adalah matriks peubah penjelas (Yesilova et al. 2010b), sedangkan β dan γ adalah vektor-vektor parameter model berukuran (p+1)x1 dan (q+1)x1 yang akan diduga nilainya. Fungsi kemungkinan logaritma untuk model zero inflated Poisson sebagai berikut: n lnL(β,γ)= � I(yi =0) ln(exp(g i γ) + exp(- exp(xi β))) i=1 n n i=1 i=1 + ��1-I(yi =0)�(yi xi β- exp(xi β))- � ln(1+ exp(g i γ) ) dengan I(yi=0) bernilai 1 jika yi=0 dan bernilai 0 jika yi selainnya. 6 Pengujian kesesuaian model regresi zero inflated poisson dilakukan dengan menggunakan uji nisbah kemungkinan. Hipotesis untuk pengujian kesesuaian model adalah: H0: β1 = β2 = ... = βk = γ1 = γ2 = ... = γk = 0 H1: Paling sedikit ada satu βi ≠ 0 atau γi ≠ 0 dimana βi adalah parameter model log ke-i, dan γi adalah parameter model logit ke-i. Statistik uji untuk pengujian kesesuaian model sebagai berikut: n n G= �2 � zi xi' γ�- ln�1+ exp�xi' γ��� +2 �(1-zi )(yi xi' β�- exp�xi' β�� )� i=1 n n i=1 i=1 i=1 - �2 � zi γ�0 - ln�1+xi' γ�0 � +2 �(1-zi )�yi β�0 - exp�β�0 ��� Pengujian parameter secara individu ada dua, yaitu pengujian parameter model log dan pengujian model logit. Berikut ini adalah perumusan hipotesis untuk pengujian parameter model log: H0: βi = 0 H1: βi ≠ 0 Statistik uji untuk pengujian parameter model log secara individu adalah sebagai berikut: n n G= �2 � zi xi' γ�- ln�1+ exp�xi' γ��� +2 �(1-zi )�yi xi' β�- exp�xi' β���� i=1 i=1 n -2 �(1-zi )(yi xi' β�i - exp�xi' β�i � i=1 Perumusan hipotesis untuk pengujian parameter model logit secara individu adalah sebagai berikut: H0: γi = 0 H1: γi ≠ 0 Statistik uji yang digunakan untuk pengujian parameter model logit adalah sebagai berikut: n n G= �2 � zi xi' γ�- ln�1+ exp�xi' γ��� +2 �(1-zi )�yi xi' β�- exp�xi' β���� i=1 i=1 n n - �2 �(1-zi ) ln(yi )!+2 � (zi y� 0 -ln(1+exp(γ�0 )� i=1 i=1 Kriteria pengujian diatas adalah H0 ditolak pada taraf signifikansi α, jika G hitung>χ2(v,α) dengan v adalah derajat bebas.