ˆi y E Y = +

advertisement
BAB III
MODEL ZERO-INFLATED POISSON UNTUK MENGATASI
OVERDISPERSI PADA REGRESI POISSON
Pada bab ini akan dibahas mengenai regresi Poisson, overdispersi pada
regresi Poisson, pengujian overdispersi pada regresi Poisson, dan model ZeroInflated Poisson. Konsep-konsep yang mendukung materi pada bab ini telah
dipaparkan pada bab sebelumnya.
3.1 Regresi Poisson
Regresi Poisson merupakan salah satu model regresi dengan variabel
responnya tidak berasal dari distribusi normal. Variabel respon dalam regresi
Poisson ini berasal dari data hitung yang diharapkan jarang terjadi, seperti
kecacatan dalam barang hasil produksi, error dalam perangkat lunak (software),
dan zat polutan dalam lingkungan.
Fungsi kepadatan peluang (fkp) yang sering digunakan untuk data hitung
adalah distribusi Poisson, yaitu
f ( y) =
e− µ µ y
,
y!
y = 0,1,K
…(3.1.1)
Parameter µ > 0 . Model dari regresi Poisson dapat dituliskan sebagai
yˆi = E (Yi ) + ε i
i = 1, 2,...n.
Ekspektasi dari variabel responnya dapat ditulis
…(3.1.2)
21
E (Yi ) = µi .
…(3.1.3)
Dalam Generalized Linear Model (GLM), terdapat sebuah fungsi g yang
menghubungkan rata-rata dari variabel responnya dengan sebuah prediktor linear,
yaitu
g ( µi ) = ηi = β 0 + β1 x1 + ... + β k xk = xi 'β.
…(3.1.4)
Fungsi g biasanya disebut fungsi penghubung (link fuction). Hubungan antara
rata-rata dan prediktor linear adalah
µi = g −1 (ηi ) = g −1 ( x i 'β ) .
…(3.1.5)
Terdapat dua fungsi penghubung yang biasa digunakan dalam distribusi
Poisson. Pertama adalah penghubung identitas (identity link), dan kedua adalah
penghubung log (log link). Fungsi penghubung identitas berbentuk
g ( µi ) = µi = xi 'β.
…(3.1.6)
Ketika fungsi penghubung identitas ini digunakan, maka
E (Yi ) = µi = xi'β karena µi = g −1 ( x i 'β ) = x i 'β.
…(3.1.7)
Fungsi penghubung selanjutnya adalah penghubung log yang berbentuk
g ( µi ) = ln ( µi ) = xi'β.
…(3.1.8)
Untuk fungsi penghubung log dalam persamaan (3.1.8), hubungan antara rata-rata
variabel respon dan prediktor linear adalah
ln µ i = x i 'β
e ln µi = e xi β
'
µi = ex β .
'
i
…(3.1.9)
22
Fungsi penghubung log adalah fungsi penghubung yang lebih cocok digunakan,
karena fungsi log menjamin bahwa nilai yang diharapkan dari variabel responnya
akan bernilai non negatif. Dalam pembahasan ini, fungsi penghubung yang dipilih
adalah fungsi penghubung log.
3.2 Penaksiran Parameter Regresi Poisson
Metode yang digunakan untuk menaksir parameter pada regresi Poisson
adalah metode kemungkinan maksimum. Misalkan terdapat sampel acak dari n
pengamatan pada variabel respon Y dan variabel prediktor X, maka fungsi
kemungkinannya adalah
n
L ( y, β ) = ∏ f i ( yi )
i =1
n
=∏
i =1
e − µi µi yi
yi !
n
i
=

n

i =1

∏ µi y exp  −∑ µi 
i =1
.
n
∏y !
i =1
i
Setelah fungsi penghubung dipilih, dalam hal ini adalah fungsi penghubung log,
akan dimaksimumkan fungsi log-kemungkinannya
n
n
n
i =1
i =1
i =1
ln L ( y , β ) = ∑ yi ln ( µi ) − ∑ µi − ∑ ln ( yi !).
…(3.2.1)
Untuk menentukan penaksir kemungkinan maksimumnya, digunakan teknik
iteratif yang cukup rumit. Beberapa perangkat lunak telah menyediakan fasilitas
untuk menghitung penaksir bagi parameter regresi Poisson, diantaranya GLIM,
SAS, S-PLUS, dan STATA. Dalam tugas akhir ini, perangkat lunak yang
23
digunakan adalah S-PLUS. Uji keberartian koefisien regresi juga akan dilakukan
menggunakan perangkat lunak S-PLUS.
Kemudian setelah diperoleh penaksir parameter βˆ , model regresi Poisson
berbentuk:
( )
yˆi = g −1 x i'βˆ .
…(3.2.2)
Sebagai contoh, jika penghubung identitas digunakan, maka persamaannya
menjadi:
( )
yˆi = g −1 xi'βˆ = x i'βˆ .
…(3.2.3)
Dan jika penghubung log dipilih, maka
( )
( )
yˆi = g −1 x i'βˆ = exp x i'βˆ .
…(3.2.4)
3.3 Overdispersi Pada Model Regresi Poisson
Overdispersi merupakan sebuah kondisi yang dapat terjadi ketika
pemodelan menggunakan distribusi Poisson. Hal ini terjadi karena distribusi
Poisson memiliki rata-rata dan variansi yang sama, yaitu Var (Y ) = E (Y ) , tetapi
pada kenyataannya hal yang kadang terjadi adalah variansi dari variabel
responnya lebih besar daripada rata-ratanya, Var (Y ) > E (Y ) , keadaan seperti ini
disebut dengan overdispersi.
Overdispersi dapat terjadi jika data yang diperoleh merupakan hasil dari
proses Poisson yang berkelompok, dengan setiap kejadian (kelompok) merupakan
jumlah dari variabel responnya, yaitu Y = Z1 + Z 2 + ... + Z n , dan Zi saling bebas
24
dan berdistribusi identik. Overdispersi juga dapat terjadi karena dalam
sekelompok data terdapat nilai nol yang jumlahnya sangat besar.
Hal yang dapat dilakukan ketika overdispersi terjadi adalah dengan
mengganti distribusi variabel respon Y menjadi berdistribusi binomial negatif
dengan Var (Y ) = φ E (Y ) , dengan φ > 1 adalah sebuah parameter yang dapat
ditaksir. Dalam kasus terdapat nilai nol dalam jumlah yang besar, overdispersi
dapat diatasi dengan mengganti distribusi variabel respon Y menjadi berdistribusi
Zero-Infated Poisson (ZIP).
3.4 Pengujian Overdispersi pada Regresi Poisson
Pengujian
overdispersi
pada
regresi
Poisson
dilakukan
dengan
menggunakan statistik uji skor (C. B. Dean, 1992, dalam Arie S. Utami, 2003: 10).
Prosedur yang akan dilakukan untuk melakukan pengujian tersebut adalah sebagai
berikut:
1. Perumusan Hipotesis
H0: τ = 0 (Tidak terdapat overdispersi pada model regresi Poisson).
H1: τ ≠ 0 (Terdapat overdispersi pada model regresi Poisson).
2. Besaran-besaran yang digunakan
∑ {(Y − µ )
n
a. Menghitung
i =1
i
i
1
 n
2
b. Menghitung 2∑ µi2  .
 i =1 
2
}
− µi .
25
3. Statistik Uji
Statistik uji yang digunakan adalah:
∑ {(Y − µ )
n
S=
i =1
i
2
i

2
 2∑ µ i 
 i =1 
n
− µi
}
1
2
.
...(3.4.1)
4. Kriteria Pengujian
Dengan mengambil taraf nyata α, maka: Tolak H0 jika |S|>Zα/2.
5. Kesimpulan
Penafsiran dari H0 diterima atau ditolak. Jika H0 ditolak, maka dalam
model regresi Poisson terdapat overdispersi sehingga model regresi
Poisson dapat dikatakan kurang tepat.
3.5 Model Regresi Zero-Inflated Poisson (ZIP)
Model Zero-Inflated Poisson, yang selanjutnya disebut ZIP, adalah sebuah
model yang digunakan untuk data hitung dengan nilai nol yang jumlahnya sangat
besar. Model ZIP mengasumsikan bahwa peluang nilai percobaan 0 adalah p, dan
peluang nilai percobaan dari variabel acak yang mengikuti distribusi Poisson
adalah 1-p. Sebagai contoh, ketika mesin produksi sedang dalam performa yang
baik dan tidak mengalami kerusakan, maka kecacatan dalam hasil produksi
mungkin tidak akan terjadi. Tetapi di lain pihak, ketika mesin produksi sedang
dalam keadaan yang tidak sempurna, maka kecacatan dalam hasil produksi akan
terjadi dan mengikuti distribusi Poisson.
Misalkan variabel respon y = ( y1 , y2 ,..., yn ) saling bebas dan
26
Yi =
{
0( perfect );
Poisson ( λ );
peluang pi
peluang 1- pi
.
Fungsi kepadatan peluang dari model ZIP adalah
f (Yi ) =
Dengan
nilai
{
pi + (1− pi )e − λi
(1− pi )e λi / yi !
0 ≤ pi < 1 .
− λi
Selanjutnya,
yi = 0
yi =1,2,K
parameter
...(3.5.1)
λ = ( λ1 ,..., λn ) '
dan
p = ( p1 ,..., pn ) ' memenuhi persamaan
 p 
log ( λ ) = Bβ dan logit ( p ) = log 
= Gγ
 (1 − p ) 


...(3.5.2)
Dengan β dan γ keduanya mewakili koefisien dari kovariat matriks B dan G,
tetapi matriks B bertindak sebagai fungsi log dari rata-rata λi dan matriks G
berfungsi sebagai fungsi logit dari peluang pi . Model regresi ZIP dapat digunakan
untuk mengatasi overdispersi pada regresi Poisson karena nilai variansinya lebih
besar daripada nilai rata-ratanya. Untuk distribusi ZIP, nilai rata-rata dan
variansinya adalah
E (Y ) = (1 − pi ) λ = µ ,
…(3.5.3)
 p
var (Y ) = µ +  i
 1 − pi
…(3.5.4)
 2
µ .

27
3.6 Metode Penaksir Kemungkinan Maksimum Untuk Regresi ZIP
Metode yang digunakan untuk menaksir parameter dalam regresi ZIP
adalah metode kemungkinan maksimum. Fungsi kemungkinan untuk model
regresi ZIP adalah

e − λi λi yi 
L {γ , β | yi } = ∏ pi + (1 − pi )e− λi .∏ (1 − pi )
.
yi ! 
yi =0
yi >0 
{
}
...(3.6.1)
Selanjutnya, fungsi log-kemungkinan untuk model regresi ZIP adalah

e − λi λi yi 

ln L {γ , β | y} = ln ∏ pi + (1 − pi )e − λi .∏ (1 − pi )

yi ! 
yi > 0 
 yi =0
{
}

= ln ∏ pi + (1 − pi )e − λi
 yi =0
{
}

e − λi λi yi
 
+
−
ln
(1
p
)

∏ 
i
yi !

 yi >0 




e −λi λi yi 
= ∑ ln pi + (1 − pi )e − λi + ∑ ln (1 − pi )

yi ! 
yi = 0
yi > 0

 pi


e − λi λi yi 
= ∑ ln 
+ e −λi  + ∑ ln (1 − pi )

yi ! 
yi = 0
 (1 − pi )
 yi >0 
{
=
(
∑ ln e
yi =0
}
Gi γ
(
+ exp −eBiβ
))
(
)
n
(
+ ∑ yi B i β − eBiβ −∑ ln 1 + e
yi > 0
i =1
Gi γ
) − ∑ ln ( y !).
yi > 0
...(3.6.1)
Dengan G i dan B i adalah baris ke-i pada G dan B. Penjumlahan eksponensial
pada suku pertama menyulitkan untuk memaksimumkan L {γ , β | yi } . Tetapi
misalkan diketahui nilai nol mana yang berasal dari keadaan sempurna dan mana
yang berasal dari distribusi Poisson, maka dapat diamati Z i = 1 ketika Yi berasal
dari keadaan sempurna dan Z i = 0 ketika Yi berasal dari distribusi Poisson.
Sehingga fungsi log-kemungkinan dengan data yang lengkap (y, z) akan menjadi:
i
28
n
n
i =1
i =1
Lc ( γ , β ; y, z ) = ∑ ln ( f ( zi | γ ) ) + ∑ ln ( f ( yi | zi , β) )
n
(
(
= ∑ zi G i γ − ln 1 + eG i γ
i =1
))
n
(
)
n
+ ∑ (1 − zi ) yi Bi β − eBi β − ∑ (1 − zi ) ln ( yi !)
i =1
i =1
n
= Lc ( γ; y , z ) + Lc ( β; y , z ) − ∑ (1 − zi ) ln ( yi !).
...(3.6.2)
i =1
Persamaan log-kemungkinan ini dapat dengan mudah dimaksimumkan, karena
Lc ( γ; y , z ) dan Lc ( β; y, z ) dapat dimaksimumkan secara terpisah. Dengan
menggunakan algoritma EM, log-kemungkinan untuk data yang tidak lengkap
dapat dimaksimumkan.
3.7 Algoritma EM pada Regresi ZIP
Algoritma Estimation Maximization (EM) pertama kali disusun oleh
Dempster, Laird, dan Rubin. Algoritma EM adalah salah satu teknik yang cukup
rumit, yang merupakan suatu metode umum untuk menemukan taksiran maximum
likelihood dari parameter pada distribusi yang diberikan oleh suatu kumpulan data,
ketika data tersebut tidak lengkap atau terdapat nilai yang hilang.
Algoritma EM memiliki dua aplikasi utama. Pertama, algoritma EM
digunakan ketika data mempunyai data benar-benar memiliki nilai yang hilang.
Untuk kasus ini digunakan pendekatan dari proses observasinya. Kedua, algoritma
EM digunakan ketika akan mengoptimalkan fungsi likelihood yang dilakukan
dengan cara menyederhanakan dengan mengasumsikan keberadaan suatu nilai
untuk menambahkan parameter tetapi tetap tersembunyi. Aplikasi yang terakhir
lebih umum digunakan.
29
Pada bagian sebelumnya, telah diketahui bahwa fungsi log-kemungkinan
pada regresi ZIP berbentuk:
n
Lc ( γ , β ; y , z ) = Lc ( γ; y , z ) + Lc ( β; y , z ) − ∑ (1 − zi ) ln ( yi !). …(3.7.1)
i =1
Untuk memaksimumkan fungsi tersebut, perlu dilakukan tiga langkah dari
algoritma EM, yaitu
1. Langkah E.
Menaksir Zi dengan rata-rata posterior Z i (
k)
berdasarkan taksiran γ ( k ) dan
β( k ) sehingga
Z i ( k ) = P  keadaan nol |yi , γ ( k ) , β( k ) 
=
P [ yi | keadaan nol] P [ keadaan nol ]
P [ yi | keadaan nol] P [ keadaan nol] + P [ yi |Poisson ] P [ Poisson ]
k
k
− G i γ ( ) − exp ( Bi β( ) ) 

= 1 + e



=0
−1
jika yi = 0
jika yi = 1, 2,...
2. Langkah M untuk β
(
)
k
Menentukan β ( k + 1) dengan memaksimumkan Lc β; y , Z( ) .
(
)
n
(
)
Lc β; y , Z ( k ) = ∑ (1 − zi ) yi B i β − eBiβ .
i =1
Fungsi tersebut dapat dimaksimumkan dengan regresi log-linear Poisson yang
diboboti, dengan bobot 1 − Z ( k ) .
30
3. Langkah M untuk γ
(
Memaksimumkan Lc γ; y , Z(
(
Lc γ; y , Z(
k)
k)
)
) = ∑ Z ( )G γ − ∑ Z ( ) ln (1 + e ) − ∑ (1 − Z ( ) ) ln (1 + e ).
k
yi = 0
n
k
i
i
yi = 0
k
Gi γ
i
Gi γ
i
i =1
Sebagai fungsi dari γ , persamaan tersebut tetap karena Zi( ) = 0 untuk yi > 0 .
k
Misalkan yi1 ,..., yin0 adalah nol. Definisikan
(
)
y *' = y1 ,..., yn , yi1 ,..., yin0 ,
(
)
G*' = G '1 ,..., G 'n , G 'i1 ,..., G 'in ,
0
(
)
P*' = p1 ,..., pn , pi1 ,..., pin0 .
Kemudian definisikan juga sebuah matriks diagonal W (
k)
dengan anggota
diagonalnya didefinisikan oleh:
(
)
w ( k ) = 1 − Z1( k ) ,...,1 − Z n( k ) , Z i(1k ) ,..., Z in( k0) .
Sehingga akan diperoleh
(
Lc γ; y, Z
(k )
n + n0
)= ∑ y w
i =1
(k )
*i
i
n + n0
(
)
G*i γ − ∑ wi( k ) log 1 + eG*i γ .
i =1
Gradien atau fungsi skornya adalah
G '* W ( k ) ( y * − P* ) = 0.
Negatif dari matriks informasinya adalah −G '* W ( k )Q*G * dengan Q* adalah
matriks diagonal dengan P* (1− P* ) pada diagonalnya. Fungsi tersebut identik
31
dengan regresi logistik yang diboboti dengan respon y * , matriks kovariat G * ,
dan bobot prior w( ) ; maka γ ( k ) dapat ditentukan dengan regresi logistik yang
k
diboboti.
3.8 Model Regresi ZIP
Setelah menentukan parameter β dan γ , model regresi ZIP berbentuk:
E (Yi | xi ) = µˆ i
µˆ i = (1 − pˆ i ) λˆi

exp ( Gi λ ) 
= 1 −
exp ( Bi β )
 1 + exp ( G λ ) 
i


exp ( Bi β )
µˆ i =
.
1 + exp ( Gi λ )
Download