BAB III MODEL ZERO-INFLATED POISSON UNTUK MENGATASI OVERDISPERSI PADA REGRESI POISSON Pada bab ini akan dibahas mengenai regresi Poisson, overdispersi pada regresi Poisson, pengujian overdispersi pada regresi Poisson, dan model ZeroInflated Poisson. Konsep-konsep yang mendukung materi pada bab ini telah dipaparkan pada bab sebelumnya. 3.1 Regresi Poisson Regresi Poisson merupakan salah satu model regresi dengan variabel responnya tidak berasal dari distribusi normal. Variabel respon dalam regresi Poisson ini berasal dari data hitung yang diharapkan jarang terjadi, seperti kecacatan dalam barang hasil produksi, error dalam perangkat lunak (software), dan zat polutan dalam lingkungan. Fungsi kepadatan peluang (fkp) yang sering digunakan untuk data hitung adalah distribusi Poisson, yaitu f ( y) = e− µ µ y , y! y = 0,1,K …(3.1.1) Parameter µ > 0 . Model dari regresi Poisson dapat dituliskan sebagai yˆi = E (Yi ) + ε i i = 1, 2,...n. Ekspektasi dari variabel responnya dapat ditulis …(3.1.2) 21 E (Yi ) = µi . …(3.1.3) Dalam Generalized Linear Model (GLM), terdapat sebuah fungsi g yang menghubungkan rata-rata dari variabel responnya dengan sebuah prediktor linear, yaitu g ( µi ) = ηi = β 0 + β1 x1 + ... + β k xk = xi 'β. …(3.1.4) Fungsi g biasanya disebut fungsi penghubung (link fuction). Hubungan antara rata-rata dan prediktor linear adalah µi = g −1 (ηi ) = g −1 ( x i 'β ) . …(3.1.5) Terdapat dua fungsi penghubung yang biasa digunakan dalam distribusi Poisson. Pertama adalah penghubung identitas (identity link), dan kedua adalah penghubung log (log link). Fungsi penghubung identitas berbentuk g ( µi ) = µi = xi 'β. …(3.1.6) Ketika fungsi penghubung identitas ini digunakan, maka E (Yi ) = µi = xi'β karena µi = g −1 ( x i 'β ) = x i 'β. …(3.1.7) Fungsi penghubung selanjutnya adalah penghubung log yang berbentuk g ( µi ) = ln ( µi ) = xi'β. …(3.1.8) Untuk fungsi penghubung log dalam persamaan (3.1.8), hubungan antara rata-rata variabel respon dan prediktor linear adalah ln µ i = x i 'β e ln µi = e xi β ' µi = ex β . ' i …(3.1.9) 22 Fungsi penghubung log adalah fungsi penghubung yang lebih cocok digunakan, karena fungsi log menjamin bahwa nilai yang diharapkan dari variabel responnya akan bernilai non negatif. Dalam pembahasan ini, fungsi penghubung yang dipilih adalah fungsi penghubung log. 3.2 Penaksiran Parameter Regresi Poisson Metode yang digunakan untuk menaksir parameter pada regresi Poisson adalah metode kemungkinan maksimum. Misalkan terdapat sampel acak dari n pengamatan pada variabel respon Y dan variabel prediktor X, maka fungsi kemungkinannya adalah n L ( y, β ) = ∏ f i ( yi ) i =1 n =∏ i =1 e − µi µi yi yi ! n i = n i =1 ∏ µi y exp −∑ µi i =1 . n ∏y ! i =1 i Setelah fungsi penghubung dipilih, dalam hal ini adalah fungsi penghubung log, akan dimaksimumkan fungsi log-kemungkinannya n n n i =1 i =1 i =1 ln L ( y , β ) = ∑ yi ln ( µi ) − ∑ µi − ∑ ln ( yi !). …(3.2.1) Untuk menentukan penaksir kemungkinan maksimumnya, digunakan teknik iteratif yang cukup rumit. Beberapa perangkat lunak telah menyediakan fasilitas untuk menghitung penaksir bagi parameter regresi Poisson, diantaranya GLIM, SAS, S-PLUS, dan STATA. Dalam tugas akhir ini, perangkat lunak yang 23 digunakan adalah S-PLUS. Uji keberartian koefisien regresi juga akan dilakukan menggunakan perangkat lunak S-PLUS. Kemudian setelah diperoleh penaksir parameter βˆ , model regresi Poisson berbentuk: ( ) yˆi = g −1 x i'βˆ . …(3.2.2) Sebagai contoh, jika penghubung identitas digunakan, maka persamaannya menjadi: ( ) yˆi = g −1 xi'βˆ = x i'βˆ . …(3.2.3) Dan jika penghubung log dipilih, maka ( ) ( ) yˆi = g −1 x i'βˆ = exp x i'βˆ . …(3.2.4) 3.3 Overdispersi Pada Model Regresi Poisson Overdispersi merupakan sebuah kondisi yang dapat terjadi ketika pemodelan menggunakan distribusi Poisson. Hal ini terjadi karena distribusi Poisson memiliki rata-rata dan variansi yang sama, yaitu Var (Y ) = E (Y ) , tetapi pada kenyataannya hal yang kadang terjadi adalah variansi dari variabel responnya lebih besar daripada rata-ratanya, Var (Y ) > E (Y ) , keadaan seperti ini disebut dengan overdispersi. Overdispersi dapat terjadi jika data yang diperoleh merupakan hasil dari proses Poisson yang berkelompok, dengan setiap kejadian (kelompok) merupakan jumlah dari variabel responnya, yaitu Y = Z1 + Z 2 + ... + Z n , dan Zi saling bebas 24 dan berdistribusi identik. Overdispersi juga dapat terjadi karena dalam sekelompok data terdapat nilai nol yang jumlahnya sangat besar. Hal yang dapat dilakukan ketika overdispersi terjadi adalah dengan mengganti distribusi variabel respon Y menjadi berdistribusi binomial negatif dengan Var (Y ) = φ E (Y ) , dengan φ > 1 adalah sebuah parameter yang dapat ditaksir. Dalam kasus terdapat nilai nol dalam jumlah yang besar, overdispersi dapat diatasi dengan mengganti distribusi variabel respon Y menjadi berdistribusi Zero-Infated Poisson (ZIP). 3.4 Pengujian Overdispersi pada Regresi Poisson Pengujian overdispersi pada regresi Poisson dilakukan dengan menggunakan statistik uji skor (C. B. Dean, 1992, dalam Arie S. Utami, 2003: 10). Prosedur yang akan dilakukan untuk melakukan pengujian tersebut adalah sebagai berikut: 1. Perumusan Hipotesis H0: τ = 0 (Tidak terdapat overdispersi pada model regresi Poisson). H1: τ ≠ 0 (Terdapat overdispersi pada model regresi Poisson). 2. Besaran-besaran yang digunakan ∑ {(Y − µ ) n a. Menghitung i =1 i i 1 n 2 b. Menghitung 2∑ µi2 . i =1 2 } − µi . 25 3. Statistik Uji Statistik uji yang digunakan adalah: ∑ {(Y − µ ) n S= i =1 i 2 i 2 2∑ µ i i =1 n − µi } 1 2 . ...(3.4.1) 4. Kriteria Pengujian Dengan mengambil taraf nyata α, maka: Tolak H0 jika |S|>Zα/2. 5. Kesimpulan Penafsiran dari H0 diterima atau ditolak. Jika H0 ditolak, maka dalam model regresi Poisson terdapat overdispersi sehingga model regresi Poisson dapat dikatakan kurang tepat. 3.5 Model Regresi Zero-Inflated Poisson (ZIP) Model Zero-Inflated Poisson, yang selanjutnya disebut ZIP, adalah sebuah model yang digunakan untuk data hitung dengan nilai nol yang jumlahnya sangat besar. Model ZIP mengasumsikan bahwa peluang nilai percobaan 0 adalah p, dan peluang nilai percobaan dari variabel acak yang mengikuti distribusi Poisson adalah 1-p. Sebagai contoh, ketika mesin produksi sedang dalam performa yang baik dan tidak mengalami kerusakan, maka kecacatan dalam hasil produksi mungkin tidak akan terjadi. Tetapi di lain pihak, ketika mesin produksi sedang dalam keadaan yang tidak sempurna, maka kecacatan dalam hasil produksi akan terjadi dan mengikuti distribusi Poisson. Misalkan variabel respon y = ( y1 , y2 ,..., yn ) saling bebas dan 26 Yi = { 0( perfect ); Poisson ( λ ); peluang pi peluang 1- pi . Fungsi kepadatan peluang dari model ZIP adalah f (Yi ) = Dengan nilai { pi + (1− pi )e − λi (1− pi )e λi / yi ! 0 ≤ pi < 1 . − λi Selanjutnya, yi = 0 yi =1,2,K parameter ...(3.5.1) λ = ( λ1 ,..., λn ) ' dan p = ( p1 ,..., pn ) ' memenuhi persamaan p log ( λ ) = Bβ dan logit ( p ) = log = Gγ (1 − p ) ...(3.5.2) Dengan β dan γ keduanya mewakili koefisien dari kovariat matriks B dan G, tetapi matriks B bertindak sebagai fungsi log dari rata-rata λi dan matriks G berfungsi sebagai fungsi logit dari peluang pi . Model regresi ZIP dapat digunakan untuk mengatasi overdispersi pada regresi Poisson karena nilai variansinya lebih besar daripada nilai rata-ratanya. Untuk distribusi ZIP, nilai rata-rata dan variansinya adalah E (Y ) = (1 − pi ) λ = µ , …(3.5.3) p var (Y ) = µ + i 1 − pi …(3.5.4) 2 µ . 27 3.6 Metode Penaksir Kemungkinan Maksimum Untuk Regresi ZIP Metode yang digunakan untuk menaksir parameter dalam regresi ZIP adalah metode kemungkinan maksimum. Fungsi kemungkinan untuk model regresi ZIP adalah e − λi λi yi L {γ , β | yi } = ∏ pi + (1 − pi )e− λi .∏ (1 − pi ) . yi ! yi =0 yi >0 { } ...(3.6.1) Selanjutnya, fungsi log-kemungkinan untuk model regresi ZIP adalah e − λi λi yi ln L {γ , β | y} = ln ∏ pi + (1 − pi )e − λi .∏ (1 − pi ) yi ! yi > 0 yi =0 { } = ln ∏ pi + (1 − pi )e − λi yi =0 { } e − λi λi yi + − ln (1 p ) ∏ i yi ! yi >0 e −λi λi yi = ∑ ln pi + (1 − pi )e − λi + ∑ ln (1 − pi ) yi ! yi = 0 yi > 0 pi e − λi λi yi = ∑ ln + e −λi + ∑ ln (1 − pi ) yi ! yi = 0 (1 − pi ) yi >0 { = ( ∑ ln e yi =0 } Gi γ ( + exp −eBiβ )) ( ) n ( + ∑ yi B i β − eBiβ −∑ ln 1 + e yi > 0 i =1 Gi γ ) − ∑ ln ( y !). yi > 0 ...(3.6.1) Dengan G i dan B i adalah baris ke-i pada G dan B. Penjumlahan eksponensial pada suku pertama menyulitkan untuk memaksimumkan L {γ , β | yi } . Tetapi misalkan diketahui nilai nol mana yang berasal dari keadaan sempurna dan mana yang berasal dari distribusi Poisson, maka dapat diamati Z i = 1 ketika Yi berasal dari keadaan sempurna dan Z i = 0 ketika Yi berasal dari distribusi Poisson. Sehingga fungsi log-kemungkinan dengan data yang lengkap (y, z) akan menjadi: i 28 n n i =1 i =1 Lc ( γ , β ; y, z ) = ∑ ln ( f ( zi | γ ) ) + ∑ ln ( f ( yi | zi , β) ) n ( ( = ∑ zi G i γ − ln 1 + eG i γ i =1 )) n ( ) n + ∑ (1 − zi ) yi Bi β − eBi β − ∑ (1 − zi ) ln ( yi !) i =1 i =1 n = Lc ( γ; y , z ) + Lc ( β; y , z ) − ∑ (1 − zi ) ln ( yi !). ...(3.6.2) i =1 Persamaan log-kemungkinan ini dapat dengan mudah dimaksimumkan, karena Lc ( γ; y , z ) dan Lc ( β; y, z ) dapat dimaksimumkan secara terpisah. Dengan menggunakan algoritma EM, log-kemungkinan untuk data yang tidak lengkap dapat dimaksimumkan. 3.7 Algoritma EM pada Regresi ZIP Algoritma Estimation Maximization (EM) pertama kali disusun oleh Dempster, Laird, dan Rubin. Algoritma EM adalah salah satu teknik yang cukup rumit, yang merupakan suatu metode umum untuk menemukan taksiran maximum likelihood dari parameter pada distribusi yang diberikan oleh suatu kumpulan data, ketika data tersebut tidak lengkap atau terdapat nilai yang hilang. Algoritma EM memiliki dua aplikasi utama. Pertama, algoritma EM digunakan ketika data mempunyai data benar-benar memiliki nilai yang hilang. Untuk kasus ini digunakan pendekatan dari proses observasinya. Kedua, algoritma EM digunakan ketika akan mengoptimalkan fungsi likelihood yang dilakukan dengan cara menyederhanakan dengan mengasumsikan keberadaan suatu nilai untuk menambahkan parameter tetapi tetap tersembunyi. Aplikasi yang terakhir lebih umum digunakan. 29 Pada bagian sebelumnya, telah diketahui bahwa fungsi log-kemungkinan pada regresi ZIP berbentuk: n Lc ( γ , β ; y , z ) = Lc ( γ; y , z ) + Lc ( β; y , z ) − ∑ (1 − zi ) ln ( yi !). …(3.7.1) i =1 Untuk memaksimumkan fungsi tersebut, perlu dilakukan tiga langkah dari algoritma EM, yaitu 1. Langkah E. Menaksir Zi dengan rata-rata posterior Z i ( k) berdasarkan taksiran γ ( k ) dan β( k ) sehingga Z i ( k ) = P keadaan nol |yi , γ ( k ) , β( k ) = P [ yi | keadaan nol] P [ keadaan nol ] P [ yi | keadaan nol] P [ keadaan nol] + P [ yi |Poisson ] P [ Poisson ] k k − G i γ ( ) − exp ( Bi β( ) ) = 1 + e =0 −1 jika yi = 0 jika yi = 1, 2,... 2. Langkah M untuk β ( ) k Menentukan β ( k + 1) dengan memaksimumkan Lc β; y , Z( ) . ( ) n ( ) Lc β; y , Z ( k ) = ∑ (1 − zi ) yi B i β − eBiβ . i =1 Fungsi tersebut dapat dimaksimumkan dengan regresi log-linear Poisson yang diboboti, dengan bobot 1 − Z ( k ) . 30 3. Langkah M untuk γ ( Memaksimumkan Lc γ; y , Z( ( Lc γ; y , Z( k) k) ) ) = ∑ Z ( )G γ − ∑ Z ( ) ln (1 + e ) − ∑ (1 − Z ( ) ) ln (1 + e ). k yi = 0 n k i i yi = 0 k Gi γ i Gi γ i i =1 Sebagai fungsi dari γ , persamaan tersebut tetap karena Zi( ) = 0 untuk yi > 0 . k Misalkan yi1 ,..., yin0 adalah nol. Definisikan ( ) y *' = y1 ,..., yn , yi1 ,..., yin0 , ( ) G*' = G '1 ,..., G 'n , G 'i1 ,..., G 'in , 0 ( ) P*' = p1 ,..., pn , pi1 ,..., pin0 . Kemudian definisikan juga sebuah matriks diagonal W ( k) dengan anggota diagonalnya didefinisikan oleh: ( ) w ( k ) = 1 − Z1( k ) ,...,1 − Z n( k ) , Z i(1k ) ,..., Z in( k0) . Sehingga akan diperoleh ( Lc γ; y, Z (k ) n + n0 )= ∑ y w i =1 (k ) *i i n + n0 ( ) G*i γ − ∑ wi( k ) log 1 + eG*i γ . i =1 Gradien atau fungsi skornya adalah G '* W ( k ) ( y * − P* ) = 0. Negatif dari matriks informasinya adalah −G '* W ( k )Q*G * dengan Q* adalah matriks diagonal dengan P* (1− P* ) pada diagonalnya. Fungsi tersebut identik 31 dengan regresi logistik yang diboboti dengan respon y * , matriks kovariat G * , dan bobot prior w( ) ; maka γ ( k ) dapat ditentukan dengan regresi logistik yang k diboboti. 3.8 Model Regresi ZIP Setelah menentukan parameter β dan γ , model regresi ZIP berbentuk: E (Yi | xi ) = µˆ i µˆ i = (1 − pˆ i ) λˆi exp ( Gi λ ) = 1 − exp ( Bi β ) 1 + exp ( G λ ) i exp ( Bi β ) µˆ i = . 1 + exp ( Gi λ )