Regresi Binomial Negatif Sebagai Mode

advertisement
2
dengan nilai tengah, E(X)=np dan ragamnya,
V(X)= npq.
Keterangan :
x = Banyaknya keberhasilan dalam n
ulangan
p = Peluang keberhasilan
q = Peluang kegagalan; q=1-p
n = Banyaknya
ulangan
bebas
yang
dilakukan.
Sebaran Poisson
Percobaan yang menghasilkan nilai-nilai
bagi suatu peubah acak X, yaitu banyaknya
hasil percobaan yang terjadi selama suatu
selang waktu tertentu atau di suatu daerah
tertentu sering disebut percobaan Poisson.
Percobaan Poisson memiliki ciri-ciri
sebagai berikut :
1. Banyaknya hasil percobaan yang terjadi
dalam suatu selang waktu atau suatu daerah
tertentu tidak bergantung pada banyaknya
hasil percobaan yang terjadi pada selang
waktu atau daerah lain yang terpisah.
2. Peluang terjadinya satu hasil percobaan
selama suatu selang waktu yang singkat
sekali atau dalam suatu daerah yang kecil,
sebanding dengan panjang selang waktu
tersebut atau besarnya daerah tersebut dan
tidak bergantung pada banyaknya hasil
percobaan yang terjadi di luar selang waktu
atau daerah tersebut.
3. Peluang bahwa lebih dari satu hasil
percobaan akan terjadi dalam selang waktu
yang singkat tersebut atau dalam daerah
yang kecil tersebut dapat diabaikan.
Sebaran peluang bagi peubah acak ini
disebut sebaran Poisson. Sebaran Poison
hanya bergantung pada rata-rata banyaknya
hasil percobaan yang terjadi selama selang
waktu atau daerah yang diberikan. Sehingga
sebaran Poisson memiliki fungsi peluang
sebagai berikut (Walpole 1974) :
(
)
dengan nilai tengah dan ragamnya sama,
E(X)=V(X)=µ.
Keterangan :
x = Banyaknya hasil percobaan yang terjadi
selama suatu selang waktu atau daerah
tertentu
µ = Rata-rata banyaknya hasil percobaan
yang terjadi selama selang waktu atau
dalam daerah yang diberikan
e = 2.71828…
Sebaran Poisson dan Binomial memiliki
bentuk histogram yang bentuknya hampir
sama bila n besar dan p kecil (dekat dengan
nol). Oleh karena itu, bila kedua kondisi itu
dipenuhi, sebaran Poisson dengan µ=np dapat
digunakan untuk menghampiri peluang
Binomial.
Sebaran Binomial Negatif
Sebaran Binomial Negatif merupakan
sebaran peubah acak yang mirip dengan
sebaran Binomial, kecuali bahwa ulangan
diulang terus sampai terjadi sejumlah
keberhasilan tertentu. Jadi, jika pada sebaran
Binomial ingin ditentukan x keberhasilan
dalam n ulangan, dengan n telah ditetapkan
terlebih dahulu, namun pada sebaran Binomial
Negatif ingin diketahui peluang keberhasilan
ke-k terjadi pada ulangan ke-x.
Sebaran Binomial Negatif memiliki ciriciri yang sama dengan sebaran Binomial.
Sebaran peluangnya disebut sebaran Binomial
Negatif. Karena nilai peluang dalam sebaran
tersebut
bergantung
pada
banyaknya
keberhasilan yang diinginkan dan peluang
keberhasilan pada suatu ulangan, maka fungsi
peluang bagi sebaran Binomial Negatif adalah
sebagai berikut (Walpole 1974) :
(
)
(
)
( )
dengan nilai tengah,
( )
dan ragamnya,
.
Keterangan :
x = Banyaknya ulangan yang dilakukan
sampai diperoleh r keberhasilan
k = Banyaknya keberhasilan
p = Peluang keberhasilan
q = Peluang kegagalan; q=1-p.
Sebaran Binomial Negatif merupakan
sebaran campuran Poisson-Gamma. Misalkan
bahwa peubah acak Y~Poisson (λ) dan
diasumsikan λ~Gamma (α,β). Sebaran
Gamma (α,β) memiliki nilai tengah αβ dan
ragam αβ2. Fungsi peluang bersama bagi Y
dan λ dapat ditulis sebagai berikut :
(
)
( | ) ( )
Akan tetapi, karena λ tidak diamati maka λ
harus
dipisahkan
melalui
sebaran
marginalnya, yaitu :
(
)
∫
( | ) ( )
∫
( )
( )
∫
(
)
3
Integral di atas diselesaikan menggunakan
bantuan fungsi Gamma yaitu :
(
(
)
(
∫
)
)
∫ [(
(
) ]
)
[(
) ]
dengan demikian sebaran marginal dapat
ditulis sebagai berikut :
(
)
(
)
( )
(
(
)
( )
(
)
( )
(
)
(
) (
) (
)
keluarga
eksponensial
dan
modelnya
merupakan fungsi dari nilai harapannya.
Agresti (2002) menyatakan ada tiga
komponen dalam GLM yaitu :
1. Random component (komponen acak) yang
ditunjukkan dengan peubah respon Y dan
peluang distribusinya.
2. Systematic
component
(komponen
sistematik) yang ditunjukkan dengan
peubah penjelas yang digunakan.
3. Link
function
(fungsi
penghubung)
ditunjukkan dengan fungsi nilai harapannya
sama dengan komponen sistematiknya.
Regresi Poisson
Regresi Poisson merupakan salah satu
model regresi dengan peubah respon Y yang
menyebar mengikuti sebaran Poisson. Fungsi
peluang sebaran Poisson dapat ditulis sebagai
berikut :
)
untuk y=0, 1, 2, 3,…
sehingga diperoleh nilai tengah dan ragamnya
sebagai berikut :
( | )
( )
( | )]
( | )]
( )
( )
( )
( )
)
(
(
)
(
)
) (
)
Misalkan
merupakan contoh
acak dari sebaran Poisson dengan rata-rata .
Fungsi peluang dinyatakan sebagai berikut:
Model regresi Binomial Negatif yang
dibangun memiliki sebaran Binomial Negatif
dengan parameter µ dan k, dimana
dan
, sehingga nilai tengah dan
ragamnya menjadi, ( )
dan ( )
. Ragam ini merupakan fungsi
kuadratik yang mengakomodasi parameter
overdisperssion (k > 0). Sehingga sebaran Y
menjadi:
(
(
)
Jika k→0 maka sebaran ini mendekati
sebaran Poisson (µ). Binomial Negatif mampu
mengakomodasi overdisperssion (k > 0) tetapi
tidak underdisperssion (k < 1) pada model
Poisson. Secara umum didefenisikan bahwa
peubah respon merupakan peubah acak yang
menyebar menurut sebaran Binomial Negatif
dengan parameter µ dan k sebagai berikut :
Y~ BN (µ, k)
dan fungsi penghubung log yaitu :
log µ = XTβ
Generalized Linear Model (GLM)
Generalized Linear Model (GLM)
merupakan perluasan dari model regresi
umum untuk respon berdistribusi dalam
(
)
Regresi Poisson termasuk salah satu dari
Generalized Linear Model (GLM) karena
peubah respon memiliki sebaran dalam
keluarga eksponensial yaitu sebaran Poisson.
Regresi Poisson mengasumsikan bahwa
peubah respon yang menyebar Poisson, tidak
ada multikolinearitas antar peubah penjelas,
dan memiliki ragam yang sama dengan nilai
tengahnya. Asumsi multikolinearitas dalam
penelitian ini dilihat dari nilai korelasi antar
peubah penjelas. Jika nilai korelasinya lemah
(r<0.5) maka dianggap tidak ada masalah
multikolinearitas. Pada GLM terdapat sebuah
fungsi
yang linear dan menghubungkan
nilai tengah peubah respon dengan sebuah
peubah penjelas yaitu:
( )
( )
Fungsi
disebut fungsi penghubung (link
function). Hubungan antara nilai tengah
dengan peubah penjelas linear adalah:
( )
(
)
Terdapat dua fungsi penghubung yang
biasa digunakan dalam regresi Poisson.
Pertama adalah penghubung identitas (identity
4
link). Kedua adalah penghubung log (log
link). Fungsi penghubung identitas memiliki
bentuk :
( )
dan fungsi penghubung log berbentuk :
( )
( )
Fungsi penghubung log adalah fungsi
yang lebih cocok digunakan karena fungsi log
menjamin bahwa nilai peubah yang
diharapkan dari peubah responnya akan
bernilai non negatif. Sehingga fungsi
penghubung yang digunakan dalam penelitian
ini adalah fungsi penghubung log. Hubungan
antara nilai tengah peubah respon dengan
peubah penjelas linear adalah sebagai berikut :
( )
(
)
Sehingga model regresi Poisson berganda
dapat dituliskan sebagai berikut:
(
dispersi yang dihasilkan lebih besar dari satu
maka model tersebut dikatakan mengalami
overdisperssion.
Deviance
model
regresi
Poisson
memiliki
persamaan
sebagai
berikut
(Kleinbaum et al. 1988) :
)
dengan
merupakan peubah penjelas ke-k
pada pengamatan ke-i dan
dan
adalah nilai tengah banyaknya kejadian
(Cameron dan Trivedi 1998).
Pendugaan parameter koefisien regresi
Poisson dapat diduga menggunakan Penduga
Kemungkinan
Maksimum
(Maximum
Likelihood Estimator) melalui iterasi dengan
metode
Fisher
Scoring
untuk
memaksimumkan fungsi log-likelihoodnya.
Hal ini dilakukan karena penurunan rumus
yang tidak bisa dilakukan secara matematis
karena cukup sulit sehingga dilakukan melalui
metode iterasi. Metode Fisher Scoring dalam
penelitian ini dilakukan menggunakan
perangkat lunak R 2.14.0.
Overdisperssion pada Data Cacahan
Long (1997) dalam Jackman (2003)
menyatakan bahwa kejadian overdisperssion
karena adanya sumber karagaman yang tidak
teramati pada data atau adanya pengaruh
peubah lain yang mengakibatkan peluang
terjadinya suatu kejadian bergantung pada
kejadian
yang
sebelumnya.
Menurut
McCullagh & Nelder (1989), data cacahan
untuk regresi Poisson dikatakan mengandung
overdisperssion jika ragam lebih besar dari
nilai tengahnya, Var(Y)>E(Y). Dugaan
dispersi dapat diukur melalui rasio antara
Deviance dengan derajat bebasnya. Rasio ini
selanjutnya disebut rasio dispersi. Jika rasio
[
( | ̂)
]
( | ̂)
∑[
(
̂
(
̂ ))]
dengan
( | ̂ ) adalah logaritma natural
dari model kemungkinan tanpa melibatkan
( | ̂ ) adalah
semua peubah penjelas dan
logaritma natural dari model yang melibatkan
semua peubah penjelas.
Regresi Binomial Negatif
Misalkan yi adalah nilai dari peubah
respon untuk pengamatan ke-i dan xi adalah
vektor dari nilai peubah penjelas untuk
pengamatan ke-i dengan i=1,2,..,n. Model
regresi Binomial Negatif mengasumsikan
bahwa peubah respon ke-i mengikuti sebaran
Binomial Negatif. Model regresi Binomial
Negatif berganda dapat dituliskan sebagai
berikut:
(
)
Pendugaan
parameter
koefisien
Regresi Binomial Negatif dapat diduga
menggunakan
Penduga
Kemungkinan
Maksimum (Maximum Likelihood Estimator)
melalui iterasi dengan metode Fisher Scoring
untuk
memaksimumkan
fungsi
loglikelihoodnya. Hal ini dilakukan karena
penurunan rumus yang tidak bisa dilakukan
secara matematis karena cukup sulit sehingga
dilakukan melalui metode iterasi. Metode
Fisher Scoring dalam penelitian ini dilakukan
menggunakan perangkat lunak R 2.14.0.
Ukuran Kebaikan Model Regresi Binomial
Negatif
Pemilihan model regresi yang terbaik
perlu dilakukan untuk memperoleh hasil
analisis regresi yang optimal. Beberapa
ukuran kebaikan model yang digunakan pada
regresi Binomial Negatif
adalah Akaike
Information Criteria (AIC) dan Koefisien
Determinasi (R2).
Akaike Information Criteria (AIC)
Perhitungan
perbaikan
model
kemungkinan maksimum yang sering
digunakan adalah Akaike Information Criteria
(AIC). Akaike mendefenisikan perhitungan
AIC sebagai berikut :
( | ̂)
Download