(033 a) Ayunin1

advertisement
Seminar Nasional Statistika IX
Institut Teknologi Sepuluh Nopember, 7 November 2009
BINOMIAL NEGATIF SEBAGAI SALAH SATU ALTERNATIF
MENGATASI OVERDISPERSION PADA REGRESI POISSON
Oleh :
A’yunin Sofro
Jurusan Matematika FMIPA Universitas Negeri Surabaya
[email protected]
Abstrak. Pendekatan regresi Poisson mengasumsikan bahwa antara mean dan varian dari variabel respon
sama. Pada kenyataannya nilai dari variasi pada variabel respon melebihi mean. Apabila tetap
menggunakan regresi Poisson akan menghasilkan nilai deviasi yang cukup besar sehingga ada indikasi
terdapat kasus overdispersion. Dengan adanya kasus overdispersion akan mengakibatkan estimasi
parameter yang dihasilkan menjadi kurang tepat. Hasil penelitian menunjukkan bahwa dengan pendekatan
binomial negatif pada data klaim resiko sendiri memberikan hasil lebih baik daripada regresi Poisson
dengan menurunnya nilai devians. Pendekatan Binomial negatif juga memberikan nilai yang lebih kecil
pada kriteria AIC sebagai goodness of fit dari model
Kata kunci: AIC, Binomial Negatif, Overdispersion, Regresi Poisson
1.
Pendahuluan
Model regresi yang digunakan untuk menjelaskan hubungan antara variabel bebas dengan variabel
respon yang berdisribusi Poisson adalah model regresi Poisson. Dimana distribusi Poisson atau proses
kejadian Poisson berbentuk diskrit tapi tidak biner. Beberapa peneliti yang telah mengembangkan model
regresi Poisson adalah McCullagh dan Nelder (1989) mengemukakan model untuk jumlah kecelakaan dari
jasa kargo pada asuransi laut. Pada asuransi motor, Brockman dan Wright(1992) mengaplikasikan model
motor untuk klaim resiko sendiri dinegara United Kingdom (UK) dan Renshaw (1994) mengaplikasikan
modelklaim motor untuk perusahaan asuransi di UK.
Pada dasarnya, model regresi Poisson diasumsikan mean dan varian dari variable respon adalah sama.
Pada kejadiaan riilnya, data sangat dimungkinkan mempunyai penyebaran yang luas (overdispersion),
misalnya situasi dimana variasi melebihi mean. Apabila tetap menggunakan regresi Poisson akan
mengakibatkan estimasi parameter yang dihasilkan kurang tepat karena kemungkinan adanya overdispersion.
Sehingga perlu dilakukan pendekatan yang lain, salah satunya dengan menggunakan pendekatan binomial
negatif (Ismail dan Jemain, 2007).
Beberapa peneliti yang mengembangkan kasus ini adalah Gardner dan Ester (1995) di bidang psikologi
dan kriminilitas, Lee, dkk (2003) di bidang biomedical untuk mengetahui peluang penyakit yang belum
diketahui berdasarkan karakter indek stroke pada pasien. dan Ismail dan Jemain (2007) menggunakan
pendekatan binomial negatif dibidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim
asuransi kendaraan bermotor di Malaysia. Dari uraian diatas, maka tujuan penelitian adalah mengkaji model
binomial negatif untuk mengatasi adanya overdispersion pada Regresi Poisson.
2.
Tinjauan Pustaka
2.1 Regresi Poisson
Regresi Poisson adalah analisis regresi yang biasanya digunakan untuk data dengan repon berupa
variabel diskrit tetapi tidak biner. Dalam hal ini respon data tersebut berdistribusi Poisson dengan parameter
.
Hal ini sangat penting untuk dicatat bahwa parameter
 ini
sangat bergantung pada beberapa unit
tertentu atau periode dari waktu, jarak, luas area, volume dan sebagainya. Distribusi ini kemudian digunakan
untuk memodelkan suatu peristiwa yang keberadaannya relatif jarang atau langka untuk terjadi pada satuan
unit tertentu. Sebagai contoh, jika

adalah rata-rata suatu kejadian perunit waktu dan t adalah periode
waktu tertentu, maka rata-rata dari y menjad
 t. Jadi, peluang terjadinya kejadian y pada periode waktu ke- t
diberikan
f ( y;) 
eti (t)y
, y  0,1,2,
y!
Tapi seringkali terjadi bahwa banyaknya peristiwa itu bergantung pada tingkat dari variabel prediktor
yang berubah dalam proses pengambilan atau pengumpulan data. Jadi, untuk fenomena seperti itu maka kita
gunakan terminologi regresi Poisson.
Persamaan distribusi Poisson dapat dinyatakan sebagai :
P( yi;β) 
di mana
atau
eti xi ,βtixi ,βyi
yi!
(1)
yi adalah variabel respon berdistribusi Poisson dan tixi ,β menyatakan nilai harapan dari yi
E(yi ) . xi ,β merupakan modelregresi Poisson serta merupakan fungsi dari xi sebagai variabel
β sebagai parameter regresi yang ditaksir yang menyatakan seberapa besar pengaruh prediktor
prediktor dan
terhadap variabel respon sedangkan ti menyatakan periode waktu.
2.2 Penaksir Parameter Model Regresi Poisson
Metode penaksiran parameter regresi Poisson menggunakan metode MLE (Maximum Likelihood
Etimation). Fungsi likelihoodnya dari regresi Poisson adalah sebagai berikut.
L(β yi ) 
P(y ;β)
n
i
i 1
dan persamaan log likelihood adalah
ln L(β) 

n
i1

yi lntixi ,β
n
i1
tixi ,β
lny !
n
i1
i
Taksiran MLE untuk parameter model regresi Poisson dinyatakan dengan
dari turunan pertama fungsi log likelihoodnya, yaitu :
2
β̂
dan diperoleh dari solusi
U(β; y) 
lnL(β)
β
(2)
Sedangkan untuk varians diperoleh dari solusi dari turunan kedua fungsi log likelihoodnya, yaitu
g(β; y) 
2 ln L(β)
β2
Penyelesaian persamaan ini dapat dilakukan dengan prosedur iteratif. Kleinbaum (1988) menyatakan
bahwa prosedur yang umum digunakan untuk menyelesaikan persamaan ini adalah Itertatively Rewighted
Least Square (IRLS). Prosedur ini dilakukan dengan iterasi Newton-Raphson. Ide dasarnya dari modelini
adalah memaksimumkan fungsi likelihood. Memaksimumkan fungsi log-likelihood adalah sama dengan
U(β; y) pada (2). Dengan menggunakan MLE akan didapatkan suatu taksiran
meminimumkan fungsi
parameter yang konsisten dan efisien untuk ukuran n sampel besar. Langkah-langkah dalam metode Newton
Raphson untuk menaksir parameter regresi Poisson adalah sebagai berikut :
1.
Menentukan nilai taksiran awal parameter
β̂(0). Penentuan nilai awal ini diperoleh dengan metode
Ordinary Least Square (OLS), yaitu :
βˆ (0)  X'X1X'Y
2.
Membentuk vektor gradien g,
 ln Lβ ln Lβ ln Lβ

gT(k1)x1  
,
,,
β1
βk 
 β0
k adalah banyaknya parameter yang ditaksir.
3.
Membentuk matrik Hessian H :
 2 ln Lβ 2 ln Lβ
2 ln Lβ


 β02
β0β1
β0βk 

2
2



ln
L
β

ln Lβ


H(k1)x(k1)  
β1βk 
β12





2 ln Lβ
 simetris

βk2 

Matrik Hessian ini disebut juga matriks informasi.
4.
Memasukkan nilai
β̂(0) kedalam elemen-elemen vektor g dan matriks H, sehingga diperoleh vektor g(0)
dan H(0).
5.
Mulai dari m = 0 dilakukan iterasi pada persamaan :
β(m1) β(m) H(m1)g(m)
Nilai β(m) merupakan sekumpulan penakir parameter yang konvergen pada iterasi ke-m.
3
6.
Jika belum didapatkan penaksir parameter yang kovergen, maka dilanjutkan kembali langkah 5 hingga
ke m =m+1.
2.3 Model Binomial Negatif
Misal Yi adalah variabel random untuk distribusi binomial negatif. Fungsi kepadatan peluang adalah
P(Yi  yi ) 
( yi  vi )  vi 
( yi 1)(vi )  vi i 
vi
dimana meannya adalah
vi  dan
Jika
i
 i 


 vi i 
(3)
 
EYi xi   i dan variannya adalah VarYi xi  i2  ivi1.
parameter penyebaran

sama dengan nol, maka fungsi kepadatan peluang
ditunjukkan pada (3) akan menurun menjadi model regresi Poisson sehingga mean sama dengan varian
EYi xi   VarYi xi . Jika  > 0, maka EYi xi  < VarYi xi , menunjukkan model data diskret yang
overdispersion.
Fungsi likelihoodnya dari GPR adalah sebagai berikut.
L(β,) 
P(y ;β,)
n
i
i1
dan persamaan log likelihood adalah
LnLβ, 
y 1

1
 log(1r)  yi log() log(yi!)  yi log(i ) ( yi  )log(1i )
 r1

 
i
i
(4)
Taksiran MLE untuk parameter model binomial negatif dinyatakan dengan
β̂ dan diperoleh dari solusi
dari turunan pertama fungsi log likelihoodnya, yaitu :
k(β;) 
ln Lβ,
,
 j
j 1,2,, k
Untuk mendapatkan taksiran
β̂ selain menggunakan metode maksimum likelihood dapat menggunakan
prosedur Itertatively Rewighted Least Square (IRLS).
Dan taksiran parameter dispersion

diperoleh dengan turunan pertama dan kedua dari fungsi log
likelihood, diperoleh :
h(β;) 
ln Lβ,

(5)
2 ln Lβ,
2
(6)
m(β;) 
Untuk mendapatkan taksiran parameter
 , maka persamaan (5) dan (6) diatas diselesaikan secara simultan
secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS).
4
2.4 Ukuran Goodness of Fit Model Binomial Negatif
Akaike Information Criterion (AIC)
Akaike memperkenalkan kriteria informasi yang mempertimbangkan banyaknya parameter. Untuk
menghitung nilai AIC digunakan definisi sebagai berikut :
AIC = -   p
dimana
 adalah hasil dari log likelihood dari 
p adalah banyaknya parameter
semakin kecil nilai AIC nya maka modelsemakin baik.
3.
Metodologi Penelitian
Data yang digunakan adalah data sekunder yang berasal dari PT Asuransi Tripakarta khusus untuk
jenis asuransi kendaraan bermotor. Data yang akan diambil adalah data tentang klaim tipe resiko sendiri
periode 2007. Berdasarkan form yang ada pada PT Asuransi Tripakarta maka variabel penelitian yang
diteliti terdiri dari variabel prediktor (X) dan variabel responnya (Y), yang didefinisikan sebagai berikut :
Y = Banyaknya pengajuan klaim pertahun
X1 = Negara pembuat kendaraan, didefinisikan sebagai asal negara pembuat
kendaraan dengan kategori:
1 = Jepang, 3= Jerman, 5= Prancis
2 = Korea, 4= Italia, 6= Amerika
X2 = Gender Use, didefinisikan sebagai pengguna dari kendaraan bermotor
yang diasuransikan dengan kategori: 1 = pengguna pribadi
2 = pengguna bisnis
X3 = Umur kendaraan, didefinisikan sebagai tahun mulai pembuatan kendaraan
sampai dengan tahun pengajuan asuransi kendaraan
Langkah-langkah penelitiannya adalah terlebih dahulu memodelkan dengan regresi Poisson dengan
melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel kemudian dimodelkan
dengan menggunakan Binomial negatif. Nilai deviasi yang dihasilkan oleh regresi Poisson akan
dibandingkan dengan nilai deviasi dan AIC yang dihasilkan oleh Binomial negatif.
4.
Analisis Data Dan Pembahasan
4.1 Pemodelkan Data Dengan Regresi Poisson
Langkah pertama data klaim resiko sendiri dimodelkan dengan menggunakan regresi Poisson
dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variable. Dengan
menggunakan software SAS diperoleh hasil taksiran parameter dari model regresi Poisson sebagai
berikut.
5
Tabel 1. Hasil Taksiran Parameter Dengan Regresi Poisson
Parameter
Taksiran
Std Error
P-value
Intercept
-0,7367
0,1000
0,0001
X1
0,3527
0,0830
0,0001
X2
1,0882
0,0696
0,0001
X3
0,2990
0,0259
0,0001
Pada Tabel 1 dapat dilihat bahwa semua parameter yang signifikan. Hal ini ditunjukkan oleh
nilai p-value masing-masing parameter semua bernilai 0,0001 yang lebih kecil dari  = 0,05.
4.2 Analisis Adanya Kasus Dispersion Pada Regresi Poisson
Pada dasarnya, model regresi Poisson diasumsikan mean dan varian dari variabel respon adalah
sama. Pada kejadiaan riilnya, data sangat dimungkinkan mempunyai penyebaran yang luas (dispersion),
misalnya situasi dimana variasi melebihi mean. Apabila tetap menggunakan regresi Poisson maka
mengakibatkan terjadi kesalahan dalam menganalisis.
Kategori yang digunakan untuk mendeteksi keberadaan overdispersion atau underdispersion adalah
nilai deviasi dan pearson chi square yang dibagi dengan derajad bebas. Nilai atau hasil bagi yang lebih besar
dari satu mengindikasikan adanya overdispersion, sedangkan nilai atau hasil bagi yang lebih kecil dari satu
mengindikasikan adanya underdispersion.
Dengan menggunakan program SAS 9.1 dengan prosedur GENMOD, diperoleh kriteria goodness of
fit yang dapat dilihat pada Tabel 2.
Tabel 2. Kriteria goodness of fit Dari Regresi Poisson Dengan Prosedur GENMOD
Kriteria
Nilai
DF
Nilai/DF
Deviance
2908,72
494
5,89
Dari Tabel 2, dapat dilihat bahwa nilai deviasi yang diperoleh dari memodelkan dengan regresi
Poisson untuk pengguna bisnis cukup besar yaitu 2908,72 dan apabila nilai tersebut dibagi dengan derajad
bebasnya maka hasilnya lebih dari satu yaitu sebesar 5,89. Dari uraian tersebut dapat disimpulkan bahwa
data Klaim Resiko Sendiri untuk pengguna bisnis di PT Asuransi Tripakarta mengalami overdispersion.
Untuk mengatasi kasus tersebut maka menurut Ismail dan Jemain (2007) menyarankan untuk menggunakan
pendekatan binomial negatif untuk memodelkannya. Sehingga diharapkan akan diperoleh hasil estimasi
parameter yang lebih tepat. Langkah selanjutnya adalah memodelkan data klaim resiko sendiri dengan
menggunakan model Binomial Negatif.
6
4.3 Pemodelan Data Dengan Model Binomial Negatif
Langkah berikutnya adalah data klaim resiko sendiri dimodelkan dengan menggunakan model Binomial
Negatif dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel. Dengan
menggunakan software SAS diperoleh hasil taksiran parameter dari model Binomial negatif sebagai berikut.
Tabel 3. Hasil Taksiran Parameter dengan Binomial Negatif
Parameter
Estimasi
SE
P value
X0
-0,9639
0,3082
0,0018
X1
0,3481
0,2584
0,1779
X2
1,2543
0,2708
<,0001
X3
0,3613
0,1004
0,0003
Pada Tabel 3 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh
nilai p-value masing-masing parameter secara berurutan untuk
0,0003 yang lebih kecil dari  = 0,05. Sedangkan untuk
X0, X2, X3
adalah 0,0018; 0,0001 dan
X1 tidak signifikan dengan nilai p_value bernilai
sebesar 0,1779 yang lebih besar dari  = 0,05.
4.3 Analisis Adanya Kasus Dispersion Pada Model Binomial Negatif
Dengan menggunakan program SAS 9.1 dengan prosedur GENMOD, diperoleh kriteria goodness of
fit yang dapat dilihat pada Tabel 4.2.
Tabel 4.3. Kriteria goodness of fit Dari Regresi Poisson Dengan Prosedur GENMOD
Kriteria
Nilai
DF
Nilai/DF
Deviance
331,03
494
0,67
Dari Tabel 4.3, dapat dilihat bahwa nilai deviasi yang diperoleh dari model binomial negatif sebesar
331,03. Dapat disimpulkan bahwa dengan nilai deviasi dari data mampu diturunkan dengan menggunakan
pendekatan binomial negatif. Namun dan apabila nilai tersebut dibagi dengan derajad bebasnya maka
hasilnya kurang dari satu yaitu sebesar 0,67. Namun penurunan nilai deviasi tersebut tidak signifikan dalam
mengatasi kasus overdispersion, hal ini dikarenakan hasil bagi antara nilai deviasi dan derajad bebasnya
menjadi kurang dari satu. Pendekatan model binomial ngatif pada data resiko sendiri hanya mampu
menurunkan nilai deviasinya sedangkan kasus overdispersion menjadi kasus underdispersion.
4.4 Perbandingan Model Binomial Negatif terhadap Regresi Poisson
Langkah terakhir adalah membandingkan model Binomial Negatif dengan Regresi Poisson. Dengan
menggunakan program SAS 9.1 prosedur GENMOD akan diperoleh kriteria goodness of fit dari medel
binomial negatif dan regresi Poisson. Hasil dapat dilihat pada Tabel 5
7
Tabel 5. Kriteria Kebaikan Model dari Regresi Poisson Dan Binomial Negatif
Kriteria
Regresi Poisson
AIC
3429,5
Binomial
Negatif
3402,8
Pada penelitian ini kriteria pembanding yang digunakan adalah kriteria AIC, dimana semakin kecil nilai AIC
maka semakin baik model tersebut. Dari Tabel 5, pemodelan dengan binomial negatif menghasilkan nilai
AIC lebih kecil dari pada nilai AIC pada regresi Poisson , yaitu secara berurutan 3402,8 dan 3429,5. Model
yang baik memiliki nilai AIC yang lebih kecil. Berdasarkan kriteria tersebut
dapat disimpulkan bahwa
pemodelan dengan model binomial negatif pada data Resiko Sendiri di PT Asuransi Tripakarta kantor cabang
Surabaya Diponegoro memberikan hasil yang lebih baik daripada dengan menggunakan pemodelan regresi
Poisson.
5.
Kesimpulan
Pendekatan model binomial negatif pada data klaim resiko sendiri memberikan hasil lebih baik daripada
regresi Poisson dengan menurunnya nilai deviasi dan AIC yang diperoleh, namun penurunan nilai deviasi itu
tidak signifikan dalam mengatasi kasus overdispersion .
6.
Daftar Pustaka
Brockman, M. J., and Wright, T. S. (1992), Statistical Motor Rating: Making Effective Use of Your Data,
Journal of the Institute of Actuaries, 119: 3, p. 457-543.
Cameron, A.C., and Trivedi, P.K. (1998), Regression Analysis Of Count Data, Cambridge University Press,
Cambridge.
Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and
Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404.
Ismail, N., and Jemain, A. A. (2007), Handling Overdispersionwith Negative Binomial and Generalized
Poisson Regression Model, Casualty Actuarial Society Forum, Malaysia.
Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed Regression
Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139.
McCullagh, P., and Nelder, J. A. (1989), Generalized Linear Models. 2nd Edition. Chapman and Hall,
London.
Renshaw, A. E. (1994), Modeling the Claims Process in the Presence of Covariates, ASTIN Bulletin. 24: 2,
p.265-285.
8
Download