Seminar Nasional Statistika IX Institut Teknologi Sepuluh Nopember, 7 November 2009 BINOMIAL NEGATIF SEBAGAI SALAH SATU ALTERNATIF MENGATASI OVERDISPERSION PADA REGRESI POISSON Oleh : A’yunin Sofro Jurusan Matematika FMIPA Universitas Negeri Surabaya [email protected] Abstrak. Pendekatan regresi Poisson mengasumsikan bahwa antara mean dan varian dari variabel respon sama. Pada kenyataannya nilai dari variasi pada variabel respon melebihi mean. Apabila tetap menggunakan regresi Poisson akan menghasilkan nilai deviasi yang cukup besar sehingga ada indikasi terdapat kasus overdispersion. Dengan adanya kasus overdispersion akan mengakibatkan estimasi parameter yang dihasilkan menjadi kurang tepat. Hasil penelitian menunjukkan bahwa dengan pendekatan binomial negatif pada data klaim resiko sendiri memberikan hasil lebih baik daripada regresi Poisson dengan menurunnya nilai devians. Pendekatan Binomial negatif juga memberikan nilai yang lebih kecil pada kriteria AIC sebagai goodness of fit dari model Kata kunci: AIC, Binomial Negatif, Overdispersion, Regresi Poisson 1. Pendahuluan Model regresi yang digunakan untuk menjelaskan hubungan antara variabel bebas dengan variabel respon yang berdisribusi Poisson adalah model regresi Poisson. Dimana distribusi Poisson atau proses kejadian Poisson berbentuk diskrit tapi tidak biner. Beberapa peneliti yang telah mengembangkan model regresi Poisson adalah McCullagh dan Nelder (1989) mengemukakan model untuk jumlah kecelakaan dari jasa kargo pada asuransi laut. Pada asuransi motor, Brockman dan Wright(1992) mengaplikasikan model motor untuk klaim resiko sendiri dinegara United Kingdom (UK) dan Renshaw (1994) mengaplikasikan modelklaim motor untuk perusahaan asuransi di UK. Pada dasarnya, model regresi Poisson diasumsikan mean dan varian dari variable respon adalah sama. Pada kejadiaan riilnya, data sangat dimungkinkan mempunyai penyebaran yang luas (overdispersion), misalnya situasi dimana variasi melebihi mean. Apabila tetap menggunakan regresi Poisson akan mengakibatkan estimasi parameter yang dihasilkan kurang tepat karena kemungkinan adanya overdispersion. Sehingga perlu dilakukan pendekatan yang lain, salah satunya dengan menggunakan pendekatan binomial negatif (Ismail dan Jemain, 2007). Beberapa peneliti yang mengembangkan kasus ini adalah Gardner dan Ester (1995) di bidang psikologi dan kriminilitas, Lee, dkk (2003) di bidang biomedical untuk mengetahui peluang penyakit yang belum diketahui berdasarkan karakter indek stroke pada pasien. dan Ismail dan Jemain (2007) menggunakan pendekatan binomial negatif dibidang asuransi untuk mengetahui peluang nasabah dalam mengajukan klaim asuransi kendaraan bermotor di Malaysia. Dari uraian diatas, maka tujuan penelitian adalah mengkaji model binomial negatif untuk mengatasi adanya overdispersion pada Regresi Poisson. 2. Tinjauan Pustaka 2.1 Regresi Poisson Regresi Poisson adalah analisis regresi yang biasanya digunakan untuk data dengan repon berupa variabel diskrit tetapi tidak biner. Dalam hal ini respon data tersebut berdistribusi Poisson dengan parameter . Hal ini sangat penting untuk dicatat bahwa parameter ini sangat bergantung pada beberapa unit tertentu atau periode dari waktu, jarak, luas area, volume dan sebagainya. Distribusi ini kemudian digunakan untuk memodelkan suatu peristiwa yang keberadaannya relatif jarang atau langka untuk terjadi pada satuan unit tertentu. Sebagai contoh, jika adalah rata-rata suatu kejadian perunit waktu dan t adalah periode waktu tertentu, maka rata-rata dari y menjad t. Jadi, peluang terjadinya kejadian y pada periode waktu ke- t diberikan f ( y;) eti (t)y , y 0,1,2, y! Tapi seringkali terjadi bahwa banyaknya peristiwa itu bergantung pada tingkat dari variabel prediktor yang berubah dalam proses pengambilan atau pengumpulan data. Jadi, untuk fenomena seperti itu maka kita gunakan terminologi regresi Poisson. Persamaan distribusi Poisson dapat dinyatakan sebagai : P( yi;β) di mana atau eti xi ,βtixi ,βyi yi! (1) yi adalah variabel respon berdistribusi Poisson dan tixi ,β menyatakan nilai harapan dari yi E(yi ) . xi ,β merupakan modelregresi Poisson serta merupakan fungsi dari xi sebagai variabel β sebagai parameter regresi yang ditaksir yang menyatakan seberapa besar pengaruh prediktor prediktor dan terhadap variabel respon sedangkan ti menyatakan periode waktu. 2.2 Penaksir Parameter Model Regresi Poisson Metode penaksiran parameter regresi Poisson menggunakan metode MLE (Maximum Likelihood Etimation). Fungsi likelihoodnya dari regresi Poisson adalah sebagai berikut. L(β yi ) P(y ;β) n i i 1 dan persamaan log likelihood adalah ln L(β) n i1 yi lntixi ,β n i1 tixi ,β lny ! n i1 i Taksiran MLE untuk parameter model regresi Poisson dinyatakan dengan dari turunan pertama fungsi log likelihoodnya, yaitu : 2 β̂ dan diperoleh dari solusi U(β; y) lnL(β) β (2) Sedangkan untuk varians diperoleh dari solusi dari turunan kedua fungsi log likelihoodnya, yaitu g(β; y) 2 ln L(β) β2 Penyelesaian persamaan ini dapat dilakukan dengan prosedur iteratif. Kleinbaum (1988) menyatakan bahwa prosedur yang umum digunakan untuk menyelesaikan persamaan ini adalah Itertatively Rewighted Least Square (IRLS). Prosedur ini dilakukan dengan iterasi Newton-Raphson. Ide dasarnya dari modelini adalah memaksimumkan fungsi likelihood. Memaksimumkan fungsi log-likelihood adalah sama dengan U(β; y) pada (2). Dengan menggunakan MLE akan didapatkan suatu taksiran meminimumkan fungsi parameter yang konsisten dan efisien untuk ukuran n sampel besar. Langkah-langkah dalam metode Newton Raphson untuk menaksir parameter regresi Poisson adalah sebagai berikut : 1. Menentukan nilai taksiran awal parameter β̂(0). Penentuan nilai awal ini diperoleh dengan metode Ordinary Least Square (OLS), yaitu : βˆ (0) X'X1X'Y 2. Membentuk vektor gradien g, ln Lβ ln Lβ ln Lβ gT(k1)x1 , ,, β1 βk β0 k adalah banyaknya parameter yang ditaksir. 3. Membentuk matrik Hessian H : 2 ln Lβ 2 ln Lβ 2 ln Lβ β02 β0β1 β0βk 2 2 ln L β ln Lβ H(k1)x(k1) β1βk β12 2 ln Lβ simetris βk2 Matrik Hessian ini disebut juga matriks informasi. 4. Memasukkan nilai β̂(0) kedalam elemen-elemen vektor g dan matriks H, sehingga diperoleh vektor g(0) dan H(0). 5. Mulai dari m = 0 dilakukan iterasi pada persamaan : β(m1) β(m) H(m1)g(m) Nilai β(m) merupakan sekumpulan penakir parameter yang konvergen pada iterasi ke-m. 3 6. Jika belum didapatkan penaksir parameter yang kovergen, maka dilanjutkan kembali langkah 5 hingga ke m =m+1. 2.3 Model Binomial Negatif Misal Yi adalah variabel random untuk distribusi binomial negatif. Fungsi kepadatan peluang adalah P(Yi yi ) ( yi vi ) vi ( yi 1)(vi ) vi i vi dimana meannya adalah vi dan Jika i i vi i (3) EYi xi i dan variannya adalah VarYi xi i2 ivi1. parameter penyebaran sama dengan nol, maka fungsi kepadatan peluang ditunjukkan pada (3) akan menurun menjadi model regresi Poisson sehingga mean sama dengan varian EYi xi VarYi xi . Jika > 0, maka EYi xi < VarYi xi , menunjukkan model data diskret yang overdispersion. Fungsi likelihoodnya dari GPR adalah sebagai berikut. L(β,) P(y ;β,) n i i1 dan persamaan log likelihood adalah LnLβ, y 1 1 log(1r) yi log() log(yi!) yi log(i ) ( yi )log(1i ) r1 i i (4) Taksiran MLE untuk parameter model binomial negatif dinyatakan dengan β̂ dan diperoleh dari solusi dari turunan pertama fungsi log likelihoodnya, yaitu : k(β;) ln Lβ, , j j 1,2,, k Untuk mendapatkan taksiran β̂ selain menggunakan metode maksimum likelihood dapat menggunakan prosedur Itertatively Rewighted Least Square (IRLS). Dan taksiran parameter dispersion diperoleh dengan turunan pertama dan kedua dari fungsi log likelihood, diperoleh : h(β;) ln Lβ, (5) 2 ln Lβ, 2 (6) m(β;) Untuk mendapatkan taksiran parameter , maka persamaan (5) dan (6) diatas diselesaikan secara simultan secara iteratif dengan prosedur Itertatively Rewighted Least Square (IRLS). 4 2.4 Ukuran Goodness of Fit Model Binomial Negatif Akaike Information Criterion (AIC) Akaike memperkenalkan kriteria informasi yang mempertimbangkan banyaknya parameter. Untuk menghitung nilai AIC digunakan definisi sebagai berikut : AIC = - p dimana adalah hasil dari log likelihood dari p adalah banyaknya parameter semakin kecil nilai AIC nya maka modelsemakin baik. 3. Metodologi Penelitian Data yang digunakan adalah data sekunder yang berasal dari PT Asuransi Tripakarta khusus untuk jenis asuransi kendaraan bermotor. Data yang akan diambil adalah data tentang klaim tipe resiko sendiri periode 2007. Berdasarkan form yang ada pada PT Asuransi Tripakarta maka variabel penelitian yang diteliti terdiri dari variabel prediktor (X) dan variabel responnya (Y), yang didefinisikan sebagai berikut : Y = Banyaknya pengajuan klaim pertahun X1 = Negara pembuat kendaraan, didefinisikan sebagai asal negara pembuat kendaraan dengan kategori: 1 = Jepang, 3= Jerman, 5= Prancis 2 = Korea, 4= Italia, 6= Amerika X2 = Gender Use, didefinisikan sebagai pengguna dari kendaraan bermotor yang diasuransikan dengan kategori: 1 = pengguna pribadi 2 = pengguna bisnis X3 = Umur kendaraan, didefinisikan sebagai tahun mulai pembuatan kendaraan sampai dengan tahun pengajuan asuransi kendaraan Langkah-langkah penelitiannya adalah terlebih dahulu memodelkan dengan regresi Poisson dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel kemudian dimodelkan dengan menggunakan Binomial negatif. Nilai deviasi yang dihasilkan oleh regresi Poisson akan dibandingkan dengan nilai deviasi dan AIC yang dihasilkan oleh Binomial negatif. 4. Analisis Data Dan Pembahasan 4.1 Pemodelkan Data Dengan Regresi Poisson Langkah pertama data klaim resiko sendiri dimodelkan dengan menggunakan regresi Poisson dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variable. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model regresi Poisson sebagai berikut. 5 Tabel 1. Hasil Taksiran Parameter Dengan Regresi Poisson Parameter Taksiran Std Error P-value Intercept -0,7367 0,1000 0,0001 X1 0,3527 0,0830 0,0001 X2 1,0882 0,0696 0,0001 X3 0,2990 0,0259 0,0001 Pada Tabel 1 dapat dilihat bahwa semua parameter yang signifikan. Hal ini ditunjukkan oleh nilai p-value masing-masing parameter semua bernilai 0,0001 yang lebih kecil dari = 0,05. 4.2 Analisis Adanya Kasus Dispersion Pada Regresi Poisson Pada dasarnya, model regresi Poisson diasumsikan mean dan varian dari variabel respon adalah sama. Pada kejadiaan riilnya, data sangat dimungkinkan mempunyai penyebaran yang luas (dispersion), misalnya situasi dimana variasi melebihi mean. Apabila tetap menggunakan regresi Poisson maka mengakibatkan terjadi kesalahan dalam menganalisis. Kategori yang digunakan untuk mendeteksi keberadaan overdispersion atau underdispersion adalah nilai deviasi dan pearson chi square yang dibagi dengan derajad bebas. Nilai atau hasil bagi yang lebih besar dari satu mengindikasikan adanya overdispersion, sedangkan nilai atau hasil bagi yang lebih kecil dari satu mengindikasikan adanya underdispersion. Dengan menggunakan program SAS 9.1 dengan prosedur GENMOD, diperoleh kriteria goodness of fit yang dapat dilihat pada Tabel 2. Tabel 2. Kriteria goodness of fit Dari Regresi Poisson Dengan Prosedur GENMOD Kriteria Nilai DF Nilai/DF Deviance 2908,72 494 5,89 Dari Tabel 2, dapat dilihat bahwa nilai deviasi yang diperoleh dari memodelkan dengan regresi Poisson untuk pengguna bisnis cukup besar yaitu 2908,72 dan apabila nilai tersebut dibagi dengan derajad bebasnya maka hasilnya lebih dari satu yaitu sebesar 5,89. Dari uraian tersebut dapat disimpulkan bahwa data Klaim Resiko Sendiri untuk pengguna bisnis di PT Asuransi Tripakarta mengalami overdispersion. Untuk mengatasi kasus tersebut maka menurut Ismail dan Jemain (2007) menyarankan untuk menggunakan pendekatan binomial negatif untuk memodelkannya. Sehingga diharapkan akan diperoleh hasil estimasi parameter yang lebih tepat. Langkah selanjutnya adalah memodelkan data klaim resiko sendiri dengan menggunakan model Binomial Negatif. 6 4.3 Pemodelan Data Dengan Model Binomial Negatif Langkah berikutnya adalah data klaim resiko sendiri dimodelkan dengan menggunakan model Binomial Negatif dengan melibatkan variabel utama tanpa melibatkan adanya interaksi antar variabel. Dengan menggunakan software SAS diperoleh hasil taksiran parameter dari model Binomial negatif sebagai berikut. Tabel 3. Hasil Taksiran Parameter dengan Binomial Negatif Parameter Estimasi SE P value X0 -0,9639 0,3082 0,0018 X1 0,3481 0,2584 0,1779 X2 1,2543 0,2708 <,0001 X3 0,3613 0,1004 0,0003 Pada Tabel 3 dapat dilihat bahwa tidak semua parameter yang signifikan. Hal ini ditunjukkan oleh nilai p-value masing-masing parameter secara berurutan untuk 0,0003 yang lebih kecil dari = 0,05. Sedangkan untuk X0, X2, X3 adalah 0,0018; 0,0001 dan X1 tidak signifikan dengan nilai p_value bernilai sebesar 0,1779 yang lebih besar dari = 0,05. 4.3 Analisis Adanya Kasus Dispersion Pada Model Binomial Negatif Dengan menggunakan program SAS 9.1 dengan prosedur GENMOD, diperoleh kriteria goodness of fit yang dapat dilihat pada Tabel 4.2. Tabel 4.3. Kriteria goodness of fit Dari Regresi Poisson Dengan Prosedur GENMOD Kriteria Nilai DF Nilai/DF Deviance 331,03 494 0,67 Dari Tabel 4.3, dapat dilihat bahwa nilai deviasi yang diperoleh dari model binomial negatif sebesar 331,03. Dapat disimpulkan bahwa dengan nilai deviasi dari data mampu diturunkan dengan menggunakan pendekatan binomial negatif. Namun dan apabila nilai tersebut dibagi dengan derajad bebasnya maka hasilnya kurang dari satu yaitu sebesar 0,67. Namun penurunan nilai deviasi tersebut tidak signifikan dalam mengatasi kasus overdispersion, hal ini dikarenakan hasil bagi antara nilai deviasi dan derajad bebasnya menjadi kurang dari satu. Pendekatan model binomial ngatif pada data resiko sendiri hanya mampu menurunkan nilai deviasinya sedangkan kasus overdispersion menjadi kasus underdispersion. 4.4 Perbandingan Model Binomial Negatif terhadap Regresi Poisson Langkah terakhir adalah membandingkan model Binomial Negatif dengan Regresi Poisson. Dengan menggunakan program SAS 9.1 prosedur GENMOD akan diperoleh kriteria goodness of fit dari medel binomial negatif dan regresi Poisson. Hasil dapat dilihat pada Tabel 5 7 Tabel 5. Kriteria Kebaikan Model dari Regresi Poisson Dan Binomial Negatif Kriteria Regresi Poisson AIC 3429,5 Binomial Negatif 3402,8 Pada penelitian ini kriteria pembanding yang digunakan adalah kriteria AIC, dimana semakin kecil nilai AIC maka semakin baik model tersebut. Dari Tabel 5, pemodelan dengan binomial negatif menghasilkan nilai AIC lebih kecil dari pada nilai AIC pada regresi Poisson , yaitu secara berurutan 3402,8 dan 3429,5. Model yang baik memiliki nilai AIC yang lebih kecil. Berdasarkan kriteria tersebut dapat disimpulkan bahwa pemodelan dengan model binomial negatif pada data Resiko Sendiri di PT Asuransi Tripakarta kantor cabang Surabaya Diponegoro memberikan hasil yang lebih baik daripada dengan menggunakan pemodelan regresi Poisson. 5. Kesimpulan Pendekatan model binomial negatif pada data klaim resiko sendiri memberikan hasil lebih baik daripada regresi Poisson dengan menurunnya nilai deviasi dan AIC yang diperoleh, namun penurunan nilai deviasi itu tidak signifikan dalam mengatasi kasus overdispersion . 6. Daftar Pustaka Brockman, M. J., and Wright, T. S. (1992), Statistical Motor Rating: Making Effective Use of Your Data, Journal of the Institute of Actuaries, 119: 3, p. 457-543. Cameron, A.C., and Trivedi, P.K. (1998), Regression Analysis Of Count Data, Cambridge University Press, Cambridge. Gardner and Ester (1995), Regression Analyses Of Count And Rates : Poisson, Overdispersed Poisson and Negative Binomial Models, Psychological Bulletin, 118: No 3, p. 392-404. Ismail, N., and Jemain, A. A. (2007), Handling Overdispersionwith Negative Binomial and Generalized Poisson Regression Model, Casualty Actuarial Society Forum, Malaysia. Lee, A.H, Wang, K., Yau, K.K.W., Somerford, P.J. (2003), Truncated Negative Binomial Mixed Regression Modelling Of Ischaemic Stroke Hospitalizations, Statistics in Medicine, 22:7, p. 1129-1139. McCullagh, P., and Nelder, J. A. (1989), Generalized Linear Models. 2nd Edition. Chapman and Hall, London. Renshaw, A. E. (1994), Modeling the Claims Process in the Presence of Covariates, ASTIN Bulletin. 24: 2, p.265-285. 8