perpustakaan.uns.ac.id digilib.uns.ac.id commit to user i MODEL

advertisement
perpustakaan.uns.ac.id
digilib.uns.ac.id
MODEL REGRESI ZERO INFLATED GENERALIZED POISSON
Oleh
WICAKSONO CAHYO NUGROHO
NIM. M0106067
SKRIPSI
ditulis dan diajukan untuk memenuhi sebagian persyaratan
memperoleh gelar Sarjana Sains Matematika
JURUSAN MATEMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
SURAKARTA
2012
commit to user
i
perpustakaan.uns.ac.id
digilib.uns.ac.id
SKRIPSI
ESTIMASI PARAMETER MODEL REGRESI COM-POISSON
MENGGUNAKAN METODE QUASI LIKELIHOOD
yang disiapkan dan disusun oleh
WICAKSONO CAHYO NUGROHO
NIM. M0106067
dibimbing oleh
Pembimbing I
Pembimbing II
Drs. Sugiyanto, M.Si
NIP. 19611224 199203 1 003
Drs. Tri Atmojo K, M.Sc., Ph.D
NIP. 19630826 198803 1 002
telah dipertahankan di depan Dewan Penguji
pada hari Selasa, 15 Mei 2012
dan dinyatakan telah memenuhi syarat.
Anggota Tim Penguji
Tanda Tangan
1. Dra. Respatiwulan, M.Si
1. ................................
NIP. 19680611 199302 2 001
2. Drs. Siswanto, M.Si
2. ................................
NIP. 19670813 199203 1 002
Disahkan oleh
Fakultas Matematika dan Ilmu Pengetahuan Alam
Dekan
Ketua Jurusan Matematika
Prof. Ir.Ari Handono Ramelan, M.Sc., (Hons)., Ph.D.
NIP. 19610223 198601 1 001
commit to user
ii
Irwan Susanto, DEA.
NIP. 19710511 199512 1 001
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRAK
Wicaksono Cahyo Nugroho, 2012. MODEL REGRESI ZERO INFLATED
GENERALIZED POISSON. Fakultas Matematika dan Ilmu Pengetahuan Alam,
Universitas Sebelas Maret.
Model regresi Poisson secara umum telah banyak digunakan untuk menganalisis
data cacah dengan mean sampel dan variansi sampel sama yang biasa disebut
equidispersi. Sering kali data cacah memperlihatkan nilai variansi lebih besar dari mean
yang biasa disebut overdispersion atau variansi lebih kecil dari mean yang disebut
underdispersion. Masalah lain yang muncul dalam data cacah adalah frekuensi nol yang
lebih banyak, kedua masalah ini menyebabkan estimasi parameter yang dihasilkan kurang
tepat. Pada kondisi tersebut salah satu model yang tepat digunakan adalah model regresi
zero inflated generalized Poisson (ZIGP).
Tujuan dari penelitian ini adalah mengkonstruksi bentuk model regresi ZIGP, dan
menentukan estimasi parameter dari model regresi ZIGP menggunakan maximum
likelihood estimator (MLE).
Kesimpulan yang diperoleh dari penelitian ini adalah (1) model regresi zero
( | ) (
) ( ) dengan
inflated generalized Poisson (ZIGP) adalah
(
)
(
), dan (2) estimasi parameter model regresi zero
, dan ( )
(
)
inflated generalized Poisson (ZIGP) menggunakan MLE menghasilkan persamaan non
linier.
Kata kunci: Overdispersion, underdispersion, maximum likelihood estimator.
commit to user
iii
perpustakaan.uns.ac.id
digilib.uns.ac.id
ABSTRACT
Wicaksono Cahyo Nugroho, 2012. ZERO INFLATED GENERALIZED
POISSON REGRESSION MODEL. Faculty of Mathematics and Natural Sciences,
Sebelas Maret University.
Commonly Poisson regression model is widely used to analyze count data with
same mean and variance samples, that usually called equidispersion. The count data is
often shows the variance larger or smaller than mean, they are called overdispersion and
underdispersion respectively. Another problems that emerged in the count data with
excess zeros, both of these problems led to so parameter that estimated is not appropriate.
In that condition, one of the appropriate model is zero inflated generalized Poisson
regression model.
The purposes of this research is to reconstruct ZIGP regression model and to
determine the parameter estimaton of ZIGP regression model using menggunakan
maximum likelihood estimator (MLE).
The conclusions of this research are (1) zero inflated generalized Poisson (ZIGP)
(
)
) ( ) with
(
), and (2) the
is ( | ) (
and ( )
(
)
parameter estimation of zero inflated generalized Poisson regression model (ZIGP) using
MLE has non linear equation as the result.
Keyword : Overdispersi, underdispersi, maximum likelihood estimator.
commit to user
iv
perpustakaan.uns.ac.id
digilib.uns.ac.id
MOTO
“Tanah yang digadaikan bisa kembali dalam keadaan lebih berharga, tetapi
kejujuran yang pernah digadaikan tidak pernah bisa ditebus kembali”
“Kebaikan tidak bernilai selama diucapkan akan tetapi bernilai sesudah
dikerjakan”
“Keberhasilan hanya akan diperoleh dari ketekunan dan keikhlasan”
commit to user
v
perpustakaan.uns.ac.id
digilib.uns.ac.id
PERSEMBAHAN
Karya ini saya persembahkan untuk
Bapak, Ibu dan Adikku tercinta atas doa, kasih sayang dan do’a yang diberikan.
Yuniar Dwi Nur Rahmasari atas dukungan, semangat dan keceriannya saat
menemani penulis dalam menyusun skripsi ini
commit to user
vi
perpustakaan.uns.ac.id
digilib.uns.ac.id
KATA PENGANTAR
Segala puji bagi Allah SWT, yang telah melimpahkan rahmat dan karuniaNya dan memberikan kekuatan dan kemudahan kepada penulis sehingga dapat
menyelesaikan skripsi ini dengan baik. Terselesaikannya skripsi ini tidak lepas
dari bimbingan dan motivasi dari berbagai pihak. Untuk itu penulis
menyampaikan ucapan terima kasih kepada
1.
Bapak Drs. Sugiyanto, M.Si sebagai Dosen Pembimbing I atas kesediaan dan
kesabaran dalam memberikan bimbingan, nasehat serta pengarahan dalam
penyusunan skripsi ini,
2.
Bapak Drs. Tri Atmojo K, M.Sc., Ph.D sebagai Dosen Pembimbing II atas
kesediaan dan kesabaran memberikan bantuan serta bimbingan dalam
penulisan skripsi ini,
3.
Ardy Yudha dan Mas Rizky Magta yang telah membantu dan memberi
semangat penulis menyeleseikan skripsi ini,
4.
Seluruh teman-teman matematika angkatan 2006 yang telah menemani
berjuang menyeleseikan skripsi ini,
5.
Semua pihak yang turut membantu kelancaran penulisan skripsi ini.
Semoga penulisan skripsi ini dapat bermanfaat bagi pembaca.
Surakarta, Mei 2012
Penulis
commit to user
vii
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR ISI
JUDUL .................................................................................................................. i
PENGESAHAN .................................................................................................... ii
ABSTRAK ............................................................................................................ iii
ABSTRACT ............................................................................................................ iv
MOTTO ............................................................................................................... v
PERSEMBAHAN ................................................................................................ vi
KATA PENGANTAR .......................................................................................... vii
DAFTAR ISI ........................................................................................................viii
DAFTAR TABEL ................................................................................................. x
I.
PENDAHULUAN
1
1.1 Latar Belakang Masalah ......................................................................... 1
1.2 Perumusan Masalah ................................................................................ 3
1.3 Tujuan Penelitian .................................................................................... 4
1.4 Manfaat Penelitian .................................................................................. 4
II. LANDASAN TEORI
5
2.1 Tinjauan Pustaka ..................................................................................... 5
2.2 Teori-Teori Penunjang ........................................................................... 7
2.2.1 Konsep Dasar Statistik ................................................................ 7
2.2.2 Teori Dasar Matriks .................................................................... 8
2.2.3 Keluarga Distribusi Eksponensial ............................................... 9
2.2.4 Fungsi Link .................................................................................. 9
2.2.5 Distribusi Poisson ....................................................................... 9
2.2.6 Model Regresi Poisson ............................................................... 11
2.2.7 Model Regresi Generalized Poisson ........................................... 12
2.2.8 Model Regresi Zero Infalted Poisson ......................................... 14
2.2.9 Pendeteksian Overdispersi dan Underdispersi ............................ 15
2.2.10 Metode Maksimum Likelihood ................................................... 15
commit to user
2.3 Kerangka Pemikiran................................................................................
18
viii
perpustakaan.uns.ac.id
digilib.uns.ac.id
III. METODE PENELITIAN
19
IV. PEMBAHASAN
20
4.1 Model Regresi Zero Inflated Generalized Poisson ................................ 20
4.2 Estimasi Parameter Model Regresi Zero Infalted Generalized Poisson
Menggunakan Maximum Likelihood Estimator (MLE) ......................... 22
4.3 Uji Ketepatan Model Regresi ZIGP ....................................................... 27
4.4 Contoh Kasus ......................................................................................... 28
4.4.1 Pendeteksian Overdispersi atau Underdispersi ........................... 29
4.4.2 Model Regresi Zero Inflated Generalized Poisson Pada Klaim
Asuransi Untuk Kecelakaan Bermotor di Perusahaan Asuransi
di Kota Kendari Dengan Seluruh Variabel Independen ............ 30
4.4.3 Model Regresi Zero Inflated Generalized Poisson Pada Klaim
Asuransi untuk Kecelakaan Bermotor di Perusahaan Asuransi
di Kota Kendari dengan Seluruh Variabel Independen
Berpengaruh ............................................................................... 30
4.4.4 Uji Kecocokan Model ................................................................. 32
V. PENUTUP
33
5.1 Kesimpulan ............................................................................................. 33
5.2 Saran ....................................................................................................... 33
DAFTAR PUSTAKA
34
LAMPIRAN
35
commit to user
ix
perpustakaan.uns.ac.id
digilib.uns.ac.id
DAFTAR TABEL
2.1
Daftar fungsi link untuk beberapa distribusi ................................................ .9
4.1
Data lama perawatan sesuai jumlah klaim yang diajukan, usia dan jenis
kelamin korban kecelakaan.......................................................................... 29
4.2
Nilai statistik deviance (D ) ......................................................................... 30
4.3
Nilai estimasi parameter model regresi zero inflated generalized Poisson
dengan seluruh variabel independen ............................................................ 30
4.4
Nilai estimasi parameter model regresi ZIGP dengan variabel independen
berpengaruh Variabel yang Berpengaruh.....................................................31
commit to user
x
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Metode statistika merupakan pendekatan yang dapat digunakan untuk
memperoleh hasil penelitian, metode ini meliputi masalah mengumpulkan,
mengolah, menyajikan, menganalisa dan menginterpretasikan data. Salah satu
metode yang digunakan adalah analisis regresi. Analisis regresi adalah suatu
metode statistika yang menyatakan pola hubungan antar dua variabel yaitu
variabel independen dan variabel dependen. Variabel independen merupakan
variabel yang tidak dipengaruhi oleh variabel lain, sedangkan variabel dependen
merupakan variabel yang masih dipengaruhi oleh nilai variabel independen.
Analisis regresi bertujuan mencari pola hubungan antara variabel independen dan
variabel dependen yang kemudian pola hubungan tersebut dirumuskan dalam
suatu model tertentu, sehingga dapat dilakukan suatu prediksi nilai variabel
dependen dengan diketahui suatu nilai variabel independennya, Sembiring (1995).
Dalam aplikasinya banyak penelitian menggunakan variabel tak bebas
yang berupa data cacah, termasuk pada pembahasan skripsi ini penulis juga
menggunakan data cacah. Menurut Fahrmeir dan Tuts (1994), data cacah adalah
data yang dihitung sebagai jumlah kejadian dalam interval waktu tertentu.
Misalnya data banyaknya kecelakaan, banyaknya kelahiran, banyaknya kematian
dalam waktu satu tahun. Salah satu model regresi yang digunakan untuk
menyatakan pola hubungan antara variabel tak bebas dengan variabel bebas yang
berupa data cacah adalah model regresi Poisson. Menurut Simon dalam Putri
(2007), data berdistribusi Poisson mempunyai tiga masalah yang menyebabkan
model regresi linier tidak dapat digunakan, yaitu
1. distribusi Poisson adalah menceng (skew), sedangkan model regresi linier
mengasumsikan distribusi dari sesatan adalah simetrik,
2. parameter distribusi Poisson adalah non negatif, sedangkan pada model regresi
linier terdapat kemungkinan nilai
perkiraan
yang dihasilkan negatif,
commit
to user
1
perpustakaan.uns.ac.id
digilib.uns.ac.id
2
3. distribusi Poisson mempunyai variabel yang akan naik seiring dengan naiknya
mean, sedangkan model regresi linier mengasumsikan mean dan variansi
konstan.
Penggunaan analisis data yang tidak sesuai dengan kondisi data tidak saja
akan menghasilkan suatu kesimpulan atau inferensi yang tidak bermanfaat
(meaningless) tetapi dalam kondisi tertentu bahkan banyak yang menyesatkan
(misleading). Untuk itu diperlukan suatu analisis yang sesuai dengan data.
Salah satu model regresi yang sesuai untuk menyajikan permasalahan di
atas adalah model regresi Poisson. Model regresi Poisson merupakan model
regresi dengan variabel dependennya dalam bentuk cacah dan tidak bernilai
negatif. Model regresi ini digunakan untuk memodelkan banyaknya kemunculan
dari suatu kejadian sebagai fungsi dari sejumlah variabel independen, misalnya
banyaknya kunjungan dokter, munculnya suatu penyakit, jumlah koloni dari
bakteri dapat dimodelkan dengan menggunakan model regresi Poisson. Model
regresi Poisson banyak digunakan untuk menganalisis data cacah dengan mean
dan variansi dari sampel sama. Pada kenyataannya seringkali data cacah itu
memperlihatkan perbedaan variansi dan mean sampel yaitu variansi sampel lebih
besar dari mean sampel yang sering disebut overdispersi atau variansi sampel
lebih kecil dari mean sampel yang sering disebut underdispersi, Ismail & Jemain
(2005).
Banyak model atau metode statistika yang telah diperkenalkan oleh para
ahli untuk mengatasi masalah overdispersi dan underdispersi. Salah satu model
yang dapat mengatasi masalah tersebut adalah model regresi generalized Poisson
(GP), model GP merupakan model perluasan dari model regresi Poisson, Famoye
et al. (2004). Model GP yang digunakan Famoye et al. (2004), dalam pemodelan
data kecelakaan kendaraan ternyata lebih tepat menggambarkan keadaan data
dibanding model Poisson. Penelitian tentang model regresi GP
juga telah
dilakukan oleh Anwani (2010). Konsep pembentukan model regresi GP ini
didasarkan pada distribusi generalized Poisson yang dapat menjelaskan sejumlah
data cacah yang memperlihatkan sifat overdispersi.
commit to user
2
perpustakaan.uns.ac.id
digilib.uns.ac.id
3
Model regresi GP dapat mengatasi masalah overdispersi tetapi tidak dapat
mengatasi masalah zero inflated atau kasus dengan data yang ada terlalu banyak
mengandung nilai nol. Oleh karena itu diperlukan suatu model yang dapat
menangani masalah tersebut. Salah satu model regresi yang dapat menangani
masalah zero inflated adalah model regresi zero inflated Poisson (ZIP), Lambert
(1992). Pada tahun 2007 penelitian tentang model ini telah dilakukan oleh Putri.
Model regresi ZIP merupakan model yang dapat digunakan pada data cacah
dengan frekuensi nol lebih banyak. Akan tetapi, model ZIP ini kurang tepat untuk
mengatasi masalah overdispersi atau underdispersi. Sehingga diperlukan suatu
model alternatif lain yang tepat untuk mengatasi permasalahan tersebut. Salah
satunya adalah memodelkan data cacah tersebut ke dalam model regresi zero
inflated generalized Poisson (ZIGP). Menurut Famoye dan Singh (2006) model
regresi ZIGP merupakan perluasan dari model regresi Poisson dan merupakan
model gabungan dari model regresi ZIP dan model regresi GP. Konsep
pembentukan model regresi ZIGP berdasarkan dari distribusi zero inflated
generalized Poisson. Sehingga model regresi ZIGP ini dapat diterapkan pada data
cacah yang menunjukkan sifat overdispersi atau underdispersi serta mempunyai
frekuensi nol yang lebih banyak.
Dalam skripsi ini dibahas mengenai konsep pembentukan model regresi
zero inflated generalized Poisson yang didasarkan pada distribusi zero inflated
generalized Poisson serta mengestimasi parameter-parameter dari model regresi
zero inflated generalized Poisson menggunakan metode maksimum likelihood.
1.2 Perumusan Masalah
Berdasarkan latar belakang masalah, dapat dirumuskan permasalahan
sebagai berikut
1. Bagaimana bentuk model regresi zero inflated generalized Poisson.
2. Bagaimana estimasi parameter dari model regresi zero inflated generalized
Poisson menggunakan MLE.
commit to user
3
perpustakaan.uns.ac.id
digilib.uns.ac.id
4
1.3 Tujuan Penelitian
Berdasarkan perumusan masalah, maka tujuan dari penelitian ini adalah
sebagai berikut
1.
Menentukan bentuk model regresi zero inflated generalized Poisson.
2.
Mengestimasi parameter dari model regresi zero inflated generalized Poisson
menggunakan MLE.
1.4 Manfaat Penelitian
Manfaat yang dapat diperoleh dari penulisan skripsi ini secara teoritis
dapat menambah pengetahuan tentang model regresi untuk data cacah yang
menunjukkan sifat overdispersi maupun underdispersi, serta pengetahuan tentang
metode estimasi parameter pada model regresi zero inflated generalized Poisson.
Secara praktis, diharapkan dapat menentukan model yang sesuai dengan tipe data
yang ada dan dapat menganalisis data sehingga menghasilkan suatu kesimpulan
yang bermanfaat.
commit to user
4
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB II
LANDASAN TEORI
Pada bagian pertama dari bab ini diberikan tinjauan pustaka yang berisi
penelitian-penelitian
sebelumnya
yang
mendasari
penelitian
ini.
Untuk
mendukung penulisan skripsi ini, penulis menyajikan teori-teori penunjang pada
bagian kedua yang berisi definisi-definisi sebagai dasar pengertian untuk
mempermudah pembahasan selanjutnya. Kerangka pemikiran yang menjelaskan
alur pemikiran dalam penulisan skripsi ini diberikan pada bagian ketiga.
2.1 Tinjauan Pustaka
Distribusi Poisson memberikan suatu model yang realistis untuk berbagai
macam fenomena random selama nilai dari variabel random Poisson adalah
bilangan cacah, banyak fenomena random untuk suatu data cacah dari beberapa
respon (variabel yang diteliti) merupakan suatu calon untuk pemodelan yang
mengasumsikan distribusi Poisson. Misalkan suatu data cacah mungkin berupa
jumlah kecelakaan lalu lintas tiap minggu, jumlah panggilan telepon per jam
dalam suatu perusahaan yang masuk lewat operator, banyaknya kerusakan per unit
dari beberapa material, jumlah aliran listrik tiap satuan panjang kabel, dan lainlain.
Suatu ciri dari distribusi Poisson adalah mean sama dengan variansi. Pada
prakteknya, kadang-kadang ditemukan suatu kondisi dengan variansi data lebih
besar dibanding mean. Kondisi seperti ini disebut overdispersi, dan model regresi
Poisson yang dihasilkan akan menjadi tidak sesuai. Selain itu akan menghasilkan
estimasi parameter yang bias (Ridout, dkk, 2001).
Famoye, dkk (2004) mengaplikasikan model regresi GP pada data
kecelakaan automobil dengan kovariannya/variabel penjelas antara lain faktor
demografi, kebiasaan mengendarai dari riwayat kesehatan. Dalam penelitiannya,
Famoye, dkk (2004) menunjukkan bahwa model GP lebih tepat menggambarkan
data dibanding model Poisson. Model regresi GP dapat diaplikasikan juga dalam
bidang lain misal bidang ekonomi
yang to
telah
commit
userdilakukan oleh Ismail dan Jemain
5
perpustakaan.uns.ac.id
digilib.uns.ac.id
6
(2005) dengan variabel penelitiannya adalah banyaknya klaim bermotor di
Malaysia.
Masalah lainnya pada regresi Poisson adalah jika terdapat banyak data
yang bernilai nol, sehingga lebih banyak data nolnya dibanding regresi Poisson
yang akan diprediksi. Jika hal ini terjadi, maka akan menyebabkan regresi Poisson
menjadi tidak tepat menggambarkan data yang sebenarnya. Model ZIP banyak
digunakan dalam berbagai disiplin ilmu karena fleksibilitasnya (Lam, dkk, 2006).
Lambert (1992) menggunakan model ini dalam bidang manufaktur. Xue, dkk
(2004) dan Lam, dkk (2006) juga meneliti model ZIP dalam bidang kesehatan
dengan variabel respon banyaknya hari terganggunya aktivitas primer yang
disebabkan karena sakit pada individu berusia 18 – 60 tahun dalam periode 4
minggu. Kemudian Beedy, dkk (2007) menggunakannya untuk pemodelan
perilaku seksual dalam hubungannya dengan HIV. Model ZIP hanya
menyelesaikan masalah data yang banyak nol nya saja (zero inflated) pada data
cacah, model ini kurang tepat masalah overdispersi atau underdispersi. Banyak
para peneliti yang kemudian pada akhirnya beralih dari model ZIP ke ZINB,
seperti
Ridout,
dkk
(1988)
yang
meneliti
tentang
pemodelan
untuk
perkembangbiakan tunas apel. Martin, dkk (2005) dalam pemodelan data bakteri
ekoli. Sedangkan Giufrida (2001) dan Taimela, dkk (2007) langsung
menggunakan model ZINB dalam pemodelan masalah kesehatan di kalangan
pekerja. Model ZINB merupakan model regresi untuk mengatasi masalah overdispersi dan zero inflated berdasarkan pada distribusi binomial negatif, tetapi
dalam penghitungan estimasi parameternya iterasi sering gagal konvergen
(Famoye dan Singh, 2006). Pada tahun 2006, Famoye dan Sings mengaplikasikan
model regresi zero inflated generalized Poisson (ZIGP) untuk memodelkan data
kekerasan dalam rumah tangga dengan struktur data yang terlalu banyak bernilai
nol. Model regresi ZIGP merupakan model untuk kasus data respon yang bersifat
cacah. Model ini dapat mengatasi masalah dengan terdapat banyak data yang
bernilai nol dan terjadi overdispersi. Menurut Famoye dan Singh (2006), model
ZIGP merupakan gabungan antara model ZIP dengan model GP.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
7
2.2 Teori - Teori Penunjang
Pada bagian ini diberikan definisi dan teori yang mendukung dalam
mencapai tujuan penulisan. Berikut ini diberikan gambaran singkat mengenai
konsep dasar statistik, teori dasar matriks, keluarga distribusi eksponensial,
distribusi Poisson, fungsi link, distribusi Poisson, model regresi Poisson, model
ZIP dan model GP sebagai dasar pembentukan model ZIGP, pendeteksian
overdispersi dan underdispersi, metode maximum likelihood estimator (MLE), dan
metode Newton-Raphson.
2.2.1 Konsep Dasar Statistik
Konsep dasar statistik yang digunakan sebagai pendukung dalam
penulisaan skripsi ini adalah ruang sampel, fungsi densitas probabilitas, variabel
random, fungsi distribusi kumulatif, harga harapan dan variansi yang di
didefinsikan oleh Bain dan Engelhardt, (1992).
Definisi 2.2.1. Ruang sampel merupakan
himpunan semua kejadian yang
mungkin dari suatu eksperimen yang dinotasikan dengan S.
Definisi 2.2.2. Suatu variabel random Y adalah suatu fungsi yang memetakan
setiap hasil
sehingga
yang mungkin pada ruang sampel S dengan suatu bilangan real x
.
Definisi 2.2.3. Jika himpunan suatu nilai yang mungkin dari variabel random Y
adalah himpunan terhitung
atau himpunan terhingga tak terhitung
maka Y disebut variabel random diskrit. Fungsi
[
]
, merupakan probabilitas untuk masing-masing nilai y disebut fungsi
densitas probabilitas diskrit.
Definisi 2.2.4. Fungsi distribusi kumulatif dari variabel random Y terdefinisi
untuk setiap bilangan real y oleh
[
]
Variabel random Y disebut variabel random diskrit jika terdapat f(y) sehingga
fungsi distribusi kumulatif dapat dinyatakan sebagai
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
8
∑
Definisi 2.2.5. Jika X adalah suatu variabel random diskrit dengan fungsi
densitas probabilitas f(x), maka harga harapan dari X dinyatakan sebagai
∑
Definisi 2.2.6. Jika X adalah suatu variabel random berukuran n, maka variansi
X dinyatakan sebagai
[
]
2.2.2 Teori Dasar Matriks
Berikut ini merupakan definisi matriks menurut Anton (1992).
Definisi 2.2.7. Sebuah matriks adalah sebuah persegi dari bilangan-bilangan.
Bilangan-bilangan di dalam persegi disebut entri dalam matriks
[
]
Dengan n baris dan n kolom disebut matriks persegi order n dan entri-entri
disebut diagonal utama dari matriks A.
Definisi 2.2.8. Jika A adalah sembarang matriks berukuran mxn maka transpose
A dinotasikan dengan AT merupakan matriks berukuran nxm yang dihasilkan
dengan mengubah baris dan kolom dari matriks A sehingga kolom pertama dari
AT adalah baris pertama dari A, kolom kedua dari AT adalah baris kedua dari A,
dan seterusnya.
Definisi 2.2.9. Jika A adalah matriks persegi dan jika matriks B mempunyai
ukuran yang sama dengan matriks A dan berlaku AB = BA = I, maka A dikatakan
invertible dan B disebut inverse A.
2.2.3 Keluarga Distribusi Eksponensial
Menurut Mc Cullagh dan Nelder (1983), suatu fungsi probabilitas yang
tergantung pada suatu parameter
dari suatu variabel random
dikatakan
commit to user
termasuk dalam keluarga distribusi eksponensial apabila dapat dituliskan sebagai
perpustakaan.uns.ac.id
digilib.uns.ac.id
9
[
dengan
]
adalah parameter kanonik dan
(2.1)
adalah parameter dispersi. Harga
harapan dan variansi dari distribusi keluarga eksponensial dengan rumus
dan
. Salah satu anggota keluarga distribusi
eksponensial adalah distribusi Poisson.
2.2.4 Fungsi Link
Menurut Mc Cullagh dan Nelder (1983), fungsi link adalah suatu fungsi
yang menghubungkan fungsi prediktor linier  dengan mean respons
. Suatu
fungsi link dikatakan fungsi link kanonik bila parameter kanoniknya sama dengan
fungsi link-nya, yaitu
dengan
adalah parameter kanonik. Fungsi link kanonik untuk beberapa
distribusi disajikan dalam Tabel 1.
Tabel 2.1 Daftar fungsi link untuk beberapa distribusi
Distribusi
Fungsi link kanonik
Normal
Poisson
Binomial
[ ⁄
]
Gamma
2.2.5 Distribusi Poisson
Distribusi
Poisson
sering
digunakan
untuk
memodelkan
jumlah
kemunculan dari suatu kejadian, seperti jumlah bencana alam pada suatu daerah
tiap tahun. Menurut Bain dan Engelhardt (1992) jika variabel random diskrit Y
berdistribusi Poisson dengan parameter
maka variabel random Y
mempunyai fungsi densitas probabilitas
,
commit to user
(2.2)
perpustakaan.uns.ac.id
digilib.uns.ac.id
10
Distribusi Poisson termasuk dalam keluarga distribusi eksponensial, hal ini
ditunjukkan dengan membawa persamaan (2.2) ke persamaan (2.1)
[
[
(
]
]
)
dengan
Karena distribusi Poisson merupakan anggota distribusi keluarga eksponensial,
maka dapat ditentukan nilai mean dan variansinya yaitu,
sehingga pada distribusi Poisson berlaku
.
Distribusi Poisson merupakan distribusi diskrit. Untuk nilai
maka distribusinya sangat menceng dan untuk nilai
yang kecil
yang besar akan lebih
mendekati distribusi normal. Untuk kasus yang jarang terjadi maka nilai
akan
kecil. Distribusi Poisson adalah suatu distribusi yang paling sederhana dalam
pemodelan data yang berupa data cacah, tetapi bukan satu-satunya.
Menurut Lam, dkk (2006) distribusi Poisson sering digunakan dalam
pemodelan kasus yang jarang terjadi (rare event), seperti pemodelan tentang
kecelakaan, peperangan atau epidemi. Peristiwa terganggunya aktivitas seseorang
karena sakit pada usia dewasa terutama yang masih aktif bekerja atau melakukan
kegiatan primer lainnya (sekolah, mengurus rumah tangga atau kegiatan seharihari lainnya) dapat dikatakan merupakan suatu peristiwa yang jarang, karena pada
usia tersebut terutama kalangan usia muda cenderung masih melakukan aktivitas
secara normal walaupun sakit.
2.2.6 Model Regresi Poisson
Dalam berbagai eksperimen, seringkali data cacah yang merupakan objek
penelitian dipengaruhi oleh sejumlah variabel penjelas (explanatory). Untuk
mengetahui pola hubungan antaracommit
kedua variabel
to user tersebut, maka dapat digunakan
perpustakaan.uns.ac.id
digilib.uns.ac.id
11
suatu model regresi yang didasarkan pada distribusi Poisson. Jika suatu variabel
random mempunyai tipe diskrit dan menyatakan banyaknya kejadian dalam
interval tertentu (waktu, area, dan lain-lain), maka variabel random tersebut
berdistribusi Poisson. Regresi Poisson merupakan suatu bentuk analisis regresi
yang digunakan untuk memodelkan data yang berbentuk cacah. Model regresi
Poisson digunakan untuk memodelkan banyaknya kemunculan dari suatu kejadian
dalam interval waktu tertentu tertentu.
Pada regresi Poisson diasumsikan bahwa variabel dependen Y yang
menyatakan jumlah (cacah) kejadian berdistribusi Poisson, diberikan sejumlah
variabel independen
.
|
atau dengan kata lain,
Salah satu tujuan dari analisis regresi adalah untuk menentukan pola
hubungan antara variabel respon dengan variabel penjelas. Selanjutnya, dalam
regresi Poisson hubungan tersebut dapat dituliskan dalam bentuk
|
atau
Karena nilai
, maka digunakan fungsi link
|
untuk menghubungkan
sehingga hubungan antara
|
dan
atau
dengan fungsi linier
menjadi tepat. Dengan demikian
model regresi Poisson dapat ditulis dalam bentuk
|
dengan
merupakan parameter yang tidak diketahui dalam model dan perlu
diestimasi.
Dalam distribusi mengasumsikan bahwa nilai mean sama dengan nilai
variansinya. Ismail & Jemain (2005) menyatakan seringkali data cacah
memperlihatkan variansi sampel lebih besar dari mean sampel (overdispersi) atau
variansi sampel lebih kecil dari mean sampel (underdispersi), sehingga
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
12
penggunaan model regresi Poisson tidak sesuai. Selain itu akan menghasilkan
estimasi parameter yang bias.
Masalah lainnya pada regresi Poisson adalah jika terdapat banyak data
yang bernilai nol, sehingga lebih banyak data nolnya dibanding regresi Poisson
yang akan diprediksi. Jika hal ini terjadi, maka akan menyebabkan regresi Poisson
menjadi tidak tepat menggambarkan data yang sebenarnya.
2.2.7 Model Regresi Generalized Poisson
Pengembangan dari distribusi Poisson pertama kali diperkenalkan oleh
Consul (1992) yang dikenal sebagai generalized Poisson distribution (GPD).
Bentuk distribusi ini umumnya digunakan untuk menjelaskan sejumlah data cacah
yang memperlihatkan sifat-sifat overdispersi atau underdispersi. Analisis regresi
merupakan salah satu metode statistik yang bertujuan
menentukan untuk
menentukan pola hubungan antara variabel dependen dan variabel independen,
kemudian pola hubungan tersebut dirumuskan ke dalam suatu model sehingga
dapat dilakukan suatu prediksi nilai variabel dependen dengan diketahui nilai
variabel independen. Model regresi generalized Poisson (GP) merupakan suatu
model yang sesuai untuk data cacah dengan terjadi pelanggaran asumsi mean
sampel sama dengan variansi sampel pada disribusi Poisson, atau dengan kata lain
jika terjadi overdispersi atau underdispersi. Model regresi generalized Poisson
merupakan
salah
satu
metode
regresi
yang
sering
digunakan
untuk
menginterpretsikan pola hubungan antara variabel dependen dengan variabel
independen ke dalam suatu bentuk model. Model regresi generalized Poisson
adalah perluasan dari regresi Poisson, dengan dalam model regresi ini variabel
dependen berupa bentuk cacah misalnya
dan seterusnya. Jelas bahwa
variabel dependen tidak dapat bernilai negatif. Pada model regresi ini, dapat
dimanfaatkan untuk memodelkan banyaknya suatu kejadian atau laju suatu
kejadian yang menjadi pusat perhatian, sebagai fungsi dari sejumlah variabel
independen. Laju dari klaim asuransi serta banyaknya klaim yang datang
merupakan contoh dari peristiwa yang dapat dimodelkan dengan model regresi
commit to user
generalized Poisson.
perpustakaan.uns.ac.id
digilib.uns.ac.id
13
Model regresi GP merupakan terapan dari generalized liniar model
(GLM). Pada GLM, variabel dependen tidak harus berdistribusi normal dan untuk
uji
hipotesisnya
variansi
tidak
harus
homogen/konstan.
Model
GP
mengasumsikan bahwa komponen randomnya berdistribusi generalized Poisson.
Misal,
merupakan
variabel
respon.
Famoye
dkk
(2004)
mendefinisikan distribusi GP sebagai
(
{
Mean
)
(
dan
|
variansi
dan
)
persamaan
(2.3)
|
(2.3)
adalah
. Jika
sebagai
berikut
maka model regresi
GP akan menjadi regresi Poisson. Jika
, maka model GP merepresentasikan
data cacah yang overdispersi, dan jika
underdispersi.
Analisis regresi mempunyai tujuan menentukan pola hubungan antara
variabel dependen dan variabel independen maka persamaan
|
dapat
dinyatakan sebagai
|
atau
|
Nilai dari
(2.4)
pada persamaan (2.4) dapat bernilai real, sehingga
memungkinkan munculnya nilai negatif. Sebagaimana diketahui bahwa ekspetasi
dari distribusi generalized Poisson,
haruslah bernilai positif, sehingga perlu
dilakukan transformasi sedemikian sehingga bentuk hubungan antara
dan
menjadi tepat. Solusi yang dilakukan adalah dengan mengambil logaritma natural
dari nilai
. Hasil dari log
hubungannya terhadap
, yaitu
Fungsi
menghubungkan
ini kemudian akan digunakan untuk mencari
disebut sebagai fungsi link, yaitu fungsi yang
dengan fungsi linier
generalized Poisson dapat ditulis dalam bentuk
|
,
commit to. user
. Oleh sebab itu, model regresi
atau
perpustakaan.uns.ac.id
digilib.uns.ac.id
14
2.2.8 Model Regresi Zero Inflated Poisson
Tidak semua data cacah cocok menggunakan model Poisson, salah satunya
adalah data cacah yang menunjukkan overdispersi disebabkan oleh frekuensi nol
yang besar muncul dalam distribusi, maka disarankan digunakan model regresi
zero inflated Poisson (ZIP) (Lambert, 1992). Famoye dan Singh (2006)
memperkirakan proporsi data yang bernilai nol adalah sekitar 63,7 persen.
Lambert (1992) mendefinisikan model regresi ZIP sebagai
{
dengan parameter
dan
yang memenuhi
(
)
dengan X dan Z adalah matrik kovarian dalam hal ini terdiri dari variabelvariabel penjelas yang masing-masing mempengaruhi mean Poisson dengan
parameter
, dan mempengaruhi probabilitas dengan parameter
.
Kovarian-kovarian yang mempengaruhi mean Poisson dapat sama dengan
kovarian-kovarian yang mempengaruhi probabilitas (
kovarian yang sama mempengaruhi p dan
). Jika kovarian-
, maka akan mengurangi banyaknya
parameter dengan berpikir bahwa p merupakan fungsi dari , contohnya peluang
seseorang untuk terganggu atau tidaknya aktivitas karena sakit dipengaruhi oleh
rata-rata banyaknya gangguan aktivitas. Pada aplikasinya, informasi mengenai
bagaimana
berhubungan dengan
sangatlah sedikit. Jika demikian maka
dan
dengan
(
)
adalah suatu ukuran parameter yang tidak diketahui dan merupakan
bilangan Real yang menyatakan secara tidak langsung bahwa
sehingga model ZIP ini dilambangkan sebagai ZIP( ).
Mean dan variansi ZIP
|
dan
commit to user
,
perpustakaan.uns.ac.id
digilib.uns.ac.id
15
|
[
]
|
.
2.2.9 Pendeteksian Overdispersi dan Underdispersi
Kategori lain yang digunakan untuk mendeteksi adanya overdispersi dan
underdispersi adalah nilai deviance. Bentuk statistik deviance adalah
∑
( )
Jika hasil bagi antara nilai statistik D terhadap derajat bebasnya atau
statistik
terhadap derajat bebasnya lebih besar dari 1, maka indikasi bahwa
telah terjadi overdispersi pada model regresi Poisson. Sedangkan jika nilai hasil
bagi lebih kecil dari 1 maka diidentifikasi telah terjadi underdispersi.
2.2.10 Metode Maksimum Likelihood
Suatu variabel random
dari suatu distribusi yang memiliki
fungsi densitas probabilitas
yang tidak diketahui dan
, dengan
merupakan suatu parameter
adalah ruang parameter. Karena
variabel
random saling independen, maka fungsi densitas probabilitas bersama dari
adalah
∏
Menurut Bain dan Engelhardt (1992) fungsi likelihood didefinisikan
sebagai fungsi densitas probabilitas bersama dari
yang dapat dianggap
sebagai fungsi dari . Fungsi likelihood dapat dituliskan sebagai berikut
∏
Pada metode estimasi maksimum likelihood, estimasi dari  diperoleh
dengan menemukan nilai ̂ yang memaksimumkan fungsi likelihood. Maka ̂
commit to user
disebut estimator maksimum likelihood (MLE) dari . Mencari nilai
yang
perpustakaan.uns.ac.id
digilib.uns.ac.id
16
memaksimumkan fungsi
mencari nilai
akan memberikan hasil yang sama dengan
yang memaksimumkan
digunakan untuk mencari nilai ̂. Nilai
. Baik
atau
dapat
yang memaksimumkan
dapat
diperoleh dengan mencari solusi dari persamaan
. Jika pada proses
estimasi parameter didapatkan persamaan terakhir yang non-linier maka tidak
mudah untuk memperoleh estimasi tersebut, sehingga diperlukan suatu metode
iterasi untuk menyelesaikan persamaan non-linier tersebut. Salah satunya dengan
menggunakan metode Newton-Raphson.
2.2.11 Metode Newton-Raphson
Menurut Famoye, dkk (2006) metode Newton-Raphson merupakan
metode numerik untuk menyelesaikan persamaan non-linier secara iteratif seperti
menyelesaikan persamaan likelihood yang mencari lokasi untuk memaksimalkan
suatu fungsi. Jika pada proses estimasi parameter didapatkan persamaan terakhir
yang non-linier maka tidak mudah untuk memperoleh estimasi parameter tersebut,
sehingga diperlukan metode Newton-Raphson untuk menyelesaikan persamaan
non-linier tersebut. Dasar dari metode inilah pendekatan deret Taylor linier
∑
Perluasan dari bentuk orde-1
Jika
, diperoleh
merupakan nilai awal dari
dengan
maka dapat dimisalkan
dan
, begitu juga untuk G dan H sehingga diperoleh iterasi
Newton-Raphson sebagai berikut :
dengan indeks t menyatakan ukuran iterasi.
Langkah-langkah dari Newton-Raphson sebagai berikut,
to user
1. Menentukan estimasi awalcommit
dari yaitu
perpustakaan.uns.ac.id
digilib.uns.ac.id
17
2. ̂
(̂ )
(̂ )
̂
( ̂ ) merupakan derivatif pertama dari
pada
̂
3. ̂
(̂ )
(̂ )
̂
(̂ )
misalkan
(̂ )
dan
maka ̂
̂
4. Estimator ̂ diiterasi terus sampai diperoleh selisih antara ̂
nilainya sangat kecil atau dapat dituliskan ̂
̂
dan ̂
.
Metode Newton-Raphson dapat diperluas untuk menyelesaikan sistem
persamaan dengan lebih dari satu parameter, misalnya
dengan
iterasinya sebagai berikut
̂
̂
̂
dengan ̂
̂
) dan ̂
(
̂
( ) sehingga diperoleh
̂
(
)
dan
.
(
)
2.3 Kerangka Pemikiran
Model regresi Poisson adalah model regresi yang digunakan untuk
menyata-kan hubungan antara variabel respon variabel prediktor dengan variabel
respon berupa data cacah yang berdistribusi Poisson, distribusi Poisson termasuk
dalam keluarga distribusi eksponensial sehingga dapat dengan mudah ditentukan
commit to user
mean dan variansi sampelnya. Model regresi Poisson mengasumsikan nilai mean
perpustakaan.uns.ac.id
digilib.uns.ac.id
18
dan variansi sampelnya sama, sehingga penggunaan model regresi Poisson pada
data cacah kadang tidak cocok karena data terkadang menunjukkan sifat
overdispersi ataupun underdispersi. Dalam kenyataannya banyak dijumpai data
cacah yang memiliki banyak nilai nol, dan mengandung sifat overdispersi ataupun
underdispersi maka penggunaan model regresi Poisson menjadi tidak sesuai.
Sehingga diperlukan model regresi yang dapat mengatasi masalah ini, model
regresi yang lebih cocok adalah model regresi ZIGP.
Model regresi ZIGP merupakan gabungan model regresi ZIP dan GP.
Model regresi ZIP merupakan suatu model yang cocok untuk kasus dengan
responnya bersifat cacah dan banyak yang bernilai nol. Sedangkan model regresi
generalized Poisson (GP) merupakan suatu model yang cocok untuk kasus dengan
terjadi pelanggaran asumsi mean sampel sama dengan variansi sampel pada
disribusi Poisson. Untuk membentuk model tersebut dari distribusi zero inflated
generalized Poisson dibutuhkan fungsi link agar hubungan fungsi prediktor linier
dengan mean respons sesuai. Estimasi parameter model regresi Poisson
tergeneralisasi dilakukan dengan metode maximum likelihood estimator (MLE)
yang didalamnya melibatkan metode iterasi Newton-Raphson.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB III
METODE PENELITIAN
Pada penelitian ini, metode yang digunakan adalah studi literatur dengan
mengacu pada sumber-sumber pustaka statistika, dan dengan cara mempelajari
karya-karya ilmiah yang telah dihimpun dari hasil penelitian para pakar baik yang
tersajikan pada seminar maupun yang telah dimuat di dalam situs web, jurnal,
disertasi ataupun buku yang berkaitan dengan model regresi zero inflated
generalized Poisson. Dengan metode tersebut dapat menjelaskan bentuk model
regresi zero inflated generalized Poisson dan estimasi parameternya dilakukan
dengan metode maksimum likelihood (MLE) yang didalamnya melibatkan metode
iterasi Newton-Raphson dalam penyeleseiannya. Adapun langkah-langkah dalam
penulisan skripsi ini sebagai berikut
1.
Mengestimasi parameter model Regresi ZIGP dengan metode MLE,
dilakukan langkah-langkah berikut
a) Menetapkan model regresi
b) Menetapkan parameter yang akan diestimasi, yaitu
(
)
c) Membuat fungsi likelihood dan log likelihood-nya berdasarkan model
regresi
d) Mengestimasi parameter dengan memaksimumkan fungsi log likelihood
yang diperoleh di atas menggunakan algorithma Newton-Raphson.
2.
Pengujian Hipotesis model regresi ZIGP menggunakan GLRT dengan
hipotesis-hipotesis sebagai berikut
Pengujian kesesuaian model, yaitu uji parameter dispersi ( )
(ZIGP tidak sesuai)
(ZIGP sesuai).
3.
Menerapkan model regresi zero inflated generalized Poisson pada klaim
asuransi untuk kecelakaan kendaraan bermotor di perusahaan asuransi di kota
Kendari.
commit to user
19
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB IV
PEMBAHASAN
4.1 Model Regresi Zero Inflated Generalized Poisson
Model ZIGP merupakan salah satu model yang dapat digunakan untuk
data respon yang bersifat cacah. Model ini dapat mengatasi masalah dengan
terdapat banyak data yang bernilai nol (zero inflation) dan terjadi overdispersi
(Czado dan Min, 2006 ; Famoye dan Singh, 2006). Famoye dan Singh (2006)
mendefinisikan fungsi densitas probabilitas ZIGP sebagai gabungan dari fungsi
densitas probabilitas ZIP dan GP, sehingga fungsi densitas probabilitas model
regresi ZIGP dapat dituliskan sebagai berikut,
(
)
(
{
(
)
)(
( )
(
)
(
)
)
(
(
(4.1)
)
)
),
(
dari matriks kovariat X, dan
(
)
parameter k-dimensi, sehingga
( ) dan
( ) memenuhi
( )
(∑
∑
dan
(
dimana
( )
)
adalah vektor kolom
∑
dari matriks kovariat Z, dan
) adalah vektor kolom parameter m-dimensi. Jika matriks
kovariat yang sama mempengaruhi
sebagai fungsi dari
( )
(
(
) adalah baris
(
Dari
) adalah baris
∑
persamaan
)
maupun
( X = Z ), maka dapat ditulis
sehingga diperoleh
dan
( )
(4.1)
diperoleh
∑
(
∑
)
(∑
.
)
dan
( )
sehingga didapat
(
∑
)
(4.2)
commit to user
20
(4.3)
perpustakaan.uns.ac.id
digilib.uns.ac.id
21
dan
.
(4.4)
Menurut Famoye dan Singh (2006), jika Y variabel random berdistribusi zero
inflated generalized Poisson maka nilai mean dan variansi sampelnya adalah
( | )
(
) ( )
( | )
(
)[
(
( | )[(
) ]
)
(
)
].
Analisis regresi mempunyai tujuan menentukan pola hubungan antara
variabel dependen dan variabel independen, sehingga persamaan (4.1) dapat
dituliskan dalam bentuk
( | )
(
)
(
Nilai dari
)
.
dapat bernilai real, artinya dapat bernilai poistif atau negatif.
Padahal ekspektasi dari distribusi ZIGP haruslah bernilai positif sehingga
diperlukan transformasi sedemikian sehingga bentuk hubungan
dan
tepat.
Menurut Consul dan Famoye (1992) yang dapat digunakan adalah dengan
mengambil nilai logaritma natural dari
yang dituliskan sebagai berikut,
(
dengan
)
merupakan fungsi link, yaitu fungsi yang menghubungkan
fungsi linier
dengan
. Sehingga model regresi ZIGP dapat dituliskan dalam bentuk
sebagai berikut,
( | )
dengan
(
)
(
(
)
(
)
.
)
Model ZIGP akan menjadi model GP ketika
dan ketika
akan menjadi ZIP. Pada tahun 2006, Famoye dan Singh mengaplikasikan model
regresi ZIGP untuk memodelkan data kekerasan dalam rumah tangga dengan
struktur data yang terlalu banyak bernilai nol.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
22
4.2 Estimasi Parameter Model Regresi Zero Inflated Generalized Poisson
Menggunakan Maximum Likelihood Estimastor (MLE)
Metode estimasi yang digunakan untuk mengestimasi parameter model
regresi ZIGP adalah metode maksimum likelihood. Metode maksimum likelihood
merupakan suatu metode estimasi parameter yang memaksimumkan fungsi
likelihood. Estimasi dengan metode ini dapat digunakan jika distribusi dari data
diketahui. Langkah pertama dari metode maksimum likelihood adalah
menentukan fungsi densitas probabilitas bersama dari beberapa model regresi
Poisson. Misalkan dengan mengasumsikan
merupakan sekumpulan
variabel random Poisson yang independen. Substitusi persamaan (4.2), (4.3) dan
(4.4) ke dalam persamaan (4.1), maka akan diperoleh
(
)
(
{
(
)[
(
)(
)
(
)]
)
⌊
(
(4.5)
)⌋
dengan demikian fungsi likelihoodnya adalah
( )
∏
(
)
( )
∏
{
∏
(
)[
(
)(
(
)
[
dengan
(
)]
)
]
⌊
(
(4.6)
)⌋
[
]
dan fungsi log likeli-
hoodnya adalah
Untuk
,
( )
Untuk
∑
(
)
∑
[
∑
(
)
∑
(
(
)] .
,
( )
∑
(
)
∑
⌊ (
)
)⌋
∑
(
)
(
.
Dengan demikian fungsi log likelihood untuk Model ZIGP dapat ditulis
( )
∑
(
)
∑
[
commit to user
(
)]
)
perpustakaan.uns.ac.id
digilib.uns.ac.id
23
∑
(
(
⌊
∑
(
)
(
)
∑
∑
(
)
∑
(
( )
(
)
(4.7)
∑
[
(
∑
]
))
)
(∑
(
)]
.
∑
∑
(
(
)
(
[
∑
(
[
)
, sehingga diperoleh
∑
)
∑
(
dan
Persamaan (4.10) diturunkan terhadap
( )
∑
)⌋
( )
dengan
∑
)
)
(∑
)
(∑
(
)
)
(∑
)
(∑
[
)]
)
)(
(∑
] .
)
dengan
(
(
[
∑
∑
(
)
)
)
(∑
(
[
(∑
)
)(
(∑
)
]
(
)
)
(
∑
∑
[
((
)
(
(∑
))
)
(∑
)
(∑
))
)]((
))
⁄(
) ((
commit to user
]
.
)
.
⁄(
(
)
)
)
))
⁄(
(∑
(
)
sebagai berikut
[
∑
(
))[(
⁄(
(
)(
)
)(
.
)]
) ((
Sehingga derivatif pertama terhadap
( )
)
(∑
)
(
)
(∑
(
(
)
(∑
(
(∑
)
∑
(
)
(∑
(
∑
(
))
)
)]
)
)
)
(
)
.
perpustakaan.uns.ac.id
digilib.uns.ac.id
24
(
∑
( (
)
(
∑
))
(
⁄(
))
[
⁄(
)]((
(
∑
(
(
∑
∑
∑
(
)
(4.8)
[
∑
)
)
.
)
(
)
))
⁄(
, dengan
)
))
.
)
)
)
(
∑
∑
( )
(
)]((
⁄(
∑
∑
( )
[
(
)
(
⌊
∑
(
(
)⌋
)]
)
.
dengan
(
( )
)
[
(
.
( )
)]
(
Sehingga derivatif pertama terhadap
( )
∑
(
∑
( )
(
)
( )
(
∑
dengan
(
(
(
)
(
)]
( )
( )
(
(
[
∑
[
∑
∑
∑
∑
)
.
sebagai berikut
)
( )
∑
)
⁄(
))
⁄(
.
(4.9)
))
)]
)
(
)
∑
commit to user
⌊
(
)⌋
.
perpustakaan.uns.ac.id
digilib.uns.ac.id
25
[
(
(
(
(
)
)
[(
(
]
)
(
)]
(
)
)
) [
(
(
∑
(
∑
( )
(
(
(
∑
((
) [
)
) ((
(
)
)
)
(
)
).
))
⁄(
(
(
))]
⁄(
(
(
∑
.
))
(
)
)
sebagai berikut
⁄(
) [
.
.
)
)
))]
⁄(
)
sehingga derivatif pertama terhadap
( )
(
(
(
(
))
⁄(
⁄(
) ((
))]
)
)
(
(
)
)
).
(4.10)
Persamaan (4.8), (4.9) dan (4.10) merupakan persamaan non-linier. Pada
persamaan (4.8), (4.9) dan (4.10) diturunkan terhadap
ternyata
derivatifnya masih mengandung parameter lain yang belum diketahui dan perlu
diestimasi. Sehingga untuk mengestimasi kedua parameter ini dilakukan secara
bersamaan dengan menggunakan suatu metode iterasi yang disebut metode
Newton-Raphson. Metode Newton-Raphson merupakan metode numerik untuk
menyelesaikan persamaan non-linier secara iteratif. Pada metode NewtonRaphson dibutuhkan derivatif pertama dan kedua fungsi log likelihoodnya.
Misalkan didefinisikan matriks G dan H sebagai
( )
( )
[
( )
dan
]
( )
( )
( )
( )
( )
( )
( )
( )
( )
[
]
G merupakan turunan pertama dari fungsi log-likelihood dan H merupakan
turunan kedua dari fungsi log-likelihood disebut matriks Hessian. Derivatif
pertama dari fungsi log likelihood ditunjukkan oleh persamaan (4.8), (4.9) dan
commit to user
(4.10). Derivatif partial kedua dari fungsi log Likelihood diperoleh sebagai berikut
perpustakaan.uns.ac.id
digilib.uns.ac.id
26
( )
∑
[
]
[
( )
∑
[
∑
[(
(
(
)
)
)
))
⁄(
]
].
)
∑
(
)
(
(
[
∑
( )
))
⁄(
(
∑
( )
)]((
⁄(
(
∑
{
∑
{
)
(
(
(
)(
)
(
))
))]
⁄(
)
(
).
)
( )
(
}
)
( )
(
(
))
(
∑
(
) (
(
(
[
(
) } .
) ]
)
(
)
) )
(
(
)[
(
) [
)
[
(
( )
( )
( )
)
(
.
)
[ ( )]
(
(
)
) [
(
{(
(
∑
( )
∑
∑
(
)]
]
}
(
∑
∑
)
)]
{
∑
(
[
⁄
)
(
⁄
)]
(
) [
(
)[
(
)
)
)]
⁄
.
.
(
)[
(
)
(
(
⁄
)[ ( )]
⁄
(
)]
⁄
(
(
commit to user
)
)
}.
⁄
)]]
perpustakaan.uns.ac.id
digilib.uns.ac.id
27
sehingga estimasi parameter
dan
menggunakan metode iterasi Newton-
Raphson sebagai berikut
̂
̂
( ̂
̂
)
(
( ̂ )
̂
)
(4.11)
Persamaan (4.11) akan terus berulang sehingga diperoleh nilai
konvergen, yaitu jika nilai ̂
dan nilai ̂
dan
mendekati ̂ , begitu juga dengan ̂
mendekati ̂ atau nilai
̂
̂ ,
̂
yang
mendekati ̂
̂ dan
̂
̂
nilainya sangat kecil.
4.3 Uji Ketepatan Model Regresi ZIGP
Menurut Famoye dan Singh (2006), model regresi ZIGP akan menjadi
model regresi ZIP ketika parameter
. Oleh karena itu untuk melihat
kesesuaian model ZIGP, dilakukan pengujian hipotesis sebagai berikut
(4.12)
Penolakan
menunjukkan bahwa model regresi ZIP tidak tepat
digunakan, sehingga dalam situasi seperti ini model regresi ZIGP lebih tepat
digunakan dibandingkan model regresi ZIP.
Untuk menyelesaikan uji hipotesis pada (4.12) perlu diperhatikan
parameter (
) dari model regresinya. Jika (
) diketahui, untuk menguji
ketepatan model regresi ZIGP adalah statistik uji deviance. Statistik uji deviance
merupakan logaritma dari rasio likelihood. Statistik uji deviance (D) dapat ditulis
sebagai
[
[
( ̂ ̂)
]
(̂ ̂ ̂ )
( ̂ ̂ ̂)
∑
(
∑
{
( ̂ ̂ ̂)]
( ̂ ̂ )]
̂
(
(
( ̂ ̂)
[
̂
̂̂
)
̂
(
)
∑
) (
[̂
̂
̂ )
commit to user
̂
̂̂
(
(
)
)]
̂ (
)
̂ )
}
̂̂
perpustakaan.uns.ac.id
digilib.uns.ac.id
28
( ∑
(
)
∑
̂
̂̂
̂
̂
∑
)
[̂
̂
(
̂ )]
∑
{
(̂)
̂ })
{
∑
(
(
{
(̂
̂
[
(
(
̂
̂̂
̂
̂̂
))
( ̂ ))]
[̂
̂
(
(
) (
̂ )]}
̂ )
)
]}
̂[
(4.13)
Nilai statistik uji (4.13) mendekati distribusi chi-square dengan derajat bebas
(
), dengan p menyatakan jumlah total parameter yang diestimasi. Model
Regresi ZIGP tepat digunakan jika nilai
(
)
, dengan
sama dengan
tingkat signifikansi.
4.4 Contoh Kasus
Pada contoh kasus ini akan dimodelkan hubungan antara tingkat cacat
fungsional yang dialami oleh korban kecelakaan kendaraan bermotor dengan
faktor-faktor yang diduga berpengaruh terhadap tingkat cacat fungsional yang
dialami oleh korban kecelakaan kendaraan bermotor. Oleh karena itu tingkat cacat
yang terlihat pada lamanya perawatan yang kemudian dihitung berdasarkan
kejadian dilapangan menjadi variabel dependen. Variabel lama perawatan adalah
diskrit dan bernilai ketika korban tersebut sudah sembuh total setelah periode
cacat fungsional sementara.
Asuransi kecelakaan motor pada umumnya menangani tiga jenis klaim,
yaitu kerusakan kendaraan karena kecelakaan atau kesalahan sendiri (Own
Damage atau OD), terjadinya luka-luka pihak ketiga (Third Party Bodily Injury
atau TPBI), dan kerusakan properti pihak ketiga (Third Party Property Damage
atau TPPD). Dalam penelitian ini, akan disajikan aplikasi numerik dari model
regresi zero inflated generalized Poisson pada data TPBI klaim asuransi untuk
to user Asuransi di Kota Kendari. Tabel
kecelakaan Kendaraan bermotor commit
di Perusahaan
perpustakaan.uns.ac.id
digilib.uns.ac.id
29
4.1 memberikan gambaran lama perawatan sesuai jumlah klaim yang diajukan,
usia dan jenis kelamin korban kecelakaan.
Tabel 4.1. Data lama perawatan sesuai jumlah klaim yang diajukan,
usia dan jenis kelamin korban kecelakaan
No. Lama Perawatan (Hari) Jumlah Klaim Usia Jenis Kelamin
1
0
1
30
1
2
1
3
50
1
3
2
1
24
1
4
5
1
45
0
5
0
1
22
0
6
0
1
20
1
7
0
1
22
0
8
1
1
11
1
267
268
269
270
2
2
0
0
0
1
1
1
16
17
37
24
1
1
1
1
4.4.1 Pendeteksian Overdispersi atau Underdispersi
Sebelum
dilakukan
penentuan
model,
terlebih
dahulu
dilakukan
pendeteksian terjadinya overdispersi atau underdispersi. Dari output Sofware R
2.14.1 pada Lampiran 3, memberikan hasil estimasi untuk nilai deviance pada
regresi Poisson yang disajikan pada Tabel 4.2.
Tabel 4.2. Nilai statistik deviance (D )
Value
Null deviance
DF
Value/DF
359,54 269
1,34
Residual deviance 338,42 266
1,27
Dari hasil perhitungan nilai deviance dibagi dengan derajat bebas
diperoleh nilai 1,27, nilai ini lebih dari 1, sehingga dapat disimpulkan bahwa data
cacah yang dianalisis mengalami masalah overdispersi. Terjadinya overdispersi
menyebabkan model regresi Poisson yang telah diperoleh menjadi tidak tepat
untuk digunakan.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
30
4.4.2 Model Regresi Zero Inflated Generalized Poisson Pada Klaim Asuransi
Untuk Kecelakaan Kendaraan Bermotor di Perusahaan Asuransi
di Kota Kendari dengan Seluruh Variabel Independen
Model regresi zero inflated generalized Poisson adalah
( | )
( )
(
) ( )
(
)
(
)
Pada contoh kasus ini variabel independennya adalah usia, jenis kelamin dan
jumlah klaim. Sehingga model regresi zero inflated generalized Poissonnya
( | )
(
) ( ) dengan
(4.16)
( )
(
) dan
( )
(
)
Estimasi parameter model regresi zero inflated generalized Poisson pada lampiran
3, memberikan nilai yang disajikan pada Tabel 4.3
Tabel 4.3 Nilai estimasi parameter model regresi zero inflated generalized
Poisson dengan seluruh variabel independen
Variabel
Estimasi Parameter
Intercept
-0,26487
0,1845
USIA
0,01342
0,0163
JENIS_KELAMIN
0,14708
0,1239
JUMLAH_KLAIM
0,10025
0,4566
-2,18170
0,9730
-8,19127
0,0034
Dengan memasukkan nilai estimasi pada Tabel 4.3 ke persamaan (4.16),
maka estimasi model regresi zero inflated generalized Poissonnya adalah
( | )
(
( )
) ( ) dengan
(4.17)
(
(
(
)
(
)
)
menyatakan tingkat kecelakaan yang dipengaruhi oleh usia, jenis kelamin dan
jumlah klaim, dan
( )
(
(
(
)
(
(
)
)
(
(
)
)
(
)
menyatakan probabilitas tidak terjadinya tingkat kecelakaan yang dipengaruhi
oleh usia, jenis kelamin dan jumlah
klaim.to user
commit
perpustakaan.uns.ac.id
digilib.uns.ac.id
31
Dari Tabel 4.3, hanya variabel usia yang signifikan karena nilai
probabilitas yang kurang dari
. Sehingga variabel yang masuk dalam
model hanya USIA.
4.4.3 Model Regresi Zero Inflated Generalized Poisson Pada Klaim Asuransi
untuk Kecelakaan Bermotor di Perusahaan Asuransi di Kota Kendari
dengan Seluruh Variabel Independen Berpengaruh
Setelah diketahui bahwa variabel independen yang memiliki pengaruh signifikan
terhadap model adalah usia dan jenis kelamin, selanjutnya akan dilakukan
estimasi parameter model yang mengandung variabel independen berpengaruh
saja. Nilai estimasi parameter pada lampiran 5, memberikan nilai yang disajikan
pada Tabel 4.4.
Tabel 4.4. Nilai estimasi parameter model regresi ZIGP
dengan variabel independen berpengaruh.
Variabel Estimasi Parameter
Intercept
-0,06735
0,6983
USIA
0,01641
0,0019
-1,88220
0,0010
-6,51272
0,8883
Berdasar nilai estimasi pada Tabel 4.4, maka estimasi model regresi zero
inflated generalized Poissonnya adalah
( | )
(
) ( ) dengan
(
(
(4.18)
))
menyatakan tingkat kecelakaan yang dipengaruhi oleh usia dengan
(
(
(
))
(
))
menyatakan probabilitas tidak terjadinya tingkat kecelakaan yang dipengaruhi
oleh usia dan jenis kelamin.
Berdasarkan estimasi model (4.18), tingkat cacat fungsional yang dialami
oleh korban kecelakaan kendaraan
bermotor
commit
to user dipengaruhi oleh usia sebesar
perpustakaan.uns.ac.id
digilib.uns.ac.id
32
0,01641, artinya setiap kenaikan 1 satuan unit usia akan menjadikan rata-rata
tingkat cacat fungsional yang dialami oleh korban kecelakaan kendaraan bermotor
menjadi sebesar
kali lebih besar dan probabilitas terjadinya
tingkat cacat fungsional yang dialami oleh korban kecelakaan kendaraan bermotor
dipengaruhi oleh usia sebesar
.
4.4.4 Uji Kecocokan Model
Untuk menguji kecocokan regresi zero inflated generalized Poisson
dengan data, digunakan statistik uji deviance dan Pearson chi-square dengan
hipotesis adalah
Tingkat signifikansi yang digunakan adalah 0,05,
deviance lebih besar dari tabel chi-square (
output software R 2.14.1 Didapat nilai deviance ( )
(
akan ditolak jika nilai
)
). Dari
, maka
ditolak artinya terdapat kecocokan model yang digunakan dengan data atau
model yang digunakan tepat.
commit to user
perpustakaan.uns.ac.id
digilib.uns.ac.id
BAB V
PENUTUP
5.1 Kesimpulan
Dari pembahasan yang telah dilakukan, dapat diambil kesimpulan sebagai
berikut,
1.
Model regresi zero inflated generalized Poisson adalah
( | )
dengan
2.
(
) ( )
(
)
(
)
( )
dan
(
).
Estimasi parameter model regresi zero inflated generalized Poisson
menggunakan MLE menghasilkan persamaan non-linier, sehingga untuk
mengestimasi parameter dilakukan bersamaan dengan menggunakan metode
Newton-Raphson.
5.2 Saran
Pada penelitian ini, hanya dibahas tentang estimasi parameter model
regresi ZIGP dengan menggunakan metode maksimum likelihood. Oleh karena
itu, kepada pembaca yang tertarik mengembangkan skripsi ini disarankan untuk
meneliti estimasi parameter model regresi ZIGP dengan menggunakan metode
quasi likelihood dan bayesian, sehingga nanti hasilnya dapat dibandingkan untuk
menentukan metode yang terbaik.
commit to user
33
Download