1 BAB I PENDAHULUAN 1.1 Latar Belakang dan

advertisement
BAB I
PENDAHULUAN
1.1
Latar Belakang dan Permasalahan
Cabang ilmu statistika dewasa ini semakin mengalami perkembangan yang
pesat diikuti dengan arus berbagai permasalahan dunia yang kompleks
bermunculan.
Hal
tersebut
memberikan
motivasi
yang
berarti
dalam
mengembangkan ilmu pengetahuan guna memberikan solusi-solusi real terhadap
masalah-masalah yang ada dalam kehidupan sehari-hari.
Banyak permasalahan real yang ada dalam kehidupan yang bisa dianalisis
dan didekati dengan permodelan statistika. Karena itu statistika sebagai salah satu
disiplin ilmu yang telah diterapkan didalam berbagai bidang kesehatan, sosial,
ekonomi dan berbagai bidang lainnya. Dalam bidang kesehatan khususnya
epidemiologi, aplikasi statistika (dihibrid dengan ilmu kesehatan menjadi
biostatistika) banyak digunakan untuk mempelajari suatu penyakit dengan faktorfaktor resikonya.
Sebagai contoh permodelan statistika yang dapat dijadikan sebagai salah
satu solusi untuk menyelesaikan permasalahan dalam kehidupan adalah Analisis
Regresi, dimana analisis ini menghubungkan antara variabel respon dengan satu
atau lebih variabel prediktor. Analisis regresi merupakan teknik untuk membangun
persamaan. Persamaan inilah yang nantinya dapat menggambarkan hubungan dua
atau lebih variabel dan menaksir nilai variabel dependen berdasarkan pada nilai
suatu variabel independennya. Dalam studi kesehatan ini umumnya variabel
dependennya adalah penyakit dan variabel independennya adalah kategori paparan
(terpapar atau tidak terpapar). Untuk variabel disease (penyakit) yang berbentuk
biner atau dikotomus, maka digunakan regresi logistik dalam analisisnya. Pada
analisis regresi logistik, variabel respon yang akan diestimasi berbentuk
probabilitas, sebagai contoh probabilitas penyakit dengan syarat terpapar.
1
2
Perbedaan utama antara regresi linear dengan regresi logistik adalah pada
tipe variabel dependen. Analisis regresi linear menggunakan variabel dependen
kontinu sedangkan analisis logistik menggunakan variabel dependen kategorik.
Dalam kedua kasus diatas terlihat semua respon yang ada bersifat kualitatif dengan
skala data nominal atau ordinal. Sebagaimana telah diketahui bahwa dalam
statistika, data-data kualitatif akan ditransformasikan terlebih dahulu menjadi
kuantitatif (numerik) agar bisa dianalisis secara kuantitatif pula, dalam hal ini
adalah analisis statistika.
Dalam analisis regresi logistik semakin banyak kategori pada variabel
respon yang direduksi menjadi dua (biner), semakin banyak pula informasi dari data
yang tidak dapat diselesaikan dengan analisis pada umumnya, dalam kasus ini
adalah analisis regresi logistik multivariate. Model regresi logistik sebenarnya juga
sudah banyak diterapkan secara luas seperti bidang psikologi, kedokteran dan lain
sebagainya.
Dengan semakin banyaknya data yang dimiliki tidak menutup kemungkinan
data tersebut tidak lengkap atau yang biasa disebut missing data. Ketidaklengkapan
data adalah hal yang wajar yang biasa terjadi pada studi eksperimental, termasuk
survey dan pengujian klinik. Data yang tersedia kurang lengkap biasanya
dikarenakan karena adanya beberapa faktor dalam proses pengumpulan data.
Diantaranya adalah tidak terisinya kuesioner, responden menolak untuk mengisi,
kesalahan dalam pengambilan data dan lain sebagainya. Hal ini menyebabkan hasil
yang didapatkan menjadi tidak valid dan tujuan dari penelitian tidak tercapai. Selain
itu mengakibatkan berkurangnya informasi - informasi penting yang dapat diambil
dari hasil analisis data tersebut. Sebagai contoh hasil analisisnya tidak sesuai
dengan harapan, tidak diperolehnya parameter – parameter mengenai data tersebut.
Little dan Rubin (1987) membagi tiga tipe mekanisme dari missing data.
Pertama, Missing Completely at Random (MCAR) yang berarti bahwa terjadinya
missing data tidak berkaitan dengan nilai semua variabel, apakah itu variabel
dengan missing values atau dengan variabel pengamatan. Hal ini berarti missing
3
data terjadi secara acak. Kedua, Missing at Random (MAR), MAR berarti
terjadinya missing data hanya berkaitan dengan variabel respon/pengamatan.
Contohnya seseorang yang memiliki rasa waswas yang tinggi cenderung tidak akan
melaporkan pendapatan mereka, rasa waswas akan berhubungan pada pelaporan
pendapatan. Namun, peluang penderita rasa waswas sendiri untuk melaporkan
pendapatan tidak berhubungan dengan tingkat pendapatan, maka data dapat
digolongkan dengan MAR. Jika data adalah MCAR atau MAR, dapat dikatakan
missingness diabaikan. Sedangkan tipe ketiga adalah Missingness Is Non-Ignorable
bahwa terjadinya missing data pada suatu variabel berkaitan dengan variabel itu
sendiri, sehingga ini tidak bisa diprediksi dari variabel lain pada suatu dataset.
Dalam ilmu statistika, ada banyak data-data yang lain yang dapat digunakan
untuk mengatasi ketidaklengkapan data. Misalkan, teknik atau metode paling
tradisional yang digunakan diantaranya adalah listwise deletion dan pairwise deletion.
Listwise deletion merupakan metode untukmengatasi data hilang dengan cara
menghapus data yang hilang tersebut dari sampel. Kelebihan dari metode ini adalah
dapat digunakan untuk setiap jenis analisis statistik dan tidak membutuhkan komputasi
yang rumit. Namun kelemahannya adalah akan membuat kesimpulan menjadi tidak
valid karena hanya sekedar menghapus data hilang yang ada. Kemudian ide dari
pairwise deletion adalah membuang sepasang pengamatan yang mengandung data
hilang. Selain itu Little dan Rubin (1987) juga memperkenalkan berbagai macam untuk
mengatasi missing data, diantaranya adalah: complete case analysis yaitu membuang
observasi yang terdapat missing data dan estimasi mengarah pada standar error yang
lebih besar dikarenakan jumlah sampel yang berkurang.
Metode lainnya yang dapat digunakan untuk menganalisis regresi logistik
dengan adanya kovariat yang hilang adalah dengan menggunakan metode
pembobotan dari seluruh kovariat-kovariatnya yang ada, metode ini sering disebut
Inverse Probability Weighted Estimator. Metode ini dapat memberikan estimasi
parameter yang dibutuhkan dalam analisis regresi logistik, namun tidak mengganti
nilai yang hilang.
4
Metode selanjutnya adalah dengan menggunakan metode modern yakni
imputasi ganda yang merupakan metode yang digunakan untuk mengestimasi nilai
data yang hilang menggunakan beberapa nilai yang mungkin yang mewakili dari
distribusi kemungkinannya dan dilakukan sebanyak m kali.
Metode terakhir adalah kombinasi antara metode inverse probability
weighted estimator dengan multiple imputation. Kedua metode ini dapat
digabungkan karena memiliki bobot sampel (IPW) dan ingin mengimputasi data
yang hilang (MI). Bahkan tanpa sampling bobot, mungkin ingin menggunakan
IPW / MI, karena tidak murni IPW maupun MI murni, selain itu tidak ingin
membuang kasus lengkap dengan beberapa nilai-nilai yang hilang. Dan IPW / MI
telah digunakan (Priebe et al, 2004;. Stansfeld et al, 2008.).
1.2
Tujuan dan Manfaat Penulisan
Tujuan penulisan skripsi ini adalah :
1. Menyajikan suatu teknik dalam bidang ilmu statistika, yaitu regresi logistik
berganda dengan ketidaklengkapan kovariat dan bagaimana cara
mengestimasi parameter-parameter dari regresi logistik berganda tersebut.
2. Mempelajari metode imputasi ganda dan IPW sebagai salah satu metode
untuk mengestimasi nilai data hilang pada suatu data.
3. Membandingkan metode-metode estimasi parameternya untuk regresi
logistik dengan missing kovariat dan memilih metode yang terbaik.
4. Menunjukkan persamaan model regresi logistik akhir berdasarkan contoh
studi yang ada.
Manfaat penulisan dari skripsi ini adalah
1. Memperoleh model persamaan terbaik yang menerangkan pengaruh
variabel prediktor terhadap variabel respon.
2. Menunjukkan interpretasi dari model – model yang diperoleh.
5
3. Menyajikan beberapa metode untuk mengolah, menganalisis serta
mengestimasi parameter dari model yang memiliki kovariat yang tidak
lengkap.
4. Memperoleh suatu metode terbaik untuk mendapatkan model regresi
logistik dengan missing kovariat.
1.3
Pembatasan Masalah
Berdasarkan latar belakang masalah maka penulis disini akan membatasi
penulisan hanya pada pembahasan dan melakukan estimasi parameter regresi
logistik dengan ketidaklengkapan kovariat menggunakan inverse probability
weighted, multiple imputation dan combining inverse probability weighte with
multiple imputation, proses pembentukan model dengan menggunakan metode –
metode tersebut, melakukan pemilihan model terbaik berdasarkan kriteria
pemilihan model dan interpretasi model terbaik dengan menggunakan data real
yang penulis peroleh dari Balai Laboratoium Kesehatan Yogyakarta.
1.4
Metode Penulisan
Metode penulisan yang digunakan dalam skripsi ini merupakan studi
literatur yang didapat dari buku – buku dan jurnal – jurnal yang berhubungan
dengan tema skripsi dan analisis data yang digunakan penulis adalah paket program
statistik Stata 12, Microsoft Excel dan SPSS 19 untuk mencari model dan estimasi
model regresi logistik.
Sumber penulisan dan referensi yang digunakan dalam penyusunan skripsi
ini bersumber dari buku – buku mengenai tema yang terkait dengan skripsi atau
tugas akhir, jurnal, serta sumber-sumber lainnya yang diperoleh melalui internet.
6
1.5
Tinjauan Pustaka
Banyaknya buku dan jurnal mengenai kovariat yang tidak lengkap, penulis
disini hanya menggunakan beberapa sumber yang sangat banyak memberikan
informasi tentang topik skripsi ini. James R. Carpenter dan Michael G. Kenward
(2006) dalam jurnalnya menjelaskan mengenai teori, efisiensi dan aplikasi dari
Inverse Probability Weighted untuk menangani permasalahan analisis data dengan
kovariat yang tidak lengkap yang sekaligus menjadi referensi utama yang
digunakan penulis.
M. Ganjali dan H. Zaid (2011) dalam jurnalnya Analyzing Data with
Missing Continuous Covariates by Multiple Imputation Using Proper Imputation
menjelaskan mengenai metode multiple imputatin dalam analisis untuk data dengan
kovariat yang hilang.
Shaun R. Seaman, Ian R. White, Andrew J. Copas dan Leah Li (2012)
dalam jurnalnya Combining Multiple Imputation and Inverse-Probability
Weighting menjelaskan mengenai kombinasi antara kedua metode tersebut,
menjelaskan teori, teorema dan aplikasi. Jurnal ini pula menjadi referensi utama
penulis untuk membahah kombinasi antara kedua metode tersebut.
Pada skripsi sebelumnya yang telah terkait Multiple Imputation untuk
regresi logistik adalah skripsi dari Monica Rindayu Galih Kusumaarum (2014)
dengan judul Estimasi Nilai Data Hilang Menggunakan Imputasi Ganda dengan
Metode Regresi. Pada skripsinya, Monica lebih fokus mengenai data regresi linear,
imputasi ganda, estimasi parameter kemudian memperoleh model regresi linearnya.
Perbedaan skripsi ini dengan sebelumnya terletak pada pembahasan teori
dan metode – metode estimasinya serta analisisnya pada regresi logistik, sedangkan
skripsi sebelumnya mengenai regresi linear. Pada skripsi ini lebih mengarah kepada
metode Inverse Probability Weighted dan kombinasi antara metode Inverse
Probability Weighted dengan Multiple Imputation. Kedua metode tersebut
7
kemudian akan dibandingkan dengan dengan Multiple Imputation, sehingga ada 3
metode untuk memperoleh estimasi parameter dengan adanya kovariat yang hilang.
Kemudian akan dipilih mana yang baik menggunakan kriteria - kriteria pemilihan
model yang baik dalam memodelkan suatu analisis.
1.6
Sistematika Penulisan
Skripsi ini disusun dengan sistematika penulisan sebagai berikut.
Bab I Pendahuluan
Pada bagian ini membahas mengenai pendahuluan dari tema yang
diangkat dalam skripsi meliputi latar belakang, tujuan dan manfaat
penulisan skripsi, metodologi penulisan skripsi dan sistematika penulisan
skripsi
Bab II Landasan Teori
Pada bagian ini membahas mengenai teori – teori datas yang terkait
dan menunjang atau diperlukan dalam pemecahan masalah seputar analisis
regresi logistik dengan kovariat yang tidak lengkap menggunakan ketiga
metode pada bab selanjutnya. Diantaranya adalah analisis regresi sederhana,
analisis regresi ganda, analisis regresi logistik, probabilitas dan lain
sebagainya.
Bab III Teori dan Estimasi
Pada bagian ini akan dibahas mengenai konsep dasar pada metode –
metode yang digunakan untuk menentukan model regresi logistik berganda
dan aplikasinya pada data yang memiliki ketidaklengkapan kovariat,
pembentukan estimator untuk parameter model, dan pemilihan model
terbaik.
8
Bab IV Studi Kasus
Pada bagian ini akan dibahas mengenai aplikasi model regresi
logistik berganda dengan ketidaklengkapan kovariat. Mulai dengan
mendeskriptifkan data, menghilangkan beberapa data secara MAR
mengestimasi parameter-parameter dan memilihi model terbaik dari
beberapa metode tersebut.
Bab V Kesimpulan dan Saran
Bagian ini merupakan kesimpulan yang didapat dari penulisan
skripsi dan juga memberikan saran untuk perkembangan tema skripsi ini
pada khususnya perkembangan ilmu statistika secara umum.
Download