BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan Cabang ilmu statistika dewasa ini semakin mengalami perkembangan yang pesat diikuti dengan arus berbagai permasalahan dunia yang kompleks bermunculan. Hal tersebut memberikan motivasi yang berarti dalam mengembangkan ilmu pengetahuan guna memberikan solusi-solusi real terhadap masalah-masalah yang ada dalam kehidupan sehari-hari. Banyak permasalahan real yang ada dalam kehidupan yang bisa dianalisis dan didekati dengan permodelan statistika. Karena itu statistika sebagai salah satu disiplin ilmu yang telah diterapkan didalam berbagai bidang kesehatan, sosial, ekonomi dan berbagai bidang lainnya. Dalam bidang kesehatan khususnya epidemiologi, aplikasi statistika (dihibrid dengan ilmu kesehatan menjadi biostatistika) banyak digunakan untuk mempelajari suatu penyakit dengan faktorfaktor resikonya. Sebagai contoh permodelan statistika yang dapat dijadikan sebagai salah satu solusi untuk menyelesaikan permasalahan dalam kehidupan adalah Analisis Regresi, dimana analisis ini menghubungkan antara variabel respon dengan satu atau lebih variabel prediktor. Analisis regresi merupakan teknik untuk membangun persamaan. Persamaan inilah yang nantinya dapat menggambarkan hubungan dua atau lebih variabel dan menaksir nilai variabel dependen berdasarkan pada nilai suatu variabel independennya. Dalam studi kesehatan ini umumnya variabel dependennya adalah penyakit dan variabel independennya adalah kategori paparan (terpapar atau tidak terpapar). Untuk variabel disease (penyakit) yang berbentuk biner atau dikotomus, maka digunakan regresi logistik dalam analisisnya. Pada analisis regresi logistik, variabel respon yang akan diestimasi berbentuk probabilitas, sebagai contoh probabilitas penyakit dengan syarat terpapar. 1 2 Perbedaan utama antara regresi linear dengan regresi logistik adalah pada tipe variabel dependen. Analisis regresi linear menggunakan variabel dependen kontinu sedangkan analisis logistik menggunakan variabel dependen kategorik. Dalam kedua kasus diatas terlihat semua respon yang ada bersifat kualitatif dengan skala data nominal atau ordinal. Sebagaimana telah diketahui bahwa dalam statistika, data-data kualitatif akan ditransformasikan terlebih dahulu menjadi kuantitatif (numerik) agar bisa dianalisis secara kuantitatif pula, dalam hal ini adalah analisis statistika. Dalam analisis regresi logistik semakin banyak kategori pada variabel respon yang direduksi menjadi dua (biner), semakin banyak pula informasi dari data yang tidak dapat diselesaikan dengan analisis pada umumnya, dalam kasus ini adalah analisis regresi logistik multivariate. Model regresi logistik sebenarnya juga sudah banyak diterapkan secara luas seperti bidang psikologi, kedokteran dan lain sebagainya. Dengan semakin banyaknya data yang dimiliki tidak menutup kemungkinan data tersebut tidak lengkap atau yang biasa disebut missing data. Ketidaklengkapan data adalah hal yang wajar yang biasa terjadi pada studi eksperimental, termasuk survey dan pengujian klinik. Data yang tersedia kurang lengkap biasanya dikarenakan karena adanya beberapa faktor dalam proses pengumpulan data. Diantaranya adalah tidak terisinya kuesioner, responden menolak untuk mengisi, kesalahan dalam pengambilan data dan lain sebagainya. Hal ini menyebabkan hasil yang didapatkan menjadi tidak valid dan tujuan dari penelitian tidak tercapai. Selain itu mengakibatkan berkurangnya informasi - informasi penting yang dapat diambil dari hasil analisis data tersebut. Sebagai contoh hasil analisisnya tidak sesuai dengan harapan, tidak diperolehnya parameter – parameter mengenai data tersebut. Little dan Rubin (1987) membagi tiga tipe mekanisme dari missing data. Pertama, Missing Completely at Random (MCAR) yang berarti bahwa terjadinya missing data tidak berkaitan dengan nilai semua variabel, apakah itu variabel dengan missing values atau dengan variabel pengamatan. Hal ini berarti missing 3 data terjadi secara acak. Kedua, Missing at Random (MAR), MAR berarti terjadinya missing data hanya berkaitan dengan variabel respon/pengamatan. Contohnya seseorang yang memiliki rasa waswas yang tinggi cenderung tidak akan melaporkan pendapatan mereka, rasa waswas akan berhubungan pada pelaporan pendapatan. Namun, peluang penderita rasa waswas sendiri untuk melaporkan pendapatan tidak berhubungan dengan tingkat pendapatan, maka data dapat digolongkan dengan MAR. Jika data adalah MCAR atau MAR, dapat dikatakan missingness diabaikan. Sedangkan tipe ketiga adalah Missingness Is Non-Ignorable bahwa terjadinya missing data pada suatu variabel berkaitan dengan variabel itu sendiri, sehingga ini tidak bisa diprediksi dari variabel lain pada suatu dataset. Dalam ilmu statistika, ada banyak data-data yang lain yang dapat digunakan untuk mengatasi ketidaklengkapan data. Misalkan, teknik atau metode paling tradisional yang digunakan diantaranya adalah listwise deletion dan pairwise deletion. Listwise deletion merupakan metode untukmengatasi data hilang dengan cara menghapus data yang hilang tersebut dari sampel. Kelebihan dari metode ini adalah dapat digunakan untuk setiap jenis analisis statistik dan tidak membutuhkan komputasi yang rumit. Namun kelemahannya adalah akan membuat kesimpulan menjadi tidak valid karena hanya sekedar menghapus data hilang yang ada. Kemudian ide dari pairwise deletion adalah membuang sepasang pengamatan yang mengandung data hilang. Selain itu Little dan Rubin (1987) juga memperkenalkan berbagai macam untuk mengatasi missing data, diantaranya adalah: complete case analysis yaitu membuang observasi yang terdapat missing data dan estimasi mengarah pada standar error yang lebih besar dikarenakan jumlah sampel yang berkurang. Metode lainnya yang dapat digunakan untuk menganalisis regresi logistik dengan adanya kovariat yang hilang adalah dengan menggunakan metode pembobotan dari seluruh kovariat-kovariatnya yang ada, metode ini sering disebut Inverse Probability Weighted Estimator. Metode ini dapat memberikan estimasi parameter yang dibutuhkan dalam analisis regresi logistik, namun tidak mengganti nilai yang hilang. 4 Metode selanjutnya adalah dengan menggunakan metode modern yakni imputasi ganda yang merupakan metode yang digunakan untuk mengestimasi nilai data yang hilang menggunakan beberapa nilai yang mungkin yang mewakili dari distribusi kemungkinannya dan dilakukan sebanyak m kali. Metode terakhir adalah kombinasi antara metode inverse probability weighted estimator dengan multiple imputation. Kedua metode ini dapat digabungkan karena memiliki bobot sampel (IPW) dan ingin mengimputasi data yang hilang (MI). Bahkan tanpa sampling bobot, mungkin ingin menggunakan IPW / MI, karena tidak murni IPW maupun MI murni, selain itu tidak ingin membuang kasus lengkap dengan beberapa nilai-nilai yang hilang. Dan IPW / MI telah digunakan (Priebe et al, 2004;. Stansfeld et al, 2008.). 1.2 Tujuan dan Manfaat Penulisan Tujuan penulisan skripsi ini adalah : 1. Menyajikan suatu teknik dalam bidang ilmu statistika, yaitu regresi logistik berganda dengan ketidaklengkapan kovariat dan bagaimana cara mengestimasi parameter-parameter dari regresi logistik berganda tersebut. 2. Mempelajari metode imputasi ganda dan IPW sebagai salah satu metode untuk mengestimasi nilai data hilang pada suatu data. 3. Membandingkan metode-metode estimasi parameternya untuk regresi logistik dengan missing kovariat dan memilih metode yang terbaik. 4. Menunjukkan persamaan model regresi logistik akhir berdasarkan contoh studi yang ada. Manfaat penulisan dari skripsi ini adalah 1. Memperoleh model persamaan terbaik yang menerangkan pengaruh variabel prediktor terhadap variabel respon. 2. Menunjukkan interpretasi dari model – model yang diperoleh. 5 3. Menyajikan beberapa metode untuk mengolah, menganalisis serta mengestimasi parameter dari model yang memiliki kovariat yang tidak lengkap. 4. Memperoleh suatu metode terbaik untuk mendapatkan model regresi logistik dengan missing kovariat. 1.3 Pembatasan Masalah Berdasarkan latar belakang masalah maka penulis disini akan membatasi penulisan hanya pada pembahasan dan melakukan estimasi parameter regresi logistik dengan ketidaklengkapan kovariat menggunakan inverse probability weighted, multiple imputation dan combining inverse probability weighte with multiple imputation, proses pembentukan model dengan menggunakan metode – metode tersebut, melakukan pemilihan model terbaik berdasarkan kriteria pemilihan model dan interpretasi model terbaik dengan menggunakan data real yang penulis peroleh dari Balai Laboratoium Kesehatan Yogyakarta. 1.4 Metode Penulisan Metode penulisan yang digunakan dalam skripsi ini merupakan studi literatur yang didapat dari buku – buku dan jurnal – jurnal yang berhubungan dengan tema skripsi dan analisis data yang digunakan penulis adalah paket program statistik Stata 12, Microsoft Excel dan SPSS 19 untuk mencari model dan estimasi model regresi logistik. Sumber penulisan dan referensi yang digunakan dalam penyusunan skripsi ini bersumber dari buku – buku mengenai tema yang terkait dengan skripsi atau tugas akhir, jurnal, serta sumber-sumber lainnya yang diperoleh melalui internet. 6 1.5 Tinjauan Pustaka Banyaknya buku dan jurnal mengenai kovariat yang tidak lengkap, penulis disini hanya menggunakan beberapa sumber yang sangat banyak memberikan informasi tentang topik skripsi ini. James R. Carpenter dan Michael G. Kenward (2006) dalam jurnalnya menjelaskan mengenai teori, efisiensi dan aplikasi dari Inverse Probability Weighted untuk menangani permasalahan analisis data dengan kovariat yang tidak lengkap yang sekaligus menjadi referensi utama yang digunakan penulis. M. Ganjali dan H. Zaid (2011) dalam jurnalnya Analyzing Data with Missing Continuous Covariates by Multiple Imputation Using Proper Imputation menjelaskan mengenai metode multiple imputatin dalam analisis untuk data dengan kovariat yang hilang. Shaun R. Seaman, Ian R. White, Andrew J. Copas dan Leah Li (2012) dalam jurnalnya Combining Multiple Imputation and Inverse-Probability Weighting menjelaskan mengenai kombinasi antara kedua metode tersebut, menjelaskan teori, teorema dan aplikasi. Jurnal ini pula menjadi referensi utama penulis untuk membahah kombinasi antara kedua metode tersebut. Pada skripsi sebelumnya yang telah terkait Multiple Imputation untuk regresi logistik adalah skripsi dari Monica Rindayu Galih Kusumaarum (2014) dengan judul Estimasi Nilai Data Hilang Menggunakan Imputasi Ganda dengan Metode Regresi. Pada skripsinya, Monica lebih fokus mengenai data regresi linear, imputasi ganda, estimasi parameter kemudian memperoleh model regresi linearnya. Perbedaan skripsi ini dengan sebelumnya terletak pada pembahasan teori dan metode – metode estimasinya serta analisisnya pada regresi logistik, sedangkan skripsi sebelumnya mengenai regresi linear. Pada skripsi ini lebih mengarah kepada metode Inverse Probability Weighted dan kombinasi antara metode Inverse Probability Weighted dengan Multiple Imputation. Kedua metode tersebut 7 kemudian akan dibandingkan dengan dengan Multiple Imputation, sehingga ada 3 metode untuk memperoleh estimasi parameter dengan adanya kovariat yang hilang. Kemudian akan dipilih mana yang baik menggunakan kriteria - kriteria pemilihan model yang baik dalam memodelkan suatu analisis. 1.6 Sistematika Penulisan Skripsi ini disusun dengan sistematika penulisan sebagai berikut. Bab I Pendahuluan Pada bagian ini membahas mengenai pendahuluan dari tema yang diangkat dalam skripsi meliputi latar belakang, tujuan dan manfaat penulisan skripsi, metodologi penulisan skripsi dan sistematika penulisan skripsi Bab II Landasan Teori Pada bagian ini membahas mengenai teori – teori datas yang terkait dan menunjang atau diperlukan dalam pemecahan masalah seputar analisis regresi logistik dengan kovariat yang tidak lengkap menggunakan ketiga metode pada bab selanjutnya. Diantaranya adalah analisis regresi sederhana, analisis regresi ganda, analisis regresi logistik, probabilitas dan lain sebagainya. Bab III Teori dan Estimasi Pada bagian ini akan dibahas mengenai konsep dasar pada metode – metode yang digunakan untuk menentukan model regresi logistik berganda dan aplikasinya pada data yang memiliki ketidaklengkapan kovariat, pembentukan estimator untuk parameter model, dan pemilihan model terbaik. 8 Bab IV Studi Kasus Pada bagian ini akan dibahas mengenai aplikasi model regresi logistik berganda dengan ketidaklengkapan kovariat. Mulai dengan mendeskriptifkan data, menghilangkan beberapa data secara MAR mengestimasi parameter-parameter dan memilihi model terbaik dari beberapa metode tersebut. Bab V Kesimpulan dan Saran Bagian ini merupakan kesimpulan yang didapat dari penulisan skripsi dan juga memberikan saran untuk perkembangan tema skripsi ini pada khususnya perkembangan ilmu statistika secara umum.