BAHAN AJAR (MMS-4411) BIOSTATISTIKA DAN EPIDEMIOLOGI Disusun oleh: Dr. Danardono, MPH. JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS GADJAH MADA 2006 ii Daftar Isi 1 Pendahuluan 1.1 Biostatistika dan Epidemiologi . . . . . . . . . . . . . . . . . . . 1.2 Profesi Biostatistisi dan Epidemiolog . . . . . . . . . . . . . . . . 1 1 2 2 Desain Penelitian 2.1 Penelitian dalam bidang ilmu hayati, kedokteran, dan epidemiologi 2.2 Penelitian observasional . . . . . . . . . . . . . . . . . . . . . . 2.3 Penelitian Cross-sectional dan Longitudinal . . . . . . . . . . . . 2.4 Penelitian Follow-up . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Penelitian Case-control . . . . . . . . . . . . . . . . . . . . . . . 2.6 Penelitian klinis . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.7 Model Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 5 5 5 5 6 6 3 Statistik dan Ukuran dalam Epidemiologi 3.1 Prevalensi dan insidensi . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Faktor-faktor yang berpengaruh terhadap nilai prevalensi 3.1.2 Model untuk Prevalensi . . . . . . . . . . . . . . . . . 3.2 Model untuk Insidensi . . . . . . . . . . . . . . . . . . . . . . 3.3 Ukuran untuk Pengaruh Faktor . . . . . . . . . . . . . . . . . . 3.3.1 Tabel Kontingensi 2 × 2 . . . . . . . . . . . . . . . . . 3.4 Perancuan (Confounder) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 10 11 12 15 17 19 4 Uji Diagnostik 4.1 Sensitivitas, Spesifisitas dan Nilai Prediksi . . . . . . . . . . . . . 4.2 Kurva ROC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 23 25 5 Regresi Logistik 5.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . . . . . 5.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . . . . . 29 30 31 iii iv Daftar Isi 6 Regresi Poisson 6.1 Model dan Estimasi Parameter . . . . . . . . . . . . . . . . . . . 6.2 Interpretasi Parameter Model . . . . . . . . . . . . . . . . . . . . 33 33 34 7 Analisis Data Longitudinal 7.1 Data longitudinal . . . . . . . . . . . . . . . 7.2 Prinsip Pemodelan . . . . . . . . . . . . . . 7.3 Model Linear Umum untuk data longitudinal 7.4 Model Parametrik untuk Struktur Kovariansi . . . . . 39 39 40 43 43 8 Analisis Data Survival 8.1 Fungsi Survival dan Hazard . . . . . . . . . . . . . . . . . . . . . 8.2 Kaplan-Meier dan Life Table . . . . . . . . . . . . . . . . . . . . 8.3 Model Regresi data survival . . . . . . . . . . . . . . . . . . . . 47 47 48 52 9 Ringkasan Metode 57 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Pendahuluan 1.1 Biostatistika dan Epidemiologi Biostatistika adalah statistika yang diterapkan pada ilmu hayati, kedokteran dan epidemiologi. Armitage and Colton (1998) mendefinisikan Biostatistika lebih sempit lagi, yaitu metode statistika dalam kedokteran dan ilmu kesehatan, atau dikenal juga sebagai medical statistics. Sedangkan ilmu statistika dalam bidang biologi, lingkungan dan pertanian sering disebut biometrika (biometrics). Definisi Epidemiologi menurut (Last, 1995) adalah The study of distribution and determinants of health-related states or events in specified population, and the application of this study to control of health problems. MMS-4411 mempunyai penekanan agar lulusan bisa bertindak seperti layaknya konsultan dalam bidang Biostatistika. Untuk itu, materi yang diberikan tidak hanya berupa metode saja namun juga aspek komunikasi, konsultasi dan pengetahuan terkait seperti epidemiologi dan terminologi dalam bidang kesehatan. Matakuliah ini diharapkan akan membuka wawasan lanjut mahasiswa karena banyak pengembangan teori statistika yang berawal dari permasalahan dalam bidang Biostatistika dan Epidemiologi. Selain itu melalui matakuliah ini mahasiswa diharapkan untuk mulai berpikir dan bertindak bukan hanya sebagai statistisi saja, tapi juga sebagai orang yang mempelajari bidang lain dan dengan sudut pandang yang berbeda dari seorang statistisi. Matakuliah ini dapat diambil setelah mahasiswa mengetahui dan memahami dasar serta teknik metode statistik secara umum dan mampu melakukan analisis statistik dengan beberapa metode tertentu. Matakuliah MMS-4411 diharapkan dapat mendukung kompetensi lulusan program studi statistika, khususnya untuk lulusan yang mempunyai minat dan konsentrasi pada bidang Biostatistika. 1 2 1.2. Profesi Biostatistisi dan Epidemiolog 1.2 Profesi Biostatistisi dan Epidemiolog Profesi biostatistisi dan epidemiolog banyak diperlukan di bidang-bidang seperti tersebut di bawah ini, • Lembaga penelitian • Akademik atau lembaga pendidikan • Lembaga pemerintah bidang kesehatan atau rumah sakit • Industri obat dan farmasi • Konsultan Di Indonesia profesi seperti tersebut belum sepopuler profesi seperti dokter, apoteker atau dosen, namun di negara maju dan di negara ASEAN seperti Singapura profesi ini sudah cukup dikenal. Lembaga penelitian asing yang melakukan penelitian di bidang penyakit tropis biasanya juga membutuhkan tenaga biostatistisi dan epidemiolog lokal. Perencanaan aspek kesehatan, termasuk di dalamnya asuransi kesehatan dan kematian, yang baik dan terukur akan sangat memerlukan ahli di bidang biostatistik dan epidemiologi. 2 Desain Penelitian 2.1 Penelitian dalam bidang ilmu hayati, kedokteran, dan epidemiologi Menurut Kleinbaum, Kupper and Morgenstern (1982), ada 4 kata kunci tujuan penelitian di bidang epidemiologi, yaitu: describe, explain, predict dan control. Selengkapnya dapat dijelaskan sebagai berikut: 1. Mendeskripsikan status kesehatan populasi dengan cara melakukan enumerasi kejadian sakit, menghitung frekuensi relatif dan mendapatkan kecenderungan atau trend penyakit; 2. Menjelaskan penyebab penyakit dengan cara menentukan faktor yang menjadi sebab dari suatu penyakit tertentu dan cara transmisinya; 3. Melakukan prediksi kejadian sakit dan distribusi status kesehatan dalam populasi; 4. Melakukan pengendalian penyebaran penyakit dalam populasi dengan pencegahan kejadian sakit, penyembuhan kasus sakit, menambah lama hidup bersama dengan suatu penyakit, atau meningkatkan status kesehatannya Penelitian dalam bidang kedokteran dan epidemiologi secara garis besar sama dengan penelitian lain, seperti misalnya bidang pertanian, biologi dan ilmu rekayasa (teknik). Namun karena penelitian ini banyak melibatkan manusia sebagai subyek, maka banyak teknik atau metode yang dapat diterapkan pada bidang lain yang tidak dapat diterapkan dalam bidang ini karena permasalahan etika. Misalnya, kita tidak mungkin memberikan perlakuan yang jelas membahayakan subyek penelitian. 3 4 2.1. Penelitian dalam bidang ilmu hayati, kedokteran, dan epidemiologi populasi sampel A data B Gambar 2.1: Skema penelitian secara umum dimulai dari pendefinisian populasi dan unit populasi, tahap A: pengambilan unit sampel dari populasi; tahap B: pengambilan informasi dari sampel. Gambar 2.1 merepresentasikan skema penelitian secara umum. Suatu penelitian dimulai dengan mendefinisikan populasi untuk mana kesimpulan atau hasil dari penelitian akan dikenakan. Pada tahap ini unit populasi dan variabel penelitian harus ditentukan. Unit populasi adalah bagian terkecil dari populasi yang akan digunakan dalam pengambilan sampel. Sedangkan variabel adalah karakteristik atau informasi yang ingin diperoleh dari unit tersebut. Bagian A pada Gambar 2.1 adalah bagian pengambilan sampel atau penyampelan. Tujuan utama penyampelan adalah untuk mendapatkan wakil yang representatif dari populasi, tanpa harus melihat atau meneliti keseluruhan anggota populasi. Pengambilan sampel dapat dilakukan secara non-random ataupun random. Pengambilan sampel non-random biasanya lebih mudah dibandingkan dengan pengambilan sampel random. Namun, pengambilan random menjamin obyektivitas dan sampel yang representatif, dan banyak analisis statistik yang disusun berdasarkan asumsi sampel random. Dikenal beberapa macam metode pengambilan sampel random yang pada hakekatnya bertujuan untuk mengatasi heterogenitas populasi, seperti misalnya: sampel random sederhana, stratifikasi, kluster, sistematik, dan lainnya. Setelah sampel diperoleh dilanjutkan dengan tahap pengambilan informasi dari unit sampel berdasarkan variabel penelitian yang telah ditentukan (bagian B pada Gambar 2.1). Cara pengambilan informasi dapat dilakukan dengan pengukuran, pencacahan, wawancara, dan sebagainya. Jenis penelitian dapat dibedakan dari apakah ada perlakuan, manipulasi, intervensi atau tindakan yang dinenakan 2.2. Penelitian observasional 5 pada unit penelitian sebelum dilakukan tahap B atau tidak. Selain itu, elemen utama yang selalu menyertai penelitian adalah waktu. Penelitian juga dapat dibedakan berdasarkan saat pelaksanaan tahap A maupun B. Lebih jelasnya jenisjenis penelitian tersebut akan diterangkan pada bagian-bagian selanjutnya setelah bagian ini. 2.2 Penelitian observasional Dalam penelitian jenis ini tidak dilakukan manipulasi atau perlakuan pada faktorfaktor yang diteliti. Data diperoleh apa adanya dari populasi. Dalam penelitian ini, tidak dilakukan manipulasi, perlakuan ataupun intervensi pada tahap B. 2.3 Penelitian Cross-sectional dan Longitudinal Dalam penelitian ini, sampel atau data hanya dikumpulkan pada satu titik waktu tertentu saja. Jenis penelitian ini dikontraskan dengan penelitian longitudinal, yaitu penelitian yang dilakukan dalam periode tertentu. Dalam prakteknya penelitian longitudinal dicirikan dengan dikumpulkannya beberapa pengukuran atau observasi untuk satu unit sampel, sedangkan penelitian cross-sectional dicirikan dengan satu pengukuran atau observasi untuk satu unit. 2.4 Penelitian Follow-up Sering juga disebut penelitian prospektif. Dalam penelitian ini subyek diikuti selama jangka waktu tertentu atau sampai suatu kejadian (event), nilai pengukuran atau end-point tertentu diperoleh. Penelitian Follow-up dapat berupa observasional maupun eksperimental. 2.5 Penelitian Case-control Penelitian case-control merupakan salah satu contoh penelitian retrospektif. Penelitian retrospektif yaitu jenis penelitian yang berawal dari suatu event atau end-point. Unit sampel yang memiliki event atau end-point tersebut kemudian diteliti. Penelitian case-control dimulai dari unit yang mendapatkan kasus (penyakit misalnya), kemudian dipilih sekelompok pembanding atau kontrol (yaitu unit yang tidak mendapatkan atau mempunyai kasus). Faktor atau variabel penjelas yang lain juga dikumpulkan untuk masing-masing kasus dan kontrol. 6 2.6. Penelitian klinis 2.6 Penelitian klinis Penelitian klinis (clinical trial) menurut (Chow, 2000, hal 110) adalah ” ... an experiment performed by a health care organization or professional to evaluate the effect of an intervention or treatment against a control in a clinical environment. It is a prospective study to identify outcome measures that are influenced by the intervention. A clinical trial is designed to maintain health, prevent diseases, or treat diseased subjects. The safety, efficacy, pharmacological, pharmacokinetic, quality-of-life, health economics, or biochemical effects are measured in a clinical trial.” Tahapan penelitian klinis (Le, 2003): • Fase I: Memfokuskan pada keamanan obat baru, fase ini adalah uji coba pertama obat pada manusia setelah sukses dengan uji coba pada binatang • Fase II: Uji coba skala kecil untuk menilai efektivitas obat dan lebih fokus kepada keamanannya • Fase III: Uji coba klinis lebih lanjut untuk menilai efektivitasnya sebelum didaftarkan pada pihak yang berwenang • Fase IV: Penelitian setelah obat dipasarkan untuk memberikan informasi yang lebih detail tentang efektivitas obat dan keamanannya 2.7 Model Statistik Dalam terminologi dan notasi statistika, variabel sering dituliskan dengan huruf X untuk variabel penjelas, variabel independen, faktor; dan Y untuk variabel dependen atau variabel respon. Dalam Epidemiologi dikenal juga istilah variabel paparan (exposure) dan perancu (confounder) yang termasuk dalam kelompok X, dan outcome yang termasuk dalam kelompok Y . Umumnya setiap penelitian bertujuan untuk mencari tahu apakah X menyebabkan Y , atau seberapa besar pengaruh X terhadap Y . Model statistik, seperti misalnya model regresi sederhana E(Y | X) = β0 + β1 X merupakan representasi untuk mencapai tujuan itu. (2.1) 2.7. Model Statistik 7 Statistisi memikirkan model seperti (2.1) sebagai suatu ”pembangkit data” (data generating-process). Realisasi dari model itu adalah data yang diperoleh (sering dituliskan sebagai huruf kecil x dan y). Apabila model dan estimasi parameternya dinyatakan cukup tepat untuk menjelaskan data, dapat dilakukan inferensi atau pengambilan kesimpulan dari model tersebut. Termasuk dalam inferensi itu adalah penggunaan model untuk prediksi dan kausalitas. Perlu diperhatikan bahwa sangat mungkin terdapat lebih dari satu model yang cukup tepat untuk menjelaskan suatu set data. Untuk itu harus diingat pendapat yang mengatakan bahwa ada banyak model yang baik tapi pilihlah satu yang berguna. Dikaitkan dengan penelitian di bidang Epidemiologi dan kedokteran, model yang berguna di sini adalah model yang terdiri dari variabel yang nilainya dapat atau mudah dimodifikasi dalam praktek dan model yang sesederhana mungkin. Desain penelitian, atau cara memperoleh data penelitian, sangat mempengaruhi asumsi model statistik yang pada akhirnya mempengaruhi penjelasan dan interpretasi dari hubungan X dengan Y . Ambil contoh model sederhana seperti (2.1). Misalkan untuk mendapatkan x (realisasi dari variabel X) digunakan cara observasi tanpa perlakuan pada unit sampel (penelitian observasional) maka model ini kurang kuat untuk menjelaskan kausalitas X terhadap Y . Namun bila x diperoleh dengan kaidah desain eksperimental maka model dapat digunakan untuk menjelaskan hubungan kausal 1 . 1 Meskipun demikian, sekarang ini berkembang penelitian untuk mengembangkan metode statistik untuk data penelitian observasional yang dapat digunakan untuk analisis kausalitas 8 2.7. Model Statistik 3 Statistik dan Ukuran dalam Epidemiologi 3.1 Prevalensi dan insidensi Definisi sehat menurut WHO adalah: health is a state of complete physical, mental, and social well-being and not merely the absence of disease or infirmity. Definisi ini cukup sulit direalisasikan terutama pada definisi dan ukuran well-being. Definisi yang lebih praktis yang banyak digunakan oleh epidemiolog adalah ”ada” atau ”tidak ada” penyakit 1 . Ukuran paling dasar yang sering digunakan untuk melihat besarnya permasalahan adalah banyaknya kejadian atau frekuensi kejadian (sakit, meninggal, dsb.). Namun ukuran ini sangat bergantung pada besar populasi dan lama periode pengamatan. Ukuran yang tidak bergantung pada besar populasi dan lama periode pengamatan yang banyak digunakan adalah prevalensi (prevalence) dan insidensi (incidence) Prevalensi adalah banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu pada suatu waktu tertentu Prevalensi dirumuskan sebagai: P = d N (3.1) d: banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu pada suatu waktu tertentu N : banyaknya subyek pada suatu waktu tersebut 1 Meskipun demikian penelitian dalam bidang Biostatistika dan Epidemiologi saat ini mengarah pada pengukuran hal-hal yang lebih soft daripada hanya sakit dan tidak sakit seperti well-being dan quality of life, dan seterusnya. 9 10 3.1. Prevalensi dan insidensi Insidensi adalah banyaknya subyek yang mengalam kejadian baru atau mendapatkan penyakit baru dalam suatu interval waktu tertentu. Jenis ukuran insidensi yang sering dipakai adalah Insidensi Kumulatif (IK) dan tingkat insidensi (incidence rate). IK dirumuskan sebagai: d (3.2) N0 d: banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu N0 : banyaknya subyek yang belum mengalami kejadian tertentu atau menderita penyakit tertentu pada awal interval waktu tersebut IK = Jenis insidensi yang lain berdasarkan pada pengertian tingkat (rate), yaitu banyaknya perubahan kuantitatif yang terjadi terkait dengan waktu. Insidensi (Incidence rate) dirumuskan sebagai: d (3.3) NT d: banyaknya subyek yang mengalami kejadian tertentu atau menderita penyakit tertentu dalam suatu interval waktu tertentu N T : Total waktu subyek yang belum mengalami kejadian tertentu atau menderita penyakit tertentu dalam interval waktu tersebut (sering juga disebut sebagai person-time atau risk-time) I= Istilah lain yang sering digunakan untuk insidensi adalah person-time incidence rate, instantaneous incidence rate, force of morbidity, incidencedensity, hazard) 3.1.1 Faktor-faktor prevalensi yang berpengaruh terhadap nilai Prevalensi sangat dipengaruhi oleh banyak faktor yang tidak berhubungan langsung dengan penyebab penyakit, misalnya in-migrasi dan out-migrasi dan perbaikan cara diagnosis (lihat Gambar 3.1). Oleh karena itu prevalensi tidak dianjurkan untuk menunjukkan kausalitas. Tapi prevalensi sangat membantu untuk menunjukkan besarnya masalah kesehatan. Prevalensi dan insidensi saling berkaitan, secara umum hubungannya dapat ditunjukkan sebagai berikut: Bila prevalensi kecil dan tidak berubah menurut waktu prevalensi ≈ insidensi × durasi (3.4) 11 3.1. Prevalensi dan insidensi naik karena turun karena durasi penyakit yg panjang pasien hidup lama insidensi meningkat in-migrasi kasus out-migrasi penduduk sehat in-migrasi orang yg rentan meningkatnya diagnosis durasi penyakit yg pendek pasien hidup singkat insidensi menurun in-migrasi penduduk sehat out-migrasi kasus out-migrasi orang yg rentan meningkatnya kesembuhan Gambar 3.1: Faktor-faktor yang mempengaruhi prevalensi terobservasi π 1−π S G Gambar 3.2: Model Bernoulli 3.1.2 Model untuk Prevalensi Dasar analisis untuk prevalensi adalah Model Bernoulli (Lihat Gambar 3.2) yang mempunyai asumsi sebagai berikut : • tiap usaha (trial) menghasilkan satu dari dua hasil yang mungkin, dinamakan sukses (S) dan gagal (G); • peluang sukses, P (S) = π dan peluang gagal P (G) = 1 − π • usaha-usaha tersebut independen Fungsi probabilitas Bernoulli adalah P (X = x; π) = π x (1 − π)1−x , dengan π adalah probabilitas sukses dan x = 0, 1 (gagal, sukses). Dalam konteks Epidemiologi, sukses misalnya terkena penyakit tertentu atau meninggal. 12 3.2. Model untuk Insidensi Untuk melakukan inferensi berdasarkan model ini dapat digunakan fungsi likelihood berdasarkan data yang diperoleh. Contoh 1: Dari n = 10 orang diketahui outcome sukses (S) dan gagal (G) SSGSGGGSGG (misalnya sukses adalah terkena penyakit tertentu dan gagal adalah tidak terkena penyakit tertentu). Seberapa mungkin data ini berasal dari model binomial dengan (i) π = 0,1; (ii) π = 0,5? Jawab: (i) π = 0,1: L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π) = 0,14 × 0,96 = 5,31 × 10−5 (ii) π = 0,5 L(π | data) = ππ(1 − π)π(1 − π)(1 − π)(1 − π)π(1 − π)(1 − π) = 0,54 × 0,56 = 9,77 × 10−4 Terlihat bahwa likelihood untuk π = 0,5 lebih besar daripada π = 0,1 sehingga dapat disimpulkan bahwa data lebih mungkin berasal dari model Bernoulli dengan π = 0,5 daripada π = 0,1 (Lihat Gambar 3.3). Nilai maksimum likelihood untuk data ini diperoleh pada π = 0,4 (Gambar 3.4). Nilai inilah yang sebenarnya paling didukung oleh data. Cara seperti ini dikenal dalam Statistika sebagai cara untuk mencari estimator dengan Metode Maximum Likelihood. 3.2 Model untuk Insidensi Model untuk insidensi kumulatif pada prinsipnya sama seperti prevalensi, yaitu berdasarkan pada model Bernoulli. Di sini akan dibahas model untuk insidensi, khususnya incidence rate (3.3). Pada bagian sebelumnya, prevalensi dapat dipandang sebagai eksperimen Bernoulli, dengan sukses adalah kejadian yang menjadi perhatian, seperti sakit dan lainnya. Model ini dapat dikembangkan untuk insidensi. Dalam insidensi, khususnya incidence rate (3.3), seorang individu diamati dalam suatu periode waktu tertentu. yang dapat dibagi dalam beberapa interval. Misalnya, seseorang 13 0.0008 0.0004 L(0.5) 0.0000 Likelihood 0.0012 3.2. Model untuk Insidensi L(0.1) 0.0 0.2 0.4 0.6 0.8 1.0 π 0.0004 0.0008 0.00119 0.0000 Likelihood 0.0012 Gambar 3.3: Fungsi likelihood untuk data biner SSGSGGGSGG dengan π = 0,1 dan π = 0,5 0.0 0.2 0.4 0.6 0.8 1.0 π Gambar 3.4: Maksimum Likelihood untuk data biner SSGSGGGSGG adalah pada π = 0,4 14 3.2. Model untuk Insidensi M π1 M 1− π2 M π1 H 1− π3 π2 3 1 H 1− π3 H 5 Gambar 3.5: Insidensi sebagai satu urutan beberapa model probabilitas biner, dengan sukses M (mati) dan gagal H (hidup) yang diamati selama 3 tahun dapat dibagi menjadi 3 satu tahun interval waktu pengamatan. Pada Gambar 3.5 seseorang diamati sampai M (meninggal) yang juga merupakan titik akhir (end-point) pengamatan, selama 3 tahun. Apabila dalam 3 tahun tersebut probabilitas meninggal sama, misalnya π, maka model yang dapat digunakan adalah Bernoulli seperti yang telah dibahas di muka. Namun apabila dalam setiap interval waktu probabilitas meninggal berbeda, misalnya π1 , π2 , π3 seperti terlihat pada Gambar, maka probabilitas M untuk tiap akhir interval akan berbeda dan merupakan probabilitas bersyarat. Sebagai contoh pada Gambar 3.6 diketahui nilai π1 , π2 , π3 . Probabilitas meninggal pada akhir tahun pertama adalah 0,3. Probabilitas meninggal pada akhir tahun kedua merupakan probabilitas bersyarat, karena untuk meninggal pada akhir tahun kedua individu ini harus hidup pada akhir tahun pertama, sehingga probabilitasnya adalah 0,7 × 0,2 = 0,14. Demikian pula untuk probabilitas meninggal pada akhir tahun ketiga, 0,7 × 0,8 × 0,1= 0,056. Selanjutnya, untuk interval yang semakin sempit, probabilitas kondisional (untuk M) menjadi semakin kecil pula, dan konvergen ke hazard rate (force of mortality) P (t ≤ T < t + h | T ≥ t) (3.5) h→0 h Likelihood untuk λ dapat diturunkan dari likelihood binomial dengan menganggap bahwa probabilitas sukses adalah λh dengan h kecil, λ = lim L(λ) = λD exp(−λY ) (3.6) 15 3.3. Ukuran untuk Pengaruh Faktor M 0,3 M 0,2 0,7 M 0,1 H 0,8 H 0,9 H 1 3 5 Gambar 3.6: Contoh satu urutan beberapa model probabilitas biner dan penghitungan probabilitas bersyarat) dengan D adalah banyaknya kejadian, Y adalah total waktu observasi. Log-likelihood untuk λ ℓ(λ) = D log(λ) − λY (3.7) Persamaan (3.6) dan (3.7) adalah fungsi likelihood dan log-likelihood untuk distribusi Poisson. Dapat dengan mudah ditunjukkan bahwa penduga untuk λ adalah λ̂ = D/Y . Contoh 2: Misalkan ada 7 observasi dengan total waktu observasi 500 orang-tahun (personyears). Log-likelihood untuk λ ℓ(λ) = 7 log(λ) − 500λ Nilai maksimum untuk fungsi Log-likelihood ini diperoleh pada λ = 0,014 (Gambar 3.7) 3.3 Ukuran untuk Pengaruh Faktor Bagian di muka membahas statistik dan ukuran tanpa memandang adanya faktor atau variabel yang mempengaruhi statistik atau ukuran tersebut. Dengan kata lain dalam notasi statistika di muka, sementara hanya dilihat variabel Y saja tanpa melihat adanya X (variabel independen, penjelas, paparan). Dalam bagian ini akan dibahas statistik dan ukuran yang melibatkan pengaruh faktor. Ukuran 16 −37.5 −38.5 −39.5 log likelihood 3.3. Ukuran untuk Pengaruh Faktor 0.005 0.010 0.015 0.020 0.025 0.030 λ Gambar 3.7: Log-likelihood untuk λ dan nilai maksimumnya ini, seperti yang akan dijelaskan lebih lanjut, sangat bergantung pada pada desain penelitian yag digunakan. Beberapa ukuran yang dapat digunakan untuk melihat faktor resiko diantaranya: • Selisih resiko (risk difference) • Rasio resiko (risk ratio) • Odds ratio Misalkan π1 adalah probabilitas atau resiko untuk subyek yang terpapar dan π2 untuk subyek yang tidak terpapar. Sebagai contoh, π1 adalah probabilitas subyek terkena kanker paru jika diketahui subyek merokok, dan π1 adalah probabilitas subyek terkena kanker paru jika diketahui subyek tidak merokok. Selisih resiko, rasio resiko dan odds ratio akan dijelaskan berdasarkan π1 dan π2 di atas. Selisih resiko Didefinisikan sebagai RD = π1 − π2 yaitu selisih antara dua probabilitas π1 dan π2 . Karena π1 = RD + π2 , selisih resiko mengukur perubahan pada skala aditif. Jika RD > 0, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. Sebaliknya jika RD < 0, paparan berkaitan dengan penurunan probabilitas terkena penyakit; dan jika RD = 0, paparan tidak berkaitan dengan penyakit tersebut. Rasio resiko didefinisikan sebagai rasio antara dua probabilitas, RR = π1 /π2 . Karena π1 = RRπ2 , rasio resiko mengukur perubahan pada skala multiplikatif. Jika RR > 1, paparan berkaitan dengan kenaikan probabilitas terkena penyakit. 17 3.3. Ukuran untuk Pengaruh Faktor Tabel 3.1: Notasi untuk frekuensi terobservasi (observed frequencies) dalam tabel kontingensi 2 × 2 Y X 1 2 1 n11 n12 n1• 2 n21 n22 n2• n•1 n•2 n Jika RR < 1, paparan berkaitan dengan penurunan probabilitas terkena penyakit; dan jika RR = 1, paparan tidak berkaitan dengan penyakit tersebut. Odds merupakan representasi alternatif untuk probabilitas. Untuk probabilitas π 6= 1, odds ω didefinisikan sebagai π . ω= 1−π Meskipun probabilitas dan odds merepresentasikan informasi yang sama, nilai rentang ω tidak sama dengan π, yaitu 0 ≤ π ≤ 1 sedangkan ω > 0. Bila didefinisikan ω1 = π1 /(1 − π1 ) dan ω2 = π2 /(1 − π2 ), Odds ratio adalah rasio antara dua odds ω1 dan ω2 OR = ω1 π1 (1 − π2 ) = . ω2 π2 (1 − π1 ) (3.8) Odds ratio mirip dengan rasio resiko RR dalam hal perubahannya yang diukur secara multiplikatif. Interpretasi nilai OR juga ekivalen dengan RR. 3.3.1 Tabel Kontingensi 2 × 2 Dalam tabel kontingensi 2 × 2, terdapat dua variabel, misalnya X dan Y yang masing-masing memiliki dua kategori. Tabel kontingensi 2 × 2 merupakan klasifikasi silang atau frekuensi yang diperoleh dari kategori-kategori variabel X dan Y . Data yang diperoleh adalah seperti pada Tabel 3.1. Pada tabel P tersebut, P ni• = ni1 + ni2 , i = 1, 2; n•j = n1j + n2j , j = 1, 2 dan n = i j nij . Untuk desain penelitian cohort, prospekstif atau follow-up, diasumsikan bahwa probabilitas marginal X adalah tetap, dengan menganggap bahwa X adalah variabel penjelas atau variabel paparan (exposure) dan Y adalah respon (Tabel 3.2), dengan πj|i adalah probabilitas bersyarat. Untuk menyederhanakan penulisan π1|1 ditulis sebagai π1 saja, sedangkan π1|2 ditulis sebagai π2 . Estimasi titik untuk RD berdasarkan data seperti Tabel 3.1 adalah c = π̂1 − π̂2 RD (3.9) 18 3.3. Ukuran untuk Pengaruh Faktor Tabel 3.2: Model probabilitas untuk desain penelitian cohort, prospektif atau follow-up Y X 1 2 1 π1|1 π2|1 1 2 π1|2 π2|2 1 dengan π̂1 = n11 /n1• dan π̂2 = n21 /n2• . Estimator ini mempunyai galat standar (standard error) ¸1/2 · π1 (1 − π1 ) π2 (1 − π2 ) + . (3.10) σ(π̂1 − π̂2 ) = n1 n2 Interval konfidensi (1 − α)100% untuk π1 − π2 (π̂1 − π̂2 ) ± Zα/2 σ̂(π̂1 − π̂2 ), (3.11) σ̂(π̂1 − π̂2 ) sama seperti σ(π̂1 − π̂2 ) dengan πi diganti π̂i . Estimasi titik untuk RR c = π̂1 RR π̂2 c galat standar (standard error) untuk log RR ¶1/2 ³ ´ µ1 − π 1 − π 2 1 c = + σ log RR π 1 n1 π 2 n2 Interval konfidensi (1 − α)100% untuk log RR ³ ´ c c log RR ± Zα/2 σ log RR (3.12) (3.13) (3.14) Estimasi titik untuk OR c = n11 n22 OR n12 n21 (3.15) alternatifnya, untuk menghindari masalah bila ada nij = 0 c = (n11 + 0,5)(n22 + 0,5) OR (n12 + 0,5)(n21 + 0,5) c galat standar (standard error) untuk log OR ¶1/2 ³ ´ µ 1 1 1 1 c σ̂ log OR = + + + n11 n12 n21 n22 (3.16) (3.17) 19 3.4. Perancuan ( Confounder) Tabel 3.3: Data Bedsores study Meninggal hidup Total Bedsore 79 745 824 tidak Bedsore 286 8.290 8.576 Total 365 9.035 9.400 E E D F E D F D F Gambar 3.8: Variabel F adalah perancu antara D (variabel respon) dengan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah c Interval konfidensi (1 − α)100% untuk log OR ³ ´ c c log OR ± Zα/2 σ̂ log OR (3.18) Tabel 2 × 2 dapat dikembangkan dan diperluas untuk tabel yang lebih umum b × k, maupun variabel yang lebih dari dua. 3.4 Perancuan (Confounder) Variable perancu adalah variabel yang memenuhi dua kondisi: • merupakan faktor resiko • mempunyai hubungan dengan variabel paparan tapi bukan merupakan konsekuensi dari variabel paparan Secara konseptual perancuan dapat digambarkan seperti pada Gambar 3.8 dan 3.9. Pada gambar pertama variabel F mempengaruhi baik variabel D maupun E, sedangkan pada gambar kedua F tidak mempengaruhi D dan E sekaligus. Contoh 3: Manula yang mengalami kecelakaan, seperti terjatuh, seringkali menjadi tidak 20 3.4. Perancuan ( Confounder) E E D D F F E E D D F F Gambar 3.9: Variabel F bukan perancu antara D dengan E (variabel respon) dengan E (variabel paparan). Tanda → pengaruh satu arah; ↔ pengaruh dua arah dapat bangun dan bergerak dalam waktu lama. Hal ini dapat mengakibatkan bedsores, yaitu luka pada kulit yang dapat berlanjut ke otot dan tulang dan dapat berakibat fatal. Diperoleh data seperti pada Tabel 3.3. Rasio resiko dari data ini adalah 79/824 = 2,9 286/8576 RR = Nilai RR tersebut cukup tinggi menunjukkan bahwa bedsore mungkin dapat mengakibatkan kematian. Untuk melihat apakah ada variabel perancu pada data ini diperoleh data seperti pada Tabel 3.4. Data distratifikasi menurut tingkat keparahan penyakit lain. Dari stratifikasi ini diperoleh RR untuk masing-masing tingkat adalah RR = 55/106 = 1,04 5/10 untuk tingkat keparahan tinggi dan RR = 24/718 = 1,02 281/8566 untuk tingkat keparahan rendah. Dari hasil stratifikasi ini terlihat bahwa bedsore tidak terlalu berpengaruh terhadap kematian karena nilai RR cukup dekat dengan satu. Artinya bahwa tingkat keparahan merupakan variabel perancu dalam hubungan antara bedsore dengan kematian. 3.4. Perancuan ( Confounder) Tabel 3.4: Data Bedsores study distratifikasi menurut tingkat keparahan Tingkat keparahan tinggi akibat penyakit lain: Meninggal hidup Total Bedsore 55 51 106 tidak Bedsore 5 5 10 Total 60 56 116 Tingkat keparahan rendah akibat penyakit lain: Meninggal hidup Total Bedsore 24 694 718 tidak Bedsore 281 8.285 8.566 Total 305 8.979 9.284 21 22 3.4. Perancuan ( Confounder) 4 Uji Diagnostik 4.1 Sensitivitas, Spesifisitas dan Nilai Prediksi Untuk menentukan sakit atau tidaknya seseorang diperlukan diagnosa yang tepat. Dapat dikatakan diagnosis adalah langkah awal yang penting dalam pengobatan. Kesalahan diagnosa dapat berakibat kesalahan pengobatan dan tidak mustahil berakibat fatal. Diagnosa juga merupakan tahap yang penting dalam program preventif penyakit. Dalam hal ini diagnosa sering disebut sebagai screening. Dalam diagnosa ataupun screening digunakan suatu prosedur atau tes untuk melihat apakah seseorang menderita penyakit tertentu atau tidak. Kegiatan diagnostik dapat dipandang sebagai peristiwa-peristiwa probabilitas sebagai berikut: T + : diagnosa atau screening menunjukkan tes positif T − : diagnosa atau screening menunjukkan tes negatif D+ : kenyataannya positif ada penyakit D− : kenyataannya tidak ada penyakit (negatif) Baik atau tidaknya suatu prosedur atau tes diagnostik dapat dilihat berdasarkan probabilitas-probabilitas bersyarat di bawah ini: Sensitivitas (sensitivity): Sens = P (T + | D+) Specifisitas (sensitivity): Spec = P (T − | D−) Nilai Prediksi + (Predictive Value +): PV+ = P (D+ | T +) Nilai Prediksi - (Predictive Value -): PV− = P (D− | T −) Suatu alat yang ideal seharusnya mempunyai nilai sensitivitas dan spesifisitas yang cukup tinggi (mendekati 1). Namun pada prakteknya nilai sensitivitas dan spesifisitas tidak dapat diestimasi, karena memerlukan pengetahuan apakah kenyataannya seseorang menderita penyakit atau tidak. Sedangkan jika sudah diketahui ada tidaknya suatu penyakit tentu saja tidak lagi diperlukan adanya tes 23 24 4.1. Sensitivitas, Spesifisitas dan Nilai Prediksi Tabel 4.1: Hasil cytological test T− T+ Total D− 23.362 362 23.724 D+ 225 154 379 diagnostik! Nilai sensitivitas dan spesifisitas hanya dapat diestimasi dengan cara dibandingkan dengan tes lain yang dianggap paling tepat (gold standar test). Dalam praktek yang ingin diketahui melalui suatu prosedur diagnostik adalah, apakah suatu tes yang diketahui positif akan dapat memprediksi adanya suatu penyakit, yaitu PV+ prosedur diagnostik tersebut; dan juga PV- dari prosedur diagnostik tersebut. Nilai prediksi + dapat diturunkan menggunakan Teorema Bayes: PV+ = P (D+ | T +) P (D+ ∩ T +) = P (T +) P (D+)P (T + | D+) = P (D+)P (T + | D+) + P (D−)P (T + | D−) Prevalence × Sensitivity . = prev. × sens. + (1 − prev.) × (1 − spec.) Demikian pula untuk Nilai prediksi −, PV− = P (D− | T −) P (D− ∩ T −) = P (T −) P (D−)P (T − | D−) = P (D−)P (T − | D−) + P (D+)P (T − | D+) (1 − Prevalence) × Specificity = (1 − prev.) × spec. + prev. × (1 − sens.) Contoh 1: Suatu tes sitologi (cytological test) dilakukan untuk screening kanker rahim pada wanita. Diperoleh data 24.103 wanita yang terdiri atas 379 wanita yang diketahui sudah menderita kanker rahim (dengan tes yang dianggap sebagai gold standar). Diperoleh data seperti pada Tabel 4.1. Hitung sensitivity dan specificity tes tersebut! Jawab: 25 4.2. Kurva ROC Tabel 4.2: Nilai PV+ dan PV- untuk berbagai nilai prevalensi prevalensi PV+ PV0,0010 0,0264 0,999 0,0157 0,3015 0,990 0,0500 0,5876 0,969 0,1000 0,7505 0,937 0,5000 0,9644 0,624 154 = 0,406 379 = 40,6% sens = 23.362 = 0,985 23.724 = 98,5% spec = Hasil estimasi sens dan spec tersebut dapat diinterpretasikan sebagai berikut: • Jika tes digunakan untuk wanita yang tidak menderita kanker rahim, tes hampir pasti akan negatif ( specificity = 98,5% cukup besar) • Jika tes digunakan untuk wanita yang menderita kanker rahim, peluang tidak terdeteksi besar ( sensitivity = 40,6 % rendah; false negatif 59,4%) Untuk menghitung PV+ dan PV− diperlukan prevalensi. Table 4.2 menyajikan PV+ dan PV− untuk berbagai nilai prevalensi dengan spec=98,5% dan sens=40,6%. Terlihat bahwa PV+ dan PV− nilainya terpengaruh oleh prevalensi, semakin besar prevalensi PV+ akan semakin besar sedangkan PV− akan semakin kecil. 4.2 Kurva ROC Kurva ROC (receiver operating characteristic) digunakan bila respon diagnosis (emphscreening test) lebih dari dua jenis respon atau respon bilangan kontinu. Kurva ini menghubungkan nilai sensitivitas dengan 1-specifisitas. Area di bawah kurva ROC dapat digunakan untuk menilai keakuratan suatu diagnosis. Contoh 2: Diketahui probabilitas skor CT image (computed tomographic image) untuk 26 4.2. Kurva ROC Tabel 4.3: Skor dari radiolog untuk hasil CT image pasien syaraf Status Skor dari radiolog ∗ Penyakit (D) (1) (2) (3) (4) (5) Normal (D−) 0,303 0,055 0,055 0,101 0,018 0,532 Abnormal (D+) 0,028 0,018 0,018 0,101 0,303 0,468 ∗ (1) hampir pasti normal; (2) mungkin normal; (3) tidak dapat ditentukan (4) mungkin abnormal; (5) hampir pasti abnormal Tabel 4.4: Sensitivitas dan Specifisitas berdasarkan beberapa kriteria tes positif Kriteria tes positif sensitivitas spesifitas 1-spesifitas 1 ≤ skor 1,00 0,00 1,00 2 ≤ skor 0,94 0,57 0,43 3 ≤ skor 0,90 0,67 0,33 4 ≤ skor 0,86 0,78 0,22 5 ≤ skor 0,65 0,97 0,03 5 < skor 0,00 1,00 0,00 pasien syaraf oleh seorang radiolog adalah seperti pada Tabel 4.3. Dari tabel tersebut dapat ditentukan beberapa kriteria tes positif berdasarkan nilai skor radiolog. Nilai sensitivitas, spesifisitas dan 1 − spesifisitas dapat dihitung berdasarkan kriteria tersebut seperti pada Tabel 4.4. Plot antara sensitivitas dengan 1 − spesifisitas adalah kurva ROC untuk skor radiolog ini (Gambar 4.1). Kurva ROC dapat digunakan untuk membandingkan beberapa prosedur diagnostik. Prosedur yang paling baik adalah yang mempunyai luas area di bawah kurva ROC yang paling besar. Sebagai contoh pada Gambar 4.2, prosedur diagnostik yang lebih baik adalah yang berupa kurva ROC garis penuh. 27 4.2. Kurva ROC (0.43, 0.94) b b b b (1.00, 1.00) (0.33, 0.90) (0.22, 0.86) sensitivitas b(0.03, 0.65) b (0.00, 0.00) sensitivitas 1-specifisitas Gambar 4.1: Kurva ROC untuk skor radiolog. 1-specifisitas Gambar 4.2: Perbandingan Kurva ROC. 28 4.2. Kurva ROC 5 Regresi Logistik Pada bagian 3.3.1 dipelajari analisis untuk tabel 2 × 2. Dalam tabel 2 × 2 ini baik respon Y maupun variabel penjelas atau faktor X hanya terdiri atas dua jenis kategori. Penelitian dalam bidang kesehatan maupun Epidemiologi biasanya mempunyai lebih dari satu variabel penjelas atau faktor X. Untuk data penelitian semacam ini dapat digunakan regresi logistik. Contoh 1: Diperoleh data tentang hubungan antara penyakit jantung koroner dengan tekanan pekerjaan seperti pada Tabel 5.1. Rasio resiko untuk tekanan pekerjaan adalah 97/404 200/1609 = 1,932 d = RR dengan interval konfidensi 95% (1,5554 – 2.3987) Esimasi rasio resiko ini juga dapat dihitung dengan model regresi logistik sederhana (satu variabel) yang dibahas pada bagian selanjutnya. Tabel 5.1: Data studi tentang hubungan penyakit jantung koroner dengan tekanan pekerjaan Tertekan krn. Penyakit jantung koroner Pekerjaan Ya Tidak Total Ya 97 307 404 Tidak 200 1409 1609 29 30 5.1 5.1. Model dan Estimasi Parameter Model dan Estimasi Parameter Misalkan Yi adalah variabel random Bernoulli untuk individu i, distribusi probabilitas YI adalah P (Yi = yi ) = πiyi (1 − πi )1−yi , yi = 0, 1 (5.1) Setiap individu i mempunyai karakteristik berupa kovariat xi yang mempengaruhi πi dalam bentuk πi = 1 1 + exp(−(β0 + β1 xi )) (5.2) Fungsi seperti πi dalam persamaan (5.2) dinamakan fungsi logistik. Untuk kovariat atau variabel penjelas yang lebih dari satu, fungsi untuk πi dapat diperluas menjadi πi = eZ 1 , atau π = i 1 + e−Z 1 + eZ (5.3) dengan Z = β0 + β1 x1 + β1 x1 + · · · + βp adalah fungsi linear dari p variabel penjelas. Model (5.3) dapat dituliskan sebagai kombinasi linear dari variabel penjelas seperti halnya pada model linear sebagai berikut log πi = β0 + β1 x1i + β2 x2i + · · · + βp xpi 1 − πi (5.4) atau logit(π) = β0 + β1 x1i + β2 x2i + · · · + βp xpi (5.5) dengan x1i , x2i , . . . , xpi adalah variabel penjelas, faktor atau kovariat; dan β0 + β1 x1 + β1 x1 + · · · + βp adalah parameter model. Estimasi untuk β = (β0 , β1 , . . . , βp ) dapat diperoleh dengan MLE untuk fungsi likelihood berikut ini L(β) = n Y P (Yi = yi ) i=1 [exp(β0 + β1 x1i + β2 x2i + · · · + βpi )]yi = 1 + exp(β0 + β1 x1i + β2 x2i + · · · + βpi ) (5.6) Program statistika seperti R, SPSS, Epi-Info, STATA menyediakan fasilitas untuk estimasi β̂ dan kesalahan standarnya SE(β̂). 31 5.2. Interpretasi Parameter Model 5.2 Interpretasi Parameter Model Untuk model regresi logistik sederhana (5.2) logit(πi ) = β0 + β1 xi dengan ( 0 i tdk terpapar xi = 1 i terpapar dapat dituliskan πi = exp [β0 + β1 xi ] 1 − πi atau oddsxi = exp [β0 + β1 xi ] Sehingga OR = odds1 eβ0 +β1 = β0 = eβ1 odds0 e Atau dapat disimpulkan bahwa eksponen dari parameter model regresi logistik adalah OR. Interpretasi ini dapat diperluaas untuk model regresi logistik ganda dan untuk variabel penjelas kontinu bukan kategori seperti contoh di atas. Untuk variabel kontinu, kenaikan m-unit untuk satu variabel penjelas X, misalnya X = x + m dibandingkan dengan X = x mempunyai OR sama dengan emβ1 . Estimasi titik dan interval konfidensi (1 − α)100% untuk OR: c = exp(β̂) OR exp(β̂ ± Zα/2 SE(β̂)) Contoh 2: : Dengan menggunakan paket statistik R dapat diestimasi RD, RR maupun RD dari data Contoh 1 di muka. Digunakan fungsi glm (Generalized Linear Model) dengan fungsi penghubung (link function) logit dan distribusi Binomial 1 1 Regresi logistik sebenarnya merupakan bagian dari model yang lebih umum lagi yang dinamakan GLM (Generalized Linear Model) 32 5.2. Interpretasi Parameter Model > m<-glm(D˜E,family=binomial(link=logit), data=dt) > round(ci.logistik(m),digits=3) coef.p s.err L U ecoef.p eL eU (Intercept) -1.952 0.076 -2.100 -1.804 0.142 0.122 0.165 E 0.800 0.139 0.528 1.072 2.226 1.696 2.922 Fungsi ci.logistik bukan fungsi standar bawaan R, fungsi ini adalah fungsi buatan untuk menghitung eβ dan interval konfidensi dari hasil estimasi parameter model regresi logistik. Diperoleh interval konfidensi untuk OR 2,226 (1,696 – 2,922), yang sama dengan hasil yang diperoleh dengan analisis tabel 2 × 2 di muka. Untuk menghitung RR dan RD digunakan estimasi probabilitas π(x) dari model regresi yang diperoleh. Probabilitas mendapatkan penyakit jantung untuk individu yang terpapar P (yi = 1 | xi = 1) adalah > predict(m,newdata=data.frame(E=1),type="response") [1] 0.240099 yang merupakan estimasi untuk P (yi = 1 | xi = 1), dan predict(m,newdata=data.frame(E=0),type="response") [1] 0.1243008 yang merupakan estimasi untuk P (yi = 1 | xi = 0). Regresi Logistik dapat digunakan untuk menghitung RR, RD, OR dalam desain penelitian cohort atau follow-up. Namun hanya dapat valid digunakan untuk menghitung OR desain case-control. 6 Regresi Poisson 6.1 Model dan Estimasi Parameter Distribusi Poisson biasanya digunakan untuk memodelkan cacah kejadian dalam suatu unit interval waktu, atau daerah tertentu. Distribusi probabilitas Poisson adalah θx e−θ P (X = x) = , x! x = 0, 1, 2, . . . (6.1) yang mempunyai mean dan variansi sama yaitu θ Untuk menyelidiki infeksi pada suatu populasi organisme tertentu, sering tidak mungkin untuk meneliti tiap-tiap individu. Organisme tersebut dibagi dalam kelompok-kelompok dan kelompok tersebut dianggap sebagai unit. N = banyaknya organisme n = banyaknya kelompok m = banyaknya organisme tiap kelompok, N = nm (dengan menganggap m sama untuk tiap kelompok) Misalnya X adalah banyaknya organisme yang tidak terinfeksi, variabel random X kemungkinan besar dapat dimodelkan dengan Poisson, Data yang dapat dianalisis dengan regresi Poisson berupa yi banyaknya observasi cacah pada unit i; si ukuran tiap unit i; dan karakteristik tiap unit (kovariat) xi , i = 1, 2, . . . , n. Model regresi Poisson dapat dituliskan sebagai berikut: E(Yi | Xi ) = µi = si λ(xi ) = si exp(β0 + β1 xi ), log µi = log si + β0 + β1 xi dengan λ(xi ) dinamakan resiko unit i. 33 (6.2) atau (6.3) 34 6.2. Interpretasi Parameter Model Ukuran unit si dapat berupa: banyaknya anggota populasi, interval waktu, luasan, exposure time dan sebagainya. Dengan asumsi Yi berdistribusi Poisson, diperoleh fungsi likelihood: L(β) = n Y P (Yi = yi ) (6.4) i=1 = n Y [si λ(xi )]yi exp[−si λ(xi )] i=1 yi ! (6.5) Dapat digunakan beberapa program statistika seperti R, STATA, SAS untuk estimasi β dan kesalahan standarnya SE(β̂). 6.2 Interpretasi Parameter Model : Untuk model regresi Poisson sederhana log µi = log si + β0 + β1 xi dengan ( 0 i tdk terpapar xi = 1 i terpapar Dapat dihitung RR untuk unit yang terpapar sebagai berikut E(Yi | Xi = 1) E(Yi | Xi = 0) si exp(β0 + β1 ) = si exp(β0 ) β1 = e RR = (6.6) (6.7) (6.8) Contoh 1: Data diperoleh dari studi awal tentang akibat buruk merokok bagi kesehatan pada tahun 1951. Kematian akibat penyakit jantung koroner dikategorikan menurut umur dan status merokok (Tabel 6.1). Dapat dilihat pada Gambar 6.1 bahwa tingkat kematian untuk perokok lebih tinggi dibandingkan dengan tingkat kematian bukan perokok, kecuali untuk kelompok usia lanjut. Untuk menganalisis data ini dapat digunakan regresi Poisson. Ada dua alternatif model yang dapat dicocokkan. 35 6.2. Interpretasi Parameter Model 1500 1000 500 0 kematian per 100.000 per tahun 2000 Tabel 6.1: Kematian akibat jantung koroner menurut umur dan status merokok Kel. perokok bukan perokok Umur kematian person-years kematian person-years 35 – 44 32 52407 2 18790 45 – 54 104 43248 12 10673 55 – 64 206 28612 28 5710 65 – 74 186 12663 28 2585 75 – 84 102 5317 31 1462 35−44 45−54 55−64 65−74 75−84 kelompok umur Gambar 6.1: Tingkat kematian akibat penyakit jantung koroner per 100.000 person-years untuk perokok • dan bukan perokok • 36 6.2. Interpretasi Parameter Model Tabel 6.2: Estimasi parameter model (6.9) Parameter Estimasi SE RR Int-konf. 95% RR β0 -10,79 0,450 β1 1,44 0,372 4,22 2,04 – 8,76 β2 2,37 0,207 10,77 7,16 –16,18 β3 -0,19 0,027 0,82 0,78 – 0,87 β4 -0,30 0,097 0,74 0,61 – 0,89 Model yang pertama menganggap kelompok usia sebagai variabel kontinu, sehingga dapat dimodelkan pula kuadrat dari umur dan interaksinya dengan status merokok. Asumsi ini masuk akal karena usia seperti terlihat pada Gambar 6.1 menampilkan bentuk kuadratik dan bersilangan pada usia lanjut yang menunjukkan adanya interaksi. log µi = log(si ) + β1 x1i + β2 x2i + β3 x1i × x2i + β4 x21i , i = 1, . . . , 10 (6.9) dengan • µi : mean dari kematian • si : person-years • x1i : perokok atau bukan; • x2i : usia 1, 2, 3, 4, 5 ; • x1i × x2i : interaksi (hasil kali) antara x1i dengan x2i ; • x21i : kuadrat umur Untuk model ini diperoleh estimasi seperti pada Tabel 6.2. Model kedua membuat variabel-variabel boneka (dummy) untuk kelompok umur seperti biasa dengan interaksi variabel-variabel tersebut dengan status merokok. log µi = log(si ) + β1 x1i + β2 x2i + β3 x3i + β4 x4i + β5 x5i + β6 x1i x2i + β7 x1i x3i + β8 x1i x4i + β9 x1i x5i i = 1, 2, . . . , 10 dengan • µi : mean dari kematian (6.10) 6.2. Interpretasi Parameter Model 37 Tabel 6.3: Estimasi parameter model (6.10) Parameter Estimasi SE RR Int-konf 95% RR β0 -9,15 0,71 0,00 0,00 – 0,00 β1 1,75 0,73 5,74 1,37 – 23,94 β2 2,36 0,76 10,56 2,36 – 47,20 β3 3,83 0,73 46,07 10,97 –193,39 β4 4,62 0,73 101,76 24,24 –427,18 β5 5,29 0,73 199,21 47,68 –832,36 β6 -0,99 0,79 0,37 0,08 – 1,75 β7 -1,36 0,76 0,26 0,06 – 1,13 β8 -1,44 0,76 0,24 0,05 – 1,04 β9 -1,85 0,76 0,16 0,04 – 0,70 • si : person-years • x1i : perokok atau bukan; • xki , k = 2, 3, . . . , 5: kelompok umur 35 − 44, 45 − 54, . . ., 75 − 84 • x1i xki , h = 2, 3, . . . , 5: interaksi (hasil kali) antara x1i dengan kelompok umur xki Untuk model kedua ini diperoleh estimasi seperti pada Tabel 6.3. Model (6.9) memiliki lebih sedikit parameter dibandingkan model (6.10) dan kecocokan yang lebih baik dilihat dari nilai AIC (Akaike Information Criterion) yaitu nilai AIC 66,70, lebih kecil dibanding model (6.10) yaitu 75.06794. Namun memberi nilai numerik pada variabel kelompok umur terkadang dapat menyesatkan, karena pengubahan skala pengukuran dari interval ke rasio 1 . 1 Apabila umur sebenarnya dari individu diketahui, lebih baik digunakan nilai variabel ini dalam model 38 6.2. Interpretasi Parameter Model 7 Analisis Data Longitudinal 7.1 Data longitudinal Banyak penelitian dalam bidang kedokteran, kesehatan dan epidemiologi yang menggunakan desain pengumpulan data longitudinal. Yang dimaksud dengan data longitudinal adalah • Individu (subyek, unit sampel) diamati dalam suatu periode waktu tertentu lebih dari satu kali • Pengukuran berulang pada suatu individu (subyek, unit sampel) Data longitudinal mempunyai kelebihan dibandingkan data yang hanya dikumpulkan satu kali saja (cross-sectional). Keuntungan ini dapat diilustrasikan seperti pada Gambar 7.1. Akan lebih mudah melihat informasi bahwa kemampuan membaca semakin naik atau semakin menurun seiring dengan umur bila individu diamati lebih dari satu kali. Jenis data yang berkaitan dengan data longitudinal: • Data Panel • Data Survival, Antar Kejadian (Event History) • Data Runtun Waktu Beberapa keuntungan menggunakan data longitudinal: • Dapat digunakan untuk mengetahui pola perubahan • Setiap individu dapat menjadi kontrol bagi dirinya sendiri • Dapat membedakan efek dari umur dengan efek dari cohort maupun efek dari periode 39 40 Kemampuan Membaca b b b b b b b b b b Kemampuan Membaca 7.2. Prinsip Pemodelan b b b b Umur Gambar 7.1: Data longitudinal b b b b b b Umur • Memungkinkan untuk meneliti kausalitas Secara umum data longitudinal mempunyai setup seperti pada Tabel 7.1. Seperti halnya semua metode statistika, sebelum melakukan analisis kita perlu melakkan eksplorasi data. Prinsip eksplorasi data longitudinal di antaranya adalah: • tampilkan sebanyak mungkin data mentah daripada hanya ringkasannya • tonjolkan pola atau ringkasannya • identifikasilah baik pola cross-sectional maupun longitudinal • identifikasilah individu atau observasi yang tidak biasa (outliers) Sebagai contoh, Gambar 7.2 adalah plot antara banyaknya sel CD4+ dengan waktu sejak zeroconversion untuk penderita AIDS. Dalam plot itu selain plot untuk keseluruhan individu, plot unutuk beberapa individu juga ditampilkan, disertai plot untuk rata-rata keseluruhan individu (menggunakan fungsi penghalusan nonparametrik yang dinamakan lowess). Terlihat bahwa banyaknya sel CD4+ menurun sejak pertama kali pasien AIDS didiagnosis menderita penyakit tersebut. 7.2 Prinsip Pemodelan Seperti halnya model regresi biasa, permasalahan ilmiah diformulasikan sebagai model regresi yang terdiri dari variabel respon dan variabel penjelas. Dua hal penting yang perlu diperhatikan, secara alamiah dalam data longitudinal terdapat variabel yang berubah sepanjang waktu (time-varying expl. variables) dan 41 7.2. Prinsip Pemodelan Tabel 7.1: Bentuk umum data longitudinal subyek observasi waktu response kovariat 1 1 t11 y11 x111 ... 1 2 t12 y12 x121 ... .. .. .. .. .. .. . . . . . . 1 n1 t1n1 y1n1 x1n1 1 ... 2 1 t21 y21 x211 ... 2 2 t22 y22 x221 ... .. .. .. .. .. .. . . . . . . x11p x12p .. . x1n1 p x21p x22p .. . n1 .. . t2n1 .. . y2n1 .. . x2n1 1 .. . ... .. . x2n1 p .. . m m .. . 1 2 .. . t21 t22 .. . ym1 ym2 .. . xm11 xm21 .. . ... ... .. . xm1p xm2p .. . m nm t2n1 ymn1 x2m1 1 ... xmn1 p 2000 1000 500 0 CD4+ cell number 3000 2 .. . −2 0 2 4 Years since seroconversion Gambar 7.2: Contoh eksplorasi data dengan plot 42 7.2. Prinsip Pemodelan korelasi (asosiasi) karena pengukuran berulang pada individu yang sama, atau observasi berulang. Dua hal ini harus dimasukkan dalam pemodelan. Notasi yang digunakan dalam analisis data longitudinal • Individu: i = 1, . . . , m • Observasi pada individu i: jh = 1, . . . , ni P • Total observasi: N = m i=1 ni • Waktu observasi aktual: tij • Variabel respon: variabel random Yij Yi = (Yi1 , . . . , Yini ) Y = (Y1 , . . . , Ym ) respon observasi yij yi = (yi1 , . . . , yini ) y = (y1 , . . . , ym ) • Variabel penjelas: xij = (xij1 , . . . , xijp )T , vektor berukuran p × 1 Xi = (xi1 , . . . , xini ), matriks berukuran ni × p • Mean Yi untuk individu i: E(Yi ) = µi • Variansi Yi ; Matriks Kovariansi ni × ni untuk individu i: vi11 . . . vi1ni Var(Yi ) = . . . vijk . . . vini 1 . . . vini ni dengan vijk = Cov(Yij , Yik ) Ada beberapa pendekatan pemodelan yang dikenal selama ini, yaitu: • Model linear umum • Model marginal (marginal, population average) • Model efek random (random effects; subject specific) • Model transisi (transition) 7.3. Model Linear Umum untuk data longitudinal 7.3 43 Model Linear Umum untuk data longitudinal • Merupakan Perluasan dari model linear (Anava, regresi, anacova) dengan bentuk variansi yang lebih umum • Estimasi parameter menggunakan least-squares atau MLE atau perluasannya • Untuk respon (Y) kontinu Data observasi yij merupakan realisasi dari variabel random Yij , Yij = µij + Ui + Zij dimana µij = E(Yij ), Ui ∼ N (0, v 2 ) independen dgn Zij ∼ N (0, τ 2 ) dan Y ∼ M V N (Xβ, σ 2 V) σ 2 V adalah blok diagonal matriks yang terdiri atas n × n blok σ 2 V0 (matriks variansi vektor observasi pada suatu subyek). Bentuk korelasi antar dua observasi pada satu subyek • Korelasi Uniform V0 = (1 − ρ)I + ρI • Korelasi Eksponensial vjk = σ 2 exp(−φ(| tj − tk |)) dengan vjk = Cov(Yij , Yik ) 7.4 Model Parametrik untuk Struktur Kovariansi Data observasi: yi = (yi1 , . . . , yini ), i = 1, . . . , ni adalah vektor observasi untuk subyek i dan ti = (ti1 , . . . , tini ) adalah waktu observasi; yi merupakan realisasi dari Yi ∼ M V N (Xi β, σ 2 Vi (ti , α)) dengan β dan α adalah parameter yang tidak diketahui nilainya dengan dimensi p dan q. 44 7.4. Model Parametrik untuk Struktur Kovariansi Dapat juga ditulis sbg.: Y ∼ M V N (Xβ, σ 2 V(t, α)) Variogram dari suatu proses stokastik Y (t) ¤ 1 £ λ(u) = E (Y (t) − Y (t − u))2 , u ≥ 0 2 Untuk suatu proses stasioner Y (t), jika ρ(u) adalah korelasi antara Y (t) dengan Y (t − u) dan σ 2 = VarY (t), maka λ(u) = σ 2 (1 − ρ(u)), u ≥ 0 Sumber variansi random: • Efek Random (random effects) • Korelasi serial (serial correlation)) • galat pengukuran (measurement error) Model: Y = Xβ + ǫ dengan ǫ ∼ M V N (0, V (t, α)) Dengan asumsi aditif untuk komponen sumber variansi efek random, korelasi serial dan galat pengukuran: ǫij = dTij Ui + Wi (tij ) + Zij dengan ǫij adalah galat dari individu i pengukuran (observasi) ke-j; Zij adalah N i.i.d berdistribusi N (0, τ 2 ); Ui adalah m kumpulan i.i.d dari random vektor N (0, G) dengan r elemen ; dij adalah vektor variabel independen dengan r elemen untuk tiap individu i; Wi (tij m i.i.d adalah proses Gaussian dengan mean nol, variansi σ 2 dan fungsi korelasi ρ(u). Model: Y = Xβ + ǫ dengan ǫ ∼ M V N (0, V (t, α)) Dengan asumsi aditif untuk komponen sumber variansi efek random, korelasi serial dan galat pengukuran: ǫij = dTij Ui + Wi (tij ) + | {z } | {z } efek random korelasi serial Zij |{z} galat pengukuran 7.4. Model Parametrik untuk Struktur Kovariansi 45 Estimasi menggunakan Weighted Least-squares Estimasi parameter β menggunakan bobot matriks simetris W adalah β̂ W yang meminimumkan (y − Xβ)T W(y − Xβ) Hasilnya β̂ W = (XT WX)−1 XT Wy dan £ ¤ £ ¤ Var(β̂ W ) = σ 2 (XT WX)−1 XT W V (WX(XT WX)−1 Estimasi menggunakan Maximum Likelihood Parameter: β, σ 2 dan V0 Fungsi log-likelihood ¤ 1£ nm log σ 2 + m log | V0 | +σ −2 (y − Xβ)T V−1 (y − Xβ) 2 (7.1) Estimasi untuk β dengan diketahui V0 ℓ(β, σ 2 , V0 ) = − β̂(V0 ) = (XT V−1 X)−1 XT V−1 y (7.2) Fungsi log-likelihood (7.1) menjadi ℓ(β(V0 ), σ 2 , V0 ) = − ¤ 1£ nm log σ 2 + m log | V0 | +σ −2 RSS(V0 ) 2 (7.3) dengan RSS(V0 ) = (y − Xβ̂(V0 ))T V−1 (y − Xβ̂(V0 )) Parameter: β, σ 2 dan V0 Turunkan (7.3) ke σ 2 , diperoleh estimasi σ̂ 2 σ̂ 2 (V0 ) = RSS(V0 )/nm (7.4) Substitusikan (7.2), (7.3) dan (7.4) ke (7.1) ℓr (V0 ) = ℓ(β̂(V0 ), σ̂ 2 (V0 ), V0 ) 1 ≈ − [n log RSSV0 + log | V0 |] 2 Akhirnya diperoleh estimasi untuk V̂0 , dan β̂ = β̂(V̂0 ) dan σ̂ 2 = σ̂ 2 (V̂0 ) (7.5) 46 7.4. Model Parametrik untuk Struktur Kovariansi 8 Analisis Data Survival 8.1 Fungsi Survival dan Hazard Fungsi Survival adalah probabilitas satu individu hidup (tinggal dalam suatu status) lebih lama daripada t S(t) = P (T > t) (8.1) S(t) adalah fungsi non-increasing terhadap waktu t dengan sifat ( 1 untuk t = 0 S(t) = 0 untuk t = ∞ Fungsi survival S(t) mempunyai hubungan dengan distribusi kumulatif F (t) sebagai berikut S(t) = 1 − F (t) Penduga untuk S(t) bila data tidak tersensor Ŝ(t) = s N (8.2) dimana s adalah banyaknya individu yang masih hidup lebih lama dari t ; N adalah total banyaknya individu Fungsi Hazard menunjukkan tingkat (rate) terjadinya suatu event yang didefinisikan sebagai h(t) = lim ∆t→0 P (t ≤ T < t + ∆t | T ≥ t) ∆t Tidak seperti probabilitas yang nilainya antara 0 sampai dengan 1, fungsi hazard dapat bernilai berapa saja asalkan non-negative, h(t) ≥ 0. Gambar 8.2, 8.3, 8.4 dan 8.5 adalah contoh beberapa macam fungsi hazard. 47 48 0.0 0.2 0.4 S(t) 0.6 0.8 1.0 8.2. Kaplan-Meier dan Life Table 0.0 0.5 1.0 1.5 2.0 t Gambar 8.1: Grafik dua fungsi survival Hubungan h(t), S(t) dan f (t) h(t) = f (t) S(t) Fungsi Hazard Kumulatif H(t) = Z t h(x)dx 0 Hubungan H(t) dengan S(t) H(t) = − log S(t) 8.2 Kaplan-Meier dan Life Table Kaplan-Meier merupakan estimator non-parametrik untuk S(t) (sering disebut juga sebagai Product-Limit estimator) ( 1 jika t < t1 Ŝ(t) = Q di ti ≤t (1 − Yi ) jika ti ≤ t 49 0 1 2 h(t) 3 4 5 8.2. Kaplan-Meier dan Life Table 0.0 0.5 1.0 1.5 2.0 t 0 1 2 h(t) 3 4 5 Gambar 8.2: Fungsi hazard konstan 0.0 0.5 1.0 1.5 t Gambar 8.3: Fungsi hazard naik 2.0 50 0 1 2 h(t) 3 4 5 8.2. Kaplan-Meier dan Life Table 0.0 0.5 1.0 1.5 2.0 t 0 1 2 h(t) 3 4 5 Gambar 8.4: Fungsi hazard naik-turun 0.0 0.5 1.0 1.5 t Gambar 8.5: Fungsi hazard bathtub 2.0 51 8.3. Membandingkan Distribusi Survival dimana di adalah banyaknya event dan Yi adalah banyaknya individu yang beresiko (number at risk) Variansi dari KM estimator (Greenwood’s formula) var[Ŝ(t)] = Ŝ(t)2 X ti ≤t Alternatif: var[Ŝ(t)] = Ŝ(t)2 di Yi (Yi − di ) [1 − Ŝ(t)] Y (t) Nelson-Aalen merupakan estimator untuk fungsi hazard kumulatif: ( 0 jika t < t1 Ĥ(t) = P di jika ti ≤ t ti ≤t Yi dengan variansi ˆ Ĥ(t)) = Var( X di Y2 t ≤t i i 8.3 Membandingkan Distribusi Survival Membandingkan dua populasi yang masing-masing mempunyai fungsi survival S1 (t) dan S2 (t). Hipotesis nol: H0 : S1 (t) = S2 (t) Hipotesis alternatif: H1 : S1 (t) > S2 (t) H1 : S1 (t) < S2 (t) H1 : S1 (t) 6= S2 (t) Metode Non-parametrik Untuk data tidak tersensor dapat digunakan • Wilcoxon (1945) • Mann-Whitney (1947) • Sign test (1977) Untuk data tersensor 52 8.4. Model Regresi data survival • Gehan’s generalized Wilcoxon test (1965) • the Cox-Mantel test (Cox 1959, 1972; Mantel, 1966) • the logrank test (1972) • Peto and Peto’s generalized Wilcoxon test (1972) • Cox’s F-test (1964) • Gehan’s generalized Wilcoxon test (1965) • the Cox-Mantel test (Cox 1959, 1972; Mantel, 1966) • the logrank test (1972) • Peto and Peto’s generalized Wilcoxon test (1972) • Cox’s F-test (1964) Log-rank Test Berdasarkan observed dan expected event pada setiap event-time Untuk 2 grup Statistik penguji: χ2 = (O1 − E1 )2 (O2 − E2 )2 + E1 E2 dengan χ2 ∼Chi-square(df=1) Contoh: grup 1: 23, 16+, 18+, 20+, 24+ grup 2: 15, 18, 19, 19, 20 H0 : S1 (t) = S2 (t) H1 : S1 (t) 6= S2 (t) 8.4 Model Regresi data survival Model Regresi Parametrik • AFT (accelerated failure-time model) • model linear dalam log durasi (lama antar kejadian) 53 8.4. Model Regresi data survival • model hazard proporsional • Representasi fungsi hazard AFT h(t | X) = h0 (exp(Xβ)t) exp(Xβ) dengan X adalah matriks (n × p) dari variabel penjelas; β T = (β1 . . . βp ) adalah vektor (p × 1) parameter regresi. • Representasi log T log T = µ + Xα + σǫ dengan αT = (α1 . . . αp ) dan µ adalah parameter regresi; ǫ adalah suku error berdistribusi tertentu dan σ > 0 adalah suatu parameter skala. Model AFT dapat ditulis sebagai fungsi hazard atau survival H(t | x) = H0 (exp(xβ)t), untuk semua t S(t | x) = S0 (exp(xβ)t), untuk semua t atau dengan H0 adalah baseline fungsi hazard kumulatif dan S0 baseline fungsi survival Hazard Proporsional Misalkan ada dua orang yang masing-masing mempunyai hazard λ1 = 0, 1 dan λ2 = 0, 3 hazard ratio: λ2 = 0,3 =3 λ1 0,1 Misalkan ada dua orang yang masing-masing mempunyai hazard λ1 = 0, 1 dan λ2 = 0, 3 hazard ratio: λ2 = 0,3 =3 λ1 0,1 konstant, independen terhadap waktu Cox’s regression model atau Cox’s proportional hazards (Cox;1972,1975): h(t | x) = h0 (t)ψ(x, β) 54 8.4. Model Regresi data survival dengan x = (x1 , . . . , xp ) adalah vektor kovariat (variabel independen) dan β ′ = (β1 , . . . , βp ) adalah parameter dari model regresi Cox’s regression model atau Cox’s proportional hazards (Cox;1972,1975): h(t | x) = h0 (t)ψ(x, β) baseline hazard fungsi hazard bergantung pada x = tdk bergantung pd x × fungsi kovariat Cox’s regression model atau Cox’s proportional hazards (Cox;1972,1975): h(t | x) = h0 (t)ψ(x, β) fungsi hazard baseline hazard bergantung pada x = tdk bergantung pd x × fungsi kovariat Bentuk fungsional dari ψ(x, β) • ψ(x, β) = exp(xβ) • ψ(x, β) = exp(1 + xβ) • ψ(x, β) = log(1 + exp(xβ)) Model: h(t | x) = h0 (t) exp(xβ) Misalkan: ( 0 placebo x = 1 obat baru Hazard ratio: h(t | x = 1) h(t | x = 0) = h0 (t) exp(1 × β) h0 (t) exp(0 × β) Model: h(t | x) = h0 (t) exp(xβ) Hazard ratio: h(t | x = 1) h(t | x = 0) h0 (t) exp(1 × β) h0 (t) exp(0 × β) = exp(β) = 55 8.4. Model Regresi data survival Hazard ratio: h(t | x = 1) h(t | x = 0) h0 (t) exp(1 × β) h0 (t) exp(0 × β) = exp(β) = jika β = 0 ⇒ obat baru dan placebo sama efeknya jika β < 0 ⇒ obat baru memberikan efek yang lebih baik daripada placebo (resiko kematian lebih rendah) jika β > 0 ⇒ obat baru memberikan efek yang lebih buruk daripada placebo (resiko kematian lebih tinggi) Secara umum nilai estimasi β dapat digunakan untuk mengidentifikasi faktor resiko (risk factors, prognostic factors) yang berkaitan dengan variabel dependen time-to-event T. Dapat dituliskan dalam H(t | x) atau S(t | x) H(t | x) = H0 (t) exp(xβ) S(t | x) = S0 (t)exp(xβ ) dengan H0 adalah baseline hazard kumulatif dan S0 adalah baseline survival 56 8.4. Model Regresi data survival 9 Ringkasan Metode Metode statistik yang dapat digunakan sebagai alat analisis dalam penelitian di bidang kedokteran, ilmu hayati dan epidemiologi dapat diringkas seperti Tabel 9.1. Tentu saja masih banyak metode lain yang tidak disebutkan dalam ringkasan. Misalnya metode-metode nonparametrik padanan metode parametrik di atas. Selain itu, masih banyak masalah yang memerlukan pengembangan metode baru atau modifikasi metode. Misalnya beberapa desain seperti case-cohort, case-control memerlukan modifikasi metode regresi logistik dan regresi Cox. 57 58 Respon Kontinu Biner Nominal, 2 kategori atau lebih Tabel 9.1: Ringkasan Metode Variabel penjelas Metode Biner t-test, z-test Nominal, 2 kategori ANAVA atau lebih Ordinal ANAVA Kontinu Regresi Ganda Nominal dan kontinu Analisis Kovariansi Kategorik dan kontinu Regresi Ganda Kategorik Tabel kontingensi Regresi Logistik Kontinu Regresi Logistik, probit atau model dose-response Kategorik dan kontinu Regresi Logistik Nominal Tabel kontingensi Kategorik dan kontinu Ordinal Kategorik dan kontinu Cacah Kategorik Durasi (survival) Respon berkorelasi Kategorik dan kontinu Biner Kategorik dan kontinu Kategorik dan kontinu Regresi Logistik Nominal Regresi Logistik Ordinal Model Log-linear, Regresi Poisson Regresi Poisson Log-rank test Survival analysis Generalized Estimating equation Multilevels model Analisis Data Longitudinal Analisis Data Panel Daftar Pustaka Armitage, P. and Colton, T. (1998). Encyclopedia of Biostatistics, John Wiley & Sons, Inc. Chow, S.-C. (2000). Encyclopedia of Biopharmaceutical Statistics., Marcel Dekker, New York. Kleinbaum, D. G., Kupper, L. L. and Morgenstern, H. (1982). Epidemiologic Research: Principles and Quantitative Methods., Wadsworth, Inc. Last, J. (1995). A Dictionary of Epidemiology, 3rd edn, Oxford University Press. Le, C. T. (2003). Introductory Biostatistics, John Wiley & Sons, Inc. 59