Faktor-faktor Yang Mempengaruhi Resiko Penyebab Penderita Kanker Payudara Dengan Menggunakan Pendekatan Regresi Logistik Nama Mahasiswa Nrp Jurusan Dosen Pembimbing : Ricki Indra P : 1303 109 030 : Statistika FMIPA-ITS : Dra. Maduratna, MS 1. Pendahuluan Salah satu penyakit yang banyak menimbulkan kesengsaraan dan kematian pada manusia sebagian besar adalah kanker. Yang disebut dengan kanker payudara (Carcinoma mammae) adalah suatu penyakit neoplasma ganas yang merupakan suatu pertumbuhan jaringan payudara abnormal yang berbeda dengan jaringan disekitarnya. Penyebab yang pasti dari kanker payudara belum diketahui, namun riset mengidentifikasikan sejumlah faktor yang dicurigai penyebab dari timbulnya kanker disebabkan oleh beberapa faktor antara lain riwayat keluarga dan faktor genetik, radiasi, faktor reproduksi serta konsumsi lemak. Oleh karena itu penting bagi setiap wanita untuk melakukan deteksi secara dini terhadap kanker payudara. Dunia kedokteran belum dapat menemukan cara untuk mencegah timbulnya kanker payudara. Mereka berpendapat bahwa banyak nyawa dapat diselamatkan jika ada cara efektif untuk deteksi dini kanker payudara. Dari berbagai kesulitan di atas harapan dari penelitian ini adalah mensimulasikan penderita kanker payudara sehingga bisa diketahui karakteristik penderita kanker payudara. Analisis regresi logistik digunakan untuk analisis data respon kategorik (nominal/ ordinal) dengan variabel-variabel bebas kontinu dan kategorik. Perbedaan nilai probabilitas pada setiap kelas akan menghasilkan nilai odds rasio. Nilai odds rasio dapat menginformasikan besarnya pengaruh salah satu variabel bebas terhadap terjadinya perubahan kelas. Dalam penelitian ini adalah penderita dan non penderita kanker payudara. Dari penelitian sebelumya dengan menggunakan metode MARS didapat ketepatan klasifikasi sebesar 79 % (Yuanita, 2008), sedangkan dengan menggunakan metode regresi logistik menghasilkan ketepatan klasifikasi sebesar 58%. Permasalahan Dari latar belakang diatas maka permasalahan yang ada dalam penelitian ini adalah: Bagaimana faktor-faktor yang mempengaruhi resiko penyebab kanker payudara dari model regresi logistik yang telah diperoleh ? Tujuan Tujuan yang ingin dicapai oleh penelitian ini yaitu : Mendapatkan faktor-faktor yang mempengaruhi resiko penyebab kanker payudara dari model regresi logistik yang telah diperoleh. 2 Regresi Logistik Analisis regresi logistik adalah metode regresi yang menggambarkan hubungan antara beberapa variabel independen (explanatory) dengan sebuah variabel respon dikotomus atau biner. Variabel respon (Y) pada metode regresi logistik dikatakan biner karena terdiri atas dua kategori yaitu 0 dan 1. Analisis regresi logistik biner bertujuan untuk memperoleh hubungan antara X i dan Pi (probabilitas kejadian yang diakibatkan oleh xi). Berapapun nilai x bila disubtitusikan ke dalam fungsi logistik hasilnya akan berkisar antara 0 dan 1. Regresi logistik digunakan untuk analisis data respon kategorik (nominal / ordinal) dengan variabel-variabel bebas kontinu dan kategorik (Agresti, 1990). Berdasarkan jumlah kategori respon, regresi logistik dapat dibedakan menjadi dua, yaitu regresi logistik dikotomus dan polikotomus. Regresi Logistik Dikotomus Regresi logistik dikotomus adalah suatu analisis regresi yang digunakan untuk mengambarkan hubungan antara variabel respon (outcome / dependent) dengan sekumpulan variabel prediktor (eksplanatory / independent) (Agresti, 1990), dimana variabel responnya berskala biner atau dikotomus dengan variabel prediktor berskala dikotomus maupun polikotomus. Variabel dikotomus adalah variabel yang memiliki 2 kemungkinan (sukses atau gagal), sedangkan variabel polikotomus adalah variabel yang memiliki lebih dari dua kemungkinan. 1 Variabel respon biasanya disimbolkan dengan y, sedangkan variabel prediktor disimbolkan dengan x. Variabel respon (y) mengikuti distribusi bernoulli dengan fungsi probabilitas : f ( yi ) p yi (1 p )1 yi , y i 0,1 (1) Distribusi dari variabel respon ini merupakan pembeda antara regresi logistik dengan regresi linear. Pada regresi linear variabel responnya diasumsikan berdistribusi normal, sedangkan untuk variabel respon pada regresi logistik bersifat kategorikal. Adapun fungsi logistik adalah sebagai berikut : f ( x) 1 , 1 e x x (2) Untuk x maka Lim f ( x) 0 , sedangkan untuk x maka Lim f ( x) 1 . Dengan melihat x x kemungkinan nilai f x yang berkisar antara 0 dan 1, ini menunjukkan bahwa regresi logistik sebenarnya menggambarkan probabilitas terjadinya suatu kejadian. Gambar 1. Kurva fungsi logistik Nilai x dalam hal ini bisa dianggap sebagai kombinasi dari berbagai penyebab timbulnya suatu kejadian dan efek x dapat minimal dengan rendahnya nilai x sampai batas tertentu, kemudian pengaruhnya akan meningkat dengan cepat dan probabilitasnya akan tetap tinggi mendekati 1. Untuk mempermudah maka digunakan notasi x E y | x untuk menyatakan rata-rata bersyarat dari y jika diberikan nilai x. Bentuk model regresi logistik adalah (Agresti, 1990): x exp( 1 x) 1 exp( 1 x) (3) Untuk mempermudah menaksir parameter regresi, maka (x ) pada persamaan (3) ditransformasikan dengan menggunakan transformasi logit. Uraian transformasi tersebut adalah sebagai berikut. exp( 1 x) 1 exp( 1 x) ( x)1 exp( 1 x) exp( 1 x) ( x) ( x) exp( 1 x) exp( 1 x) x = exp( 1 x) ( x) exp( 1 x) (x ) = 1 ( x)exp( 1 x) ( x) = exp( 1 x) 1 ( x) ( x) = ln exp( 1 x) ln 1 ( x) x ( x) = 1 x ln 1 ( x) g(x) = 1 x Dengan g(x) disebut bentuk logit. Sedangkan model regresi logistik dengan k variabel prediktor adalah : 2 ( x) exp( 1 x1 ... k x k ) 1 exp( 1 x1 ... k x k ) Jika model ditransformasikan dengan transformasi logit, maka akan menghasilkan bentuk logit g(x) = 1 x1 ... k x k Penaksiran Parameter Metode yang digunakan untuk mengestimasi parameter regresi logistik adalah MLE (Maximum Likelihood Estimator). Metode ini memperoleh dugaan maksimum likelihood bagi dengan iterasi Newton Raphson. Estimasi maksimum likelihood merupakan pendekatan dari estimasi WLS (Weighted Least Square), dimana matrik pembobotnya berubah setiap putaran. Proses perhitungan estimasi maksimum likelihood ini disebut juga sebagai Iteratively Reweighted Least Square. a. Metode Terboboti (Weighted Least Square) Penduga dari metode terboboti didapatkan melalui rumus sebagai berikut. (4) w ( X T V 1 X ) 1 X T V 1 g ( x) Dimana : 1 V diag ni ( xi )(1 ( xi )) V 1 diag ni ( x i )(1 ( x i )) (x ) i g(x) = ln ( 1 ( xi ) b. Iteratively Reweighted Least Squares (IRLS) Pada metode IRLS, matriks pembobot ( V ) yang dihitung di setiap tahapan iterasi dapat diperoleh melalui aplikasi rumus sebagai berikut. 1 Vm diag ni m 1 xi 1 m 1 xi (5) Keterangan : m = Bilangan iterasi ; i = Kategori pada variabel prediktor Algoritma: 1 ni ( xi )1 ( xi ) 1. Menentukan V0 diag Kemudian menghitung β(0) ( X T V01 X ) 1 ( X T V01 g ( x)) T e X i 0 Dimana, 0 xi T 1 e X i 0 2. Untuk m = 1, 2, 3 dan seterusnya maka 1 Vm diag ni m 1 xi 1 m 1 xi Dan β(m) ( X T Vm1 X ) 1 ( X T Vm1 g ( x)) 3. Jika m m 1 ε 0 maka proses dihentikan. Jika tidak, maka dihitung : T m xi e xi m T 1 e xi m dan kembali ke langkah 2 3 Metode ini baik digunakan untuk ukuran data kecil, karena bila ukurannya besar maka varians awal sudah cukup baik (tanpa perlu iterasi). c. Maximum Likelihood Estimator (MLE) Pada dasarnya metode Maximum Likelihood memberikan nilai estimasi β untuk memaksimumkan fungsi Likelihood (Agresti, 1990). Secara sistematis fungsi Likelihood untuk model regresi logistik dikotomus dapat ditulis sebagai berikut. (6) f ( β , y ) ( x) y (1 ( x))1 y Karena setiap observasi bersifat independen, maka Likelihood observasi merupakan perkalian dari masing-masing fungsi Likelihood, sebut saja (Agresti, 1990) n n ( β ) f ( β , y ) ( xi ) y (1 ( xi ))1 y i i 1 i (7) i 1 Secara matematis akan lebih mudah untuk memaksimalkan log ( β ) atau disebut juga log Likelihood yang dinotasikan sebagai L ( β ) , yakni dengan cara mendifferensialkan L ( β ) terhadap β dan menyamakannya dengan nol (Agresti, 1990). L ( β ) log ( β ) y i xij j ni log 1 exp( j xij ) j i i j exp( j xij ) L( β ) j yi xia ni xia a 1 exp( j xij ) i i j 0 y i xia ni ˆ i xia , a = 0,…, k i (8) (9) i k exp j X ij j Dimana ( x ) (10) i k 1 exp j X ij j Dari hasil penurunan pertama ini, persamaan Likelihood diestimasi dengan iterasi karena i tidak bersifat linear pada β . Sedangkan metode untuk mengestimasi varians dan kovarians dari estimasi koefisien parameter dikembangkan menurut teori MLE yang menyatakan bahwa estimasi varians dan kovarians diperoleh dari turunan kedua fungsi Likelihood (Agresti, 1990). Turunan keduanya adalah : n 2 L( β ) x ia x ib n i i (1 i ) ; a, b = 0, 1,…,k a b i 1990), (11) Sehingga diperoleh matriks kovarians dari estimasi parameter melalui invers matriks (Agresti, Cov(β) X T Diag ni i (1 i )X 1 x11 1 x 21 dimana X 1 x n1 1 (12) x1 p x 2 p x np 4 d. Metode Newton Raphson Fungsi log likelihood untuk model regresi logistik adalah cepat mencapai konvergen dan ada nilai taksiran untuk parameter. Akan tetapi, fungsi tersebut adalah fungsi yang non-linear untuk menaksir β dengan menggunakan metode maksimum likelihood, sehingga dibutuhkan penyelesaian dengan iterasi (Agresti, 1990). Untuk itu digunakan metode iterasi Newton-Raphson, yaitu suatu metode yang digunakan untuk menyelesaikan persamaan-persamaan non-linear (Wedderburn, 1976; Agresti, 1990). Metode ini memperoleh dugaan maksimum likelihood bagi β dengan iterasi yang menggunakan rumus (Agresti, 1990). m1 m hab1 g m (13) m = 1, 2,… sampai konvergen dengan nilai matriks (Agresti, 1990) 2 L x ia x ib n i m ( x i )( 1 m ( x i )) a b i L( β ) y i ni m ( xi ) xij j h(ab) g (m) , a 1,2, , k b 1,2, , k g1 g2 dimana g adalah matriks gradien dan g k h11 h 21 h hk1 h12 h22 hk 2 h1k h2 k adalah matriks hessian hkk Algoritma : 1. Memasukkan nilai dugaan awal yang diperoleh dari metode kuadrat terkecil (OLS). 0 1 β(0) k kemudian memasukkan nilai β(0) pada persamaan (10). 2. Mencari matriks gradien g ( 0 ) dan matriks hessian h(0). 3 Selanjutnya untuk m > 0 menggunakan 1 0 h01 g 0 Nilai 1 digunakan untuk mencari (1) ( x i ) sehingga diperoleh nilai-nilai g(1) dan h(1), kemudian diperoleh nilai β(2), begitu seterusnya sampai mencapai konvergen. Iterasi untuk memperoleh β(m) terus dilakukan sampai mencapai konvergen c untuk setiap j, yaitu : 2 j m 1 j c j m j untuk c>0 Pengujian Signifikansi Parameter Setelah menaksir parameter maka langkah selanjutnya yang dilakukan adalah menguji signifikansi parameter tersebut. Untuk itu digunakan uji hipotesis statistik untuk menentukan apakah variabel prediktor dalam model signifikan atau berpengaruh nyata terhadap variabel respon. Pengujian signifikansi parameter dilakukan sebagai berikut. 5 a. Uji Parsial Digunakan untuk menguji pengaruh setiap i secara individual. Hasil pengujian secara parsial/individual akan menunjukkan apakah suatu variabel prediktor layak untuk masuk dalam model atau tidak (Agresti, 1990). Hipotesis : H0 : i = 0 H1 : i ≠ 0 Statistik Uji : Wald W i SE i (14) Rasio yang dihasilkan dari statistik uji, dibawah hipotesis H0, akan mengikuti sebaran normal baku (Hosmer dan Lemeshow, 1989). Sehingga untuk memperoleh keputusan dilakukan perbandingan dengan distribusi normal baku (Z). Kriteria penolakan (tolak H0) jika nilai W Z / 2 . b. Uji Serentak Uji serentak disebut juga uji model chi-square, dilakukan sebagai upaya memeriksa peranan variabel prediktor dalam model secara bersama-sama. Hipotesis : H0 : 1 2 ... k 0 H1 : paling sedikit ada satu i 0 (i = 1, 2,…, k) Statistk uji yang digunakan adalah statistik uji G atau Likelihood Ratio Test: L G 2 2 ln 1 L0 ;G 2 n 1 n1 n 0 n 0 n n 2 Ln n 1 y i yi ˆ i 1 ˆ i i 1 (15) Atau: n G22[yiln( ˆi)(1yi)ln( 1ˆi)][n1ln( n1)n0ln( n0)nln( n)] i1 dimana : n1 = banyaknya observasi yang berkategori 1 n0 = banyaknya observasi yang berkategori 0 n = Banyaknya observasi (n 1 + n 0 ) L1 = Likelihood tanpa variabel prediktor tertentu L0 = Likelihood dengan variabel prediktor tertentu Statistik uji G2 mengikuti distribusi chi-square, sehingga untuk memperoleh keputusan dilakukan perbandingan dengan nilai 2 tabel. Dimana derajat bebas = k ( banyaknya variabel prediktor). Kriteria 2 penolakan (tolak H0) jika nilai G ( db, ) . Interpretasi Koefisien Parameter Proses selanjutnya setelah mendapatkan koefisien parameter yang signifikan adalah melakukan interpretasi terhadap koefisien parameter tersebut. Interpretasi koefisien parameter diharapkan dapat menjelaskan tiga hal, yaitu : 1. Menjelaskan hubungan fungsional antara variabel respon dan variabel prediktor. 2. Menentukan unit perubahan setiap variabel independen. 3. Mendapatkan nilai odds rasio yang menunjukkan perbandingan tingkat kecenderungan dari kedua kategori dalam satu variabel prediktor. Nilai odds rationya didefinisikan sebagai berikut : 6 1 1 1 11 0 e 0 01 1 e 1 0 0 1 0 e 1 (16) Sedangkan nilai log odds ratio adalah : 1 (1) (0) 1 1 = ln ln ln ln 0 1 (1) 1 (0) 1 0 = g (1) – g (0) Persamaan diatas disebut perbedaan logit. Nilai odds ratio untuk model regresi logistik : e 1 Nilai log odds rationya adalah : ln ln e 1 1 Nilai Odds Ratio ψ digunakan untuk menunjukkan kecenderungan hubungan suatu variabel X terhadap variabel Y. Bila nilai ψ = 1, maka antara kedua variabel tersebut tidak terdapat hubungan. Bila nilai ψ < 1, maka antara kedua variabel terdapat hubungan negatif terhadap perubahan nilai X yang bernilai bernilai benar dan demikian sebaliknya bila 1 . Prosedur Klasifikasi Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi. Ukuran yang dipakai adalah apparent error rate (APER). Nilai APER menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi (Johnson dan Wichern, 1992). Penentuan kesalahan pengklasifikasian dapat diketahui melalui tabel klasifikasi sebagai berikut : Tabel 2.1 Tabel Klasifikasi Predicted membership Actual membership 1 2 1 2 n11 n12 n21 n22 Keterangan : n11 = Jumlah yi dari 1 tepat diklasifikasikan sebagai 1 n12 n21 = Jumlah yi dari 1 salah diklasifikasikan sebagai 2 = Jumlah yi dari 2 salah diklasifikasikan sebagai 1 = Jumlah yi dari 2 tepat diklasifikasikan sebagai 2 n 12 n 21 APER (dalam %) = n 11 n 12 n 21 n 22 n22 (17) 7 Kanker Payudara Kanker payudara adalah momok yang menakutkan bagi setiap wanita. Di Indonesia, kanker payudara menempati urutan kedua dari jenis kanker yang menyerang wanita. Kanker payudara berasal dari kelenjar, saluran dan jaringan penunjang payudara, namun tidak termasuk kulit payudara. Sel kanker payudara yang pertama dapat tumbuh menjadi tumor sebesar 1 cm pada waktu 8-12 tahun. Sel kanker tersebut diam pada kelenjar payudara. Sel-sel kanker payudara ini dapat menyebar melalui aliran darah ke seluruh tubuh. Kapan penyebaran itu berlangsung, tidak diketahui pasti. Sel kanker payudara dapat bersembunyi di dalam tubuh selama bertahun-tahun tanpa diketahui, dan tiba-tiba aktif menjadi tumor ganas atau kanker. Pada kanker payudara ada stadium dini (0, 1 dan 2) serta stadium lanjut (3 dan 4). Stadium 0 berarti sel kanker ada pada lapisan kelenjar susu atau saluran susu tetapi belum menyebar ke jaringan lemak sekitarnya. Pada stadium 1 dan 2, kanker telah menyebar dari kelenjar susu atau saluran susu ke jaringan terdekat disekitarnya. Pada stadium 2 kadang-kadang kanker telah mulai mengganggu kelenjar getah bening. Stadium 3 boleh dibilang kanker payudara dalam stadium lanjut lokal, dimana garis tengah tumor telah lebih dari dua inci dan seringkali telah menyebar ke kelenjar getah bening dekat payudara. Pada stadium 4 kanker telah bermetastasis, artinya kanker telah menyebar dari payudara dan kelenjar getah bening di sekitar ketiak, ke bagian lain tubuh seperti tulang, hati, paru dan otak (Anita, 2007). Gejala kanker payudara Pada tahap awal kanker payudara, biasanya tidak merasakan sakit atau tidak ada tanda-tandanya sama sekali. Namun, ketika tumor semakin membesar, gejala-gejala di bawah ini mungkin muncul (Anita, 2007). 1. Benjolan yang tidak hilang atau permanen dan menggumpal, biasanya tidak sakit dan terasa keras bila disentuh atau penebalan pada kulit payudara atau di sekitar ketiak. 2. Perubahan ukuran dan bentuk payudara. 3. Kerutan pada kulit payudara. 4. Keluar cairan tidak normal dari puting susu yang berupa nanah, darah, cairan encer atau keluar air susu pada ibu tidak hamil atau tidak sedang menyusui. 5. Pembengkakan atau adanya tarikan pada puting susu. Faktor-faktor resiko penyebab kanker payudara Penyebab pasti kanker payudara tidak diketahui. Meskipun demikian, riset yang telah dilakukan oleh para ahli di bidang kedokteran mengidentifikasi sejumlah faktor yang dapat meningkatkan risiko pada individu tertentu adalah sebagai berikut (Kardinah, 2007 dan Sutjipto, 2007). 1. Usia Resiko utama kanker payudara adalah bertambahnya umur. Wanita di atas 30 tahun berisiko terkena kanker payudara. 2. Mendapatkan haid pertama pada usia muda. Keadaan ini menyebabkan terjadinya pertukaran hormon dimulai pada usia muda dan menyebabkan peningkatan pertukaran zat hormon. Perempuan mengalami perubahan hormonal terus-menerus. Saat itulah ada kemungkinan perubahan sel dalam payudara sehingga terjadi mutasi sel. 3. Usia menikah Wanita yang berisiko terkena kanker payudara adalah wanita yang menikah pada usia tua. 4. Wanita yang tidak mempunyai anak Wanita yang tidak pernah melahirkan anak, dapat menyebabkan gangguan keseimbangan hormon. Saat itulah ada kemungkinan terjadinya perubahan sel dalam payudara. 5. Wanita yang tidak pernah menyusui anak Wanita yang tidak pernah menyusui anak akan mengakibatkan kelenjar susunya tidak pernah dirangsang untuk memproduksi susu, sehingga terjadi penumpukan hormon pada payudara. 6. Penggunaan KB Penggunaan KB hormonal seperti pil atau suntik tidak dianjurkan lebih dari lima tahun dan wanita yang telah berusia di atas 35 tahun. Hal ini dapat meningkatkan risiko terkena kanker payudara. 7. Riwayat keluarga penderita kanker payudara 8 Riwayat keluarga merupakan komponen yang penting dalam riwayat penderita yang akan dilaksanakan skrining untuk kanker payudara. Terdapat peningkatan risiko keganasan ini pada wanita yang keluarganya menderita kanker payudara. Cara pencegahan kanker payudara Kanker payudara pada tahap awal tidak menimbulkan gejala apapun, namun bersamaan dengan berkembangnya penyakit akan timbul gejala yang menyebabkan perubahan pada kanker payudara. Untuk itu diajurkan untuk melakukan pemeriksaan sebagai berikut (Sutjipto, 2007). 1. Pemeriksaan Payudara Sendiri (SADARI). Setiap wanita dianjurkan untuk melakukan SADARI secara teratur sebulan sekali setelah selesai haid, dan bagi yang telah mati haid (menopause) hendaknya dilakukan pada tanggal tertentu yang mudah diingat dari setiap bulannya. 2. Pemeriksaan payudara oleh tenaga medis (dokter atau bidan). Dengan pemeriksaan yang seksama sering dapat diduga suatu benjolan di payudara merupakan tumor jinak atau ganas. 3. Mamografi. Mamografi adalah pemeriksaan radiologik khusus menggunakan sinar X dosis rendah untuk mendeteksi kanker payudara sedini mungkin, bahkan sebelum adanya perubahan yang kelihatan pada payudara ataupun benjolan yang dapat dirasakan. Mamografi dianggap sebagai senjata yang paling efektif untuk deteksi dini kanker payudara sebab dapat mendeteksi hampir 80 sampai 90 persen dari semua kasus kanker payudara. 4. Cara lainnya adalah dengan operasi kecil untuk mengambil contoh jaringan (biopsi) dari benjolan itu, kemudian diperiksa di bawah mikroskop laboratorium patologi anatomi. Bila diketahui dan dipastikan bahwa benjolan itu adalah kanker, maka payudara harus diangkat seluruhnya untuk menghindari penyebaran ke bagian tubuh yang lain. 3 Sumber Data Data yang digunakan dalam penelitian ini berasal dari data sebelumnya (Yuanita, 2008), yaitu data variabel respon penderita dan bukan penderita kanker payudara yang mempunyai karakteristik responden adalah wanita yang sudah menikah. Variabel Penelitian Variabel yang digunakan dalam penelitian ini adalah sebagai berikut. 1. Variabel respon, terdiri dari dua kategori yaitu : 1. Penderita kanker payudara (diberi kode 1) 2. Bukan penderita kanker payudara (diberi kode 0) 2. Variabel prediktor, terdiri dari 7 variabel yang diduga mempunyai pengaruh terhadap variabel respon yaitu : 1. Usia (X1) 2. Usia menstruasi pertama (X2) 3. Usia menikah (X3) 4. Mempunyai anak atau tidak (X4), terdiri dari dua kategori sebagai berikut. a. Tidak mempunyai anak, dengan kode 0 b. Mempunyai anak, dengan kode 1 5. Pernah menyusui atau tidak (X5), terdiri dari dua kategori yaitu. a. Tidak pernah menyusui, kode 0 b. Pernah menyusui, kode 1 6. Penggunaan KB (X6), terdiri dari dua kategori yaitu. a. Tidak pernah menggunakan KB, kode 0 b. Pernah menggunakan KB lebih dari 5 tahun, kode 1 7. Riwayat Penderita Keluarga atau RPK (X7), terdiri dari dua kategori sebagai berikut. a. RPK tidak ada yang terkena kanker, kode 0 b. RPK ada yang terkena kanker, kode 1 9 Langkah-langkah dan Metode Penelitian Metode penelitian yang digunakan dalam penelitian ini melalui tahap-tahap sebagai berikut. 1. Menentukan model regresi logistik antara variabel respon dengan masing-masing variabel independen secara individu. 2. Melakukan uji signifikansi parameter untuk setiap model regresi logistik individu untuk mengetahui variabel-variabel independen mana yang berpengaruh secara signifikan terhadap variabel respon. 3. Menentukan model regresi logistik antara variabel respon dengan variabel-variabel independen yang signifikan secara serentak. 4. Menghitung tingkat ketepatan pengklasifikasian variabel respon dari model yang telah diperoleh. 5. Menginterpretasikan model regresi logistik. 4 Deskriptif Variabel Variabilitas responden dapat dilihat dari perbandingan frekuensi responden dengan karakteristik yang berbeda-beda pada setiap variabel yang bersifat kategorik, Dengan tujuan untuk dapat menggambarkan besar atau kecilnya variabilitas responden tersebut. Dan juga dilakukan pengujian deskriptif statistik untuk variabel prediktor kontinyu agar dapat diketahui rata-rata dari setiap variabel. Tabel 4.1 Deskriptif Statistik Variabel N Minimum Maximum Mean Usia (X1) 100 21 77 49,28 Usia menstruasi pertama (X2) 100 9 17 13,38 Usia menikah (X3) 100 14 34 21,1 Dilihat dari deskriptif statistik diatas dapat diketahui rata-rata usia seseorang untuk variabel X1(usia) adalah 49 tahun dengan usia paling kecil 21 tahun dan paling tua 77 tahun, sedangkan untuk variabel X2 yaitu usia menstruasi pertama yang paling kecil yaitu 9 tahun dan yang paling besar 17 tahun dengan rata-rata usia menstruasi pertama kali 13 tahun, dan untuk variabel X 3 adalah usia menikah terkecil yaitu 14 tahun dan yang paling tua usia menikahnya 34 tahun dengan rata-rata pada umumnya usia menikah 21 tahun. Tabel 4.2 Tabel Frekuensi Variabel Variabel Frekuensi Persen X4 tidak mempunyai anak 11 11 mempunyai anak 89 89 X5 tidak menyusui 18 18 menyusui 82 82 X6 tidak pernah KB 41 41 pernah KB 59 59 X7 tidak ada RPK 88 88 ada RPK 12 12 Tabel 4.2 menunjukkan bahwa mayoritas responden mempunyai perbedaan frekuensi yang cukup besar antar kategori pada variabel. Perbedaan tersebut dimungkinkan terkait dengan kelompok control, dimana asumsi awal untuk kelompok control adalah independent dengan kelompok case. 10 4.1.1 Tabulasi Silang Untuk mengetahui bagaimana karakteristik penderita dan bukan penderita maka dilakukan tabulasi silang antara variabel prediktor dengan variabel respon. Hasil dari tabulasi silang disajikan pada Tabel Tabel 4.3 Tabulasi Silang antara Variabel X4 dengan Variabel Respon Y X4 Variabel Total tidak mempunyai mempunyai anak anak bukan 4 46 50 Y penderita Penderita 7 43 50 Total 11 89 100 Dari Tabel 4.3 dapat diketahui bahwa sebagian besar penderita kanker payudara adalah wanita yang sudah mempunyai anak. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga variabel X4 berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker payudara. Tabel 4.4 Tabulasi Silang antara Variabel X5 dengan Variabel Respon Y X5 Variabel Total tidak menyusui menyusui bukan 8 42 50 Y penderita Penderita 10 40 50 Total 18 82 100 Untuk Tabel 4.4 diketahui sebagian besar penderita kanker payudara adalah wanita yang sudah menyusui. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga variabel X5 berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker payudara. Tabel 4.5 Tabulasi Silang antara Variabel X6 dengan Variabel Respon Y X6 Variabel Total tidak KB KB bukan 20 30 50 Y penderita penderita 21 29 50 Total 41 59 100 Tabel 4.5 jumlah bukan penderita yang tidak KB dan penderita yang menggunakan KB hampir berimbang, tetapi sebagian besar penderita kanker payudara adalah wanita yang menggunakan KB. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga variabel X 6 berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker payudara. Tabel 4.6 Tabulasi Silang antara Variabel X7 dengan Variabel Respon Y X7 variabel Total tidak ada RPK Ada RPK bukan 50 0 50 Y penderita penderita 38 12 50 Total 88 12 100 Sebaliknya, dari Tabel 4.6 dapat diketahui bahwa sebagian besar penderita kanker payudara bukan terjadi karena wanita yang keluarganya menderita kanker payudara. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga variabel X 7 berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker payudara. 4.2 Pola Hubungan antara Faktor-Faktor Risiko Penderita Kanker Payudara 11 Untuk mengetahui pola hubungan antara faktor-faktor risiko penyebab kanker payudara dapat digunakan analisis regresi logistik. Selain itu, dapat diketahui besarnya pengaruh setiap faktor dalam menentukan peluang seseorang untuk menderita kanker payudara. i. Regresi logistik dengan satu variabel prediktor (Univariat) Pembentukan model regresi logistik dengan satu variabel prediktor atau univariat bertujuan untuk mengetahui variabel prediktor mana yang berpengaruh secara individu terhadap variabel respon, sebelum dilakukan pemodelan antara variabel respon dengan variabel-variabel prediktor secara bersama-sama. Untuk itu, perlu dilakukan pengujian signifikansi parameter seba-gai koefisien dari variabel prediktor pada masing-masing model univariat. Hipotesis: H0 : j = 0, j = 1,2,...,7 H1 : j ≠ 0 α = 0,1 Statistik Uji: Wald (W) ˆ j S Ê ( ˆ j ) Daerah penolakan H0: |Whit| > Z / 2 Z 0 , 05 1, 64 Tabel 4.7 Pengujian Signifikansi Parameter Model Regresi Logistik Univariat Odds Variabel Wald Sig. ̂ Ratio Usia (X1) 0,020 1,636 0,201 1,020 Usia menstruasi 0,755 -0,281 4,425 0,035* pertama (X2) Usia menikah (X3) 0,048 0,807 0,369 1,050 Mempunyai anak atau 0,627 0,898 0,343 1,872 tidak (X4)(1) Pernah menyusui atau 0,272 0,270 0,603 1,312 tidak (X5)(1) Penggunaan KB 0,083 0,041 0,839 1,086 (X6)(1) Riwayat Penderita -21,477 0,000 0,999 0,000 Keluarga (X7)(1) Keterangan: *) signifikan pada α= 10% Kesimpulan: Faktor-faktor yang berpengaruh secara individu terhadap risiko tinggi terkena penyakit kanker payudara adalah X2(usia menstruasi pertama). Hal ini terlihat dari nilai W 2=4,425 lebih besar dari nilai X2=1,64 sehingga keputusannya tolak H0. Langkah selanjutnya adalah menginterpretasikan model tersebut. Jika model regresi logistik yang terbaik ditulis dalam bentuk logit, maka menjadi: ĝX 3,759 - 0,281X 2 Sedangkan fungsi peluang orang terkena kanker payudara adalah π̂X exp3,759 0,281X 2 1 exp3,759 0,281X 2 Nilai odds ratio 0,755 menunjukkan bahwa 1 yang berarti usia menstruasi pertama memberikan pengaruh yang positif terhadap resiko terkena kanker payudara. Sehingga untuk pemodelan regresi logistik multivariat dapat dilakukan lagi seperti tabel diatas tetapi secara bersama-sama, hal ini supaya untuk membandingkan hasil pengujian univariat dan multivariat. 12 4.2.2 Regresi logistik dengan lebih dari satu variabel prediktor (multivariat) Meskipun dari pemodelan regresi logistik univariat telah diketahui bahwa variabel X 2(usia menstruasi pertama) berpengaruh secara signifikan terhadap variabel respon, namun belum diketahui bagaimana hubungan antara variabel lain. Karena jika ternyata hubungannya sangat erat, maka dimungkinkan salah satu variabel akan menjadi tidak signifikan lagi pengaruhnya terhadap variabel respon. Oleh karena itu, perlu dilakukan pemodelan regresi logistik dengan memasukkan semua variabel secara bersama-sama untuk memeriksa ada atau tidaknya hubungan antara variabel tersebut. Untuk mengetahui apakah parameter-parameter model telah signifikan atau tidak maka dilakukan langkahlangkah pengujian hipotesis sebagai berikut. Hipotesis: H0 : β 0 H1 : β 0 α = 0,1 Statistik Uji: n 1 n1 n 0 n 0 n n 2 130 ,538 G ( Likelihood Ratio Test ) 2 Ln n 1 y i yi ˆ i 1 ˆ i i 1 Daerah penolakan H0: G2 > ; k 2 20 ,1; 2 4,605 Keputusan: Tolak H0 Kesimpulan: Minimal ada satu variabel prediktor yang pengaruhnya signifikan terhadap variabel respon. Dan untuk mengetahui variabel prediktor mana yang berpengaruh, maka dilakukan pengujian signifikansi parameter secara parsial sebagai berikut. Hipotesis: H0 : j = 0, j = 0,1 H1 : j ≠ 0 α = 0,1 Statistik Uji: Wald (W) β̂ j S Ê ( β̂ j ) Daerah penolakan H0: |Whit| > Z / 2 Z 0 , 05 1, 64 Tabel 4.8 Pengujian Signifikansi Parameter Model Regresi Logistik Multivariat Variabel Usia (X1) Usia menstruasi pertama (X2) Usia menikah (X3) Mempunyai anak atau tidak (X4)(1) Pernah menyusui atau tidak (X5)(1) Penggunaan KB (X6)(1) Riwayat Penderita Keluarga (X7)(1) Keterangan: *) signifikan pada α= 10% ̂ Wald Sig. Keputusan 0,038 3,403 0,065* Tolak H0 -0,265 2,779 0,095* Tolak H0 0,1 2,544 0,111 Terima H0 0,653 0,309 0,578 Terima H0 0,258 0,07 0,791 Terima H0 -0,322 0,355 0,551 Terima H0 -21,438 0 0,998 Terima H0 Kesimpulan: Faktor-faktor yang berpengaruh secara multivariat terhadap risiko tinggi terkena penyakit kanker payudara adalah X1(usia) yaitu sebesar 0,065 dan X2(usia menstruasi pertama) sebesar 0,095. 13 Tabel 4.9 Pengujian Signifikansi Parameter Secara Parsial Variabel Wald Sig. Keputusan ̂ X1 0,031 3,256 0,071 Tolak H0 X2 -0,342 5,986 0,014 Tolak H0 Constant 3,061 2,783 0,095 Tolak H0 Dari Tabel 4.9 dapat diketahui bahwa variabel X1 dan X2 yang berpengaruh terhadap variabel respon. Sehingga dapat diinterpretasikan bahwa faktor-faktor risiko yang berpengaruh secara parsial terhadap tingginya peluang pasien untuk menderita kanker payudara adalah faktor usia dan usia menstruasi pertama. 4.2.3 Uji kesesuaian model Karena ada sejumlah responden yang memiliki karakteristik sama dalam hal usia dan usia menstruasi, maka perlu dilakukan pengujian untuk mengetahui apakah model regresi logistik yang didapatkan telah sesuai atau tidak. H0 : Model sesuai H1 : Model tidak sesuai α = 0,1 g o k n k ' π k 2 = 12,926 Ĉ Hosmer Lemeshow k 1 n k ' k 1 π k Daerah penolakan H0: Ĉ > χ 2 ; g 2 χ 20,1; 2 4,605 Keputusan: Terima H0 Berarti, model regresi logistik multivariat yang telah diper-oleh, yakni π̂X exp3,061 0,031X1 0,342X 2 1 exp3,061 0,031X1 0,342X 2 telah sesuai digunakan untuk menjelaskan seberapa besar peluang pasien untuk menderita kanker payudara berdasarkan variabel prediktor X1 (Usia) dan X2 (Usia menstruasi). 4.2.4 Interpretasi model regresi logistik Langkah selanjutnya adalah menginterpretasikan model tersebut. Jika model regresi logistik yang terbaik ditulis dalam bentuk logit, maka menjadi: ĝX 3,061 0,031X1 - 0,342X 2 Tabel 4.10 Estimasi Titik untuk Odds Rasio Variabel Exp( ˆ ) X1 1,031 X2 0,711 Nilai odds ratio pada variabel usia(X1) dan usia menstruasi pertama(X2) pada Tabel 4.9 memiliki nilai yang jauh berbeda yaitu sebesar 1,031 untuk X 1 dan 0,711 untuk X2. Karena odds ratio variabel X1 tersebut bernilai diatas 1, maka variabel tersebut memberikan pengaruh positif terhadap faktor resiko penyebab penderita kanker payudara. Karena variabel prediktor yang digunakan dalam penelitian ini bersifat kontinu maka Hal ini berarti bahwa semakin besar nilai usia(X1) maka semakin besar kemungkinan seseorang untuk beresiko menderita kanker payudara. 14 4.2.5 Ketepatan pengklasifikasian responden Untuk melihat peluang ketepatan klasifikasi dari faktor penderita dan non penderita kanker payudara maka dapat dilihat sebagai berikut: Tabel 4.11 Pengklasifikasian Penderita dan Non Penderita Kanker Payudara Taksiran Ketepatan Observasi klasifikasi Non penderita Penderita Non penderita 33 17 66% Penderita 20 30 60% Persentase keseluruhan 63% Dari Tabel 4.10 dapat diketahui bahwa besarnya ketepatan pengklasifikasian penderita dan non penderita kanker payudara untuk kelompok control adalah 66% dan 60% untuk kelompok case. Masingmasing diperoleh berdasarkan perhitungan sebagai berikut: 33 33 30 30 0,66 66 % dan 0,6 60 % 33 17 50 20 30 50 Secara keseluruhan, model regresi logistik yang telah diperoleh dapat mengklasifikasikan responden dengan benar sebanyak 63 orang diantara 100 total responden atau 63%. Sehingga besarnya missklasifikasi adalah 17 20 37 66 60 126 0,37 37% dan 63 % 33 17 20 30 100 2 2 Kesalahan klasifikasi dari model regresi logistik ini masih cukup besar. Hal tersebut dimungkinkan karena sedikitnya variabel prediktor yang masuk kedalam model. 5 DAFTAR PUSTAKA Agresti, Alan, (1990), Categorical Data Analysis, John Wiley and Sons, Inc, New York. Anita,(2007),KankerPayudara, (http://bima.ipb.ac.id/~anita/kanker_payudara.htm), download tanggal 26 Oktober 2009. Icha, (2003), Deteksi Dini Kanker Payudara, (http://www.pikiran- rakyat.com/cetak/0203/22/ hikmah/lainnya02.htm), download tanggal 2 November 2009. Johnson, R. A. Dan Wichern, D. W. (1992), Applied Multivariate Statistical Analysis, Prentice Hall, New Jersey. Messwati, E.D., (2005), Kanker Payudara, Paling Ditakuti Kaum Perempuan, (http://kompas. com/kesehatan/news/0511/18/120708.htm), download tanggal 2 November 2009. Pane, M., (2007), Aspek Klinis dan Epidemiologis Penyakit Kanker Payudara, (http://www.tempo.co.id/medika/arsip/082002/pus-3.htm), download tanggal 9 November 2009. Priambodo,D.A.,(2006), “Klasifikasi Penderita Kanker Payudara Dengan Pendekatan Regresi Ririn, R., (2007), Deteksi Sangat Dini Kanker Payudara, Jawaban untuk Menghindar, (http://change.blogsome.com/2007/09/21/deteksi-sangat-dini-kanker-payudara- jawab an-untuk-menghindar/), download tanggal 9 November 2009. Sutjipto, (2006), Permasalahan Deteksi Dini dan Pengobatan Kanker Payudara, (http://www.dharmais.co.id/new/content.php?page=article&lang=en&id=17), Download tanggal 9 November 2009. Yuanita. (2008), “Klasifikasi Penderita Kanker Payudara dengan Pendekatan Metode Multivariate Adaptive Regression Splines (MARS), Mahasiswa Jurusan Statistika FMIPA ITS, Surabaya. 15