KLASIFIKASI PASIEN HASIL PAP SMEAR TEST SEBAGAI PENDETEKSI AWAL UPAYA PENANGANAN DINI PADA PENYAKIT KANKER SERVIKS DI RS. “X” SURABAYA DENGAN METODE BAGGING LOGISTIC REGRESSION Oleh : Ida Ayu Sevita Intansari (1308 100 079) Dosen Pembimbing : Santi Wulan Purnami, S.Si, M.Si, Ph.D Ir. Sri Pingit Wulandari, M.Si Seminar HasilTugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 Gedung H lantai 2 1 OUTLINE Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 2 Latar Belakang PENDAHULUAN Permasalahan Penelitian Batasan Masalah Tujuan Manfaat Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 3 LATAR BELAKANG Menurut WHO, Indonesia adalah negara penderita kanker serviks nomor 1 di Dunia Penyebab KEMATIAN no.2 bagi wanita KANKER SERVIKS Angka kejadian 74% dibanding kanker ginekologi lainnya 500.000 wanita/tahun didiagnosa menderita Kanker Serviks, dan 60% diantaranya meninggal dunia Cenderung timbul pada usia 33-55 tahun, dapat juga pada usia yang lebih muda Disebabkan oleh virus HPV (Human Papillomavirus) Pencegahan awal dengan melakukan skrining Pap Smear Test Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 4 Latar Belakang Penelitian mengenai klasifikasi pasien hasil Pap Smear Test pernah dilakukan oleh Yastuti (2011) dengan pendekatan Bagging MARS Hasilnya : kesalahan klasifikasi untuk pasien hasil Pap Test di RS “X” Surabaya tahun 2007-2010 sebesar 20,33% dan sisanya 79,67% terklasifikasikan sesuai dengan data asli Penelitian menggunakan metode Bagging Logistic Regression pernah dilakukan oleh Ningrum, E.S. (2011) untuk mengklasifikasikan kesejahteraan rumah tangga di Kota Malang, hasil kesimpulan penelitian tersebut menunjukkan bahwa nilai ketepatan klasifikasinya sebesar 97,8% menjadi 98% setelah dilakukan bagging Penelitian kali ini dilakukan pada data RS “X” Surabaya menggunakan Bagging Logistic Regression. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 5 Permasalahan Penelitian 1 2 3 • Bagaimana karakteristik pasien berdasarkan faktor-faktor resiko penyebab kanker serviks? • Bagaimana pengaruh serta pola hubungan antara faktorfaktor resiko hasil Pap Smear Test penyakit kanker serviks dengan pendekatan analisis Bagging Logistik Regression? • Bagaimana ketepatan klasifikasi hasil Pap Smear Test berdasarkan pendekatan Bagging Regresi Logistik? Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 6 Tujuan Penelitian Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 7 MANFAAT 2 1 Menambahkan wawasan keilmuan dalam pengembangan dan penerapan metode Bagging Logistic Regression khususnya dalam bidang kesehatan. 3 Memberikan informasi tentang faktor resiko yang berkontribusi terhadap klasifikasi pasien sehingga menjadi perhatian untuk mengurangi faktor resiko tersebut Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 Meminimumkan kesalahan klasifikasi pasien hasil Pap Smear Test penyakit kanker serviks dari model yang diperoleh 8 Batasan Penelitian Data yang digunakan data sekunder yang diperoleh dari RS. “X” Surabaya berupa data anamesa Bagian Riset dan Pengembangan RS. “X” tahun 2010. Data mengenai hasil Pap Smear Test pasien dan faktor-faktor yang diduga mempengaruhi penyakit kanker serviks. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 9 Statistika Deskriptif Analisis Regresi Logistik Biner Interpretasi Model TINJAUAN PUSTAKA Prosedur Klasifikasi Bootstrap Aggregating (Bagging) Estimasi Bagging Class Probability Kanker Serviks Faktor Resiko Kanker Serviks Pemeriksaan Diagnostik Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 10 Statistika Deskriptif STATISTIKA DESKRIPTIF metode yang digunakan untuk mendeskripsikan data, meliputi pengumpulan, pengorganisasian, serta penyajian data dengan menggunakan ukuran pemusatan, ukuran keragaman, ukuran bentuk, dan ukuran relatif sehingga dapat memberikan informasi yang jelas, berguna, dan mudah dimengerti. Penyajian data secara deskriptif dapat dijelaskan dalam bentuk tabel, grafik, diagram, plot, serta besaran lainnya (Walpole, 1995). Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 11 Analisis Regresi Logistik Biner REGRESI LOGISTIK BINER Dalam model statistika dengan dua kategori, dengan variabel respon mengandung unsur “sukses” atau “gagal”. Data biner ini merupakan bentuk paling sederhana dari data kategori. Model yang paling sering digunakan untuk data dua kategori adalah regresi logistik biner (Agresti, 1990). β 0 β1x1 β 2 x 2 ...β i x i e π(x) β 0 β1x1 β 2 x 2 ...β i x i 1 e Dengan menggunakan transformasi logit dari π(x) , maka model regresi fungsi logit dapat didefinisikan sebagai berikut Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 12 Penaksiran Parameter Definisi Menurut Hosmer dan Lemeshow (2000), metode estimasi yang digunakan dalam model regresi linear adalah maximum likelihood. Fungsi likelihood dalam metode ini merupakan fungsi peluang pengamatan untuk memperoleh taksiran parameter yang tidak diketahui. Parameter model regresi logistik dinotasikan yaitu : β 0 β 1 β ... β p Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 13 Pengujian Parameter Model Regresi Logistik UJI SERENTAK untuk mengetahui signifikansi parameter terhadap variabel respon secara keseluruhan. Pengujian signifikansi parameter tersebut menggunakan statistik uji G, dimana statistik uji G mengikuti distribusi Chi-Square dengan derajat bebas satu (Hosmer dan Lemeshow, 2000). Hipotesis yang digunakan: H0 : H1: paling sedikit ada satuβ i ≠ 0, dengan i = 1, 2, …, p Taraf Signifikan : 0,05 Statistik Uji : n n n0 ni n1 n 0 n1 y i n 0 1 y i i 1 i 1 n n G 2ln n n n1 n 0 yi 1 y i π̂ i 1 π̂ i i 1 Daerah penolakan : tolak Ho jika G χ 2 (v,α) dengan derajat bebas v. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 14 Pengujian Parameter Model Regresi Logistik UJI INDIVIDU Untuk menguji pengaruh setiap secara individual. Hasil pengujian secara individual akan menunjukkan apakah suatu variabel prediktor layak untuk masuk dalam model atau tidak. Hipotesis yang digunakan adalah H0 : β = 0 i H1: β ≠ 0, dengan i = 1, 2, …, p i Taraf Signifikan : 0,05 Statistik Uji : Statistik Uji Wald W β̂ i SE( β̂ i ) Daerah penolakan : tolak Ho jika. W Z α/2 Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 15 UJI KESESUAIAN MODEL Setelah estimasi model regresi logistik diperoleh, selanjutnya menguji seberapa besar keefektifan model dalam menjelaskan variabel respon. Menurut Hosmer and Lemeshow (2000) hal demikian disebut sebagai goodness-of-fit (kesesuaian model). Adapun hipotesis yang digunakan adalah : H0: model sesuai H1: model tidak sesuai Statistik uji yang digunakan untuk menguji kesesuaianmodel adalah ChiSquare dari Hosmer dan Lemeshow test. o k n' k π k 2 Ĉ k 1 n' k π k 1 π k g Daerah penolakan : tolak Ho jika χ2 hitung > χ2 (db,α) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 16 Interpretasi Model Untuk regresi logistik dengan variabel prediktor bersifat dikotomus, nilai x dikategorikan 0 atau 1 Variabel Prediktor Variabel respon x=1 exp β 0 β 1 1 exp β 0 β 1 y=1 π1 y=0 1 - π1 1 1 exp β 0 β 1 x=0 π0 exp β 0 1 exp β 0 1 - π0 1 1 exp β 0 Sumber: Hosmer and Lemeshow, 2000 Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 17 Interpretasi Model Odds ratio, dinotasikan ψ, didefinisikan sebagai ratio odds untuk x = 1 terhadap odds untuk x = 0, yang dapat dituliskan ψ exp(β 0 β 1 ) 1 1 exp(β 0 β 1 ) 1 exp(β 0 ) ψ exp(β 0 ) 1 1 exp(β 0 ) 1 exp(β 0 β 1 ) π(1)/1 π(1) π(0)/1 π(0) exp(β 0 β1 ) exp(β1 ) exp(β 0 ) Dari persamaan di atas, odds rasio berarti rata-rata besarnya kecenderungan variabel respon bernilai tertentu jika x = 1 dibandingkan jika x = 0 (Hosmer dan Lemeshow, 2000). Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 18 Prosedur Klasifikasi Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi yang dilakukan oleh suatu fungsi klasifikasi (Johnson dan Wichern, 1992). Hasil Observasi y1 y2 Taksiran y1 y2 n11 n12 n21 n22 APER (%) = Keterangan : n11 = Jumlah subjek dari y1 tepat diklasifikasikan sebagai y1 n12 = Jumlah subjek dari y1 salah diklasifikasikan sebagai y2 n21 = Jumlah subjek dari y2 salah diklasifikasikan sebagai y1 n22 = Jumlah subjek dari y2 tepat diklasifikasikan sebagai y2 n 12 n 21 n 11 n 12 n 21 n 22 Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 19 Bootstrap Agregating (Bagging) Metode bagging pertama kali digunakan oleh Breiman (1994). Bagging digunakan sebagai alat untuk memperbaiki stabilitas dan kekuatan prediksi dengan cara mereduksi variansi dari suatu prediktor. Bagging prediktor adalah metode untuk membangkitkan multiple version dari prediktor dan menggunakannya untuk aggregate prediktor. Bagging bekerja dengan baik pada metode klasifikasi yang menghasilkan parameter yang tidak stabil, dimana perubahan kecil pada data set akan menghasilkan perubahan besar pada model yang diperoleh (Breiman, 1994). Aggregate classifier atau metode klasifikasi agregat µA diberikan secara umum dalam : µA(y) = EF [(y, k)] Untuk setiap resampel bootstrap dari dihitung : (*b)(y, (*b)), k b = 1, ... , B dan kemudian menaksir classifier sebagai berikut. A(y) = [(y, k*)] (Dias dan Vermunt, 2005). Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 20 Estimasi Bagging Class Probability Selama ini bukti-bukti mengindikasikan bahwa bagged menaksir lebih akurat daripada penaksir tunggal. Untuk menguji pernyataan ini dilakukan perbandingan estimasi *(jx) dari nilai sebenarnya. Perbandingan dilakukan dengan membandingkan prediksi error dari hasil model tunggal sebagai berikut. eS = (jx) – p*(jx) dimana (jx) adalah penaksir peluang dari model tunggal dan p*(jx) adalah peluang sebenarnya. Sedangkan untuk model hasil bagging, pada setiap iterasi bootstrap dilakukan perhitungan prediksi error. eB = B(jx) – p*(jx) dimana B(jx) penaksir dari peluang pada setiap replikasi, sehingga prediksi error dari model bagging merupakan hasil rata-rata prediksi error pada setiap pengambilan sampel pada setiap B replikasi bootstrap (Breiman, 1994). Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 21 Algoritma Bagging untuk Regresi Logistik Biner 1. Mengambil sampel bootstrap sebanyak n dari data set dengan pengulangan sebanyak n. Pengambilan sampel sedemikian hingga setiap variabel aggregate dalam setiap observasi. 2. Memodelkan regresi logistik biner data set hasil sampel bootstrap B . 3. Menghitung peluang respon untuk setiap observasi dan menghitung ketepatan klasifikasi. Kesalahan klasifikasi pada langkah ini disebut eB. 4. Mengulang langkah 1 sampai langkah 4 sebanyak B kali (replikasi bootstrap). 5. Memperoleh ketepatan klasifikasi bagging dari pengambilan sampel sampai B, sehingga kesalahan klasifikasi bagging untuk replikasi B kali adalah B. 6. Membentuk model bagging regresi logistik biner dari setiap parameter pada setiap pengambilan sampel sampai B. 7. Untuk memperoleh hasil yang lebih baik, maka replikasi bootstrap dilakukan sebanyak mungkin (Efron dan Tibshirani, 1993). Replikasi bootstrap yang biasa digunakan adalah 50 sampai 200. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 22 Kanker Serviks Kanker mulut rahim (serviks) atau karsinoma serviks uterus merupakan kanker pembunuh wanita nomor dua di dunia setelah kanker payudara. Di Indonesia, kanker mulut rahim bahkan menduduki peringkat pertama. (Wikipedia, 2012). Kanker Serviks berkembang secara bertahap, tetapi progresif Tingkat displasia dan KIS Karsinoma in-situ (1-7 tahun) Karsinoma invasif (3-20 tahun) Kanker ini 99,7% disebabkan oleh Human Papilloma Virus (HPV) onkogenik, yang menyerang mulut rahim (Wikipedia, 2012). Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 23 Kanker Serviks GEJALA KLINIS KANKER SERVIKS Pada fase pra kanker, sering tidak ada gejala atau tanda-tanda yang khas. Namun, kadang bisa ditemukan gejala-gejala sebagai berikut (Wijaya, 2010) : 1. Keputihan atau keluar cairan encer dari vagina. Getah yang keluar dari vagina ini makin lama akan berbau busuk akibat infeksi dan nekrosis jaringan 2. Perdarahan setelah sanggama ( post coital bleeding ) yang kemudian berlanjut menjadi perdarahan yang abnormal. 3. Timbulnya perdarahan setelah masa menopause. 4. Pada fase invasif dapat keluar cairan berwarna kekuning-kuningan, berbau dan dapat bercampur dengan darah 5. Timbul gejala-gejala anemia bila terjadi perdarahan kronis. 6. Timbul nyeri panggul (pelvis) atau di perut bagian bawah bila ada radang panggul. Bila nyeri terjadi di daerah pinggang ke bawah, kemungkinan terjadi hidronefrosis. Selain itu, bisa juga timbul nyeri di tempat-tempat lainnya. 7. Pada stadium lanjut, badan menjadi kurus kering karena kurang gizi, edema kaki, timbul iritasi kandung kencing dan poros usus besar bagian bawah rectum), terbentuknya fistel vesiko vaginal atau rekto vaginal, atau timbul gejala-gejala akibat metastasis jauh. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 24 Faktor Resiko Kanker Serviks Faktor risiko adalah faktor yang memudahkan terjadinya infeksi virus HPV dan faktor lain yang memudahkan atau meningkatkan risiko menderita kanker serviks. Selain infeksi HPV ditemukan faktor risiko yang meningkatkan peluang timbulnya kanker serviks adalah sebagai berikut : USIA Kanker seviks sering terjadi pada wanita usia 40 tahun keatas dan sangat jarang terjadi pada wanita dengan usia kurang dari 15 tahun. Kanker ini juga dapat menyerang manula (Nurwijaya, dkk., 2010). Penggunaan kontrasepsi Penggunaan kontrasepsi hormonal dalam jangka panjang dapat meningkatkan risiko 4 kali lebih besar terkena kanker serviks (Melva, 2008). Frekuensi melahirkan Melahirkan anak banyak dan sering hamil juga dapat meningkatkan risiko kanker serviks (Nurwijaya, dkk., 2010). Siklus menstruasi Siklus menstruasi yang tidak teratur dimungkinkan karena adanya gangguan hormonal serta kemungkinan lain yang telah terjadi (Setiawan, 2010) Usia mens pertama Usia menikah pertama kali Riwayat keguguran Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 25 Pemeriksaan Diagnostik Pemeriksaan diagnostik dapat dilakukan dengan berbagai cara antara lain : 1 • Papanicolaouw Smear (Pap Smear Test) 2 • Tes Schiller 3 • Sitologi 4 • Kolposkopi 5 • Kolpomikroskopi 6 • Biopsi 7 • Konisasi Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 26 Pap Smear Test Ada dua pencegahan yang dapat dilakukan yaitu pencegahan primer dan sekunder : PRIMER pencegahan faktor penyebab kanker serviks yang dilakukan dengan cara menghindari faktor-faktor yang menyebabakan infeksi HPV dan melakukan vaksin HPV. SEKUNDER menemukan lesi pra-kanker dan mengobatinya agar tidak berkembang menjadi kanker serviks. Pencegahan sekunder dapat dilakukan melalui skrining (deteksi dini) lazim digunakan PAP SMEAR TEST Hasil Pap test sesuai klasifikasi Papanicolaou terdiri dari lima klas yaitu (Nurwijaya, 2010): 1. Normal, dimana tidak ditemukan sel abnormal 2. Tampak sel abnormal tetapi tidak ada bukti keganasan 3. Tampak sel-sel atypik yang meragukan untuk keganasan 4. Tampak sel-sel yang mencurigakan keganasan 5. Tampak adanya sel-sel ganas Tabel 2.2 Gambaran Sitologi Hasil Pap Test. Kelompok Normal Abnormal Jenis Normal smear Radang non spesifik AS (Atrophic Smear) ASC-US ASC-H LSIL HSIL Herpes Simplek Virus Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 TV HV Candida Coccen Early as Mild RNS Metaplasia 27 Sumber Data Penelitian METODOLOGI PENELITIAN Variabel Penelitian Metode Analisis Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 28 Sumber Data Penelitian Data SEKUNDER RS. “X” Surabaya Data anamesa bagian Dept. Riset dan Pengembangan RS. “X” tahun 2010 Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 29 Variabel Penelitian Kode Variabel Variabel respon : Y Hasil Pap Smear Test Variabel prediktor : X1 Usia X2 Usia melahirkan pertama kali Definisi Operasional Skala Pengukuran 1. 2. Nominal Usia pasien Usia pertama kali melahirkan Rasio Rasio X3 Usia menstruasi pertama kali Usia pertama kali mengalami menstruasi Rasio X4 Siklus menstruasi Nominal X5 Frekuensi melahirkan Penggunaan kontrasepsi 1. 2. 1. 2. 1. 2. 1. 2. X6 X7 Riwayat keguguran Normal (1) Abnormal (2) teratur (1) tidak teratur (2) pernah melahirkan ≤2 anak (1) pernah melahirkan ˃2 anak (2) tidak menggunakan kontrasepsi (1) menggunakan kontrasepsi (2) tidak pernah keguguran (1) pernah keguguran (2) Nominal Nominal Nominal Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 30 Struktur Data Penelitian Pasien hasil Pap Smear Test penyakit kanker serviks Y X1 X2 ... X7 1 y1 X1,1 X2,1 ... x7,1 2 y2 X1,2 X2,2 ... x7,2 3 Y3 x1.,3 X2,3 ... x7,3 ... ... ... ... ... ... N yn x1,n x2,n ... x7,n Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 31 Mulai Analisis deskriptif Analisis dengan Regresi Logistik Biner dengan pengujian secara individu Menentukan model Regresi Logistik Biner Metode Analisis Mendapatkan variabel prediktor yang signifikan berpengaruh terhadap model regresi logistik biner Melakukan Bagging untuk prediktor dari model logistik biner, 50 sampai 100 replikasi bootstrap dari 2 kombinasi data Menentukan ketepatan klasifikasi pada setiap pengambilan sampel B replikasi bootstrap Menentukan kesalahan klasifikasi bagging B Membentuk model bagging regresi logistik biner dari ratarata setiap parameter pada setiap pengambilan sampel sampai B Gambar 3.1 Tahap-tahap Penelitian Selesai Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 32 Karakteristik Pasien Pap Smear Test Bedasarkan Faktor Resiko Usia Usia Pasien <= 35 tahun Hasil Pap Smear Test Abnormal 157 198 482 680 261 639 900 > 35 tahun Total Pasien berusia < 35 tahun abnormal 28% normal normal abnormal abnormal 72% (a) 220 Pasien berusia > 35 tahun 29% 71% Total Normal 63 23% <= 35 tahun 77% (b) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 > 35 tahun (c) 33 Karakteristik Pasien Pap Smear Test Bedasarkan Faktor Resiko Usia Melahirkan Pertama Kali Usia Pertama Melahirkan <= 20 tahun > 20 tahun Total Usia melahirkan < 20 tahun Hasil Pap Smear Test Total Normal 24 Abnormal 71 95 237 568 805 261 639 900 abnormal Usia melahirkan > 20 tahun 23% 10% 29% normal abnormal normal 71% abnormal <=20 tahun 90% >20 tahun 77% (a) (b) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 (c) 34 Karakteristik Pasien Pap Smear Test Bedasarkan Faktor Resiko Usia Menstruasi Pertama Kali Hasil Pap Smear Test Usia Pertama Menstruasi Normal Abnormal <= 13 tahun 179 433 612 > 13 tahun 82 206 288 Total 261 639 900 Usia Mens Pertama < 13 tahun Usia Mens Pertama > 13 tahun 29% 27% normal 71% Total normal abnormal Abnormal 35% abnormal <=13 tahun 65% >13 tahun 73% (a) (b) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 (c) 35 Karakteristik Pasien Pap Smear Test Bedasarkan Faktor Resiko Siklus Menstruasi Siklus Menstruasi Normal Abnormal Teratur 221 438 659 Tidak Teratur 40 201 241 Total 261 639 900 Teratur Hasil Pap Smear Test Tidak Teratur 33% 67% Total Abnormal 16% normal normal abnormal abnormal 33% teratur 67% tidak teratur 84% (a) (b) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 (c) 36 Karakteristik Pasien Pap Smear Test Bedasarkan Faktor Resiko Jumlah Anak (Paritas) Hasil Pap Smear Test Paritas Normal Abnormal Anak <= 2 148 358 506 Anak > 2 113 281 394 Total 261 639 900 Paritas < 2 anak Paritas > 2 anak normal abnormal (a) Abnormal 27% 29% 71% Total normal 73% 45% abnormal (b) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 55% jumlah anak < 2 jumlah anak > 2 (c) 37 Karakteristik Pasien Pap Smear Test Bedasarkan Faktor Resiko Penggunaan Kontrasepsi Hasil Pap Smear Test Penggunaan Kontrasepsi Total Normal Abnormal Tidak menggunakan 179 353 532 Menggunakan 82 286 368 Total 261 639 900 Tidak Menggunakan Kontrasepsi Menggunakan Kontrasepsi 21% 34% normal Abnormal normal 79% abnormal menggunakan 46% abnormal 54% tidak menggunakan 66% (a) (b) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 (c) 38 Karakteristik Pasien Pap Smear Test Bedasarkan Faktor Resiko Riwayat Keguguran Hasil Pap Smear Test Riwayat Keguguran Normal Abnormal Tidak Pernah 189 448 637 Pernah 72 191 263 Total 261 639 900 Tidak Pernah Keguguran Abnormal Pernah Keguguran 26% 30% 70% Total normal normal abnormal abnormal 32% tidak pernah 68% pernah 74% (a) (b) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 (c) 39 Analisis Regresi Logistik Uji Individu Hipotesis yang digunakan adalah sebagai berikut. H0 : βi = 0 H1 : βi ≠ 0, dengan i= 1,2,…,p Tingkat signifikansi yang digunakan yaitu α = 5%. Statistik uji yang digunakan adalah statistik uji Wald. Keputusan penolakan H0 jika p-value < α atau nilai W2 lebih besar dari (1;0,05)= 3,841 Variabel Prediktor X1 X2 X3 X4 X5 X6 X7 Deskripsi Usia Usia melahirkan pertama Usia menstruasi pertama Siklus menstruasi Paritas (Jumlah anak) Penggunaan kontrasepsi Riwayat keguguran Wald 18,772 2,799 0,118 23,532 0,035 13,484 0,475 p-value 0,000* 0,094 0,665 0,000* 0,852 0,000* 0,490 Keterangan : *parameter signifikan berpengaruh pada α = 5% Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 40 Analisis Regresi Logistik Uji Serentak Variabel prediktor yang digunakan untuk membentuk model regresi logistik biner ini adalah variabel prediktor yang secara individu signifikan berpengaruh terhadap variabel respon. Teknik yang digunakan dalam uji serentak adalah teknik backward wald dengan hipotesis sebagai berikut H0 : β1 = β2 = … = βp = 0 H1 : paling sedikit ada satu βi≠ 0, dengan i = 1,2,…, p Tingkat signifikansi yang digunakan yaitu α = 5%. Statistik uji yang digunakan adalah statistik uji G yang mengikuti distribusi Chi-Square. Keputusan penolakan H0 jika pvalue < α atau nilai G lebih besar (3;0,05)= 7,815. Variabel Prediktor X1 X4(1) X6(1) Konstanta Deskripsi Usia pasien Siklus menstruasi Penggunaan kontrasepsi p-value β 0,035 -0,878 -0,565 -0,470 0,000* 0,000* 0,000* 0,260 Odds Ratio 1,036 0,415 0,568 1,599 Keterangan : *parameter signifikan berpengaruh pada α = 5% Nilai statistik uji G yang dihasilkan adalah sebesar 56,522 Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 41 Analisis Regresi Logistik Jadi, model regresi logistik biner yang diperoleh adalah sebagai berikut. (x) exp(-0,470 0,035X1 - 0,878X 4 (1) - 0,565X 6 (1)) 1 exp (-0,470 0,035X1 - 0,878X 4 (1) - 0,565X 6 (1)) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 42 Analisis Regresi Logistik Uji Kesesuaian Model Hipotesis yang digunakan adalah sebagai berikut. H0 : model sesuai (tidak ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi) H1 : model tidak sesuai (ada perbedaan antara hasil observasi dengan kemungkinan hasil prediksi) Tingkat signifikasi yang digunakan adalah α = 5%. Pada Hosmer and Lemeshow test diperoleh nilai p-value sebesar 0,173 dimana nilai p-value > α sehingga keputusannya adalah Gagal tolak H0 yang berarti model sesuai atau tidak ada perbedaan antara hasil observasi dengan hasil prediksi pada tingkat signifikansi α = 5%. Sehingga model yang digunakan adalah exp(-0,470 0,035X1 - 0,878X 4 (1) - 0,565X 6 (1)) (x) 1 exp (-0,470 0,035X1 - 0,878X 4 (1) - 0,565X6 (1)) dengan model logit : g(x) -0,470 0,035X1 - 0,878X 4 (1) - 0,565X 6 (1) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 43 Analisis Regresi Logistik Interpretasi Model Regresi Logistik Variabel Prediktor X1 X4(1) X6(1) Konstanta Deskripsi Usia pasien Siklus menstruasi Penggunaan kontrasepsi Odds β Ratio 0,035 1,036 -0,878 0,415 -0,565 0,568 -0,470 1,599 Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 44 Analisis Regresi Logistik Uji Ketepatan Klasifikasi Observasi Prediksi Normal Abnormal Normal 2 259 Abnormal 5 634 Ketepatan Klasifikasi Total (%) Ketepatan Klasifikasi(%) 0,8 99,2 70,7 diketahui bahwa persentase seluruh observasi terklasifikasikan dengan benar adalah 70,7% sehingga besarnya misklasifikasi (APER) adalah 29,3%. Kombinasi data Kombinasi 1 (80%-20%) Training Testing Kombinasi 2 (70%-30%) Training Testing Ketepatan Klasifikasi 71,20% 50,55% 71,00% 70,75% Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 45 Bagging Regresi Logistik Hasil pada model regresi logistik biner menyimpulkan bahwa variabel yang signifikan berpengaruh terhadap hasil Pap Smear Test adalah jumlah usia pasien (X1), siklus menstruasi (X4) dan penggunaan kontrasepsi (X6). Semua variabel kemudian akan diperlakukan resampling bagging. Data dibagi menjadi data training dan testing dengan 2 kombinasi yaitu training-testing 80%-20% dan training-testing 70%-30% kemudian masing-masing kombinasi data direplikasi bootstrap sebanyak 50, 60, 70, 80, 90 hingga 100 kali. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 46 Estimasi Bagging Class Probability Estimasi Bagging Class Probability pada kombinasi data 1 Hasil Bagging Regresi Logistik Data Training pada Data Kombinasi 1 Replikasi Bootstrap 50 kali 60 kali 70 kali 80 kali 90 kali 100 kali Rata-rata Ketepatan Klasifikasi 71,56% 71,29% 71,43% 71,04% 71,66% 71,19% B 28,44% 28,71% 28,57% 28,96% 28,34% 28,81% es 28,8% 28,8% 28,8% 28,8% 28,8% 28,8% Bagging Regresi Logistik Data Testing pada Data Kombinasi 1 Replikasi Bootstrap 50 kali 60 kali 70 kali 80 kali 90 kali 100 kali Rata-rata Ketepatan Klasifikasi 68,33% 67,78% 68,33% 67,78% 68,33% 68,33% B 31,67% 32,22% 31,67% 32,22% 31,67% 31,67% es 49,45% 49,45% 49,45% 49,45% 49,45% 49,45% Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 47 Estimasi Bagging Class Probability Estimasi Bagging Class Probability pada kombinasi data 2 Hasil Bagging Regresi Logistik Data Training pada Data Kombinasi 2 Replikasi Bootstrap 50 kali 60 kali 70 kali 80 kali 90 kali 100 kali Rata-rata Ketepatan Klasifikasi 70,58% 70,53% 71,00% 70,71% 70,41% 71,07% es B 29,42% 29,47% 29,00% 29,29% 29,59% 28,93% 29,3% 29,3% 29,3% 29,3% 29,3% 29,3% Bagging Regresi Logistik Data Testing pada Data Kombinasi 2 Replikasi Bootstrap 50 kali 60 kali 70 kali 80 kali 90 kali 100 kali Rata-rata Ketepatan Klasifikasi 70,37% 70,37% 70,37% 70,37% 70,37% 70,37% es B 29,63% 29,63% 29,63% 29,63% 29,63% 29,63% 29,25% 29,25% 29,25% 29,25% 29,25% 29,25% Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 48 Ketepatan Klasifikasi Ketepatan Klasifikasi Kombinasi 1 (80%-20%) Hasil Bagging Kombinasi 1 (80%-20%) Hasil data tunggal Kombinasi 2 70%-30% Hasil Bagging Kombinasi 2 70%-30% Hasii data tunggal 50,55% 68,33% 70,75% 70,37% Dan jika dibandingkan dari tabel di atas hasil bootstrap data kombinasi kedua dengan data kombinasi pertama, data kombinasi pertama memiliki peningkatan ketepatan klasifikasi dan cukup tinggi. Perbandingan Hasil Ketepatan Klasifikasi Regresi Logistik Biner dengan Bagging Regresi Logistik Jenis Regresi Logistik Biner Kombinasi Katepatan Waktu (menit) Data (1) 80%-20% 50,55% 1 (2) 70%-30% 70,37% 1 Bagging Regresi Logistik Ketepatan 68,33% 70,75% Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 Waktu (menit) 3600 3600 49 Model Bagging Regresi Logistik Model bagging regresi logistik yang diperoleh pada 90 kali replikasi bootstrap adalah : g ( x) -1,06909 0,03828X1 - 0,82193X 4 (1) 0,58439X 6 (1) Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 50 Kesimpulan 1. - - - - Berdasarkan hasil analisis dan pembahasan, maka diperoleh kesimpulan sebagai berikut Karakteristik pasien Pap Smear Test pendeteksi awal kanker serviks di rumah sakit “X” untuk hasil test abnormal : Persentase terbesar berdasarkan variabel usia adalah pasien dengan usia diatas 35 tahun sebesar 77% sedangkan persentase pasien usia dibawah 35 tahun yaitu 23%. Persentase terbesar berdasarkan variabel usia melahirkan pertama kali adalah pasien dengan usia diatas 20 tahun sebesar 90% sedangkan persentase pasien usia dibawah 20 tahun yaitu 10%. Persentase terbesar berdasarkan variabel usia menstruasi pertama kali adalah pasien dengan usia di bawah 13 tahun sebesar 65% sedangkan persentase pasien usia di atas 13 tahun yaitu 35%. Persentase terbesar berdasarkan variabel siklus menstruasi adalah pasien dengan siklus menstruasi yang teratur sebesar 67% sedangkan persentase pasien dengan siklus menstruasi yang tidak teratur yaitu 33%. Persentase terbesar berdasarkan variabel jumlah anak (paritas) adalah pasien dengan jumlah anak kurang dari 2 anak sebesar 55% sedangkan persentase pasien dengan jumlah anak kurang dari 2 anak yaitu 45%. Keduanya memiliki selisih prsentase yang kecil. Persentase terbesar berdasarkan variabel penggunan kontrasepsi adalah pasien yang menggunakan kontrasepsi yaitu sebesar 54% sedangkan persentase pasien yang tidak menggunakan kontrasepsi yaitu sebesar 46%. Persentase terbesar berdasarkan variabel riwayat keguguran adalah pasien yang tidak pernah keguguran yaitu sebesar 68% sedangkan persentase pasien yang pernah keguguran sebesar yaitu 32%. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 51 Kesimpulan 2. Variabel-variabel yang berpengaruh secara signifikan terhadap hasil Pap Smear Test adalah usia pasien (X1), siklus menstruasi (X4) dan penggunaan kontrasepsi (X6). Interpretasi model regresi logistik biner dapat digunakan untuk mengetahui peluang seorang pasien yang positif memiliki hasil Pap Smear Test yang abnormal. Sebagai ilustrasi penggunaan model regresi logistik yang diperoleh jika ada seorang pasien berusia 40 tahun, siklus menstruasinya tidak teratur dan menggunakan kontrasepsi memiliki nilai peluang untuk hasil Pap Smear Test normal adalah sebesar 0,12. Sehingga dapat diketahui pasien berusia 40 tahun, siklus menstruasinya tidak teratur dan menggunakan kontrasepsi memiliki nilai peluang untuk hasil Pap Smear Test abnormal sebesar 0,88. 3. Hasil analisis regresi logistik menunjukkan bahwa pola hubungan hasil Pap Smear Test sebagai test awal untuk kanker serviks dengan faktor-faktor yang mempengaruhinya digambarkan dalam model regresi logistik berikut. Pada model tersebut terdapat 3 (tiga) variabel prediktor yang signifikan berpengaruh terhadap variabel respon, yaitu u usia pasien (X1), siklus menstruasi (X4) dan penggunaan kontrasepsi (X6), Model tersebut sudah sesuai untuk menjelaskan berapa besar peluang seorang pasien akan positif abnormal pada hasil Pap Smear Test, sehingga dapat langsung melakukan tindakan lanjut, dengan ketepatan klasifikasi sebesar 70,7%. 4. Hasil analisis bagging regresi logistik menunjukkan bahwa pada 90 kali pada data kombinasi 1 yaitu trainingtesting 80%-20% replikasi bagging diperoleh nilai ketepatan klasifikasi terbesar, yaitu sebesar 68,33% sehingga dapat disimpulkan bahwa hasil bagging memiliki ketepatan klasifikasi lebih tinggi yaitu 50,55% menjadi 68,33%. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 52 Saran Berdasarkan hasil analisis dan pembahasan, didapatkan informasi bahwa hasil Pap Smear Test pendeteksi awal kanker serviks di rumah sakit “X lebih banyak dipengaruhi oleh usia, siklus menstruasi dan penggunaan kontrasepsi sehingga diharapkan pasien dan calon pasien (wanita) di Indonesia lebih dini melakukan test Pap Smear Test, sebagai langkah awal pencegahan kanker serviks yang tidak dapat dirasakan gejala awalnya. Sebaiknya pada penelitian selanjutnya yang menggunakan metode bagging, dilakukan replikasi bootstrap yang lebih banyak dan kombinasi data lainnya untuk meningkatkan ketepatan klasifikasi. Dan menggunakan metode lainnya yang lebih efisien dan dapat meningkatkan ketepatan klasifikasi misalkan Kernelized Logistic Regression. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 53 DAFTAR PUSTAKA Agresti, A. 1990. Categorical Data Analysis. John Wiley and Sons. New York. Breiman, L. 1994. Bagging Predictor. Technical report No. 421. Departement of statistics University of California. Dias, J.G dan Vermunt J.K. 2005. A Bootstrap based Aggregate Classier for Model based Clustering. Journal of Annals Statistics. Efron, B., dan R. J. Tibshirani. 1993. An Introduction to the Bootstrap. Chapman and Hall. New York. Hosmer, D.W., dan Lemenshow. 2000. Applied Logistic Regression. USA : John Wiley and Sons. Johnson, R. A. dan Wichern, D. W., 1992. Applied Multivariate Statistical Analysis. Prentice Hall. New Jersey. Melva. (2008). Faktor-faktor yang Mempengaruhi Kejadian Kanker Leher Rahim Pada Penderita Yang Datang Berobat Di RSUP H. Adam Malik Medan. Tesis, Universitas Sumatera Utara, Medan. Ningrum, E.S. (2012). Klasifikasi Kesejahteraan Rumah Tangga Di Kota Malang Dengan Pendekatan Bagging Regresi Logistik. Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya. Nurdim, F.I. (2006). Klasifikasi Pasien Hasil Pap Test Penyakit Kanker Leher Rahim dengan Metode Multivariate Adaptive Regression Splines (MARS). Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya. Nurwijaya, H., Andrijono, Suheimi, H.K., (2010). Cegah dan Deteksi Kanker Serviks. Gramedia, Jakarta. Setiawan, A. (2010). Kanker Serviks Penyebab Utama Kematian, http://kesehatan.kompas.com/read/2010/05/07/08042334/Kanker.Serviks.Penyebab.Utama.Kematian.htm, Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 54 DAFTAR PUSTAKA Walpole, R. E. (1995). Pengantar Statistika Edisi ke-3. Jakarta: PT Gramedia Pustaka Utama. Wijaya, D. (2010). Pembunuh Ganas Itu Bernama Kanker Serviks. Sinar Kejora, Yogyakarta. Wikipedia. (2012). Kanker Leher Rahim. http://id.wikipedia.org/wiki/ Kanker_leher_rahim [diakses tanggal 9 Februari 2012]. Yastuti, H. (2011). Bagging Multivariate Adaptive Regression Splines (Mars) Untuk Klasifikasi Pasien Hasil Pap Test Penyakit Kanker Serviks (Studi Kasus Di RS “X” Surabaya). Tugas Akhir, Jurusan Statistika Institut Teknologi Sepuluh Nopember, Surabaya. Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS Surabaya, 22 Juni 2012 55 ..SEKIAN.. TERIMA KASIH -DANKE SCHŐNq(^_^)p Seminar Hasil Tugas Akhir Jurusan Statistika FMIPA ITS 56