makalah skripsi

advertisement
Faktor-faktor Yang Mempengaruhi Resiko Penyebab Penderita Kanker Payudara Dengan
Menggunakan Pendekatan Regresi Logistik
Nama Mahasiswa
Nrp
Jurusan
Dosen Pembimbing
: Ricki Indra P
: 1303 109 030
: Statistika FMIPA-ITS
: Dra. Maduratna, MS
1. Pendahuluan
Salah satu penyakit yang banyak menimbulkan kesengsaraan dan kematian pada manusia
sebagian besar adalah kanker. Yang disebut dengan kanker payudara (Carcinoma mammae) adalah suatu
penyakit neoplasma ganas yang merupakan suatu pertumbuhan jaringan payudara abnormal yang berbeda
dengan jaringan disekitarnya. Penyebab yang pasti dari kanker payudara belum diketahui, namun riset
mengidentifikasikan sejumlah faktor yang dicurigai penyebab dari timbulnya kanker disebabkan oleh
beberapa faktor antara lain riwayat keluarga dan faktor genetik, radiasi, faktor reproduksi serta konsumsi
lemak. Oleh karena itu penting bagi setiap wanita untuk melakukan deteksi secara dini terhadap kanker
payudara. Dunia kedokteran belum dapat menemukan cara untuk mencegah timbulnya kanker payudara.
Mereka berpendapat bahwa banyak nyawa dapat diselamatkan jika ada cara efektif untuk deteksi dini
kanker payudara.
Dari berbagai kesulitan di atas harapan dari penelitian ini adalah mensimulasikan penderita
kanker payudara sehingga bisa diketahui karakteristik penderita kanker payudara. Analisis regresi logistik
digunakan untuk analisis data respon kategorik (nominal/ ordinal) dengan variabel-variabel bebas kontinu
dan kategorik. Perbedaan nilai probabilitas pada setiap kelas akan menghasilkan nilai odds rasio. Nilai
odds rasio dapat menginformasikan besarnya pengaruh salah satu variabel bebas terhadap terjadinya
perubahan kelas. Dalam penelitian ini adalah penderita dan non penderita kanker payudara. Dari
penelitian sebelumya dengan menggunakan metode MARS didapat ketepatan klasifikasi sebesar 79 %
(Yuanita, 2008), sedangkan dengan menggunakan metode regresi logistik menghasilkan ketepatan
klasifikasi sebesar 58%.
Permasalahan
Dari latar belakang diatas maka permasalahan yang ada dalam penelitian ini adalah:
Bagaimana faktor-faktor yang mempengaruhi resiko penyebab kanker payudara dari model regresi
logistik yang telah diperoleh ?
Tujuan
Tujuan yang ingin dicapai oleh penelitian ini yaitu :
Mendapatkan faktor-faktor yang mempengaruhi resiko penyebab kanker payudara dari model regresi
logistik yang telah diperoleh.
2
Regresi Logistik
Analisis regresi logistik adalah metode regresi yang menggambarkan hubungan antara beberapa
variabel independen (explanatory) dengan sebuah variabel respon dikotomus atau biner. Variabel respon
(Y) pada metode regresi logistik dikatakan biner karena terdiri atas dua kategori yaitu 0 dan 1.
Analisis regresi logistik biner bertujuan untuk memperoleh hubungan antara X i dan Pi
(probabilitas kejadian yang diakibatkan oleh xi). Berapapun nilai x bila disubtitusikan ke dalam fungsi
logistik hasilnya akan berkisar antara 0 dan 1.
Regresi logistik digunakan untuk analisis data respon kategorik (nominal / ordinal) dengan
variabel-variabel bebas kontinu dan kategorik (Agresti, 1990). Berdasarkan jumlah kategori respon,
regresi logistik dapat dibedakan menjadi dua, yaitu regresi logistik dikotomus dan polikotomus.
Regresi Logistik Dikotomus
Regresi logistik dikotomus adalah suatu analisis regresi yang digunakan untuk mengambarkan
hubungan antara variabel respon (outcome / dependent) dengan sekumpulan variabel prediktor
(eksplanatory / independent) (Agresti, 1990), dimana variabel responnya berskala biner atau dikotomus
dengan variabel prediktor berskala dikotomus maupun polikotomus. Variabel dikotomus adalah variabel
yang memiliki 2 kemungkinan (sukses atau gagal),
sedangkan variabel polikotomus adalah variabel yang memiliki lebih dari dua kemungkinan.
1
Variabel respon biasanya disimbolkan dengan y, sedangkan variabel prediktor disimbolkan
dengan x. Variabel respon (y) mengikuti distribusi bernoulli dengan fungsi probabilitas :
f ( yi )  p yi (1  p )1 yi , y i  0,1
(1)
Distribusi dari variabel respon ini merupakan pembeda antara regresi logistik dengan regresi
linear. Pada regresi linear variabel responnya diasumsikan berdistribusi normal, sedangkan untuk variabel
respon pada regresi logistik bersifat kategorikal. Adapun fungsi logistik adalah sebagai berikut :
f ( x) 
1
,
1  e x
  x  
(2)
Untuk x   maka Lim f ( x)  0 , sedangkan untuk x   maka Lim f ( x)  1 . Dengan melihat
x 
x 
kemungkinan nilai f x  yang berkisar antara 0 dan 1, ini menunjukkan bahwa regresi logistik sebenarnya
menggambarkan probabilitas terjadinya suatu kejadian.
Gambar 1. Kurva fungsi logistik
Nilai x dalam hal ini bisa dianggap sebagai kombinasi dari berbagai penyebab timbulnya suatu
kejadian dan efek x dapat minimal dengan rendahnya nilai x sampai batas tertentu, kemudian
pengaruhnya akan meningkat dengan cepat dan probabilitasnya akan tetap tinggi mendekati 1. Untuk
mempermudah maka digunakan notasi  x   E  y | x  untuk menyatakan rata-rata bersyarat dari y jika
diberikan nilai x.
Bentuk model regresi logistik adalah (Agresti, 1990):
 x  
exp(    1 x)
1  exp(    1 x)
(3)
Untuk mempermudah menaksir parameter regresi, maka  (x ) pada persamaan (3)
ditransformasikan dengan menggunakan transformasi logit. Uraian transformasi tersebut adalah sebagai
berikut.
exp(    1 x)
1  exp(    1 x)
 ( x)1  exp(   1 x)  exp(   1 x)
 ( x)   ( x) exp(   1 x)  exp(   1 x)
 x  = exp(    1 x)   ( x) exp(    1 x)
 (x ) = 1   ( x)exp(    1 x)
 ( x)
= exp(     1 x)
1   ( x)
  ( x) 
 = ln exp(    1 x)
ln
 1   ( x) 
 x  
  ( x) 
 =    1 x
ln
 1   ( x) 
g(x) =     1 x
Dengan g(x) disebut bentuk logit.
Sedangkan model regresi logistik dengan k variabel prediktor adalah :
2
 ( x) 
exp(    1 x1  ...   k x k )
1  exp(    1 x1  ...   k x k )
Jika model ditransformasikan dengan transformasi logit, maka akan menghasilkan bentuk logit
g(x) =     1 x1  ...   k x k
Penaksiran Parameter
Metode yang digunakan untuk mengestimasi parameter regresi logistik adalah MLE (Maximum
Likelihood Estimator). Metode ini memperoleh dugaan maksimum likelihood bagi  dengan iterasi
Newton Raphson. Estimasi maksimum likelihood merupakan pendekatan dari estimasi WLS (Weighted
Least Square), dimana matrik pembobotnya berubah setiap putaran. Proses perhitungan estimasi
maksimum likelihood ini disebut juga sebagai Iteratively Reweighted Least Square.
a. Metode Terboboti (Weighted Least Square)
Penduga dari metode terboboti didapatkan melalui rumus sebagai berikut.
(4)
 w  ( X T V 1 X ) 1  X T V 1 g ( x)
Dimana :


1
V  diag 

 ni ( xi )(1   ( xi ))
V 1  diag ni  ( x i )(1   ( x i )) 
  (x ) 
i

g(x) = ln
(
1


(
xi ) 

b. Iteratively Reweighted Least Squares (IRLS)
Pada metode IRLS, matriks pembobot ( V ) yang dihitung di setiap tahapan iterasi dapat diperoleh
melalui aplikasi rumus sebagai berikut.


1
Vm   diag 

 ni m 1  xi 1   m 1  xi 
(5)
Keterangan :
m = Bilangan iterasi ; i = Kategori pada variabel prediktor
Algoritma:


1

 ni ( xi )1   ( xi )
1. Menentukan V0   diag 
Kemudian menghitung β(0)  ( X T V01 X ) 1 ( X T V01 g ( x))
T
e X i 0 
Dimana,  0   xi  
T

1  e X i 0 

2. Untuk m = 1, 2, 3 dan seterusnya maka


1
Vm   diag 

 ni m 1  xi 1   m 1  xi 
Dan β(m)  ( X T Vm1 X ) 1 ( X T Vm1 g ( x))
3. Jika  m    m 1  ε 0 maka proses dihentikan. Jika tidak, maka dihitung :
T
 m   xi  

e xi  m 
T

1  e xi  m 
dan kembali ke langkah 2
3
Metode ini baik digunakan untuk ukuran data kecil, karena bila ukurannya besar maka varians
awal sudah cukup baik (tanpa perlu iterasi).
c. Maximum Likelihood Estimator (MLE)
Pada dasarnya metode Maximum Likelihood memberikan nilai estimasi β untuk
memaksimumkan fungsi Likelihood (Agresti, 1990). Secara sistematis fungsi Likelihood untuk model
regresi logistik dikotomus dapat ditulis sebagai berikut.
(6)
f ( β , y )   ( x) y (1   ( x))1 y
Karena setiap observasi bersifat independen, maka Likelihood observasi merupakan perkalian
dari masing-masing fungsi Likelihood, sebut saja (Agresti, 1990)
n
n
 ( β )   f ( β , y )    ( xi ) y (1   ( xi ))1 y
i
i 1
i
(7)
i 1
Secara matematis akan lebih mudah untuk memaksimalkan log  ( β ) atau disebut juga log
Likelihood yang dinotasikan sebagai L ( β ) , yakni dengan cara mendifferensialkan L ( β ) terhadap β dan
menyamakannya dengan nol (Agresti, 1990).
L ( β )  log  ( β )




   y i xij  j   ni log 1  exp(  j xij )
j  i
i
j



 exp(   j xij ) 
L( β )


j
  yi xia   ni xia 
 a
1  exp(   j xij ) 
i
i


j


0   y i xia   ni ˆ i xia , a = 0,…, k
i
(8)
(9)
i
 k

exp    j X ij 
 j

Dimana  ( x ) 
(10)
i
 k

1  exp    j X ij 
 j

Dari hasil penurunan pertama ini, persamaan Likelihood diestimasi dengan iterasi karena  i
tidak bersifat linear pada β . Sedangkan metode untuk mengestimasi varians dan kovarians dari estimasi
koefisien parameter dikembangkan menurut teori MLE yang menyatakan bahwa estimasi varians dan
kovarians diperoleh dari turunan kedua fungsi Likelihood (Agresti, 1990).
Turunan keduanya adalah :
n
 2 L( β )
   x ia x ib n i i (1   i ) ; a, b = 0, 1,…,k
 a  b
i
1990),
(11)
Sehingga diperoleh matriks kovarians dari estimasi parameter melalui invers matriks (Agresti,

Cov(β)  X T Diag ni  i (1   i )X
1 x11
1 x
21
dimana X  
 

1 x n1

1
(12)
 x1 p 
 x 2 p 
  

 x np 
4
d. Metode Newton Raphson
Fungsi log likelihood untuk model regresi logistik adalah cepat mencapai konvergen dan ada nilai
taksiran untuk parameter. Akan tetapi, fungsi tersebut adalah fungsi yang non-linear untuk
menaksir β dengan menggunakan metode maksimum likelihood, sehingga dibutuhkan penyelesaian
dengan iterasi (Agresti, 1990). Untuk itu digunakan metode iterasi Newton-Raphson, yaitu suatu metode
yang digunakan untuk menyelesaikan persamaan-persamaan non-linear (Wedderburn, 1976; Agresti,
1990). Metode ini memperoleh dugaan maksimum likelihood bagi β dengan iterasi yang menggunakan
rumus (Agresti, 1990).
 m1   m   hab1  g m 
(13)
m = 1, 2,… sampai konvergen
dengan nilai matriks (Agresti, 1990)
 2 L  
   x ia x ib n i   m  ( x i )( 1    m  ( x i ))
 a  b
i
L( β )

   y i  ni  m  ( xi ) xij
 j
h(ab) 
g (m)
,
a  1,2,  , k
b  1,2,  , k
 g1 
 
 g2 
dimana g    adalah matriks gradien dan

 
g 
 k
 h11
h
21
h 
 

hk1
h12
h22

hk 2
 h1k 
 h2 k 
adalah matriks hessian
  

 hkk 
Algoritma :
1. Memasukkan nilai dugaan awal yang diperoleh dari metode kuadrat terkecil (OLS).
 0 
 
 1 
β(0)   

 
 
 k
kemudian memasukkan nilai β(0) pada persamaan (10).
2. Mencari matriks gradien g ( 0 ) dan matriks hessian h(0).
3 Selanjutnya untuk m > 0 menggunakan
 1   0   h01 g 0 
Nilai  1 digunakan untuk mencari  (1) ( x i ) sehingga diperoleh nilai-nilai g(1) dan h(1), kemudian
diperoleh nilai β(2), begitu seterusnya sampai mencapai konvergen. Iterasi untuk memperoleh β(m) terus
dilakukan sampai mencapai konvergen c untuk setiap j, yaitu :
2
 j m 1   j  c  j m    j untuk c>0
Pengujian Signifikansi Parameter
Setelah menaksir parameter maka langkah selanjutnya yang dilakukan adalah menguji
signifikansi parameter tersebut. Untuk itu digunakan uji hipotesis statistik untuk menentukan apakah
variabel prediktor dalam model signifikan atau berpengaruh nyata terhadap variabel respon. Pengujian
signifikansi parameter dilakukan sebagai berikut.
5
a. Uji Parsial
Digunakan untuk menguji pengaruh setiap  i secara individual. Hasil pengujian secara
parsial/individual akan menunjukkan apakah suatu variabel prediktor layak untuk masuk dalam model
atau tidak (Agresti, 1990).
Hipotesis :
H0 :  i = 0
H1 :  i ≠ 0
Statistik Uji : Wald W  
i
SE  i 
(14)
Rasio yang dihasilkan dari statistik uji, dibawah hipotesis H0, akan mengikuti sebaran normal
baku (Hosmer dan Lemeshow, 1989). Sehingga untuk memperoleh keputusan dilakukan perbandingan
dengan distribusi normal baku (Z). Kriteria penolakan (tolak H0) jika nilai W  Z  / 2 .
b. Uji Serentak
Uji serentak disebut juga uji model chi-square, dilakukan sebagai upaya memeriksa peranan
variabel prediktor dalam model secara bersama-sama.
Hipotesis :
H0 :  1   2  ...   k  0
H1 : paling sedikit ada satu  i  0 (i = 1, 2,…, k)
Statistk uji yang digunakan adalah statistik uji G atau Likelihood Ratio Test:
L 
G 2  2 ln  1 
 L0 
;G
2
  n 1  n1  n 0  n 0 

   

n   n 



  2 Ln n

1  y i  
yi
  ˆ i 1  ˆ i 

 i  1

(15)
Atau:
n

G22[yiln(
ˆi)(1yi)ln(
1ˆi)][n1ln(
n1)n0ln(
n0)nln(
n)]
i1

dimana :
n1 = banyaknya observasi yang berkategori 1
n0 = banyaknya observasi yang berkategori 0
n = Banyaknya observasi (n 1 + n 0 )
L1 = Likelihood tanpa variabel prediktor tertentu
L0 = Likelihood dengan variabel prediktor tertentu
Statistik uji G2 mengikuti distribusi chi-square, sehingga untuk memperoleh keputusan dilakukan
perbandingan dengan nilai  2 tabel. Dimana derajat bebas = k ( banyaknya variabel prediktor). Kriteria
2
penolakan (tolak H0) jika nilai G   ( db, ) .
Interpretasi Koefisien Parameter
Proses selanjutnya setelah mendapatkan koefisien parameter yang signifikan adalah melakukan
interpretasi terhadap koefisien parameter tersebut. Interpretasi koefisien parameter diharapkan dapat
menjelaskan tiga hal, yaitu :
1. Menjelaskan hubungan fungsional antara variabel respon dan variabel prediktor.
2. Menentukan unit perubahan setiap variabel independen.
3. Mendapatkan nilai odds rasio yang menunjukkan perbandingan tingkat kecenderungan dari kedua
kategori dalam satu variabel prediktor.
Nilai odds rationya didefinisikan sebagai berikut :
6
 1

 

1   1  11   0 e


 
 0
 01   1
e
1   0
0
1
0
 e 1
(16)
Sedangkan nilai log odds ratio adalah :
  1

  (1) 
  (0) 

1   1 

= ln 
 ln 
ln  ln 



 0
1   (1) 
1   (0) 


1   0
= g (1) – g (0)
Persamaan diatas disebut perbedaan logit.
Nilai odds ratio untuk model regresi logistik :
  e
1
Nilai log odds rationya adalah :
 
ln    ln e 1   1
Nilai Odds Ratio ψ digunakan untuk menunjukkan kecenderungan hubungan suatu variabel X terhadap
variabel Y. Bila nilai ψ = 1, maka antara kedua variabel tersebut tidak terdapat hubungan. Bila nilai ψ < 1,
maka antara kedua variabel terdapat hubungan negatif terhadap perubahan nilai X yang bernilai bernilai
benar dan demikian sebaliknya bila   1 .
Prosedur Klasifikasi
Evaluasi prosedur klasifikasi adalah suatu evaluasi yang melihat peluang kesalahan klasifikasi
yang dilakukan oleh suatu fungsi klasifikasi. Ukuran yang dipakai adalah apparent error rate (APER).
Nilai APER menyatakan nilai proporsi sampel yang salah diklasifikasikan oleh fungsi klasifikasi
(Johnson dan Wichern, 1992). Penentuan kesalahan pengklasifikasian dapat diketahui melalui tabel
klasifikasi sebagai berikut :
Tabel 2.1 Tabel Klasifikasi
Predicted membership
Actual
membership
1
2
1
2
n11
n12
n21
n22
Keterangan :
n11
= Jumlah yi dari  1 tepat diklasifikasikan sebagai  1
n12
n21
= Jumlah yi dari  1 salah diklasifikasikan sebagai  2
= Jumlah yi dari  2 salah diklasifikasikan sebagai  1
= Jumlah yi dari  2 tepat diklasifikasikan sebagai  2
n 12  n 21
APER (dalam %) =
n 11  n 12  n 21  n 22
n22
(17)
7
Kanker Payudara
Kanker payudara adalah momok yang menakutkan bagi setiap wanita. Di Indonesia, kanker
payudara menempati urutan kedua dari jenis kanker yang menyerang wanita. Kanker payudara berasal
dari kelenjar, saluran dan jaringan penunjang payudara, namun tidak termasuk kulit payudara. Sel kanker
payudara yang pertama dapat tumbuh menjadi tumor sebesar 1 cm pada waktu 8-12 tahun. Sel kanker
tersebut diam pada kelenjar payudara. Sel-sel kanker payudara ini dapat menyebar melalui aliran darah ke
seluruh tubuh. Kapan penyebaran itu berlangsung, tidak diketahui pasti. Sel kanker payudara dapat
bersembunyi di dalam tubuh selama bertahun-tahun tanpa diketahui, dan tiba-tiba aktif menjadi tumor
ganas atau kanker.
Pada kanker payudara ada stadium dini (0, 1 dan 2) serta stadium lanjut (3 dan 4). Stadium 0
berarti sel kanker ada pada lapisan kelenjar susu atau saluran susu tetapi belum menyebar ke jaringan
lemak sekitarnya. Pada stadium 1 dan 2, kanker telah menyebar dari kelenjar susu atau saluran susu ke
jaringan terdekat disekitarnya. Pada stadium 2 kadang-kadang kanker telah mulai mengganggu kelenjar
getah bening. Stadium 3 boleh dibilang kanker payudara dalam stadium lanjut lokal, dimana garis tengah
tumor telah lebih dari dua inci dan seringkali telah menyebar ke kelenjar getah bening dekat payudara.
Pada stadium 4 kanker telah bermetastasis, artinya kanker telah menyebar dari payudara dan kelenjar
getah bening di sekitar ketiak, ke bagian lain tubuh seperti tulang, hati, paru dan otak (Anita, 2007).
Gejala kanker payudara
Pada tahap awal kanker payudara, biasanya tidak merasakan sakit atau tidak ada tanda-tandanya
sama sekali. Namun, ketika tumor semakin membesar, gejala-gejala di bawah ini mungkin muncul (Anita,
2007).
1. Benjolan yang tidak hilang atau permanen dan menggumpal, biasanya tidak sakit dan terasa keras bila
disentuh atau penebalan pada kulit payudara atau di sekitar ketiak.
2. Perubahan ukuran dan bentuk payudara.
3. Kerutan pada kulit payudara.
4. Keluar cairan tidak normal dari puting susu yang berupa nanah, darah, cairan encer atau keluar air
susu pada ibu tidak hamil atau tidak sedang menyusui.
5. Pembengkakan atau adanya tarikan pada puting susu.
Faktor-faktor resiko penyebab kanker payudara
Penyebab pasti kanker payudara tidak diketahui. Meskipun demikian, riset yang telah dilakukan
oleh para ahli di bidang kedokteran mengidentifikasi sejumlah faktor yang dapat meningkatkan risiko
pada individu tertentu adalah sebagai berikut (Kardinah, 2007 dan Sutjipto, 2007).
1. Usia
Resiko utama kanker payudara adalah bertambahnya umur. Wanita di atas 30 tahun berisiko terkena
kanker payudara.
2. Mendapatkan haid pertama pada usia muda.
Keadaan ini menyebabkan terjadinya pertukaran hormon dimulai pada usia muda dan menyebabkan
peningkatan pertukaran zat hormon. Perempuan mengalami perubahan hormonal terus-menerus. Saat
itulah ada kemungkinan perubahan sel dalam payudara sehingga terjadi mutasi sel.
3. Usia menikah
Wanita yang berisiko terkena kanker payudara adalah wanita yang menikah pada usia tua.
4. Wanita yang tidak mempunyai anak
Wanita yang tidak pernah melahirkan anak, dapat menyebabkan gangguan keseimbangan hormon.
Saat itulah ada kemungkinan terjadinya perubahan sel dalam payudara.
5. Wanita yang tidak pernah menyusui anak
Wanita yang tidak pernah menyusui anak akan mengakibatkan kelenjar susunya tidak pernah
dirangsang untuk memproduksi susu, sehingga terjadi penumpukan hormon pada payudara.
6. Penggunaan KB
Penggunaan KB hormonal seperti pil atau suntik tidak dianjurkan lebih dari lima tahun dan wanita
yang telah berusia di atas 35 tahun. Hal ini dapat meningkatkan risiko terkena kanker payudara.
7. Riwayat keluarga penderita kanker payudara
8
Riwayat keluarga merupakan komponen yang penting dalam riwayat penderita yang akan
dilaksanakan skrining untuk kanker payudara. Terdapat peningkatan risiko keganasan ini pada
wanita yang keluarganya menderita kanker payudara.
Cara pencegahan kanker payudara
Kanker payudara pada tahap awal tidak menimbulkan gejala apapun, namun bersamaan dengan
berkembangnya penyakit akan timbul gejala yang menyebabkan perubahan pada kanker payudara. Untuk
itu diajurkan untuk melakukan pemeriksaan sebagai berikut (Sutjipto, 2007).
1. Pemeriksaan Payudara Sendiri (SADARI).
Setiap wanita dianjurkan untuk melakukan SADARI secara teratur sebulan sekali setelah selesai haid,
dan bagi yang telah mati haid (menopause) hendaknya dilakukan pada tanggal tertentu yang mudah
diingat dari setiap bulannya.
2. Pemeriksaan payudara oleh tenaga medis (dokter atau bidan).
Dengan pemeriksaan yang seksama sering dapat diduga suatu benjolan di payudara merupakan tumor
jinak atau ganas.
3. Mamografi.
Mamografi adalah pemeriksaan radiologik khusus menggunakan sinar X dosis rendah untuk
mendeteksi kanker payudara sedini mungkin, bahkan sebelum adanya perubahan yang kelihatan pada
payudara ataupun benjolan yang dapat dirasakan. Mamografi dianggap sebagai senjata yang paling
efektif untuk deteksi dini kanker payudara sebab dapat mendeteksi hampir 80 sampai 90 persen dari
semua kasus kanker payudara.
4. Cara lainnya adalah dengan operasi kecil untuk mengambil contoh jaringan (biopsi) dari benjolan itu,
kemudian diperiksa di bawah mikroskop laboratorium patologi anatomi. Bila diketahui dan
dipastikan bahwa benjolan itu adalah kanker, maka payudara harus diangkat seluruhnya untuk
menghindari penyebaran ke bagian tubuh yang lain.
3 Sumber Data
Data yang digunakan dalam penelitian ini berasal dari data sebelumnya (Yuanita, 2008), yaitu
data variabel respon penderita dan bukan penderita kanker payudara yang mempunyai karakteristik
responden adalah wanita yang sudah menikah.
Variabel Penelitian
Variabel yang digunakan dalam penelitian ini adalah sebagai berikut.
1. Variabel respon, terdiri dari dua kategori yaitu :
1. Penderita kanker payudara (diberi kode 1)
2. Bukan penderita kanker payudara (diberi kode 0)
2. Variabel prediktor, terdiri dari 7 variabel yang diduga mempunyai pengaruh terhadap variabel respon
yaitu :
1. Usia (X1)
2. Usia menstruasi pertama (X2)
3. Usia menikah (X3)
4. Mempunyai anak atau tidak (X4), terdiri dari dua kategori sebagai berikut.
a. Tidak mempunyai anak, dengan kode 0
b. Mempunyai anak, dengan kode 1
5. Pernah menyusui atau tidak (X5), terdiri dari dua kategori yaitu.
a. Tidak pernah menyusui, kode 0
b. Pernah menyusui, kode 1
6. Penggunaan KB (X6), terdiri dari dua kategori yaitu.
a. Tidak pernah menggunakan KB, kode 0
b. Pernah menggunakan KB lebih dari 5 tahun, kode 1
7. Riwayat Penderita Keluarga atau RPK (X7), terdiri dari dua kategori sebagai berikut.
a. RPK tidak ada yang terkena kanker, kode 0
b. RPK ada yang terkena kanker, kode 1
9
Langkah-langkah dan Metode Penelitian
Metode penelitian yang digunakan dalam penelitian ini melalui tahap-tahap sebagai berikut.
1. Menentukan model regresi logistik antara variabel respon dengan masing-masing variabel independen
secara individu.
2. Melakukan uji signifikansi parameter untuk setiap model regresi logistik individu untuk mengetahui
variabel-variabel independen mana yang berpengaruh secara signifikan terhadap variabel respon.
3. Menentukan model regresi logistik antara variabel respon dengan variabel-variabel independen yang
signifikan secara serentak.
4. Menghitung tingkat ketepatan pengklasifikasian variabel respon dari model yang telah diperoleh.
5. Menginterpretasikan model regresi logistik.
4
Deskriptif Variabel
Variabilitas responden dapat dilihat dari perbandingan frekuensi responden dengan karakteristik
yang berbeda-beda pada setiap variabel yang bersifat kategorik, Dengan tujuan untuk dapat
menggambarkan besar atau kecilnya variabilitas responden tersebut. Dan juga dilakukan pengujian
deskriptif statistik untuk variabel prediktor kontinyu agar dapat diketahui rata-rata dari setiap variabel.
Tabel 4.1 Deskriptif Statistik
Variabel
N Minimum Maximum Mean
Usia (X1)
100
21
77
49,28
Usia menstruasi
pertama (X2)
100
9
17
13,38
Usia menikah (X3)
100
14
34
21,1
Dilihat dari deskriptif statistik diatas dapat diketahui rata-rata usia seseorang untuk variabel
X1(usia) adalah 49 tahun dengan usia paling kecil 21 tahun dan paling tua 77 tahun, sedangkan untuk
variabel X2 yaitu usia menstruasi pertama yang paling kecil yaitu 9 tahun dan yang paling besar 17 tahun
dengan rata-rata usia menstruasi pertama kali 13 tahun, dan untuk variabel X 3 adalah usia menikah
terkecil yaitu 14 tahun dan yang paling tua usia menikahnya 34 tahun dengan rata-rata pada umumnya
usia menikah 21 tahun.
Tabel 4.2 Tabel Frekuensi Variabel
Variabel
Frekuensi
Persen
X4
tidak mempunyai anak
11
11
mempunyai anak
89
89
X5
tidak menyusui
18
18
menyusui
82
82
X6
tidak pernah KB
41
41
pernah KB
59
59
X7
tidak ada RPK
88
88
ada RPK
12
12
Tabel 4.2 menunjukkan bahwa mayoritas responden mempunyai perbedaan frekuensi yang cukup
besar antar kategori pada variabel. Perbedaan tersebut dimungkinkan terkait dengan kelompok control,
dimana asumsi awal untuk kelompok control adalah independent dengan kelompok case.
10
4.1.1 Tabulasi Silang
Untuk mengetahui bagaimana karakteristik penderita dan bukan penderita maka dilakukan
tabulasi silang antara variabel prediktor dengan variabel respon. Hasil dari tabulasi silang disajikan
pada Tabel
Tabel 4.3 Tabulasi Silang antara Variabel X4 dengan Variabel Respon Y
X4
Variabel
Total
tidak mempunyai
mempunyai
anak
anak
bukan
4
46
50
Y penderita
Penderita
7
43
50
Total
11
89
100
Dari Tabel 4.3 dapat diketahui bahwa sebagian besar penderita kanker payudara adalah wanita yang
sudah mempunyai anak. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita,
sehingga variabel X4 berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita
kanker payudara.
Tabel 4.4 Tabulasi Silang antara Variabel X5 dengan Variabel Respon Y
X5
Variabel
Total
tidak menyusui
menyusui
bukan
8
42
50
Y penderita
Penderita
10
40
50
Total
18
82
100
Untuk Tabel 4.4 diketahui sebagian besar penderita kanker payudara adalah wanita yang sudah
menyusui. Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga
variabel X5 berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker
payudara.
Tabel 4.5 Tabulasi Silang antara Variabel X6 dengan Variabel Respon Y
X6
Variabel
Total
tidak KB
KB
bukan
20
30
50
Y penderita
penderita
21
29
50
Total
41
59
100
Tabel 4.5 jumlah bukan penderita yang tidak KB dan penderita yang menggunakan KB hampir
berimbang, tetapi sebagian besar penderita kanker payudara adalah wanita yang menggunakan KB.
Tampak jelas adanya perbedaan karakteristik antara penderita dan non penderita, sehingga variabel X 6
berpengaruh terhadap berpeluang tinggi atau tidaknya pasien untuk menderita kanker payudara.
Tabel 4.6 Tabulasi Silang antara Variabel X7 dengan Variabel Respon Y
X7
variabel
Total
tidak ada RPK
Ada RPK
bukan
50
0
50
Y penderita
penderita
38
12
50
Total
88
12
100
Sebaliknya, dari Tabel 4.6 dapat diketahui bahwa sebagian besar penderita kanker payudara bukan
terjadi karena wanita yang keluarganya menderita kanker payudara. Tampak jelas adanya perbedaan
karakteristik antara penderita dan non penderita, sehingga variabel X 7 berpengaruh terhadap berpeluang
tinggi atau tidaknya pasien untuk menderita kanker payudara.
4.2 Pola Hubungan antara Faktor-Faktor Risiko Penderita Kanker Payudara
11
Untuk mengetahui pola hubungan antara faktor-faktor risiko penyebab kanker payudara dapat
digunakan analisis regresi logistik. Selain itu, dapat diketahui besarnya pengaruh setiap faktor dalam
menentukan peluang seseorang untuk menderita kanker payudara.
i. Regresi logistik dengan satu variabel prediktor (Univariat)
Pembentukan model regresi logistik dengan satu variabel prediktor atau univariat bertujuan untuk
mengetahui variabel prediktor mana yang berpengaruh secara individu terhadap variabel respon, sebelum
dilakukan pemodelan antara variabel respon dengan variabel-variabel prediktor secara bersama-sama.
Untuk itu, perlu dilakukan pengujian signifikansi parameter seba-gai koefisien dari variabel prediktor
pada masing-masing model univariat.
Hipotesis:
H0 :  j = 0, j = 1,2,...,7
H1 :  j ≠ 0
α = 0,1
Statistik Uji: Wald (W) 
ˆ
j
S Ê ( ˆ j )
Daerah penolakan H0: |Whit| > Z  / 2  Z 0 , 05  1, 64
Tabel 4.7 Pengujian Signifikansi Parameter Model Regresi Logistik Univariat
Odds
Variabel
Wald
Sig.
̂
Ratio
Usia (X1)
0,020
1,636
0,201
1,020
Usia menstruasi
0,755
-0,281
4,425 0,035*
pertama (X2)
Usia menikah (X3)
0,048
0,807
0,369
1,050
Mempunyai anak atau
0,627
0,898
0,343
1,872
tidak (X4)(1)
Pernah menyusui atau
0,272
0,270
0,603
1,312
tidak (X5)(1)
Penggunaan KB
0,083
0,041
0,839
1,086
(X6)(1)
Riwayat Penderita
-21,477 0,000
0,999
0,000
Keluarga (X7)(1)
Keterangan: *) signifikan pada α= 10%
Kesimpulan: Faktor-faktor yang berpengaruh secara individu terhadap risiko tinggi terkena
penyakit kanker payudara adalah X2(usia menstruasi pertama). Hal ini terlihat dari nilai W 2=4,425 lebih
besar dari nilai X2=1,64 sehingga keputusannya tolak H0. Langkah selanjutnya adalah
menginterpretasikan model tersebut. Jika model regresi logistik yang terbaik ditulis dalam bentuk logit,
maka menjadi:
ĝX   3,759 - 0,281X 2
Sedangkan fungsi peluang orang terkena kanker payudara adalah
π̂X  
exp3,759  0,281X 2 
1  exp3,759  0,281X 2 
Nilai odds ratio  0,755 menunjukkan bahwa   1 yang berarti usia menstruasi pertama
memberikan pengaruh yang positif terhadap resiko terkena kanker payudara.
Sehingga untuk pemodelan regresi logistik multivariat dapat dilakukan lagi seperti tabel diatas
tetapi secara bersama-sama, hal ini supaya untuk membandingkan hasil pengujian univariat dan
multivariat.
12
4.2.2 Regresi logistik dengan lebih dari satu variabel prediktor (multivariat)
Meskipun dari pemodelan regresi logistik univariat telah diketahui bahwa variabel X 2(usia
menstruasi pertama) berpengaruh secara signifikan terhadap variabel respon, namun belum diketahui
bagaimana hubungan antara variabel lain. Karena jika ternyata hubungannya sangat erat, maka
dimungkinkan salah satu variabel akan menjadi tidak signifikan lagi pengaruhnya terhadap variabel
respon. Oleh karena itu, perlu dilakukan pemodelan regresi logistik dengan memasukkan semua variabel
secara bersama-sama untuk memeriksa ada atau tidaknya hubungan antara variabel tersebut. Untuk
mengetahui apakah parameter-parameter model telah signifikan atau tidak maka dilakukan langkahlangkah pengujian hipotesis sebagai berikut.
Hipotesis:
H0 : β  0
H1 : β  0
α = 0,1
Statistik Uji:
  n 1  n1  n 0  n 0 
    

 n   n 
2
  130 ,538
G ( Likelihood Ratio Test )   2 Ln  n

1  y i  
yi
  ˆ i 1  ˆ i 

 i 1

Daerah penolakan H0: G2 >   ; k  
2
 20 ,1; 2   4,605
Keputusan: Tolak H0
Kesimpulan: Minimal ada satu variabel prediktor yang pengaruhnya signifikan terhadap variabel respon.
Dan untuk mengetahui variabel prediktor mana yang berpengaruh, maka dilakukan pengujian signifikansi
parameter secara parsial sebagai berikut.
Hipotesis:
H0 :  j = 0, j = 0,1
H1 :  j ≠ 0
α = 0,1
Statistik Uji: Wald (W) 
β̂ j
S Ê ( β̂ j )
Daerah penolakan H0: |Whit| > Z  / 2  Z 0 , 05  1, 64
Tabel 4.8 Pengujian Signifikansi Parameter Model Regresi Logistik Multivariat
Variabel
Usia (X1)
Usia menstruasi pertama
(X2)
Usia menikah (X3)
Mempunyai anak atau
tidak (X4)(1)
Pernah menyusui atau
tidak (X5)(1)
Penggunaan KB (X6)(1)
Riwayat Penderita
Keluarga (X7)(1)
Keterangan: *) signifikan pada α= 10%
̂
Wald
Sig.
Keputusan
0,038
3,403
0,065*
Tolak H0
-0,265
2,779
0,095*
Tolak H0
0,1
2,544
0,111
Terima H0
0,653
0,309
0,578
Terima H0
0,258
0,07
0,791
Terima H0
-0,322
0,355
0,551
Terima H0
-21,438
0
0,998
Terima H0
Kesimpulan: Faktor-faktor yang berpengaruh secara multivariat terhadap risiko tinggi terkena
penyakit kanker payudara adalah X1(usia) yaitu sebesar 0,065 dan X2(usia menstruasi pertama) sebesar
0,095.
13
Tabel 4.9 Pengujian Signifikansi Parameter Secara Parsial
Variabel
Wald
Sig.
Keputusan
̂
X1
0,031
3,256
0,071
Tolak H0
X2
-0,342
5,986
0,014
Tolak H0
Constant
3,061
2,783
0,095
Tolak H0
Dari Tabel 4.9 dapat diketahui bahwa variabel X1 dan X2 yang berpengaruh terhadap variabel
respon. Sehingga dapat diinterpretasikan bahwa faktor-faktor risiko yang berpengaruh secara parsial
terhadap tingginya peluang pasien untuk menderita kanker payudara adalah faktor usia dan usia
menstruasi pertama.
4.2.3
Uji kesesuaian model
Karena ada sejumlah responden yang memiliki karakteristik sama dalam hal usia dan usia
menstruasi, maka perlu dilakukan pengujian untuk mengetahui apakah model regresi logistik yang
didapatkan telah sesuai atau tidak.
H0 : Model sesuai
H1 : Model tidak sesuai
α = 0,1
g
o k  n k ' π k 2 = 12,926
Ĉ Hosmer  Lemeshow   
k 1 n k '  k 1  π k 
Daerah penolakan H0: Ĉ > χ 2 ; g  2   χ 20,1; 2   4,605
Keputusan: Terima H0
Berarti, model regresi logistik multivariat yang telah diper-oleh, yakni
π̂X  
exp3,061  0,031X1  0,342X 2 
1  exp3,061  0,031X1  0,342X 2 
telah sesuai digunakan untuk menjelaskan seberapa besar peluang pasien untuk menderita kanker
payudara berdasarkan variabel prediktor X1 (Usia) dan X2 (Usia menstruasi).
4.2.4
Interpretasi model regresi logistik
Langkah selanjutnya adalah menginterpretasikan model tersebut. Jika model regresi logistik yang
terbaik ditulis dalam bentuk logit, maka menjadi:
ĝX   3,061  0,031X1 - 0,342X 2
Tabel 4.10 Estimasi Titik untuk Odds Rasio
Variabel
Exp( ˆ )
X1
1,031
X2
0,711
Nilai odds ratio pada variabel usia(X1) dan usia menstruasi pertama(X2) pada Tabel 4.9 memiliki
nilai yang jauh berbeda yaitu sebesar 1,031 untuk X 1 dan 0,711 untuk X2. Karena odds ratio variabel X1
tersebut bernilai diatas 1, maka variabel tersebut memberikan pengaruh positif terhadap faktor resiko
penyebab penderita kanker payudara.
Karena variabel prediktor yang digunakan dalam penelitian ini bersifat kontinu maka Hal ini berarti
bahwa semakin besar nilai usia(X1) maka semakin besar kemungkinan seseorang untuk beresiko
menderita kanker payudara.
14
4.2.5
Ketepatan pengklasifikasian responden
Untuk melihat peluang ketepatan klasifikasi dari faktor penderita dan non penderita kanker
payudara maka dapat dilihat sebagai berikut:
Tabel 4.11 Pengklasifikasian Penderita dan Non Penderita Kanker Payudara
Taksiran
Ketepatan
Observasi
klasifikasi
Non penderita Penderita
Non penderita
33
17
66%
Penderita
20
30
60%
Persentase keseluruhan
63%
Dari Tabel 4.10 dapat diketahui bahwa besarnya ketepatan pengklasifikasian penderita dan non
penderita kanker payudara untuk kelompok control adalah 66% dan 60% untuk kelompok case. Masingmasing diperoleh berdasarkan perhitungan sebagai berikut:
33
33
30
30

 0,66  66 % dan

 0,6  60 %
33  17 50
20  30 50
Secara keseluruhan, model regresi logistik yang telah diperoleh dapat mengklasifikasikan
responden dengan benar sebanyak 63 orang diantara 100 total responden atau 63%. Sehingga besarnya
missklasifikasi adalah
17  20
37
66  60 126

 0,37  37% dan

 63 %
33  17  20  30 100
2
2
Kesalahan klasifikasi dari model regresi logistik ini masih cukup besar. Hal tersebut dimungkinkan
karena sedikitnya variabel prediktor yang masuk kedalam model.
5 DAFTAR PUSTAKA
Agresti, Alan, (1990), Categorical Data Analysis, John Wiley and Sons, Inc, New York.
Anita,(2007),KankerPayudara, (http://bima.ipb.ac.id/~anita/kanker_payudara.htm), download tanggal 26
Oktober 2009.
Icha, (2003), Deteksi Dini Kanker Payudara, (http://www.pikiran- rakyat.com/cetak/0203/22/
hikmah/lainnya02.htm), download tanggal 2 November 2009.
Johnson, R. A. Dan Wichern, D. W. (1992), Applied Multivariate Statistical Analysis, Prentice Hall, New
Jersey.
Messwati, E.D., (2005), Kanker Payudara, Paling Ditakuti Kaum Perempuan, (http://kompas.
com/kesehatan/news/0511/18/120708.htm), download tanggal 2 November 2009.
Pane, M., (2007), Aspek Klinis dan Epidemiologis Penyakit Kanker Payudara,
(http://www.tempo.co.id/medika/arsip/082002/pus-3.htm), download tanggal 9 November 2009.
Priambodo,D.A.,(2006), “Klasifikasi Penderita Kanker Payudara Dengan Pendekatan Regresi
Ririn, R., (2007), Deteksi Sangat Dini Kanker Payudara, Jawaban untuk Menghindar,
(http://change.blogsome.com/2007/09/21/deteksi-sangat-dini-kanker-payudara- jawab
an-untuk-menghindar/), download tanggal 9 November 2009.
Sutjipto, (2006),
Permasalahan Deteksi Dini dan Pengobatan Kanker Payudara,
(http://www.dharmais.co.id/new/content.php?page=article&lang=en&id=17),
Download tanggal 9 November 2009.
Yuanita. (2008), “Klasifikasi Penderita Kanker Payudara dengan Pendekatan Metode Multivariate
Adaptive Regression Splines (MARS), Mahasiswa Jurusan
Statistika
FMIPA ITS, Surabaya.
15
Download