Bab II LANDASAN TEORI 2.1 Regresi 2.1.1 Pengertian Komponen-Komponen Persamaan Regresi Persamaan regresi adalah persamaan matematik yang memungkinkan untuk meramalkan nilai-nilai suatu peubah tak bebas dari nilai-nilai satu atau lebih peubah bebas (Walpole, 1995, p.340). Menurut Supranto (2001, p.178), kuat atau tidaknya hubungan variabel independen (X) dan variabel dependen (Y) diukur dengan suatu nilai yang disebut dengan koefisien korelasi, sedangkan besarnya pengaruh X terhadap Y, diukur dengan koefisien regresi. Persamaan regresi juga menggambarkan relasi dari varabel-variabel yang ada didalamnya. Di dalam pemakaiannya, variabel dependen (Y) ternyata juga dipengaruhi oleh faktor lain selain variabel independen (X) yang tidak dimasukkan kedalam persamaan tersebut. Oleh karena persamaan dari regresi perlu untuk mengambarkan bentuk dari data dengan tepat, maka dimasukkanlah error ε ke dalam persamaan regresi tersebut. Menurut Supranto (1995, p.179), karena error itu tidak dapat dihilangkan sama sekali, maka resiko itu akan selalu ada. Resiko hanya bisa diperkecil dengan memperkecil kesalahan (minimized error). 2.1.2 Regresi Linear Dan Non Linear Secara umum, regresi adalah suatu metode untuk meramalkan nilai harapan yang bersyarat. Regresi dikatakan linear apabila hubungan antara variabel independen dan 7 variabel dependennya adalah linear. Hubungan antara variabel independen dan variabel dependen dapat dikatakan linear apabila diagram pencar data dari peubah-peubah tersebut mendekati pola garis lurus. Fungsi linear selain mudah interpretasinya, juga dapat digunakan sebagai hampiran (approximation) atas hubungan yang bukan non-linear. Bentuk dari regresi linear adalah: Y = βo + β1 X1 + β2 X 2 + ....+ ε (2.1) Apabila hubungan antara variabel independent dan variabel dependen tidak linear, maka regresi dikatakan regresi non-linear. Bentuk dari hubungan regresi non-linear adalah: Yi = f ( Xi , γ ) + ε (2.2) dengan γ adalah fungsi respon non-linear dari parameternya. Error pada regresi non-linear diasumsikan untuk mempunyai nilai harapan sebesar nol, ragam yang konstan dan tidak dikorelasikan, sama seperti asumsi error pada model regresi linear (Neter, J., Kutner, M.H., Nachtsheim, C.J.,Wasserman,W., 1996) 2.2 Distribusi Binomial Distribusi binomial menurut Walpole (1995, p.152) adalah suatu percobaan yang terdiri atas ulangan-ulangan, dan masing-masing mempunyai dua kemungkinan hasil yaitu sukses atau gagal. Probabilitas pada distribusi binomial yang sukses ditandai dengan simbol p dan yang gagal ditandai dengan simbol q dimana q=1-p. Probabilitas pada distribusi binomial dihitung sebagai berikut: pr (x) = n! p x qn−x x!(n − x)! (2.3) 8 Nilai tengah dari sebaran binomial adalah : μ = E( X ) = np (2.4) Ragam dari sebaran binomial adalah : σ 2 = E{X − E( X )}2 = E( X − np)2 = npq (2.5) Standar deviasi dari sebaran binomial adalah : σ = npq (2.6) 2.3 R-Language R-language adalah software komputasi statistik dan grafis. R-language adalah salah satu bentuk object-oriented programming yang mempunyai sintaks seperti bahasa C. Rlanguage memperbolehkan computing on the language sehingga memungkinkan untuk menulis suatu ekspresi tertentu dan digunakan sebagai input, yang berguna untuk permodelan statistis dan grafis. Pada penggunaanya ekspresi dari R-language adalah case sensitive sehingga huruf besar dan huruf kecil dianggap berbeda pada R-language. Lingkungan pada R-language dinamakan “GNU S” yang menyediakan keragaman yang luas untuk menghitung dan memodelkan segala yang berhubungan dengan statistik dan grafik. 2.4 Regresi Logistik Regresi logistik adalah salah satu bentuk regresi non-linear yang mempunyai variabel dependen yang diskrit dan mempunyai sebaran binomial, sedangkan variabel independennya dapat terdiri dari variabel yang continu, diskrit, dikotomus, ataupun gabungannya. Estimasi parameter dari regresi logistik itu menggunakan metode maximum likelihood yang akan dijelaskan kemudian. 9 Probabilitas dari tiap nilai variabel dependennya memiliki nilai sendiri-sendiri tiap barisnya. Hal tersebut dapat dilihat seperti pada persamaan (2.7) dengan μ i mempunyai nilai p untuk P(Y=1), dan nilai q=1- μ i untuk P(Y=0). Berikut ini adalah bentuk matrix yang akan dipakai dalam regresi logistik : Y= y1 y2 . . . B= . bo b1 . . . ε= e1 e2 . . . . . . yi p1 p2 Pi = . . . . . . . . . . bn X= ei pi 1 x11 x21 ... xn1 1 x12 x22 ... xn2 . . . . . . . . . . . . . . . . . . . . . . . . 1 x1n x2n ... xni Gambar 2.1: Bentuk pokok dari matrix pada regresi logistik dengan μ i = Pi . 2.4.1 Fungsi Respon Regresi Logistik E{Y} 1 0 X Gambar 2.2: Bentuk fungsi respon regresi logistik. 10 Distribusi logistik merupakan salah satu bentuk distribusi probabilitas non-linear yang kontinu. Kegunaan terpenting dari distribusi ini adalah menghasilkan informasi tentang hubungan antara variabel dependen (Y) dan variabel independennya (X). Bentuk dasar dari fungsi respon regresi logistik (logistic response function) menurut Neter, J., Kutner, M.H., Nachtsheim, C.J.,Wasserman,W.. (1996, p.570) adalah : E {Y } = μ i = exp( β 0 + β 1 x 1 + ....) 1 + exp( β 0 + β 1 x 1 + ....) (2.7) Pada persamaan (2.7), μ i adalah fitted value yang merupakan nilai ekpektasi Y dari persamaan regresi logistik. Menurut Mahadevan, S.. (http://www-edlab.cs.umass.edu/cs689/2005- lectures/week8.pdf, p.9), bentuk probability density function (PDF) dari logistik regresi adalah: (2.8) 2.4.2 Odds Ratio Pada persamaan regresi logistik terdapat yang dinamakan dengan odds ratio. Odds ratio adalah perbandingan dari probabilitas satu kejadian yang terjadi P(Y=1) dibandingkan dengan probabilitas tidak terjadi P(Y=0). Odds ratio disimbolkan sebagai ψ mempunyai bentuk berikut : ψ = μ (1) /[1 − μ (1)] μ (0) /[1 − μ (0)] ⎛ e β o + β 1 ⎞⎛ 1 ⎞ ⎜ ⎟ ⎟ β 0 + β 1 ⎟⎜ ⎜ 1+ e ⎝ 1 + e β0 ⎠ ⎛ μ (1) /[1 − μ (1)] ⎞ ⎝ ⎠ ⎟⎟ = ln(ψ ) = ln ⎜⎜ β ⎞⎛ 1 ⎝ μ ( 0 ) /[1 − μ ( 0 )] ⎠ ⎛⎜ e o ⎞ ⎟⎜ ⎜ 1 + e β o + β1 ⎟⎝ 1 + e β o + β1 ⎟⎠ ⎝ ⎠ (2.9) (2.10) 11 ψ = 2.4.3 odds 2 = exp( b1 ) odds1 (2.11) Estimasi Parameter Dari Regresi Logistik Menurut Supranto (2001, p.22), parameter adalah sembarang nilai yang menjelaskan ciri populasi tersebut. Parameter yang diestimasi harus mempunyai nilai yang mencerminkan data yang diestimasi parameternya, sehingga nilai hasil dari estimasi parameter diharapkan mempunyai nilai error yang kecil. Hubungan setiap parameter mempengaruhi nilai dari variabel dependen Y, Seperti gambar di bawah ini: Gambar 2.3: Hubungan parameter dan variabel dependen Y. Menurut Neter, J., Kutner, M.H., Nachtsheim, C.J.,Wasserman,W.. (1996, p.574), untuk mengestimasi parameter pada regresi logistik menggunakan metode maximum likelihood. Metode maximum likelihood adalah salah satu metode untuk mengestimasi parameter pada suatu persamaan dengan cara memaksimumkan nilai L ( β ) pada persamaan (2.14) atau yang disebut dengan conditional log-likelihood function. Conditional log-likelihood function berasal dari probabilitas persamaan regresi logistik yang akan diestimasinya. 12 Untuk mencari conditional log-likelihood yang maksimum pada metode maximum likelihood dapat menggunakan metode yang dinamakan Newton-Raphson. Langkah selanjutnya setelah didapatkan nilai estimasi parameter yang optimal, nilai tersebut dapat dimasukkan ke dalam persamaan (2.7) untuk mendapatkan fitted value. 2.4.4 Metode Newton-Raphson Metode Newton-Raphson adalah metode untuk menemukan akar dari persamaan dengan asumsi f(x)=0. Metode Newton-Raphson didapatkan dari turunan deret Taylor : f ( x) = f ( x1 ) + ( x − x1 ) f ' ( x1 ) + Menurut Mahadevan, S.. 1 ( x − x1 ) 2 f ' ' ( x1 ) + ... 2! (2.12) (http://www-edlab.cs.umass.edu/cs689/2005- lectures/week8.pdf, p.9), Algortima untuk menemukan nilai maksimum dengan metode Newton-Raphson adalah: x= x 2 = x1 -f’(x1)/f’’(x1) (2.13) Perhitungan pada persamaan diatas (2.13) dilakukan dengan iterasi sampai dengan nilai x 2 sama dengan x1 . Dari PDF pada persamaan (2.8) regresi logistik, maka conditional likelihood dari regresi logistik adalah: l(β | X , Y ) = n ∏ μ ( x i | β ) y (1 − μ ( x i | β )) 1− y i i =1 i (2.14) 13 Untuk memudahkan perhitungan persamaan (2.14), digunakan logaritma, sehingga persamaan menjadi: n L(β ) = ln l(β | X , Y ) = ∏ yi ln μ(xi | β ) + (1 − yi ) ln(1 − μ(xi | β )) (2.15) i=1 Turunan pertama dari persamaan (2.15) adalah: ∂L(β | X , Y ) n = ∑ xi ( y − μ(xi | β )) ∂β i =1 (2.16) Turunan kedua dari persamaan (2.15) adalah: ∂ 2 L(β | X , Y ) ∂ββ T n = −∑ xi (xi )T μ(xi | β )(1 − μ(xi | β )) (2.17) i =1 Untuk mendapatkan conditional log-likelihood yang maksimum pada metode maximum likelihood menurut Newton, E.. (http://ocw.mit.edu/NR/rdonlyres/SloanSchool-of-Management/15-075Applied-StatisticsSpring2003/8C07CE0F-70BB-4C8F9A7B-9AD0AF643D71/0/lec15_logistic_regression.pdf, p.11) dapat menggunakan algoritma yang dinamakan Newton-Raphson Iteratively Reweighted Least Square (IRLS). Cara perhitungan dari (IRLS) adalah sebagai berikut: Dengan μ it = 1 1 + exp( − X i' * β ) X adalah bagian dari matrix X dimana i adalah simbol yang ' i (2.18) mewakilkan tiap-tiap baris dari matrix X tersebut dan μ i adalah fitted value dari regresi logistik. Iterasi berawal dengan pemberian nilai awal pada matrix B yang berbentuk seperti pada gambar (2.1) yang mempunyai nilai yang besarnya nol semua. 14 Bentuk persamaan dari metode Newton-Raphson untuk menentukan maximum likelihood yang berasal dari turunan pertama dan turunan kedua dari conditional loglikelihood untuk mendapatkan nilai estimasi parameter yang optimal adalah: Bt +1 = Bt + ((x' vx)−1 x' ( y − μi ) Pada persamaan (2.19), jika nilai (2.19) Bt +1 tidak sama dengan Bt , maka Bt = Bt +1 dan persamaan akan diulang kembali ke persamaan (2.18) sampai nilai Bt +1 sama dengan nilai Bt . Matrix V adalah matrix dengan besar baris dan kolomnya i*i (besarnya sesuai dengan banyak data) yang nilainya diagonalnya μ i * (1 − μ i ) atau berarti pi*(1-pi). V(i*i) = p1*(1-p1) 0 0 0 .………….. 0 0 p2*(1-p2) 0 0 ……………0 0 0 p3*(1-p3) 0 ……………0 0 0 0 p4*(1-p4) ….0 0 0 0 0 ……………pPi*(1-pi) Gambar 2.4: Matrix V 2.4.5 Deviance Residual Dari Regresi Logistik Deviance residual dari regresi logistik digunakan untuk mengukur goodness-of-fit pada model regresi logistik tersebut. Goodness-of-fit adalah kebaikan fit suatu parameter yang telah diestimasi pada regresi logistik. Menurut Hosmer dan Lemeshow (1989, p.136), pengukuran goodness-of-fit itu memberikan keseluruhan indikasi fit dari model. Sebuah model dapat dikatakan fit dengan baik jika jumlah pengukuran jarak antara Y dan Yˆ kecil. 15 Pada regresi logistik penghitungan goodness-of-fit didapatkan dari deviance residualnya yang mempunyai persamaan: j D = ∑ d (Yj , μj ) 2 (2.20) j =1 dimana d adalah : d (Yj , μj ) = 2 | ln( μˆj ) | (2.21) Menurut Hosmer dan Lemeshow (1989, p.135) Hasil dari persamaan (2.20) itu digunakan untuk: 1. Mengevaluasi kecocokan secara keseluruhan . 2. Mengkaji masing-masing komponen baik itu variabel dependen maupun variabel independen dengan hasil. 3. Mengkaji jarak antara Y asli dengan Yˆ . Untuk menghitung varians dan standar error setiap parameter dari regresi logistik maka harus mengunakan estimasi matrix kovarians. Bentuk matrix kovariansi menurut Hosmer dan Lemeshow (1989, p.219) pada regresi logistik adalah: ∑ ( β ) =I −1 ( β ) = ( X 'VX ) −1 (2.22) 2.5 Metode Bootstrap Bootstrap adalah sebuah metode simulasi berdasarkan data untuk statistik inferensia yang dapat digunakan untuk mempelajari variasi dari data yang diobservasi (Inferensia statistik adalah semua metode yang digunakan dalam penarikan kesimpulan dan generalisasi suatu populasi tertentu). Ide utama dari metode ini bootstrap adalah menggunakan sekumpulan observasi sebagai gambaran empiris dari distribusi yang sesungguhnya. 16 Pada metode bootstrap probabilitas terpilihnya suatu sampel acak jika terdapat satu unit data yang observasi u1 , u 2 , u 3 ,....., u n menurut Efron dan Tibshirani (1998, p.18) adalah sama sama yaitu 1/n. Sampel bootstrap didapatkan dari data observasi yang dipilih dengan pengembalian, sehingga dapat terjadi suatu data dapat muncul lebih dari satu kali. Metode bootstrap dibutuhkan pada keadaan dimana dibutuhkan data yang banyak sedangkan proses untuk mendapatkan data terbatas. Proses dari bootstrapping menurut Efron dan Tibshirani (1998, p.13) digambarkan sebagai berikut: Gambar 2.5: Proses dari bootstrapping. Pada gambar (2.5) data observasi dilambangkan dengan: X = ( x1 , x 2 ,......x n ) n = 1,2,3,...., n Sedangkan data hasil replikasi dari bootstrap dilambangkan dengan X * = ( x1 *, x 2 *,......x n *) n = 1,2,3,...., n Jumlah replikasi bootstrap dilambangkan dengan simbol B. Contoh proses bootstrap pada nilai tengah sesuai dengan gambar (2.5) adalah: 17 1. Ambil secara acak data sebanyak n dengan probabilitas terpilihnya satu unit data adalah sama. 2. Lakukan langkah pertama sampai dengan jumlah replikasi bootstrap yang diinginkan. 3. Hitung nilai tengah bootstrap pada masing-masing kelompok replikasi yang dihasilkan. Jumlah replikasi bootstrap pada regresi, menurut Faraway, J.J..(2002, p.154) jumlah replikasi bootstrap pada regresi dilakukan 1000 kali. Cara melakukan pengambilan sampel pada metode bootstrap ada berbagai macam seperti bootstrap residual, bootstrap mean, dst. Pada regresi logistik, metode bootstrap yang dipakai dinamakan bootstrap probabilitas bersyarat yang akan dijelaskan kemudian. 2.5.1 Bootstrap Probabilitas bersyarat Distribusi probabilitas bersyarat (conditional probability distribution) adalah nilai probabilitas dari suatu nilai variabel dependen (Y) yang nilainya berasal dari akibat variabel independennya (X) terhadap kemungkinan dihasilkannya suatu nilai oleh variabel Y tersebut. Nilai variabel yang bergantung pada kondisi dari variabel lain yang berhubungan dengannya pada regresi logistik adalah nilai dari variabel dependen (Y) yang bergantung dengan nilai dari variabel independen (X) tertentu. Nilai variabel tersebut dinamakan dengan conditional expected values yang biasa dinotasikan dengan simbol E(Y|X). Berdasarkan hal tersebut, maka cara melakukan bootstrap pada probabilitas bersyarat menurut Pardoe dan Weisberg (2001, p.2) dapat dilakukan dengan menghitung kemungkinan yang ada pada μ i (fitted value dari bootstrap) yang merupakan 18 kemungkinan atau probabilitas dari event sukses (p = P(Y*=1|X) =μ (x)) ). Nilai probabilitas tersebut juga adalah conditional expected value dari tiap baris pada regresi logistik yang telah dibootstrap. Semakin besar nilai μ i maka semakin besar kemungkinan variabel Y* bernilai 1 (event sukses) dibandingkan dengan besar kemungkinan Y* bernilai 0 (event gagal). Sedangkan kebalikannya jika semakin kecil nilai μ i maka semakin kecil juga kemungkinan variabel Y* bernilai 1 atau berarti besar kemungkinan nilai Y* bernilai 0 adalah besar. Algoritma dari bootstrap probabilitas bersyarat adalah: 1. Dapatkan nilai μ i dari persamaan regresi logistik biasa yang datanya akan digunakan sebagai data observasi metode bootstrap. 2. Dapatkan nilai acak dari y1 *,......, y n * dari Y sesuai dengan distribusi variabel Y dan (p = P(Y*=1|X) = μ *(x)) ) dimana μ i * adalah fitted value bootsrap dari regresi logistik yang berdistribusi binomial tersebut. 3. Suaikan y1 *,......, y n * yang merupakan hasil dari bootsrap dengan variabel ∧ dependen (X) dari regresi logistik biasa dan bentuklah persamaan θ *(b) yang adalah persamaan regresi logistik dengan metode bootstrap. 4. Lakukan cara 1 sampai 3 sebanyak iterasi bootstrap yang diinginkan. 5. Lakukan perhitungan deviase residual bootstrapnya. 2.5.2 Deviance Residual Bootstrap Seperti yang diketahui deviance residual dari regresi logistik mengukur perbedaan antara Y dengan Yˆ , maka untuk menganalisis perbedaan antara regresi logistik dan 19 regresi logistik dengan metode bootstrap dapat dilakukan dengan menghitung perbedaan deviance residual antara kedua regresi tersebut. Rumus bootstrap untuk mengestimasi deviance residual pada regresi logistik adalah sebagai berikut : ∧ ∧ D B = D * ( • )) – t(D) ∧ dimana D *( • ) = B ∑ (2.23) ∧ D *(b)/B (2.24) b =1 ∧ t(D) adalah deviance residual dari regresi logistik biasa dan D * ( • )) adalah deviance residual rata-rata dari metode bootstrap logistic regression. Persamaan (2.23) tersebut didasarkan pada deviance residual pada regresi logistik. Oleh karena itu hasil deviance residual dari regresi logistik tersebut akan dibandingkan dengan keseluruhan rata-rata deviance residual dari setiap regresi logistik hasil dari bootstrap untuk membandingkan perbedaan deviance residual antara metode bootstrap dengan regresi logistik dan regresi logistik biasa. Perbedaan yang besar pada deviase residual antara metode bootstrap dengan regresi logistik biasa tentunya tidak dikehendaki dan menandakan ketidakakuratan antara bootstrap dengan yang metode regresi logistik biasa. 2.6 Penelitian yang Relevan ¾ Saimin, H.. (2005). Analisis dan Peracangan program aplikasi untuk mengestimasi tingkat loyalitas konsumen terhadap merk Sony Car Audio (studi kasus: Pt Tri Audiophile Center). Universitas bina nusantara. Jakarta. Penelitian tersebut bertujuan menerapkan model regresi logistik untuk melihat bentuk 20 hubungan loyalitas konsumen dengan frekuensi pembelian dan volume pembelian Sony Car Audio oleh pelanggan. ¾ Horton, N.J., dan Laird, N.M.. (2001). Maximum Likelihood Analysis of Logistic Regression. Penelitian tersebut dilakukan dengan mengunakan Regresi Logistik dan metode bootstrap untuk kasus data kesehatan anak-anak. http://www.biostat.harvard.edu/~horton/biometrics.pdf. Akses: Desember 26, 2005 ¾ Bull, S.B., Mak, C. dan Greenwood, C.M.T.. (2002). Modified Score Function Estimator for Multinomial Logistic Regression in Small Samples. Di mana penelitian dilakukan dengan data dari penyakit hepatitis dengan regresi logistik multinom dan bootstrap. http://www.cytel.com/papers/csda-2002.pdf. Akses: Desember 11, 2005 ¾ Pardoe, I. dan Weisberg, S..(2001). An Introduction to Bootstrap Methods using Arc. Di mana penelitian dilakukan dengan membandingkan beberapa metode bootstrap pada regresi yang salah satunya adalah regresi logistik dan salah satu metode bootsrap Penelitian tersebut yang digunakan adalah bootsrap probabilitas bersyarat. dilakukan menggunakan bahasa pemrogram http://www.stat.umn.edu/arc/bootmethREV.pdf. Akses: Januari 10, 2006. Arc.