Bab II LANDASAN TEORI

advertisement
Bab II
LANDASAN TEORI
2.1 Regresi
2.1.1
Pengertian Komponen-Komponen Persamaan Regresi
Persamaan regresi adalah persamaan matematik yang memungkinkan untuk
meramalkan nilai-nilai suatu peubah tak bebas dari nilai-nilai satu atau lebih peubah
bebas (Walpole, 1995, p.340).
Menurut Supranto (2001, p.178), kuat atau tidaknya hubungan variabel independen
(X) dan variabel dependen (Y) diukur dengan suatu nilai yang disebut dengan koefisien
korelasi, sedangkan besarnya pengaruh X terhadap Y, diukur dengan koefisien regresi.
Persamaan regresi juga menggambarkan relasi dari varabel-variabel yang ada
didalamnya.
Di dalam pemakaiannya, variabel dependen (Y) ternyata juga dipengaruhi oleh
faktor lain selain variabel independen (X) yang tidak dimasukkan kedalam persamaan
tersebut. Oleh karena persamaan dari regresi perlu untuk mengambarkan bentuk dari data
dengan tepat, maka dimasukkanlah error
ε ke dalam persamaan regresi tersebut.
Menurut Supranto (1995, p.179), karena error itu tidak dapat dihilangkan sama sekali,
maka resiko itu akan selalu ada. Resiko hanya bisa diperkecil dengan memperkecil
kesalahan (minimized error).
2.1.2
Regresi Linear Dan Non Linear
Secara umum, regresi adalah suatu metode untuk meramalkan nilai harapan yang
bersyarat. Regresi dikatakan linear apabila hubungan antara variabel independen dan
7
variabel dependennya adalah linear. Hubungan antara variabel independen dan variabel
dependen dapat dikatakan linear apabila diagram pencar data dari peubah-peubah tersebut
mendekati pola garis lurus. Fungsi linear selain mudah interpretasinya, juga dapat
digunakan sebagai hampiran (approximation) atas hubungan yang bukan non-linear.
Bentuk dari regresi linear adalah:
Y = βo + β1 X1 + β2 X 2 + ....+ ε
(2.1)
Apabila hubungan antara variabel independent dan variabel dependen tidak linear,
maka regresi dikatakan regresi non-linear. Bentuk dari hubungan regresi non-linear
adalah:
Yi = f ( Xi , γ ) + ε
(2.2)
dengan γ adalah fungsi respon non-linear dari parameternya.
Error pada regresi non-linear diasumsikan untuk mempunyai nilai harapan sebesar
nol, ragam yang konstan dan tidak dikorelasikan, sama seperti asumsi error pada model
regresi linear (Neter, J., Kutner, M.H., Nachtsheim, C.J.,Wasserman,W., 1996)
2.2 Distribusi Binomial
Distribusi binomial menurut Walpole (1995, p.152) adalah suatu percobaan yang
terdiri atas ulangan-ulangan, dan masing-masing mempunyai dua kemungkinan hasil
yaitu sukses atau gagal.
Probabilitas pada distribusi binomial yang sukses ditandai dengan simbol p dan
yang gagal ditandai dengan simbol q dimana q=1-p.
Probabilitas pada distribusi binomial dihitung sebagai berikut:
pr (x) =
n!
p x qn−x
x!(n − x)!
(2.3)
8
Nilai tengah dari sebaran binomial adalah :
μ = E( X ) = np
(2.4)
Ragam dari sebaran binomial adalah :
σ 2 = E{X − E( X )}2 = E( X − np)2 = npq
(2.5)
Standar deviasi dari sebaran binomial adalah :
σ = npq
(2.6)
2.3 R-Language
R-language adalah software komputasi statistik dan grafis. R-language adalah salah
satu bentuk object-oriented programming yang mempunyai sintaks seperti bahasa C. Rlanguage memperbolehkan computing on the language sehingga memungkinkan untuk
menulis suatu ekspresi tertentu dan digunakan sebagai input, yang berguna untuk
permodelan statistis dan grafis.
Pada penggunaanya ekspresi dari R-language adalah case sensitive sehingga huruf
besar dan huruf kecil dianggap berbeda pada R-language. Lingkungan pada R-language
dinamakan “GNU S” yang menyediakan keragaman yang luas untuk menghitung dan
memodelkan segala yang berhubungan dengan statistik dan grafik.
2.4 Regresi Logistik
Regresi logistik adalah salah satu bentuk regresi non-linear yang mempunyai
variabel dependen yang diskrit dan mempunyai sebaran binomial, sedangkan variabel
independennya dapat terdiri dari variabel yang continu, diskrit, dikotomus, ataupun
gabungannya. Estimasi parameter dari regresi logistik itu menggunakan metode
maximum likelihood yang akan dijelaskan kemudian.
9
Probabilitas dari tiap nilai variabel dependennya memiliki nilai sendiri-sendiri tiap
barisnya. Hal tersebut dapat dilihat seperti pada persamaan (2.7) dengan μ i mempunyai
nilai p untuk P(Y=1), dan nilai q=1- μ i untuk P(Y=0).
Berikut ini adalah bentuk matrix yang akan dipakai dalam regresi logistik :
Y=
y1
y2
.
.
.
B=
.
bo
b1
.
.
.
ε=
e1
e2
.
.
.
.
.
.
yi
p1
p2
Pi =
.
.
.
.
.
.
.
.
.
.
bn
X=
ei
pi
1 x11 x21 ... xn1
1 x12 x22 ... xn2
. .
.
.
. .
.
.
.
.
.
.
. .
.
.
. .
.
.
. .
.
.
1 x1n x2n ... xni
Gambar 2.1: Bentuk pokok dari matrix pada regresi logistik dengan μ i = Pi .
2.4.1
Fungsi Respon Regresi Logistik
E{Y}
1
0
X
Gambar 2.2: Bentuk fungsi respon regresi logistik.
10
Distribusi logistik merupakan salah satu bentuk distribusi probabilitas non-linear
yang kontinu. Kegunaan terpenting dari distribusi ini adalah menghasilkan informasi
tentang hubungan antara variabel dependen (Y) dan variabel independennya (X).
Bentuk dasar dari fungsi respon regresi logistik (logistic response function) menurut
Neter, J., Kutner, M.H., Nachtsheim, C.J.,Wasserman,W.. (1996, p.570) adalah :
E {Y } = μ i =
exp( β 0 + β 1 x 1 + ....)
1 + exp( β 0 + β 1 x 1 + ....)
(2.7)
Pada persamaan (2.7), μ i adalah fitted value yang merupakan nilai ekpektasi Y dari
persamaan regresi logistik.
Menurut
Mahadevan,
S..
(http://www-edlab.cs.umass.edu/cs689/2005-
lectures/week8.pdf, p.9), bentuk probability density function (PDF) dari logistik regresi
adalah:
(2.8)
2.4.2
Odds Ratio
Pada persamaan regresi logistik terdapat yang dinamakan dengan odds ratio. Odds
ratio adalah perbandingan dari probabilitas satu kejadian yang terjadi P(Y=1)
dibandingkan dengan probabilitas tidak terjadi P(Y=0).
Odds ratio disimbolkan sebagai ψ mempunyai bentuk berikut :
ψ =
μ (1) /[1 − μ (1)]
μ (0) /[1 − μ (0)]
⎛ e β o + β 1 ⎞⎛ 1 ⎞
⎜
⎟
⎟
β 0 + β 1 ⎟⎜
⎜
1+ e
⎝ 1 + e β0 ⎠
⎛ μ (1) /[1 − μ (1)] ⎞
⎝
⎠
⎟⎟ =
ln(ψ ) = ln ⎜⎜
β
⎞⎛
1
⎝ μ ( 0 ) /[1 − μ ( 0 )] ⎠ ⎛⎜ e o
⎞
⎟⎜
⎜ 1 + e β o + β1 ⎟⎝ 1 + e β o + β1 ⎟⎠
⎝
⎠
(2.9)
(2.10)
11
ψ =
2.4.3
odds 2
= exp( b1 )
odds1
(2.11)
Estimasi Parameter Dari Regresi Logistik
Menurut Supranto (2001, p.22), parameter adalah sembarang nilai yang
menjelaskan ciri populasi tersebut. Parameter yang diestimasi harus mempunyai nilai
yang mencerminkan data yang diestimasi parameternya, sehingga nilai hasil dari
estimasi parameter diharapkan mempunyai nilai error yang kecil.
Hubungan setiap parameter mempengaruhi nilai dari variabel dependen Y, Seperti
gambar di bawah ini:
Gambar 2.3: Hubungan parameter dan variabel dependen Y.
Menurut Neter, J., Kutner, M.H., Nachtsheim, C.J.,Wasserman,W.. (1996, p.574),
untuk mengestimasi parameter pada regresi logistik menggunakan metode maximum
likelihood.
Metode maximum likelihood adalah salah satu metode untuk mengestimasi
parameter pada suatu persamaan dengan cara memaksimumkan nilai L ( β ) pada
persamaan (2.14) atau yang disebut dengan conditional log-likelihood function.
Conditional log-likelihood function berasal dari probabilitas persamaan regresi logistik
yang akan diestimasinya.
12
Untuk mencari conditional log-likelihood yang maksimum pada metode maximum
likelihood dapat menggunakan metode yang dinamakan Newton-Raphson.
Langkah selanjutnya setelah didapatkan nilai estimasi parameter yang optimal, nilai
tersebut dapat dimasukkan ke dalam persamaan (2.7) untuk mendapatkan fitted value.
2.4.4
Metode Newton-Raphson
Metode Newton-Raphson adalah metode untuk menemukan akar dari persamaan
dengan asumsi f(x)=0.
Metode Newton-Raphson didapatkan dari turunan deret Taylor :
f ( x) = f ( x1 ) + ( x − x1 ) f ' ( x1 ) +
Menurut
Mahadevan,
S..
1
( x − x1 ) 2 f ' ' ( x1 ) + ...
2!
(2.12)
(http://www-edlab.cs.umass.edu/cs689/2005-
lectures/week8.pdf, p.9), Algortima untuk menemukan nilai maksimum dengan metode
Newton-Raphson adalah:
x= x 2 = x1 -f’(x1)/f’’(x1)
(2.13)
Perhitungan pada persamaan diatas (2.13) dilakukan dengan iterasi sampai dengan
nilai x 2 sama dengan x1 .
Dari PDF pada persamaan (2.8) regresi logistik, maka conditional likelihood dari
regresi logistik adalah:
l(β | X , Y ) =
n
∏ μ ( x i | β ) y (1 − μ ( x i | β )) 1− y
i
i =1
i
(2.14)
13
Untuk memudahkan perhitungan persamaan (2.14), digunakan logaritma, sehingga
persamaan menjadi:
n
L(β ) = ln l(β | X , Y ) = ∏ yi ln μ(xi | β ) + (1 − yi ) ln(1 − μ(xi | β ))
(2.15)
i=1
Turunan pertama dari persamaan (2.15) adalah:
∂L(β | X , Y ) n
= ∑ xi ( y − μ(xi | β ))
∂β
i =1
(2.16)
Turunan kedua dari persamaan (2.15) adalah:
∂ 2 L(β | X , Y )
∂ββ T
n
= −∑ xi (xi )T μ(xi | β )(1 − μ(xi | β ))
(2.17)
i =1
Untuk mendapatkan conditional log-likelihood yang maksimum pada metode
maximum likelihood menurut Newton, E.. (http://ocw.mit.edu/NR/rdonlyres/SloanSchool-of-Management/15-075Applied-StatisticsSpring2003/8C07CE0F-70BB-4C8F9A7B-9AD0AF643D71/0/lec15_logistic_regression.pdf,
p.11)
dapat
menggunakan
algoritma yang dinamakan Newton-Raphson Iteratively Reweighted Least Square
(IRLS).
Cara perhitungan dari (IRLS) adalah sebagai berikut:
Dengan
μ it =
1
1 + exp( − X i' * β )
X
adalah bagian dari matrix X dimana i adalah simbol yang
'
i
(2.18)
mewakilkan tiap-tiap baris dari matrix X tersebut dan μ i adalah fitted value dari regresi
logistik.
Iterasi berawal dengan pemberian nilai awal pada matrix B yang berbentuk seperti
pada gambar (2.1) yang mempunyai nilai yang besarnya nol semua.
14
Bentuk persamaan dari metode Newton-Raphson untuk menentukan maximum
likelihood yang berasal dari turunan pertama dan turunan kedua dari conditional loglikelihood untuk mendapatkan nilai estimasi parameter yang optimal adalah:
Bt +1 = Bt + ((x' vx)−1 x' ( y − μi )
Pada persamaan (2.19), jika nilai
(2.19)
Bt +1 tidak sama dengan Bt , maka
Bt = Bt +1 dan persamaan akan diulang kembali ke persamaan (2.18) sampai nilai Bt +1
sama dengan nilai Bt . Matrix V adalah matrix dengan besar baris dan kolomnya i*i
(besarnya sesuai dengan banyak data) yang nilainya diagonalnya μ i * (1 − μ i ) atau berarti
pi*(1-pi).
V(i*i) =
p1*(1-p1) 0
0
0 .………….. 0
0
p2*(1-p2) 0
0 ……………0
0
0
p3*(1-p3) 0 ……………0
0
0
0
p4*(1-p4) ….0
0
0
0
0 ……………pPi*(1-pi)
Gambar 2.4: Matrix V
2.4.5 Deviance Residual Dari Regresi Logistik
Deviance residual dari regresi logistik digunakan untuk mengukur goodness-of-fit
pada model regresi logistik tersebut. Goodness-of-fit adalah kebaikan fit suatu parameter
yang telah diestimasi pada regresi logistik. Menurut Hosmer dan Lemeshow (1989,
p.136), pengukuran goodness-of-fit itu memberikan keseluruhan indikasi fit dari model.
Sebuah model dapat dikatakan fit dengan baik jika jumlah pengukuran jarak antara Y dan
Yˆ kecil.
15
Pada regresi logistik penghitungan goodness-of-fit didapatkan dari deviance
residualnya yang mempunyai persamaan:
j
D = ∑ d (Yj , μj ) 2
(2.20)
j =1
dimana d adalah :
d (Yj , μj ) = 2 | ln( μˆj ) |
(2.21)
Menurut Hosmer dan Lemeshow (1989, p.135) Hasil dari persamaan (2.20) itu
digunakan untuk:
1. Mengevaluasi kecocokan secara keseluruhan .
2. Mengkaji masing-masing komponen baik itu variabel dependen maupun variabel
independen dengan hasil.
3. Mengkaji jarak antara Y asli dengan Yˆ .
Untuk menghitung varians dan standar error setiap parameter dari regresi logistik
maka harus mengunakan estimasi matrix kovarians. Bentuk matrix kovariansi menurut
Hosmer dan Lemeshow (1989, p.219) pada regresi logistik adalah:
∑ ( β ) =I −1 ( β ) = ( X 'VX ) −1
(2.22)
2.5 Metode Bootstrap
Bootstrap adalah sebuah metode simulasi berdasarkan data untuk statistik inferensia
yang dapat digunakan untuk mempelajari variasi dari data yang diobservasi (Inferensia
statistik adalah semua metode yang digunakan dalam penarikan kesimpulan dan
generalisasi suatu populasi tertentu). Ide utama dari metode ini bootstrap adalah
menggunakan sekumpulan observasi sebagai gambaran empiris dari distribusi yang
sesungguhnya.
16
Pada metode bootstrap probabilitas terpilihnya suatu sampel acak jika terdapat satu
unit data yang observasi u1 , u 2 , u 3 ,....., u n menurut Efron dan Tibshirani (1998, p.18)
adalah sama sama yaitu 1/n.
Sampel
bootstrap
didapatkan
dari
data
observasi
yang
dipilih
dengan
pengembalian, sehingga dapat terjadi suatu data dapat muncul lebih dari satu kali.
Metode bootstrap dibutuhkan pada keadaan dimana dibutuhkan data yang banyak
sedangkan proses untuk mendapatkan data terbatas.
Proses dari bootstrapping menurut Efron dan Tibshirani (1998, p.13) digambarkan
sebagai berikut:
Gambar 2.5: Proses dari bootstrapping.
Pada gambar (2.5) data observasi dilambangkan dengan:
X = ( x1 , x 2 ,......x n )
n = 1,2,3,...., n
Sedangkan data hasil replikasi dari bootstrap dilambangkan dengan
X * = ( x1 *, x 2 *,......x n *) n = 1,2,3,...., n
Jumlah replikasi bootstrap dilambangkan dengan simbol B.
Contoh proses bootstrap pada nilai tengah sesuai dengan gambar (2.5) adalah:
17
1. Ambil secara acak data sebanyak n dengan probabilitas terpilihnya satu unit data
adalah sama.
2. Lakukan langkah pertama sampai dengan jumlah replikasi bootstrap yang
diinginkan.
3. Hitung nilai tengah bootstrap pada masing-masing kelompok replikasi yang
dihasilkan.
Jumlah replikasi bootstrap pada regresi, menurut Faraway, J.J..(2002, p.154)
jumlah replikasi bootstrap pada regresi
dilakukan 1000 kali. Cara melakukan
pengambilan sampel pada metode bootstrap ada berbagai macam seperti bootstrap
residual, bootstrap mean, dst. Pada regresi logistik, metode bootstrap yang dipakai
dinamakan bootstrap probabilitas bersyarat yang akan dijelaskan kemudian.
2.5.1 Bootstrap Probabilitas bersyarat
Distribusi probabilitas bersyarat (conditional probability distribution) adalah nilai
probabilitas dari suatu nilai variabel dependen (Y) yang nilainya berasal dari akibat
variabel independennya (X) terhadap kemungkinan dihasilkannya suatu nilai oleh
variabel Y tersebut. Nilai variabel yang bergantung pada kondisi dari variabel lain yang
berhubungan dengannya pada regresi logistik adalah nilai dari variabel dependen (Y)
yang bergantung dengan nilai dari variabel independen (X) tertentu. Nilai variabel
tersebut dinamakan dengan conditional expected values yang biasa dinotasikan dengan
simbol E(Y|X).
Berdasarkan hal tersebut, maka cara
melakukan bootstrap pada probabilitas
bersyarat menurut Pardoe dan Weisberg (2001, p.2) dapat dilakukan dengan menghitung
kemungkinan yang ada pada μ i
(fitted
value dari bootstrap) yang merupakan
18
kemungkinan atau probabilitas dari event sukses (p = P(Y*=1|X)
=μ
(x)) ). Nilai
probabilitas tersebut juga adalah conditional expected value dari tiap baris pada regresi
logistik yang telah dibootstrap.
Semakin besar nilai μ i maka semakin besar kemungkinan variabel Y* bernilai 1
(event sukses) dibandingkan dengan besar kemungkinan Y* bernilai 0 (event gagal).
Sedangkan kebalikannya jika semakin kecil nilai μ i maka semakin kecil juga
kemungkinan variabel Y* bernilai 1 atau berarti besar kemungkinan nilai Y* bernilai 0
adalah besar.
Algoritma dari bootstrap probabilitas bersyarat adalah:
1. Dapatkan nilai μ i dari persamaan regresi logistik biasa yang datanya akan
digunakan sebagai data observasi metode bootstrap.
2. Dapatkan nilai acak dari y1 *,......, y n * dari Y sesuai dengan distribusi variabel Y
dan (p = P(Y*=1|X) = μ *(x)) ) dimana μ i * adalah fitted value bootsrap dari regresi
logistik yang berdistribusi binomial tersebut.
3. Suaikan y1 *,......, y n * yang merupakan hasil dari bootsrap dengan variabel
∧
dependen (X) dari regresi logistik biasa dan bentuklah persamaan θ *(b) yang
adalah persamaan regresi logistik dengan metode bootstrap.
4. Lakukan cara 1 sampai 3 sebanyak iterasi bootstrap yang diinginkan.
5. Lakukan perhitungan deviase residual bootstrapnya.
2.5.2 Deviance Residual Bootstrap
Seperti yang diketahui deviance residual dari regresi logistik mengukur perbedaan
antara Y dengan Yˆ , maka untuk menganalisis perbedaan antara regresi logistik dan
19
regresi logistik dengan metode bootstrap dapat dilakukan dengan menghitung perbedaan
deviance residual antara kedua regresi tersebut.
Rumus bootstrap untuk mengestimasi deviance residual pada regresi logistik adalah
sebagai berikut :
∧
∧
D B = D * ( • )) – t(D)
∧
dimana D *( • ) =
B
∑
(2.23)
∧
D *(b)/B
(2.24)
b =1
∧
t(D) adalah deviance residual dari regresi logistik biasa dan D * ( • ))
adalah
deviance residual rata-rata dari metode bootstrap logistic regression.
Persamaan (2.23) tersebut didasarkan pada deviance residual pada regresi logistik.
Oleh karena itu hasil deviance residual dari regresi logistik tersebut akan dibandingkan
dengan keseluruhan rata-rata deviance residual dari setiap regresi logistik hasil dari
bootstrap untuk membandingkan perbedaan deviance residual antara metode bootstrap
dengan regresi logistik dan regresi logistik biasa.
Perbedaan yang besar pada deviase residual antara metode bootstrap dengan regresi
logistik biasa tentunya tidak dikehendaki dan menandakan ketidakakuratan antara
bootstrap dengan yang metode regresi logistik biasa.
2.6 Penelitian yang Relevan
¾ Saimin, H.. (2005). Analisis dan Peracangan program aplikasi untuk
mengestimasi tingkat loyalitas konsumen terhadap merk Sony Car Audio (studi
kasus: Pt Tri Audiophile Center). Universitas bina nusantara. Jakarta. Penelitian
tersebut bertujuan menerapkan model regresi logistik untuk melihat bentuk
20
hubungan loyalitas konsumen dengan frekuensi pembelian dan volume pembelian
Sony Car Audio oleh pelanggan.
¾ Horton, N.J., dan Laird, N.M.. (2001). Maximum Likelihood Analysis of Logistic
Regression. Penelitian tersebut dilakukan dengan mengunakan Regresi Logistik
dan metode bootstrap untuk kasus data kesehatan anak-anak.
http://www.biostat.harvard.edu/~horton/biometrics.pdf. Akses: Desember 26, 2005
¾ Bull, S.B., Mak, C. dan Greenwood, C.M.T.. (2002). Modified Score Function
Estimator for Multinomial Logistic Regression in Small Samples. Di mana
penelitian dilakukan dengan data dari penyakit hepatitis dengan regresi logistik
multinom dan bootstrap. http://www.cytel.com/papers/csda-2002.pdf. Akses:
Desember 11, 2005
¾ Pardoe, I. dan Weisberg, S..(2001). An Introduction to Bootstrap Methods using
Arc. Di mana penelitian dilakukan dengan membandingkan beberapa metode
bootstrap pada regresi yang salah satunya adalah regresi logistik dan salah satu
metode bootsrap
Penelitian
tersebut
yang digunakan adalah bootsrap probabilitas bersyarat.
dilakukan
menggunakan
bahasa
pemrogram
http://www.stat.umn.edu/arc/bootmethREV.pdf. Akses: Januari 10, 2006.
Arc.
Download