Perbandingan model aditif terampat dan regresi

advertisement
II. TINJAUAN PUSTAKA
2.1 Metode Regresi
Analisis regresi merupakan bagian dalam analisis statistika yang
digunakan untuk memodelkan hubungan antara peubah tidak bebas (respon)
dengan satu atau beberapa peubah bebas (prediktor). Secara umum model regresi
mempunyai 3 (tiga) tujuan yaitu: (1) menjelaskan pola hubungan sebab akibat
yang terjadi antara peubah respon dengan peubah bebas; (2) mengetahui
kontribusi relatif setiap peubah bebas untuk menjelaskan peubah respon; (3)
memprediksi nilai peubah respon untuk beberapa nilai peubah bebas tertentu
(Aunuddin 2005).
Hubungan di antara peubah respon dan peubah bebas ini dapat dinyatakan
dalam suatu persamaan matematik yang disebut persamaan regresi yang linear
atau non linear. Jika hubungan peubah respon dengan peubah bebas bersifat linear
dan asumsi-asumsinya dipenuhi, maka model regresi linear adalah model terbaik
yang dapat memberikan deskripsi sederhana tentang data dan memperlihatkan
kontribusi setiap peubah bebas dengan satu parameter. Salah satu model regresi
linear yang sering digunakan adalah:
E(y|x1, x2, …, xp) = β0 + β1x1 + … + βpxp
Metode yang paling sering digunakan dalam pendugaan parameter model
adalah metode kuadrat terkecil (MKT), karena relatif mudah dan sederhana dalam
perhitungannya.
2.2 Model Aditif Terampat (Generalized additive models, GAM)
GAM pertama kali dikembangkan oleh Hastie dan Tibshirani pada tahun
1986 (Hastie & Tibshirani 1990). GAM merupakan perluasan dari model aditif
dengan memodelkan y sebagai kombinasi aditif fungsi univariat dari peubah
bebas. Metode ini dapat secara langsung mengakomodasi dengan baik adanya
pengaruh nonlinear peubah bebas tanpa harus mengetahui bentuk pengaruh
tersebut secara eksplisit (Beck & Jackman 1997).
Peubah respon y dalam GAM diasumsikan mempunyai fungsi kepekatan
peluang dari keluarga eksponensial, yaitu:
6
di mana θ disebut parameter alami dan
adalah parameter dispersi. E(y|x1, x2, …,
xp) = µ dihubungkan ke peubah prediktor dengan fungsi penghubung η, di mana:
p
η = α + ∑ f j ( xij ) + ε; i = 1, 2, …, n
(1)
j =1
di mana fj adalah bentuk hubungan fungsional antara peubah respon dengan
peubah bebas x, sedangkan ε bebas stokastik terhadap peubah bebas x, dan
memenuhi E(ε) = 0, cov (ε) = σ2I. Sedangkan metode pendugaan yang terkenal
dalam proses pendugaan f1, f2, …, fp dari model regresi pada persamaan (1) adalah
algoritma backfitting.
Hastie & Tibshirani (1986) memulai algoritma backfitting dengan
p
memisalkan model η = α + ∑ f j ( xij ) + ε adalah benar dan mengasumsikan
j =1
bahwa
f1, …, fj-1,
fj+1, …, fp diketahui. Selanjutnya suatu galat parsial
didefinisikan sebagai berikut:
R j = y − α − ∑ f k ( xk )
k≠ j
p
dengan menetapkan E(Rj|xj) = fj(xj) dan meminimumkan E ( y − α − ∑ f k ( x k )) 2
k =1
maka penduga fj akan diperoleh secara iteratif jika diberikan penduga fi untuk i≠j.
2.2.1 Pemulusan (Smoothing)
Teknik pemulusan pertama kali dikemukakan oleh Ezekiel pada tahun
1941. Pemulusan pada dasarnya merupakan suatu proses yang secara sistematik
dapat menghilangkan pola data yang kasar (berfluktuasi) dan selanjutnya dapat
mengambil pola data yang dijelaskan secara umum (Montgomery, Johnson &
Gardiner 1990). Teknik pemulusan nonparametrik digunakan untuk memodelkan
hubungan antar peubah tanpa penetapan bentuk khusus tentang fungsi regresinya.
Jika diberikan beberapa fungsi f(x) yang kontinu pada turunan ke-m dan
terdapat satu fungsi dari beberapa fungsi tersebut yang meminimumkan PRSS
(penalized residual sum of squares) yang diformulasikan sebagai berikut:
7
n
∑{ y
i =1
b
i
− f ( xi )}2 + λ ∫ { f m (t )}2 dt
a
(2)
di mana λ adalah konstanta dan a ≤ x1 ≤ … ≤ xn ≤ b. Maka fungsi tersebut
dinamakan fungsi pemulus spline (Hastie & Tibshirani 1990).
Perimbangan antara fleksibilitas dan kemulusan dugaan kurva dikontrol
oleh nilai parameter pemulus atau jumlah knot. Parameter pemulus yang relatif
besar atau jumlah knot yang relatif kecil akan menghasilkan dugaan kurva yang
sangat mulus sehingga perilaku data yang rinci tidak terlihat, sedangkan parameter
pemulus yang relatif kecil atau jumlah knot yang relatif besar menghasilkan
dugaan kurva yang kasar karena besarnya pengaruh variasi lokal. Pemulus spline
mempunyai sifat fleksibel dan efektif dalam menangani sifat lokal suatu fungsi
atau data (Aunuddin 2003, diacu dalam Aziz 2005).
2.3 Regresi Spline Adaptif Berganda (Multivariate Adaptive Regression
Splines, MARS)
Metode regresi spline merupakan salah satu metode yang digunakan untuk
menangani pola data yang mengikuti siklus nonlinear serta bentuk kurvanya tidak
diketahui. Regresi spline terdiri atas beberapa penggal polinom berorde tertentu
yang saling bersambung pada titik-titik ikat. Nilai absis dari titik ikat ini disebut
knot. Regresi spline bersifat fleksibel sehingga model yang didapat akan
cenderung sedekat mungkin menggambarkan kondisi sebenarnya (Kurnia &
Handayani 1998).
Spline kubik merupakan fungsi spline yang sering digunakan karena
polinom yang digunakan berordo relatif rendah (polinom berderajat tiga) dan
menghasilkan pemulusan yang cukup baik. Kekontinuan sampai turunan kedua
polinom-polinom yang digunakan menjamin kemulusan fungsi (Hasti &
Tibshirani 1990). Spline kubik diformulasikan sebagai berikut:
k
s ( x) = β 0 + β1 x + β 2 x 2 + β 3 x 3 + ∑ θ j ( x − ξ j ) 3+
j =1
di mana: a+ = bagian positif dari a
ξ j = knot ke-j untuk j = 1, 2, …, k
(3)
8
Model pada persamaan (3) merupakan suatu kombinasi linier dari k+4
fungsi basis yang dikenal sebagai deret berpangkat terbatas (the truncated power
series basis), dalam hal ini berpangkat tiga. Fungsi-fungsi basis tersebut adalah 1,
x1, x2, x3, {( x − ξ j ) 3+ }1k .
2.3.1 Recursive Partitioning
MARS
adalah
salah
satu
metode
regresi
nonparametrik
yang
dikembangkan oleh Jerome H. Friedman (1990). Bentuk model MARS
merupakan perluasan hasil kali fungsi-fungsi basis spline, di mana jumlah fungsi
basis beserta parameter-parameternya ditentukan secara otomatis oleh data dengan
menggunakan algoritma recursive partitioning yang dimodifikasi. Dalam MARS,
fungsi basis adalah satu set fungsi yang menggambarkan informasi yang terdiri
dari satu atau lebih peubah. Seperti komponen utama, fungsi basis
menggambarkan hal-hal yang memberikan kontribusi paling besar dalam
hubungan peubah bebas dan peubah respon. Nilai fungsi basis dalam MARS dapat
digambarkan sebagai berikut:
max (0, x-t) atau max (0, t-x)
dengan t adalah nilai yang menggambarkan letak titik knot dan x adalah peubah
bebas.
Recursive partitioning (RP) adalah salah satu metode pemodelan regresi
yang biasa digunakan untuk data berdimensi tinggi karena penentuan knot
tergantung (otomatis) dari data. Namun demikian, metode RP masih memiliki
beberapa kelemahan, diantaranya yaitu model RP menghasilkan himpunan bagian
yang saling lepas dan diskontinu pada batas himpunan bagian, serta model RP
tidak cukup mampu dalam menduga fungsi linear atau aditif. Metode MARS
mampu mengatasi semua kelemahan yang dimiliki metode RP dengan
menggunakan algoritma RP yang dimodifikasi, sehingga selain penentuan knot
yang dilakukan secara otomatis dari data, juga menghasilkan model yang kontinu
pada knot dengan turunan yang kontinu.
Jika H[η] merupakan suatu fungsi tangga (step function) yang berbentuk:
1, untuk η ≥ 0
H[η] =
0, untuk lainnya
9
Maka fungsi basis yang dihasilkan pada langkah maju prosedur RP dapat
dinyatakan sebagai berikut:
Km
Bm(x) =
∏ H [s
km.
(xv(k,m) – tkm)]
(4)
k =1
di mana:
H[.]
= fungsi tangga
Km
= jumlah pilahan himpunan bagian ke-m untuk menghasilkan Bm
(derajat interaksi)
xv(k,m)
= peubah prediktor ke-v, pilahan ke-k dan himpunan bagian ke-m
tkm
= knot dari peubah xv(k,m)
skm
= nilainya 1 atau -1 jika knotnya terletak di sebelah kanan atau
kiri himpunan bagian
2.3.2 Modifikasi Friedman
MARS merupakan hasil modifikasi Friedman terhadap algoritma RP untuk
mengatasi kekurangan-kekurangan yang dimiliki metode RP. Beberapa inovasi
dilakukan oleh Friedman (1990) untuk mengatasi kelemahan metode RP
diantaranya yaitu:
a) Mengganti fungsi tangga H[±(x-t)] dengan suatu fungsi splines pangkat
terbatas [±( x − t )]q+ . di mana q = 1 untuk mengatasi diskontinu pada titik knot.
b) Membatasi perkalian pada masing-masing fungsi basis hanya melibatkan
peubah-pubah prediktor yang berbeda. Hal ini dilakukan untuk mengatasi
ketergantungan pada peubah secara individu dengan pangkat yang lebih tinggi
dari q.
Metode MARS menentukan lokasi dan jumlah knot berdasarkan pemilihan
peubah pada langkah maju (forward) dan langkah mundur (backward) algoritma
RP yang dimodifikasi, di mana lokasi dan jumlah knot yang optimum disesuaikan
dengan perilaku data.
1) Langkah maju
Dalam pembentukan model, terlebih dahulu ditentukan fungsi basis
maksimum. Pada tahap ini, digunakan kriteria pemilihan fungsi basis yaitu
10
dengan meminimumkan average sum of square residual (ASR), untuk
mendapatkan jumlah fungsi basis maksimum.
2) Langkah mundur
Setelah mendapatkan jumlah fungsi basis maksimum, proses dilanjutkan ke
tahap kedua atau langkah mundur yaitu tahap untuk menentukan ukuran
fungsi basis yang layak. Pada tahap ini, dilakukan penghapusan fungsi basis
yang kontribusinya terhadap nilai dugaan respon kecil sampai diperoleh
perimbangan antara bias dan ragam serta model yang layak, yaitu dengan
meminimumkan
nilai
generalized
cross
validation
(GCV)
yang
diformulasikan pada persamaan (5). Semakin kecil GCV (semakin besar nilai
GCV-1) dari suatu peubah, semakin penting peubah tersebut terhadap model
yang dibangun.
GCV ( M ) =
N
(1 / N )∑i =1 [ y i − fˆM ( x i )] 2
[1 − (C ( M )) / N ] 2
(5)
di mana pembilang pada persamaan (5) adalah rataan jumlah kuadrat galat, N
adalah jumlah pengamatan dan M menunjukkan jumlah himpunan bagian atau
jumlah fungsi basis (nonkonstan) pada model MARS. Penyebutnya merupakan
penalti fungsi model kompleks. Kriteria GCV adalah rataan jumlah kuadrat galat
hasil pengepasan data (sebagai pembilang) dikali suatu penalti (merupakan
kebalikan penyebut) yang menyebabkan kenaikan ragam sehubungan dengan
meningkatnya kompleksitas model (jumlah fungsi basis M).
Dengan modifikasi Friedman fungsi basis pada persamaan (4) dapat
dinyatakan sebagai berikut:
Km
Bm ( x) = ∏ [ s km. ( x v ( k , m ) − t km )] +
(6)
k =1
Hasil modifikasi algoritma recursive partitioning adalah model MARS
yang dinyatakan sebagai berikut:
fˆ (x) = a0 +
M
∑ am
m =1
Km
∏[s
k =1
km.
(xv(k,m) – tkm)]
(7)
di mana a0 adalah basis fungsi induk, am adalah koefisien dari basis fungsi ke-m
dan M merupakan maksimum basis fungsi (nonconstant basis fungsi). Koefisien
11
{a m }mM=1 ditentukan dengan menggunakan metode kuadrat terkecil (Friedman
1990). Persamaan (7) dapat ditulis dalam bentuk lain sebagai berikut:
yˆ = B0 + B1 * BF1 + B2 * BF2 + ... + Bk * BFk
di mana:
y
= peubah respon
B0
= konstanta
B1, B2, …, Bk
= koefisien fungsi basis spline ke 1, 2, …, k
BF1, BF2, …, BFk
= fungsi basis ke 1, 2, …, k
2.4 Pendeteksian Pencilan dan Pengamatan Berpengaruh
Pencilan merupakan elemen data yang tidak sesuai, sangat menyalahi atau
tidak wajar, dibandingkan dengan mayoritas data (Martens dan Naes 1989).
Pencilan dapat disebabkan oleh kesalahan dalam data, suatu komposisi atau status
fisik yang ganjil dari objek yang dianalisis. Kesalahan dalam data dapat berupa
gangguan, penyimpangan instrumen, kesalahan operator ataupun kesalahan
pencetakan.
Pendeteksian pengamatan berpengaruh terhadap nilai-nilai X dapat
digunakan matriks H (hat matrix) yang didefinisikan sebagai:
H = X(X’X)-1 X’
Unsur ke-i pada diagonal utama matriks H yaitu hii, biasanya dinamakan pengaruh
(leverage) kasus ke-i merupakan ukuran jarak antara nilai X untuk pengamatan
ke-i dan rataan X untuk semua pengamatan, yang diperoleh dari:
di mana
dan
adalah vektor baris ke-i dari matriks X. Nilai hii berkisar antara 0 dan 1
, dengan p adalah banyaknya koefisien regresi di dalam fungsi
termasuk konstanta (Neter et al. 1990). Leverage ke-i yang besar menunjukkan
bahwa pengamatan ke-i berada jauh dari pusat semua pengamatan X. Leverage
ke-i dianggap besar atau dinyatakan sebagai pengamatan pencilan dan
berpengaruh jika nilainya lebih dari dua kali rataan semua leverage (2p/n). Nilai
hii yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh
(Aunuddin 1989).
12
Pendeteksian pencilan juga dapat dilakukan dengan menggunakan nilai Rstudent (externally studentized residual) yang didefinisikan sebagai:
di mana:
yi
= nilai peubah tak bebas pada pengamatan ke-i
= nilai pendugaan yi pada pengamatan ke-i
s(-i)
= dugaan simpangan baku tanpa pengamatan ke-i
hii
= unsur ke-i dari diagonal matriks H
R-student menyebar mengikuti sebaran t-student dengan derajat bebas (n-p-1).
Suatu pengamatan dikatakan pencilan jika |t| > t(n-p-1;α/2) (Myers 1990).
Pendeteksian pengamatan berpengaruh ditentukan berdasarkan nilai
DFFITS dan Cook’s D. DFFITSi merupakan suatu ukuran pengaruh yang
ditimbulkan oleh pengamatan ke-i terhadap nilai dugaan
apabila pengamatan
ke-i dihapus. Nilai DFFITSi diperoleh dari rumus berikut:
adalah nilai dugaan yi tanpa pengamatan ke-i. Suatu pengamatan
dengan
dikatakan berpengaruh apabila nilai |DFFITS|i >
.
Cook’s D merupakan suatu ukuran pengaruh pengamatan ke-i terhadap
semua koefisien regresi dugaan. Pada Cook’s D, pengaruh pengamatan ke-i diukur
oleh jarak Di. Jarak tersebut diperoleh dari rumus berikut:
di mana:
b-i = vektor koefisien regresi dugaan tanpa pengamatan ke-i
b = vektor koefisien regresi dugaan termasuk pengamatan ke-i
e = nilai sisaan pada pengamatan ke-i
Suatu
pengamatan
merupakan
pengamatan
berpengaruh
mempunyai nilai Di > F(p;n-p; α) dengan taraf nyata α (Myers 1990).
2.5 Kriteria Kebaikan Model dan Validasi Model
apabila
13
Pemilihan model terbaik dapat dilakukan dengan memperhatikan beberapa
kriteria kebaikan model pada data penyusun model dan data validasi.
a) Kriteria kebaikan model pada data penyusun model menggunakan R2 dan R2
terkoreksi.
b) Kriteria kebaikan model pada data validasi digunakan RMSEP (root mean
square error of prediction) yang diformulasikan sebagai berikut:
n
RMSEP =
∑(y
i =1
i
− yˆ i ) 2
n
di mana: n = banyaknya data validasi
ŷi = dugaan untuk data validasi yi
Semakin besar R2 atau R2 terkoreksi maka model semakin baik.
Sedangkan jika GCV dan RMSEP semakin kecil maka model yang diperoleh
semakin baik.
Download