II. TINJAUAN PUSTAKA 2.1 Metode Regresi Analisis regresi merupakan bagian dalam analisis statistika yang digunakan untuk memodelkan hubungan antara peubah tidak bebas (respon) dengan satu atau beberapa peubah bebas (prediktor). Secara umum model regresi mempunyai 3 (tiga) tujuan yaitu: (1) menjelaskan pola hubungan sebab akibat yang terjadi antara peubah respon dengan peubah bebas; (2) mengetahui kontribusi relatif setiap peubah bebas untuk menjelaskan peubah respon; (3) memprediksi nilai peubah respon untuk beberapa nilai peubah bebas tertentu (Aunuddin 2005). Hubungan di antara peubah respon dan peubah bebas ini dapat dinyatakan dalam suatu persamaan matematik yang disebut persamaan regresi yang linear atau non linear. Jika hubungan peubah respon dengan peubah bebas bersifat linear dan asumsi-asumsinya dipenuhi, maka model regresi linear adalah model terbaik yang dapat memberikan deskripsi sederhana tentang data dan memperlihatkan kontribusi setiap peubah bebas dengan satu parameter. Salah satu model regresi linear yang sering digunakan adalah: E(y|x1, x2, …, xp) = β0 + β1x1 + … + βpxp Metode yang paling sering digunakan dalam pendugaan parameter model adalah metode kuadrat terkecil (MKT), karena relatif mudah dan sederhana dalam perhitungannya. 2.2 Model Aditif Terampat (Generalized additive models, GAM) GAM pertama kali dikembangkan oleh Hastie dan Tibshirani pada tahun 1986 (Hastie & Tibshirani 1990). GAM merupakan perluasan dari model aditif dengan memodelkan y sebagai kombinasi aditif fungsi univariat dari peubah bebas. Metode ini dapat secara langsung mengakomodasi dengan baik adanya pengaruh nonlinear peubah bebas tanpa harus mengetahui bentuk pengaruh tersebut secara eksplisit (Beck & Jackman 1997). Peubah respon y dalam GAM diasumsikan mempunyai fungsi kepekatan peluang dari keluarga eksponensial, yaitu: 6 di mana θ disebut parameter alami dan adalah parameter dispersi. E(y|x1, x2, …, xp) = µ dihubungkan ke peubah prediktor dengan fungsi penghubung η, di mana: p η = α + ∑ f j ( xij ) + ε; i = 1, 2, …, n (1) j =1 di mana fj adalah bentuk hubungan fungsional antara peubah respon dengan peubah bebas x, sedangkan ε bebas stokastik terhadap peubah bebas x, dan memenuhi E(ε) = 0, cov (ε) = σ2I. Sedangkan metode pendugaan yang terkenal dalam proses pendugaan f1, f2, …, fp dari model regresi pada persamaan (1) adalah algoritma backfitting. Hastie & Tibshirani (1986) memulai algoritma backfitting dengan p memisalkan model η = α + ∑ f j ( xij ) + ε adalah benar dan mengasumsikan j =1 bahwa f1, …, fj-1, fj+1, …, fp diketahui. Selanjutnya suatu galat parsial didefinisikan sebagai berikut: R j = y − α − ∑ f k ( xk ) k≠ j p dengan menetapkan E(Rj|xj) = fj(xj) dan meminimumkan E ( y − α − ∑ f k ( x k )) 2 k =1 maka penduga fj akan diperoleh secara iteratif jika diberikan penduga fi untuk i≠j. 2.2.1 Pemulusan (Smoothing) Teknik pemulusan pertama kali dikemukakan oleh Ezekiel pada tahun 1941. Pemulusan pada dasarnya merupakan suatu proses yang secara sistematik dapat menghilangkan pola data yang kasar (berfluktuasi) dan selanjutnya dapat mengambil pola data yang dijelaskan secara umum (Montgomery, Johnson & Gardiner 1990). Teknik pemulusan nonparametrik digunakan untuk memodelkan hubungan antar peubah tanpa penetapan bentuk khusus tentang fungsi regresinya. Jika diberikan beberapa fungsi f(x) yang kontinu pada turunan ke-m dan terdapat satu fungsi dari beberapa fungsi tersebut yang meminimumkan PRSS (penalized residual sum of squares) yang diformulasikan sebagai berikut: 7 n ∑{ y i =1 b i − f ( xi )}2 + λ ∫ { f m (t )}2 dt a (2) di mana λ adalah konstanta dan a ≤ x1 ≤ … ≤ xn ≤ b. Maka fungsi tersebut dinamakan fungsi pemulus spline (Hastie & Tibshirani 1990). Perimbangan antara fleksibilitas dan kemulusan dugaan kurva dikontrol oleh nilai parameter pemulus atau jumlah knot. Parameter pemulus yang relatif besar atau jumlah knot yang relatif kecil akan menghasilkan dugaan kurva yang sangat mulus sehingga perilaku data yang rinci tidak terlihat, sedangkan parameter pemulus yang relatif kecil atau jumlah knot yang relatif besar menghasilkan dugaan kurva yang kasar karena besarnya pengaruh variasi lokal. Pemulus spline mempunyai sifat fleksibel dan efektif dalam menangani sifat lokal suatu fungsi atau data (Aunuddin 2003, diacu dalam Aziz 2005). 2.3 Regresi Spline Adaptif Berganda (Multivariate Adaptive Regression Splines, MARS) Metode regresi spline merupakan salah satu metode yang digunakan untuk menangani pola data yang mengikuti siklus nonlinear serta bentuk kurvanya tidak diketahui. Regresi spline terdiri atas beberapa penggal polinom berorde tertentu yang saling bersambung pada titik-titik ikat. Nilai absis dari titik ikat ini disebut knot. Regresi spline bersifat fleksibel sehingga model yang didapat akan cenderung sedekat mungkin menggambarkan kondisi sebenarnya (Kurnia & Handayani 1998). Spline kubik merupakan fungsi spline yang sering digunakan karena polinom yang digunakan berordo relatif rendah (polinom berderajat tiga) dan menghasilkan pemulusan yang cukup baik. Kekontinuan sampai turunan kedua polinom-polinom yang digunakan menjamin kemulusan fungsi (Hasti & Tibshirani 1990). Spline kubik diformulasikan sebagai berikut: k s ( x) = β 0 + β1 x + β 2 x 2 + β 3 x 3 + ∑ θ j ( x − ξ j ) 3+ j =1 di mana: a+ = bagian positif dari a ξ j = knot ke-j untuk j = 1, 2, …, k (3) 8 Model pada persamaan (3) merupakan suatu kombinasi linier dari k+4 fungsi basis yang dikenal sebagai deret berpangkat terbatas (the truncated power series basis), dalam hal ini berpangkat tiga. Fungsi-fungsi basis tersebut adalah 1, x1, x2, x3, {( x − ξ j ) 3+ }1k . 2.3.1 Recursive Partitioning MARS adalah salah satu metode regresi nonparametrik yang dikembangkan oleh Jerome H. Friedman (1990). Bentuk model MARS merupakan perluasan hasil kali fungsi-fungsi basis spline, di mana jumlah fungsi basis beserta parameter-parameternya ditentukan secara otomatis oleh data dengan menggunakan algoritma recursive partitioning yang dimodifikasi. Dalam MARS, fungsi basis adalah satu set fungsi yang menggambarkan informasi yang terdiri dari satu atau lebih peubah. Seperti komponen utama, fungsi basis menggambarkan hal-hal yang memberikan kontribusi paling besar dalam hubungan peubah bebas dan peubah respon. Nilai fungsi basis dalam MARS dapat digambarkan sebagai berikut: max (0, x-t) atau max (0, t-x) dengan t adalah nilai yang menggambarkan letak titik knot dan x adalah peubah bebas. Recursive partitioning (RP) adalah salah satu metode pemodelan regresi yang biasa digunakan untuk data berdimensi tinggi karena penentuan knot tergantung (otomatis) dari data. Namun demikian, metode RP masih memiliki beberapa kelemahan, diantaranya yaitu model RP menghasilkan himpunan bagian yang saling lepas dan diskontinu pada batas himpunan bagian, serta model RP tidak cukup mampu dalam menduga fungsi linear atau aditif. Metode MARS mampu mengatasi semua kelemahan yang dimiliki metode RP dengan menggunakan algoritma RP yang dimodifikasi, sehingga selain penentuan knot yang dilakukan secara otomatis dari data, juga menghasilkan model yang kontinu pada knot dengan turunan yang kontinu. Jika H[η] merupakan suatu fungsi tangga (step function) yang berbentuk: 1, untuk η ≥ 0 H[η] = 0, untuk lainnya 9 Maka fungsi basis yang dihasilkan pada langkah maju prosedur RP dapat dinyatakan sebagai berikut: Km Bm(x) = ∏ H [s km. (xv(k,m) – tkm)] (4) k =1 di mana: H[.] = fungsi tangga Km = jumlah pilahan himpunan bagian ke-m untuk menghasilkan Bm (derajat interaksi) xv(k,m) = peubah prediktor ke-v, pilahan ke-k dan himpunan bagian ke-m tkm = knot dari peubah xv(k,m) skm = nilainya 1 atau -1 jika knotnya terletak di sebelah kanan atau kiri himpunan bagian 2.3.2 Modifikasi Friedman MARS merupakan hasil modifikasi Friedman terhadap algoritma RP untuk mengatasi kekurangan-kekurangan yang dimiliki metode RP. Beberapa inovasi dilakukan oleh Friedman (1990) untuk mengatasi kelemahan metode RP diantaranya yaitu: a) Mengganti fungsi tangga H[±(x-t)] dengan suatu fungsi splines pangkat terbatas [±( x − t )]q+ . di mana q = 1 untuk mengatasi diskontinu pada titik knot. b) Membatasi perkalian pada masing-masing fungsi basis hanya melibatkan peubah-pubah prediktor yang berbeda. Hal ini dilakukan untuk mengatasi ketergantungan pada peubah secara individu dengan pangkat yang lebih tinggi dari q. Metode MARS menentukan lokasi dan jumlah knot berdasarkan pemilihan peubah pada langkah maju (forward) dan langkah mundur (backward) algoritma RP yang dimodifikasi, di mana lokasi dan jumlah knot yang optimum disesuaikan dengan perilaku data. 1) Langkah maju Dalam pembentukan model, terlebih dahulu ditentukan fungsi basis maksimum. Pada tahap ini, digunakan kriteria pemilihan fungsi basis yaitu 10 dengan meminimumkan average sum of square residual (ASR), untuk mendapatkan jumlah fungsi basis maksimum. 2) Langkah mundur Setelah mendapatkan jumlah fungsi basis maksimum, proses dilanjutkan ke tahap kedua atau langkah mundur yaitu tahap untuk menentukan ukuran fungsi basis yang layak. Pada tahap ini, dilakukan penghapusan fungsi basis yang kontribusinya terhadap nilai dugaan respon kecil sampai diperoleh perimbangan antara bias dan ragam serta model yang layak, yaitu dengan meminimumkan nilai generalized cross validation (GCV) yang diformulasikan pada persamaan (5). Semakin kecil GCV (semakin besar nilai GCV-1) dari suatu peubah, semakin penting peubah tersebut terhadap model yang dibangun. GCV ( M ) = N (1 / N )∑i =1 [ y i − fˆM ( x i )] 2 [1 − (C ( M )) / N ] 2 (5) di mana pembilang pada persamaan (5) adalah rataan jumlah kuadrat galat, N adalah jumlah pengamatan dan M menunjukkan jumlah himpunan bagian atau jumlah fungsi basis (nonkonstan) pada model MARS. Penyebutnya merupakan penalti fungsi model kompleks. Kriteria GCV adalah rataan jumlah kuadrat galat hasil pengepasan data (sebagai pembilang) dikali suatu penalti (merupakan kebalikan penyebut) yang menyebabkan kenaikan ragam sehubungan dengan meningkatnya kompleksitas model (jumlah fungsi basis M). Dengan modifikasi Friedman fungsi basis pada persamaan (4) dapat dinyatakan sebagai berikut: Km Bm ( x) = ∏ [ s km. ( x v ( k , m ) − t km )] + (6) k =1 Hasil modifikasi algoritma recursive partitioning adalah model MARS yang dinyatakan sebagai berikut: fˆ (x) = a0 + M ∑ am m =1 Km ∏[s k =1 km. (xv(k,m) – tkm)] (7) di mana a0 adalah basis fungsi induk, am adalah koefisien dari basis fungsi ke-m dan M merupakan maksimum basis fungsi (nonconstant basis fungsi). Koefisien 11 {a m }mM=1 ditentukan dengan menggunakan metode kuadrat terkecil (Friedman 1990). Persamaan (7) dapat ditulis dalam bentuk lain sebagai berikut: yˆ = B0 + B1 * BF1 + B2 * BF2 + ... + Bk * BFk di mana: y = peubah respon B0 = konstanta B1, B2, …, Bk = koefisien fungsi basis spline ke 1, 2, …, k BF1, BF2, …, BFk = fungsi basis ke 1, 2, …, k 2.4 Pendeteksian Pencilan dan Pengamatan Berpengaruh Pencilan merupakan elemen data yang tidak sesuai, sangat menyalahi atau tidak wajar, dibandingkan dengan mayoritas data (Martens dan Naes 1989). Pencilan dapat disebabkan oleh kesalahan dalam data, suatu komposisi atau status fisik yang ganjil dari objek yang dianalisis. Kesalahan dalam data dapat berupa gangguan, penyimpangan instrumen, kesalahan operator ataupun kesalahan pencetakan. Pendeteksian pengamatan berpengaruh terhadap nilai-nilai X dapat digunakan matriks H (hat matrix) yang didefinisikan sebagai: H = X(X’X)-1 X’ Unsur ke-i pada diagonal utama matriks H yaitu hii, biasanya dinamakan pengaruh (leverage) kasus ke-i merupakan ukuran jarak antara nilai X untuk pengamatan ke-i dan rataan X untuk semua pengamatan, yang diperoleh dari: di mana dan adalah vektor baris ke-i dari matriks X. Nilai hii berkisar antara 0 dan 1 , dengan p adalah banyaknya koefisien regresi di dalam fungsi termasuk konstanta (Neter et al. 1990). Leverage ke-i yang besar menunjukkan bahwa pengamatan ke-i berada jauh dari pusat semua pengamatan X. Leverage ke-i dianggap besar atau dinyatakan sebagai pengamatan pencilan dan berpengaruh jika nilainya lebih dari dua kali rataan semua leverage (2p/n). Nilai hii yang semakin besar menunjukkan semakin besar potensinya untuk berpengaruh (Aunuddin 1989). 12 Pendeteksian pencilan juga dapat dilakukan dengan menggunakan nilai Rstudent (externally studentized residual) yang didefinisikan sebagai: di mana: yi = nilai peubah tak bebas pada pengamatan ke-i = nilai pendugaan yi pada pengamatan ke-i s(-i) = dugaan simpangan baku tanpa pengamatan ke-i hii = unsur ke-i dari diagonal matriks H R-student menyebar mengikuti sebaran t-student dengan derajat bebas (n-p-1). Suatu pengamatan dikatakan pencilan jika |t| > t(n-p-1;α/2) (Myers 1990). Pendeteksian pengamatan berpengaruh ditentukan berdasarkan nilai DFFITS dan Cook’s D. DFFITSi merupakan suatu ukuran pengaruh yang ditimbulkan oleh pengamatan ke-i terhadap nilai dugaan apabila pengamatan ke-i dihapus. Nilai DFFITSi diperoleh dari rumus berikut: adalah nilai dugaan yi tanpa pengamatan ke-i. Suatu pengamatan dengan dikatakan berpengaruh apabila nilai |DFFITS|i > . Cook’s D merupakan suatu ukuran pengaruh pengamatan ke-i terhadap semua koefisien regresi dugaan. Pada Cook’s D, pengaruh pengamatan ke-i diukur oleh jarak Di. Jarak tersebut diperoleh dari rumus berikut: di mana: b-i = vektor koefisien regresi dugaan tanpa pengamatan ke-i b = vektor koefisien regresi dugaan termasuk pengamatan ke-i e = nilai sisaan pada pengamatan ke-i Suatu pengamatan merupakan pengamatan berpengaruh mempunyai nilai Di > F(p;n-p; α) dengan taraf nyata α (Myers 1990). 2.5 Kriteria Kebaikan Model dan Validasi Model apabila 13 Pemilihan model terbaik dapat dilakukan dengan memperhatikan beberapa kriteria kebaikan model pada data penyusun model dan data validasi. a) Kriteria kebaikan model pada data penyusun model menggunakan R2 dan R2 terkoreksi. b) Kriteria kebaikan model pada data validasi digunakan RMSEP (root mean square error of prediction) yang diformulasikan sebagai berikut: n RMSEP = ∑(y i =1 i − yˆ i ) 2 n di mana: n = banyaknya data validasi ŷi = dugaan untuk data validasi yi Semakin besar R2 atau R2 terkoreksi maka model semakin baik. Sedangkan jika GCV dan RMSEP semakin kecil maka model yang diperoleh semakin baik.