ANALISIS REGRESI Dalam analisis data sering dilakukan pembuatan suatu kurve yang dapat mewakili suatu rangkaian data yang diberikan dalam suatu sistem koordinat x-y. Data tersebut dapat berupa hasil percobaan di laboratorium atau pengamatan di lapangan. Karena adanya kesalahan-kesalahan atau ketidakpastian dalam pengujian, pengukuran atau variasi perubahan data dari waktu ke waktu, maka titik-titik data tersebar dalam koordinat x-y. Dalam analisis regresi akan dibuat kurve atau fungsi berdasarkan sebaran titik data. Kurve yang terbentuk diharapkan dapat mewakili titik-titik data tersebut. Seringkali, setelah kurve terbentuk, dilakukan pula ekstrapolasi untuk mendapatkan nilai y yang berkaitan dengan nilai x yang berada di luar rangkaian data yang ada. Metode yang akan digunakan untuk membuat kurve tersebut adalah metode kuadrat terkecil (least square method). Metode tersebut memungkinkan untuk membuat kurve yang paling mendekati titik-titik data. Gambar 5.1, adalah penyebaran titik-titik data hasil dari suatu percobaan pada sistem koordinat x-y. Penetapan bentuk kurve, apakah linier (garis lurus) atau lengkung (logaritmik atau berpangkat), tergantung dari kecenderungan (trend) dari penyebaran titik data, seperti pada Gambar 5.1a. dan 5.1b. Seringkali dijumpai adanya beberapa data yang mempunyai kesalahan sangat besar seperti titik A dan titik B pada Gambar 5.1. Pembuatan kurve dengan menggunakan titik A dan B pada gambar akan menghasilkan nilai yang juga mempunyai kesalahan, oleh karena itu data A dan B dapat dihilangkan. Gambar 5.1. Plot data pengukuran 5.1 Metode Kuadrat Terkecil (least square method) Gambar 5.2, menunjukkan sebaran dari titik-titik data hasil pengukuran pada bidang x-y. Akan dicari suatu kurve g (x) yang dapat mewakili titik percobaan tersebut. Cara termudah adalah membuat kurve secara visual yang merupakan fungsi terbaik g (x) yang digambarkan oleh titik-titik data. Tetapi cara ini tidak bisa memberikan hasil yang memuaskan, terutama apabila penyebaran titik data cukup besar. Diinginkan suatu metode yang lebih pasti untuk mendapatkan kurve tersebut, yaitu dengan membuat kurve yang meminimumkan perbedaan (selisih) antara titik-titik data dan kurve. Teknik untuk mendapatkan kurve tersebut dikenal dengan regresi kuadrat terkecil. Teknik Komputer 1 Gambar 5.2. Kurve mewakili titik-titik data Teknik tersebut dilakukan dengan prosedur berikut ini: 1) Titik-titik percobaan digambar pada suatu sistem koordinat. Dari gambar sebaran titik data tersebut dapat diketahui trend (pola) secara umum dari kumpulan titik data, sehingga dapat ditentukan apakah kurve yang mewakili berupa garis lurus (linier) atau lengkung. 2) Dipilih suatu fungsi g (x) yang dianggap bisa mewakili f (x) yang mempunyai bentuk umum berikut ini: g (x) = a0 + a1 x + a2 x2 + … + ar xr (5.1) Fungsi tersebut tergantung pada parameter a0, a1, …, ar. 3) Ditentukan parameter a0, a1, …, ar sedemikian rupa sehingga g (xi ; a0, a1, …, ar) melalui sedekat mungkin titik-titik data. Bentuk g (xi ; a0, a1, …, ar) mempunyai arti fungsi g (xi) dengan parameter a0, a1, …, ar. 4) Apabila koordinat dari titik-titik percobaan adalah M (xi , yi), dengan nilai i = 1, 2, …, n maka selisih ordinat antara titik-titik tersebut dengan fungsi g (xi ; a0, a1, …, ar) adalah: Ei = Mi Gi = yi – g (xi ; a0, a1, …, ar) = yi – (a0 + a1 xi + a2 xi 2 + a3 xi 3 + … + ar xi r) 5) Dipilih suatu fungsi g (x) yang mempunyai kesalahan Ei terkecil. Dalam metode ini jumlah kuadrat dari kesalahan adalah terkecil. n n D 2 Ei { yi g ( xi )}2 i 1 2 i 1 (5.2) 6) Dicari parameter a0, a1, …, ar sedemikian sehingga D2 adalah minimum. Nilai D2 akan minimum apabila turunan pertamanya terhadap a0, a1, …, ar adalah nol, sehingga: Teknik Komputer 2 D2 0 a0 D2 0 a1 2 D 0 ar (5.3) 7) Penyelesaian dari persamaan (5.3) akan memberikan hasil parameter a0, a1, …, ar. Dengan demikian persamaan kurve terbaik yang mewakili titik-titik data telah diperoleh. 5.2 Metode Kuadrat Terkecil Untuk Kurve Linier Bentuk paling sederhana dari regresi kuadrat terkecil adalah apabila kurve yang mewakili titik-titik data merupakan garis lurus, sehingga persamaannya adalah: g (x) = a + bx (5.4) Dalam hal ini, a0 = a dan a1 = b. Jumlah kuadrat dari kesalahan dihitung dengan persamaan (5.2): n n D 2 Ei { yi a b xi }2 i 1 2 i 1 (5.5) Agar nilai D2 adalah minimum, maka persamaan (5.5) diturunkan terhadap parameter a dan b, kemudian disama-dengankan nol. Turunan pertama terhadap parameter a adalah: D2 0 a n ( yi a b xi ) 2 0 a i 1 n 2 ( yi a b xi ) 0 i 1 yi a b xi 0 (5.6) Turunan pertama terhadap parameter b adalah: D2 0 b n ( yi a b xi ) 2 0 b i 1 n 2 [ ( yi a b xi ) xi ] 0 i 1 yi xi a xi b xi 0 2 (5.7) Penjumlahan masing-masing suku persamaan (5.6) dan (5.7) adalah dari 1 hingga n. Teknik Komputer 3 Persamaan (5.6) dan (5.7) dapat ditulis dalam bentuk: n a Σ xi b Σ yi (5.8) Σ xi a Σ xi b Σ xi y i (5.9) 2 dengan a = n a Selanjutnya persamaan (5.8) dapat ditulis menjadi: n a = yi xi b a= 1 (Σ yi Σ xi b ) n a= 1 1 Σ yi Σ x i b n n (5.10) atau a = y bx (5.11) Interpolasi persamaan (5.10) ke dalam persamaan (5.9), xi 1 2 ( yi xi b ) xi b xi y i n 2 x i yi ( xi ) b n xi b n xi yi 2 b [ n xi ( xi ) 2 ] n xi y i xi yi 2 atau b n xi yi xi yi 2 n xi ( xi ) 2 (5.12) Dengan menggunakan persamaan (5.11) dan persamaan (5.12) untuk menghitung koefisien a dan b, maka fungsi g (x) dapat dicari. Persamaan garis lain, selain persamaan (5.4) memberikan jumlah kuadrat kesalahan yang lebih besar, namun persamaan (5.4) adalah perkiraan terbaik dari data. Untuk mengetahui derajat kesesuaian dari persamaan yang didapat, dihitung nilai koefisien korelasi yang berbentuk: Dt D 2 2 Dt 2 r (5.13) dengan r adalah koefisien korelasi, sedang D2 dan Dt2 diberikan oleh bentuk: n Dt ( yi y ) 2 2 i 1 n D 2 ( yi a0 a1 x )2 i 1 Nilai r bervariasi antara 0 dan 1, untuk perkiraan yang sempurna nilai r = 1, bila r = 0 perkiraan suatu fungsi sangat jelek. Koefisien korelasi ini juga dapat digunakan Teknik Komputer 4 untuk memilih suatu persamaan dari beberapa alternatif yang ada, terutama di dalam regresi garis tidak lurus. Kurve lengkung dapat didekati dengan beberapa tipe persamaan, misalnya bentuk y = a xb; y = a eb; y = a0 + a1 x + a2 x2, atau persamaan lain. Dari beberapa alternatif tersebut dipilih persamaan yang mempunyai nilai koefisien korelasi terbesar (paling mendekati 1). Contoh soal: Tentukan persamaan garis yang mewakili data berikut. x 4 6 8 10 14 16 20 22 24 28 y 30 18 22 28 14 22 16 8 20 8 Penyelesaian Penggambaran titik-titik data pada sistem koordinat x-y diberikan dalam Gambar 5.3, yang dapat diwakili oleh garis lurus. Penyelesaian dilakukan dengan menggunakan Tabel 5.1. Gambar 5.3. Sebaran titik-titik data pada sistem koordinat Dari hitungan dalam Tabel 5.1, nilai rerata dari x dan y adalah: x 152 15,2 n 10 y 186 y 18,6 n 10 x Persamaan garis yang mewakili titik-titik data adalah: y = a + bx Tabel 5.1. Hitungan regresi linier Teknik Komputer 5 No 1 2 3 4 5 6 7 8 9 10 xi 4 6 8 10 14 16 20 22 24 28 152 yi 30 18 22 28 14 22 16 8 20 8 186 xi yi 120 108 176 280 196 352 320 176 480 224 2432 xi2 16 36 64 100 196 256 400 484 576 784 2912 dengan: b n Σ xi y i Σ xi Σ y i n ( Σ x i ) (Σ x i ) 2 2 (10 2432) (152 186) 3952 0,6569 2 6016 (10 2912) (152) a y b x 18,6 (0,6569 15,2) 28,5849 Jadi persamaan garis adalah: y 28,5849 0,6569 x 5.3 Linierisasi Kurve Tidak Linier Dalam praktek sering dijumpai bahwa sebaran titik-titik pada sistem koordinat mempunyai kecenderungan (trend) yang berupa kurve lengkung, sehingga persamaan (5.4) tidak bisa langsung digunakan. Gambar 5.4, menunjukkan sebaran data pada sistem koordinat x-y. Dalam Gambar 5.4a, titik data diwakili oleh kurve linier, sedang Gambar 5.4b, diwakili oleh kurve lengkung. Terlihat bahwa pendekatan dengan kurve lengkung memberikan hasil yang lebih baik daripada garis lurus (kurve linier). Agar persamaan regresi linier dapat digunakan untuk mempresentasikan kurve lengkung, maka perlu dilakukan transformasi koordinat sedemikian rupa sehingga sebaran titik data bisa dipresentasikan dalam kurve linier. Berikut ini diberikan dua fungsi transformasi data yang bisa digunakan, yaitu fungsi eksponensial dan fungsi berpangkat. 1) Persamaan berpangkat Persamaan berpangkat diberikan oleh bentuk berikut ini. y a2 x b2 (5.14) dengan a2 dan b2 adalah koefisien konstan. Teknik Komputer 6 Gambar 5.4. Titik data didekati dengan garis lurus dan lengkung Persamaan tersebut dapat dilinier-kan dengan menggunakan fungsi logaritmik sehingga didapat: log y = b2 log x + log a2 (5.15) yang merupakan hubungan log-log antara log y dan log x. Persamaan tersebut mempunyai bentuk garis lurus dengan kemiringan b2 dan memotong sumbu log y pada log a2. Gambar 5.5, menunjukkan transformasi dari fungsi asli menjadi fungsi logaritmik. 2) Fungsi exponensial Contoh lain dari kurve tak linier adalah fungsi eksponensial seperti diberikan oleh bentuk berikut: (5.16) y a1 e b1 x dengan a1 dan b1 adalah konstanta. Persamaan tersebut dapat dilinier-kan dengan menggunakan logaritma natural sehingga menjadi: ln y = ln a1 + b1x ln e Karena ln e = 1, maka: ln y = ln a1 + b1x (5.17) Persamaan (5.15) merupakan hubungan semi logaritmik antara ln y dan x. Persamaan tersebut mempunyai bentuk garis lurus dengan kemiringan b1 dan memotong sumbu ln y pada ln a1. Gambar 5.6, menunjukkan transformasi dari fungsi asli menjadi fungsi logaritmik. Gambar 5.5. Transformasi fungsi logaritma Teknik Komputer 7 Gambar 5.6. Transformasi fungsi eksponensial Contoh soal: Tentukan persamaan kurve lengkung yang mewakili data berikut ini. x 1 2 3 4 5 y 0,5 1,7 3,4 5,7 8,4 Penyelesaian: Gambar 5.7, menunjukkan sebaran titik data pada sistem koordinat x-y, untuk mencari kurve dengan menggunakan dua bentuk transformasi, yaitu transformasi log dan ln. Gambar 5.7. Sebaran data dan kurve lengkung a). Transformasi log Misalkan persamaan kurve yang dicari adalah: y = a xb Transformasi dengan menggunakan fungsi log, sehingga: log y = log a xb log y = log a + b log x Dilakukan transformasi berikut: p = log y B=b A = log a q = log x Sehingga persamaan diatas dapat ditulis dalam bentuk: p =A+B q Teknik Komputer 8 Hitungan dilakukan dengan menggunakan Tabel 5.2, dari hitungan dalam Tabel 5.2, didapat beberapa parameter berikut ini. q Σ log xi 2,0791 0,4158 n 5 p Σ log yi 2,1411 0,42822 n 5 Tabel 5.2. Hitungan regresi linier dengan transformasi log No 1 2 3 4 5 xi 1 2 3 4 5 15 yi 0,5 1,7 3,4 5,7 8,4 19,7 qi = log xi 0 0,3010 0,4771 0,6020 0,6990 2,0791 pi = log yi -0,3010 0,2304 0,5315 0,7559 0,9243 2,1411 qi pi 0 0,0693 0,2536 0,4550 0,6461 1,4240 qi2 0 0,0906 0,2276 0,3624 0,4886 1,1692 Koefisien A dan B dihitung dengan persamaan (5.11) dan (5.12). B n Σ qi pi Σ qi Σ pi 2 n Σ qi (Σ qi ) 2 5(1,4240) (2,0791)( 2,1411) 2,6684 1,7517 (5 1,1692) (2,0791 2,0791) 1,5233 Setelah nilai B didapat kemudian dicari nilai A: A p B q 0,42822 (1,7517 0,4158) 0,3001 Dengan demikian persamaan transformasi adalah: p 0,3001 1,7517 q Mengingat: A = log a 0,3001 = log a B=b b = 1,7517 a = 0,5011 maka persamaan yang dicari adalah: y = 0,5011 x1,7517 b). Transformasi In Misalkan persamaan kurve mempunyai bentuk: y = a ebx Transformasi dengan menggunakan fungsi ln, sehingga persamaan diatas menjadi: ln y = ln a ebx = ln a + ln ebx ln y = ln a + bx Teknik Komputer 9 Dilakukan transformasi berikut: p = ln y A = ln a q=x B=b Sehingga persamaan diatas dapat ditulis dalam bentuk: p=A+Bq Hitungan dilakukan dengan menggunakan Tabel 5.3. Dari hitungan Tabel 5.3, didapat beberapa parameter berikut ini: q Σ qi 15 3 n 5 p Σ pi 4,93 0,986 n 5 Tabel 5.3 Hitungan regresi linier dengan trasnformasi ln No xi = qi yi qi2 = xi2 pi = ln yi qi pi 1 1 0,5 1 -0,6931 -0,6931 2 2 1,7 4 0,5306 1,0612 3 3 3,4 9 1,2238 3,6714 4 4 5,7 16 1,7405 6,962 5 5 8,4 25 2,1282 10,641 15 19,7 55 4,93 21,6425 Koefisien A dan B dihitung dengan persamaan (5.11) dan (5.12). B n Σ qi pi Σ qi Σ pi n (Σ q i ) (Σ q i ) 2 2 (5 21,6425) (15 4,93) 34,2625 0,68525 50 (5 55) (15) 2 Setelah nilai B didapat kemudian dicari nilai A, yaitu: A p B q 0,986 (0,68525 3,0) 1,06975 Dengan demikian persamaan transformasi adalah: P = 1,06975 + 0,68525 q Mengingat: A = ln a 1,06975 = ln a B=b b = 0,68525 a = 0,3431 Maka persamaan yang dicari adalah: y = 0,3431 e0,68525x Teknik Komputer 10 5.4 Regresi Polinomial Untuk kurve lengkung persamaannya dapat diturunkan dengan melakukan transformasi data asli ke bentuk lain yang sesuai. Selain dengan menggunakan regresi polinomial. Penurunan persamaan dilakukan dengan menggunakan metode kuadrat terkecil. Persamaan polinomial order r mempunyai bentuk: y = a0 + a1 x + a2 x2 + … + ar xr Jumlah kuadrat dari kesalahan adalah: n D 2 ( yi ( a0 a1 xi a2 xi ... ar xi )) 2 2 r i 1 Persamaan diatas diturunkan terhadap tiap koefisien dari polinomial dan kemudian disama-dengankan nol, sehingga diperoleh: n D2 2 r 2 ( yi ( a0 a1 xi a 2 xi ... a r xi )) 0 i 1 a0 n D2 2 r 2 xi ( yi ( a0 a1 xi a 2 xi ... a r xi )) 0 i 1 a1 n D2 2 2 r 2 xi ( yi ( a0 a1 xi a 2 xi ... a r xi )) 0 i 1 a2 n D2 r 2 r 2 xi ( yi ( a0 a1 xi a 2 xi ... a r xi )) 0 i 1 ar (5.18) Persamaan (5.18) dapat ditulis dalam bentuk: 2 n Σ xi Σ xi 2 3 Σ xi Σ xi Σ xi 2 3 4 Σ xi Σ xi Σ xi r r 1 r2 Σ xi Σ xi Σ xi r Σ xi a0 r 1 Σ xi a1 r2 Σ xi a2 = rr Σ xi ar Σ yi Σ xi yi Σ x 2 y i i r Σ xi yi (5.19) Dengan semua penjumlahan adalah dari i = 1 sampai n. Dari r + 1 persamaan tersebut akan dicari bilangan tak diketahui a0, a1, a2, …, ar dengan metode yang telah dibicarakan dalam pembahasan sistem persamaan linier. Koefisien matriks dari persamaan tersebut biasanya sangat padat (sangat sedikit koefisien nol) dan masingmasing koefisien sangat berbeda. Namun demikian biasanya nilai r adalah kecil sehingga sistem persamaan tersebut masih mudah diselesaikan. Contoh soal: Cari persamaan kurve polinomial order dua yang mewakili data berikut: xi 0 1 2 3 4 5 yi 2,1 7,7 13,6 27,2 40,9 61,1 Teknik Komputer 11 Penyelesaian: Persamaan polinomial dari order 2 mempunyai bentuk: g (x) = a0 + a1 x + a2 x2 (c.1) Ei = yi – g (x) Ei2 = ( yi – a0 – a1 x – a2 x2 )2 D2 = Ei 2 Untuk polinomial order dua, diferensial dari D2 terhadap tiap koefisien dari polinomial dan kemudian disama-dengankan nol menghasilkan bentuk: 2 n Σ xi Σ xi a 0 2 3 Σ xi Σ xi Σ xi a1 = 2 3 4 Σ xi Σ xi Σ xi a 2 Σ yi Σ xi yi Σ x 2 y i i (c.2) Hitungan dilakukan dengan menggunakan Tabel 5.4. Tabel 5.4. Hitungan regresi polinomial order dua xi yi xi2 xi3 xi4 xi yi xi 2 yi 0 2,1 0 0 0 0 0 1 7,7 1 1 1 7,7 7,7 2 13,6 4 8 16 27,2 54,4 3 27,2 9 27 81 81,6 244,8 4 40,9 16 64 256 163,6 654,4 5 61,1 25 125 625 305,5 1527,5 15 152,6 55 225 979 585,6 2488,8 Dengan melakukan hitungan dalam Tabel 5.4, maka sistem persamaan (c.2) No 1 2 3 4 5 6 menjadi: 6 a0 + 15 a1 + 55 a2 = 152,6 15 a0 + 55 a1 + 225 a2 = 585,6 (c.3) 55 a0 + 225 a1 + 979 a2 = 2488,8 Dengan menggunakan sistem persamaan linier, maka penyelesaian dari persamaan diatas adalah a2 = 1,860714; a1 = 2,359286; dan a0 = 2,478571. Dengan demikian persamaan kurve adalah: y = 2,478571 + 2,359286 x + 1,860714 x2 5.5 Regresi Linier Dengan Banyak Variabel Metode regresi linier dapat dikembangkan untuk kasus dimana y adalah fungsi linier dari dua atau lebih variabel. Misalnya, y merupakan fungsi linier terhadap x1 dan x2 dalam bentuk: y = a0 + a1 x1 + a2 x2 Teknik Komputer 12 Persamaan tersebut dapat digunakan untuk mempresentasikan data pengamatan dimana variabel yang dipelajari merupakan fungsi dari dua variabel. Nilai terbaik dari koefisien a0, a1, dan a2 diperoleh dengan mencari kuadrat dari kesalahan yang dihitung dengan persamaan berikut: n D 2 ( yi ( a0 a1 x1,i a2 x2,i )) 2 i 1 Persamaan diatas diturunkan terhadap tiap koefisien dari polinomial, dan kemudian disama-dengankan nol, sehingga diperoleh: n D2 2 ( yi a0 a1 x1,i a2 x2,i ) 0 i 1 a0 n D2 2 x1,i ( yi a0 a1 x1,i a2 x2,i ) 0 i 1 a1 (5.20) n D2 2 x2,i ( yi a0 a1 x1,i a2 x2,i ) 0 i 1 a2 Persamaan (5.20) dapat ditulis dalam bentuk: n a0 + x1,i a1 x1,i a0 + x1,i2 a1 + x2,i a2 = yi + x1,i x2,i a2 = x1,i yi x2,i a0 + x1,i x2,i a1 + x2,i 2 a2 = x2,i yi atau dalam bentuk matriks menjadi: n Σ x1,i Σ x2 , i 2 Σ x1,i Σ x1,i x2,i Σ x1,i 2 Σ x 2,i Σ x1,i x2,i Σ x2,i a0 a1 = a 2 Σ yi Σ x1,i yi Σ x y 2 ,i i (5.21) Sistem persamaan (5.21) dapat diselesaikan dengan menggunakan metode pada sistem persamaan linier untuk mendapatkan koefisien a0, a1, dan a2. Secara umum persamaan regresi linier dengan m variabel mempunyai bentuk berikut: y = a0 + a1 x1 + a2 x2 + … + am xm di mana koefisien a0, a1, a2 sampai am dapat dihitung dari sistem persamaan berikut: Σ x1,i Σ x2 ,i n 2 Σ x1,i Σ x2,i x1,i Σ x1,i 2 Σ x Σ x2,i x1,i Σ x2 ,i 2 ,i Σ xm ,i Σ xm ,i x1,i Σ xm ,i x2,i Σ xm ,i Σ x1,i xm ,i Σ x2 ,i x m , i 2 Σ xm ,i a0 a1 a = 2 am Σ yi Σ x1,i yi Σ x y 2 ,i i 2 Σ xm ,i (5.22) Koefisien korelasi dapat dihitung dengan persamaan (5.13). Contoh soal: Teknik Komputer 13 Buat persamaan kurve yang mewakili data berikut: x1 0 2 2,5 1 4 7 x2 0 1 2 3 6 2 y 5 10 9 0 3 27 Penyelesaian: Penyelesaian dilakukan dengan menggunakan Tabel 5.5. Tabel 5.5. Hitungan regresi linier dengan banyak variabel y 5 10 9 0 3 27 54 x1 0 2 2,5 1 4 7 16,5 x2 0 1 2 3 6 2 14 x12 0 4 6,25 1 16 49 76,25 x2 2 0 1 4 9 36 4 54 x1x2 0 2 5 3 24 14 48 x1 y 0 20 22,5 0 12 189 243,5 x2 y 0 10 18 0 18 54 100 Nilai-nilai yang diperoleh dalam Tabel 5.5, dimasukkan dalam sistem persamaan (5.21), sehingga diperoleh: 16,5 14 a 0 6 16,5 76,25 48 a1 = 14 48 54 a 2 54 243,5 100 (c.1) Persamaan (c.1) dapat diselesaikan dengan metode penyelesaian sistem persamaan linier, dan hasilnya adalah a0 = 5, a1 = 4, a2 = 3. Persamaan kurve yang dihasilkan adalah: y = 5 + 4 x1 – 3 x2 Teknik Komputer 14