PERBEDAAN METODE GEOGRAPHICALLY WEIGHTED LASSO (GWL)-LOKAL DAN GEOGRAPHICALLY WEIGHTED LASSO (GWL) GLOBAL DALAM MENGATASI KASUS MULTIKOLINIERITAS PADA MODEL GEOGRAPHICALLY WEIGHTED REGRESSION (GWR) (STUDI KASUS DATA TINGKAT KEMISKINAN JAWA TIMUR TAHUN 2010) Apry Zakaria Ramadhan, Henny Pramoedyo, Rahma Fitriani. Jurusan Matematika, F.MIPA, Universitas Brawijaya Email : [email protected] Abstrak. Salah satu metode yang digunakan untuk mengatasi multikolinieritas lokal pada model Geographically Weighted Regression adalah metode Geographically Weighted Lasso (GWL). GWL merupakan pengembangan dari metode GWR (Geographically Weighted Regression) dengan menambahkan metode Least Absolute Shrinkage and Selection Operator (Lasso) pada model karena GWR belum mampu mengatasi kasus multikolinieritas. GWL terdiri dari dua metode yaitu GWL Lokal dan GWL Global. Pendeteksi adanya multikolinieritas adalah nilai VIF (Variance Inflation Factor) yang lebih dari 10. GWL menggunakan parameter shrinkage sebagai batasan lasso untuk menduga parameter. Pada pemodelan data tingkat kemiskinan dengan metode GWL Lokal didapatkan model yang berbeda-beda di setiap wilayah, sedangkan pada metode GWL Global didapatkan satu model untuk keseluruhan wilayah Jawa Timur. Berdasarkan nilai MSE dapat disimpulkan bahwa metode GWL Lokal lebih efisien untuk memodelkan data tingkat kemiskinan dikarenakan terdapat faktor keheterogenitas spasial dan perbedaan geografis di setiap wilayah yang berpengaruh terhadap tingkat kemiskinan Jawa Timur. Kata Kunci: multikolinieritas lokal, GWL Lokal, GWL Global, tingkat kemiskinan 1. PENDAHULUAN Kemiskinan merupakan suatu fenomena keheterogenan spasial, yang biasanya ditunjukkan dengan kecenderungan masyarakat miskin mengelompok pada suatu wilayah tertentu. Adanya variasi geografis dalam kemiskinan dan besarnya tingkat kemiskinan sering disebabkan oleh faktor-faktor dengan dimensi spasial, seperti sumber daya alam dan akses layanan seperti kesehatan dan pendidikan, sehingga perlu dilakukan analisis dengan menggunakan metode spasial (Henninger dan Snel, 2002). Geographically Weighted Regression (GWR) merupakan salah satu pengembangan model regresi OLS yang digunakan untuk mengatasi masalah heterogenitas spasial yang disebabkan oleh kondisi lokasi yang satu dengan lokasi lain tidak sama, tetapi model GWR belum bisa mengatasi kasus multikolinieritas lokal sehingga penambahan Lasso (Least Absolute Shrinkage and selection Operator) diharapkan lebih efektif dalam pemodelan. Multikolinieritas lokal merupakan suatu keadaan di mana terdapat satu atau lebih variabel bebas yang berkorelasi dengan variabel bebas lainnya disetiap lokasi pengamatan. Pada faktor-faktor kemiskinan seperti angka partisipasi kerja, tingkat pengangguran terbuka, pekerja sektor informal, rata-rata lama sekolah, dan angka melek huruf tidak boleh saling berkolerasi satu sama lain. Jika terdapat kolerasi antar faktor-faktor kemiskinan akan berdampak pada prediksi yang kurang tepat sehingga akan menyebabkan kesalahaan intepretasi. Lasso yang diaplikasikan pada model Geographically Weighted Regression yang dikenal dengan istilah Geographically Weighted Lasso Regression (GWL) merupakan metode yang digunakan untuk mengatasi kasus multikolinieritas lokal sehingga diharapkan dapat diperoleh pendugaan parameter koefisien yang tidak bias dan efisien sehingga hasil prediksi pada model lebih akurat (Wheeler dan Tiefelsdorf, 2005). Penulis tertarik untuk memodelkan data tingkat kemiskinan Jawa Timur tahun 2010 dan untuk memenuhi tujuan tersebut, maka digunakan perbandingan antara metode GWL Lokal dan GWL Global dalam mengatasi multikolinieritas pada model Geographically Weighted Regression (GWR). 2. TINJAUAN TEORI Model Geographically Weighted Regression merupakan pengembangan dari model regresi linier dengan mempertimbangkan spasial (lokasi). Secara sistematis model dari Geographically Weighted Regression (GWR) menurut Fotheringnam , Brundson, dan Charlton (2002) adalah sebagai berikut: ( ) ∑ ( ) + di mana merupakan nilai observasi variabel respon lokasi ke-i, nilai observasi variabel prediktor k pada lokasi ke-i, ( )nilai intersep model GWR, ( )parameter regresi untuk setiap lokasi ke-i, ( ) titik koordinat (lintang, bujur) pada lokasi ke-i, dan galat ke-i yang di asumsikan IIDN ( ). Fungsi dari pembobot adalah untuk memberikan hasil pendugaan parameter yang berbeda pada lokasi yang berbeda. Jarak euclidean ( ) antara lokasi ke-i dan lokasi ke-j dapat dihitung dengan menggunakan persamaan (Leung, Mei, dan Zhang, 2000): √( ) ( ) Fungsi pembobot adaptive Bisquare Kernel dapat dinyatakan sebagai berikut (Chasco, dkk., 2007): [ ( jika dij ≤ b ) ] = jika dij ≥ b 0 b adalah nilai bandwidth (Fotheringham, Brunsdon, dan Charlton, 2002). Pengujian pengaruh spasial menggunakan uji heterogenitas spasial adalah menguji efek heterogenitas yang terjadi dengan menggunakan Uji Breusch Pagan. Statistik Uji Breusch Pagan (BP) BP =( ) ( ) (k) Di mana merupakan nilai error untuk observasi ke –i, Z merupakan matriks berukuran nx (k+1) yang berisi vektor yang sudah di normal standarkan untuk setiap observasi, Tolak H0 jika BP> (k). Saat pemodelan GWR, perhitungan nilai VIF mungkin dilakukan untuk masing-masing variabel prediktor. Nilai VIF dinyatakan sebagai berikut : VIFk( )= ( ) ( )adalah koefisien determinasi antara Xk dengan variabel prediktor lainnya untuk dengan setiap lokasi ( ). Lasso yang diaplikasikan pada model GWR merupakan suatu metode spasial yang digunakan untuk mengatasi kasus heterogenitas dan kasus multikolinieritas lokal sehingga diharapkan dapat diperoleh pendugaan parameter koefisien yang tidak bias dan efisien sehingga hasil prediksi pada model lebih akurat (Wheeler dan Tiefelsdorf, 2005). Lasso didefinisikan sebagai berikut (̂ )=∑ ( ∑ ) Dengan syarat ∑ | | Pedugaan koefisien lasso diperoleh dengan menentukan batas yang dibakukan yaitu s = t /∑ | ̂ | dengan t = ∑ | ̂ | dan ̂ adalah penduga parameter untuk model penuh atau pada gambar ditulis | | | (Dewi, 2010). sebagai | Pada GWL-lokal, untuk setiap lokasi variabel x dan y distandardkan terlebih dahulu untuk mengatasi perbedaan skala. Pendugaan parameter GWL-lokal untuk mengontrol koefisien parameter agar lebih efisien sehingga ada shrinkage parameter si di setiap lokasi i. Pendugaan parameter shrinkage dan bandwith adaptive bi-square kernel menggunakan leave-oneout cross-validation (CV). Metode GWL-global sesuai untuk model lokal keseluruhan yang memodelkan secara global variabel x. Ini juga menghasilkan pendugaan parameter lasso untuk mengontrol nilai koefisien shrinkage. Matriks pembobotnya adalah matriks berukuran (n . p) x (n x p)dan responnya adalah (n . n) x ( n . p). Sehingga menghasilkan vektor pendugaan koefisien regresi berukuran (n .p)×1. Koefisien parameter pada model GWL diduga dengan menggunakan metode Weighted Least 94 Squares (WLS) dengan menambahkan fungsi penggada lagrange. Batasan nilai mutlak pada koefisien regresi menyebabkan pola nonlinier sehingga harus diselesaikan dengan program kuadratik (Arumsari, 2011). ̂( ) ( ( ) ) ( ) 3. METODOLOGI Tahapan-tahapan yang dilakukan adalah melakukan pengujian pengaruh heterogenitas spasial dengan menggunakan uji Breusch Pagan untuk mengetahui adalah pengaruh heterogenitas spasial pada data tingkat kemiskinan. Melakukan pemodelan GWR dengan menduga bandwidth kernel dan menghitung nilai pembobot bi square kernel yang akan digunakan untuk meduga koefisien regresi pada model GWR. Mendeteksi multikolinieritas lokal di setiap lokasi pengamatan dengan menggunakan VIF. Setelah diketahui terdapat variabel bebas yang berkorelasi dengan variabel bebas lainnya, maka dilakukan pembandingan antara GWL Lokal Lokal dan GWL Global untuk mengetahui metode yang baik dalam mengatasi multikolinieritas lokal pada model GWR. Tabel 1. Variabel yang diteliti Variabel APK TPT PSI RLS AMH Keterangan Angka Partisipasi Kerja Tingkat Pengangguran Terbuka Pekerja Sektor Informal Rata-rata Lama Sekolah Angka Melek Huruf 4. HASIL DAN PEMBAHASAN Statistik uji Breusch-Pagan untuk data tingkat kemiskinan adalah 29.146, yang lebih besar dari titik kritis ( ) yaitu sebesar 14.06731 sehingga disimpulkan bahwa terdapat pengaruh heterogenitas spasial di setiap Kabupaten/Kota di Jawa Timur. Keberartian parameter model GWR dilakukan berdasarkan hipotesis berikut: ) H0 : ( ) H1 : ( di mana dan . dengan hasil pengujian parameter GWR seperti tersaji pada tabel 1, di mana Kabupaten Pacitan sebagai contoh: Tabel 2. Pengujian parameter model GWR pada Kabupaten Pacitan Parameter Nilai Duga 14.94 0.446 1.322 -2.545 -2.793 1.2573 Statistik uji t 28.32* 0.719 1.189 -1.36 -2.211* 0.852 * = signifikan pada tingkat nyata 0.05 Dari hasil pendugaan parameter untuk Kabupaten Pacitan diketahui bahwa hanya satu variabel yang berpengaruh signifikan yaitu, variabel RLS. Oleh karena itu perlu dideteksi adanya multikolinieritas lokal pada model GWR. Berdasarkan hasil deteksi multikolinieritas lokal dengan VIF diketahui bahwa terdapat multikolinieritas lokal pada data tingkat kemiskinan karena nilai VIF untuk variabel TPT, PSI dan AMH lebih dari 10. Oleh karena itu pemodelan GWL perlu dilakukan pada data tersebut, sehingga hasil prediksi yang didapatkan lebih informatif dan maksimal. 95 Tabel 3. Pendugaan parameter model GWL Global Variabel Koefisien R2 MSE Intersep -3.349 APK -0.474 TPT 0.437 0.975 0.352 PSI -0.293 RLS -0.278 AMH 1.209 Diketahui bahwa nilai MSE yang dihasilkan adalah 0.352 dan R2 sebesar 97.5%, terlihat bahwa model GWL Global yang didapatkan adalah model yang. Pada pemodelan GWL Lokal didapatkan seluruh variabel prediktor berpengaruh signifikan terhadap tingkat kemiskinan. Nilai MSE untuk GWL Lokal sebesar 0.167 dan R2 sebesar 76.5%. Berdasarkan perbandingan nilai MSE dan R2 pada metode GWL Global dan GWL Lokal dikatakan bahwa GWL Lokal adalah model yang layak digunakan untuk data tingkat kemiskinan di Jawa Timur pada tahun 2010 dibandingkan dengan metode GWL Global karena memiliki nilai MSE yang lebih kecil dibandingkan metode GWL Global. Berdasarkan nilai R-square model GWL lokal 76.5% keragaman model dapat dijelaskan oleh varabel respon yaitu tingkat kemiskinan, sehingga model GWL Lokal baik digunakan untuk memprediksi tingkat kemiskinan di kabupaten/kota di Jawa timur. 5. KESIMPULAN Dari hasil perbandingan metode GWL Global dan GWL Lokal, metode GWL Lokal adalah metode yang layak digunakan pada data tingkat kemiskinan di Jawa Timur pada tahun 2010. Hal ini dikarenakan nilai MSE (Mean Square Error) pada metode GWL Lokal lebih kecil dibandingkan nilai MSE (Mean Square Error) pada metode GWL Global yaitu sebesar 0.167. Pemodelan dengan menggunakan GWL Lokal faktor keheterogenitas spasial dipengaruhi tingkat kemiskinan di Jawa timur. Oleh karena itu pemodelan GWL Lokal tepat digunakan untuk memprediksi tingkat kemiskinan di Jawa Timur. DAFTAR PUSTAKA Arumsari. N., (2011), Penggunaan Pemodelan Geographically Weighted Lasso (GWL) pada Penderita Diare di Kabupaten Sumenep, Tesis, ITS Surabaya Dewi, Y.S., (2010), OLS, LASSO, dan PLS pada Data Mengandung Multikolinieritas, Jurnal Ilmu Dasar 11(1), hal. 83-91 Fotheringham. A.S., Brunsdon., C, and Charlton., M, (2002), Geographically Weighted Regression The Analysis of Spatially Varying Relationships, John Wiley & Sones, LTD. New York. U.S. 76. Leung, Y., Mei., C.L., and Zhang., W.X., (2000), Statistical tests for spatial nonstationarity based on the geographically weighted regression model. Journal of Environ Plan A,32, hal. 9-32 Henninger, N., and Snell., M., (2002), Where Are The Poor ? Experiences with The Deveopment and Use of Proverty Maps, World Resources Institute,Washington, DC. Wheeler, D., and Tiefelsdorf., M., (2005), Multicollinearity and correlation among local regression coefficients in geographically weighted regression. Journal of Geographical System, 7, hal. 161 – 187. 96