PERBEDAAN METODE GEOGRAPHICALLY WEIGHTED LASSO

advertisement
PERBEDAAN METODE GEOGRAPHICALLY WEIGHTED LASSO
(GWL)-LOKAL DAN GEOGRAPHICALLY WEIGHTED LASSO (GWL)
GLOBAL DALAM MENGATASI KASUS MULTIKOLINIERITAS
PADA MODEL GEOGRAPHICALLY WEIGHTED REGRESSION (GWR)
(STUDI KASUS DATA TINGKAT KEMISKINAN JAWA TIMUR
TAHUN 2010)
Apry Zakaria Ramadhan, Henny Pramoedyo, Rahma Fitriani.
Jurusan Matematika, F.MIPA, Universitas Brawijaya
Email : [email protected]
Abstrak. Salah satu metode yang digunakan untuk mengatasi multikolinieritas lokal pada model Geographically Weighted
Regression adalah metode Geographically Weighted Lasso (GWL). GWL merupakan pengembangan dari metode GWR
(Geographically Weighted Regression) dengan menambahkan metode Least Absolute Shrinkage and Selection Operator
(Lasso) pada model karena GWR belum mampu mengatasi kasus multikolinieritas. GWL terdiri dari dua metode yaitu GWL
Lokal dan GWL Global. Pendeteksi adanya multikolinieritas adalah nilai VIF (Variance Inflation Factor) yang lebih dari 10.
GWL menggunakan parameter shrinkage sebagai batasan lasso untuk menduga parameter. Pada pemodelan data tingkat
kemiskinan dengan metode GWL Lokal didapatkan model yang berbeda-beda di setiap wilayah, sedangkan pada metode
GWL Global didapatkan satu model untuk keseluruhan wilayah Jawa Timur. Berdasarkan nilai MSE dapat disimpulkan
bahwa metode GWL Lokal lebih efisien untuk memodelkan data tingkat kemiskinan dikarenakan terdapat faktor
keheterogenitas spasial dan perbedaan geografis di setiap wilayah yang berpengaruh terhadap tingkat kemiskinan Jawa
Timur.
Kata Kunci: multikolinieritas lokal, GWL Lokal, GWL Global, tingkat kemiskinan
1. PENDAHULUAN
Kemiskinan merupakan suatu fenomena keheterogenan spasial, yang biasanya ditunjukkan
dengan kecenderungan masyarakat miskin mengelompok pada suatu wilayah tertentu. Adanya variasi
geografis dalam kemiskinan dan besarnya tingkat kemiskinan sering disebabkan oleh faktor-faktor
dengan dimensi spasial, seperti sumber daya alam dan akses layanan seperti kesehatan dan pendidikan,
sehingga perlu dilakukan analisis dengan menggunakan metode spasial (Henninger dan Snel, 2002).
Geographically Weighted Regression (GWR) merupakan salah satu pengembangan model
regresi OLS yang digunakan untuk mengatasi masalah heterogenitas spasial yang disebabkan oleh
kondisi lokasi yang satu dengan lokasi lain tidak sama, tetapi model GWR belum bisa mengatasi kasus
multikolinieritas lokal sehingga penambahan Lasso (Least Absolute Shrinkage and selection Operator)
diharapkan lebih efektif dalam pemodelan. Multikolinieritas lokal merupakan suatu keadaan di mana
terdapat satu atau lebih variabel bebas yang berkorelasi dengan variabel bebas lainnya disetiap lokasi
pengamatan. Pada faktor-faktor kemiskinan seperti angka partisipasi kerja, tingkat pengangguran
terbuka, pekerja sektor informal, rata-rata lama sekolah, dan angka melek huruf tidak boleh saling
berkolerasi satu sama lain. Jika terdapat kolerasi antar faktor-faktor kemiskinan akan berdampak pada
prediksi yang kurang tepat sehingga akan menyebabkan kesalahaan intepretasi.
Lasso yang diaplikasikan pada model Geographically Weighted Regression yang dikenal
dengan istilah Geographically Weighted Lasso Regression (GWL) merupakan metode yang digunakan
untuk mengatasi kasus multikolinieritas lokal sehingga diharapkan dapat diperoleh pendugaan
parameter koefisien yang tidak bias dan efisien sehingga hasil prediksi pada model lebih akurat
(Wheeler dan Tiefelsdorf, 2005). Penulis tertarik untuk memodelkan data tingkat kemiskinan Jawa
Timur tahun 2010 dan untuk memenuhi tujuan tersebut, maka digunakan perbandingan antara metode
GWL Lokal dan GWL Global dalam mengatasi multikolinieritas pada model Geographically
Weighted Regression (GWR).
2. TINJAUAN TEORI
Model Geographically Weighted Regression merupakan pengembangan dari model regresi linier
dengan mempertimbangkan spasial (lokasi). Secara sistematis model dari Geographically Weighted
Regression (GWR) menurut Fotheringnam , Brundson, dan Charlton (2002) adalah sebagai berikut:
(
)
∑
(
)
+
di mana merupakan nilai observasi variabel respon lokasi ke-i,
nilai observasi variabel prediktor
k pada lokasi ke-i, (
)nilai intersep model GWR,
(
)parameter regresi untuk setiap
lokasi ke-i, (
) titik koordinat (lintang, bujur) pada lokasi ke-i, dan galat ke-i yang di asumsikan
IIDN
(
).
Fungsi dari pembobot adalah untuk memberikan hasil pendugaan parameter yang berbeda pada
lokasi yang berbeda. Jarak euclidean ( ) antara lokasi ke-i dan lokasi ke-j dapat dihitung dengan
menggunakan persamaan (Leung, Mei, dan Zhang, 2000):
√(
)
(
)
Fungsi pembobot adaptive Bisquare Kernel dapat dinyatakan sebagai berikut (Chasco, dkk., 2007):
[
(
jika dij ≤ b
) ]
=
jika dij ≥ b
0
b adalah nilai bandwidth (Fotheringham, Brunsdon, dan Charlton, 2002).
Pengujian pengaruh spasial menggunakan uji heterogenitas spasial adalah menguji efek
heterogenitas yang terjadi dengan menggunakan Uji Breusch Pagan.
Statistik Uji Breusch Pagan (BP)
BP =( )
(
)
(k)
Di mana merupakan nilai error untuk observasi ke –i, Z merupakan matriks berukuran nx
(k+1) yang berisi vektor yang sudah di normal standarkan untuk setiap observasi, Tolak H0 jika
BP> (k).
Saat pemodelan GWR, perhitungan nilai VIF mungkin dilakukan untuk masing-masing
variabel prediktor. Nilai VIF dinyatakan sebagai berikut :
VIFk(
)=
(
)
(
)adalah koefisien determinasi antara Xk dengan variabel prediktor lainnya untuk
dengan
setiap lokasi (
).
Lasso yang diaplikasikan pada model GWR merupakan suatu metode spasial yang digunakan
untuk mengatasi kasus heterogenitas dan kasus multikolinieritas lokal sehingga diharapkan dapat
diperoleh pendugaan parameter koefisien yang tidak bias dan efisien sehingga hasil prediksi pada
model lebih akurat (Wheeler dan Tiefelsdorf, 2005). Lasso didefinisikan sebagai berikut
(̂
)=∑
(
∑
)
Dengan syarat ∑ | |
Pedugaan koefisien lasso diperoleh dengan menentukan batas yang dibakukan yaitu s = t /∑ | ̂ |
dengan t = ∑ | ̂ | dan ̂ adalah penduga parameter untuk model penuh atau pada gambar ditulis
|
|
| (Dewi, 2010).
sebagai |
Pada GWL-lokal, untuk setiap lokasi variabel x dan y distandardkan terlebih dahulu untuk
mengatasi perbedaan skala. Pendugaan parameter GWL-lokal untuk mengontrol koefisien parameter
agar lebih efisien sehingga ada shrinkage parameter si di setiap lokasi i. Pendugaan parameter
shrinkage dan bandwith adaptive bi-square kernel menggunakan leave-oneout cross-validation (CV).
Metode GWL-global sesuai untuk model lokal keseluruhan yang memodelkan secara global
variabel x. Ini juga menghasilkan pendugaan parameter lasso untuk mengontrol nilai koefisien
shrinkage. Matriks pembobotnya adalah matriks berukuran (n . p) x (n x p)dan responnya adalah (n . n)
x ( n . p). Sehingga menghasilkan vektor pendugaan koefisien regresi berukuran (n .p)×1.
Koefisien parameter pada model GWL diduga dengan menggunakan metode Weighted Least
94
Squares (WLS) dengan menambahkan fungsi penggada lagrange. Batasan nilai mutlak pada koefisien
regresi menyebabkan pola nonlinier sehingga harus diselesaikan dengan program kuadratik (Arumsari,
2011).
̂(
)
(
(
)
)
(
)
3. METODOLOGI
Tahapan-tahapan yang dilakukan adalah melakukan pengujian pengaruh heterogenitas spasial
dengan menggunakan uji Breusch Pagan untuk mengetahui adalah pengaruh heterogenitas spasial
pada data tingkat kemiskinan. Melakukan pemodelan GWR dengan menduga bandwidth kernel dan
menghitung nilai pembobot bi square kernel yang akan digunakan untuk meduga koefisien regresi
pada model GWR. Mendeteksi multikolinieritas lokal di setiap lokasi pengamatan dengan
menggunakan VIF. Setelah diketahui terdapat variabel bebas yang berkorelasi dengan variabel bebas
lainnya, maka dilakukan pembandingan antara GWL Lokal Lokal dan GWL Global untuk mengetahui
metode yang baik dalam mengatasi multikolinieritas lokal pada model GWR.
Tabel 1. Variabel yang diteliti
Variabel
APK
TPT
PSI
RLS
AMH
Keterangan
Angka Partisipasi Kerja
Tingkat Pengangguran Terbuka
Pekerja Sektor Informal
Rata-rata Lama Sekolah
Angka Melek Huruf
4. HASIL DAN PEMBAHASAN
Statistik uji Breusch-Pagan untuk data tingkat kemiskinan adalah 29.146, yang lebih besar dari
titik kritis (
) yaitu sebesar 14.06731 sehingga disimpulkan bahwa terdapat pengaruh
heterogenitas spasial di setiap Kabupaten/Kota di Jawa Timur.
Keberartian parameter model GWR dilakukan berdasarkan hipotesis berikut:
)
H0 : (
)
H1 : (
di mana
dan
.
dengan hasil pengujian parameter GWR seperti tersaji pada tabel 1, di mana Kabupaten Pacitan
sebagai contoh:
Tabel 2. Pengujian parameter model GWR pada Kabupaten Pacitan
Parameter
Nilai Duga
14.94
0.446
1.322
-2.545
-2.793
1.2573
Statistik
uji t
28.32*
0.719
1.189
-1.36
-2.211*
0.852
* = signifikan pada tingkat nyata 0.05
Dari hasil pendugaan parameter untuk Kabupaten Pacitan diketahui bahwa hanya satu variabel yang
berpengaruh signifikan yaitu, variabel RLS. Oleh karena itu perlu dideteksi adanya multikolinieritas
lokal pada model GWR.
Berdasarkan hasil deteksi multikolinieritas lokal dengan VIF diketahui bahwa terdapat
multikolinieritas lokal pada data tingkat kemiskinan karena nilai VIF untuk variabel TPT, PSI dan
AMH lebih dari 10. Oleh karena itu pemodelan GWL perlu dilakukan pada data tersebut, sehingga
hasil prediksi yang didapatkan lebih informatif dan maksimal.
95
Tabel 3. Pendugaan parameter model GWL Global
Variabel
Koefisien
R2
MSE
Intersep
-3.349
APK
-0.474
TPT
0.437
0.975
0.352
PSI
-0.293
RLS
-0.278
AMH
1.209
Diketahui bahwa nilai MSE yang dihasilkan adalah 0.352 dan R2 sebesar 97.5%, terlihat bahwa model
GWL Global yang didapatkan adalah model yang.
Pada pemodelan GWL Lokal didapatkan seluruh variabel prediktor berpengaruh signifikan
terhadap tingkat kemiskinan. Nilai MSE untuk GWL Lokal sebesar 0.167 dan R2 sebesar 76.5%.
Berdasarkan perbandingan nilai MSE dan R2 pada metode GWL Global dan GWL Lokal
dikatakan bahwa GWL Lokal adalah model yang layak digunakan untuk data tingkat kemiskinan di
Jawa Timur pada tahun 2010 dibandingkan dengan metode GWL Global karena memiliki nilai MSE
yang lebih kecil dibandingkan metode GWL Global. Berdasarkan nilai R-square model GWL lokal
76.5% keragaman model dapat dijelaskan oleh varabel respon yaitu tingkat kemiskinan, sehingga
model GWL Lokal baik digunakan untuk memprediksi tingkat kemiskinan di kabupaten/kota di Jawa
timur.
5. KESIMPULAN
Dari hasil perbandingan metode GWL Global dan GWL Lokal, metode GWL Lokal adalah
metode yang layak digunakan pada data tingkat kemiskinan di Jawa Timur pada tahun 2010. Hal ini
dikarenakan nilai MSE (Mean Square Error) pada metode GWL Lokal lebih kecil dibandingkan nilai
MSE (Mean Square Error) pada metode GWL Global yaitu sebesar 0.167. Pemodelan dengan
menggunakan GWL Lokal faktor keheterogenitas spasial dipengaruhi tingkat kemiskinan di Jawa
timur. Oleh karena itu pemodelan GWL Lokal tepat digunakan untuk memprediksi tingkat kemiskinan
di Jawa Timur.
DAFTAR PUSTAKA
Arumsari. N., (2011), Penggunaan Pemodelan Geographically Weighted Lasso (GWL) pada Penderita
Diare di Kabupaten Sumenep, Tesis, ITS Surabaya
Dewi, Y.S., (2010), OLS, LASSO, dan PLS pada Data Mengandung Multikolinieritas, Jurnal Ilmu
Dasar 11(1), hal. 83-91
Fotheringham. A.S., Brunsdon., C, and Charlton., M, (2002), Geographically Weighted Regression
The Analysis of Spatially Varying Relationships, John Wiley & Sones, LTD. New York. U.S.
76.
Leung, Y., Mei., C.L., and Zhang., W.X., (2000), Statistical tests for spatial nonstationarity based on
the geographically weighted regression model. Journal of Environ Plan A,32, hal. 9-32
Henninger, N., and Snell., M., (2002), Where Are The Poor ? Experiences with The Deveopment and
Use of Proverty Maps, World Resources Institute,Washington, DC.
Wheeler, D., and Tiefelsdorf., M., (2005), Multicollinearity and correlation among local regression
coefficients in geographically weighted regression. Journal of Geographical System, 7, hal. 161
– 187.
96
Download