Tabel 1.1 Hasil estimasi parameter regresi kuantil

advertisement
PENGUJIAN HIPOTESIS PADA REGRESI
KUANTIL
Nurwahida Astari, Amran, Andi Kresna Jaya
Departemen Matematika
Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Hasanuddin
E-mail: nurwahida.astari95yahoo.co.id
Abstrak
Umumnya, pengujian hipotesis pada analisis regresi didasarkan pada asumsi error
berdistribusi normal dengan πœ‡ = 0 dan variansi 𝜎 2 . Namun, asumsi error berdistribusi
normal tidak dipenuhi pada kelompok data dengan bentuk distribusi tidak simetris. Salah
satu metode analisis untuk data yang berdistribusi tidak simetris adalah regresi kuantil.
Pengujian hipotesis pada regresi kuantil menjadi suatu masalah penting yang perlu diatasi.
Tugas akhir ini membahas tentang pengujian hipotesis pada regresi kuantil menggunakan
uji Wald. Estimasi parameter menggunakan metode interior point dengan algoritma
Frisch-Newton. Ditunjukkan bahwa distribusi asimtotik estimator berdistribusi normal
(0, π‘Š0 ). Dari distribusi asimtotik tersebut diperoleh fungsi sparsity. Rumusan fungsi
sparsity digunakan untuk mengkonstruksi statistik uji Wald yang berdistribusi chi-square
dengan derajat bebas 𝑛. Aplikasi pengujian hipotesis pada regresi kuantil menggunakan
kuantil atas menunjukkan bahwa Sea Surface Temperature (SST) Niño 3.4 memberikan
pengaruh yang signifikan terhadap curah hujan di Kota Makassar pada kuantil 0.75, 0.80,
0.85, 0.90, dan 0.95.
Kata Kunci:
Regresi Kuantil, Interior Point, Asimtotik Distribusi Normal, Fungsi
Sparsity, Uji Wald, Curah Hujan, SST Niño 3.4.
Pendahuluan
Analisis regresi dalam ilmu statistika merupakan salah satu metode statistik
yang digunakan untuk melihat apakah ada hubungan yakni sebab dan akibat antara
dua atau lebih variabel. Variabel dibagi menjadi dua jenis yaitu variabel terikat dan
variable bebas. Analisis regresi memerlukan suatu metode untuk estimasi parameter
yang memenuhi sifat Best Liniear Unbiased Estimator (BLUE). Salah satu metode
estimasi yang sering digunakan adalah Ordinary Least Square (OLS). Analisis
regresi menggunakan metode OLS berdasarkan pada fungsi mean. Perkembangan
metode estimasi parameter model dengan data berdistribusi tidak simetris dimulai
dengan metode Least Absolute Deviation (LAD) dan dikenal sebagai regresi kuantil
median. Nilai estimasi parameter dengan menggunakan metode LAD dapat
diperoleh dengan meminimumkan jumlah nilai mutlak dari error. Selain regresi
kuantil median dikenal juga regresi kuantil.
Regresi kuantil adalah salah satu metode regresi dengan memisahkan atau
membagi data menjadi kuantil-kuantil tertentu dimana diduga terdapat perbedaan
nilai estimasi. Regresi kuantil pertama kali diperkenalkan oleh Koenker dan Basset
(1978). Rahmawati dkk (2011) meneliti regresi kuantil mengenai studi kasus pada
data suhu harian. Navianti (2014) membahas mengenai regresi kuantil untuk
pemodelan tingkat pengangguran terbuka di Indonesia. Rahmawati dkk (2011)
hanya berfokus pada estimasi parameter regresi kuantil dan Navianti (2014)
berfokus pada selang kepercayaan pada regresi kuantil.
Regresi kuantil sangat berguna untuk data dengan distribusi tidak simetris,
dalam bidang meteorologi dapat diterapkan pada data curah hujan, temperatur, dan
perubahan iklim. Data curah hujan merupakan data musiman, sehingga pada waktu
tertentu (Desember, Januari, Februari) terjadi hujan lebat. Kejadian Hujan lebat
dapat dimodelkan dengan menggunakan analisis regresi kuantil bagian atas,
khususnya untuk nilai ekstrem. Kombinasi dari setiap nilai kuantil dapat
menjelaskan pola keseluruhan data sehingga bermanfaat untuk menganalisa bagian
tertentu dari sebaran bersyarat.
Pengujian hipotesis merupakan hal yang penting dalam tahapan analisis
regresi. Pengujian hipotesis pada analisis regresi didasarkan pada asumsi error
berdistribusi normal dengan πœ‡ = 0 dan variansi 𝜎 2 dengan data yang berdistribusi
simetris. Asumsi error tersebut umumnya tidak dipenuhi pada data kuantil atas
yang berdistribusi tidak simetris. Berdasarkan asumsi tersebut penulis tertarik untuk
membahas “Pengujian Hipotesis pada Regresi Kuantil”.
Regresi Kuantil
Misalnya π‘Œ merupakan suatu variabel acak dengan suatu fungsi distribusi
πΉπ‘Œ dan 𝜏 merupakan konstanta dimana 0 < 𝜏 < 1. Kuantil ke- 𝜏 dari πΉπ‘Œ ,
dinotasikan sebagai π‘žπ‘Œ (𝜏) merupakan solusi untuk πΉπ‘Œ (π‘ž) = 𝜏, adalah sebagai
berikut:
π‘žπ‘¦ (𝜏) ≔ 𝐹𝑦−1 (𝜏) = inf{𝑦 ∢ πΉπ‘Œ (𝑦) ≥ 𝜏}.
Seperti halnya dengan suatu metode OLS yang digunakan sebagai meminimumkan
jumlah kuadrat error (sisaan) untuk menentukan suatu nilai parameter 𝛽, maka
dalam analisis regresi kuantil, kuantil ke- 𝜏 dari πΉπ‘Œ dapat diperoleh dengan
meminimumkan suatu fungsi berikut ini terhadap π‘ž:
|𝑦 − π‘ž|π‘‘πΉπ‘Œ (𝑦) + (1 − 𝜏) ∫
𝜏∫
𝑦>π‘ž
= 𝜏∫
|𝑦 − π‘ž|π‘‘πΉπ‘Œ (𝑦)
𝑦<π‘ž
(𝑦 − π‘ž)π‘‘πΉπ‘Œ (𝑦) − (1 − 𝜏) ∫
𝑦>π‘ž
(𝑦 − π‘ž)π‘‘πΉπ‘Œ (𝑦).
(1)
𝑦<π‘ž
Dengan meminimumkan fungsi persamaan (1), dapat diperoleh persamaan berikut
ini:
0 = −𝜏 ∫
π‘‘πΉπ‘Œ (𝑦) + (1 − 𝜏) ∫
𝑦>π‘ž
π‘‘πΉπ‘Œ (𝑦)
𝑦<π‘ž
0 = −𝜏[1 − πΉπ‘Œ (π‘ž)] + (1 − 𝜏)πΉπ‘Œ (π‘ž)
0 = −𝜏 + πΉπ‘Œ (π‘ž)
sehingga diperoleh:
𝜏 = πΉπ‘Œ (π‘ž),
sehingga persamaan (2) merupakan kuantil ke- 𝜏 adalah solusi dari πΉπ‘Œ .
(2)
Misalkan π‘Œ sebagai suatu fungsi dari 𝑋 yang telah diketahui, yang memiliki
peluang yaitu πΉπ‘Œ|𝑋 (𝑦), maka kuantil ke- 𝜏 dari fungsi tersebut dapat dituliskan
−1
(𝜏). π‘„π‘Œ|𝑋 (𝜏) ini merupakan suatu fungsi dari 𝑋 dan dapat
sebagai π‘„π‘Œ|𝑋 (𝜏) ≔ πΉπ‘Œ|𝑋
diselesaikan dengan persamaan berikut ini:
min [𝜏 ∫ |𝑦 − π‘ž|𝑑𝐹𝑦 (𝑦) + (1 − 𝜏) ∫ |𝑦 − π‘ž|𝑑𝐹𝑦 (𝑦)].
π‘ž
𝑦>π‘ž
(3)
𝑦<π‘ž
Jika π‘„π‘Œ|𝑋 (𝜏) adalah fungsi linier π‘Ώπœ·, dengan vektor parameter 𝛽 yang tidak
diketahui, sehingga persamaan (3) menjadi:
|𝑦 − 𝑋𝛽|π‘‘πΉπ‘Œ (𝑦) + (1 − 𝜏) ∫
min [𝜏 ∫
𝛽
𝑦>𝑋𝛽
|𝑦 − 𝑋𝛽|π‘‘πΉπ‘Œ (𝑦)] .
(4)
𝑦<𝑋𝛽
Solusi dari persamaan (4) ini dinotasikan sebagai 𝛽0 dan kuantil π‘Œ (sebagai fungsi
dari 𝑋) ke- 𝜏 adalah π‘„π‘Œ|𝑋 (𝜏) = 𝑋𝛽0 (Kuan, 2007).
π‘„π‘Œ|𝑋 (𝜏) = π‘₯𝑑 𝛽 adalah kuantil ke-𝜏 (0 < 𝜏 < 1) yang nilai 𝑦 tergantung
terhadap π‘₯𝑑 . Suatu nilai estimasi terhadap 𝛽 dari regresi kuantil ke-𝜏 diperoleh
dengan meminimumkan jumlah nilai mutlak dari error dengan pembobot 𝜏 untuk
error positif dan pembobot (1 − 𝜏) untuk error negatif adalah:
𝛽̂ (𝜏) = arg min {𝜏 ∑ |𝑦𝑑 − π‘₯𝑑 𝛽| + (1 − 𝜏) ∑ |𝑦𝑑 − π‘₯𝑑 𝛽|}
𝛽
𝑑:𝑦𝑑 ≥π‘₯𝑑
(5)
𝑑:𝑦𝑑 <π‘₯𝑑
atau
𝛽̂ (𝜏) = arg min ∑
𝛽
𝑛
𝜌𝜏 (𝑒𝑖 )
𝑖=1
(6)
untuk:
πœπ‘’π‘–
𝜌𝜏 (𝑒𝑖 ) = {
(𝜏 − 1)𝑒𝑖
jika 𝑒𝑖 ≥ 0
jika 𝑒𝑖 < 0
Solusi dari persamaan (5) atau (6) tidak dapat diperoleh secara analitik,
melainkan dikerjakan secara numerik, seperti metode simplex, metode interior
point, atau metode smoothing.
Pengujian Hipotesis
Analisis regresi kuantil diterapkan pada sampel yang berukuran besar, maka
parameter regresi kuantil menggunakan uji Wald. Asumsi hipotesis linier adalah
π‘Ήπ›½πœ = 𝒓, dimana 𝑹 adalah matriks dengan full row rank berukuran π‘ž × π‘˜, dan 𝒓
adalah vektor berukuran π‘ž × 1 pada nilai hipotesis.
Rumusan hipotesis yang digunakan dalam penelitian ini adalah sebagai berikut:
𝐻0 : 𝛽 = 0
𝐻1 : 𝛽 ≠ 0
A. Inferensi Asimtotik pada Regresi Kuantil
Dalam regresi kuantil terdapat fungsi kuantil bersyarat ke-𝜏 yang
mempertimbangkan estimasi 𝛽(𝜏), sehingga diperoleh solusi pada persamaan (6)
atau dinyatakan pada persamaan (7):
𝛽̂ (𝜏) = arg min ∑
𝛽
𝑛
𝜌𝜏 (π‘Œπ‘– − 𝑋𝑖 𝛽).
(7)
𝑖=1
Beberapa kondisi yang digunakan Newey dan McFadden (1994) terhadap
teorema asimtotik normal sebagai berikut:
𝑛
1
−1
(8)
∑ 𝑋𝑖 {1[π‘Œπ‘– ≤ 𝑋𝛽(𝜏)] − 𝜏} + 𝑂𝑝 (1)
√𝑛[𝛽̂ (𝜏) − 𝛽(𝜏)] = 𝑀0
√𝑛 𝑖=1
Berdasarkan persamaan (8) 𝑀0 adalah Hessian terhadap limit fungsi loss, dan
1
𝑛
𝑑
∑ 𝑋𝑖 {1[π‘Œπ‘– ≤ 𝑋𝛽(𝜏)] − 𝜏} → 𝒩(0, 𝑉0 )
√𝑛 𝑖=1
dengan:
𝑉0 = 𝐸({1[π‘Œπ‘– ≤ 𝑋𝛽(𝜏)] − 𝜏}2 𝑋𝑖 𝑋𝑖′ ) = 𝜏(1 − 𝜏)𝐸(𝑋 ′ 𝑋𝑖 ).
Perhatikan bahwa asumsi linier pada kuantil bersyarat adalah dinyatakan dalam
persamaan (9) dan (10):
𝑑
(9)
√𝑛[𝛽̂ (𝜏) − 𝛽(𝜏)] → 𝒩(0, π‘Š0 )
dimana:
𝜏(1 − 𝜏)
[𝐸(𝑋𝑖′ 𝑋𝑖 )]−1 .
π‘Š0 =
(10)
2
−1
𝑓(𝐹 (𝜏))
B. Menentukan Nilai Statistik Uji
̂𝝉
Uji Wald digunakan pada regresi kuantil untuk mengecek apakah π‘Ήπœ·
signifikan terhadap hipotesis nilai 𝒓. Asumsi bahwa estimasi konsisten lemah untuk
−1 (𝜏)). Sehingga dari persamaan (7) diperoleh
𝑓(𝐹 −1 (𝜏)) dinotasikan dengan 𝑓(𝐹̂
hipotesis nol seperti berikut ini:
𝐴
𝜏(1 − 𝜏)
Μ‚
[𝐸(𝑋𝑖′ 𝑋𝑖 )]−1 )
√𝑛[𝛽 (𝜏) − 𝛽(𝜏)] ~ 𝒩 (0,
2
−1
𝑓(𝐹 (𝜏))
−1 (𝜏))
𝑓(𝐹
> 0 memiliki kepadatan positif dimana 𝐹 −1 (𝜏) = 𝑄(𝜏), dengan
parameter skala
𝜏(1−𝜏)
𝑓(𝐹−1 (𝜏))
2
menjadi fungsi 𝑠(𝜏) =
1
𝑓(𝐹 −1 (𝜏))
2
yang disebut sebagai
fungsi sparsity. Parzen (1979) menyatakan bahawa fungsi sparsity adalah fungsi
kepadatan kuantil. Nilai 𝑓(𝐹 −1 (𝜏)) tidak diketahui dan harus diestimasi. Estimasi
telah diusulkan Siddiqui (1960) dalam buku Davino dkk (2014) menyatakan bahwa:
1
𝑠(𝜏) =
−1
𝑓(𝐹 (𝜏))
(11)
−1 (𝜏
𝐹
+ β„Ž) − 𝐹 −1 (𝜏 − β„Ž)
=
2β„Ž
Bandwidth β„Ž dari fungsi 𝐹 harus didefinisikan. Koenker dan Machado (1999)
menyarankan menggunakan bandwidth:
β„Ž=
1
1 2 1.5πœ™ 4 (Φ −1 (𝜏)) 3
𝑛 −3 𝓏 3 [
]
(2Φ−1 (𝜏)2 + 1)
(12)
Berdasarkan teorema Slutsky dan sifat distribusi normal, mengalikan 𝑹 pada
distribusi maka diperoleh:
𝐴
Μ‚
Μ‚
(𝜏)
𝑹√𝑛[𝛽
− 𝛽(𝜏)] = √𝑛(𝑹𝛽(𝜏) − π‘Ÿ) ~ 𝒩(0, π‘Ήπ‘ΎπŸŽ 𝑹′ ).
Dengan hukum bilangan besar lemah, 𝑀𝑛 = 𝑛−1 ∑𝑛𝑖=1 𝒙′π’Š π’™π’Š konsisten terhadap
𝐸(𝑋𝑖′ 𝑋𝑖 ). Estimasi konsisten lemah untuk π‘Š0 adalah:
𝜏(1 − 𝜏)
Μ‚0 =
[𝑀𝑛 ]−1
π‘Š
2
−1
𝑓(𝐹 (𝜏))
atau:
Μ‚0 =
π‘Š
𝜏(1 − 𝜏)
𝑓(𝐹 −1 (𝜏))
𝑛
2 [𝑛
−1
−1
∑ 𝒙′π’Š π’™π’Š ]
𝑖=1
(13)
sehingga:
1
𝐴
−
2
Μ‚
Μ‚
Γ𝜏 √𝑛(𝑹𝛽(𝜏) − π‘Ÿ) ~ 𝒩(0, π‘°π‘ž )
1
Μ‚ 𝟎 𝑹′ .
dimana ΓΜ‚ −2 = 𝑹𝑾
1
Μ‚ 𝝉 − 𝒓) merupakan vektor berdistribusi normal. Hasil kali dalam
ΓΜ‚ −2 (π‘Ήπœ·
antara vektor tersebut sehingga diperoleh statistik uji Wald berikut ini:
𝐴
1
Μ‚ 𝝉 − 𝒓)′ ΓΜ‚ −2 (π‘Ήπœ·
Μ‚ 𝝉 − 𝒓) ~ πœ’ 2 (𝑛)
(14)
𝒲𝑛 (𝜏) = 𝑛(π‘Ήπœ·
C. Kriteria Penerimaan dan Penolakan 𝐻0
Jika nilai 𝒲𝑛 (𝜏) ≥ nilai tabel chi-square maka 𝐻0 ditolak
Jika nilai 𝒲𝑛 (𝜏) < nilai tabel chi-square maka 𝐻0 tidak ditolak
Aplikasi Pengujian Hipotesis Pada Regresi Kuantil
Data yang digunakan berupa data curah hujan bulanan dan Sea Surface
Temperature (SST) Niño 3.4. Data curah hujan diperoleh dari BMKG Maros yaitu
data curah hujan Stasiun Meteorologi Hasanuddin Makassar periode Januari 1983September 2015. Data SST Niño 3.4 diperoleh dari internet
http://www.esrl.noaa.gov/psd/gcos_wgsp/Timeseries/Nino34/. Program komputer
yang digunakan untuk mendukung proses penelitian ini adalah program RStudio.
Berdasarkan fungsi kuantil 𝜏 ∈ [0.1] dapat didekati dalam bentuk fungsi
distribusi empiris. Grafik fungsi distribusi empiris adalah sebagai berikut:
Gambar (a) Fungsi Distribusi Empiris
𝐹𝑦 (π‘Œ)
Gambar (b) Fungsi Distribusi
Empiris π‘„π‘Œ (𝜏)
Berdasarkan gambar (b) dapat disimpulkan bahwa π‘„π‘Œ (0.75) = 405, yang
berarti pada data curah hujan nilai kuantil 0.75 berada disekitaran 405, kuantil 0.80
berada disekitaran 493, kuantil 0.85 berada disekitaran 552, kuantil 0.90 berada
disekitaran 687, dan kuantil 0.95 berada disekitaran 863.
Tabel 1.1 Hasil estimasi parameter regresi kuantil
Kuantil
0.75
0.80
0.85
0.90
0.95
Sumber: hasil olah data
Intercept (𝛽0 )
403.8846
481.7586
533.6131
643.8378
824.8028
Kemiringan (𝛽1 )
−113.4615
−117.2414
−98.0926
−121.6216
−64.6789
Nilai estimasi parameter 𝛽0 berbanding lurus dengan kuantil dalam hal ini
semakin besar kuantil yang dipilih, maka nilai estimasi parameter 𝛽0 meningkat.
Persamaan regresi untuk kuantil 75%, 80%, 85%, 90%, dan 95% adalah sebagai
berikut:
π‘Œ75% = 403.8846 − 113.4615𝑋
π‘Œ80% = 481.7586 − 117.2414𝑋
π‘Œ85% = 533.6131 − 98.0926𝑋
π‘Œ90% = 643.8378 − 121.6216𝑋
π‘Œ95% = 824.8028 − 64.6789𝑋
Selang kepercayaan estimasi parameter 𝛽0 dan 𝛽1 menggunakan 𝛼 = 0.05 untuk
kelima kuantil atas adalah sebagai berikut:
Tabel 1. 2 Selang kepercayaan terhadap estimasi parameter
Kuantil
𝛽0
75%
354.8393 − 451.5338
80%
430.1285 − 522.6401
85%
512.1712 − 610.0504
90%
609.2118 − 739.2684
95%
772.1026 − 917.2122
Sumber: hasil olah data
𝛽1
−144.9374 − (−55.1881)
−145.5004 − (−77.0079)
−151.6838 − (−76.6799)
−146.3982 − (−68.4706)
−175.0718 − 7.7018
Gambar (c) Plot estimasi parameter regresi kuanti pada kuantil atas
Nilai bandwidth berdasarkan pada persamaan (12) adalah:
Tabel 1. 3 Nilai bandwidth berdasarkan data menggunakan program RStudio.
Kuantil
0.75
β„Ž
0.0919
Sumber: hasil olah data
0.80
0.0781
0.85
0.0633
0.90
0.0472
0.95
0.0290
Nilai fungsi sparsity berdasarkan persamaan (4.10) pada kuantil 0.75, 0.80, 0.85,
0.90, dan 0.95 adalah sebagai berikut:
Kuantil 0.75 adalah 7.4715 × 10−4
Kuantil 0.80 adalah 5.6522 × 10−4
Kuantil 0.85 adalah 4.6520 × 10−4
Kuantil 0.90 adalah 3.2218 × 10−4
Kuantil 0.95 adalah 2.1887 × 10−4
Μ‚0 pada kuantil
Berdasarkan persamaan (13) nilai estimasi konsisten lemah untuk π‘Š
0.75, 0.80, 0.85, 0.90, dan 0.95 adalah sebagai berikut:
330005.1055
Kuantil 0.75 adalah [
13200.2042
13200.2042
]
435606.7392
492064.9827
Kuantil 0.80 adalah [
19682.5993
19682.5993
]
649525.7771
578849.1751
Kuantil 0.85 adalah [
23153.9670
23153.9670
]
764080.9112
851878.6127
Kuantil 0.90 adalah [
34075.1445
34075.1445
]
1124479.7688
974214.0531
Kuantil 0.95 adalah [
38968.5621
38968.5621
]
1285962.5501
Menentukan nilai statistik uji pada regresi kuantil menggunakan uji Wald
berdasarkan persamaan (14) maka nilai uji Wald pada kuantil 0.75, 0.80, 0.85, 0.90,
0.95 adalah sebagai berikut:
𝒲99 (0.75) = 5.7647 × 1012
𝒲79 (0.80) = 9.5518 × 1012
𝒲59 (0.85) = 1.0015 × 1013
𝒲39 (0.90) = 1.4213 × 1013
𝒲20 (0.95) = 1.3280 × 1013
Penerimaan dan Penolakan 𝐻0
𝒲99 (0.75) ≥ πœ’ 2 (99) atau 5.7647 × 1012 ≥ 123.2252
𝒲79 (0.80) ≥ πœ’ 2 (79) atau 9.5518 × 1012 ≥ 100.7486
𝒲59 (0.85) ≥ πœ’ 2 (59) atau 1.0015 × 1013 ≥ 77.9305
𝒲39 (0.90) ≥ πœ’ 2 (39) atau 1.4213 × 1013 ≥ 54.5722
𝒲20 (0.95) ≥ πœ’ 2 (20) atau 1.3280 × 1013 ≥ 31.4104
Kesimpulan
Untuk mendapatkan statistik uji Wald perlu ditunjukkan bahwa distribusi
asimtotik estimator berdistribusi normal (0, π‘Š0 ). Dari distribusi asimtotik tersebut
diperoleh fungsi sparsity. Rumusan fungsi sparsity digunakan untuk
mengkonstruksi statistik uji Wald yang berdistribusi chi-square dengan derajat
bebas 𝑛. Pengaplikasian pengujian hipotesis pada regresi kuantil menunjukkan
bahwa SST Niño 3.4 memberi pengaruh yang signifikan terhadap curah hujan
ekstrem di Kota Makassar.
Daftar Pustaka
Davino, C., Furno, M., & Vistocco, D. (2014). Quantile Regression Theory and
Applications. Wiley.
Koenker, R., & Bassett, Jr., G. (1978). Regression quantile. Econometrica. 46; 3350.
Kuan, C.-M. (2007). An Introduction To Quantile Regression. Econometrica.
Institute of Economics, Academia Sinica.
Navianti, D. R. (2014). Regresi Kuantil Untuk Pemodelan Tingkat Pengangguran
Terbuka di Indonesia. In Skripsi. Institut Teknologi Sepuluh Nopember.
Newey, W., & McFadden, D. (1994). Large Sample Estimation and Hypothesis
Testing, in R.
Rahmawati, R., Widiarti, & Novianti, P. (2011). Regresi Kuantil (Studi Kasus Pada
Suhu Harian).
Download