Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 ISSN 2085-7829 Aproksimasi Interval Konfidensi Bootstrap Approximate Confidence Interval Bootstrap Haeruddin Program Studi Statistika FMIPA Universitas Mulawarman Abstract We consider the problem of constructing approximate confidence intervals for a single parameter based on bootstrap computation percentile of a statistics. The standard approximate based on maximum likelihood ˆ ˆ z can be quite misleading and inaccurate. In practice, tricks based on transformation are often used to improve their accuracy. α 1α The confidence intervals [θ̂ , θ̂ ] constructed by using this approach arc also based on existence monoton transformation and have transformation-respecting property that is not possessed by standard normal approximate. The advantage of this approach, at least in practicing, is that it is automatically in corporate the transformation without requiring the statistician to think them through for each new application. It is handled by bootstrap computation. It is shown that the percentile interval is exact whenever the transformation known and it is consistent α 1α also by mean of confidence set i.e P θ [θ̂ , θ̂ ] (1 ) convergen to 0. In practice we must use some finite number B reptication, so that in setting these intervals we use α 1α Monte Carlo simulation that produce [θ̂ , θ̂ ] as an approximate to the ideal bootstrap interval. All of the process are done by a computer program in S-PLUS. Keywords : Bootstrap, confidence interval, bootstrap percentile, Monte Carlo, transformation. PENDAHULUAN Dalam banyak masalah inferensi statistik seorang peneliti tertarik untuk mengkontruksi suatu keluarga himpunan yang memuat nilai parameter yang benar dengan probabilitas yang tinggi. Dalam hal ini yang dikerjakan adalah suatu penaksiran selang (estimasi interval), yakni bagaimana membentuk interval random x atau disingkat , yang mempunyai peluang tinggi memuat . Misalkan gL(x) dan gu(x) adalah statistik sedemikian hingga berlaku : Pg L x θ g U x 1 2α Interval random [gL(x); gu(x)] dinamakan interval konfidensi 1 – 2α untuk parameter dengan koefisien konfidensi (1 – 2α). Dalam tulisan ini dipertimbangkan masalah membangun aproksimasi interval-interval konfidensi bootstrap untuk suatu parameter tunggal . Interval-interval konfidensi exact dapat dikonstruksi hanya dalam kasus parametrik dan dalam sedikit situasi-situasi khusus sehingga umumnya yang dibangun adalah aproksimasi dari interval tersebut. Fokus utama dalam teori asimtotik interval konfidensi adalah apakah cakupan probabilitas suatu interval konvergen ke level nominal interval tersebut. Program Studi Statistika FMIPA Universitas Mulawarman Dalam banyak kasus, himpunan kepercayaan dikonstruksi dengan mempertimbangkan suatu kuantitas pivotal n n X1 ,..., X n , F berdistribusi Gn. Jika kita dapat menurunkan θθθ dari pertidaksamaan PL n U 1 2α , maka , merupakan interval konfidensi dengan level 1 2α. Untuk kasus dimana parameter lokasi, maka n biasanya berbentuk θ̂ n θ , dimana θ̂ n σ̂ n 2 estimator dan σ̂ n estimator varians untuk θ̂ n maka interval konfidensi exact 1 - 2α untuk adalah: [θ̂ n σ̂ n G n 1 (1 α), θ̂ n σ̂ n G n 1 ( )] Untuk mencari kuantitas pivotal seperti di atas dalam suatu masalah yang diberikan biasanya tidak mudah, dengan kata lain tidak mudah mencari n dengan Gn distribusi yang diketahui. Jika Gn tidak diketahui maka interval (1,1) tidak dapat digunakan sebagai interval konfidensi dan untuk itu digunakan aproksimasi dari Gn. Dalam pendekatan asimptotik tradisional Gn diganti dengan limitnya. Jika limit Gn adalah G (independen dari F) maka Gn diganti dengan G. 1 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 Aproksimasi yang paling banyak dipakai adalah interval aproksimasi normal standar dengan menggunakan Teorema Limit Pusat yakni: θ̂ σ̂ z α Suatu pendekatan interval konfidensi berdasarkan komputasi bootstrap ditulis oleh Efron. R.Helmers (1995) memberikan perbandingan antara interval konfidensi standar dengan interval konfidensi bootstrap untuk parameter θ μ x dF(x) dengan F tidak diketahui. Beberapa teori asimptotik untuk bootstrap dibahas oleh Bickel dan Freedman (1981) tentang keakuratan ditulis oleh Singh (1981). Hall (1986) memberikan cacah simulasi bootstrap yang dibutuhkan untuk membangun suatu interval konfidensi khusus interval konfidensi persentil-t berdasarkan n sampel distribusi kontinu. Sebagai pedoman Efron dan Tibshirani menyarankan untuk mengambil B antara 50 sampai dengan 200 yang cukup memberikan estimasi yang baik dari se F θ̂ untuk interval konfidensi bootstrap dibutuhkan B yang lebih besar lagi. Dalam tesis ini dibahas tentang pengkonstruksian interval konfidensi berdasarkan persentil bootstrap yakni interval persentil BP dan BC. Kedua interval ini dibangun didasarkan kepada asumsi adanya transformasi monoton , namun untuk interval BC asumsi yang dipakai lebih umum dari interval BP yaitu adanya suku koreksi bias z0. Dalam penelitian ini akan dilihat tingkat akurasi kedua interval persentil tersebut dan perbandingannya dengan interval aproksimasi normal standar. Sebagai penunjang diberikan simulasi perbandingan interval-interval persentil dengan interval berdasarkan aproksimasi normal standar dan dengan aproksimasi normal berdasarkan transformasi. PENGERTIAN DASAR BOOTSTRAP Prinsip Dasar Bootstrap Definisi Jika X = (X1, X2, …, Xn) sampel random dari F maka X X1 , X 2 ,..., X n adalah sampel random bootstrap yaitu sampel yang diperoleh dari X secara random dengan pengembalian * * * * X1* , X *2 ,..., X *n independen dan identik berdistribusi bersyarat terhadap X. Prosedur bootstrap dapat diterapkan untuk kasus non parametrik maupun parametrik. Dalam kedua kasus tersebut, inferensi didasarkan pada suatu sampel X dan n random iid observasi dari populasi. Program Studi Statistika FMIPA Universitas Mulawarman ISSN 2085-7829 Dalam kasus non-parametrik, distribusi sampel Fn diambil dari distribusi populasi F yang tidak diketahui, Fn disebut distribusi empirik dari X, yakni fungsi distribusi yang mempunyai massa 1/n untuk setiap titik pada X, sedangkan untuk (1.2) kasus parametrik F diketahui. Dalam kedua kasus tersebut sampel X* diambil dengan resampling dari suatu distribusi yang ditentukan sampel asli X. Prinsip dasar dalam pembentukan sampel dengan metode bootstrap non-parametrik adalah sebagai berikut: 1. Konstruksi distribusi probabilitas dari sampel, yaitu Fn dengan massa 1/n pada setiap titik x1, x2, …, xn. 2. Dengan Fn tetap, ambil sampel random dengan ukuran n dari Fn sebut X*i dengan: X *i x *i , X *i ~ ind Fn , i = 1, 2, 3, …, n. Selanjutnya bootstrap, 3. sampel ini disebut X X , X ,..., X * * 1 * 2 * n sampel n X, Fn * * dengan distribusi bootstrap X , Fn Aproksimasi distribusi sampling * n Dalam kasus parametrik, F diketahui kecuali parameter yang tidak diketahui. Jadi pada kasus parametrik F diganti dengan F(), suatu anggota dari klas {F(), }. Misalkan λ̂ estimator dari dihitung dari X ditulis (X). maka Fn F λ̂ fungsi distribusi yang diperoleh dengan mengganti nilai parameter denan estimasi sampelnya. Misalkan X* sampai random dari Fn F λ̂ menyatakan versi dan misalkan λ̂ λ X * λ̂ yang dihitung dari X*. Maka F F λ̂ . Bagian yang sulit dari prosedur bootstrap ini adalah perhitungan yang sebenarnya dari bootstrap. Tiga metode perhitungan yang mungkin, yaitu: 1. Metode 1. Perhitungan secara langsung. 2. Metode 2. Metode perluasan deret Taylor dapat digunakan untuk memperoleh perkiraan mean dan varians dari distribusi bootstrap R*. 3. Metode 3. Dengan simulasi Monte Carlo untuk distribusi bootstrap. Dengan merealisasikan X* yang dibangun dengan mengambil sampel random berukuran n dan Fo sebut x*1, x*2, …, x*α, dan histogram yang bersesuaian dengan nilai * * x *1 , Fn , x *2 , Fn , ..., x *n , Fn diambil sebagai perkiraan untuk distribusi bootstrap yang sebenarnya. Prosedur bootstrap untuk estimasi adalah sebagai berikut: 2 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 1. Estimasi F 2. Diberikan dengan θ̂ n θFn . * 1 X1, * 2 X , X ,..., X X 2, Fn dan …, hitung Xn, misalkan * n adalah suatu sampel iid dengan distribusi Fn. Misalkan 3. *n b n θ̂ n X1* , X *2 ,..., X *n θ̂ n adalah versi bootstrap dari n . Distribusi n di bawah F, yaitu F(n) 4. Fn , distribusi dari * n diestimasi dengan di bawah Fn. * n Untuk menjelaskan metode bootstrap secara umum dipandang n = n(X1, X2, …, Xn) yaitu besaran yang tergantung dari sampel X = (Xt, X2, …, Xn) dan fungsi distribusi F. Untuk kasus khusus dapat n n θ̂ n θ , diambil dimana θ̂ adalah statistik untuk . Selanjutnya akan dicari distribusi dari n sebagai berikut. G n x P n X1 , X 2 ,..., X n F x , x Jelas Gn yaitu fungsi distribusi dari n ini tidak diketahui, karena F tidak diketahui. Dalam hal ini Gn akan diestimasi dengan bootstrap yaitu : G *n x P* n X1* , X*2 ,..., X*n X dimana: X * X1* , X *2 ,..., X *n adalah sampel bootstrap dan P* adalah probabilitas yang bersesuaian dengan F̂n . Karena X1 = x1, X2 = x2, …, Xn = xn diketahui maka X* dan F̂n diketahui, sehingga pada prinsipnya G *n dapat dihitung. Syarat Bootstrap Bekerja Diperhatikan kasus khusus yaitu jika = (F) ISSN 2085-7829 Teorema 2.13 Andaikan X1, …, Xn p-vektor random iid dengan distribusi dan F 2,p n n X n μ dimana X n 1ΣX i dan EX1 μ HBOOT versi bootstrap dari Hn maka HBOOT konsisten. Dua teorema di atas menunjukkan bahwa bootstrap dengan sampel iid bekerja dengan baik untuk kasus θ̂ X n . Simulasi Monte Carlo Diberikan sampel random X1, X2, …, Xn dari distribusi F. Estimasi bootstrap memerlukan * merupakan n θ̂ n θ dan didapat: P n X G x P n X , X ,..., X n x * n 1 2 * n Xn x X *n merupakan sampel bootstrap dari distribusi n n θ̂ n θ , dengan X n * n 1 X * i Teorema 2.1.2 (Singh, Teorema A) Jika X1, …, Xn sampel iid dengan ukuran n dari suatu populasi berdistribusi F dan EX2 < ∞, maka P n X μ x P * n X * X x 0 a.s. n n n * distribusi bersyarat *n n X1* , X *2 ,..., X *n , jika diberikan sampel (X1, X2, …, Xn). Pada prinsipnya distribusi ini diketahui. Untuk sampel X1, X2, …, Xn dari n bilangan yang berbeda, ada (2n – 1)!/(n – 1)!n! sampel bootstrap yang berbeda, jadi distribusi n dapat diperoleh kembali dengan enumerasi lengkap. Untuk n = 10 biasanya mendekati 100.000 sampel bootstrap yang dapat dienumerasi. Jadi metode ini sulit bahkan tidak mungkin untuk dikerjakan, untuk itu kita gunakan suatu metode yang sangat populer saat ini yaitu metode Monte Carlo. Proses kerja simulasi Monte Carlo adalah sebagai berikut: 1. Dengan bantuan komputer, bangun suatu * 2. * * * sampel iid X1 , X 2 ,..., X n dengan ukuran n, menurut distribusi Fn. Karena Fn diketahui, juga Fn diketahui dan dapat dihitung = mean populasi dari F dan θ̂ n X n = sampel mean maka n * sampel bootstrap X1 , X 2 ,..., X n dari distribusi Fn. Untuk distribusi dari kuantitas statistik n n X1 , X 2 ,..., X n , estimator bootstrap *n n X1* , X *2 ,..., X *n F̂ 3. 4. Ulangi bagian (1) dan (2) sebanyak B kali, sehingga diperoleh *n,1 , *n, 2 ,..., *n ,B . Kumpulkan nilai *n,1 , *n, 2 ,..., *n ,B dan hitung distribusi empiris 1 B Fn,B x I *n,i x . B i Misalkan distribusi bootstrap dai H adalah: H BOOT x P* n1/2 θ̂*n θ n x Maka pendekatan Monte Carlonya adalah: H (B) BOOT x 1 B I n θ̂ *n θ n x B i Babu dan Singh (dalam Shao (1995)) menunjukkan bahwa aproksimasi monte carlo Program Studi Statistika FMIPA Universitas Mulawarman 3 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 H (B) BOOT adalah second order accurate sebagai estimator dari distribusi X n EX1 σ̂ n n yang n, diringkas dengan dalam teorema berikut: Definisi 2.1.4 Jika X1, …, Xn sampel random iid dan n X n μ /σ̂ n dan B adalah suatu fungsi dari n yang memenuhi B/(log log n) → ∞ maka untuk n → ∞, n sup H (B) BOOT X H BOOT X 0 a.s x Interval Konfidensi Himpunan kepercayaan Definisi 2.2.1 Misalkan X1, …, Xn sampel random iid dari suatu distribusi F yang tidak diketahui dan = T(F) parameter yang akan dicari interval konfidensinya. Jika Cn = Cn(X1, …, Xn) subset dari yang hanya tergantung pada X1, …, Xn dan Pθ C n 1 Definisi 2.2.2 Jika P θ C n 1 maka Cn disebut sebagai himpunan kepercayaan dengan koefisien kepercayaan 1 – α atau himpunan kepercayaan 1 – α. Definisi 2.2.3 Level yang diinginkan dalam suatu himpunan kepercayaan disebut level nominal (nominal coverage) yang biasanya diberikan. Biasanya digunakan 1 – α dan 1 – 2α masing-masing sebagai level nominal dari interval konfidensi 1 dan 2 sisi. Definisi 2.2.4 Misal I interval 1 sisi , θ atau θ, sedemikian hingga P θ I 1 α , maka: (i) 1 – α disebut cakupan nominal dari I (ii) P θ I disebut coverage sesungguhnya (iii) Coverage error dari I adalah Pθ I 1 α Definisi 2.2.5 Jika {an} dan {bn} masing-masing barisan bilangan real, {Xn} dan {Yn} adalah barisan variabel random, maka: a. an = O(bn) jika |an/bn| ≤ untuk semua n dan suaru konstanta c. b. an = o(bn) jika an/bn → 0 untuk n → ∞ c. Xn = Op(Yn) jika ε 0 M , N sehingga P X n /Yn M ε n N Program Studi Statistika FMIPA Universitas Mulawarman ISSN 2085-7829 d. Xn ε 0 = Op(Yn) jika Limn X n /Yn 0 . Dalam pembicaraan dipertimbangkan suatu titik ujung sisi yang mengcover 1 – α. θ selanjutnya interval satu Pθ 1 α, Definisi 2.2.6 Suatu himpunan konfidensi Cn dikatakan akurat asimptotik berorder k jika: Pθ C n 1 α O n -1/2 Akibat 2.2.7 Titik konfidensi aproksimasi θ disebut akurat asimptotik tingkat 1 (first order accurate) jika Pθ θ 1 α O n -1/2 Titik konfidensi aproksimasi θ disebut akurat asimptotik tingkat 2 (second order accurate) jika Pθ θ 1 α O n -1 Definisi 2.2.8 Suatu fungsi distribusi (x) dikatakan simetris jika dan hanya Ψ x 1 Ψ x . (2.2.1) Contoh Φ(x), fungsi distribusi normal. Ekspansi Edgeworth Dalam pembahasan tentang tingkat akurasi suatu titik konfidensi atau probabilitas cakupan dari daerah kepercayaan, ekspansi Edgeworth dan Cornish Fisher sangat besar kontribusinya. Untuk itu dalam pasal ini diberikan secara ringkas tentang ekspansi-ekspansi tersebut, khususnya untuk statistik yang akan dibahas dalam bab III. Misalkan X1, X2, …, Xn variabel random iid dengan = μ dan varians σ2 < ∞. Estimasi dari adalah θ̂ n n 1 X i dengan varians n-1σ2. Berdasarkan Teorema Limit Pusat, S n n θ̂ n θ /σ ~ AN(0,1). Hall (1992) memberikan ekspansi dari distribusi Sn sebagai deret pangkat dalam n-1/2 yakni: P n n θ̂ j/2 n θ /σ x Φx n 1/2 p1 x ... p j x ... dimana x 2π 1/2 eks x 2 /2 adalah densitas normal standar dan Φx fungsi φu du fungsi distribusi normal standar Formula (2.3.1) dikenal sebagai ekspansi Edgeworth. Fungsi pj adalah polinomial dengan koefisien tergantung pada kumulan dari θ̂ n θ . Untuk mencari polinom-polinom dibuktikan dulu beberapa lemma berikut: 4 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 Sn Lemma 2.3.1 Jika X1, X2, …, Xn adalah sampel iid dari distribusi dengan mean μ dan variansi σ 2 , Y X θ /σ memenuhi Definisi 2.3.2 Untuk suatu variabel random umum Y dengan fungsi karakteristik χY, kumulan ke j, κj, dari Y 1 it j j! Ekspansi Cornish-Fisher Misalkan Misal G n x PS n x EY EY 12 E Y E Y 6 E Y E Y EY χ Sn it e t 2 dengan: 1 n 1/2 2 2 4 Y seperti Φx n 1/2 q i x x O n -(k 1)/2 4 ~ Maka kuantil dari H x dan Gn dapat diekspansi sebagai deret dalam n-j/2 berikut: (2.3.3) r1 it n r2 it ... n 1 dR j x rj x e j/2 r j it t 2 2 dimana Rj(x) adalah fungsi yang memiliki transformasi FourierStieltjes sama dengan i 1 Lemma 2.3.5 Diberikan lemma 2.3.2 dan didefinisikan itx k ~ H -n1 x z n1/2 p i z O n -(k 1)/2 didefinisikan r1 u 1/3! κ 3 u 3 ; r2 u 1/24κ 4 u 4 1/72κ 32 u 6 e i 1 dimana: rj polinomial dengan koefisien real dengan derajat 3j, tergantung pada κ3, κ4, …, κj+2 dan tidak tergantung pada n yaitu: k 2 dan 3 Lemma 2.3.4 Untuk Sn dan sebelumnya maka: k n 1/2 p i x x O n -(k 1)/2 i 1 3 κ 4 E Y 4 4E Y 3 E Y 3E Y 2 dan ~ H n x PS n x Φx EY 3EY EY 2EY 2 Sn n θ̂ n θ /σ (2.3.2) dapat diekspansi dalam Ekspansi Edgeworth κ 2 E Y EY VarY κ3 Tn n θ̂ n θ /σ̂ n merupakan statistik yang κ 1 EY 2 Lemma 2.3.3 Untuk variabel random Y seperti dalam definisi diatas berlaku: 3 Sn Tn O p n j/2 untuk setiap j ≥ PSn x PTn x O p n j/2 1 1 2 j Y t expκ1it κ 2 it ... κ j it ... 2 j! 2 R 1 x ... 1 maka Ekspansi Edgeworth distribusi Sn dan Tn hanya berbeda dalam suku-suku berorder n-j/2 atau lebih kecil, yakni: dalam ekspansi dari deret pangkat log χY(t) dimana 2 sebagai: Teorema 2.3.6 (Metode Delta untuk Ekspansi Edgeworth) Jika Sn dan Tn dua statistik yang masingmasing berdistribusi Normal Asimptotik yang n didefinisikan sebagai koefisien dari ditulis 1/2 n j/2 R j x ... maka Sn t Y t / n1/ 2 . dapat PS n x Φx n dan S n n θ̂ n θ /σ ISSN 2085-7829 rj x e t2 2 maka distribusi k G -n1 y z n 1/2 q i z O n -(k 1)/2 i 1 Dengan zα, xα, yα didefinisikan sebagai: Φz α PSn x α PTn y α dan pj1 dan qj1 polinom ganjil(genap) dengan derajar j+1 jika j genap(ganjil) dan dapat dinyatakan dalam pj dan qj. Ekspansi (2.4.1) dan (2.4.2) disebut sebagai ekspansi (invers) Cornish-Fisher. Teorema 2.4.1 ~ Diberikan Ekspansi Edgeworth dari H n x ~ 1 dan Cornish-Fisher H n x definisi dimuka, maka: p11 x p1 x , dan seperti dalam 2 p 21 p1 x p1' x 1/2xp1 x p 2 x (2.4.3) Program Studi Statistika FMIPA Universitas Mulawarman 5 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 INTERVAL KONFIDENSI BOOTSTRAP Motivasi Interval Bootstrap urutan B replikasi dari θ̂ . Jika B.α tidak bulat maka quantile empirik α dan 1 – α didefinisikan masing-masing sebagai nilai terbesar ke k dan ke θ , θ merupakan interval dari () maka invers dari masing-masing titik ujung interval tersebut merupakan interval dari . Dengan kata lain bersifat transformasi repecting. Interval yang dihasilkan oleh pendekatan di atas didasarkan asumsi adanya tansformasi sedemikian hingga P ˆ θ x ~ AN 0,1 . Kesulitan dalam pendekatan metode standar berdasarkan transformasi adalah bahwa kita harus mengetahui transformasi yang berbeda untuk setiap parameter yang akan diestimasi. Diinginkan membangun interval konfidensi dengan sifat transformasi respecting namun tanpa perlu mencari/mengetahui transformasi tersebut. Dengan kata lain metode ini dapat dipandang sebagai metode yang selalu “tahu” transformasi yang diperlukan. Metode ini dikerjakan dengan perhitungan bootstrap, tanpa perlu mengetahui . Interval Persentil BP θ̂ n estimator dari dari suatu Misalkan * distribusi F dan θ̂ n estimator bootstrap dari X1* , X*2 , ..., X*n sehingga fungsi berdasarkan * distribusi kumulatif dari θ̂ n adalah: K BOOT x P θ̂ x f θ̂ θ̂ * dθ̂* * * n Maka interval persentil bootstrap didefinisikan sebagai: dengan 1 α , K BOOT 1 α θ̂*n(αα, θ̂*n(1α) 1 K BOOT α θ̂*(n ) adalah persentil ke 100.α dari distribusi bootstrap. Ekspresi (3.2.2) merujuk kepada situasi dimana replikasi bootstrap tak hingga (bootstrap ideal). Dalam praktek kita harus menggunakan cacah replikasi B yang berhingga, sehingga didapat interval aproksimasi persentil bootstrap: BP adalah persentil ke 100.α dari nilai-nilai θ̂ b yakni nilai ke B.α dalam daftar bahwa I θ , θ merupakan interval konfidensi untuk (). Sebaliknya jika 1 BOOT *( ) dimana θ̂ n Jika I θ, θ interval konfidensi untuk kuantitas dan fungsi monoton naik yang diketahui maka sangat ideal bila kita berharap K ISSN 2085-7829 1 1 α , K BOOT 1 α , BP K BOOT *(1 α) θ̂ *(α( n , θ̂ n Program Studi Statistika FMIPA Universitas Mulawarman * * (B+1-k) dari θ̂ b dengan k = [(B+1).α], bilangan bulat terbesar ≤ (B+1).α. Karena sifat similaritas diantara batas-batas interval untuk pembicaraan selanjutnya hanya dibahas batas bawah interval saja. Teorema 3.2.1 Jika ada transformasi naik (x) sedemikian * hingga untuk semua F (dan F̂ ) yang mungkin berlaku: Pˆ θ x ψx dimana ˆ θ dan (x) adalah fungsi distribusi kontinu, naik dan simetris maka: Jika dan diketahui maka batas bawah exact untuk adalah: θ EX 1 ˆ z α , dengan z α ψ 1 α Teorema 3.2.2 Jika asumsi seperti pada teorema 3.2.1 dipenuhi untuk F̂ maka: θ BP θ EX . Dimana θ BP batas interval persentil bootstrap. Teorema 3.2.2 menunjukkan bahwa batas bawah interval persentil bootstrap adalah exact untuk semua n jika asumsi pada teorema 3.2.1 tepat dipenuhi (dipenuhi secara exact). Umumnya asumsi tersebut dipenuhi secara asimptotik untuk n besar maka batas bawah persentil tersebut adalah valid secara asimptotik dan penampilannya tergantung pada bagaimana baiknya aproksimasi (3.2.1) tersebut. Namun, biasanya tidak linier dan bias ˆ θ tidak menuju nol secara cepat untuk n → ∞. Akibatnya asumsi pada dipenuhi secara aproksimasi, aproksimasi ini baik hanya untuk n cukup besar. Aproksimasi yang biasa dipakai (3.2.2) adalah aproksimasi normal. Interval Persentil BC Interval Persentil BC (Bias Corrected) diturunkan dengan asumsi yang lebih umum dari teorema 3.3.1 dengan memasukkan suku koreksi bias dalam asumsi tersebut. Teorema 3.3.1 Andai ada transformasi naik sedemikian hingga untuk semua F (dan F̂ ) yang mungkin memenuhi. Pˆ θ z 0 x ψx dengan z0 konstanta yang mungkin tergantung pada F dan n. Jika dan z0 serta diketahui 6 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 maka: θ EX ˆ z 0 z α (3.3.1) Teorema 3.3.2 Misalkan ada seperti pada teorema 3.3.1, maka konstanta bias z0 adalah: 1 z 0 ψ 1 K BOOT θ̂ n θ EX dimana Σ = var(Xi) dan ˆ n -1X1 - X n X1 - X n ' ~ (3.2.2) H n masing-masing distribusi pivotal studentized ˆn / ˆ n dan variabel standardized ˆn / n . Misalkan ~ x α H n1 α , dan y α G 1 α Misalkan θ EX dapat dinyatakan 1 Φz α 2z 0 K BOOT sebagai: Untuk membuktikan teorema di atas dibuktikan dulu lemma berikut: Lemma 3.3.4 Untuk setiap x, 0 < x < 1 berlaku: 1 x 1 ˆ ψ 1 x z 0 K BOOT (3.3.4) Teorema 3.3.5 Batas bawah interval Persentil BC untuk adalah: σ n2 n -1gμ ' gμ dan σ̂ n2 n -1g X n ' ˆ g X n Lemma 3.5.1 Teorema 3.3.3 Dengan θ EX seperti yang didapat di atas maka ISSN 2085-7829 1 θ BC K BOOT ψ z α 2ψ -1 K BOOT θ̂ n Konsistensi Berdasarkan konsistensi dari distribusi bootstrap maka dapat ditunjukkan konsistensi himpunan kepercayaan bootstrap. Teorema 3.4.1 Gn dan z 1 [analog untuk indeks 1 – α], ~ ~ H BOOT versi bootstrap dari Hn maka batas bawah θ NOR , masing adalah: (i) θ EX , θ BP dan θ BC masing- θ NOR θ̂ n σ̂ n z1α θ̂ n σ̂ n Φ 1 1 α θ EX θ̂ n σ̂ n y1α θ̂ n σ̂ n G 1 1 α ~1 (iii) θ BP θ̂ n σ̂ n x̂ α θ̂ n σ̂ n H BOOT α ~1 (iv) θ BC θ̂ n σ̂ n x̂ BC θ̂ n σ̂ n H BOOT α BC (ii) dengan α BC Φz α 2ẑ 0 , ẑ 0 Φ 1 K BOOT θ n Jika H n P n θ̂ n θ x , HBOOT(x) bootstrap dari Hn, dan andaikan bahwa HBOOT konsisten serta lim ρ H n , H untuk suatu Ekspansi Edgeworth dan Ekspansi Cornish Fisher fungsi distribusi kontinu, stricly increasing dan simetri H maka: θ BP , θ BC adalah konsisten. G n x Φx n 1/2 q1 x x n 1q 2 x x n Perbandingan Teoritis Interval Konfidensi Dalam pasal ini akan dilihat tingkat akurasi dari interval-interval konfidensi yang diterangkan di muka dan yang dihasilkan dengan pendekatan normal. Untuk membandingkan sifat-sifat tersebut maka distribusi dari statistik dan titik kritisnya terlebih dahulu dinyatakan dalam ekspansi Edgeworth dan ekspansi Cornish Fisher. Titik kritis interval konfidensi Dalam penjelasan ini diperhatikan kasus dimana X1 iid dan = μ = EX1, θn X n dan X n n 1 X i . Andaikan g terdifferensial dan p kontinu pada dan gμ 0 maka varians asimptotik dari n θ̂ n θ masing-masing adalah: dan estimatornya Program Studi Statistika FMIPA Universitas Mulawarman ~ Gn(x) dan H n x dapat diekspansi Ekspansi Edgeworth sebagai: O n 3/2 (3.5.5) ~ H n x Φx n 1/2 p1 x x n 1 p 2 x x O n 3/2 (3.5.6) dengan ekspansi (invers) Cornish Fisher dari ~ y α G n 1 α dan x α H n1 x adalah: y G -1n z n 1/2 q 11 x x n 1q 21 x x O n 3/2 (3.5.7) ~ x H -1n z n 1/2 p11 x x n 1 p 21 x x O n 3/2 (3.5.8) Versi bootstrap dari ekspansi di atas adalah: 7 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 ISSN 2085-7829 G BOOT x Φx n 1/2 q̂ 1 x x n 1q̂ 2 x x pertama. O n 3/2 Ketiga interval tersebut dibandingkan dengan melihat error probabilitas cakupannya. Untuk titik kritis Bootstrap Persentil: (3.5.9) ~ H BOOT x Φx n 1/2 p̂1 x x n 1 p̂ 2 x x O n 3/2 (3.5.10) ŷ G -1 BOOT z n 1/2 q̂ 11 x x n 1q̂ 21 x x O n 3/2 (3.5.11) ~ x̂ H -1BOOT z n 1/2 p̂11 x x n p̂ 21 x x O n 1 3/2 (ii) (iii) θ NOR θ̂ n σ̂ n Φ 1 1 α θ n σ̂ n z1α θ EX θ̂ n σ̂ n G 1 1 α ~ θ BP θ̂ n σ̂ n H -1BOOT α θ̂ n σ̂ n z 1-α n 1/2 p̂11 z1-α O p n 1 θ BC (iv) θ̂ n σ̂ n z1-α n 1/2 q 11 z 1-α O p n 1 z 1-α n 1/2 2p̂1 z1-α θ̂ n σ̂ n 1/2 n p̂ z O n 1 11 1-α p Tingkat Akurasi Interval Konfidensi Bootstrap Dalam pasal ini akan ditunjukkan bahwa interval konfidensi Persentil BP dan BC mempunyai tingkat akurasi pertama (first order accurate). Disamping itu juga ditunjukkan bahwa Interval bootstrap BC lebih baik dari aproksimasi normal ditinjau dari coverage error dari interval tersebut. Teorema 3.5.3 Jika θ BP , θ BC adalah interval-interval bootstrap seperti pada lemma 3.5.1 maka: Pθ θ BP , 1 α O n 1/2 Pθ θ BC , 1 α O n 1/2 1 dan Coverage Error Interval Konfidensi Interval-interval satu sisi yang dihasilkan oleh metoda bootstrap persentil BP, BC dan Aproksimasi Normal adalah dari tingkat akurasi Program Studi Statistika FMIPA Universitas Mulawarman z α2 2 z α On 1 (2) 6 n Untuk titik kritis dengan pendekatan normal: θ̂ θ Pθ NOR θ P z α σ̂ n 2 2z α 1 z α 1 O n 1 6 n (3) Misalkan e P 1 error dalam probabilitas cakupan untuk batas bawah kepercayaan . Maka dari (1), (2) dan (3) didapat: eθ eθ Α z On γ z 1φz dengan Α z eθ BP eθ NOR Α n z α O n 1 dan 1 NOR ~ θ̂ n σ̂ n H -1BOOT α BC Untuk titik kritis Bootstrap BC: Pθ BP θ P z α n 1/2 p 1 z α 2p 1 0 O n 1 (3.5.12) Lemma 3.5.2 Dari hasil ekspansi-ekspansi di atas maka titik-titik kritis θ NOR , θ EX , θ BP dan θ BC dapat dinyatakan dalam ekspansi-ekspansi berikut: (i) θ̂ θ ~ 1 Pθ BP θ P H BOOT α σ̂ n 2 3 z α 1 z α 1 O n 1 (1) 6 n dapat dalam BC n α 2 α n α α 6 n Dengan asumsi γ ≠ 0, Bila z2 1 maka n z 0 sehingga bootstrap BC lebih baik dari aproksimasi normal yang lebih baik dari bootstrap persentil BP ditinjau dari harga mutlak dari error probabilitas cakupan. APLIKASI DAN SIMULASI Teori Asimptotik Koefisien Korelasi Dalam bab ini diberikan contoh penggunaan dari metode penkonstruksian masin-masing interval yang diterangkan pada Bab III untuk koefisien korelasi ρ dari (X,Y). Misalkan (Xi,Yi), …, (Xn,Yn) adalah n sampel random iid berdistribusi bivariat dari suatu populasi dengan fungsi distribusi tidak diketahui F pada 2 dengan EX1 = μx = dan EY1 = μY, var(X1) = ρ = ρ(F) x2 , cov(X,Y) = σXY. Misalkan koefisien korelasi dari (X,Y) parameter yang akan diestimasi yang didefinisikan sebagai: 8 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 ISSN 2085-7829 σ XY EX EX Y EY 2 2 1/2 σXσY EX EX , EE EY Dengan ρ̂ n estimator dari ρ yakni koefisien ρ 1 X n μ X Yn μ Y (4.1) n 1 1 1 XY Yn X X n Y n n n a.s X n Yn σ XY korelasi sampel: ˆ n 1 X X n Y Yn n (5) (4.2) Lemma Dari (1) sampai (5) dan dengan Slutsky maka didapatkan bahwa: 1/2 2 1 2 X X n , Y Yn n a.s ρ̂ n σ Yang dapat dihitung bila nilai observasi diberikan. Teorema 4.1 Koefisien korelasi sampel ρ̂ n merupakan estimator konsisten konsisten dari ρ yakni jika 0 E X 2 , 0 E Y 2 , a.s ρ̂ n σ, n . maka n ρ̂ n ρ kuantitas statistik maka fungsi distribusi Exact dari n adalah Misalkan n ∞. Karena F tidak diketahui maka Gn tidak diketahui, sehingga perlu diestimasi. Teorema 4.2 X n μ X X μ a.s 2 n 2 X (1) a.s a.s X n μ X 0 X n μ X 0 Telah diketahui bahwa: 1 1 2 2 X n μ X X 2μ X X n n n 2 a.s μX σ 2X Dengan S 2 nX Lemma Slutsky 1 a.s X 2 X n2 σ 2X n dan dengan mengambil g(x) = x1/2 didapat: SnX σ X a.s (ii) Analog dengan (i) (2) didapat a.s SnY σY a.s X n Yn μ Xμ Y Slutsky) 1 (Dengan X n μ X Yn μ Y n 1 n XY μ Y 1 n Lemma Maka dengan Lemma 1 a.s XY σ XY μ X μ Y n (4) Program Studi Statistika FMIPA Universitas Mulawarman 2 1 1 2 1 1 2 1 2 1 1 1 1 1 1 1 1 d n Zi μ N 0, n Dengan Σ matriks varians-covarians simetrik: VarY CovY, Y CovY, Y VarY CovY, XY CovY , XY VarX Cov X, X 2 2 Var X 2 Cov X, X CovX, Y Cov X 2 , Y Cov X, Y 2 Cov X 2 , Y 2 2 CovX, XY Cov X , XY CovX, Y Cov X 2 , Y Cov X, Y 2 Cov X 2 , Y 2 2 2 2 2 Cov X, XY Cov X 2 , XY Cov Y, XY Cov Y 2 , XY VarXY Dengan elemen dari Σ adalah: Var X EX1 EX1 σ 2X 2 3 3 3 3 2 2) Cov X, X E X1 EX1 E X1 μ X μ X X M 30 μ X X2 Var X 2 E X12 EX12 E X13 - μ 3X - μ X σ 2X M 40 4μ X M 30 4μ 2X σ 2X σ 4X CovX, Y EX1 μ X Y1 μ Y ρσ X σ Y Cov X 2 , Y E X12 σ 2X μ 2X Y1 μ Y M 21 2ρX σ X σ Y 6) VarY EY1 μ Y σ Y 2 7) Cov X, Y M 21 2ρ X σ X σ Y 5) Slutsky: Dengan Teorema Limit Pusat Lindeberg-Levy untuk kasus multivariat, maka untuk {Zi}, I = 1, 2, …, n iid berdistribusi bersama F dan EZ1 = μ, Var(Z1) = Σ, maka: 4) μ X Y μ X μ Y a.s σ XY maka X , X , Y , Y , X Y adalah iid dan μ= EX , EX , EY , EY , EX Y Misalkan Z1= 3) X EY14 Bukti: 1) (3) (iii) d n ρ̂ n ρ N 0, τ 2 Akibatnya: 1 EX 14 , Jika Bukti: (i) Karena E(X2) < ∞ maka dengan SLLN a.s G n x P n1/2 ρ̂ n ρ x untuk -∞ < x < (Analog dengan 5) 9 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 2 2 2 2 2 2 Cov X , Y E X1 σ X μ X Y1 μ Y Y 8) ISSN 2085-7829 dimana Rn, suku sisa dengan order lebih kecil dari (qi – μi) i = 1, 2, 3, 4, 5. Misalkan r μ q μ sebagai perkalian vektor dari suku kedua dari persamaan di sebelah kanan (4.5), kemudian persamaan itu dikalikan T M 22 2μ Y M 21 2μ X M 12 4μ X μ Y σ X σ Y σ 2X σ 2Y n dan ditulis: T n ρ̂ n ρ r μ q μ n R n dengan Cov Y, Y 2 M 03 μ Y Y2 9) (Analog dengan (2)) M 10) Var Y 2 04 4μ Y M 03 4μ 2Y σ 2Y σ 4Y (Analog dengan (3)) CovX, XY EX1 μ X X1Y1 EX1Y1 M 21 μ Y σ 2X ρμ X σ X Y 11) 2 2 2 2 12) Cov X , XY E X 1 x μ x X 1 Y1 EX 1Y1 M 31 μ Y M 30 3μ X M 21 ρσ σ Y 2 X 2μ X μ Y σ 2ρρ σ X σ Y 2 X 13) 2 X CovY, XY M12 μ X σ 2Y ρμ X σ X Y (Analog dengan 11) 14) Cov Y , XY M 13 μ X M 03 3μ Y M 12 2 ρσ X σ 3X 2μ X μ Y σ 2Y 2ρρ 2Y σ X σ Y (Analog dengan 12) 15) EX1 Y1 ρσ X σ Y μ X μ Y 2 2 2 2 M 22 μ Y σ X μ X σ Y 2μ X M12 2μ Y M 21 2ρ X μ Y σ X σ Y ρ 2σ X2 σ Y2 M ab EX μ X Y μ Y a b q T q1,q 2 , q 3 , q 4 , q 5 Misalkan 1 1 1 X, X i2 , Y, Yi2 , X i Yi n 2 n Maka (4.3) dapat n q N 0, ditulis d sebagai: (4.4) Definisikan fungsi r : sedemikian hingga koefisien korelasi dapat dibentuk sebagai suatu fungsi rata-rata observasi, yakni: 2 ρ̂ n r q q 3 q1q 2 q 1/2 2 q 4 q 32 2 q1 dapat ditulis sebagai ρ r μ . 1/2 d n r μ q μ N 0, τ 2 T dan dapat dicari dengan metode delta: T τ r μ r μ 2 varians 2 (4.7) Karena n q μ asimptotik normal dan Rn berorder lebih kecil dari (q – μ) maka d n Rn 0 , sehingga dengan menggunakan lemma Slutsky pada (4.6) maka: d n ρ̂ n ρ N 0, τ 2 Dari (4.7), dengan menghitung turunan parsial dari r(q) untuk q = μ didapat: ρμ μ ρ ρμ Y ρ 1 T r μ 2X Y , 2 , 2 , σ σ σ 2σ σ σ 2σ σ σ X X Y Y X Y Y X Y VarXY EX1 Y1 EX1 Y1 Dengan Dari (4.4) n q ~ AN0, , maka dengan “Cramer Wold device” (Teorema 2.5.5) dapat disimpulkan: d dan (4.1) Karena r(.) kontinu dan terdifferensial, dengan menggunakan ekspansi Taylor multivariat maka didapat bentuk berikut: Efron & Tibshirani, 1993) r q r q r μ q i μ i qi μi R n q i i1 5 r μ τ1 , τ 2 , τ 3 , τ 4 , τ 5 dengan: ρ ρ 1 τ1 2 M 30 2 M12 M 21 2σ X 2σ Y σXσY ρμ ρ ρ τ 2 2 M 40 2X M 30 2 M 22 2σ X σX 2σ Y ρμ X 2μ X 1 M 12 M 31 M 21 2 σXσY σXσY σX ρ ρ 1 τ 3 2 M 21 2 M 03 M12 2σ X 2σ Y σXσY ρμ ρ ρ τ 4 2 M 22 2Y M 21 2 M 04 2σ X σX 2σ Y ρμ Y 2μ Y 1 M 03 M 13 M 12 2 σXσY σXσY σX T τ5 ρ X 2 2σ Y ρμ X ρ ρ M 31 M 03 M 21 2 2 2 2σ X 2σ Y 2σ X M 12 ρμ Y 2 σY M 30 ρμ X 2 σX M 03 (4.5) Program Studi Statistika FMIPA Universitas Mulawarman 10 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 1 μ μ M 22 X M12 Y M 21 σXσY σXσY σXσY Maka varians asimptotik dari adalah: τ 2 r T r ρ 2 4 4σ X M 40 ρ n ρ̂ n ρ 2 Mengingat teorema tentang konvergensi dari 4 4σ X M 04 M 40 M 04 2M 22 4 4 2 2 σX σXσY ρ2 σX 4M 31 4M 13 4M 22 4 2 3 σ σ σ σ σ X σ 3Y X Y X Y dengan mean σ2 X ρσ X σ Y dimana Mab adalah momen sampel. Misalkan ρ̂ n koefisien korelasi sampel dan n ρ̂ n ρ estimator plug in dari , maka estimator varians dari ρ̂ n adalah estimator 2. σ̂ 2 ρ̂ n estimator plug ini dari varians koefisien korelasi, jika EX1 , EY1 , X2 0 , dan Y2 0 maka a.s nσ̂ 2 ρ̂ n τ 2 untuk n → ∞ Misalkan teorema (4.2) d nσ̂ 2 ρ̂ n ρ N 0, τ 2 Misalkan nσ̂ 2 ρ̂ n estimator nσ̂ 2 ρ̂ n τ̂ 2 , maka: plug in M̂ 40 M̂ 04 2M̂ 22 4M̂ 22 4 2 2 4 2 σ̂ X σ̂ X σ̂ Y ˆσ̂ X σ̂ Y ρ̂ 2 σ̂ X ˆ 2 4 4M 31 4M̂ 13 σ̂ 3 σ̂ σ̂ σ̂ 3 X Y X Y a.s ρ̂ n , dan dengan a.s a.s 2 2 2 2 SLLN σ̂ X σ X dan σ̂ Y σ Y , dan Dari teorema (4.1) dengan mengambil g(x) = x1/2 serta g(x) = x3/2 akan memberikan σ̂ σ a.s σ̂ σ 3 X 3 Y a.s 3 X, 3 Y. Varians X2 0 dan Y2 0 σ̂ X σ X , a.s σ̂ Y σY , a.s Program Studi Statistika FMIPA Universitas Mulawarman μX μ dan covarian matrik μY (4.8) ρσ X σ Y σ 2Y 2 adalah 1 ρ 2 . 2 Bukti: 2 koefisien secara kuat untuk Teorema 4.3 Bukti: Dari jumlah dan hasil kali, jika didapat: Untuk kasus parametrik maka diasumsikan populasi berdistribusi normal bivariat. Teorema 4.4 Jika F adalah ΦμX,Μy,σX,σY,ρ distribusi Gaussian ρ ρ M 31 M13 σ σY σ X σ 3Y M̂ ab a.s nσ̂ 2 ρ̂ n ρ τ 2 untuk n → ∞. 3 X σ̂ Juga dengan SLLN 1 a.s X i X n a Yi Yn b M ab n a b E X μ X Y μ Y 2 ρ 1 M 22 M 22 2 2 2 2 σXσY σXσY 2 ISSN 2085-7829 Misalkan X μX ~ X σX ~ Y Y μY σ Y ~ X 0 1 ρ ~ N , ~ 0 ρ 1 Y , maka Jika (4.7) dipenuhi maka ada matrik P2x2 yang 1 ρ T P I 2 sedemikan hingga: P ρ 1 ~ 0 1 ρ Z1 X ~ ~ N , Z 2 Y 0 ρ 1 memenuhi Dengan menggunakan operasi matrik pada akar dan vektor karakteristik, maka didapat P yakni, 1 1 1 ρ P 2 1 1 ρ 1 1 ρ 1 1 ρ Karena Z1 dan Z2 iid Normal maka: EZ14 EZ 42 3, EZ1Z32 EZ13 Z 2 0, EZ13 Z32 1 akibatnya: M13 3ρ X σ Y ; M 31 3ρ X σ Y 3 3 M 22 1 2ρ X2 σ 2Y (4.12) ~ ~ Karena X dan Y normal standar maka: M 40 3 X4 ; dan M 04 3 Y4 dan 11 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 Dengan mensubstitusikan (4.12) dan (4.13) ke (4.8) didapat 1 2ρ (Ausri, dkk:1995) Untuk dapat membandingkan dengan interval Persentil perlu dicari sedemikian hingga asumsi pada interval persentil dipenuhi. ISSN 2085-7829 b. Teorema 4.5 Jika F adalah ΦμX,Μy,σX,σY,ρ pada teorema (4.3), Dengan Transformasi Normal Standar 1 1 ρ log dengan 2 1 ρ n ˆ n ~ N0,1 didapat interval untuk 2 2 Pilih yaitu: ˆ n n1/2 z α , ˆ n n1/2 z1α maka ada fungsi dan estimasinya ̂ yang terdifferensial dan kontinu sedemikian hingga Interval untuk ρ diperoleh dengan menginverskan interval (4.13) dengan menggunakan tangen hiperbolik. Bukti: c. n ρ̂ n ρ ~ N 0,1 . Karena n ρ̂ n ρ N 0, ρ̂ n ρ maka dengan metode delta: d 2 2 2 d n ˆ N 0, ρ̂ n ρ ' (4.12) Varians dari distribusi ρ̂ n ρ 2 '2 diatas = * 1 jika dan 1 1 ρ C , C konstan. log 2 1 ρ Bootstrap Koefisien Korelasi X , Y , i = 1, 2, …, n sampel 1 Misalkan 1 bootstrap iid dari distribusi empirik F̂n yang diambil dengan pengembalian dari sampel ukuran n. Maka versi bootstrap untuk sampel korelasi adalah: ˆ n 1 X*i X *n Yi* Yn* n 1/2 1 * * 2 * * 2 X i X n , Yi Yn n Interval Konfidensi Koefisien Korelasi a. Pendekatan Normal Standar n ρ̂ n ρ x , dengan τ̂ Jika G ρ x P menggunakan pendekatan G ρ x Φx O n 1/2 normal didapat interval konfidensi 1 - 2α aproksimasi normal standar: τ̂ τ̂ , ρ̂ n z ρ̂ n z1 n n ρ̂ *n . Untuk B = 100 maka batas interval 95% untuk ρ adalah nilai ke 25 dan 975 masing-masing 1 ' 1 ρ2 sehingga Interval Aproksimasi Bootstrap Persentil Interval Persentil didapat dengan menghitung persentil α dan 1 – α dari replikasi bootstrap dari dengan ˆ estimator dari . untuk batas bawah dan atas dari replikasi ρ̂ n yang telah diurutkan. d. Interval Bootstrap Persentil BC Interval Persentil BC diperoleh dengan cara yang sama seperti pada Interval Bootstrap Persentil kecuali α pada Interval Persentil diganti dengan αBC dengan α BC Φ2ẑ 0 z α dan 1 - α BC Φ2ẑ 0 z1-α serta ẑ 0 Φ 1 Probρ̂ n ρ̂*n ρ̂ n atau # ρ̂* b ρ̂ n ẑ 0 Φ 1 B Program Simulasi Simulasi untuk interval bootstrap BP dan BC menggunakan S-Plus dengan bantuan komputer. Untuk simulasi dibangun sampel random dengan ukuran n. Beberapa input yang diperlukan antara lain: n (ukuran sampel, R1 dan R2 (2 sampel random independen dari distribusi normal dengan mean μ dan varians σ2), B (cacah replikasi), rh (koefisien korelasi populasi). Untuk mengkontruksi sampel random normal bivariat dengan mean μ = (μX, μY) dan varians σ2 X σ XY σ XY σ 2Y digunakan transformasi (Efron & Tibshirani, 1993): X = μX + σX R1 Y μY C σY 1 c2 R 1 CR 2 dengan 1 1 ρ2 Dalam simulasi ini diambil μX = μY = 0 dan X2 Y2 1 . Langkah-langkah proses simulasi: 1. Definisikan semua statistik yang diperlukan. Program Studi Statistika FMIPA Universitas Mulawarman 12 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 2. 3. 4. Bangun dua sampel random normal independen R1 dan R2 dengan ukuran n. Gunakan transformasi (4.2.1) dan (4.2.2) untuk membangun distribusi normal bivariat. Hitung ̂ n dan ̂ . 5. Kontribusi interval konfidensi untuk ρ dengan aproksimasi normal standar dan dengan transformasi. 6. Kontruksi interval konfidensi untuk ρ dengan metoda bootstrap persentil dan persentil BC menggunakan cacah replikasi B. 7. Buat histogram dari semua interval konfidensi. Selain simulasi interval konfidensi untuk koefisien korelasi diberikan juga simulasi sederhana interval konfidensi untuk parameter = eμ, dengan μ mean populasi dan sampel diambil dari distribusi normal standar X1, …, X10. Sebagai pembanding tetap dihitung interval konfidensi dengan pendekatan normal standar dan transformasi normal , yakni = log x. Langkahlangkah simulasi analog seperti pada koefisien korelasi tetapi lebih sederhana dan pembahasan secara teoritis tidak diberikan. KESIMPULAN DAN SARAN Berdasarkan pembahasan yang telah diuraikan sebelumnya, maka dapat disimpulkan bahwa interval konfidensi berdasarkan Persentil Bootstrap bersifat transformation-respecting yang tidak dimiliki oleh interval normal standar. Disamping itu dalam membangun interval tersebut kita tidak perlu tahu transformasi yang digunakan karena dikerjakan langsung dari perhitungan bootstrap. Semua interval yang dibahas dimuka termasuk interval Normal Standar mempunyai tingkat akurasi pertama namun dalam hal coverage error, interval Persentil BC mempunyai error yang lebih kecil dibandingkan dengan interval normal dan interval Persentil BP. Metode Persentil kelihatan lebih praktis dalam penerapannya dan tidak menyimpang dari pendekatan tradisional. Berdasarkan hasil penelitian Efron (1987) interval Persentil dapat ditingkatkan akurasinya dengan asumsi yang lebih umum. Masalah ini tidak dibahas mengingat waktu dan kemampuan penulis yang terbatas, sehingga disarankan untuk melakukan penelitian tentang hal itu. ISSN 2085-7829 Dudewicz, E.J. and Mishra, S.N., 1988, Modern Mathematical Statistics John Wiley & Sons. New York. Efron, B., 1979, Bootstrap Method: Another look at the jacknife. Annals of Statistics, 7, 1 – 26. --------, 1987, Better Bootstrap Confidence Intervals (with discussion). Journal fo the American Statistical Association. Vol.82, No.397, 171-200. Efron, B. and Tibshirani, R., 1993, An Introduction to the Bootstrap. Chapman & Hall. New York. Hall, P., 1988, Theoretical Comparison of Bootstrap Confidence Intervals (with discussion). Annals of Statistics, 16, 927-953. --------, 1992, The Bootstrap and Edgeworth Expansion. Springer-Verlag New York. Helmers, R., 1995, Bootstrap Aproximation: Theory and Application. Unpublished Paper, Amsterdam. Serfling, R. J., 1980, Approximation Theorems of Mathematical Statistics. Wiley, New York. Shao, J. and Tu, D., 1995, The Jacknife and Bootstrap. Springer Verlag New York. Singh, K., 1981, On the Asymptotic Accuracy of Efron’s Bootstrap. Annals of Statistics, Vol.9, No. 6, 1187-1195. Statistical Sciences,Inc., 1993, S-PLUS for Windows’s User’s Manuals, Version 3.1, Seatle: Statistical Sciences, Inc. Zulaela, at al., 1995, Bootstrapping Linear Regression Models, Research Workshop in Statistic. Unpublishing manuscript. Bandung. DAFTAR PUSTAKA Bickel, P.J. and Freedman, D.A, 1981, Some Asymptotic Theory For The Bootstrap. Annals of Statistics. Vol. 9, No. 6, 1196-1217. Diciccio, T. and Tibshirani, R, 1987, Bootstrap Confidence Intervals and Bootstrap Approximations. Journal of the American Statistical Association, vol.82, No.397, 163170. Program Studi Statistika FMIPA Universitas Mulawarman 13 Jurnal EKSPONENSIAL Volume 2, Nomor 1, Mei 2011 Program Studi Statistika FMIPA Universitas Mulawarman ISSN 2085-7829 14