Inferensi Statistik…(Alan Prahutama) INFERENSI STATISTIK DARI DISTRIBUSI NORMAL DENGAN METODE BAYES UNTUK NON-INFORMATIF PRIOR Alan Prahutama1, Sugito2, Agus Rusgiyono2 1 Mahasiswa Program S-2 Statistika ITS Surabaya 2 Staf Pengajar Program Studi Statistika FMIPA UNDIP Abstract One of the method that can be used in statistical inference is Bayesian method. It combine sample distribution and prior distribution to get a posterior distribution. In this paper, sample distribution used is univariate normal distribution. Prior distribution used is non-informative prior. Determination technique of non-informative prior use Jefrrey’s method from univariate normal distribution. After got the posterior distribution, find the marginal distribution of mean and variance. So that will get the parameter estimation of interval for mean and variance. Hypothesis testing for mean and variance can find from parameter estimation of formed interval. Keywords: Bayesian method, non-informatif prior, Jeffrey’s method, Parameter Estimation of Interval, Hypothesis test 1. Pendahuluan Metode statistik dibedakan menjadi dua yaitu statistik deskriptif dan statistik inferensi. Statistik deskriptif adalah metode-metode yang berkaitan dengan pengumpulan dan penyajian suatu gugus data sehingga memberikan informasi yang berguna. Sedangkan statistik inferensi adalah metode-metode yang berhubungan dengan analisis sebagian data untuk kemudian sampai pada peramalan atau penarikan kesimpulan mengenai keseluruhan data[6]. Inferensi statistik dapat dibedakan menjadi dua yaitu estimasi parameter dan uji hipotesis. Estimasi parameter dibedakan menjadi dua yaitu estimasi parameter titik dan estimasi parameter berupa interval. Inferensi statistik dapat dicari dengan metode klasik dan metode bayes[5]. Pada teori estimasi dapat dilakukan dengan dua metode yaitu metode klasik dan metode bayes. Metode klasik sepenuhnya mengandalkan proses inferensi pada data sampel yang diambil dari populasi, sedangkan metode bayes disamping memanfaatkan data sampel yang diperoleh dari populasi juga memperhitungkan suatu distribusi awal yang disebut distribusi prior. Salah satu teknik yang digunakan dalam metode klasik adalah metode maksimum likelihood[3]. Metode klasik memandang parameter sebagai besaran tetap yang tidak diketahui harganya, dan inferensi didasarkan hanya pada informasi dalam sampel. Metode Bayes memandang parameter sebagai variabel yang menggambarkan pengetahuan awal tentang parameter sebelum pengamatan dilakukan dan dinyatakan dalam suatu distribusi yang disebut dengan distribusi prior. Sedangkan Penentuan parameter distribusi prior yang tidak didasarkan pada data yang ada disebut non-informatif prior. Setelah pengamatan dilakukan, informasi dalam distribusi prior dikombinasikan dengan informasi dengan data sampel melalui teorema Bayes, dan hasilnya dinyatakan dalam bentuk distribusi yang disebut distribusi posterior yang selanjutnya menjadi dasar untuk inferensi di dalam metode Bayes[2]. Langkah-langkah yang dilakukan adalah mencari distribusi non-informatif prior dari distribusi normal kemudian digabungkan dengan informasi sampel melalui teorema 95 Media Statistika, Vol. 5 No. 2, Desember 2012: 95-104 bayes sehingga dihasilkan distribusi posterior[1]. Selanjutnya bisa dicari distribusi posterior marginal untuk tiap parameter dari distribusi posterior yang terbentuk. Sehingga bisa didapatkan estimasi interval untuk tiap parameter yang nantinya bisa ditentukan juga uji hipotesis untuk tiap parameter[4]. Dalam tulisan ini distribusi sampel yang digunakan adalah distibusi normal dan distribusi prior yang digunakan adalah non-informatif prior. Teknik penentuan non-informatif prior menggunakan metode Jefrrey’s dari distribusi normal univariat. 2. Inferensi Statistik Distribusi Normal Menggunakan Metode Bayes untuk Non-Informatif Prior Distribusi Normal sebagai Distribusi Sampel Jika sebuah variabel random X dikatakan mengikuti distribusi normal dengan parameter mean dan variansi 2 dapat dilambangkan dengan X ~ N , σ 2 , maka memiliki fungsi kepadatan peluang dalam bentuk: f xi ; , 2 1 xi 2 exp 2 2 1 untuk xi , dimana dan 0 . Likelihood dari Distribusi Normal Jika X 1 , X 2 ,..., X n adalah sampel random berdistribusi normal dengan densitas f xi ; , 2 , maka fungsi likelihoodnya didefinisikan dengan: L , 2 f x ; , n 2 i i 1 2 2 n / 2 1 exp 2 2 n x i 1 i 2 Metode Jeffrey’s Salah satu bentuk pendekatan dari non-informatif prior adalah dengan menggunakan metode Jeffrey’s. Metode ini menyatakan bahwa distribusi prior f merupakan akar kuadrat dari informasi Fisher yang dinyatakan dalam: f I 2 dimana I merupakan nilai harapan informasi Fisher 1 2 log f x; I E 2 t Jika 1 ,....., p adalah vektor, digunakan f det I 2 dimana I adalah matriks informasi Fisher p p dengan indeks i, j maka 1 96 Inferensi Statistik…(Alan Prahutama) 2 I ij E log f x ; dengan i = 1, 2, …, p ; j = 1, 2, …, p i j Non-Informatif Prior dari Distribusi Normal Distribusi non-informatif prior f dimana , 2 , diasumsikan bahwa dan 2 adalah independen sehingga f f f 2 Menentukan distribusi non-informatif prior f 2 f X ; , 2 1 X 2 exp 2 2 1 log f X ; , 2 X 1 1 log 2 log 2 2 2 2 2 2 Jika u 2 maka log X 1 1 f X ; , u log 2 log u 2 2 2 d log f X ; , u 1 X du 2u 2u 2 2 d 2 log f X ; , u 1 X du 2 2 4 6 d 2 log f X ; , u I 2 E du 2 1 2 4 2 2u f 2 I 2 1 2 Sedangkan nilai non-informatif prior untuk f c (konstan) diperoleh[3] 1 f 2 3. Pembahasan Distribusi Posterior Setelah mencari fungsi likelihood dan menentukan distribusi prior dari distribusi normal maka dapat dicari distribusi posteriornya sebagai berikut: f , 2 x L , f dd L , 2 f 2 2 2 0 97 Media Statistika, Vol. 5 No. 2, Desember 2012: 95-104 2 2 2 2 1 exp n n 2 2 n 1 2 2 2 2 n 1s 2 n n 1 2 1 2 n 2 n 1s 2 2 n 1 2 x i 1 n 1 2 i 2 n 1 2 n 1 2 2 1 n 1 2 1 exp 2 2 n x i 1 i 2 Distribusi Posterior Marginal untuk 2 Jika f , 2 x dan merupakan distribusi posterior yang sudah terbentuk maka distribusi posterior marginal untuk 2 adalah: f , xd f 2 x 2 n 1 2 n 1s 2 2 n 1 n 1s 2 n 1 2 2 1 exp ; 2 2 2 Jadi nilai distribusi posterior marginal untuk 2 yang terbentuk f 2 x adalah distribusi Invers Gamma dengan nilai 1 n 1 2 n 1 n 1s 2 f 2 x ~ IG , 2 2 dan n 1s 2 2 Interval Kepercayaan untuk 2 Menurut[7], jika X ~ Invers Gammak , maka 1 ~ Gamma k , 1 . Berdasar X M.D Anderson Cancer Center, maka distribusi posterior dapat ditulis dalam bentuk distribusi gamma sebagai n 1 1 2 ~ Gamma , 2 2 n 1s 2 2 n 1 x x berdistribusi Chi-Square dengan derajat bebas n 1 , kemudian akan 2 i 1 disusun interval kepercayaan untuk variansi 2 .Interval konfidensi 1 100% untuk 2 adalah: 2 n x i 1 2 1 2 i n x 2 i n 1 2 x i 1 x 2 i 2 n 1 2 98 Inferensi Statistik…(Alan Prahutama) Distribusi Marginal untuk Jika f , 2 x merupakan distribusi posterior yang sudah terbentuk maka distribusi marginal untuk adalah f x f , x d 2 2 2 0 1 s 1 2 2 n 11 n x n 1 2 n 1 s n 1 1 , n 1 2 2 x maka f x ~ t n 1 Jika nilai t s n Interval Kepercayaan untuk Interval konfidensi 1 100% untuk adalah Pterima H 0 0 1 P t n 1 t t n 1 1 2 2 t n 1 t t n 1 2 2 x t n 1 t n 1 s 2 n s n t n 1 x 2 s x x x 2 n s n s n s n t n 1 t n 1 x 2 s n 2 t n 1 x 2 t n 1 x 2 s n s n t n 1 2 t n 1 2 t n 1 2 Estimator Distribusi Normal Menggunakan Metode Maximum Likelihood Estimator (MLE) Misal X 1 , X 2 ,..., X n merupakan sampel random dari distribusi normal dengan mean dan variansi 2 . Dengan menggunakan metode maksimum likelihood dapat dicari estimator titik untuk dan 2 . X i ~ N , 2 , maka fungsi densitasnya adalah: f xi ; , 2 1 xi 2 exp 2 2 1 99 Media Statistika, Vol. 5 No. 2, Desember 2012: 95-104 Fungsi Likelihood: n L , 2 f xi ; , 2 i 1 1 x 2 exp i 2 1 / 2 1 x1 2 .... 2 2 exp 2 2 n 2 2 i 1 2 2 2 2 1 / 2 n / 2 1 exp 2 2 n x i 1 i 1 / 2 1 xn 2 exp 2 2 2 Log Likelihood: l log L , 2 n n 1 n x i 2 log 2 log 2 2 2 2 2 i 1 n 1 l 0 ˆ xi x n i 1 ˆ 1 n l 2 x i x 2 ̂ 0 2 ˆ n i 1 Uji Hipotesis Distribusi Normal untuk Parameter Mean dan Varian 2 Tidak Diketahui dengan Generilized Likelihood Ratio Test (GLRT) Misal X 1 , X 2 ,..., X n merupakan sampel random dari distribusi normal dengan mean dan variansi 2 keduanya tidak diketahui. Sehingga bisa ditentukan uji hipotesisnya dengan uji rasio likelihood (GLRT). Misal ditentukan uji hipotesis untuk adalah H 0 : 0 H1 : 0 Penyelesainnya: X i ~ N , 2 , maka fungsi densitasnya adalah: 1 x 2 exp i 2 2 Densitas bersama dari X 1 , X 2 ,..., X n adalah: f xi ; , 2 1 2 exp f x1 , x2 ,..., xn ; , 2 f x1 , ; , 2 .... f xn ; , 2 2 1 / 2 1 2 2 2 n / 2 2 1 exp 2 2 x1 2 ....2 2 1 / 2 exp n x i 1 i 1 2 2 xn 2 2 100 Inferensi Statistik…(Alan Prahutama) Telah diperoleh dari estimator maksimum likelihood bahwa: 1 n ˆ x dan ˆ 2 xi 2 n i 1 Untuk 0 maka: 0 dan 2 0 max 0 f x1 , x 2 ,..., x n ; , 2 1 n 2 xi 0 n i 1 n xi x 2 n 2 n / 2 1 2 i 1 2 n xi x exp 1 n 2 i 1 2 n xi x i 1 n 2 max x1 , x 2 ,..., x n 0 max 2 2 1 n 2 n xi x i 1 f x1 , x 2 ,..., x n ; , 2 f x1 , x 2 ,..., x n ; , 2 n / 2 n / 2 1 n 2 n xi 0 i 1 n / 2 1 n 2 n xi x i 1 n 2 xi 0 i n1 x x 2 i i 1 n n n 2 n exp 2 n exp 2 2 2 n n exp 2 2 n 2 2 x i x n x 0 i 1 n 2 xi x i 1 2 n x 0 1 n 2 xi x i 1 n n 2 2 2 n x 0 1 n 1 2 n 1 n 1 xi x i 1 n 2 101 Media Statistika, Vol. 5 No. 2, Desember 2012: 95-104 1 2 1 t n 1 Dengan t x 0 dan s s/ n n 2 n 1 xi x 2 n 1 i 1 Untuk max 0 x1 , x 2 ,..., x n max f x1 , x 2 ,..., x n ; , 2 f x1 , x 2 ,..., x n ; , 2 n 1 2 2 1 t n 1 Tolak H 0 jika x1 , x2 ,..., xn k n 2 1 2 1 t k n 1 1 2 1 t 2 k1 dengan k1 k n n 1 2 t c dengan c k1 1n 1 Sehingga GLRT: x1 , x2 ,..., xn { 1, T 2 c 0, yang lainnya Dengan c ditentukan dari: P T2 c PF1, n1 c Karena T x 0 s n ~ t n 1 maka GLRT dapat dinyatakan dengan: Tolak H 0 jika x 0 s n t n 1 atau x 0 s n t n 1 Misal ditentukan uji hipotesis untuk 2 adalah H 0 : 2 02 dengan 02 0 H 1 : 2 02 Untuk 0 maka: x dan 2 02 0 max 0 0 f x1 , x 2 ,..., x n ; , 2 2 Untuk maka: x dan 2 S 2 n / 2 n 2 xi x n 2 exp i 1 2 02 2 0 102 Inferensi Statistik…(Alan Prahutama) max f x1 , x 2 ,..., x n ; , 2 2 dimana S 2 n / 2 n 2 xi x n S 2 2 exp i 1 2S 2 1 x i x 2 n max x1 , x 2 ,..., x n 0 f x1 , x 2 ,..., x n ; , 2 max f x1 , x 2 ,..., x n ; , 2 S2 2 0 nS 2 exp 2 2 0 n nS 2 2 2 S exp 2 2S 2 n / 2 02 n 2 2 n / 2 n 2 1 nS 2 exp 2 n 2 0 Tolak H 0 jika x k ~ S2 2 0 n 2 1 nS 2 nS 2 c dengan c 2k 2 n exp 2 n k atau 2 2 0 0 Sehingga GLRT: x1 , x2 ,..., xn { 1, nS 2 02 c 0, yang lainnya Dengan c ditentukan dari: nS 2 P 2 c 0 2 ns Karena 2 ~ 2n 1 maka GLRT dapat dinyatakan dengan: 0 Tolak H 0 jika ns 2 n 1 atau 2 ns 2 2 n 1 1 2 2 Sehingga terdapat hubungan yang kuat antara uji hipotesis dan interval konfidensi. Secara umum dapat dikatakan bahwa interval konvidensi berkorespondensi dengan uji hipotesis dan sebaliknya. Sehingga akan menghasilkan interval kepercayaan untuk , yaitu s s x t n 1 x t n 1 n 2 n 2 Interval kepercayaan untuk 2 : n x i 1 2 0 n x 2 i n 1 1 2 2 2 x i 1 2 0 x 2 i 2 n 1 2 4. Kesimpulan 103 Media Statistika, Vol. 5 No. 2, Desember 2012: 95-104 Penentuan inferensi statistik dari distribusi normal dengan parameter mean ( ) dan varian ( ) dengan keduanya tidak diketahui menggunakan metode bayes yang dibandingkan terhadap metode maksimum likelihood dalam kasus ini ternyata memberikan uji hipotesis yang sama. DAFTAR PUSTAKA 1. Albert, J., Bayesian Computation with R Second Edition, Springer Scince, USA, 2009. 2. Bolstad, W.M., Introduction to Bayesian Statistics Second Edition, A John Wiley & Sons Inc, America, 2007. 3. Box, G.E.P and Tiao, G.C., Bayesian Inference In Statistical Analysis, AddisionWesley Publishing Company, Inc, Philippines, 1973. 4. Pollard, W.E., Bayesian Statistics for Evaluation Research, Sage Publication, Inc: California, 1986. 5. Walpole, R. E dan Myers, R. H., Ilmu Peluang dan Statistika untuk Insinyur dan Ilmuwan, Terbitan Kedua, ITB, Bandung, 1986. 6. Walpole, R. E., Pengantar Statistika Edisi ke-3, PT Gramedia Pustaka Utama, Jakarta, 1993. 7. _______, M.D. Anderson Cancer Center, Parameter Solver, Version 2.3 User’s Guide, University of Texas. Department of Biostatistics and Applied Mathematics. URL: http://biostatistics.mdanderson.org/SoftwareDownload/, (diakses pada tanggal 10 Maret 2010). 104