Topik 2. Estimasi Titik 1. Statistika Inferensial Untuk mengetahui karakteristik yang bersifat numerik dari suatu populasi, observasi terhadap satu atau lebih variabel acak yang terkait perlu dilakukan. Hasil observasi ini kemudian dianalisis dengan menggunakan teknik-teknik tertentu untuk mengestimasi karakteristik (dalam model parametrik disebut parameter) populasi atau menguji hipotesis tentang populasi. Bagian statistika yang membahas teori estimasi dan uji hipotesis dinamakan statistika inferensial (inferential statistics). Estimasi parameter dibedakan menjadi dua macam, yaitu estimasi titik dan estimasi interval. Bab ini membahas estimasi titik. Estimasi interval dan uji hipotesis akan di bahas di bab-bab yang akan datang. 2. Statistik dan Estimator Pandang variabel-variabel acak terobservasi X1, X2, …, Xn. Sebagai contoh adalah sampel acak berukuran n dari suatu populasi (distribusi). Definisi 2.1 Sebuah fungsi dari variabel acak terobservasi T=T(X1, X2, …, Xn) yang tidak tergantung pada parameter populasi dinamakan statistik. Contoh 2.1 Misalkan X1, X2, …, Xn merupakan sampel acak dari suatu populasi. Berikut ini dua contoh statistik: n a. T ( X ,..., X 1 n) X i 1 n i : X n , dinamakan sampel mean. n b. T ( X ,..., X 1 n ) (X i 1 i X n )2 n 1 : S 2 , dinamakan sampel varians. Teorema 2.2 Jika X1, X2, …, Xn, merupakan sampel acak dari sebarang distribusi dengan mean =E(Xi) dan variansi 2=Var(Xi) maka a. E ( X n ) . b. Var( X ) 2 n c. . E (S 2 ) 2 n . . Untuk selanjutnya anggap populasi dimodelkan dengan variabel acak X yang mempunyai distribusi dengan fungsi densitas f(x,) dimana merupakan parameter populasi. Parameter mungkin berupa vektor. Misalkan () suatu fungsi dari parameter . Misalkan X1, X2, …, Xn sampel acak dari X. Definisi 2.3 Sebuah statistik T(X1, X2, …, Xn) yang digunakan untuk mengestimasi nilai dari () dinamakan estimator untuk (). 3. Metode-metode Estimasi 3.1 Metode Momen Prinsip dari metode momen adalah menyamakan momen ke k dari populasi, yakni E(Xk), dengan n momen ke k dari sampel, yakni X i 1 n k i . Estimator untuk parameter diperoleh dengan menyelesaikan sistem persamaan n E( X k ) X i 1 k i n (3.1) , k 1,2,..., j. dan akan dinotasikan dengan ~ . Contoh 3.1 Misalkan X1, X2, …, Xn, merupakan sampel acak dari distribusi eksponensial, X~EXP( ) dengan fungsi densitas x0 0, f ( x; ) 1 x / e , 0 x Karena E(X)= maka, dengan menggunakan rumus n ~ (3.1) dengan mengambil j=1, diperoleh X i 1 i n Xn . Contoh 3.2 Misalkan X1, X2, …, Xn, merupakan sampel acak dari sebarang distribusi dengan mean dan variansi 2, maka dengan mudah dapat ditunjukkan bahwa n ~ X n dan ~ 2 (X i 1 i X n )2 n . Perhatikan bahwa ~ 2 n 1 2 S n dimana S2 adalah sampel varians. 3.2 Metode Maksimum Likelihood Ide dasar dari metode maksimum likelihood adalah mencari nilai parameter yang memberi kemungkinan (likelihood) yang paling besar untuk mendapatkan data yang terobservasi sebagai estimator. Definisi 3.1 Fungsi densitas bersama f(x1,…,xn; ) dari variabelvariabel acak X1, X2, …, Xn dinamakan fungsi likelihood. Untuk x1,…,xn yang tetap fungsi likelihood merupakan fungsi dari dan akan dinotasikan dengan L( ), yakni L( )= f(x1,…,xn; ). Jika X1, X2, …, Xn adalah sampel acak dari f(x,) maka n L( ) f ( xi , ) i 1 Definisi 3.2 Misalkan L( )= f(x1,…,xn; ), , merupakan fungsi densitas bersama dari variabel-variabel acak X1, X2, …, Xn. Estimator maksimum likelihood (Maximum Likelihood Estimator / MLE) untuk , dinotasikan dengan ˆ adalah nilai yang memaksimumkan fungsi likelihood L( ). Jika merupakan interval terbuka dan jika L( ) terdiferensialkan dan mencapai nilai maksimum pada maka MLE ˆ merupakan penyelesaian dari persamaan maksimum likelihood d L( ) 0 d atau secara ekuivalen ˆ merupakan penyelesaian dari persamaan maksimum likelihood d ln L( ) 0 d Persamaan yang terakhir umumnya lebih mudah digunakan untuk mencari estimator maksimum likelihood ˆ . Contoh 3.3 Misalkan X1, X2, …, Xn, merupakan sampel acak dari distribusi Poisson, X~POI( ) dengan fungsi densitas f ( x; ) x e x! , x 0,1,2,... Fungsi likelihood n n L( ) f ( xi , ) i 1 xi i 1 e n n x! i i 1 dan fungsi log likelihood n n ln L( ) xi ln n ln xi ! i 1 i 1 . Persamaan maksimum likelihoodnya adalah n d x ln L( ) i n 0 d i 1 yang mempunyai penyelesaian ˆ xn . Jadi MLE dari adalah ˆ X . n Terdapat kasus dimana estimator maksimum likelihood ada tetapi tidak dapat diperoleh dengan menyelesaikan persamaan likelihood. Contoh 3.4 Misalkan X1, X2, …, Xn, merupakan sampel acak dari distribusi eksponensial dengan dua parameter, X~EXP(1, ) dengan fungsi densitas x 0, f ( x; ) ( x ) , x e Fungsi likelihood n L( ) exp ( xi ) i 1 jika x1:n dan L( )=0 untuk kasus selainnya. Disini jelas bahwa MLE untuk adalah ˆ X . 1:n Teorema 3.3 Jika ˆ adalah MLE dari dan u( ) adalah fungsi dari maka u (ˆ) adalah MLE dari u( ). 4. Kriteria Menilai Estimator. Berikut ini beberapa kriteria yang sering digunakan untuk menilai estimator. Definisi 4.1 Sebuah estimator T dikatakan estimator tak bias untuk ( ) jika E(T)= ( ) untuk semua . Jika tidak demikian T dikatakan estimator bias untuk ( ). Contoh 4.1 Jika X1, X2, …, Xn, merupakan sampel acak dari sebarang distribusi dengan mean =E(Xi) dan variansi 2=Var(Xi) maka menurut Teorema 2.2 Xn dan S2 masing-masing adalah estimator tak bias untuk dan 2, karena estimator ~ 2 estimator n 1 2 S n bias E ( X n ) . dan E (S 2 ) 2 . Tetapi pada Contoh 3.2 merupakan untuk n 1 2 n 1 2 n 1 E (~ 2 ) E S E (S 2 ) n n n 2 karena . Definisi 4.2 Jika T adalah estimator untuk ( ), maka bias dari T didefinisikan sebagai b(T)=E(T)- ( ) dan mean squared error (MSE) dari T didefinisikan sebagai MSE(T)=E[T- ( )]2. Teorema 4.3 Jika T adalah estimator untuk ( ), maka MSE(T)=Var(T)+[b(T)]2. Definisi 4.4 Sebuah estimator T* dikatakan estimator tak bias dengan variansi minimum secara uniform (uniformly minimum variance unbiased estimator / UMVUE) untuk ( ) jika a. T* estimator tak bias untuk ( ), dan b. Untuk sebarang estimator tak bias T untuk ( ), Var(T*) Var(T) untuk semua . Dalam kasus tertentu UMVUE untuk () dapat ditemukan dengan menggunakan batas bawah Cramer-Rao (Cramer-Rao lower bound / CRLB). Teorema 4.5 (CRLB ) Jika T adalah estimator tak bias untuk ( ), maka Var (T ) [ ' ( )]2 nE ln f ( X , ) 2 . Contoh 4.2 Misalkan X1, X2, …, Xn, merupakan sampel acak dari sebarang distribusi eksponensial, X~EXP( ) dan () = . Karena ln f ( x, ) ( x ) / 2 maka dapat ditunjukkan bahwa E ln f ( X , ) 1 / 2 2 , sehingga CRLB untuk ( ) sama dengan 2/n. Jelas bahwa Xn merupakan estimator tak bias untuk ( ) = . Selanjutnya dapat ditunjukkan bahwa Kesimpulannya Xn Var ( X n ) 2 / n merupakan UMVUE untuk ( ). . Definisi 4.6 Misalkan T dan T* merupakan estimator tak bias untuk ( ). Efisisensi relatif dari T terhadap T* didefinisikan sebagai re(T , T *) Var (T *) Var (T ) . T* dikatakan efisien jika re(T,T*) 1 untuk semua estimator tak bias T untuk ( ) dan semua . Jika T* adalah estimator efisien untuk ( ) maka efisiensi dari estimator tak bias T untuk untuk ( ) didefinisikan sebagai e(T)= re(T,T*). 5. Sifat-sifat untuk Ukuran Sampel Besar Definisi 5.1 Barisan estimator {Tn} untuk ( ) dikatakan konsisten (simpel konsisten) jika untuk setiap > 0 lim n P(| Tn ( ) | ) 1 untuk setiap . Definisi 5.2 Barisan estimator {Tn} untuk ( ) dikatakan MSE konsisten jika lim n E[Tn ( )]2 0 untuk setiap . Definisi 5.3 Barisan estimator {Tn} untuk ( ) dikatakan tak bias asimtotik jika lim n E (Tn ) ( ) untuk setiap . Teorema 5.4 Barisan estimator {Tn} untuk ( ) adalah MSE konsisten jika dan hanya jika barisan estimator tersebut tak bias asimtotik dan lim n Var(Tn ) 0 . Teorema 5.5 Jika barisan estimator {Tn} untuk ( ) adalah MSE konsisten maka barisan estimator tersebut juga simpel konsisten. Teorema 5.6 Jika barisan estimator {Tn} untuk ( ) adalah simpel konsisten dan jika g(t) adalah fungsi yang kontinu pada setiap nilai dari ( ) maka g(Tn) simpel konsisten untuk g(()). Definisi 5.7 Misalkan {Tn} dan {Tn*} merupakan estimator tak bias asimtotik untuk ( ). Efisisensi relatif asimtotik dari Tn terhadap Tn* didefinisikan sebagai are(Tn , Tn *) lim n Var (Tn *) Var (Tn ) . Barisan {Tn*} dikatakan efisien secara asimtotik jika are(Tn,Tn*) 1 untuk semua barisan estimator tak bias asimtotik {Tn} untuk ( ) dan semua . Jika {Tn*} adalah barisan estimator efisien secara asimtotik untuk ( ) maka efisiensi asimtotik dari barisan estimator tak bias asimtotik {Tn} untuk untuk ( ) didefinisikan sebagai ae(Tn)= are(Tn,Tn*). Di bawah kondisi tertentu, yang dinamakan kondisi reguler, estimator maksimum likelihood mempunyai sifat: a. ˆ ada dan tunggal. n ˆn b. ˆ estimator konsisten untuk . n c. ˆ mempunyai limit distribusi normal dengan n mean dan variansi 1 nE ln f ( X , ) 2 . d. ˆ efisien secara asimtotik. n 6. Estimator Bayes dan Minimax Definisi 6.1 Jika T adalah estimator untuk ( ) maka sebarang fungsi bernilai real dinamakan loss function jika memenuhi L(t;) 0 untuk setiap t dan L(t;) =0 jika t= ( ). Definisi 6.2 Risk function didefinisikan sebagai harga harapan dari loss, yakni RT() =E[L(T;)]. Definisi 6.3 Sebuah estimator T1 dikatakan better estimator dari estimator T2 jika dan hanya jika RT1 ( ) RT2 ( ) untuk semua dan RT1 ( ) RT2 ( ) untuk paling sedikit satu nilai . Sebuah estimator T dikatakan admissible jika tidak ada lagi better estimator. Definisi 6.4 Sebuah estimator T1 disebut estimator minimax jika max{ RT1 ( ) : } max{ RT ( ) : } untuk semua estimator T . Definisi 6.5 Untuk sampel acak dari f(x,), Bayes risk dari sebuah estimator T relatif terhadap risk function RT() dan fungsi densitas p() adalah rata-rata risk terhadap p(), yakni AT E [ RT ( )] RT ( ) p( )d . Definisi 6.6 Untuk sampel acak dari f(x,), Bayes estimator T* relatif terhadap risk function RT() dan fungsi densitas p() adalah estimator dengan minimum ekspektasi risk, yakni E [ RT * ( )] E [ RT ( )] untuk setiap estimator T. Definisi 6.7 Fungsi densitas bersyarat dari bila diberikan observasi sampel x=(x1, …, xn) dinamakan posterior density dan diberikan oleh f | x ( ) f ( x1 ,..., xn | ) p( ) f ( x1 ,..., xn | ) p( )d . Teorema 6.8 Jika X1, …, Xn adalah sampel acak dari f(x|) maka Bayes estimator adalah estimator yang meminimumkan harga harapan loss relatif terhadap distribusi posterior dari |x, yakni E | x [ L(T ; )] 7. Kecukupan estimator 7.1 Statistik cukup . Definisi 1.1 Misalkan X=(X1, X2, …, Xn) mempunyai densitas bersama f(x,), dimana merupakan vektor parameter. Statistik S=(S1, S2, …, Sk) merupakan statistik cukup gabungan untuk jika untuk sebarang vektor statistik T yang lain, distribusi bersyarat dari T diberikan S=s, dinotasikan dengan fT|s(t), tidak tergantung . Dalam kasus dimensi satu S dinamakan statistik cukup untuk . Definisi 1.2 Suatu himpunan statistik dikatakan sebagai himpunan statistik cukup minimal jika anggota-anggotanya adalah statistik cukup gabungan untuk parameter dan jika statistik-statistik tersebut merupakan fungsi dari himpunan statistik cukup gabungan yang lain. Definisi 1.1 tidak bersifat operasional untuk menyelidiki bahwa suatu statistik merupakan statistik cukup. Karena sebarang statistik merupakan fungsi dari sampel X=(X1, X2, …, Xn) maka untuk menyelidiki statistik cukup, cukup ditunjukan bahwa fX|s(x), tidak tergantung . Contoh 2.1 Misalkan X1, X2, …, Xn merupakan sampel acak dari distribusi eksponensial X~EXP(). Disini n Xi 1 f ( x1 ,..., xn ; ) n exp i 1 , xi 0 Akan ditunjukkan bahwa n S Xi . adalah statistik i 1 cukup untuk . Karena S berdistribusi gamma, S~GAM( ,n), dengan fungsi densitas f S ( s; ) maka 1 s n 1e s / , s 0 ( n) n f X |s ( s) ( n) s n 1 tidak tergantung pada . Jadi S merupakan statistik cukup untuk . Untuk menemukan suatu statistik cukup dapat digunakan teorema berikut. Teorema 1.3 Jika X1, X2, …, Xn, mempunyai densitas bersama f(x,) maka S=(S1, S2, …, Sk) merupakan statistik cukup gabungan untuk jika dan hanya jika f ( x1 ,..., xn ; ) g (s; )h( x1 ,..., xn ) dimana g(s,) tidak tergantung pada x1, …, xn, kecuali melalui s, dan h(x1, …, xn ) tidak tergantung . Contoh 2.1 Misalkan X1, X2, …, Xn merupakan sampel acak dari distribusi Bernoulli, X~BIN(1,). Disini n xi f ( x1 ,..., xn ; ) i 1 (1 ) n n xi i 1 s (1 ) n s . g ( s; )h( x1 ,..., xn ) dimana n s xi i 1 dan h(x1, …, xn )=1. Jadi n S Xi i 1 merupakan statistik cukup untuk . 7.2 Sifat-sifat Statistik Cukup Teorema 2.1 Jika S1, …, Sk adalah statistik cukup gabungan untuk dan jika ˆ adalah satu-satunya MLE untuk , maka ˆ merupakan fungsi dari S1, …, Sk. Teorema 2.2 Jika S adalah statistik cukup untuk maka sebarang Bayes estimator merupakan fungsi dari S. Teorema 2.3 Jika X1, X2, …, Xn merupakan sampel acak dari sebarang distribusi kontinu dengan fungsi densitas bersama f(x,) maka order statistik membentuk statistik cukup gabungan untuk . Teorema 2.4 (Rao-Blackwell) Misalkan X1, X2, …, Xn mempunyai fungsi densitas bersama f(x,) dan S=(S1, S2, …, Sk) merupakan statistik cukup gabungan untuk . Jika T adalah sebarang estimator tak bias untuk () dan T*=E(T|S) maka c. T* adalah estimator tak bias untuk ( ), d. T* adalah fungsi dari S, dan e. Var(T*) Var(T) untuk setiap dan Var(T*) < Var(T) untuk suatu jika tidak benar bahwa T*=T dengan probabilitas 1. Dalam kasus tertentu UMVUE untuk () dapat ditemukan dengan menggunakan batas bawah Cramer-Rao (Cramer-Rao lower bound / CRLB). 8. Kelengkapan dan Kelas Eksponensial Definisi 8.1 Keluarga fungsi densitas {fT(t, ); } dikatakan lengkap jika E[u(T)]=0 untuk semua mengakibatkan u(T)=0 dengan probabilitas 1 untuk semua . Sebuah statistik cukup dari anggota keluarga yang lengkap dinamakan statistik cukup lengkap. Teorema 8.2 (Lehmann-Scheffe) Misalkan X1, X2, …, Xn mempunyai fungsi densitas bersama f(x,) dan S=(S1, S2, …,Sk) satatistik cukup gabungan untuk . Jika T*=T*(S1, S2, …,Sk) adalah statistik yang tak bias untuk ( ) dan merupakan fungsi dari S, maka T* adalah UMVUE untuk ( ). Definisi 8.3 Sebuah fungsi densitas dikatakan termasuk dalam anggota keluarga eksponensial reguler jika fungsi densitas tersebut dapat dituliskan dalam bentuk k f ( x; ) c( )h( x) exp q j ( )t j ( x) , x A j 1 dan f(x,)=0 untuk nilai x yang lain, dimana adalah vektor parameter berdimensi k, jika ruang parameter berbentuk ={ : ai i bi, i=1,…,k} dan jika f(x,) memenuhi kondisi reguler 1, 2, dan 3a atau 3b, yaitu 1. Himpunan A={x: f(x,) >0} tidak tergantung . 2. Fungsi qj( ) tidak trivial, independen, dan kontinu. 3a. Untuk variabel acak kontinu fungsi turunan tj’(x) linear independen dan kontinu. 3b. Untuk variabel acak diskret fungsi tj(x) tidak trivial pada A dan tak satupun yang merupakan fungsi linear dari yang lain. Teorema 8.4 Jika X1, X2, …, Xn merupakan sampel acak dari anggota kelas eksponensial reguler maka satatistikstatistik n n i 1 i 1 S1 t1 ( X i ),..., S k tk ( X i ) adalah himpunan minimal dari statistik cukup lengkap untuk 1,…,k.