1 PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang Multikolinearitas merupakan masalah yang sering muncul dalam analisis regresi linear berganda. Masalah tersebut terjadi ketika adanya korelasi yang kuat antara peubah penjelas. Hal ini dapat menyebabkan matriks X’X memiliki kondisi buruk (ill condition) atau hampir singular yang pada akhirnya akan menyebabkan nilai penduga ragam bagi parameter regresi menjadi lebih besar (Draper & Smith 1992). Salah satu metode yang digunakan untuk mengatasi adanya multikolinearitas dalam regresi linear berganda adalah Regresi Komponen Utama (RKU). Metode ini mengatasi multikolinearitas dengan cara membentuk komponen-komponen utama yang tidak saling berkorelasi. Komponenkomponen utama ini dibentuk dari peubah penjelasnya yang dihasilkan dari penguraian matriks ragam-peragam. Untuk menduga matriks ragam-peragam biasanya digunakan metode kemungkinan maksimum (Maximum Likelihood Estimation). Namun, metode pendugaan ini sangat sensitif terhadap pencilan. Oleh karena itu, digunakan metode Determinan Peragam Minimum (Minimum Covariance Determinant/MCD), yang diperkenalkan oleh Rousseeuw pada tahun 1984, yang merupakan metode pendugaan matriks ragam-peragam yang kekar terhadap pencilan. Komponen-komponen utama yang telah terbentuk kemudian diregresikan terhadap peubah respon. Metode Kuadrat Terkecil (MKT) biasanya digunakan untuk pendugaan parameter regresi. Saat menduga parameter regresi terdapat juga kemungkinan adanya pencilan ketika satu atau lebih komponen utama diregresikan dengan peubah respon, sehingga digunakan Metode Kuadrat Terkecil Terpotong (MKTT) yang diharapkan dapat menyusun model regresi yang kekar. Penelitian ini akan menggunakan MCD untuk menduga matriks ragam-peragam dalam analisis regresi komponen utama. Sedangkan parameter regresi akan diduga dengan menggunakan MKT dan MKTT. Analisis Regresi Linear Berganda Analisis regresi linear berganda adalah salah satu alat statistika untuk mengevaluasi hubungan antara peubah respon dengan beberapa peubah penjelas. Model regresi linear berganda yang melibatkan p peubah penjelas (x1,x2,…,xp) yang terkoreksi dengan rataannya adalah Tujuan Tujuan dari penelitian ini adalah untuk membandingkan kekekaran metode MCDMKT dan MCD-MKTT terhadap data yang dikontaminasi dengan pencilan. Dalam notasi matriks dapat disajikan sebagai berikut: dengan y adalah vektor peubah respon berukuran nx1, X adalah matriks peubah penjelas berukuran nxp, β adalah vektor koefisien regresi berukuran px1 dan ε adalah vektor sisaan, dengan (Saefuddin et al 2009). Salah satu metode yang digunakan untuk menduga parameter regresi dalam regresi linear berganda adalah MKT. Konsep dasar dari MKT untuk menduga parameter regresi adalah dengan jalan meminimumkan jumlah kuadrat simpangan nilai pengamatan dengan nilai dugaan (Aunuddin 2005). Multikolinearitas Salah satu asumsi dalam analisis regresi berganda adalah tidak adanya korelasi yang kuat antara peubah penjelasnya atau disebut multikolinearitas. Hal ini dapat menyebabkan MKT menghasilkan penduga yang tidak efisien karena matriks yang dibangun untuk menduga parameter yaitu X’X hampir singular sehingga penduga ragam bagi parameter regresi menjadi lebih besar dari seharusnya (Myers 1989). Analisis Kompnen Utama Analisis Komponen Utama (AKU) adalah metode analisis peubah ganda yang bertujuan memperoleh peubah-peubah baru (komponen utama) yang berasal dari peubah asalnya. Komponen-komponen utama yang terbentuk tidak saling berkorelasi dan dapat diungkapkan dalam bentuk dengan W adalah nilai atau skor komponen utama, X adalah matriks data terkoreksi oleh rataannya (centered), dan V adalah matriks berukuran pxp yang kolom kei merupakan vektor ciri ke-i dari matriks ragam-peragam dan akar-akar cirinya disusun dalam urutan (Jollife 2002). 2 Keragaman komponen utama ke-i adalah: dengan total keragaman komponen utama adalah . Sementara itu, persentase total keragaman yang mampu dijelaskan oleh komponen utama ke-i adalah . Pada praktiknya, analisis komponen utama juga digunakan untuk mereduksi banyaknya p peubah asal menjadi k peubah baru yang akan digunakan, dengan . Terdapat tiga metode untuk menentukan banyaknya k yang akan digunakan, yaitu sebagai berikut: 1. Scree plot, merupakan plot antara akar ciri dengan k. Penentuan banyaknya k yaitu ketika pada titik k, plot tersebut curam di kiri tapi landai di kanan. 2. Akar ciri, penentuan banyaknya k yang digunakan yaitu berdasarkan nilai akar cirinya. Kaiser (1960) menjelaskan bahwa komponen utama yang digunakan adalah komponen utama yang memiliki padanan akar ciri lebih dari satu. Jollife (1972) dalam studinya mengatakan bahwa nilai cut off yang lebih baik bukanlah satu melainkan 0.7. 3. Persentase kumulatif total keragaman, penentuan banyaknya k yang akan digunakan yaitu ketika komponen utama yang pertama sampai dengan k telah memenuhi batas proporsi kumulatif total keragaman yang diinginkan. Tidak ada patokan baku mengenai berapa nilai minimum persentase kumulatif total keragaman yang digunakan, sehingga tergantung peneliti yang ingin menggunakannya. Jollife (2002) menyatakan nilai minimum persentase kumulatif total keragaman berkisar antara 70% sampai 90%. Regresi Komponen Utama RKU merupakan implementasi dari AKU. RKU digunakan untuk menjelaskan hubungan antara peubah respon dengan satu atau lebih peubah komponen utama sebagai peubah penjelasnya. Berikut ini disajikan model regresi komponen utama yang dibentuk dari model regresi linear berganda dengan adalah suatu matriks yang berukuran nxk yang memuat sejumlah k komponen utama, adalah vektor koefisien regresi komponen utama yang berukuran kx1. Determinan Peragam Minimum MCD merupakan penduga yang sangat kekar untuk menduga parameter nilai tengah dan matriks ragam-peragam (Rousseeuw et al 2004). MCD bertujuan mendapatkan h pengamatan dari n objek yang memiliki matriks ragam-peragam terkecil, dengan h merupakan bilangan bulat terbesar dari (Rousseeuw & Driessen 1999). Algoritma MCD sebagai berikut: 1. Ambil secara acak amatan, kemudian hitung nilai tengah dan matriks ragam-peragamnya . 2. Inisiasikan k=0 3. Lakukan pengulangan untuk proses di bawah ini: 3.1. Definisikan dan 3.2. Hitung jarak setiap amatan dengan rumus 3.3. Urutkan data amatan dari yang terkecil hingga terbesar dengan acuan . 3.4. Pilih sebanyak amatan yang memiliki terkecil dan tempatkan dalam himpunan bagian H 3.5. 3.6. Hitung nilai tengah dan matriks ragam-peragam dari sejumlah h amatan yang terambil 4. Lakukan langkah 3 sampai atau . 5. Himpunan bagian H terakhir yang terbentuk adalah himpunan bagian yang memiliki determinan matriks ragamperagam terkecil, sehingga dan 6. Selanjutnya, dilakukan tahap pembobotan: dengan sehingga model regresi komponen utama yang telah direduksi menjadi k komponen adalah 3 Metode Kuadrat Terkecil Terpotong MKTT adalah salah satu metode penaksiran parameter regresi yang kekar terhadap kehadiran pencilan. Prinsip dari MKTT ini adalah dengan meminimumkan jumlah kuadrat sisaan dari himpunan bagian data yang terbentuk (Rousseeuw & Driessen 2006). dimana dan . Pencilan Jarak Mahalanobis adalah salah satu metode untuk mengidentifikasi data pencilan pada data peubah ganda. Pengamatan ke-i didefinisikan sebagai pencilan jika jarak Mahalanobisnya lebih besar dari nilai khikuadrat pada p peubah. 2. Hitung dari persamaan , dengan merupakan vektor koefisien regresi berdimensi px1. Pada penilitian ini, peneliti menggunakan . 3. Membuat matriks dengan cara mengganti sejumlah data dengan data pencilan pada . Banyaknya pencilan yang diberikan adalah , dengan adalah proporsi pencilan dari jumlah data. 4. Menghitung matriks ragam-peragam dengan metode MCD. 5. Melakukan analisis komponen utama berdasarkan matriks ragam-peragam metode MCD. 6. Meregresikan skor komponen utama pada langkah 7 terhadap dengan metode MKT dan MKTT. Vektor koefisien regresi yang diperoleh disimbolkan dengan . 7. Ulangi langkah 3 sampai 6 sebanyak 100 kali. 8. Menghitung nilai bias dan Kuadrat Tengah Galat (KTG) dari yang dihasilkan masing-masing metode. METODOLOGI Karakteristik Data Bangkitan Penelitian ini menggunakan data bangkitan atau simulasi. Matriks data dibangkitkan dengan kondisi antar kolomnya memiliki nilai korelasi yang tinggi (lebih dari 0.8). Matriks korelasi yang digunakan dapat dilihat pada Lampiran 1. Matriks data dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [10 10 10 10] dan matriks ragam peragam yang dapat dilihat pada Lampiran 2. Matriks data ini beukuran nxp, dengan n=100 dan p=4. Matriks data pencilan dibangkitkan dari sebaran normal ganda dengan vektor rataan µ = [25 25 25 25] dan matriks ragamperagamnya sama seperti matriks ragamperagam pada . Matriks data pencilan ini berukuran mxp, dengan m=5000 dan p=4. Kemudian dibangkitkan juga data sisaan dari sebaran normal dengan nilai tengah dan simpangan baku . Proporsi banyaknya pencilan dari jumlah data yang dicobakan adalah 1% sampai 10%. Jumlah ulangan yang dilakukan untuk setiap proporsi pencilan sebanyak 100 kali. Metode Berikut ini adalah tahapan metode yang akan dilakukan dalam penelitian ini: 1. Membangkitkan data dan seperti yang telah dijelaskan di atas. 9. Ulangi langkah 3 sampai 8 dengan yang berbeda (nilai yang digunakan 1% sampai 10%). 10. Membandingkan nilai bias dan KTG yang dihasilkan dari masing-masing metode. HASIL DAN PEMBAHASAN Analisis Komponen Utama Pada penelitian ini, komponen utama yang digunakan yaitu komponen utama yang mampu menjelaskan minimal 80% total keragaman. Besarnya persentase kumulatif total keragaman pada komponen utama pertama yang dihasilkan oleh metode MCD yaitu di atas 80% pada setiap proporsi pencilan yang dicobakan, sehingga banyaknya komponen utama yang diregresikan dengan peubah respon yaitu satu komponen utama. Bias dan KTG dari Nilai bias dan KTG yang diperoleh dari metode MCD-MKT dan MCD-MKTT terdapat di Lampiran 3 dan 4.