Manajemen data pencilan pada analisis regresi komponen utama

advertisement
1
PENDAHULUAN
TINJAUAN PUSTAKA
Latar Belakang
Multikolinearitas merupakan masalah
yang sering muncul dalam analisis regresi
linear berganda. Masalah tersebut terjadi
ketika adanya korelasi yang kuat antara
peubah penjelas. Hal ini dapat menyebabkan
matriks X’X memiliki kondisi buruk (ill
condition) atau hampir singular yang pada
akhirnya akan menyebabkan nilai penduga
ragam bagi parameter regresi menjadi lebih
besar (Draper & Smith 1992).
Salah satu metode yang digunakan untuk
mengatasi adanya multikolinearitas dalam
regresi linear berganda adalah Regresi
Komponen Utama (RKU). Metode ini
mengatasi multikolinearitas dengan cara
membentuk komponen-komponen utama yang
tidak
saling
berkorelasi.
Komponenkomponen utama ini dibentuk dari peubah
penjelasnya yang dihasilkan dari penguraian
matriks ragam-peragam. Untuk menduga
matriks ragam-peragam biasanya digunakan
metode kemungkinan maksimum (Maximum
Likelihood Estimation). Namun, metode
pendugaan ini sangat sensitif terhadap
pencilan. Oleh karena itu, digunakan metode
Determinan Peragam Minimum (Minimum
Covariance
Determinant/MCD),
yang
diperkenalkan oleh Rousseeuw pada tahun
1984, yang merupakan metode pendugaan
matriks ragam-peragam yang kekar terhadap
pencilan.
Komponen-komponen utama yang telah
terbentuk kemudian diregresikan terhadap
peubah respon. Metode Kuadrat Terkecil
(MKT) biasanya digunakan untuk pendugaan
parameter regresi. Saat menduga parameter
regresi terdapat juga kemungkinan adanya
pencilan ketika satu atau lebih komponen
utama diregresikan dengan peubah respon,
sehingga digunakan Metode Kuadrat Terkecil
Terpotong (MKTT) yang diharapkan dapat
menyusun model regresi yang kekar.
Penelitian ini akan menggunakan MCD
untuk menduga matriks ragam-peragam dalam
analisis regresi komponen utama. Sedangkan
parameter regresi akan diduga dengan
menggunakan MKT dan MKTT.
Analisis Regresi Linear Berganda
Analisis regresi linear berganda adalah
salah satu alat statistika untuk mengevaluasi
hubungan antara peubah respon dengan
beberapa peubah penjelas. Model regresi
linear berganda yang melibatkan p peubah
penjelas (x1,x2,…,xp) yang terkoreksi dengan
rataannya adalah
Tujuan
Tujuan dari penelitian ini adalah untuk
membandingkan kekekaran metode MCDMKT dan MCD-MKTT terhadap data yang
dikontaminasi dengan pencilan.
Dalam notasi matriks dapat disajikan
sebagai berikut:
dengan y adalah vektor peubah respon
berukuran nx1, X adalah matriks peubah
penjelas berukuran nxp, β adalah vektor
koefisien regresi berukuran px1 dan ε adalah
vektor
sisaan,
dengan
(Saefuddin et al 2009).
Salah satu metode yang digunakan untuk
menduga parameter regresi dalam regresi
linear berganda adalah MKT. Konsep dasar
dari MKT untuk menduga parameter regresi
adalah dengan jalan meminimumkan jumlah
kuadrat simpangan nilai pengamatan dengan
nilai dugaan (Aunuddin 2005).
Multikolinearitas
Salah satu asumsi dalam analisis regresi
berganda adalah tidak adanya korelasi yang
kuat antara peubah penjelasnya atau disebut
multikolinearitas. Hal ini dapat menyebabkan
MKT menghasilkan penduga yang tidak
efisien karena matriks yang dibangun untuk
menduga parameter yaitu X’X hampir
singular sehingga penduga ragam bagi
parameter regresi menjadi lebih besar dari
seharusnya (Myers 1989).
Analisis Kompnen Utama
Analisis Komponen Utama (AKU) adalah
metode analisis peubah ganda yang bertujuan
memperoleh peubah-peubah baru (komponen
utama) yang berasal dari peubah asalnya.
Komponen-komponen utama yang terbentuk
tidak
saling
berkorelasi
dan
dapat
diungkapkan dalam bentuk
dengan W adalah nilai atau skor
komponen utama, X adalah matriks data
terkoreksi oleh rataannya (centered), dan V
adalah matriks berukuran pxp yang kolom kei merupakan vektor ciri ke-i dari matriks
ragam-peragam
dan akar-akar cirinya
disusun dalam urutan
(Jollife 2002).
2
Keragaman komponen utama ke-i adalah:
dengan total keragaman komponen utama
adalah
. Sementara
itu, persentase total keragaman yang mampu
dijelaskan oleh komponen utama ke-i adalah
.
Pada praktiknya, analisis komponen utama
juga digunakan untuk mereduksi banyaknya p
peubah asal menjadi k peubah baru yang akan
digunakan, dengan
. Terdapat tiga
metode untuk menentukan banyaknya k yang
akan digunakan, yaitu sebagai berikut:
1. Scree plot, merupakan plot antara akar
ciri
dengan k. Penentuan banyaknya k
yaitu ketika pada titik k, plot tersebut
curam di kiri tapi landai di kanan.
2. Akar ciri, penentuan banyaknya k yang
digunakan yaitu berdasarkan nilai akar
cirinya. Kaiser (1960) menjelaskan bahwa
komponen utama yang digunakan adalah
komponen utama yang memiliki padanan
akar ciri lebih dari satu. Jollife (1972)
dalam studinya mengatakan bahwa nilai
cut off yang lebih baik bukanlah satu
melainkan 0.7.
3. Persentase kumulatif total keragaman,
penentuan banyaknya k yang akan
digunakan yaitu ketika komponen utama
yang pertama sampai dengan k telah
memenuhi batas proporsi kumulatif total
keragaman yang diinginkan. Tidak ada
patokan baku mengenai berapa nilai
minimum persentase kumulatif total
keragaman yang digunakan, sehingga
tergantung
peneliti
yang
ingin
menggunakannya.
Jollife
(2002)
menyatakan nilai minimum persentase
kumulatif total keragaman berkisar antara
70% sampai 90%.
Regresi Komponen Utama
RKU merupakan implementasi dari AKU.
RKU digunakan untuk menjelaskan hubungan
antara peubah respon dengan satu atau lebih
peubah komponen utama sebagai peubah
penjelasnya.
Berikut ini disajikan model regresi
komponen utama yang dibentuk dari model
regresi linear berganda
dengan
adalah suatu matriks yang
berukuran nxk yang memuat sejumlah k
komponen utama,
adalah vektor koefisien
regresi komponen utama yang berukuran kx1.
Determinan Peragam Minimum
MCD merupakan penduga yang sangat
kekar untuk menduga parameter nilai tengah
dan matriks ragam-peragam (Rousseeuw et al
2004). MCD bertujuan mendapatkan h
pengamatan dari n objek yang memiliki
matriks ragam-peragam terkecil, dengan h
merupakan bilangan bulat terbesar dari
(Rousseeuw & Driessen
1999). Algoritma MCD sebagai berikut:
1. Ambil secara acak
amatan,
kemudian hitung nilai tengah
dan
matriks ragam-peragamnya
.
2. Inisiasikan k=0
3. Lakukan pengulangan untuk proses di
bawah ini:
3.1. Definisikan
dan
3.2. Hitung jarak setiap amatan dengan
rumus
3.3. Urutkan data amatan dari yang
terkecil hingga terbesar dengan acuan
.
3.4. Pilih sebanyak
amatan yang memiliki
terkecil dan tempatkan dalam
himpunan bagian H
3.5.
3.6. Hitung nilai tengah
dan matriks
ragam-peragam
dari sejumlah h
amatan yang terambil
4. Lakukan langkah 3 sampai
atau
.
5. Himpunan bagian H terakhir yang
terbentuk adalah himpunan bagian yang
memiliki determinan matriks ragamperagam terkecil, sehingga
dan
6. Selanjutnya, dilakukan tahap pembobotan:
dengan
sehingga model regresi komponen utama yang
telah direduksi menjadi k komponen adalah
3
Metode Kuadrat Terkecil Terpotong
MKTT adalah salah satu metode
penaksiran parameter regresi yang kekar
terhadap kehadiran pencilan. Prinsip dari
MKTT ini adalah dengan meminimumkan
jumlah kuadrat sisaan dari himpunan bagian
data yang terbentuk (Rousseeuw & Driessen
2006).
dimana
dan
.
Pencilan
Jarak Mahalanobis adalah salah satu
metode untuk mengidentifikasi data pencilan
pada data peubah ganda. Pengamatan ke-i
didefinisikan sebagai pencilan jika jarak
Mahalanobisnya lebih besar dari nilai khikuadrat pada p peubah.
2. Hitung dari persamaan
,
dengan
merupakan vektor koefisien
regresi berdimensi px1. Pada penilitian ini,
peneliti menggunakan
.
3. Membuat matriks
dengan cara
mengganti sejumlah data
dengan data
pencilan pada
. Banyaknya pencilan
yang diberikan adalah , dengan adalah
proporsi pencilan dari jumlah data.
4. Menghitung matriks ragam-peragam
dengan metode MCD.
5. Melakukan analisis komponen utama
berdasarkan
matriks
ragam-peragam
metode MCD.
6. Meregresikan skor komponen utama pada
langkah 7 terhadap dengan metode MKT
dan MKTT. Vektor koefisien regresi yang
diperoleh disimbolkan dengan
.
7. Ulangi langkah 3 sampai 6 sebanyak 100
kali.
8. Menghitung nilai bias dan Kuadrat Tengah
Galat (KTG) dari
yang dihasilkan
masing-masing metode.
METODOLOGI
Karakteristik Data Bangkitan
Penelitian ini menggunakan data bangkitan
atau simulasi. Matriks data
dibangkitkan
dengan kondisi antar kolomnya memiliki nilai
korelasi yang tinggi (lebih dari 0.8). Matriks
korelasi yang digunakan dapat dilihat pada
Lampiran 1. Matriks data
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [10 10 10 10] dan matriks ragam
peragam yang dapat dilihat pada Lampiran
2. Matriks data
ini beukuran nxp, dengan
n=100 dan p=4.
Matriks data pencilan
dibangkitkan
dari sebaran normal ganda dengan vektor
rataan µ = [25 25 25 25] dan matriks ragamperagamnya sama seperti matriks ragamperagam pada
. Matriks data pencilan
ini berukuran mxp, dengan m=5000 dan
p=4. Kemudian dibangkitkan juga data sisaan
dari sebaran normal dengan nilai tengah
dan simpangan baku
.
Proporsi banyaknya pencilan dari jumlah
data
yang dicobakan adalah 1% sampai
10%. Jumlah ulangan yang dilakukan untuk
setiap proporsi pencilan sebanyak 100 kali.
Metode
Berikut ini adalah tahapan metode yang
akan dilakukan dalam penelitian ini:
1. Membangkitkan data
dan
seperti yang telah dijelaskan di atas.
9. Ulangi langkah 3 sampai 8 dengan yang
berbeda (nilai
yang digunakan 1%
sampai 10%).
10. Membandingkan nilai bias dan KTG yang
dihasilkan dari masing-masing metode.
HASIL DAN PEMBAHASAN
Analisis Komponen Utama
Pada penelitian ini, komponen utama yang
digunakan yaitu komponen utama yang
mampu menjelaskan minimal 80% total
keragaman. Besarnya persentase kumulatif
total keragaman pada komponen utama
pertama yang dihasilkan oleh metode MCD
yaitu di atas 80% pada setiap proporsi
pencilan
yang dicobakan, sehingga
banyaknya
komponen
utama
yang
diregresikan dengan peubah respon yaitu satu
komponen utama.
Bias dan KTG dari
Nilai bias dan KTG yang diperoleh dari
metode MCD-MKT dan MCD-MKTT
terdapat di Lampiran 3 dan 4.
Download