perbandingan analisis biplot klasik dan robust biplot dengan

advertisement
PERBANDINGAN ANALISIS BIPLOT KLASIK DAN ROBUST
BIPLOT DENGAN MENGGUNAKAN METODE FAST MINIMUM
COVARIANCE DETERMINANT PADA DATA OUTLIER
Meida Novita
Program Studi Statistika, Jurusan Matematika, F.MIPA, Universitas Brawijaya
Email:[email protected]
Abstrak. Analisis biplot merupakan suatu alat statistika yang menyajikan n objek dengan p peubah dalam dua dimensi.
Analisis biplot didasarkan pada Penguraian Nilai Singular (PNS) yang memerlukan matriks data. Data outlier pada matriks
dapat mempengaruhi analisis, karenanya perlu dicari sebuah alternatif biplot yang kekar (robust) terhadap pengaruh data
outlier misalnya dengan menggunakan matriks covariance yang robust. Penduga robust yang digunakan adalah Fast
Minimum Covariance Determinant (FMCD). Penduga robust FMCD merupakan rata-rata dan covariance dari pengamatan
yang meminimumkan determinan matriks covariance. Tujuan dari penulisan skripsi ini adalah membandingkan hasil analisis
biplot klasik dan robust biplot. Data yang digunakan adalah 5 data sekunder yang memiliki outlier tentang bidang
kependudukan di Indonesia dari BPS. Informasi yang diperoleh dari biplot klasik dan robust biplot tentang korelasi peubah
sama, Namun, keragaman peubah banyaknya kelompok yang terbentuk berbeda. Keragaman peubah pada biplot klasik lebih
besar daripada robust biplot. Banyaknya kelompok yang terbentuk pada robust biplot lebih banyak daripada biplot klasik
lebih banyak karena objek lebih menyebar. Keragaman peubah biplot klasik lebih besar bila dibandingkan dengan robust
biplot. Ukuran kesesuaian biplot pada biplot klasik dan robust biplot sama-sama di atas 70%, jadi kedua metode tersebut
cukup mewakili data sebenarnya. Akan tetapi lebih baik digunakan robust biplot, karena robust biplot tidak terpengaruh data
outlier.
Kata Kunci: biplot, robust biplot, penduga MCD, metode fast-MCD, matriks covarians, indikator kesesuaian biplot.
1.
PENDAHULUAN
Pada analisis statistika peubah ganda, salah satu grafik yang biasa digunakan adalah biplot.
Analisis biplot merupakan suatu alat statistika yang menyajikan posisi relatif n objek dengan p peubah
secara simultan dalam dua dimensi. Analisis biplot dapat memberikan informasi tentang objek dan
peubah dalam satu gambar, diantaranya adalah hubungan antar peubah, kemiripan relatif antar objek
pengamatan, hubungan relatif antara objek dan peubah, dan keragaman peubah. Analisis biplot
diusulkan pertama kali oleh Gabriel yang didasarkan pada Penguraian Nilai Singular (PNS), PNS
memerlukan matriks data. Jika dalam suatu matriks data terdapat data outlier maka perhitungan
terhadap matriks tersebut tidak memberikan hasil yang mencerminkan data sebenarnya, karenanya
perlu dicari sebuah alternatif biplot yang kekar (robust) terhadap pengaruh data outlier, misalnya
dengan menggunakan matriks covariance yang robust. Salah satunya metode MCD bertujuan untuk
menemukan h-observations atau subsampel dari data dimana matriks covariance-nya memiliki
determinan terkecil. Rousseeuw dan van Driessen (1999) mengemukakan suatu algoritma baru untuk
metode MCD yang dinamakan algoritma Fast-MCD, algoritma fast-MCD selanjutnya disebut metode
fast-MCD.
2.
TINJAUAN PUSTAKA
2.1.
Data Outlier
Data outlier adalah pengamatan yang dapat diidentifikasikan secara jelas yang berbeda dari
pengamatan yang lain, namun data outlier dapat menunjukan karakteristik dari populasi. Apabila data
outlier bermasalah tidak mewakili populasi dan bertentangan dari tujuan analisis maka secara serius
dapat memberikan hasil uji statistik yang berbeda. Pemeriksaan atau identifikasi outlier pada data
harus dilakukan karena outlier memberikan pengaruh pada ragam dan setelah outlier teridentifikasi
maka dapat diputuskan untuk mempertahankan atau menghapus outlier tersebut (Hair dkk., 1998).
Identifikasi data outlier pada data peubah ganda didasarkan pada kuadrat jarak mahalanobis,
didefinisikan sebagai berikut (Johnson dan Winchern, 2002):
jika
(
̅
̅
) , maka dapat dinyatakan bahwa pengamatan mengandung data outlier.
77
2.2.
Analisis Biplot
Analisis biplot adalah peragaan secara grafik dari baris dan kolom sebuah matriks data nXp *,
dengan baris mewakili objek dan kolom mewakili peubah. Dalam setiap aplikasi, analisis biplot
dimulai dengan mentransformasikan matriks X* sebagai matriks data asal terhadap nilai rata - ratanya
menjadi matriks X yang akan digambarkan.
)-( (
) (
) )/n
(
)= (
Penguraian Nilai Singular dapat ditulis sebagai:
nXp = aUrLrAp
Matriks L adalah matriks diagonal yang unsur diagonal-diagonalnya merupakan akar dari nilai eigen
tak nol matriks
atau matriks
. Matriks A adalah matriks yang kolom-kolomnya merupakan
eigen vector yang berpadanan dengan eigen value tak nol dari matriks
, matriks U adalah matriks
yang kolom-kolomnya merupakan eigen vector yang berpadanan dengan eigen value tak nol dari
matriks
.
Adapun yang diperoleh gambaran dari analisis biplot adalah kedekatan antar objek,
keragaman peubah, korelasi antar peubah, dan keterkaitan peubah dengan objek (Matjjik dan
Sumertajaya, 2011).
2.3.
Analisis Robust Biplot
Pada analisis robust biplot, analisis biplot dapat dibangkitkan dengan menggunakan matriks
covariance yang robust. Analisis biplot dengan menggunakan matriks covariance yang robust
dilakukan dengan menduga eigen value dan eigen vector kiri (U ) dan kanan (A) sehingga hasil dugaan
tersebut tahan terhadap data outlier (Hawkins dkk., 2001).
2.4. Fast Minimum Covariance Determinan ( fast-MCD)
Metode MCD yang dikemukakan oleh Rosseeuw dan Driesen (1999) adalah salah satu penaksir
robust dalam analisis peubah ganda, Penaksir robust MCD merupakan rata-rata dan covariance dari
sebagian pengamatan yang meminimumkan determinan matriks covariance-nya. Berikut ini adalah
algoritma dari fast-MCD.
1. Ambil himpunan bagian dari matriks X secara acak, dimisalkan himpunan bagian tersebut sebagai
H1 dengan jumlah elemen sebanyak h, di mana
2. Hitung vektor rata-rata dan matriks covariance
dari H1 dengan menggunakan persamaan:
∑
∑ (
) (
)
3. Hitung determinan dari matriks covariance
4. Kemudian hitung jarak relatif dari setiap pengamatan terhadap rata-rata ̅ dan covariance S
dengan rumus dari Persamaan:
()
√(
)
(
), untuk i=1,2,…,n
5. Urutkan pengamatan tersebut berdasarkan jarak mahalanobis, dari terkecil hingga terbesar.
6. Ambil elemen dari h pengamatan dengan jarak terkecil berdasarkan tahapan (5) untuk menjadi
elemen himpunan bagian H2 , ulangi tahapan (2) sampai tahapan (5) sehingga ditemukan
himpunan bagian yang konvergen dan memiliki determinan matriks covariance yang terkecil
yaitu: |
| | |
7. Berdasarkan anggota h tersebut, data selanjutnya diboboti:
(
)
(
)
{
8. Berdasarkan pembobot di atas, penduga fast-MCD adalah:
∑
̅
∑
(
∑
̅
(∑
)(
̅
)
)
78
2.5. Pemeriksaan Kesesuaian Biplot
Gabriel (1971) dalam Mattjik dan Sumertajaya (2011), mengemukakan ukuran matriks X dalam
biplot dalam bentuk:
∑
Jika nilai statistik uji semakin mendekati satu berarti biplot yang diperoleh dari matriks
pendekatan berpangkat dua akan memberika penyajian data yang semakin baik mengenai informasiinformasi yang terdapat pada data sebenarnya.
3.
Metode Penelitian
3.1. Sumber Data
Data yang digunakan pada analisis biplot ini adalah 5 data sekunder yang berukuran n objek, p
peubah, dan memiliki outlier yang sebelumnya telah dilakukan pendeteksian outlier dengan
menggunakan kuadrat jarak mahalanobis. Yaitu produksi perkebunan propinsi jawa timur berdasarkan
kabupaten/kota ,data laporan bulanan data sosial
ekonomi presentase penduduk yang bekerja,
laporan bulanan data sosial ekonomi presentase penduduk yang bekerja di sektor tani, produksi
peternakan propinsi jawa timur berdasarkan kabupaten/kota, tanaman pangan propinsi jawa timur
berdasarkan kabupaten/kota
3.2.
Metode Analisis
Berikut ini adalah tahapan metode analisis (1) Pendeteksian outlier; (2) Analisis biplot klasik;
(3) Analisis robust biplot; (4) Membandingkan analisis biplot biplot dengan robust biplot
menggunakan uji kesesuaian yang dikemukakan oleh Gabriel.
4.
HASIL DAN PEMBAHASAN
4.1. Analisis Biplot
Berikut ini merupakan gambar biplot klasik dan robust biplot:
10
X1
3
-10
X3
5
33
19
-5
3319
8 25
20
629
7
1826
1322
27
30
23121 45
028
X6
X2
15
X4
X5
13
1412
32
24
9
23
0161711
5
10
-5
10
5
1
10
-10
-10
Gambar 1. Analisis biplot klasik Data 1
-5
18 26 X18
206
28
15 30 1
X3
25
297
21
13
3 X5
27
X2
X6
2 31
14 0 22 X4
5
32 24
12
4
0
5
16 17 23
9
-5
10
11
10
-10
Gambar 2. Analisis robust biplot Data 1
Berdasarkan Gambar 1 dan Gambar 2, informasi yang diperoleh tentang pengelompokan objek
terhadapa peubah dan korelasi peubah antara biplot klasik dan robust biplot sama tapi memiliki
perbedaan pada keragaman peubah, yaitu:
Tabel 4.1. Pengelompokan Biplot Klasik dan Robust Biplot Data 1
Kelompok Biplot Klasik
Robust Biplot
1
ke-2, 6, 7, 9, 20, 21, 25, ke-2, 6, 7, 9, 20, 21, 25,
27, 29, dan 31
27, 29, dan 31
2
Objek ke-1, 3, 10, 11, 12 Objek ke-1, 3, 12 ,13 ,
,13 , 14, 15, 16, 17, 18, 14, 15, 16, 17, 18, 22,
22, 23, 24, 26, 28, 30, dan 23, 24, 26, 28, 30, dan
32
32
3
Objek ke-19 dan ke-33
Objek ke-19 dan ke-33
4
Objek ke-10 dan ke-11
Keterangan
Sama
Tidak Sama
Sama
Tidak Sama
79
Pada Gambar 1 vektor peubah lebih panjang dari Gambar 2, sehingga dapat disimpulkan bahwa
keragaman pada biplot Klasik lebih besar dari pada robust biplot. Hal tersebut disebabkan oleh adanya
data outlier . Data outlier yang letaknya dekat dengan peubah atau memiliki nilai di atas rata-rata
pada suatu peubah
dapat menyebabkan keragaman peubah tersebut menjadi lebih besar dari
sebenarnya
Korelasi peubah dapat dilihat dari sudut vektor peubah. Apabila meembetnuk sudut lancip,
maka terdapat korelasi positif. Apabila membentuk sudut tumpul, maka terdapat korelasi negative.
Pada biplot klasik korelasi X1 dan X3 memiliki korelasi negatif karena posisi vektor yang berlawanan
arah. Demikian pula pada robust biplot.
Pada data 2, data 3, data 4, dan data 5 juga sama dengan data 1. Korelasi antar peubah antara
biplot klasik dan robust biplot sama. Pengelompokan objek berdasarkan kedekatan dan keterkaitan
dengan peubah pada biplot klasik dan robust biplot ada yang berbeda dan ada yang sama.
Pengelompokkan objek pada robust biplot lebih jelas karena objek menyebar. Akan tetapi, keragaman
peubah tidak sama pada robust biplot keragamannya lebih kecil disbanding biplot klasik.
4.2.
Pemeriksaan Kesesuaian Biplot
Tabel 2. Nilai Kesesuaian Biplot
Data
Biplot Klasik Robust Biplot
Data 1
0,9714
0,9876
Data 2
0,9842
0,9934
Data 3
0,9469
0,9857
Data 4
0,9899
0,9993
Data 5
0,9200
0,9863
Nilai kesesuaian robust biplot dan biplot klasik hampir sama, keduanya memiliki nilai di atas
70%. Sehingga dapat disimpulkan bahwa informasi yang diperoleh sudah cukup mewakili data
sebenarnya.
5.
KESIMPULAN
Data yang mengandung pengamatan outlier lebih sesuai dengan menggunakan analisis robust
biplot karena pada kelima data tersebut nilai kesesuaian robust biplot lebih besar bila dibandingkan
dengan biplot klasik. Keragaman pada biplot klasik lebih besar daripada robust biplot, hal ini dapat
dilihat dari panjang vektor peubah karena panjang vektor peubah sebanding dengan keragaman
peubah. Jumlah kelompok pada robust biplot lebih banyak karena jarak objek lebih lebar sedangkan
korelasi pada biplot klasik dan robust biplot hampir sama.
6.
DAFTAR PUSTAKA
Hair, J.F., Anderson, R.E., Tatham, R.L., dan Black, W.C., (1992), Multivariate Data Analysis with
Reading. 3th Edition, Macmillan Publishing Companyy, Inc.
Hawkins D.M., Liu, L., dan Young, S.S., (2001), Robust Singular Value Decomposition,
Technometric Journal of National Institute of Statistical Sciences, Vol 122, hal. 1-12.
Johnson, R.A. dan Winchern, D.W., (2002), Applied Multivariate Statistical Analysis, 5th Edition,
Premier Hall, Inc,
Mattjik, A.A dan Sumertajaya, I.M., (2011), Sidik Peubah Ganda dengan menggunakan SAS, Bogor,
IPB press.
Rouseeuw, P.J. and Driesseen, K.V., (1998), A Fast Algorithm for The Minimum Covariance
Determinant Estimator, Technometric Vol 46, hal. 293-305.
80
Download