PERBANDINGAN ANALISIS BIPLOT KLASIK DAN ROBUST BIPLOT DENGAN MENGGUNAKAN METODE FAST MINIMUM COVARIANCE DETERMINANT PADA DATA OUTLIER Meida Novita Program Studi Statistika, Jurusan Matematika, F.MIPA, Universitas Brawijaya Email:[email protected] Abstrak. Analisis biplot merupakan suatu alat statistika yang menyajikan n objek dengan p peubah dalam dua dimensi. Analisis biplot didasarkan pada Penguraian Nilai Singular (PNS) yang memerlukan matriks data. Data outlier pada matriks dapat mempengaruhi analisis, karenanya perlu dicari sebuah alternatif biplot yang kekar (robust) terhadap pengaruh data outlier misalnya dengan menggunakan matriks covariance yang robust. Penduga robust yang digunakan adalah Fast Minimum Covariance Determinant (FMCD). Penduga robust FMCD merupakan rata-rata dan covariance dari pengamatan yang meminimumkan determinan matriks covariance. Tujuan dari penulisan skripsi ini adalah membandingkan hasil analisis biplot klasik dan robust biplot. Data yang digunakan adalah 5 data sekunder yang memiliki outlier tentang bidang kependudukan di Indonesia dari BPS. Informasi yang diperoleh dari biplot klasik dan robust biplot tentang korelasi peubah sama, Namun, keragaman peubah banyaknya kelompok yang terbentuk berbeda. Keragaman peubah pada biplot klasik lebih besar daripada robust biplot. Banyaknya kelompok yang terbentuk pada robust biplot lebih banyak daripada biplot klasik lebih banyak karena objek lebih menyebar. Keragaman peubah biplot klasik lebih besar bila dibandingkan dengan robust biplot. Ukuran kesesuaian biplot pada biplot klasik dan robust biplot sama-sama di atas 70%, jadi kedua metode tersebut cukup mewakili data sebenarnya. Akan tetapi lebih baik digunakan robust biplot, karena robust biplot tidak terpengaruh data outlier. Kata Kunci: biplot, robust biplot, penduga MCD, metode fast-MCD, matriks covarians, indikator kesesuaian biplot. 1. PENDAHULUAN Pada analisis statistika peubah ganda, salah satu grafik yang biasa digunakan adalah biplot. Analisis biplot merupakan suatu alat statistika yang menyajikan posisi relatif n objek dengan p peubah secara simultan dalam dua dimensi. Analisis biplot dapat memberikan informasi tentang objek dan peubah dalam satu gambar, diantaranya adalah hubungan antar peubah, kemiripan relatif antar objek pengamatan, hubungan relatif antara objek dan peubah, dan keragaman peubah. Analisis biplot diusulkan pertama kali oleh Gabriel yang didasarkan pada Penguraian Nilai Singular (PNS), PNS memerlukan matriks data. Jika dalam suatu matriks data terdapat data outlier maka perhitungan terhadap matriks tersebut tidak memberikan hasil yang mencerminkan data sebenarnya, karenanya perlu dicari sebuah alternatif biplot yang kekar (robust) terhadap pengaruh data outlier, misalnya dengan menggunakan matriks covariance yang robust. Salah satunya metode MCD bertujuan untuk menemukan h-observations atau subsampel dari data dimana matriks covariance-nya memiliki determinan terkecil. Rousseeuw dan van Driessen (1999) mengemukakan suatu algoritma baru untuk metode MCD yang dinamakan algoritma Fast-MCD, algoritma fast-MCD selanjutnya disebut metode fast-MCD. 2. TINJAUAN PUSTAKA 2.1. Data Outlier Data outlier adalah pengamatan yang dapat diidentifikasikan secara jelas yang berbeda dari pengamatan yang lain, namun data outlier dapat menunjukan karakteristik dari populasi. Apabila data outlier bermasalah tidak mewakili populasi dan bertentangan dari tujuan analisis maka secara serius dapat memberikan hasil uji statistik yang berbeda. Pemeriksaan atau identifikasi outlier pada data harus dilakukan karena outlier memberikan pengaruh pada ragam dan setelah outlier teridentifikasi maka dapat diputuskan untuk mempertahankan atau menghapus outlier tersebut (Hair dkk., 1998). Identifikasi data outlier pada data peubah ganda didasarkan pada kuadrat jarak mahalanobis, didefinisikan sebagai berikut (Johnson dan Winchern, 2002): jika ( ̅ ̅ ) , maka dapat dinyatakan bahwa pengamatan mengandung data outlier. 77 2.2. Analisis Biplot Analisis biplot adalah peragaan secara grafik dari baris dan kolom sebuah matriks data nXp *, dengan baris mewakili objek dan kolom mewakili peubah. Dalam setiap aplikasi, analisis biplot dimulai dengan mentransformasikan matriks X* sebagai matriks data asal terhadap nilai rata - ratanya menjadi matriks X yang akan digambarkan. )-( ( ) ( ) )/n ( )= ( Penguraian Nilai Singular dapat ditulis sebagai: nXp = aUrLrAp Matriks L adalah matriks diagonal yang unsur diagonal-diagonalnya merupakan akar dari nilai eigen tak nol matriks atau matriks . Matriks A adalah matriks yang kolom-kolomnya merupakan eigen vector yang berpadanan dengan eigen value tak nol dari matriks , matriks U adalah matriks yang kolom-kolomnya merupakan eigen vector yang berpadanan dengan eigen value tak nol dari matriks . Adapun yang diperoleh gambaran dari analisis biplot adalah kedekatan antar objek, keragaman peubah, korelasi antar peubah, dan keterkaitan peubah dengan objek (Matjjik dan Sumertajaya, 2011). 2.3. Analisis Robust Biplot Pada analisis robust biplot, analisis biplot dapat dibangkitkan dengan menggunakan matriks covariance yang robust. Analisis biplot dengan menggunakan matriks covariance yang robust dilakukan dengan menduga eigen value dan eigen vector kiri (U ) dan kanan (A) sehingga hasil dugaan tersebut tahan terhadap data outlier (Hawkins dkk., 2001). 2.4. Fast Minimum Covariance Determinan ( fast-MCD) Metode MCD yang dikemukakan oleh Rosseeuw dan Driesen (1999) adalah salah satu penaksir robust dalam analisis peubah ganda, Penaksir robust MCD merupakan rata-rata dan covariance dari sebagian pengamatan yang meminimumkan determinan matriks covariance-nya. Berikut ini adalah algoritma dari fast-MCD. 1. Ambil himpunan bagian dari matriks X secara acak, dimisalkan himpunan bagian tersebut sebagai H1 dengan jumlah elemen sebanyak h, di mana 2. Hitung vektor rata-rata dan matriks covariance dari H1 dengan menggunakan persamaan: ∑ ∑ ( ) ( ) 3. Hitung determinan dari matriks covariance 4. Kemudian hitung jarak relatif dari setiap pengamatan terhadap rata-rata ̅ dan covariance S dengan rumus dari Persamaan: () √( ) ( ), untuk i=1,2,…,n 5. Urutkan pengamatan tersebut berdasarkan jarak mahalanobis, dari terkecil hingga terbesar. 6. Ambil elemen dari h pengamatan dengan jarak terkecil berdasarkan tahapan (5) untuk menjadi elemen himpunan bagian H2 , ulangi tahapan (2) sampai tahapan (5) sehingga ditemukan himpunan bagian yang konvergen dan memiliki determinan matriks covariance yang terkecil yaitu: | | | | 7. Berdasarkan anggota h tersebut, data selanjutnya diboboti: ( ) ( ) { 8. Berdasarkan pembobot di atas, penduga fast-MCD adalah: ∑ ̅ ∑ ( ∑ ̅ (∑ )( ̅ ) ) 78 2.5. Pemeriksaan Kesesuaian Biplot Gabriel (1971) dalam Mattjik dan Sumertajaya (2011), mengemukakan ukuran matriks X dalam biplot dalam bentuk: ∑ Jika nilai statistik uji semakin mendekati satu berarti biplot yang diperoleh dari matriks pendekatan berpangkat dua akan memberika penyajian data yang semakin baik mengenai informasiinformasi yang terdapat pada data sebenarnya. 3. Metode Penelitian 3.1. Sumber Data Data yang digunakan pada analisis biplot ini adalah 5 data sekunder yang berukuran n objek, p peubah, dan memiliki outlier yang sebelumnya telah dilakukan pendeteksian outlier dengan menggunakan kuadrat jarak mahalanobis. Yaitu produksi perkebunan propinsi jawa timur berdasarkan kabupaten/kota ,data laporan bulanan data sosial ekonomi presentase penduduk yang bekerja, laporan bulanan data sosial ekonomi presentase penduduk yang bekerja di sektor tani, produksi peternakan propinsi jawa timur berdasarkan kabupaten/kota, tanaman pangan propinsi jawa timur berdasarkan kabupaten/kota 3.2. Metode Analisis Berikut ini adalah tahapan metode analisis (1) Pendeteksian outlier; (2) Analisis biplot klasik; (3) Analisis robust biplot; (4) Membandingkan analisis biplot biplot dengan robust biplot menggunakan uji kesesuaian yang dikemukakan oleh Gabriel. 4. HASIL DAN PEMBAHASAN 4.1. Analisis Biplot Berikut ini merupakan gambar biplot klasik dan robust biplot: 10 X1 3 -10 X3 5 33 19 -5 3319 8 25 20 629 7 1826 1322 27 30 23121 45 028 X6 X2 15 X4 X5 13 1412 32 24 9 23 0161711 5 10 -5 10 5 1 10 -10 -10 Gambar 1. Analisis biplot klasik Data 1 -5 18 26 X18 206 28 15 30 1 X3 25 297 21 13 3 X5 27 X2 X6 2 31 14 0 22 X4 5 32 24 12 4 0 5 16 17 23 9 -5 10 11 10 -10 Gambar 2. Analisis robust biplot Data 1 Berdasarkan Gambar 1 dan Gambar 2, informasi yang diperoleh tentang pengelompokan objek terhadapa peubah dan korelasi peubah antara biplot klasik dan robust biplot sama tapi memiliki perbedaan pada keragaman peubah, yaitu: Tabel 4.1. Pengelompokan Biplot Klasik dan Robust Biplot Data 1 Kelompok Biplot Klasik Robust Biplot 1 ke-2, 6, 7, 9, 20, 21, 25, ke-2, 6, 7, 9, 20, 21, 25, 27, 29, dan 31 27, 29, dan 31 2 Objek ke-1, 3, 10, 11, 12 Objek ke-1, 3, 12 ,13 , ,13 , 14, 15, 16, 17, 18, 14, 15, 16, 17, 18, 22, 22, 23, 24, 26, 28, 30, dan 23, 24, 26, 28, 30, dan 32 32 3 Objek ke-19 dan ke-33 Objek ke-19 dan ke-33 4 Objek ke-10 dan ke-11 Keterangan Sama Tidak Sama Sama Tidak Sama 79 Pada Gambar 1 vektor peubah lebih panjang dari Gambar 2, sehingga dapat disimpulkan bahwa keragaman pada biplot Klasik lebih besar dari pada robust biplot. Hal tersebut disebabkan oleh adanya data outlier . Data outlier yang letaknya dekat dengan peubah atau memiliki nilai di atas rata-rata pada suatu peubah dapat menyebabkan keragaman peubah tersebut menjadi lebih besar dari sebenarnya Korelasi peubah dapat dilihat dari sudut vektor peubah. Apabila meembetnuk sudut lancip, maka terdapat korelasi positif. Apabila membentuk sudut tumpul, maka terdapat korelasi negative. Pada biplot klasik korelasi X1 dan X3 memiliki korelasi negatif karena posisi vektor yang berlawanan arah. Demikian pula pada robust biplot. Pada data 2, data 3, data 4, dan data 5 juga sama dengan data 1. Korelasi antar peubah antara biplot klasik dan robust biplot sama. Pengelompokan objek berdasarkan kedekatan dan keterkaitan dengan peubah pada biplot klasik dan robust biplot ada yang berbeda dan ada yang sama. Pengelompokkan objek pada robust biplot lebih jelas karena objek menyebar. Akan tetapi, keragaman peubah tidak sama pada robust biplot keragamannya lebih kecil disbanding biplot klasik. 4.2. Pemeriksaan Kesesuaian Biplot Tabel 2. Nilai Kesesuaian Biplot Data Biplot Klasik Robust Biplot Data 1 0,9714 0,9876 Data 2 0,9842 0,9934 Data 3 0,9469 0,9857 Data 4 0,9899 0,9993 Data 5 0,9200 0,9863 Nilai kesesuaian robust biplot dan biplot klasik hampir sama, keduanya memiliki nilai di atas 70%. Sehingga dapat disimpulkan bahwa informasi yang diperoleh sudah cukup mewakili data sebenarnya. 5. KESIMPULAN Data yang mengandung pengamatan outlier lebih sesuai dengan menggunakan analisis robust biplot karena pada kelima data tersebut nilai kesesuaian robust biplot lebih besar bila dibandingkan dengan biplot klasik. Keragaman pada biplot klasik lebih besar daripada robust biplot, hal ini dapat dilihat dari panjang vektor peubah karena panjang vektor peubah sebanding dengan keragaman peubah. Jumlah kelompok pada robust biplot lebih banyak karena jarak objek lebih lebar sedangkan korelasi pada biplot klasik dan robust biplot hampir sama. 6. DAFTAR PUSTAKA Hair, J.F., Anderson, R.E., Tatham, R.L., dan Black, W.C., (1992), Multivariate Data Analysis with Reading. 3th Edition, Macmillan Publishing Companyy, Inc. Hawkins D.M., Liu, L., dan Young, S.S., (2001), Robust Singular Value Decomposition, Technometric Journal of National Institute of Statistical Sciences, Vol 122, hal. 1-12. Johnson, R.A. dan Winchern, D.W., (2002), Applied Multivariate Statistical Analysis, 5th Edition, Premier Hall, Inc, Mattjik, A.A dan Sumertajaya, I.M., (2011), Sidik Peubah Ganda dengan menggunakan SAS, Bogor, IPB press. Rouseeuw, P.J. and Driesseen, K.V., (1998), A Fast Algorithm for The Minimum Covariance Determinant Estimator, Technometric Vol 46, hal. 293-305. 80