BAB 2 LANDASAN TEORI Pada bab ini akan diuraikan mengenai landasan teori yang akan digunakan dalam bab selanjutnya. 2.1 Matriks Sebuah matriks , biasanya dinotasikan dengan huruf kapital tebal seperti A, B, ∑ dan sebagainya, yang merupakan susunan segiempat dari bilangan-bilangan dengan n baris dan p kolom (Johnson dan Wichern, 2007). Matriks A dengan n baris dan p kolom dapat ditulis sebagai berikut: ] [ , Atau dapat ditulis juga - , di mana untuk menyatakan entri yang terdapat di dalam baris i dan kolom j dari A. a. Operasi pada Matriks Berikut ini beberapa bentuk operasi pada matriks: 1. Kesamaan Matriks , Dua matriks B, jika - dan , , , - dikatakan sama, ditulis A = (Johnson dan Wichern, 2007). Jadi dua matriks dikatakan sama jika: a. Ukuran kedua matriks sama, b. Setiap elemen yang bersesuaian pada kedua matriks tersebut sama. 2. Penjumlahan dan Pengurangan Matriks Jika A dan B adalah sebarang dua matriks dengan ukuran sama, maka jumlah adalah adalah matriks yang diperoleh dengan menambahkan setiap entri pada entri .......yang bersesuaian, dan pengurangan Universitas Sumatera Utara adalah matriks yang diperoleh dengan mengurangkan entri dari entri yang bersesuaian. Matriks dengan ukuran yang berbeda tidak bisa di jumlahkan atau dikurangkan (Johnson dan Wichern, 2007). Misalkan, ] dan [ [ ] Maka [ ] - , Dengan notasi matriks . [ ] - , Dengan notasi matriks . 3. Perkalian Matriks dengan Skalar Misalkan , - hasil kali adalah matriks yang diperoleh dengan mengalikan setiap entri dari matriks adalah suatu matriks dan c adalah skalar, maka oleh c. Matriks dikatakan perkalian skalar pada , matriks , dinotasikan dengan - . 4. Perkalian Matriks dengan Matriks Jika adalah matriks ( kali matriks ) dan adalah matriks ( adalah matriks ( ), maka hasil ) di mana entri pada baris ke-i dan kolom ke-j adalah hasil dari perkalian baris ke-i pada matriks dan kolom ke-j pada matriks . ∑ 5. Transpose Matriks Jika adalah suatu matriks ( ), maka transpose dinotasikan dengan adalah matriks yang diperoleh dengan mempertukarkan baris dan Universitas Sumatera Utara kolom matriks matriks , yaitu kolom pertama , kolom kedua adalah baris pertama pada adalah baris kedua dari matriks , dan seterusnya. ] maka [ [ ] b. Matriks Khusus Matriks khusus adalah matriks yang mempunyai sifat tertentu sedemikian hingga dalam operasi pada matriks menghasilkan sifat-sifat khusus (Suryanto, 1988). Beberapa matriks khusus antara lain: 1. Matriks Persegi Matriks persegi adalah matriks dengan banyak kolom dan baris sama, secara matematis dapat ditulis: ( ) [ ] Barisan entri-entri yang nomor kolomnya sama dengan nomor barisnya ( ) disebut diagonal utama. Entri-entri yang nomor kolomnya lebih besar daripada nomor barisnya disebut unur-unsur diatas diagonal utama, sedangkan unsur-unsur yang nomor kolompoknya lebih kecil daripada barisnya disebut unsur-unsur di bawah diagonal utama (Suryanto, 1988). 2. Matriks Diagonal Matriks persegi yang semua entrinya nol kecuali pada diagonal utama disebut matriks diagonal. Suatu matriks diagonal dapat ditulis sebagai berikut: [ ] Universitas Sumatera Utara Matriks diagonal yang setiap unsur diagonal utamanya adalah 1 disebut matriks identitas, misalkan [ ] 3. Matriks Simetris Suatu matriks persegi ( ) lain, jika . dikatakan simetris jika simetris maka . Dengan kata dan 2.2 Trace Matriks Trace dari sebuah matriks berukuran ditulis sebagai jumlah dari elemen-elemen diagonal, yaitu 2002). Jika dan matriks berukuran a. ( ) b. ( c. ( ) ( d. ( ) ( ( ) ( ) dan didefinisikan ∑ (Rencher, dan c adalah skalar, maka: ( ) ) ( ) ( ) ) ) ∑ ∑ 2.3 Eigenvalue dan Eigenvector Jika adalah matriks dan I merupakan matriks identitas. Maka skalar yang memenuhi persamaan polinomial | | dikatakan eigenvalue (akar karakteristik) dari matriks . Jika adalah matriks x adalah vektor taknol dan jika λ merupakan eigenvalue dari matriks . Jika sehingga, Maka x dikatakan eigenvector (vektor karakteristik) dari matriks yang terkait dengan eigenvalue λ. Universitas Sumatera Utara 2.4 Analisis Komponen Utama (Principal Component Analysis) Metode Analisis Komponen Utama bermula dari Karl Pearson pada tahun 1901 untuk peubah non-stokastik. Analisis ini kemudian ditetapkan menjadi peubah stokastik oleh Harold Hotelling pada tahun 1933. Analisis ini merupakan analisis tertua. Perhitungan dalam analisis ini pada waktu tersebut merupakan pekerjaan yang sukar walaupun hanya menggunakan beberapa peubah. Analisis ini baru berkembang penggunaannya setelah tersedia fasilitas komputasi elektronik (Jolliffe, 2002). Analisis Komponen Utama merupakan suatu teknik analisis statistik untuk mentransformasikan variabel-variabel asli yang masih berkorelasi satu dengan yang lain menjadi suatu variabel baru yang tidak berkorelasi lagi (Johnson dan Wichern, 2007). Analisis Komponen Utama bertujuan untuk menyederhanakan variabel yang diamati dengan cara menyusutkan dimensinya. Hal ini dilakukan dengan menghilangkan korelasi variabel melalui transformasi variabel asal ke variabel baru yang tidak berkorelasi. Variabel hasil mereduksi tersebut dinamakan principal component atau komponen utama (Aroef, 1991). Komponen utama adalah kombinasi linear dari variabel acak atau statistik yang memiliki sifat khusus dalam hal variasi (Anderson, 1984). Secara aljabar linier, komponen utama merupakan kombinasi-kombinasi linier dari p peubah acak . Secara geometri, kombinasi linier ini merupakan sistem koordinat baru yang diperoleh dari rotasi sistem semula dengan sebagai , ≥ sumbu koordinat. Misalkan vektor acak - merupakan matriks kovarian ∑ dengan eigenvalue λ1 ≥ λ2 ≥ λp ≥ 0. Perhatikan kombinasi linier: dengan: Universitas Sumatera Utara : kombinasi linier dari variabel X : variabel ke p : bobot atau koefisien untuk variabel ke p Var ( ) = Cov ( )= Komponen utama adalah kombinasi linier ( )= di mana variansi pada sebesar mungkin. Komponen utama pertama adalah kombinasi linier dengan variansi maksimum. Yang ( ) memaksimumkan meningkat dengan mengalikan . ( ) Jelas dapat dengan konstanta. Berdasarkan kenyataan di atas, maka dapat dibuat pernyataan umum yang berkaitan dengan konsep analisis komponen utama sebagai berikut: Komponen utama ke-1 : kombinasi linier ( Komponen utama ke-2 ) serta : kombinasi linier ( Komponen utama ke-i yang memaksimumkan yang memaksimumkan ) serta : kombinasi linier ( ( dan ) yang memaksimumkan ) serta dan ( ) untuk k < i. Misalkan ∑ matriks kovarian yang bersesuaian dengan vektor acak [ ( ]. )( ) Misalkan ( ∑ memiliki pasangan ) dimana eigenvalue–eigenvector . Komponen utama ke-i diberikan oleh Dengan, ( ) Cov ( )= Jika beberapa λi sama, dengan vektor koefisien ei yang bersesuaian, maka Yi tidak tunggal. Bukti. B = ∑, Universitas Sumatera Utara (diperoleh ketika ) karena eigenvector dinormalkan. Dengan demikian, ( ) Dengan cara yang sama, Untuk , dengan , untuk dan ( ( Karena ) = ) ( maka ) ( menunjukkan bahwa ei tegak lurus terhadap . Tinggal ) memberikan Cov(Yi Yk) = 0. Eigenvector dari ∑ orthogonal jika semua eigenvalue berbeda. Jika eigenvalue tidak berbeda semuanya, maka eigenvector yang bersesuaian dengan eigenvalue dapat dipilih supaya orthogonal. Dengan demikian, untuk setiap dua eigenvector ei dan , perkalian dengan ( . Karena memberikan, ) untuk setiap . (terbukti) Komponen utama tidak berkorelasi dan memiliki variansi sama dengan eigenvalue dari ∑ (Johnson dan Wichern, 2007). [ Misalkan eigenvalue–eigenvector ] memiliki matriks kovarians ∑, dengan pasangan ( )( ) ( ) di . Misalkan mana adalah komponen utama. Maka, ∑ Bukti. Dari dimana ( ) ( ) dengan ∑ ( ) , dapat ditulis adalah matriks diagonal dari eigenvalue dan [ ] Universitas Sumatera Utara sedemikian sehingga ( ) ( ) . Dapat diperoleh ( ) ( ) maka, ( ) ∑ ( ) ( ) ∑ ( ) Total variansi populasi = Dan sebagai akibatnya, proporsi variansi total dari komponen utama ke-k adalah ( ) Misal apabila p berukuran besar, sedangkan diketahui bahwa sekitar 80% - 90% variansi populasi total telah mampu diterangkan oleh satu, dua, atau tiga komponen utama yang pertama, maka komponen-komponen utama itu telah dapat mengganti p buah varabel asal tanpa mengurangi informasi yang banyak. Setiap [ komponen dari vektor koefisien Besar ] juga harus diperiksa. diukur dari variabel ke-k ke komponen utama ke-i, tanpa memperhatikan variabel yang lain. Secara khusus proporsional terhadap koefisien korelasi antara Yi dan Xk (Johnson dan Wichern, 2007). Misalkan adalah komponen utama yang diperoleh dari matriks kovarians ∑, maka √ √ adalah koefisien korelasi antara komponen Yi dan variabel Xk. Disini ( )( ) ( ) adalah pasangan eigenvalue– eigenvector dari ∑. , Bukti. Ambil ( ) - sedemikian sehingga ( ) . Maka √ ( ) ( )√ ( ( . Karena ( ) dan ( dan ) ) menghasilkan: √ ) √ √ √ Universitas Sumatera Utara Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit akan tetapi masih mengandung informasi atau karakteristik yang termuat dalam data awal secara signifikan. Tujuan utamanya adalah untuk menjelaskan sebanyak mungkin jumlah varian data awal dengan sedikit mungkin komponen utama. Sebagian besar variasi dalam himpunan variabel yang diamati cenderung berkumpul pada komponen utama pertama dan semakin sedikit informasi dari variabel awal yang terkumpul pada komponen utama terakhir. Hal ini berarti bahwa komponen-komponen utama pada urutan terakhir dapat diabaikan tanpa kehilangan banyak informasi. Dengan cara ini analisis komponen utama dapat digunakan untuk mereduksi variabel-variabel. Komponen utama bersifat ortogonal yang artinya bahwa setiap komponen utama merupakan wakil dari seluruh variabel asal sehingga komponen-komponen utama tersebut dapat dijadikan pengganti variabel asal apabila analisis terhadap variabel tersebut membutuhkan ortogonalitas. Penetapan banyaknya komponen utama untuk dapat ditafsirkan dengan baik dapat dilihat dari: a. Proporsi keragaman kumulatif dari komponen utama Menurut Morrison (1990), banyaknya komponen utama yang dipilih sudah cukup memadai apabila komponen utama tersebut mempunyai persentase keragaman kumulatif tidak kurang dari 75% dari total keragaman data. Sedangkan Johnson dan Wichern (2007) mengatakan bahwa komponen utama deng an kondisi persentase keragaman kumulatif sebesar 80-90%, dapat menggambarkan data asalnya. b. Nilai dari eigenvalue Pemilihan komponen utama yang digunakan, didasarkan ada nilai eigenvaluenya. Aturan yang digambarkan pada bagian ini khusus digunakan untuk matriks korelasi, meskipun dapat digunakan juga untuk beberapa jenis matriks kovarians. Ide dibalik aturan ini bahwa jika semua elemen x adalah independen, maka komponen utama sama dengan variabel asli dan semua memiliki unit varians pada kasus matriks korelasi. Sehingga setiap komponen utama dengan varians kurang dari 1 mengandung sedikit informasi dari salah Universitas Sumatera Utara satu variabel asli jadi tidak dapat dipertahankan. Dalam bentuk sederhana terkadang disebut aturan Kaiser (Kaiser’s rule) dan hanya mempertahankan komponen utama dengan varians lebih dari 1 (Jolliffe, 2002). Melakukan pengujian terhadap matriks korelasi dari data yang menjadi objek pengamatan. Matriks korelasi digunakan untuk melihat keeratan hubungan antara peubah yang satu dengan peubah yang lain. Ada dua macam pengujian yang dapat dilakukan terhadap matriks korelasi, yaitu: a. Uji Bartlett Pengujian ini dilakukan untuk melihat apakah matriks korelasinya bukan merupakan suatu matriks identitas, jika matriks korelasinya merupakan matriks identitas, maka tidak ada korelasi antarpeubah yang digunakan. Uji ini dipakai bila sebagian besar dari koefisien korelasi kurang dari 0,5. Hipotesis: H0 : Matriks korelasi merupakan matriks identitas H1 : Matriks korelasi bukan merupakan matriks identitas ( ) [( ) ] | | Keterangan: N : Jumlah observasi p : Jumlah peubah | | : Determinan dari matriks korelasi Uji Bartlett akan menolak H0 jika nilai ( ) b. Uji Kaiser Meyer Olkin (KMO) Uji KMO digunakan untuk mengetahui apakah metode penarikan sampel yang digunakan memenuhi syarat atau tidak. Di samping itu, uji KMO berguna untuk mengetahui apakah data yang digunakan dapat dianalisis lebih lanjut atau tidak. Rumusan uji KMO adalah: ∑ ∑ ∑ ∑ ∑ ∑ Keterangan: Universitas Sumatera Utara rij : Koefisien korelasi sederhana antara peubah i dan j aij : Koefisien korelasi parsial antara peubah i dan j i,j : 1,2, …,p Apabila nilai KMO lebih besar dari 0,5 maka jumlah data telah cukup untuk dianalisis lebih lanjut. 2.5 Analisis Cluster Analisis cluster merupakan salah satu teknik statistik multivariat yang tujuan utamanya adalah untuk mengidentifikasi kelompok dari objek berdasarkan karakteristik yang mereka miliki, sehingga objek-objek dalam satu kelompok (cluster) akan memiliki kemiripan karakteristik (Hair, 2010). Analisis cluster melakukan sebuah usaha untuk menggabungkan keadaan atau objek ke dalam suatu kelompok, di mana anggota kelompok itu tidak diketahui sebelumnya untuk dianalisis. Menambahkan penjelasan di atas, Supranto (2004) mengatakan bahwa di dalam analisis cluster tidak ada pembedaan variabel bebas dan variabel tak bebas karena analisis cluster mengkaji hubungan interdependensi antara seluruh set variabel. Tujuan utamanya ialah mengelompokkan objek (kasus/elemen) ke dalam kelompok-kelompok yang relatif homogen didasarkan pada suatu set variabel yang dipertimbangkan untuk diteliti. Karena yang diinginkan adalah untuk mendapatkan cluster yang sehomogen mungkin, maka yang digunakan sebagai dasar untuk mengclusterkan adalah kesamaan skor nilai yang dianalisis. Sesuai prinsip dasar cluster yaitu mengelompokkan objek yang mempunyai kemiripan, maka proses pertama adalah mengukur seberapa jauh ada kesamaan antar objek. Dengan memiliki sebuah ukuran kuantitatif untuk mengatakan bahwa dua objek tertentu lebih mirip dibandingkan dengan objek lain, akan mempermudah proses pengelompokan. Pengelompokan dilakukan berdasarkan kemiripan antar objek. Kemiripan diperoleh dengan meminimalkan jarak antar objek dalam kelompok dan memaksimalkan jarak antar kelompok. Salah satu yang biasa digunakan dalam analisis cluster adalah jarak euclidean. Jarak euclidean dapat digunakan jika variabel-variabel yang digunakan tidak Universitas Sumatera Utara terdapat korelasi dan memiliki satuan yang sama. Jarak euclidean diperoleh dengan rumus sebagai berikut: ( ) √∑( ) dengan: d = jarak euclidean xi , yi = skor komponen utama ke-i 2.2.1 Analisis Cluster Metode K-Means Metode non hierarki dengan K-Means merupakan metode yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik sama dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. KMeans bertujuan untuk mengelompokkan data sedemikian hingga jarak tiap-tiap data ke pusat kelompok dalam satu kelompok minimum. Dasar pengelompokkan dalam metode ini adalah menempatkan objek berdasarkan rata-rata (mean) cluster terdekat (Johnson dan Wichern, 2007). Metode K-Means digunakan sebagai alternatif metode cluster untuk data dengan ukuran yang besar karena memiliki kecepatan yang lebih tinggi dibandingkan metode hierarki. Mac Queen menyarankan bahwa penggunaan K-Means untuk menjelaskan algoritma dalam penentuan suatu objek ke dalam cluster tertentu berdasarkan rataan terdekat. Metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai berikut: 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random 3. Hitung centroid (rata-rata) dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid (rata-rata) terdekat 5. Kembali ke langkah 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid. Universitas Sumatera Utara