BAB 2 LANDASAN TEORI

advertisement
BAB 2
LANDASAN TEORI
Pada bab ini akan diuraikan mengenai landasan teori yang akan digunakan dalam
bab selanjutnya.
2.1 Matriks
Sebuah matriks
, biasanya dinotasikan dengan huruf kapital tebal seperti A,
B, ∑ dan sebagainya, yang merupakan susunan segiempat dari bilangan-bilangan
dengan n baris dan p kolom (Johnson dan Wichern, 2007). Matriks A dengan n
baris dan p kolom dapat ditulis sebagai berikut:
]
[
,
Atau dapat ditulis juga
-
, di mana
untuk menyatakan entri
yang terdapat di dalam baris i dan kolom j dari A.
a. Operasi pada Matriks
Berikut ini beberapa bentuk operasi pada matriks:
1. Kesamaan Matriks
,
Dua matriks
B, jika
- dan
,
,
,
- dikatakan sama, ditulis A =
(Johnson dan Wichern,
2007). Jadi dua matriks dikatakan sama jika:
a. Ukuran kedua matriks sama,
b. Setiap elemen yang bersesuaian pada kedua matriks tersebut sama.
2. Penjumlahan dan Pengurangan Matriks
Jika A dan B adalah sebarang dua matriks dengan ukuran sama, maka
jumlah
adalah adalah matriks yang diperoleh dengan menambahkan
setiap entri
pada entri
.......yang bersesuaian, dan pengurangan
Universitas Sumatera Utara
adalah matriks yang diperoleh dengan mengurangkan entri
dari entri
yang bersesuaian. Matriks dengan ukuran yang berbeda tidak bisa di
jumlahkan atau dikurangkan (Johnson dan Wichern, 2007).
Misalkan,
] dan
[
[
]
Maka
[
]
-
,
Dengan notasi matriks
.
[
]
-
,
Dengan notasi matriks
.
3. Perkalian Matriks dengan Skalar
Misalkan
,
-
hasil kali
adalah matriks yang diperoleh dengan mengalikan setiap
entri dari matriks
adalah suatu matriks dan c adalah skalar, maka
oleh c. Matriks
dikatakan perkalian skalar pada
,
matriks , dinotasikan dengan
-
.
4. Perkalian Matriks dengan Matriks
Jika
adalah matriks (
kali matriks
) dan
adalah matriks (
adalah matriks (
), maka hasil
) di mana entri pada baris ke-i dan
kolom ke-j adalah hasil dari perkalian baris ke-i pada matriks
dan kolom
ke-j pada matriks .
∑
5. Transpose Matriks
Jika
adalah suatu matriks (
), maka transpose
dinotasikan dengan
adalah matriks yang diperoleh dengan mempertukarkan baris dan
Universitas Sumatera Utara
kolom matriks
matriks
, yaitu kolom pertama
, kolom kedua
adalah baris pertama pada
adalah baris kedua dari matriks
, dan
seterusnya.
] maka
[
[
]
b. Matriks Khusus
Matriks khusus adalah matriks yang mempunyai sifat tertentu sedemikian hingga
dalam operasi pada matriks menghasilkan sifat-sifat khusus (Suryanto, 1988).
Beberapa matriks khusus antara lain:
1. Matriks Persegi
Matriks persegi adalah matriks dengan banyak kolom dan baris sama,
secara matematis dapat ditulis:
(
)
[
]
Barisan entri-entri yang nomor kolomnya sama dengan nomor barisnya
(
) disebut diagonal utama. Entri-entri yang nomor
kolomnya lebih besar daripada nomor barisnya disebut unur-unsur diatas
diagonal utama, sedangkan unsur-unsur yang nomor kolompoknya lebih
kecil daripada barisnya disebut unsur-unsur di bawah diagonal utama
(Suryanto, 1988).
2. Matriks Diagonal
Matriks persegi yang semua entrinya nol kecuali pada diagonal utama
disebut matriks diagonal. Suatu matriks diagonal
dapat ditulis sebagai
berikut:
[
]
Universitas Sumatera Utara
Matriks diagonal yang setiap unsur diagonal utamanya adalah 1 disebut
matriks identitas, misalkan
[
]
3. Matriks Simetris
Suatu matriks persegi
( )
lain, jika
.
dikatakan simetris jika
simetris maka
. Dengan kata
dan
2.2 Trace Matriks
Trace dari sebuah matriks
berukuran
ditulis
sebagai jumlah dari elemen-elemen diagonal, yaitu
2002). Jika
dan
matriks berukuran
a.
(
)
b.
(
c.
(
)
(
d.
(
)
(
( )
( ) dan didefinisikan
∑
(Rencher,
dan c adalah skalar, maka:
( )
)
( )
( )
)
)
∑
∑
2.3 Eigenvalue dan Eigenvector
Jika
adalah matriks
dan I merupakan matriks identitas. Maka skalar
yang memenuhi persamaan polinomial |
|
dikatakan
eigenvalue (akar karakteristik) dari matriks .
Jika
adalah matriks
x adalah vektor taknol
dan jika λ merupakan eigenvalue dari matriks . Jika
sehingga,
Maka x dikatakan eigenvector (vektor karakteristik) dari matriks
yang terkait
dengan eigenvalue λ.
Universitas Sumatera Utara
2.4 Analisis Komponen Utama (Principal Component Analysis)
Metode Analisis Komponen Utama bermula dari Karl Pearson pada tahun 1901
untuk peubah non-stokastik. Analisis ini kemudian ditetapkan menjadi peubah
stokastik oleh Harold Hotelling pada tahun 1933. Analisis ini merupakan analisis
tertua. Perhitungan dalam analisis ini pada waktu tersebut merupakan pekerjaan
yang sukar walaupun hanya menggunakan beberapa peubah. Analisis ini baru
berkembang penggunaannya setelah tersedia fasilitas komputasi elektronik
(Jolliffe, 2002).
Analisis Komponen Utama merupakan suatu teknik analisis statistik untuk
mentransformasikan variabel-variabel asli yang masih berkorelasi satu dengan
yang lain menjadi suatu variabel baru yang tidak berkorelasi lagi (Johnson dan
Wichern, 2007). Analisis Komponen Utama bertujuan untuk menyederhanakan
variabel yang diamati dengan cara menyusutkan dimensinya. Hal ini dilakukan
dengan menghilangkan korelasi variabel melalui transformasi variabel asal ke
variabel baru yang tidak berkorelasi. Variabel hasil mereduksi tersebut dinamakan
principal component atau komponen utama (Aroef, 1991). Komponen utama
adalah kombinasi linear dari variabel acak atau statistik yang memiliki sifat
khusus dalam hal variasi (Anderson, 1984).
Secara aljabar linier, komponen utama merupakan kombinasi-kombinasi
linier dari p peubah acak
. Secara geometri, kombinasi linier ini
merupakan sistem koordinat baru yang diperoleh dari rotasi sistem semula dengan
sebagai
,
≥
sumbu
koordinat.
Misalkan
vektor
acak
- merupakan matriks kovarian ∑ dengan eigenvalue λ1 ≥ λ2
≥ λp ≥ 0.
Perhatikan kombinasi linier:
dengan:
Universitas Sumatera Utara
: kombinasi linier dari variabel X
: variabel ke p
: bobot atau koefisien untuk variabel ke p
Var ( ) =
Cov (
)=
Komponen utama adalah kombinasi linier
( )=
di mana variansi pada
sebesar mungkin.
Komponen utama pertama adalah kombinasi linier dengan variansi maksimum.
Yang
( )
memaksimumkan
meningkat dengan mengalikan
.
( )
Jelas
dapat
dengan konstanta. Berdasarkan kenyataan di
atas, maka dapat dibuat pernyataan umum yang berkaitan dengan konsep analisis
komponen utama sebagai berikut:
Komponen utama ke-1
: kombinasi linier
(
Komponen utama ke-2
) serta
: kombinasi linier
(
Komponen utama ke-i
yang memaksimumkan
yang memaksimumkan
) serta
: kombinasi linier
(
(
dan
)
yang memaksimumkan
) serta
dan
(
)
untuk k < i.
Misalkan ∑ matriks kovarian yang bersesuaian dengan vektor acak
[
(
].
)(
)
Misalkan
(
∑
memiliki
pasangan
) dimana
eigenvalue–eigenvector
. Komponen utama
ke-i diberikan oleh
Dengan,
( )
Cov (
)=
Jika beberapa λi sama, dengan vektor koefisien ei yang bersesuaian, maka Yi tidak
tunggal.
Bukti. B = ∑,
Universitas Sumatera Utara
(diperoleh ketika
)
karena eigenvector dinormalkan. Dengan demikian,
( )
Dengan cara yang sama,
Untuk
, dengan
, untuk
dan
(
(
Karena
)
=
)
(
maka
)
(
menunjukkan bahwa ei tegak lurus terhadap
. Tinggal
) memberikan
Cov(Yi Yk) = 0. Eigenvector dari ∑ orthogonal jika semua eigenvalue
berbeda. Jika eigenvalue tidak berbeda semuanya, maka eigenvector yang
bersesuaian dengan eigenvalue dapat dipilih supaya orthogonal. Dengan
demikian, untuk setiap dua eigenvector ei dan
, perkalian dengan
(
. Karena
memberikan,
)
untuk setiap
. (terbukti)
Komponen utama tidak berkorelasi dan memiliki variansi sama dengan
eigenvalue dari ∑ (Johnson dan Wichern, 2007).
[
Misalkan
eigenvalue–eigenvector
] memiliki matriks kovarians ∑, dengan pasangan
(
)(
)
(
)
di
. Misalkan
mana
adalah komponen
utama. Maka,
∑
Bukti. Dari
dimana
( )
( ) dengan
∑
( )
, dapat ditulis
adalah matriks diagonal dari eigenvalue dan
[
]
Universitas Sumatera Utara
sedemikian sehingga
(
)
( )
. Dapat diperoleh
( )
(
)
maka,
( )
∑
( )
( )
∑
( )
Total variansi populasi =
Dan sebagai akibatnya, proporsi variansi total dari komponen utama ke-k adalah
(
)
Misal apabila p berukuran besar, sedangkan diketahui bahwa sekitar 80% - 90%
variansi populasi total telah mampu diterangkan oleh satu, dua, atau tiga
komponen utama yang pertama, maka komponen-komponen utama itu telah dapat
mengganti p buah varabel asal tanpa mengurangi informasi yang banyak. Setiap
[
komponen dari vektor koefisien
Besar
] juga harus diperiksa.
diukur dari variabel ke-k ke komponen utama ke-i, tanpa
memperhatikan variabel yang lain. Secara khusus
proporsional terhadap
koefisien korelasi antara Yi dan Xk (Johnson dan Wichern, 2007).
Misalkan
adalah komponen utama yang
diperoleh dari matriks kovarians ∑, maka
√
√
adalah koefisien korelasi antara komponen Yi dan variabel Xk. Disini
(
)(
)
(
) adalah pasangan eigenvalue– eigenvector dari ∑.
,
Bukti. Ambil
(
)
- sedemikian sehingga
(
)
. Maka
√
(
)
( )√
(
(
. Karena
( )
dan
(
dan
)
)
menghasilkan:
√
)
√ √
√
Universitas Sumatera Utara
Di dalam proses mereduksi, diperoleh variabel yang lebih sedikit akan
tetapi masih mengandung informasi atau karakteristik yang termuat dalam data
awal secara signifikan. Tujuan utamanya adalah untuk menjelaskan sebanyak
mungkin jumlah varian data awal dengan sedikit mungkin komponen utama.
Sebagian besar variasi dalam himpunan variabel yang diamati cenderung
berkumpul pada komponen utama pertama dan semakin sedikit informasi dari
variabel awal yang terkumpul pada komponen utama terakhir. Hal ini berarti
bahwa komponen-komponen utama pada urutan terakhir dapat diabaikan tanpa
kehilangan banyak informasi. Dengan cara ini analisis komponen utama dapat
digunakan untuk mereduksi variabel-variabel. Komponen utama bersifat
ortogonal yang artinya bahwa setiap komponen utama merupakan wakil dari
seluruh variabel asal sehingga komponen-komponen utama tersebut dapat
dijadikan pengganti variabel asal apabila analisis terhadap variabel tersebut
membutuhkan ortogonalitas.
Penetapan banyaknya komponen utama untuk dapat ditafsirkan dengan baik dapat
dilihat dari:
a. Proporsi keragaman kumulatif dari komponen utama
Menurut Morrison (1990), banyaknya komponen utama yang dipilih sudah
cukup memadai apabila komponen utama tersebut mempunyai persentase
keragaman kumulatif tidak kurang dari 75% dari total keragaman data.
Sedangkan Johnson dan Wichern (2007) mengatakan bahwa komponen utama
deng an kondisi persentase keragaman kumulatif sebesar 80-90%, dapat
menggambarkan data asalnya.
b. Nilai dari eigenvalue
Pemilihan komponen utama yang digunakan, didasarkan ada nilai eigenvaluenya. Aturan yang digambarkan pada bagian ini khusus digunakan untuk
matriks korelasi, meskipun dapat digunakan juga untuk beberapa jenis matriks
kovarians. Ide dibalik aturan ini bahwa jika semua elemen x adalah
independen, maka komponen utama sama dengan variabel asli dan semua
memiliki unit varians pada kasus matriks korelasi. Sehingga setiap komponen
utama dengan varians kurang dari 1 mengandung sedikit informasi dari salah
Universitas Sumatera Utara
satu variabel asli jadi tidak dapat dipertahankan. Dalam bentuk sederhana
terkadang disebut aturan Kaiser (Kaiser’s rule) dan hanya mempertahankan
komponen utama dengan varians lebih dari 1 (Jolliffe, 2002).
Melakukan pengujian terhadap matriks korelasi dari data yang menjadi
objek pengamatan. Matriks korelasi digunakan untuk melihat keeratan hubungan
antara peubah yang satu dengan peubah yang lain. Ada dua macam pengujian
yang dapat dilakukan terhadap matriks korelasi, yaitu:
a. Uji Bartlett
Pengujian ini dilakukan untuk melihat apakah matriks korelasinya bukan
merupakan suatu matriks identitas, jika matriks korelasinya merupakan matriks
identitas, maka tidak ada korelasi antarpeubah yang digunakan. Uji ini dipakai
bila sebagian besar dari koefisien korelasi kurang dari 0,5.
Hipotesis:
H0 : Matriks korelasi merupakan matriks identitas
H1 : Matriks korelasi bukan merupakan matriks identitas
(
)
[(
)
]
| |
Keterangan:
N
: Jumlah observasi
p
: Jumlah peubah
| | : Determinan dari matriks korelasi
Uji Bartlett akan menolak H0 jika nilai
(
)
b. Uji Kaiser Meyer Olkin (KMO)
Uji KMO digunakan untuk mengetahui apakah metode penarikan sampel yang
digunakan memenuhi syarat atau tidak. Di samping itu, uji KMO berguna untuk
mengetahui apakah data yang digunakan dapat dianalisis lebih lanjut atau tidak.
Rumusan uji KMO adalah:
∑
∑
∑
∑
∑
∑
Keterangan:
Universitas Sumatera Utara
rij
: Koefisien korelasi sederhana antara peubah i dan j
aij
: Koefisien korelasi parsial antara peubah i dan j
i,j
: 1,2, …,p
Apabila nilai KMO lebih besar dari 0,5 maka jumlah data telah cukup untuk
dianalisis lebih lanjut.
2.5 Analisis Cluster
Analisis cluster merupakan salah satu teknik statistik multivariat yang tujuan
utamanya adalah untuk mengidentifikasi kelompok dari objek berdasarkan
karakteristik yang mereka miliki, sehingga objek-objek dalam satu kelompok
(cluster) akan memiliki kemiripan karakteristik (Hair, 2010). Analisis cluster
melakukan sebuah usaha untuk menggabungkan keadaan atau objek ke dalam
suatu kelompok, di mana anggota kelompok itu tidak diketahui sebelumnya untuk
dianalisis. Menambahkan penjelasan di atas, Supranto (2004) mengatakan bahwa
di dalam analisis cluster tidak ada pembedaan variabel bebas dan variabel tak
bebas karena analisis cluster mengkaji hubungan interdependensi antara seluruh
set variabel. Tujuan utamanya ialah mengelompokkan objek (kasus/elemen) ke
dalam kelompok-kelompok yang relatif homogen didasarkan pada suatu set
variabel yang dipertimbangkan untuk diteliti. Karena yang diinginkan adalah
untuk mendapatkan cluster yang sehomogen mungkin, maka yang digunakan
sebagai dasar untuk mengclusterkan adalah kesamaan skor nilai yang dianalisis.
Sesuai prinsip dasar cluster yaitu mengelompokkan objek yang
mempunyai kemiripan, maka proses pertama adalah mengukur seberapa jauh ada
kesamaan antar objek. Dengan memiliki sebuah ukuran kuantitatif untuk
mengatakan bahwa dua objek tertentu lebih mirip dibandingkan dengan objek
lain, akan mempermudah proses pengelompokan. Pengelompokan dilakukan
berdasarkan kemiripan antar objek. Kemiripan diperoleh dengan meminimalkan
jarak antar objek dalam kelompok dan memaksimalkan jarak antar kelompok.
Salah satu yang biasa digunakan dalam analisis cluster adalah jarak euclidean.
Jarak euclidean dapat digunakan jika variabel-variabel yang digunakan tidak
Universitas Sumatera Utara
terdapat korelasi dan memiliki satuan yang sama. Jarak euclidean diperoleh
dengan rumus sebagai berikut:
(
)
√∑(
)
dengan:
d = jarak euclidean
xi , yi = skor komponen utama ke-i
2.2.1 Analisis Cluster Metode K-Means
Metode non hierarki dengan K-Means merupakan metode yang berusaha
mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini
mempartisi data ke dalam cluster sehingga data yang memiliki karakteristik sama
dikelompokkan ke dalam satu cluster yang sama dan data yang mempunyai
karakteristik yang berbeda dikelompokkan ke dalam kelompok yang lain. KMeans bertujuan untuk mengelompokkan data sedemikian hingga jarak tiap-tiap
data ke pusat kelompok dalam satu kelompok minimum. Dasar pengelompokkan
dalam metode ini adalah menempatkan objek berdasarkan rata-rata (mean) cluster
terdekat (Johnson dan Wichern, 2007). Metode K-Means digunakan sebagai
alternatif metode cluster untuk data dengan ukuran yang besar karena memiliki
kecepatan yang lebih tinggi dibandingkan metode hierarki. Mac Queen
menyarankan bahwa penggunaan K-Means untuk menjelaskan algoritma dalam
penentuan suatu objek ke dalam cluster tertentu berdasarkan rataan terdekat.
Metode K-Means ini secara umum dilakukan dengan algoritma dasar sebagai
berikut:
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam cluster secara random
3. Hitung centroid (rata-rata) dari data yang ada di masing-masing cluster
4. Alokasikan masing-masing data ke centroid (rata-rata) terdekat
5. Kembali ke langkah 3, apabila masih ada data yang berpindah cluster atau
apabila perubahan nilai centroid.
Universitas Sumatera Utara
Download