Seleksi peubah dengan analisis komponen utama

advertisement
5
TINJAUAN PUSTAKA
Peubah
Peubah (variable) adalah beberapa karakteristik yang berbeda dari objek
yang satu dengan objek yang lain atau berbeda dari waktu ke waktu (Everitt &
Skrondal 2010). Dasar dari analisis peubah ganda adalah kombinasi linear dari
peubah-peubah yang diberikan bobot secara empiris. Peubah ditentukan dan
dijelaskan oleh peneliti sedangkan bobotnya ditentukan dengan teknik peubah
ganda yang sesuai dengan tujuan penelitian. Sejumlah
peubah dengan bobotnya
dapat dinyatakan secara matematis
=
dengan
1 1
+
2 2
+
merupakan peubah yang diamati dan
+
,
merupakan bobot yang
ditentukan dengan teknik peubah ganda.
Analisis peubah ganda
Analisis peubah ganda (multivariate analysis) merupakan istilah umum
untuk metode-metode analisis yang penting dalam menganalisis data peubah
ganda (Everitt & Skrondal 2010). Dengan demikian analisis data yang melibatkan
lebih dari satu peubah secara serempak dapat dipandang sebagai analisis peubah
ganda.
Berbagai teknik analisis peubah ganda ada yang merupakan perluasan dari
analisis peubah tunggal. Untuk dapat melakukan analisis peubah ganda diperlukan
pemahaman konsep pada penelitian berkaitan dengan jenis skala pengukuran.
Beberapa teknik analisis peubah ganda antara lain analisis komponen
utama dan analisis faktor, regresi berganda dan korelasi berganda, analisis
diskriminan, analisis korelasi kanonik, analisis varians dan kovarians peubah
ganda, conjoint analysis, analisis gerombol, analisis korespondensi, structural
equation modeling, dan confirmatory factor analysis.
6
Analisis Komponen Utama
Analisis komponen utama merupakan salah satu teknik analisis peubah
ganda yang berkaitan dengan penjelasan struktur varians-kovarians peubah
dengan cara mentransformasi peubah-peubah awal menjadi peubah-peubah baru
yang tidak saling berkorelasi dengan tujuan mereduksi dimensi matriks data
sehingga lebih mudah dalam menginterpretasi data yang diperoleh.
Analisis komponen utama membentuk peubah baru yang merupakan
kombinasi linear dari seluruh peubah asli, yang disebut komponen utama
(principal components). Meskipun dibutuhkan
komponen untuk menunjukkan
keseluruhan variasi data, seringkali variasi ini dapat diwakili oleh
utama, dengan
mengandung
komponen
(Jollife 2002). Dengan demikian data awal yang
pengukuran dengan
pengukuran dengan
peubah dapat direduksi menjadi
komponen utama.
Secara aljabar, komponen utama merupakan kombinasi linear dari peubah
1,
2, . . . ,
linear
yang memaksimalkan varians data. Secara geometris, kombinasi
ini
menunjukkan
perubahan
koordinat
1,
memproyeksikan sistem awal pada
2, . . . ,
yang
diperoleh
dengan
sebagai sumbu koordinat.
Sumbu koordinat baru ini menyatakan arah dengan variasi maksimum dan
memberikan interpretasi yang lebih sederhana pada struktur kovarians.
Misalkan kombinasi linear
dengan
dari vektor
1
11 ,
merupakan vektor koefisien
1
=
1
11 1
+
12 2
+
12 ,
+
1
,
memiliki varians terbesar,
1
, sehingga
=
1
.
(1)
=1
Kombinasi linear kedua,
2
, tidak berkorelasi dengan
1
. Kombinasi
linear ini memiliki varians terbesar kedua, dan seterusnya, sehingga kombinasi
linear ke- ,
1
,
2
diketahui
,
, memiliki varians maksimum ke- dan tidak berkorelasi dengan
,
1
=
1,
Misalkan
. Dengan demikian terdapat matriks bobot yang tidak
2,
,
.
memiliki matriks kovarians
dengan elemen
kovarians antara peubah ke-i dan peubah ke-j dari
pada saat
merupakan
dan
7
merupakan varians peubah ke-j pada saat
maka kovarians
=
=
.
maka
=
Kovarians
memiliki nilai harapan
diberikan oleh
cov
Misalkan
= . Jika
=
.
diberikan oleh
cov
i
=E
cov Yi
=E
Var
=E
Var
=
Var
=
Var
=
Var
=
Var
=
E
T
E
E
E[ ]
T
[
]
[ ]
[ ]
[ ]
cov
(2)
Untuk menentukan bentuk komponen utama, pandang kombinasi linear
=
1
var
dapat dibuat sebesar mungkin dengan memilih nilai
1
dan vektor
yang memaksimumkan var
pertama
1
oleh karena itu dibutuhkan batasan
1
1
1
1.
Nilai
yang besar,
= 1, yaitu jumlah kuadrat elemen
1
1
sama dengan 1.
Untuk memaksimumkan
1
1
dengan syarat
1
1
= 1, pendekatan
standar yang digunakan adalah menggunakan metode pengganda Lagrange.
Misalkan fungsi
akan dimaksimumkan dengan syarat
= .
Didefiniskan fungsi Lagrange
,
dengan
=
,
(3)
adalah pengganda Lagrange. Diferensiasi fungsi Lagrange terhadap
kedua argumen dan mengaturnya sama dengan nol diperoleh
=
=0
=
+ = 0.
(4)
(5)
8
Diferensiasi fungsi
pada persamaan (5) memberikan kembali syarat awal
= . Pada persamaan (4) jika nilai
= 0 maka diperoleh masalah optimasi
tanpa syarat. Dengan demikian, apabila syarat telah terpenuhi nilai fungsi objektif
sama dengan nilai fungsi objektif
. Apabila terdapat lebih dari satu syarat,
cukup dengan menambahkan pengganda Lagrange yang lain.
Berdasarkan uraian di atas didefinisikan fungsi Lagrange
=
dengan
1
1
(6)
1 ,
1
1
adalah pengganda Lagrange. Diferensiasi fungsi Lagrange terhadap
1
memberikan
1
1
=0
(7)
1
= 0,
(8)
atau
dengan
× . Dengan demikian
merupakan matriks identitas berukuran
adalah nilai eigen dari
dan
1
merupakan vektor eigen yang bersesuaian. Untuk
menentukan vektor eigen yang memberikan kombinasi linear
1
nilai varians
terbesar, kuantitas yang akan dimaksimumkan ialah
1
1
Jadi,
=
1
1
=
1
1
harus sebesar mungkin. Dengan demikian,
(9)
= .
1
adalah vektor eigen yang
terbesar dari , dan var
bersesuaian dengan nilai eigen
1
=
2
2
1
1
=
1,
yang merupakan nilai eigen yang terbesar.
Komponen utama kedua,
2
cov
2
2
, memaksimumkan
= 1 dan tidak berkorelasi dengan
1
,
2
= 0, dengan cov ,
dengan syarat
, atau ekivalen dengan syarat
1
menyatakan kovarians antara peubah x
dan y. Diperoleh
cov
,
1
2
=
=
1
=
2
1
2
1
=
1
=
1
2
1
2
2 1
1
=0
(10)
1,
(11)
Didefinisikan kembali fungsi Lagrange
=
dengan
dan
2
2
2
1
2
2
adalah pengganda Lagrange. Diferensiasi
terhadap
2
dan
mengaturnya sama dengan nol memberikan
2
2
1
= 0.
(12)
9
Dengan menggandakan persamaan (12) dengan
1
2
1
2
1
diperoleh
1
1
(13)
= 0.
= 0, sehingga dari persamaan (12)
Berdasarkan (10) dan (13) memberikan
2
2
=0
(14)
2
= 0.
(15)
atau
Dengan demikian
merupakan nilai eigen
=
yang bersesuaian. Oleh karena
Dengan asumsi
nilai eigen
dan
maka
2
2
2
merupakan vektor eigen
juga harus sebesar mungkin.
tidak memiliki nilai eigen yang berulang maka
terbesar kedua dan
merupakan
merupakan vektor eigen yang bersesuaian.
2
Berdasarkan uraian di atas, dapat ditunjukkan bahwa untuk komponen
utama ketiga, keempat sampai dengan ke-p, vektor koefisien
merupakan vektor eigen
yang bersesuaian dengan nilai eigen
3,
4,
3, 4,
,
,
ketiga, keempat, sampai nilai eigen terkecil berturut-turut. Secara umum,
komponen utama ke-k dari
var
dengan
adalah
=
merupakan nilai eigen
dan
untuk
= 1, 2,
terbesar ke-k dan
(16)
, ,
adalah vektor eigen yang
bersesuaian.
Secara umum, transformasi peubah asal menjadi komponen utama dapat
dinyatakan sebagai
=
, dengan
merupakan matriks bobot yang disebut
matriks koefisien komponen utama yang terdiri dari vektor eigen
. Posisi setiap
objek pada sistem koordinat komponen utama yang baru disebut skor yang
diberikan oleh
=
dengan
,
disebut matriks skor komponen utama.
Total varians yang dijelaskan oleh komponen utama adalah
sehingga proporsi dari total varians yang dijelaskan
=1
komponen utama pertama
ialah
=1
=1
dengan
= 1, 2, . . . . , p.
,
(17)
10
Memilih Komponen Utama
Jolliffe (2002) dan Andrade et al. (2004) memaparkan beberapa aturan
dalam menentukan banyaknya komponen utama pertama yang harus dipilih untuk
mewakili variasi matriks data .
Persentase Kumulatif Variasi Total
1,
Komponen utama merupakan kombinasi linear dari peubah acak
2, . . . ,
yang memaksimalkan variasi data secara berurutan, dengan varians
komponen utama ke-
adalah
dan total varians
persentase variasi yang dijelaskan oleh
=1
. Dengan demikian
komponen utama pertama adalah
= 100
=1
,
(18)
=1
dengan
. Apabila menggunakan matriks korelasi, (18) dapat direduksi
menjadi
100
=
.
(19)
=1
Pemilihan
nilai
pada interval 70% hingga 90% akan memberikan aturan penentuan
komponen utama yang mempertahankan sebagian besar informasi yang
dimiliki .
Ukuran Variasi Komponen Utama
Aturan ini khusus digunakan saat menggunakan matriks korelasi,
meskipun dapat diadopsi untuk beberapa matriks kovarians tertentu. Pada aturan
ini jika semua elemen
independen, maka komponen utama sama dengan peubah
awal dan memiliki varians pada mariks korelasi. Dengan demikian komponen
utama yang memiliki varians kurang dari 1 atau
< 1 dianggap kurang memiliki
informasi sehingga dapat dihilangkan.
Metode Cross-Validatory
Eastment & Krzanowski (1982) pada Andrade et al. (2004) memberikan
pendekatan dalam penentuan
komponen utama dengan menggunakan
penguraian nilai singular secara langsung. Misalkan penguraian nilai singular
11
ialah
=
dan
. Jika
dan
dan
,
,
,
menyatakan elemen dari matriks
,
,
,
komponen utama pertama dipandang dapat mewakili variasi data
komponen dipandang kurang memiliki informasi yang signifikan
=
maka
Prediktor dari
+
=1
dengan
merupakan residual noise.
ditentukan dengan formula
=
.
=1
Ukuran kesesuaian untuk
dapat diperoleh dari prediktor semua elemen
dengan menentukan jumlah kuadrat selisih antara elemen observasi dengan
elemen prediksi, yaitu
PRESS
=
1
2
(21)
.
=1 =1
Akan tetapi data
seharusnya tidak dipergunakan dalam memprediksi
. Untuk mencegah hal tersebut adalah dengan menghapus baris ke-i dari
,
kemudian mengoreksi kolomnya terhadap rataan dan menyatakan hasilnya
sebagai
. Demikian pula menghapus kolom ke-j dari
kolomnya terhadap rataannya dan menyatakan hasilnya dengan
, mengoreksi
(
).
Selanjutnya
dengan melakukan penguraian nilai singular dua matriks ini menjadi
=
=
dengan
,
=
= diag
dan
(
dengan
=
,
=
dan
)
1,
2,
,
1,
2,
,
dan
=
= diag
1
. Dari konstruksi ini,
maka prediktor dapat dinyatakan sebagai
=
(22)
.
=1
Perbedaan dengan (20), prediktor (22) tidak menggunakan
menentukan nilai optimum , PRESS
sampai
menentukan
dihitung untuk nilai
. Untuk
yang berbeda dari
1 . Eastment & Krzanowski (1982) menyarankan untuk
12
=
dengan
PRESS
1
PRESS
(23)
,
PRESS
adalah derajat bebas yang dibutuhkan untuk menyesuaikan komponen
ke- dan
adalah derajat bebas yang tersisa setelah penyesuaian komponen
=
ke- . Nilai
+
2 dan
diperoleh dengan pengurangan secara
berurutan yang dimulai dari derajat bebas
terkoreksi
terhadap
1
+
Nilai
rataannya,
2
yaitu
1
1
dari matriks
=
1
yang telah
=
dan
1 .
menyatakan peningkatan kekuatan prediksi saat penambahan
komponen ke-k, dan dibandingkan dengan rataan informasi prediksi pada
komponen yang tersisa. Dengan demikian nilai komponen yang signifikan, k,
diberikan oleh nilai terbesar dari
yang lebih besar dari 1. Notasi PRESS
merupakan akronim dari PREdiction Sum of Square.
Seleksi Peubah dalam Analisis Komponen Utama
Jolliffe (1972) menyarankan beberapa metode dalam memilih subset
peubah terbaik yang tetap mempertahankan variasi data berdasarkan pada analisis
komponen utama.
Metode B1
Metode B1 pertama kali dikembangkan oleh Beale et al. (1967). Metode
B1 diawali dengan melakukan analisis komponen utama pada matriks data yang
mengandung
1
objek dan
peubah, dan penentuan nilai-nilai eigen. Jika terdapat
nilai eigen yang lebih kecil dari suatu nilai tertentu,
0,
maka vektor eigen
yang bersesuaian, yaitu komponen utama itu sendiri, dibandingkan secara
berurutan, mulai dari komponen yang bersesuaian dengan nilai eigen terkecil
pertama dilanjutkan dengan komponen utama yang bersesuaian dengan nilai eigen
terkecil kedua dan seterusnya. Satu peubah kemudian dikaitkan dengan setiap
1
komponen utama, yaitu peubah yang memiliki koefisien terbesar pada komponenkomponen yang sedang dibandingkan dan belum dikaitkan dengan komponen
yang dibandingkan sebelumnya. Peubah yang dikaitkan dengan
utama tersebut kemudian dihilangkan.
1
komponen
13
Setelah satu peubah dihilangkan, proses dilanjutkan dengan melakukan
1 peubah.
kembali analisis komponen utama untuk matriks data dengan
Jika terdapat
2
nilai eigen yang lebih kecil dari
dikaitkan dengan setiap
2
0,
maka sebuah peubah kembali
komponen utama yang bersesuaian dengan cara yang
sama dengan sebelumnya. Peubah yang dikaitkan ini kemudian dihilangkan.
2 peubah yang
Analisis komponen utama kembali dilakukan untuk
tersisa, dan prosedur ini terus dilakukan hingga semua nilai eigen pada analisis
komponen terakhir lebih dari
bergantung pada pemilihan
0,
sehingga tersisa
peubah. Nilai
ini akan
0.
Metode B1 melakukan analisis komponen utama dalam setiap proses
penghilangan peubah. Oleh karena itu metode B1 membutuhkan waktu komputasi
yang besar sehingga tidak direkomendasikan.
Metode B2
Metode B2 sama seperti metode B1, akan tetapi hanya menggunakan satu
kali analisis komponen utama. Metode B2 diawali dengan melakukan analisis
komponen utama pada matriks data yang mengandung mengandung
peubah. Jika telah ditentukan bahwa
objek dan
peubah akan dipertahankan maka dipilih
koefisien dengan nilai mutlak terbesar untuk setiap (
) komponen utama
terakhir dan dikaitkan dengan peubah yang bersesuaian. Setelah dibandingkan
peubah ini kemudian dihilangkan mulai dari komponen utama yang
terakhir.
Metode B3
Metode B3 membutuhkan satu kali analisis komponen utama dan
penentuan
peubah yang akan dipertahankan seperti metode B2. Metode B3
diawali dengan melakukan analisis komponen utama pada matriks data yang
mengandung
objek dan
peubah. Proses seleksi dilanjutkan dengan
menentukan nilai dari jumlah kuadrat koefisien setiap
peubah pada (
)
komponen utama terakhir. Jumlah-jumlah ini selanjutnya diurutkan secara
menurun dan peubah yang bersesuaian dengan jumlah kuadrat
pertama
14
dalam urutan tersebut dihilangkan. Dengan demikian peubah yang dipilih adalah
peubah yang memiliki nilai
2
(24)
= +1
yang minimum. Dalam formula ini
adalah koefisien dari peubah ke-i pada
komponen utama ke-j.
Metode yang secara komputasi serupa dengan B3 ialah menggunakan
proporsi varians peubah ke-i yang dijelaskan oleh
komponen utama pertama.
Proporsi varians peubah ke-i yang dijelaskan oleh
komponen utama pertama
ialah
2
(25)
,
=1
dengan
adalah nilai eigen ke-j dan
adalah koefisien peubah ke-i pada
komponen utama ke-j. Metode ini memilih
maksimum dari
2
=1
peubah yang memiliki nilai
, yaitu
2
1
=1
(26)
2
=
= +1
2
minimum, sementara B3 memilih peubah di mana
= +1
minimum.
Metode B4
Metode B4 membutuhkan satu analisis komponen utama dan penentuan
peubah yang akan dipertahankan. Metode B4 dapat dipandang sebagai versi
backward B2. Metode B4 diawali dengan melakukan analisis komponen utama
pada matriks data yang mengandung mengandung
objek dan
peubah. Untuk
melakukan proses seleksi, dipilih koefisien dengan nilai mutlak terbesar untuk
setiap
komponen utama pertama dan dibandingkan mulai dari komponen utama
pertama secara berurutan seperti halnya pada metode B1 dan metode B2. Dengan
demikian,
peubah akan dipertahankan dan (
) peubah dihilangkan.
Pada metode B1 jumlah peubah yang dipertahankan, , ditentukan dengan
pemilihan
0,
dan pada metode B2, B3 dan B4 nilai
dapat dipilih sama dengan
banyaknya nilai eigen dari matriks korelasi yang lebih besar dari
lebih besar dari B1). Sebagai alternatif, nilai
0
(yang nilainya
dapat ditentukan sama dengan
15
jumlah komponen utama minimal dimana proporsi variasi yang dijelaskan lebih
dari suatu nilai
0,
misalnya
0
= 0.80 (Jollife 1972). Krzanowski (1987)
menyarankan bahwa dapat dipilih sebarang jumlah
peubah dari
peubah yang
ada dengan perbandingan antara objek dengan peubah adalah 3:1.
Masalah Procrustes
Istilah procrustes berasal dari legenda Yunani kuno, di mana Procrustes
merupakan seorang bandit yang beroperasi pada daerah perbukitan Eleusis di
sebelah selatan Yunani. Procrustes menawarkan penginapan bagi para
pengembara yang bepergian dari Eleusis ke Athena, memberikan makanan dan
minuman serta menawarkan tempat tidur untuk beristirahat. Jika tinggi
pengembara tersebut melebihi panjang tempat tidur yang disediakan, maka
Procrustes memotong kepala dan kaki mereka agar sesuai dengan ukuran tempat
tidur. Namun apabila pengembara terlalu pendek, Procrustes meregangkannya
agar sesuai dengan tempat tidur sehingga keduanya berujung pada kematian.
Procrustes mengalami nasib yang sama di tangan Theseus, penguasa Ionia saat itu
(Gower & Dijksterhuis 2004).
Terdapat tiga elemen dalam kisah Procrustes, yaitu pengembara yang tidak
beruntung, yang dapat dilabelkan dengan
perlakuan,
matriks
tempat tidur Procrustes,
2,
dan
. Bentuk paling sederhana dari masalah procrustes adalah mencari
yang meminimumkan
1
pada
1,
1
×
2
, dengan
×
1
1
(27)
2
dan
×
2
2
yang diketahui, dengan
menyatakan norma Frobenius matriks. Norma Frobenius matriks dapat
dipandang sebagai norma Euclid untuk matriks. Untuk vektor, norma Euclid
dikenal sebagai norma-2,
2.
Dengan vektor
, maka kuadrat panjang
Euclidnya ialah
2
2
2
=
=1
.
(28)
16
×
Untuk matriks
, norma Frobenius
2
2
=
ialah
= tr
,
(29)
=1 =1
di mana
adalah matriks transpos dari .
Analisis Procrustes
Menurut Awange et al. (2010) analisis procrustes adalah teknik
penyesuaian sebuah konfigurasi dengan konfigurasi yang lain dengan tujuan
memperoleh ukuran kesesuaian. Untuk melihat kesamaan bentuk dan ukuran dari
dua konfigurasi maka salah satu konfigurasi dibuat tetap sementara konfigurasi
yang lainnya ditransformasi sehingga sesuai dengan konfigurasi pertama.
Sedangkan dalam Bakhtiar & Siswadi (2011) analisis procrustes adalah alat
analisis berdasarkan asas kuadrat-terkecil yang dapat digunakan untuk mengukur
kemiripan maksimal antarkonfigurasi titik melalui serangkaian transformasi
linear.
×
Misalkan
berdimensi
adalah konfigurasi
titik dalam ruang Euclid
dengan koordinat diberikan oleh matriks
×
berikut
1
2
=
dengan
adalah vektor baris yang diberikan oleh
=
untuk
= 1, 2,
,
1
,
2,
,
×
dan konfigurasi
yang merupakan konfigurasi
titik dalam ruang Euclid berdimensi . Konfigurasi
konfigurasi
akan dipasangkan dengan
dalam bentuk baris, dengan setiap baris dari konfigurasi
dipasangkan dengan baris pada konfigurasi
bahwa dimensi kedua konfigurasi
konfigurasi memiliki jumlah
dan
yang bersesuaian. Diasumsikan
adalah sama. Dengan demikian setiap
kolom yang sama. Jika
nol dapat ditambahkan pada konfigurasi
>
maka
kolom
sehingga kedua konfigurasi berada
pada ruang dimensi yang sama (Borg 1978; Ten Berge & Knol 1984). Dengan
demikian tanpa mengurangi perumuman dapat diasumsikan bahwa
= .
17
Diasumsikan pula bahwa salah satu konfigurasi,
, dibuat tetap dan konfigurasi
yang lain, , akan ditransformasi agar sesuai dengan konfigurasi .
Untuk menentukan jarak antarkonfigurasi, analisis procrustes mendasarkan
pengukurannya pada jumlah kuadrat jarak antartitik yang bersesuaian, yang
dikenal dengan jarak procrustes, yaitu
,
2
=
=1 =1
,
= tr
(30)
.
Secara geometris hal ini dilakukan dengan cara mentranslasi, merotasi dan
kemudian mendilasi konfigurasi
,
jarak,
sedemikian rupa sehingga jumlah kuadrat
, antara titik-titik konfigurasi
dengan titik-titik konfigurasi
yang
bersesuaian menjadi minimum (Andrade et al. 2004)
Translasi
Translasi dalam analisis procrustes merupakan proses penggeseran semua
titik pada konfigurasi
dan konfigurasi
dengan jarak yang tetap dan arah yang
sama sehingga kedua konfigurasi memiliki sentroid yang sama. Proses translasi
ini sering dikenal dengan istilah mean-centering.
Definisikan
konfigurasi
,
dan
sebagai rata-rata kolom ke-j pada konfigurasi
dan
berturut-turut. Dengan menguraikan (30) diperoleh
=
2
+
=1 =1
,
2
=
+2
=1 =1
=1 =1
2
+
.
=1
(31)
Karena bagian kedua pada ruas kanan (31) bernilai nol, diperoleh
,
2
=
2
+
=1 =1
,
=1
sehingga
,
=
,
+
.
(32)
18
Konfigurasi
dan konfigurasi
setelah mengalami proses translasi
dinyatakan dengan
dengan
,
(33)
=
,
(34)
× 1,
adalah vektor 1 berukuran
setiap konfigurasi
dengan
=
=
dan
1
dari konfigurasi
dan
menyatakan sentroid dari
yang dinyatakan sebagai
=
1, 2,
,
,
(35)
=
1, 2,
,
,
(36)
=
dan
=1
dan
1
merupakan rataan dari kolom ke-j
=1
berturut-turut serta
2
=
(37)
.
=1
Jarak procrustes minimum diperoleh jika sentroid
dan
saling
berhimpit (Bakhtiar & Siswadi 2011). Dengan demikian jarak minimum antara
konfigurasi
dan
setelah dilakukan proses translasi ialah
,
=
,
2
=
.
(38)
=1 =1
Rotasi
Rotasi adalah transformasi yang memindahkan seluruh titik dengan sudut
yang tetap dengan mempertahankan jarak antartitik terhadap sentroidnya. Pada
analisis procrustes rotasi dilakukan terhadap sentroid yang sama dengan cara
menggandakan konfigurasi
dengan sebuah matriks ortogonal
yang
meminimumkan jarak antarkonfigurasi.
Misalkan
=
×
merupakan matriks ortogonal sehingga
=
. Rotasi pada analisis procrustes adalah menentukan matriks
sedemikian sehingga
,
minimum, dengan syarat
=
2
=
=
. Masalah optimasi ini dikenal dengan
masalah procrustes ortogonal (Schönemann 1966).
19
Untuk menentukan solusi masalah tersebut berdasarkan (30) dapat ditulis
||2
||
= tr (
) (
)
||
1
2 ||
2
= tr(
)
2tr(
) + tr(
||
1
2 ||
2
= tr(
)
2 tr(
) + tr (
||
1
2 ||
2
= tr(
)
||
1
2 ||
2
= tr(
) + tr(
||
1
2 ||
2
= || ||2 + || ||2
Dengan
demikian
masalah
2 tr(
)
) + tr(
)
2 tr(
)
2 tr(
minimasi
)
)
(40)
).
procrustes
diselesaikan dengan memaksimumkan nilai dari tr
(39)
ortogonal
dapat
dengan menggunakan
bantuan penguraian nilai singular bentuk lengkap (Complete Form of Singular
Value Decomposition).
Misalkan
lengkap
merupakan hasil dari penguraian nilai singular bentuk
=
, yaitu
, dengan
=
matriks ortogonal sehingga
tr
= dan
2
1
= tr
tr
2
1
= tr
=
ortogonal. Dengan demikian
=
dan
= maka
= tr
tr
dengan mendefinisikan
1
merupakan matriks diagonal,
(41)
yang merupakan hasil perkalian matriks
=
merupakan matriks ortogonal dan berlaku
1, sehingga
tr
= tr
tr
=
(42)
tr
=1
Jadi, tr
akan maksimum jika
=
= . Dengan demikian
=
sehingga
=
Dari penguraian (39), (42), dan (43)
tr
= tr
bentuk lengkap
, dengan
dan
(43)
.
,
akan minimum jika
matriks ortogonal dari penguraian nilai singular
sehingga jarak optimal setelah dilakukan proses rotasi ialah
,
= tr
+ tr
2 tr
.
(44)
20
Dilasi
Dilasi adalah pembesaran atau pengecilan jarak setiap titik dalam
konfigurasi
terhadap
sentroid.
menggandakan matriks
Misalkan
skalar
Dilasi
dalam analisis
procrustes
adalah
dengan sebuah skalar .
, dilasi dalam analisis procrustes adalah menentukan
sedemikian sehingga
,
2
=
minimum.
Untuk menentukan solusi masalah tersebut dapat ditulis
2
= tr
2
= tr(
2
2
=
2
tr
)
2tr (
) + tr (
)
+ tr
,
2 tr
yang dapat dipandang sebagai fungsi kuadratik dalam
,
meminimumkan
dapat dipilih
=
Dengan menyubstitusi nilai
(45)
, sehingga untuk
sebagai berikut:
tr
tr(
)
(46)
.
pada persamaan (46) ke persamaan (45) diperoleh
jarak procrustes setelah dilakukan proses dilasi
2
,
=
tr
,
tr
=
tr(
,
=
,
= tr
tr 2
tr 2 (
2 tr
+ tr
2
tr
)
)
2
tr
tr 2
tr(
2
tr
tr(
tr
tr(
)
)
tr
tr
+ tr
+ tr
(47)
)
Urutan Optimal dalam Analisis Procrutes
Bakhtiar & Siswadi (2011) telah menunjukkan urutan optimal transformasi
linear dalam analisis procrustes, yaitu translasi, rotasi dan dilasi. Pada bagian ini
akan diulas kembali jarak procrustes berdasarkan urutan translasi, rotasi dan dilasi
dengan mendefinisikan
sebagai jarak procrustes berdasarkan pada translasi,
rotasi dan dilatasi. Pada bagian selanjutnya
akan dinotasikan sebagai
2
.
21
Jarak procrustes setelah dilakukan proses translasi berdasarkan (38) adalah
,
= tr
+ tr
2 tr
.
Hasil konfigurasi oleh rotasi diperoleh dengan menggandakan
ortogonal
(48)
dengan matriks
sedemikian sehingga
,
Dengan memilih
=
=
, dengan
singular bentuk lengkap
,
.
merupakan hasil dari penguraian nilai
, diperoleh
,
= tr
+ tr
2 tr
Proses dilasi dilakukan dengan menggandakan
,
Berdasarkan (46),
,
=
dengan skalar
,
(49)
.
sehingga
.
dapat diminimumkan dengan memilih
=
tr
tr(
)
(50)
.
Dengan demikian, diperoleh
,
= tr
tr 2
tr(
)
.
(51)
Metode Seleksi Peubah dengan Analisis Procrustes
pada Skor Komponen Utama
Analisis procrustes memiliki aplikasi yang sangat luas, antara lain aplikasi
dalam shape analysis (Dryden & Mardia 1998) dan aplikasi pada seleksi peubah.
Dijksterhuis et al. (2002) menguraikan seleksi peubah dengan meminimumkan
jarak procrustes, Andrade et al. (2004) dan Héberger & Andrade (2004)
menggunakan analisis procrustes sebagai metode seleksi peubah dalam bidang
kimia dan Baxter et al. (2008) menguraikan seleksi peubah dengan analisis
procrustes pada kandungan kimia beberapa jenis keramik.
Misalkan matriks data
mengandung
peubah telah diukur pada setiap
objek. Proses seleksi diawali dengan melakukan analisis komponen utama pada
matriks data
dan membentuk matriks skor dari
komponen utama pertama
yang mewakili struktur data dan menempatkannya pada matriks
× . Matriks
berdimensi
ini dijadikan sebagai konfigurasi dasar untuk dibandingkan
dengan konfigurasi yang lain.
22
Pada proses selanjutnya, setiap kolom pada matriks data
dihilangkan
secara berurutan dan analisis komponen utama kembali dilakukan pada setiap
matriks data yang telah tereduksi. Misalkan
menyatakan konfigurasi titik-titik
yang dihasilkan dari analisis komponen utama saat kolom ke-j dihilangkan.
Matriks
yang berdimensi
×
kemudian dibandingkan dengan konfigurasi
menggunakan analisis procrustes sehingga memberikan nilai
kolom. Kolom ke-j dari konfigurasi
2
yang memberikan nilai
untuk setiap
2
terkecil
merupakan peubah yang dianggap memiliki kontribusi yang paling sedikit pada
struktur data sehingga dapat dikeluarkan dari analisis.
Setelah satu peubah dihilangkan, konfigurasi
×
menjadi matriks berukuran
1 . Keseluruhan proses dilakukan kembali untuk menghilangkan satu
peubah sehingga tersisa
2 peubah pada konfigurasi awal.
Prosedur ini terus dilakukan sehingga tersisa
dipandang sebagai
peubah. Peubah inilah yang
peubah terbaik yang mewakili keseluruhan struktur
peubah
dari matriks data awal.
Ukuran Efisiensi
Setelah beberapa metode seleksi peubah diaplikasikan, masalah yang
dihadapi adalah menentukan hasil seleksi peubah yang dipandang sebagai hasil
seleksi terbaik yang dapat mewakili variasi data asli yang diperoleh dari metodemetode seleksi tersebut. Untuk menentukannya dibutuhkan sebuah ukuran
kedekatan atau ukuran efisiensi yang dapat menunjukkan nilai tertinggi sebagai
hasil seleksi peubah terbaik. Al-Kandari & Jolliffe (2001, 2005) dan Westad et al.
(2003) memberikan ukuran efisiensi berdasarkan pada persentase total variasi
yang dijelaskan oleh
komponen utama pertama baru yang berasal dari
peubah
yang dipertahankan. Ukuran kedua berdasarkan pada total jumlah variasi yang
jelaskan oleh subset yang dipertahankan.
Ukuran efisiensi ketiga adalah perbandingan jarak konfigurasi antartitik
berdasarkan konsep analisis procrustes. Setiap konfigurasi titik yang mengandung
peubah yang dipertahankan dibandingkan dengan konfigurasi awal sehingga
memberikan nilai jarak antarkonfigurasi.
23
Misalkan
adalah matriks data berukuran
peubah yang diukur pada setiap
berukuran
×
merupakan konfigurasi berukuran
peubah, dan
=
×
yang
merupakan matriks skor yang bersesuaian
× . Jarak procrustes digunakan untuk mengukur
berukuran
kedekatan antara konfigurasi
dipilih
adalah matriks skor
, yang dipandang sebagai aproksimasi terbaik
berdimensi-k. Misalkan
dengan
objek. Misalkan
yang mengandung
yang merupakan transformasi komponen utama terhadap
konfigurasi sebenarnya,
mempertahankan
×
dan . Untuk mendapatkan dimensi yang sama,
(King & Jackson 1999).
Ukuran kesesuaian dua konfigurasi menggunakan formula
2
= 1
( ,
tr
)
× 100%.
Nilai R2 memiliki rentang nilai antara 0 – 100%, sehingga semakin besar
nilai yang dihasilkan, maka kedua konfigurasi tersebut akan makin dekat.
24
Download