APLIKASI PRINCIPAL COMPONENT ANALYSIS (PCA) DALAM

advertisement
APLIKASI PRINCIPAL COMPONENT ANALYSIS (PCA)
DALAM MENGATASI MULTIKOLINIERITAS UNTUK MENENTUKAN INVESTASI
DI INDONESIA PERIODE 2001.1-2010.4
SOEMARTINI
[email protected]
Jurusan Statistika FMIPA UNPAD Bandung
ABSTRAK
Dalam model regresi yang melibatkan variabel-variabel makro ada kecenderungan terdapat
multikolinieritas dalam variabel–variabel bebasnya. Dalam penelitian ini beberapa variabel
makro yang digunakan yakni: Jumlah uang beredar, PDB, Nilai tukar rupiah , Tingkat suku
bunga dan Inflasi yang memberikan pengaruh terhadap Investasi. Berdasarkan hasil penelitian
diperoleh R2 sebesar 0,79 dengan dua variabel yang tidak signifikan, yang menunjukkan
adanya multikolinieritas. Untuk menghilangkan unsur multikolinier tersebut, melalui Analisis
komponen utama dapat digunakan sebagai pengganti variabel-variabel bebas dalam model
regresi tersebut , yang secara prinsip merupakan pembentukan kombinasi linier dari variabelvariabel yang diamati. Melalui screeplot dan menggunakan proporsi kumulatif varians terhadap
total varians dan juga berdasarkan nilai-nilai loading yakni nilai vector eigen dari matriks
kovarians diperoleh hasil penelitian ,
KU 1 = -0,396 Ln PDB – 0,818 Inflasi – 0,413 tk suku bunga , dengan proporsi kumulatif
varians terhadap total varians sebesar 77,69 %.
KU2 = -0,225 Ln PDB-0,351Inflasi + 0,908 tk suku bunga , yang merupakan kombinasi linier
dari seluruh variable yang diamati bersifat orthogonal terhadap KU1, dengan proporsi kumulatif
varians terhadap total varians sebesar 92,46% .
Kata Kunci : Principal Component Analysis (PCA) , Matriks korelasi , Matriks Var-Cov ,
EViews dan R
BAB I PENDAHULUAN
Perkembangan perekonomian global yang cepat dan dinamis sangat mempengaruhi
kondisi perekonomian nasional. Fluktuasi harga komoditi utama dan krisis keuangan yang
memicu krisis ekonomi global telah memberikan tekanan pada perekonomian nasional sehingga
mengganggu pencapaian tingkat pertumbuhan ekonomi sebagaimana yang direncanakan.
Meskipun pertumbuhan ekonomi secara rata-rata selama periode 2005-2008 mencapai 5,9
persen, pencapaian tersebut dilalui dalam kondisi yang cukup berat. Lonjakan harga minyak
mentah di pasar internasional telah memaksa pemerintah untuk menaikkan harga bahan bakar
minyak (BBM) bersubsidi beberapa kali sehingga meningkatkan laju inflasi. Dengan tingginya
inflasi , fundamental ekonomi tereduksi karena tidak saja membuat biaya produksi menjadi lebih
mahal tetapi juga melemahkan daya beli masyarakat. Padahal, daya beli masyarakat merupakan
faktor dominan dalam menopang perekonomian nasional.
Untuk menangani permasalahan di atas , maka
pemerintah menetapkan Visi
Pembangunan Nasional , yaitu : Mewujudkan kehidupan masyarakat , bangsa, dan negara yang
aman , bersatu , rukun dan damai ; menjunjung tinggi hak asasi manusia serta terwujudnya
perekonomian yang mampu menyediakan kesempatan kerja dan penghidupan yang layak serta
memberikan fondasi yang kokoh bagi pembangunan yang berkelanjutan.
Seperti kita ketahui pemerintah telah menetapkan rancangan awal rencana kerja
Pemerintah (RKP) yakni program pembangunan tahun 2010 yang diarahkan pada “Pemulihan
Perekonomian Nasional dan Pemeliharaan Kesejahteraan Rakyat” . Untuk itu pemerintah harus
melakukan perhitungan besaran-besaran APBN 2010 berdasarkan asumsi dasar ekonomi makro
yang diperkirakan akan terjadi pada tahun 2010.
Dalam teori ekonomi makro disebutkan bahwa investasi dipengaruhi oleh tingkat bunga.
Ketika suku bunga naik , maka investasi akan turun, cateris paribus. Investasi adalah arus
pengeluaran yang menambah stok modal fisik atau dengan kata lain investasi adalah jumlah yang
dibelanjakan sektor usaha untuk menambah stok modal dalam periode tertentu. Investasi
biasanya menempati proporsi yang relative sedikit dari permintaan agregat, akan tetapi
menempati sebagian besar pergerakan siklus bisnis dalam PDB. Salah satu alasan mengapa suatu
negara yang mempunyai pertumbuhan tinggi mereka mencurahkan bagian substansial dari output
mereka kedalam investasi (Dornbush, 2004). Bank Indonesia dan Badan Pusat Statistik
mengartikan investasi sebagai suatu kegiatan penanaman modal pada berbagai kegiatan ekonomi
dengan harapan keuntungan (benefit) pada masa-masa yang akan datang. Investasi merupakan
unsur PDB yang paling sering berubah.
Jika tabungan meningkat akan mempengaruhi konsumsi masyarakat . Demikian pula jika
tingkat pendapatan dari investasi yang lebih menarik akan mendorong pemasukan modal ke
Negara tersebut. Penawaran valuta asing yang bertambah akan akan meningkatkan nilai uang
Negara yang menerima modal tersebut.
Berdasarkan ulasan singkat di atas cukup menjelaskan bagaimana investasi tidak saja
dipengaruhi oleh tabungan , nilai tukar riil, tetapi juga oleh tingkat bunga, , PDB, konsumsi dan
jumlah uang bersedar dan juga perubahan tingkat harga yang merupakan proksi untuk tingkat
inflasi.
Salah satu dari permasalahan data disamping outlier adalah terdapat multikolinearitas di
antara variabel yang menjelaskan yang termasuk dalam model. Ketika menentukan model regresi
populasi ada kemungkinan bahwa dalam sampel tertentu, beberapa atau semua variable X sangat
kolinear (mempunyai hubungan linear sempurna atau hampir sempurna). Kondisi ini mendorong
untuk dikembangkannya suatu cara atau tehnik yang dapat digunakan untuk mengatasi masalah
multikolinieritas pada analisis regresi berganda Salah satu solusi yang dapat digunakan adalah
dengan menggunakan analisis komponen utama (PCA) .Melalui penggunaan analisis komponen
utama ini akan dihasilkan variabel –variabel baru yang merupakan kombinasi linier dari variabelvariabel bebas asal dan antarvariabel baru ini bersifat saling bebas. Variabel-variabel yang baru
ini disebut komponen utama, dan selanjutnya diregresikan dengan variabel tidak bebas.
Ada beberapa prosedur yang dapat digunakan untuk mengatasi masalah multikolinearitas,
seperti : pengunaan informasi apriori dari hubungan beberapa variable yang berkolinear,
menghubungkan data cross-sectional dan data time series, mengeluarkan suatu variabel atau
beberapa variabel bebas yang terlibat hubungan kolinear, melakukan transformasi variabel
dengan prosedur first difference.Berdasarkan ulasan singkat mengenai latar belakang
permasalahan yang telah dijelaskan pada bagian pendahuluan, dimana beberapa variabel makro
memiliki kolinieritas , sehingga dapat dipastikan taksiran standar error dari taksiran parameter
regresi Investasi akan bernilai besar sehingga akan mempengaruhi kualitas inferensinya .
Tujuan penelitian ini adalah Untuk memperoleh model regresi dari Investasi yang terbebas dari
pengaruh multikolinieritas.
Hasil penelitian ini sangat bermanfaat sebagai bahan informasi , masukan bagi pemerintah dalam
menentukan model yang cocok untuk makroekonomi Indonesia periode 2001.1-2010.4
BAB II TINJAUAN PUSTAKA
2.1. Pengertian Multikolinearitas
Istilah Multikolinearitas pertama kali ditemukan oleh Frisch (1934) yang berarti adanya hubungan
liniear yang “sempurna” atau pasti diantara beberapa atau semua variabel bebas dari model regresi
berganda.
Menurut Sumodiningrat (1994:282-283) ,masalah multikolinieritas bisa timbul karena:
1.Adanya sifat-sifat yang terkandung dalam kebanyakan variabel-variabel ekonomi yang berubah ber-samasama sepanjang waktu dan variabel-variabel tersebut dipengaruhi oleh vaktor-faktor yang sama.
2. Penggunaan Lag , sehingga terbentukt model terdistribusi lag ( distributed lag)
Misal : Ct = f (Yt , Yt-1 , …. Y1 ) , kemungkinan terdapat korelasi yang kuat antara Yt dan Yt-1

Multikolinearitas diperkirakan akan muncul dalam kebanyakan hubungan –hubungan
ekonomi

Lebih sering muncul dalam data deret waktu
dan
bisa pula muncul dalam data cross
sectional.
Selanjutnya menurut Montgomery dan Peck tahun 1982( Lihat Gujarati, 2003,323),munculnya
multikolinieritas yakni disebabkan oleh metode pengumpulan data yang dipakai ( the data collection
method employed), model spesifikasi (specification model) dan model yang berlebihan (overdetermined
model) , yaitu situasi di mana dalam suatu model estimasi tertentu , jumlah variabel penjelas lebih banyak
dibandingkan dengan jumlah data (observasi).
2.2. Pendeteksian Multikolinearitas
Menurut Gujarati (2003) gejala Multikolinearitas ini dapat didiagnosis dengan beberapa cara antara
lain :
1. Menghitung koefisien korelasi sederhana (simple correlation) antara sesama variabel bebas, jika
terdapat koefisien korelasi sederhana yang mencapai atau melebihi 0,8 maka hal tersebut menunjukkan
terjadinya masalah multikolinearitas dalam regresi.
2. Menghitung nilai Toleransi atau VIF (Variance Inflation Factor), jika nilai Toleransi kurang dari 0,1
atau nilai VIF melebihi 10 maka hal tersebut menunjukkan bahwa multikolinearitas adalah masalah
yang pasti terjadi antar variabel bebas.
3. TOL yakni Ukuran toleransi untuk mendeteksi Multikoliniaritas
TOLi 
1
 1  R 2i
VIFi
. ……
(1)
4.Dengan Nilai Eigen dan Indeks Kondisi (IK)
Nilai Eigen dan Indeks Kondisi untuk mengdiagnosis Multikolinearitas
Bilangan Kondisi :.
K
Max
Min
………
(2) λ : nilai eigen ; Indeks Kondisi : ID =
K
2.3.Penanggulangan Multikolinieritas
Montgomery dan Hines (1990) menjelaskan bahwa dampak multikolinearitas dapat mengakibatkan
koefisien regresi yang dihasilkan oleh analisis regresi berganda menjadi sangat lemah atau tidak dapat
memberikan hasil analisis yang mewakili sifat atau pengaruh dari variabel bebas yang bersangkutan. Dalam
banyak hal masalah Multikolinearitas dapat menyebabkan uji T menjadi tidak signifikan padahal jika
masing-masing variabel bebas diregresikan secara terpisah dengan variabel tak bebas (simple regression) uji
T menunjukkan hasil yang signifikan. Hal tersebut yang sering kali membuat para peneliti mendapatkan
hasil analisis yang dilakukan pada regresi berganda dan regresi sederhana tidaklah sejalan atau bahkan
sangat bertentangan.
Akan tetapi, pada prakteknya prosedur penanggulangan efek multikolinier yang sering
terjadi sangat tergantung sekali pada kondisi penelitian, misalnya prosedur penggunaan
informasi apriori sangat tergantung dari ada atau tidaknya dasar teori (literatur) yang sangat kuat
untuk mendukung hubungan matematis antara variabel bebas yang saling berkolinear, prosedur
mengeluarkan variabel bebas yang berkolinear seringkali membuat banyak peneliti keberatan
karena prosedur ini akan mengurangi obyek penelitian yang diangkat, sedangkan prosedur
lainya seperti menghubungkan data cross sectional dan time series, prosedur first difference dan
penambahan data baru seringkali hanya memberikan efek penanggulangan yang kecil pada
masalah multikolinearitas .
Oleh karena itu, kita dapat mengunakan teknik lain yang dapat digunakan untuk meminimumkan
masalah multikolinearitas tanpa harus mengeluarkan variabel bebas yang terlibat hubungan kolinear, yaitu
dengan metoda Ridge Regression atau metode Principal Component Analysis (PCA) yang ada dalam
analisis faktor.
Pada penelitian ini, yang akan digunakan yakni analisis komponen utama (PCA).
BAB III METODE PENELITIAN
3. 1.Metode Principle Component Analysis (PCA)
Prosedur PCA pada dasarnya adalah bertujuan untuk menyederhanakan variabel yang
diamati dengan cara menyusutkan (mereduksi) dimensinya. Hal ini dilakukan dengan cara
menghilangkan korelasi diantara variabel bebas melalui transformasi variabel bebas asal ke
variabel baru yang tidak berkorelasi sama sekali atau yang biasa disebut dengan principal
component. Setelah beberapa komponen hasil PCA yang bebas multikolinearitas diperoleh, maka
komponen-komponen tersebut menjadi variabel bebas baru yang akan diregresikan atau dianalisa
pengaruhnya terhadap variabel tak bebas (Y) dengan menggunakan analisis regresi , dengan
sedikit faktor , sebesar mungkin varians X1.
Dengan analisis komponen utama kita akan mereduksi data pengamatan ke dalam beberapa set
data sedemikian sehingga informasi dari semua data dapat kita serap seoptimal mungkin .
Dengan demikian analisis komponen utama dapat dipandang sebagai transformasi dari X1, X1,….
Xp . Misal X1, X1,…. Xp mempunyai matriks varians-kovarians ∑ = (σ2ij),
i= 1,2….p : j= 1,2,….p dan ∑ tersebut mempunyai nilai eigen λ1 ≥ λ2 ≥…. ≥λ p≥0
Principal Component yang pertama dinyatakan dengan PC1 mengandung jumlah terbesar
dari total variasi data.
PC1 sebagai kombinasi linier dalam variabel Xi. ; i = 1,2…p
PC1  a11 X 1  a12 X 12  ...  a1 p X p
........
(3)
Dimana a1i dipilih , sehingga memaksimalkan rasio dari variance PC1 terhadap total variance, dengan
pembatas bahwa
a
1i
2
1
Adapun pembentukan regresi komponen utama melalui analisis komponen utama ada dua cara.
Pertama, pembentukan komponen utama berdasarkan matriks kovariansi. Kedua, pembentukan komponen
utama berdasarkan matriks korelasi .
3.1.1. Komponen Utama Yang Dibentuk Berdasarkan Matriks Kovarians
Proses mereduksi data dalam analisis komponen utama akan diuraikan seperti di bawah ini :
Melalui data asal Xnxp akan dicari matriks varian kovarian ∑ dimana unsur-unsurnya adalah
S jk 
1 p
 ( X i j  X j )( X ik  X k ) ,
n  1 j 1
Kemudian dari matriks varians kovarians tersebut dicari nilai eigen λi dengan
i = 1,2,…p , yang diperoleh dari bentuk persamaan determinan :
S  i I  0 dari nilai eigen tersebut , dihitung vector-vektor eigen melalui persamaan Sei = λi ei
i=1,2,….p
Dengan PC1, mengandung varians Xi. sebesar 
1
p
x100% hanya tidak perlu bahwa PCi,
mempunyai eigen value terbesar λi , yang menjelaskan komponen terbesar. Bila 80% - 90% dari total
varians X hasil reduksi bisa dijelaskan oleh komponen utama tersebut sudah bisa menggantikan p buah
variabel data asal tanpa kehilangan banyak informasi ( Johnson,R.A and Wichern,D.W(1992))
Loading dari variabel Xi terhadap PC ke j adalah
Loading 
aij  j
sii
= korelasi
Setelah mendapatkan faktor yang terbentuk melalui proses reduksi , maka perlu dicari persamaannya, dalam
bentuk Y= F(X1*, X2*) yang merupakan model baru dengan
X1*= variabel komponen 1
X2*= variabel komponen 2
Xk*= variabel komponen k
Model di atas lebih sederhana dibandingkan model regresi multipel awal yang berbentuk :
Yi = 0 + 1Xi1 + 2Xi2 + ...+ kXik + i
atau Y= F (X1, X2,… Xk)
Proporsi total varians populasi yang dijelaskan oleh komponen utamake-k

k
tr ()

k
..........(5) dengan k = 1,2,…,p
1  2  ... p
3.1.2. Regresi komponen utama yang dibentuk berdasarkan matriks kovariansi
Misal matriks P adalah matriks orthogonal dengan memenuhi persamaan P1P = P P1,=I
,karena W=XCP
Maka proses persamaan regresi linier berganda menjadi regresi komponen utama yaitu:
Y = XC  +ε
Y = XC P1P  +ε
Y = Wα +ε
......... (8)
Dengan XC merupakan matriks yang elemen-elemennya dikurang dengan rata-rata (centered) dengan
asumsi rata-rata nol dan variansi σ2 , Y adalah variabel acak bebas , Wk adalah suatu matriks berukuran nxk
yangkolom-kolomnya terdapat komponen utama ke-k, αk adalah vektor koefesien komponen utama
berukuran kx1 ,dan ε adalah vektor berukuran nxk
3.2.1. Komponen Utama Yang Dibentuk Berdasarkan Matriks Korelasi
Komponen utama ke-i ; Wi yang dibentuk berdasarkan variabel-variabel yang telah dibakukan Z’ =
(Z1, Z2,.........Zp).dengan cov(Z) =ρ didefenisikan sebagai berikut :
.
Wi = ei1Z1 + ei2Z2+ ...+ eipZp
i=1,2...p
...
........... (6)
Sementara itu , proporsi total variansi yang dapat dijelaskan oleh komponen ke –k berdasarkan variabel
bebas yang telah dibakukan didefenisiskan sebagai berikut:
Proporsi total varians populasi yang dijelaskan oleh komponen utamake-k

k
tr ( p)

k
p
..........(7)
Dengan λk =adalah eigen dari ρ , dan k = 1,2,…,p
Adapun cara pembentukan regresi komponen utama melalui analisis komponen utama ada dua cara.
Pertama, pembentukan komponen utama berdasarkan matriks kovariasi. Kedua, pembentukan komponen
utama berdasarkan matriks korelasi .
BAB IV PEMBAHASAN
Berdasarkan data (lampiran1) menggunakan software R dan SPSS diperoleh persamaan regresi
linier berganda seperti di bawah ini :
Ln Inves = 45,485 + 0,181 lnJUB* + 0,057 Tk bunga*– 0,093 Inflasi -0,236 ln PDB
R2 = 0,788 ; R = 0,89 ;* non signifikan ;
F = 25,299
4.2. Mendeteksi ada/ Tidaknya Multikolineritas
Matriks korelasi
Matriks Var- Cov
0,671 -0,346 -0,786 -0,467 0,786 
 1
 0.18054928 -0.00385771 -1.01523764 0.35249218 -1.25684258
 0,671

 -0.00385771 0.0108326118 -0.0005357913 -0.0445685677 0.1299417289
1

,087

0,610

0,647
-0,818



-0,346 ,087
 -1.01523764 -0.0005357913 7.9410184821 -2.7413745054 9.9105463173
1
0, 257 0, 401 -0,023
R
 
-0,786

0,610
0,
257
1
0,570
0,725
-4.71769403


0.35249218 -0.0445685677 -2.7413745054 1.53050385
-0,467 0,647 0, 401 0,725 1

-1.25684258 0.1299417289 9.9105463173 -4.71769403 23.5111825
0, 456
Dengan melihat matriks korelasi
nampak


 ada beberapa korelasi parsial yang cukup tinggi
0,786
-0,818
-0,023
0,
25
0,
456
1
9.0859003
-0.90350810 0.1372422329 4.2187914926 -1.89701509


(- 0,818, 0,786~0,80) , hal tersebut sudah menunjukkan adanya multikolinier.
-0.90350810 
0.1372422329

4.2187914926

-1.89701509 
9.0859003 

10.8004246 
4.3.Penanggulangan Multikolinearitas
Pada pendektesian sebelumnya telah menunjukkan bahwa terdapat permasalahan kolinearitas dalam
data tersebut, maka dilakukan penanggulangan untuk mengatasi masalah tersebut dengan menggunakan
prosedur Principal Component Analysis (PCA) , yang bertujuan untuk menyederhanakan variabel yang
diamati dengan cara mereduksi dimensinya.
Untuk mengetahui layak atau tidaknya analisis faktor dilakukan , lakukan uji Kaise-Meyer-Olkin (KMO) .
Setelah itu dicari nilai nilai loading:
Sehingga dapat diperoleh Fungsi Komponen utamanya dan melalui program R dapat dilihat
melalui Scree Plot
Fungsi Komponen utamanya adalah
KU1 = -0.396 ln PDB -0.818 Inflasi -0.413 suku bunga
KU2 = -0.225 ln PDB -0.351 Inflasi + 0.908 suku bunga
BAB V
KESIMPULAN DAN SARAN
Berdasarkan hasil analisis diperoleh bahwa nilai proporsi varians kumulatif Komponen utama
dapat menjelaskan 77,69% yang artinya dengan mengambil satu komponen saja yaitu komponen utama satu
sudah mencukupi tetapi seandainya sampai pd Komponen utama dua maka nilai proporsi varians kumulatif
dapat menjelaskan 92,46 %.Akan lebih baik lagi jika sampai dengan komponen utama tiga yang dapat
menjelaskan nilai proporsi varians kumulatif 96,6 % .
Untuk mendapatkan model yang lebih baik, penulis menyarankan untuk menggunakan variabel PDB
sebagai variabel terikat.
DAFTAR PUSTAKA
Dornbusch Rudiger, 2004 , Macroeconomics , eighth Edition, Mc Graw-Hill, Inc, New York
Gujarati, Damodar., 2003, Basic Economertics, Fourth Edition, Mc Graw-Hill, Inc, New York.
Johnson,R.A.&Wichren,D.W. 2002. Apllied Multivariate Statistical Analysis ,5th edition.Pearson
Education Internasional.
Kutner , Nachtsheim and Neter , Applied Linear Regression Models, Fourth Edition
New York.
2004,
Myers ,R.A.& Milton,J.S 1991. A First Course In The Theory Of Linier Statistical Models
.PWS- KENT Publishing Company,Boston.
Simamora, Bilson. 2005. Analisis Multivariat Pemasaran. Jakarta : PT. Gramedia Pustaka Utama.
Artikel :
http://dickyrahardi.blogspot.com/2006/12/principal component analisis-pca.html.
Berita Resmi Statistik No 12/03/Thn XIV, 7 Feb 2011
Lampiran : Data lengkap ada pada Penulis
Sumber : www.bi.go.id Juni 2007 dan BPS 2011
Kurs Rupiah. Bank Indonesia 2000-2010
Download