analisis principal component analysis (pca) pada unsupervised

advertisement
Tugas Akhir - 2007
ANALISIS PRINCIPAL COMPONENT ANALYSIS (PCA) PADA UNSUPERVISED
LEARNING UNTUK DATA BERDIMENSI TINGGI
Fhira Nhita¹, Adiwijawa², Moch Arif Bijaksana³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Preprocessing di dalam data mining adalah salah satu faktor penting dalam menyiapkan data
sehingga menghasilkan informasi yang efisien dan berkualitas. Pada unsupervised learning atau
clustering, pemrosesan data berdimensi tinggi akan membutuhkan biaya dan waktu komputasi
yang besar. Proses clustering pun dapat bekerja lebih baik pada data yang berdimensi sedikit.
Teknik preprocessing yang dibahas pada tugas akhir ini adalah Principal Component Analysis
(PCA) dimana data set yang dimensinya besar diringkas menjadi data set dengan dimensi baru
yang jumlahnya lebih sedikit. Dimensi yang baru disebut principal component (PC). PC dibentuk
dari kombinasi linier dari dimensi asli sehingga data tidak akan kehilangan karakteristik aslinya.
Hasil pengujian sistem menghasilkan data colon tumor dengan 2000 dimensi dapat diringkas
menjadi 60 PC dan data set DLBCL dengan 4026 dimensi dapat diringkas menjadi 46 PC. Pada
data set colon tumor dan DLBCL, data 1, 2, atau 3 PC dapat memberikan performansi hasil KMeans Clustering yang lebih baik daripada data asli. Untuk metode Two Step Clustering pada
data set colon tumor diperoleh performansi PCA yang kurang efektif sedangkan pada data set
DLBCL diperoleh performansi PCA yang baik pada data 1 atau 3 PC.
Kata Kunci : data mining, preprocessing, PCA, clustering, dimensi tinggi
Abstract
In data mining, preprocessing is one of important factor to yield efficient and good quality
information. In unsupervised learning or clustering, the process of high dimension data will need
expense and computing time that are big. Clustering process also can work better with data which
have a little dimension.
The technique preprocessing, which is studied in this final duty, is Principal Component Analysis
( PCA) where data set, which its dimension is big, summarized become data set with new
dimension that its amount is slimmer. The new dimension is principal component (PC). PC formed
by linear combination from original dimension so that data will not loss its genuiness
characteristic.
Result of system examination of the colon data set tumor owning 2000 dimension can be
summarized become 46 PC. PC and DLBCL data set owning 4026 dimension can be summarized
become 46 PC. At data set the colon of tumor and DLBCL, data 1, 2, or 3 PC can give the
performance result of K-Means Clustering which is better than the original data. For the method
of Two Step Clustering of data set the colon tumor obtained by PCA performance which less be
effective while the DLBCL data set obtained good performance of PCA at data 1 or 3 PC.
Keywords : data mining, preprocessing, PCA, clustering, multidimensi
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2007
1. Pendahuluan
1.1
Latar belakang
Di dalam data mining seringkali dihadapkan dengan data yang memiliki
dimensi yang tinggi yaitu ratusan bahkan ribuan dimensi. Beberapa contoh data
set yang memiliki dimensi yang tinggi yaitu data set teks dokumen, data set
image, dan data ekspresi gen [9,13]. Dalam proses data mining, data yang
memiliki dimensi yang tinggi akan membuat proses menjadi kurang efektif dan
efisien, karena tidak menutup kemungkinan ada dimensi yang sebenarnya tidak
perlu diikutsertakan dalam proses data mining tetapi diikutsertakan sehingga
komputasi data menjadi lambat dan hasil mining pun kurang akurat. Sebagian
besar algoritma data mining pun dapat bekerja lebih baik jika jumlah dimensi
lebih sedikit [17].
Fenomena permasalahan jumlah dimensi yang tinggi ini biasanya disebut
”Curse of Dimensionality” [5,16]. Karena itu diperlukan suatu teknik
preprocessing data untuk menyiapkan data sehingga pemroresan lebih efisien dan
hasil yang diperoleh lebih baik. Selain itu kebutuhan terhadap waktu dan memori
pun menjadi lebih berkurang.
Salah satu teknik preprocessing data yaitu dengan melakukan
pengurangan dimensi. Pengurangan dimensi antara lain bertujuan untuk
menghilangkan atribut-atribut yang tidak relevan, menghilangkan outlier, dan
menghindari duplikasi data tanpa menghilangkan informasi yang penting [2,19]
sehingga menghasilkan data yang berkualitas, akurasi data meningkat, dan mudah
divisualisasikan. Ada banyak teknik untuk pengurangan dimensi, salah satunya
adalah Principal Component Analysis, yang biasa disingkat dengan PCA. PCA
digunakan untuk pengurangan dimensi pada data unsupervised [6] dan merupakan
teknik aljabar linear khusus untuk menangani data kontinu [17].
Karenanya penulis tertarik untuk menganalisis PCA pada unsupervised
learning atau clustering dan menyelidiki apakah pengurangan dimensi dengan
teknik PCA dapat memberikan hasil yang baik dalam menganalisis data
berdimensi tinggi.
1.2
Perumusan masalah
Permasalahan yang dijadikan objek penelitian adalah bagaimana
mendapatkan hasil clustering data yang berkualitas untuk data berdimensi tinggi.
Untuk menyelesaikan masalah tersebut dilakukan suatu teknik pengurangan
dimensi pada tahap preprocessing data. Pengurangan dimensi menggunakan
teknik statistika PCA yaitu dengan menganalisis komponen utama PCA yang
antara lain berupa nilai eigen, vektor eigen, dan matriks kovariansi [2,19]. Hasil
yang diharapkan adalah pengurangan dimensi dengan PCA akan memberikan
hasil clustering yang akurasinya baik untuk data berdimensi tinggi dan
memperkecil waktu komputasi yang diperlukan .
Adapun batasan masalah dalam penelitian tugas akhir ini yaitu :
1. Tidak membahas secara mendalam mengenai metode unsupervised
learning yaitu K-Means Clustering dan Two Step Clustering.
2. Data set yang ditangani hanya berupa data numerik
3. Data set yang dijadikan studi kasus sudah memiliki label class
1
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2007
4. Sistem yang dibuat tidak menangani outlier secara khusus
5. Sistem hanya menangani data set dengan format Microsoft Office Excel
(*.xls) dan pemisah koma atau tabulasi (*.dat) tanpa header dan label class
1.3
Tujuan
Tujuan dari penelitian tugas akhir ini adalah :
1. Mengimplementasikan PCA dan menganalisis hasilnya.
2. Menganalisis pengaruh PCA terhadap hasil dari K-Means Clustering dan
Two Step Clustering yang diproses dengan Clementine 9.0.
1.4
Metodologi penyelesaian masalah
Metodologi penyelesaian masalah yang digunakan dalam penelitian tugas
akhir ini adalah :
1. Studi literatur
Mencari dan mempelajari berbagai literatur antara lain yang berkaitan
dengan pengurangan dimensi, PCA, dan unsupervised learning.
2. Mempelajari konsep PCA, unsupervised learning, algoritma PCA dan
Clustering di Clementine 9.0, dan pemrograman matlab.
3. Mencari dan menyiapkan data set yang dijadikan studi kasus
4. Analisis dan desain kebutuhan fungsionalitas program
5. Implementasi algoritma PCA menggunakan Matlab versi 7
6. Implementasi stream clustering di Clementine 9.0
7. Pengujian terhadap hasil implementasi PCA yang bersifat standalone.
Kemudian data hasil reduksi menjadi masukan untuk Clementine 9.0.
8. Mencatat hasil pengujian
9. Analisis dan penyimpulan dari hasil pengujian
Yaitu menganalisis hasil PCA dan hasil clustering pada data hasil reduksi
dengan PCA dan data asli. Pada metodologi ini akan ditarik kesimpulan
akhir tentang analisis PCA pada unsupervised learning, apakah benarbenar memberikan hasil yang baik.
10. Pembuatan laporan tugas akhir
Yaitu pembuatan laporan berupa buku, jurnal, dan poster tugas akhir.
.
2
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2007
5.
5.1
Kesimpulan dan Saran
Kesimpulan
1.
2.
3.
4.
5.
6.
7.
8.
5.2
1.
2.
Dari analisis hasil pengujian pada bab 4 dapat disimpulkan :
Fenomena Curse of Dimensionality dapat diselesaikan dengan
pengurangan dimensi dengan PCA
PCA tidak menghilangkan karakterisitik data atau informasi penting pada
data karena dimensi baru dibangun dari kombinasi linier dimensi asli.
PCA bertujuan meringkas data, bukan mengelompokkan data seperti
halnya clustering
PCA biasanya mengubah data dari dimensi yang besar menjadi data
dengan dua atau tiga dimensi sehingga mudah untuk divisualisasikan
Pada dataset colon tumor yang memiliki 2000 dimensi dapat diringkas
menjadi 60 PC. Sedangkan pada data set DLBCL, data asli yang memiliki
4026 dimensi dapat diringkas menjadi 46 PC.
Dari analisis hasil K-Means Clustering pada data set colon tumor dan
DLBCL, data hasil PCA dengan 1,2, atau 3 PC dapat memberikan
performansi yang lebih baik daripada data asli.
Dari analisis hasil Two Step Clustering pada data set colon tumor
diperoleh performansi PCA yang kurang efektif sedangkan pada data set
DLBCL, performansi PCA pada data hasil PCA dengan 1 atau 3 PC dapat
memberikan hasil yang lebih baik daripada data asli.
Dari analisis hasil K-Means Clustering dan Two Step Clustering pada data
set colon tumor dan DLBCL diperoleh hasil bahwa PCA dapat
memberikan pengaruh performansi yang baik untuk K-Means Clustering
pada kedua data set sedangkan untuk Two Step Clustering, PCA
memberikan pengaruh performansi yang baik hanya untuk data set
DLBCL saja.
Saran
Berusaha mengimplementasikan algoritma PCA dengan teknik reduksi
selain PCA yaitu Independent Component Analysis (ICA) dan Random
Projection.
Berusaha mengimplementasikan PCA untuk algoritma clustering selain KMeans Clustering dan Two Step Clustering
34
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2007
Daftar Pustaka
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
Adiwijaya. 2003. Diktat Aljabar Linear. STT Telkom : Bandung
Barber, David. (2004). Learning from Data Dimensionality Reduction: Principal
Component
Analysis.
Tersedia:
www.anc.ed.ac.uk/~amos/lfd/lectures/
lfd_2005_dim_red.pdf. [25 Januari 2007]
Chen, Haifeng. Principal Component Analysis With Missing Data and Outliers.
Tersedia: http://www.caip.rutgers.edu/riul/research/tutorials/ tutorialrpca.pdf. [17
Januari 2007]
Clementine 9.0 Documentation
Dash, Manoranjan dan Huan Liu. Dimensionality Reduction. Tersedia :
www.informatik.uni-trier.de/~ley/db/indices/a-tree/l/Liu:Huan.html [26 Januari
2007]
Data set colon tumor dan DLBCL. Kent Ridge Bio-medical Data Set Repository.
Tersedia: http://sdmc.lit.org.sg/GEDatasets/Datasets.html
Deegalla, Sampath dan Henrik Bostrom. Reducing High-Dimensional Data by
Principal Component Analysis vs. Random Projection for Nearest Neighbor
Classification. Tersedia: http://www.stes.fi/scai2006/proceedings/ 023-030.pdf.
[19 Januari 2007]
Ding, Chris dan Xiaofeng He. (2004). K-means Clustering via Principal
Component
Analysis.
Tersedia:
http://crd.lbl.gov/~cding/papers/
KmeansPCA1.pdf. [27 November 2006]
Ekosusilo, Madyo dan Bambang Triyanto. 1995. Pedoman Penulisan Karya
Ilmiah. Semarang: Dahara Prize
Fatimah, Is dan Jaka Nugraha. (2005). Identifikasi Hasil Pirolisis Serbuk Kayu Jati
Menggunakan
Principal
Component
Analysis.
Tersedia:http://
www.unej.ac.id/fakultas/mipa/jid/vol6no1/fatimah.pdf .[29 Juni 2007]
Hastie dan Stuetzle. (1989). Dimensionality Reduction: Principal Components
Analysis.
Tersedia:
http://ocw.mit.edu/NR/rdonlyres/Sloan-School-ofManagement/15-062Data-MiningSpring2003/327B0A6E-75B5-4E5D-9822DF347B4268C1/0/PClecture.pdf. [19 Januari 2007]
Imam,
Kamarul.
Analisis
Faktor.
Tersedia:
http://elearning.unej.ac.id/courses/MAA01/document/ANLISIS_FAKTOR.pdf.[11
Juli 2007]
Jackson, J.Edward. 1991. A User’s Guide to Principal Components. New York
Leskovec, Jure. (2006). Dimensionality reduction PCA, SVD, MDS, ICA, and
friends. Tersedia:http://www.cs.cmu.edu/~guestrin/Class/10701-S06/ Handouts
/recitations/recitation-pca_svd.ppt. [14 Januari 2007]
Liu,
Bing.
Chapter
4:
Unsupervised
Learning.
Tersedia
:
www.cs.uic.edu/~liub/teach/cs583-fall-05/CS583-unsupervised-learning.ppt.[29
Juni 2007]
35
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2007
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
Nugroho, Anto S. (2006). Datamining dalam Bioinformatika:menggali informasi
terpendam
dalam
lautan
data
biologi.
Tersedia:
http://asnugroho.wordpress.com/2006/02/06/peran-datamining-dalam
bioinformatika/. [24 Januari 2007]
Partridge, Matthew dan Rafael Calvo. (1997). Fast Dimensionality Reduction and
Simple
PCA.
Tersedia:
www.weg.ee.usyd.edu.au/people/rafa/papers/ida98/ida98.pdf. [25 Januari 2007]
QianZhu. (2005). K-means Clustering via Principal Component Analysis.
Tersedia:http:// www.cse.ohio-state.edu/~zhuq/KmeansViaPCA.ppt . [19 Juli
2007]
Smith, Lindsay I. (2002). A tutorial on Principal Components Analysis.
Tersedia:http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.
pdf. [19 Januari 2007]
Sobhan. Principal Component Analysis In Dimensionality Reduction. Tersedia:
lingcog.iit.edu/~hotasob/hawk/Slides/Hota-PCA-06S.pdf. [25 Januari 2007]
Sudaryatno, Bambang. Analisis Faktor-faktor yang Mempengaruhi Mahasiswa
dalam Memilih Perguruan Tinggi Sekolah Tinggi Manajemen Informatika dan
Komputer
”AMIKOM”
Yogyakarta.
Tersedia:
http://dosen.amikom.ac.id/downloads/artikel/Jurnal%20upload.doc. .[18 Juli 2007]
Suharto, Toto. Materi Perkuliahan Rekayasa Perangkat Lunak (RPL). STT
Telkom: Bandung
Tan, Pang-ning, Michael Steinbach, dan Vipin Kumar. 2006. Introduction to Data
Mining. Pearson education, Inc.
Variansi. Tersedia:http://id.wikipedia.org/wiki/Varians. [28 Februari 2007]
36
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Download