Tugas Akhir - 2007 ANALISIS PRINCIPAL COMPONENT ANALYSIS (PCA) PADA UNSUPERVISED LEARNING UNTUK DATA BERDIMENSI TINGGI Fhira Nhita¹, Adiwijawa², Moch Arif Bijaksana³ ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak Preprocessing di dalam data mining adalah salah satu faktor penting dalam menyiapkan data sehingga menghasilkan informasi yang efisien dan berkualitas. Pada unsupervised learning atau clustering, pemrosesan data berdimensi tinggi akan membutuhkan biaya dan waktu komputasi yang besar. Proses clustering pun dapat bekerja lebih baik pada data yang berdimensi sedikit. Teknik preprocessing yang dibahas pada tugas akhir ini adalah Principal Component Analysis (PCA) dimana data set yang dimensinya besar diringkas menjadi data set dengan dimensi baru yang jumlahnya lebih sedikit. Dimensi yang baru disebut principal component (PC). PC dibentuk dari kombinasi linier dari dimensi asli sehingga data tidak akan kehilangan karakteristik aslinya. Hasil pengujian sistem menghasilkan data colon tumor dengan 2000 dimensi dapat diringkas menjadi 60 PC dan data set DLBCL dengan 4026 dimensi dapat diringkas menjadi 46 PC. Pada data set colon tumor dan DLBCL, data 1, 2, atau 3 PC dapat memberikan performansi hasil KMeans Clustering yang lebih baik daripada data asli. Untuk metode Two Step Clustering pada data set colon tumor diperoleh performansi PCA yang kurang efektif sedangkan pada data set DLBCL diperoleh performansi PCA yang baik pada data 1 atau 3 PC. Kata Kunci : data mining, preprocessing, PCA, clustering, dimensi tinggi Abstract In data mining, preprocessing is one of important factor to yield efficient and good quality information. In unsupervised learning or clustering, the process of high dimension data will need expense and computing time that are big. Clustering process also can work better with data which have a little dimension. The technique preprocessing, which is studied in this final duty, is Principal Component Analysis ( PCA) where data set, which its dimension is big, summarized become data set with new dimension that its amount is slimmer. The new dimension is principal component (PC). PC formed by linear combination from original dimension so that data will not loss its genuiness characteristic. Result of system examination of the colon data set tumor owning 2000 dimension can be summarized become 46 PC. PC and DLBCL data set owning 4026 dimension can be summarized become 46 PC. At data set the colon of tumor and DLBCL, data 1, 2, or 3 PC can give the performance result of K-Means Clustering which is better than the original data. For the method of Two Step Clustering of data set the colon tumor obtained by PCA performance which less be effective while the DLBCL data set obtained good performance of PCA at data 1 or 3 PC. Keywords : data mining, preprocessing, PCA, clustering, multidimensi Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2007 1. Pendahuluan 1.1 Latar belakang Di dalam data mining seringkali dihadapkan dengan data yang memiliki dimensi yang tinggi yaitu ratusan bahkan ribuan dimensi. Beberapa contoh data set yang memiliki dimensi yang tinggi yaitu data set teks dokumen, data set image, dan data ekspresi gen [9,13]. Dalam proses data mining, data yang memiliki dimensi yang tinggi akan membuat proses menjadi kurang efektif dan efisien, karena tidak menutup kemungkinan ada dimensi yang sebenarnya tidak perlu diikutsertakan dalam proses data mining tetapi diikutsertakan sehingga komputasi data menjadi lambat dan hasil mining pun kurang akurat. Sebagian besar algoritma data mining pun dapat bekerja lebih baik jika jumlah dimensi lebih sedikit [17]. Fenomena permasalahan jumlah dimensi yang tinggi ini biasanya disebut ”Curse of Dimensionality” [5,16]. Karena itu diperlukan suatu teknik preprocessing data untuk menyiapkan data sehingga pemroresan lebih efisien dan hasil yang diperoleh lebih baik. Selain itu kebutuhan terhadap waktu dan memori pun menjadi lebih berkurang. Salah satu teknik preprocessing data yaitu dengan melakukan pengurangan dimensi. Pengurangan dimensi antara lain bertujuan untuk menghilangkan atribut-atribut yang tidak relevan, menghilangkan outlier, dan menghindari duplikasi data tanpa menghilangkan informasi yang penting [2,19] sehingga menghasilkan data yang berkualitas, akurasi data meningkat, dan mudah divisualisasikan. Ada banyak teknik untuk pengurangan dimensi, salah satunya adalah Principal Component Analysis, yang biasa disingkat dengan PCA. PCA digunakan untuk pengurangan dimensi pada data unsupervised [6] dan merupakan teknik aljabar linear khusus untuk menangani data kontinu [17]. Karenanya penulis tertarik untuk menganalisis PCA pada unsupervised learning atau clustering dan menyelidiki apakah pengurangan dimensi dengan teknik PCA dapat memberikan hasil yang baik dalam menganalisis data berdimensi tinggi. 1.2 Perumusan masalah Permasalahan yang dijadikan objek penelitian adalah bagaimana mendapatkan hasil clustering data yang berkualitas untuk data berdimensi tinggi. Untuk menyelesaikan masalah tersebut dilakukan suatu teknik pengurangan dimensi pada tahap preprocessing data. Pengurangan dimensi menggunakan teknik statistika PCA yaitu dengan menganalisis komponen utama PCA yang antara lain berupa nilai eigen, vektor eigen, dan matriks kovariansi [2,19]. Hasil yang diharapkan adalah pengurangan dimensi dengan PCA akan memberikan hasil clustering yang akurasinya baik untuk data berdimensi tinggi dan memperkecil waktu komputasi yang diperlukan . Adapun batasan masalah dalam penelitian tugas akhir ini yaitu : 1. Tidak membahas secara mendalam mengenai metode unsupervised learning yaitu K-Means Clustering dan Two Step Clustering. 2. Data set yang ditangani hanya berupa data numerik 3. Data set yang dijadikan studi kasus sudah memiliki label class 1 Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2007 4. Sistem yang dibuat tidak menangani outlier secara khusus 5. Sistem hanya menangani data set dengan format Microsoft Office Excel (*.xls) dan pemisah koma atau tabulasi (*.dat) tanpa header dan label class 1.3 Tujuan Tujuan dari penelitian tugas akhir ini adalah : 1. Mengimplementasikan PCA dan menganalisis hasilnya. 2. Menganalisis pengaruh PCA terhadap hasil dari K-Means Clustering dan Two Step Clustering yang diproses dengan Clementine 9.0. 1.4 Metodologi penyelesaian masalah Metodologi penyelesaian masalah yang digunakan dalam penelitian tugas akhir ini adalah : 1. Studi literatur Mencari dan mempelajari berbagai literatur antara lain yang berkaitan dengan pengurangan dimensi, PCA, dan unsupervised learning. 2. Mempelajari konsep PCA, unsupervised learning, algoritma PCA dan Clustering di Clementine 9.0, dan pemrograman matlab. 3. Mencari dan menyiapkan data set yang dijadikan studi kasus 4. Analisis dan desain kebutuhan fungsionalitas program 5. Implementasi algoritma PCA menggunakan Matlab versi 7 6. Implementasi stream clustering di Clementine 9.0 7. Pengujian terhadap hasil implementasi PCA yang bersifat standalone. Kemudian data hasil reduksi menjadi masukan untuk Clementine 9.0. 8. Mencatat hasil pengujian 9. Analisis dan penyimpulan dari hasil pengujian Yaitu menganalisis hasil PCA dan hasil clustering pada data hasil reduksi dengan PCA dan data asli. Pada metodologi ini akan ditarik kesimpulan akhir tentang analisis PCA pada unsupervised learning, apakah benarbenar memberikan hasil yang baik. 10. Pembuatan laporan tugas akhir Yaitu pembuatan laporan berupa buku, jurnal, dan poster tugas akhir. . 2 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2007 5. 5.1 Kesimpulan dan Saran Kesimpulan 1. 2. 3. 4. 5. 6. 7. 8. 5.2 1. 2. Dari analisis hasil pengujian pada bab 4 dapat disimpulkan : Fenomena Curse of Dimensionality dapat diselesaikan dengan pengurangan dimensi dengan PCA PCA tidak menghilangkan karakterisitik data atau informasi penting pada data karena dimensi baru dibangun dari kombinasi linier dimensi asli. PCA bertujuan meringkas data, bukan mengelompokkan data seperti halnya clustering PCA biasanya mengubah data dari dimensi yang besar menjadi data dengan dua atau tiga dimensi sehingga mudah untuk divisualisasikan Pada dataset colon tumor yang memiliki 2000 dimensi dapat diringkas menjadi 60 PC. Sedangkan pada data set DLBCL, data asli yang memiliki 4026 dimensi dapat diringkas menjadi 46 PC. Dari analisis hasil K-Means Clustering pada data set colon tumor dan DLBCL, data hasil PCA dengan 1,2, atau 3 PC dapat memberikan performansi yang lebih baik daripada data asli. Dari analisis hasil Two Step Clustering pada data set colon tumor diperoleh performansi PCA yang kurang efektif sedangkan pada data set DLBCL, performansi PCA pada data hasil PCA dengan 1 atau 3 PC dapat memberikan hasil yang lebih baik daripada data asli. Dari analisis hasil K-Means Clustering dan Two Step Clustering pada data set colon tumor dan DLBCL diperoleh hasil bahwa PCA dapat memberikan pengaruh performansi yang baik untuk K-Means Clustering pada kedua data set sedangkan untuk Two Step Clustering, PCA memberikan pengaruh performansi yang baik hanya untuk data set DLBCL saja. Saran Berusaha mengimplementasikan algoritma PCA dengan teknik reduksi selain PCA yaitu Independent Component Analysis (ICA) dan Random Projection. Berusaha mengimplementasikan PCA untuk algoritma clustering selain KMeans Clustering dan Two Step Clustering 34 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2007 Daftar Pustaka [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] Adiwijaya. 2003. Diktat Aljabar Linear. STT Telkom : Bandung Barber, David. (2004). Learning from Data Dimensionality Reduction: Principal Component Analysis. Tersedia: www.anc.ed.ac.uk/~amos/lfd/lectures/ lfd_2005_dim_red.pdf. [25 Januari 2007] Chen, Haifeng. Principal Component Analysis With Missing Data and Outliers. Tersedia: http://www.caip.rutgers.edu/riul/research/tutorials/ tutorialrpca.pdf. [17 Januari 2007] Clementine 9.0 Documentation Dash, Manoranjan dan Huan Liu. Dimensionality Reduction. Tersedia : www.informatik.uni-trier.de/~ley/db/indices/a-tree/l/Liu:Huan.html [26 Januari 2007] Data set colon tumor dan DLBCL. Kent Ridge Bio-medical Data Set Repository. Tersedia: http://sdmc.lit.org.sg/GEDatasets/Datasets.html Deegalla, Sampath dan Henrik Bostrom. Reducing High-Dimensional Data by Principal Component Analysis vs. Random Projection for Nearest Neighbor Classification. Tersedia: http://www.stes.fi/scai2006/proceedings/ 023-030.pdf. [19 Januari 2007] Ding, Chris dan Xiaofeng He. (2004). K-means Clustering via Principal Component Analysis. Tersedia: http://crd.lbl.gov/~cding/papers/ KmeansPCA1.pdf. [27 November 2006] Ekosusilo, Madyo dan Bambang Triyanto. 1995. Pedoman Penulisan Karya Ilmiah. Semarang: Dahara Prize Fatimah, Is dan Jaka Nugraha. (2005). Identifikasi Hasil Pirolisis Serbuk Kayu Jati Menggunakan Principal Component Analysis. Tersedia:http:// www.unej.ac.id/fakultas/mipa/jid/vol6no1/fatimah.pdf .[29 Juni 2007] Hastie dan Stuetzle. (1989). Dimensionality Reduction: Principal Components Analysis. Tersedia: http://ocw.mit.edu/NR/rdonlyres/Sloan-School-ofManagement/15-062Data-MiningSpring2003/327B0A6E-75B5-4E5D-9822DF347B4268C1/0/PClecture.pdf. [19 Januari 2007] Imam, Kamarul. Analisis Faktor. Tersedia: http://elearning.unej.ac.id/courses/MAA01/document/ANLISIS_FAKTOR.pdf.[11 Juli 2007] Jackson, J.Edward. 1991. A User’s Guide to Principal Components. New York Leskovec, Jure. (2006). Dimensionality reduction PCA, SVD, MDS, ICA, and friends. Tersedia:http://www.cs.cmu.edu/~guestrin/Class/10701-S06/ Handouts /recitations/recitation-pca_svd.ppt. [14 Januari 2007] Liu, Bing. Chapter 4: Unsupervised Learning. Tersedia : www.cs.uic.edu/~liub/teach/cs583-fall-05/CS583-unsupervised-learning.ppt.[29 Juni 2007] 35 Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2007 [16] [17] [18] [19] [20] [21] [22] [23] [24] Nugroho, Anto S. (2006). Datamining dalam Bioinformatika:menggali informasi terpendam dalam lautan data biologi. Tersedia: http://asnugroho.wordpress.com/2006/02/06/peran-datamining-dalam bioinformatika/. [24 Januari 2007] Partridge, Matthew dan Rafael Calvo. (1997). Fast Dimensionality Reduction and Simple PCA. Tersedia: www.weg.ee.usyd.edu.au/people/rafa/papers/ida98/ida98.pdf. [25 Januari 2007] QianZhu. (2005). K-means Clustering via Principal Component Analysis. Tersedia:http:// www.cse.ohio-state.edu/~zhuq/KmeansViaPCA.ppt . [19 Juli 2007] Smith, Lindsay I. (2002). A tutorial on Principal Components Analysis. Tersedia:http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components. pdf. [19 Januari 2007] Sobhan. Principal Component Analysis In Dimensionality Reduction. Tersedia: lingcog.iit.edu/~hotasob/hawk/Slides/Hota-PCA-06S.pdf. [25 Januari 2007] Sudaryatno, Bambang. Analisis Faktor-faktor yang Mempengaruhi Mahasiswa dalam Memilih Perguruan Tinggi Sekolah Tinggi Manajemen Informatika dan Komputer ”AMIKOM” Yogyakarta. Tersedia: http://dosen.amikom.ac.id/downloads/artikel/Jurnal%20upload.doc. .[18 Juli 2007] Suharto, Toto. Materi Perkuliahan Rekayasa Perangkat Lunak (RPL). STT Telkom: Bandung Tan, Pang-ning, Michael Steinbach, dan Vipin Kumar. 2006. Introduction to Data Mining. Pearson education, Inc. Variansi. Tersedia:http://id.wikipedia.org/wiki/Varians. [28 Februari 2007] 36 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika