PENGOLAHAN AWAL DATA DAN PENERAPAN ALGORITMA SINGULAR VALUE DECOMPOSITION (SVD) UNTUK MEMAKSIMALKAN VARIANCE SCORES PRINCIPAL COMPONENT DAN EFISIENSI PROSES PADA ALGORITMA PRINCIPAL COMPONENT ANALYSIS (PCA) Irfan Abbas, Vincent Suhartono, Stefanus santosa ABSTRACT Today the field of biomedical informatics has shown increasing popularity and attention, and has been expanding rapidly over the past two decades. Biomedical data attributes have thousands and thousands of the number of records that are correlated (multicolinearity), complex and large-scale. Dimension reduction techniques are part of the initial processing of the data and is appropriate for solving complex data. Algorithm Singular Value Decomposition (SVD) and Primcipal analisys Component (PCA) is a dimension reduction technique are two methods that are included in the attribute extraction. This research proposes algorithm combines the advantages and benefits of SVD and PCA called PCA + SVD method. Using SVD to maximize process efficiency and variance principal component score on the PCA. Then use PCA to eliminate the correlation in the complex datasets. The results demonstrate the value of variance principal component score on the SVD + PCA is very close to the average value (mean), the 0.001 variancet and the mean = 0.000 and produce more efficient processes and data problems can be solved multicolinearity. Keywords: Biomedical dataset, Initial Data Processing, dimension reduction technique, Singular Value Decomposition (SVD), Principal Component Analysis (PCA) xv + 62 pages, 19 drawings; 22 Table; 4 attachment Bibliography: (2008 - 2012) 1. Latar Belakang Masalah Dewasa ini bidang informatika biomedis telah menunjukkan peningkatan popularitas dan perhatian, serta telah berkembang dengan cepat selama dua dekade. Namun para peneliti dan praktisi biomedis menghadapi masalah “info-glut”, yaitu berlimpah informasi yang belum terorganisir, disebabkan sejumlah besar data penelitian biomedis dihasilkan setiap hari, dimulai dari usaha-usaha penelitian individu dan praktek-praktek klinik, dan juga data biomedis ini tersedia dalam ratusan basis data publik dan pribadi. Tersedia juga berupa digitisasi informasi medis seperti laporan lab, data pasien, paper penelitian, gambar anatomik dan sejumlah data perawatan pasien. [1]. Dimana data ini harus diorganisir dan dianalisis secara efektif untuk membantu peneliti dan praktisi di bidang biomedis, agar dapat bermanfaat bagi masyarakat umum. Namun kendala pada data di bidang biomedis disebabkan karena data tersebut memiliki ribuan atribut serta ribuan jumlah record yang saling berkorelasi (multicolinearity) dan menghasilkan data yang kompleks [2]. Data yang kompleks memiliki banyak kebisingan (noise), anomali (outlier), elemen yang hilang (missing value), tidak konsisten dan juga entitas data tidak berhubungan [3] [4] sehingga membutuhkan pengolahan awal data [5]. Pengolahan awal data diterapkan sebelum masuk ke model datamining yang sesungguhnya dan secara substansial dapat meningkatkan kualitas keseluruhan dari pola datamining [6]. Teknik pengurangan dimensi merupakan bagian dari pengolahan awal data, yang merupakan teknik penting dan menjadi teknik mendasar dalam sebagian besar proses data mining ketika menghadapi data yang kompleks [7] [8]. Tujuan dari teknik pengurangan dimensi adalah untuk mendapatkan representasi data baru yang dikelola menjadi dimensi lebih rendah [9]. Representasi data baru ditinjau dari sudut waktu dan kompleksitas komputasi yang jauh lebih efektif untuk pengolahan data berikutnya, misalnya untuk klasifikasi, assosiasi, prediksi, estimasi dan analisis pengelompokan [10]. Teknik pengurangan dimensi dapat dikelompokkan menjadi seleksi atribut dan ekstraksi atribut [11] [12]. Seleksi atribut bertujuan untuk menemukan atribut terbaik (k) pada (d) dimensi untuk mendapatkan informasi dan membuang atribut yang tidak signifikan pada dimensi lain [13] [14] namun kelemahan seleksi atribut memerlukan pelatihan satu set data besar untuk mendapatkan transformasi yang dapat diandalkan [15] [16]. Ekstraksi atribut bertujuan untuk mencari satu set atribut yang baru di (k) dimensi yang merupakan kombinasi dari ukuran asli [13] [14] dengan cara mengubah dimensi tinggi ke dalam dimensi yang lebih rendah [17] [16].Ekstraksi atribut secara umum diklasifikasikan menjadi linier dan nonlinier [13]. Algoritma linier ektraksi atribut terdiri dari algoritma Singular Value Decomposition (SVD) dan algoritma Principal component Analysis (PCA). Algoritma Singular Value Decomposition (SVD) pertama kali diusulkan oleh Eckartand Young [18] termasuk metode eksplorasi statistik multidimensi dengan latar belakang metematika aljabar linier. Termasuk algoritma teknik pengurangan dimensi yang paling cepat proses kerjanya dibanding teknik pengurangan dimensi lainnya seperti PCA, ICA dan fastICA (extensionICA) [19] dan merupakan metode matematis untuk menguraikan matriks tunggal [20], dengan mengkompres menjadi tiga matriks yang lebih kecil dengan ukuran yang sama [21]. Cara kerjanya mengurangi data pada kolom dan baris [22] [23]. Salah satu alat analisis numerik yang efektif digunakan untuk menganalisis matriks [20] beroperasi di jantung algoritma seperti pada algoritma PCA dan LSI dan tergolong metode machine learning yang banyak dipakai [5] dan banyak diterapkan pada berbagai bidang, termasuk clustering pada data klinik [24], image compresing [25], wetermarking, [26] [27], klasifikasi dokumen [28], mapping gen [2] dan pencarian data series [29]. Algoritma Singular Value Decomposition (SVD) mempunyai kelebihan pada efisiensi waktu proses [19] untuk digunakan pada dataset yang berskala besar [30] [31], dapat digunakan untuk memaksimalkan data ekstraksi pada algoritma PCA [24] serta dapat beroperasi dijantung algoritma PCA untuk mendapatkan nilai left eigenvector [30] [31]. Namun kekurangan SVD selain tidak dapat melakukan perhitungan jika dataset memiliki elemen yang hilang (missing value) [24] juga hasil data ekstraknya kurang maksimal disebabkan korelasi antar atribut belum bersih 100% dibanding dengan algoritma Principal Component Analysis (PCA) [32] [33]. Algoritma Principal Component Analysis (PCA) diperkenalkan oleh Pearson dan Hotelling termasuk metode eksplorasi statistik multidimensi dengan latar belakang matematika aljabar linier dan eigen analysis. Cara kerja PCA adalah menemukan himpunan bilangan orthogonal dengan menggunakan teknik SVD [30]] [31] dari proyeksi matriks vektor pada atribut ekstraksi dengan memaksimalkan variancess data, kemudian mengurangi dimensi melalui kombinasi linear dari variabel awal tanpa mengorbankan akurasi [17] [3]. Kelebihan algoritma Principal Component Analysis (PCA) mampu menghasilkan data ekstrak yang lebih signifikan dibandingkan dengan SVD, menghilangkan korelasi 100% [32] [33] dan mampu mengolah hasil data ekstrak algoritma SVD dengan cara meningkatkan pemisahan antara sampel dari kelas yang berbeda serta mengurangi pemisahan antara sampel dari kelas yang sama [33] [18], menghasilkan variable baru (principal component) yang berisi scores principal component hasil kombinasi linier dari variable asli, namun kekurangan algoritma Principal Component Analysis (PCA) lambat memproses dataset dibanding dengan algoritma SVD [19] [31]. 2. Rumusan Masalah Dari latar belakang masalah, maka permasalahan yang dirumuskan yaitu: Masalah umum: Tersedianya jumlah basis data biomedis yang berlimpah, berupa basis data publik (internet) dimana datasetnya dari peneliti-peneliti individu dan dari praktek-praktek klinik, dan juga tersedia berupa digitisasi informasi, seperti laporan lab, data pasien, paper penelitian, gambar anatomik dan sejumlah data perawatan pasien. Namun dataset biomedis memiliki ribuan atribut serta ribuan jumlah record yang saling berinteraksi yang menghasilkan data kompleks dan berskala besar. Masalah spesifik: Algoritma Singular Value Decomposition (SVD) tepat digunakan untuk memproses dataset yang berskala besar dan kompleks, dan cepat dalam memproses dataset yang berskala besar, namun hasil data ekstrak SVD kurang maksimal dibanding dengan PCA. Algoritma Principal Component Analysis (PCA) mampu memproses score left eigenvector (data ekstrak ) dari algoritma SVD, yang disebut sebagai score principal component, namun algoritma PCA sangat lambat memproses dataset berskala besar. 3. Tujuan Tujuan dari penelitian ini adalah untuk memaksimalkan variances score principal component dan efisiensi waktu proses pada algoritma Principal Component Analysis (PCA) 4. Manfaat Manfaat dari penelitian ini adalah: 1. Manfaat Umum: Penelitian ini sangat membantu para peneliti dan praktisi biomedis, untuk memproses informasi yang belum terorganisir, dimana penelitian ini menghasilkan data yang telah siap pakai atau siap diproses pada model datamining, agar nantinya bermanfaaat pada masyarakat umum. 2. Manfaat ilmu pengetahuan Jumlah atribut yang telah dikurangi dan hasil nilai varian pada scores principal component yang lebih maksimal serta atribut yang tidak saling berkorelasi dapat dijadikan sebagai input variable, dan sangat berpengaruh pada efisiensi waktu proses serta dapat meningkatkan akurasi, antara lain: a) Model cluster b) Analisa regresi berganda c) Analisa diskriminan d) Analisa factor e) Klasifikasi dengan menggunakan Neural Net 5. Landasan Teori 5.1. Pengolahan Awal Data Peningkatan hasil akurasi algoritma data mining untuk data kompleks dan berdimensi tinggi akhir-akhir ini telah diakui sebagai salah satu masalah yang paling menantang dalam penelitian data mining [5], dan diakui sebagai salah satu dari top10 masalah dalam penelitian data mining. Data yang kompleks dan data multidimensi menghasilkan banyak noise, outlier dan juga data tidak konsisten [9] [34] [35] sehingga membutuhan pra-pengolahan data dan teknik pengurangan dimensi yang merupakan alat yang menjanjikan untuk mengatasi masalah data kompleks dan multidimensi [5], dan juga merupakan kunci untuk meningkatkan akurasi serta efisiensi waktu [35] [36] dengan mengubah data menjadi lebih kecil tanpa mengubah informasi di dalamnya. Langkah-Langkah dalam pra-pengolahan data adalah pembersihan data (cleansing), denoising, deteksi anomali (outlier) discretization, generalizes, dan normalisasi (normalization) kemudian diikuti dengan teknik pengurangan dimensi (dimension reduction). 5.1.1 Data Cleansing Permasalahan sebagian besar pada dataset tidak dapat digunakan langsung pada model datamining [34] karena banyak atribut yang saling beinteraksi namun tidak konsisten atau kurangnya nilai atribut (missing value), dan hanya mengandung data agregat, berisik (noise), mengandung kesalahan, memiliki outlier, atau data tidak konsisten karena perbedaan coding pada konvensi penamaan [37]. Permasalahan ini dapat diatasi dengan data cleansing . Pembersihan data atau data cleansing dimulai dengan proses keterpusatan untuk mengurangi data dengan mencari rata-rata setiap atribut, dengan menggunakan persamaan: = dimana adalah hasil setelah pemusatan, − adalah kolom vector, dan (1) adalah rata-rata dari kolom yang sesuai. Proses berpusat dilakukan untuk semua rangka dalam, jika nilai null ditemukan, nilai akan diganti dengan nilai rata-rata pada kolom tersebut, 6. Kerangka Pemikiran Kerangka pemikiran pada penelitian dijelaskan dengan skema Gambar 1. Gambar 1. Kerangka Pemikiran 7. Metode Metode pada penelitian ini menggabungkan keunggulan algoritma SVD dan algoritma PCA, disingkat SVD+PCA, untuk memaksimalkan variance score principal component dan efisiensi proses pada PCA dan juga menghilangkan korelasi 100 % pada atribut data yang saling berkorelasi pada data yang kompleks dan berskala besar. Dengan Skema seperti Gambar 2 Gambar 2. Metode/Model yang Diusulkan 8. Hasil dan Pembahasan Pada Tabel 1 adalah hasil nilai variances dan waktu proses yang dihasilkan masing masing algoritma. Tabel 1 Hasil Nilai Variances & Waktu Proses (contoh) Dataset Breast_Cancer item SVD PCA SVD+PCA Process time keep_variancesce threshold 24482 24482 24482 Jumlah Atribut 23 attribute 14 attribute 2 attribute Dimensionality Reduction Result 0.001 0.000 0.000 Mean 0.001 0.010 0.001 Variance Bersih 100% Bersih 100% Korelasi Atribut Masih berkorelasi Tabel 2. Hasil Komparasi Menggunakan F-Test Pada dataset Breast_Cancer 1 menit 1 detik 0.005 5 menit 2 detik 0.005 2 menit 47 detik 0.05 9. 9.1 24482 PCA & SVD+PCA 24482 SVD & SVD+PCA 24482 999 999 999 0.100 9.967 0.998 0.000 0.000 0.490 0.901 1.110 0.901 Item SVD & PCA Observations df F P(F<=f) one-tail F Critical one-tail Kesimpulan dan Saran Kesimpulan Dari hasil eksperimen dan pengujian model menggunakan lima dataset dapat diambil kesimpulan, algoritma SVD+PCA menghasilkan reduksi atribut yang lebih baik dibanding algoritma SVD dan PCA, menghasilkan nilai variance yang lebih baik dibanding PCA, dan menghasilkan data ekstrak yang lebih baik dibanding SVD, karena mampu menghilangkan korelasi 100%, kemudian unggul dari segi waktu dan nilai variance dibanding PCA, artinya metode yang diusulkan, menggabungkan keunggulan SVD+PCA sangat tepat digunakan pada dataset biomedis yang memiliki ribuan atribut dan record yang saling berkorelasi dan berskala besar (komplek) 9.2 Saran Penelitian ini dapat digabungkan dengan penelitian Shameek Biswas et al [2] dan penelitian Fangzhou Yao et al [38] menjadi SVD+IPCA, menggunakan SVD+PCA untuk efisiensi waktu proses dan memaksimalkan variance, kemudian ICA untuk Denoising beban vektor yang dihasilkan oleh PCA. 10. Acknowledgement 1. Bapak Dr.Ir. Edi Noersasongko, M.Kom selaku rektor Universitas Dian Nuswantoro. 2. Bapak Dr. Abdul Syukur, M.Kom selaku direktur Pasca Sarjana Universitas Dian Nuswantoro. 3. Bapak Dr. Ing. Vincent Suhartono, selaku pembimbing utama yang telah banyak memberikan masukan dan pemikiran kepada penulis. 4. Bapak Dr. Stefanus Santosa, M.Kom selaku pembimbing tesis dan dosen yang telah banyak memberikan ilmu dan konsep kepada penulis. 5. Bapak Romi Satrio Wahono, M.Eng selaku dosen yang telah banyak memberikan pengetahuan, pemikiran, konsep, dan motivasi yang tiada henti kepada penulis. 6. Bapak. Rahmat Widia Sembiring, M.Sc.IT, terima kasih untuk berbagi paper penelitiannya dan pengetahuan khususnya bidang datamining pada pengolahan awal data. 7. Bapak dosen-dosen penguji yang telah memberikan masukan berupa kritik dan saran yang membangun untuk perbaikan tesis ini. 8. YPIPT ICHSAN Gorontalo, yang telah memberikan kesempatan kepada penulis untuk melanjutkan studi ketingkat Strata dua (S2) 9. Seluruh staf dosen dan pegawai tata usaha pada lingkungan Universitas Dian Nuswantoro yang telah membantu selama proses studi. DAFTAR PUSTAKA [1] Hsinchun Chen; Mihail C. Roco;, "Global and Longitudinal Patent and Literature Analysis," in Mapping Nano Technology Innovations and Knowledge, Professor Ramesh Sharda and Prof. Dr. Stefan, Eds. Tucson, Arizona, Arlington, Virginia, USA: springer.com, 2009, ch. 13: 978-0-387-71619-0, pp. 1-321. [2] Biswas, Shameek; Storey, John D; Akey, Joshua M, "Mapping gene expression quantitativetrait loci by singular value decomposition and independent component analysis," IEEE Transaction On Computational Biology and Bioinformatics, vol. 5, no. 7, pp. 1-14, May 2008. [3] Sanga, S; Chou, T.Y; Cristini, V; Edgerton, M.E;, "Neural Network with KMeans Clustering via PCA for Gene Expression Profile Analysis," IEEE Computer Science and Information Engineering, vol. 3, pp. 670-673, April 2009. [4] Tajunisha; Saravanan;, "Performance analysis of k-means with different initialization methods for high dimensional data ," International Journal of Artificial Intelligence & Applications (IJAIA), vol. 1, no. 4, pp. 44-52, October 2010. [5] Panagis Magdalinos; Christos Doulkeridis; Michalis Vazirgiannis;, "Enhancing Clustering Quality through Landmark-Based Dimensionality Reduction," ACM Transactions on Knowledge Discovery from Data, vol. 5, no. 2, pp. 1-44, Februari 2011. [6] Jiawei Han ; Micheline Kamber;, Data Mining: Concepts and Techniques, 2nd ed., Asma Stephan, Ed. San Francisco, USA: Morgan Kaufmann Publishers is an imprint of Elsevier, 2007. [7] Shanwen Zhang; Rongzhi Jing;, "Dimension Reduction Based on Modified Maximum Margin Criterion for Tumor Classification ," in Fourth International Conference on Information and Computing, China, 2011, pp. 552-554. [8] M. Revathi, "Network Intrusion Detection System Using Reduced Dimensionality," Indian Journal of Computer Science and Engineering (IJCSE), vol. 2 , no. 1, pp. 61-67, 2010. [9] Longcun Jin; Wanggen Wan; Yongliang Wu; Bin Cui; Xiaoqing Yu; Youyong Wu;, "A Robust High-dimensional Data Reduction Method," The International Journal of Virtual Reality, vol. 9, no. 1, pp. 55-60, 2010. [10] R. Krakovsky; R. Forgac;, "Neural Network Approach to Multidimensional Data Classification via Clustering," in IEEE 9th International Symposium on Intelligent Systems and Informatics , Serbia, September 2011, pp. 169-174. [11] Karunaratne, Thashmee ; Boström, Henrik; Norinder, Ulf;, "Pre-Processing Structured Data for Standard Machine Learning Algorithms by Supervised Graph Propositionalization - a Case Study with Medicinal Chemistry Datasets," in International Conference on Machine Learning and Applications, Sweden, 2010, pp. 1-6. [12] D.Napoleon; S.Pavalakodi;, "A New Method for Dimensionality Reduction using K Means Clustering Algorithm for High Dimensional Data Set," International Journal of Computer Applications (0975 – 8887), vol. 13, no. 7, pp. 41-46, January 2011. [13] Ethem Alpaydın, Introduction to Machine Learning, 2nd ed., Thomas Dietterich et al., Eds. London, England: Cambridge, Massachusetts, 2010. [14] B. B. Zhao and Y. Q. Chen, "Singular value decomposition (SVD) for extraction of gravity anomaly associated with gold mineralization in Tongshi gold field,Western Shandong Uplifted Block, Eastern China," School of Earth and Mineral Resource, China University of Geosciences, Beijing- China, Nonlin. Processes Geophys. doi:10.5194/npg-18-103-2011-, 2011. [15] Jun Yan, Benyu Zhang, Ning Liu; Shuicheng Yan; Qiansheng Cheng; Weiguo Fan; Qiang Yang; Wensi Xi; Zheng Chen;, "Effective and Efficient Dimensionality Reduction for Large-Scale and Streaming Data Preprocessing," IEEE Transaction On Knowledge And Data Engineering, vol. 18, no. 2, pp. 114, Febbruari 2008. [16] Ali Shadvar, "Dimension Reduction by Mutual Information discriminant analysis," International Journal of Artificial Intelligence & Applications (IJAIA), vol. 3, no. 3, pp. 23-35, May 2012. [17] Chang, Cheng-Ding; Wang, Chien-Chih; Jiang, Bernard C;, "Singular Value Decomposition Based Feature Extraction Technique for Physiological Signal Analysis," Journal of Medical Systems., vol. 36, no. 3, pp. 1769 - 1777, June 2012. [18] Stan Lipovetsky;, "PCA and SVD with nonnegative loadings," GfK Custom Research for excelence, vol. 42, no. 1, pp. 1-30, Januari 2009. [19] Sembiring, Rahmat Widia; Zain, Jasni Mohamad; Embong, Abdullah;, "Dimension Reduction of Health Data Clustering," International Journal on New Computer Architectures and Their Applications (IJNCAA), vol. 3, no. 1, pp. 1041-1050, 2011. [20] S.M. Rafizul Haque, "Singular Value Decomposition and Discrete," Department of Interaction and System Design School of Engineering Blekinge Institute of Technology, Sweden, Master Thesis MCS-2008:8, 2008. [21] Taufik Fuadi Abidin ; Bustami Yusuf ; Munzir Umran;, "Singular Value Decomposition for Dimensionality Reduction in Unsupervised Text Learning Problems," in 2nd International Conference on Education Technology and Computer (ICETC), Banda Aceh-Indonesia, 201O, pp. 422-426. [22] Taro Konda; Yoshimasa Nakamura;, "A new algorithm for singular value decomposition and its parallelization," Parallel Computing, vol. 02, no. 001, pp. 1-14, 2009. [23] C.Venkata Narasimhulu; K.Satya Prasad;, "A Robust Watermarking Technique based on Nonsubsampled Contourlet Transform and SVD," International Journal of Computer Applications, vol. 16, no. 8, pp. 27-36, February 2011. [24] Kumar, Nishith; Mohammed Nasser ; Subaran Chandra Sarker;, "A New Singular Value Decomposition Based Robust Graphical Clustering Technique and Its Application in Climatic Data," Journal of Geography and Geology, vol. 3, no. 1, pp. 227-238, September 2011. [25] Pritha.D.N; L.Savitha; Shylaja.S.S ;, "Face Recognition by Feedforward Neural Network using Laplacian of Gaussian filter and Singular Value Decomposition," in IEEE International Conference on Data Engineering, India, 2010, pp. 56-61. [26] Hu Zhihua, "Binary Image Watermarking Algorithm Based on SVD," in International Conference on Intelligent Human-Machine Systems and Cybernetics, China, 2009, pp. 400-403. [27] Satyanarayana Murty. P; M.Uday Bhaskar; P. Rajesh Kumar;, "A Semi-Blind Reference Watermarking Scheme Using DWT-DCT-SVD for Copyright Protection," International Journal of Computer Science & Information Technology (IJCSIT), vol. 4, no. 2, pp. 69-82, April 2012. [28] Lailil Muflikhah; Baharum Baharudin;, "Document Clustering using Concept Space and Cosine Simila rity Measurement," in 2009 International Conference on Computer Technology and Development, Malaysia, 2009, pp. 58 -62. [29] Muhammad Marwan Muhammad Fuad; Pierre-François Marteau, "Speeding-up the Similarity Search in Time Series Databases by Coupling Dimensionality Reduction Techniqueswith a Fast-and-dirty Filter," in IEEE International Conference on Semantic Computing, Vannes, France, 2010, pp. 101-104. [30] Mario Navas; Carlos Ordonez;, "Efficient computation of PCA with SVD in SQL," in ACM, Paris, June 2009, pp. 1-10. [31] Rinsurongkawong, Waree; Carlos Ordonez;, "Microarray Data Analysis with PCA in a DBMS," in DTMBIO Napa Valley, California, USA, 2008, pp. 13-20. [32] Mari-Sanna Paukkeri, Ilkka Kivim¨ aki Santosh Tirunagari;, "Effect of Dimensionality Reduction on Different Distance Measures in Document Clustering," Springer-Verlag Berlin Heidelberg, vol. 3, pp. 167-176, 2011. [33] Jha, Sunil K.; R. D. S. Yadava;, "Denoising by Singular Value Decomposition and Its Application to Electronic Nose Data Processing," IEEE Sensor Journal, vol. 11, no. 1, pp. 35-44, January 2011. [34] Rúben D.M.A. Pereira; Rui J. Almeida, Uzay Kaymak;, "Predicting Septic Shock Outcomes in a Database with Missing Data using Fuzzy Modeling," IEEE International Conference on Fuzzy Systems, vol. 27, no. 30, pp. 25072512, June 2011. [35] Zhang Yun; Li Weihua; Chen Yang;, "The study of Multidimensional-Data flow of Fishbone applied for Data mining," in Seventh ACIS International Conference on Software Engineering Research, Management and Applications, China, 2009, pp. 86-91. [36] Ribeiro, Marcela X; Ferreira, Mônica R. P. ; Traina Jr., Caetano ;, "Data Preprocessing: A new algorithm for Feature Selection and Data Discretization," in CSTST , Cergy-Pontoise, France, 2008, pp. 252-257. [37] Oded , Maimon; Lior , Rokach;, Data Mining and Knowledge Discovery Handbook, Second Edition ed., Maimon Oded and Rokach Lior, Eds. Tel-Aviv, Israel: Springer New York Dordrecht Heidelberg London, 2010. [38] Fangzhou Yao; Jeff Coquery; Kim-Anh Lê Cao;, "Independent Principal Component Analysis for biologically meaningful dimension reduction of large biological data sets," IEEE Transaction On Computational Biology and Bioinformatics, vol. 13, no. 24, pp. 1-15, 2012. Pernyataan Original tesis