svd - Jurnal Tesis Program Pascasarjana Universitas Dian

advertisement
PENGOLAHAN AWAL DATA DAN PENERAPAN ALGORITMA
SINGULAR VALUE DECOMPOSITION (SVD) UNTUK
MEMAKSIMALKAN VARIANCE SCORES PRINCIPAL
COMPONENT DAN EFISIENSI PROSES PADA ALGORITMA
PRINCIPAL COMPONENT ANALYSIS (PCA)
Irfan Abbas, Vincent Suhartono, Stefanus santosa
ABSTRACT
Today the field of biomedical informatics has shown increasing popularity and
attention, and has been expanding rapidly over the past two decades. Biomedical data
attributes have thousands and thousands of the number of records that are correlated
(multicolinearity), complex and large-scale. Dimension reduction techniques are part
of the initial processing of the data and is appropriate for solving complex data.
Algorithm Singular Value Decomposition (SVD) and Primcipal analisys Component
(PCA) is a dimension reduction technique are two methods that are included in the
attribute extraction. This research proposes algorithm combines the advantages and
benefits of SVD and PCA called PCA + SVD method. Using SVD to maximize
process efficiency and variance principal component score on the PCA. Then use
PCA to eliminate the correlation in the complex datasets. The results demonstrate the
value of variance principal component score on the SVD + PCA is very close to the
average value (mean), the 0.001 variancet and the mean = 0.000 and produce more
efficient processes and data problems can be solved multicolinearity.
Keywords: Biomedical dataset, Initial Data Processing, dimension reduction
technique, Singular Value Decomposition (SVD), Principal Component Analysis
(PCA)
xv + 62 pages, 19 drawings; 22 Table; 4 attachment
Bibliography: (2008 - 2012)
1.
Latar Belakang Masalah
Dewasa ini bidang informatika biomedis telah menunjukkan peningkatan popularitas
dan perhatian, serta telah berkembang dengan cepat selama dua dekade. Namun para
peneliti dan praktisi biomedis menghadapi masalah “info-glut”, yaitu berlimpah
informasi yang belum terorganisir, disebabkan sejumlah besar data penelitian
biomedis dihasilkan setiap hari, dimulai dari usaha-usaha penelitian individu dan
praktek-praktek klinik, dan juga data biomedis ini tersedia dalam ratusan basis data
publik dan pribadi. Tersedia juga berupa digitisasi informasi medis seperti laporan
lab, data pasien, paper penelitian, gambar anatomik dan sejumlah data perawatan
pasien. [1]. Dimana data ini harus diorganisir dan dianalisis secara efektif untuk
membantu peneliti dan praktisi di bidang biomedis, agar dapat bermanfaat bagi
masyarakat umum.
Namun kendala pada data di bidang biomedis disebabkan karena data tersebut
memiliki ribuan atribut serta ribuan jumlah record yang saling berkorelasi
(multicolinearity) dan menghasilkan data yang kompleks [2]. Data yang kompleks
memiliki banyak kebisingan (noise), anomali (outlier), elemen yang hilang (missing
value), tidak konsisten dan juga entitas data tidak berhubungan [3] [4] sehingga
membutuhkan pengolahan awal data [5]. Pengolahan awal data diterapkan sebelum
masuk ke model datamining yang sesungguhnya
dan secara substansial dapat
meningkatkan kualitas keseluruhan dari pola datamining [6].
Teknik pengurangan dimensi merupakan bagian dari pengolahan awal data, yang
merupakan teknik penting dan menjadi teknik mendasar dalam sebagian besar proses
data mining ketika menghadapi data yang kompleks [7] [8]. Tujuan dari teknik
pengurangan dimensi adalah untuk mendapatkan representasi data baru yang dikelola
menjadi dimensi lebih rendah [9]. Representasi data baru ditinjau dari sudut waktu
dan kompleksitas komputasi yang jauh lebih efektif untuk pengolahan data
berikutnya, misalnya untuk klasifikasi, assosiasi, prediksi, estimasi dan analisis
pengelompokan [10].
Teknik pengurangan dimensi dapat dikelompokkan menjadi seleksi atribut
dan ekstraksi atribut [11] [12]. Seleksi atribut bertujuan untuk menemukan atribut
terbaik (k) pada (d) dimensi untuk mendapatkan informasi dan membuang atribut
yang tidak signifikan pada dimensi lain [13] [14] namun kelemahan seleksi atribut
memerlukan pelatihan satu set data besar untuk mendapatkan transformasi yang
dapat diandalkan [15] [16]. Ekstraksi atribut bertujuan untuk mencari satu set atribut
yang baru di (k) dimensi yang merupakan kombinasi dari ukuran asli [13] [14]
dengan cara mengubah dimensi tinggi ke dalam dimensi yang lebih rendah [17]
[16].Ekstraksi atribut secara umum diklasifikasikan menjadi linier dan nonlinier [13].
Algoritma linier ektraksi atribut terdiri dari algoritma Singular Value Decomposition
(SVD) dan algoritma Principal component Analysis (PCA).
Algoritma Singular Value Decomposition (SVD) pertama kali diusulkan oleh
Eckartand Young [18] termasuk metode eksplorasi statistik multidimensi dengan
latar belakang metematika aljabar linier. Termasuk algoritma teknik pengurangan
dimensi yang paling cepat proses kerjanya dibanding teknik pengurangan dimensi
lainnya seperti PCA, ICA dan fastICA (extensionICA) [19] dan merupakan metode
matematis untuk menguraikan matriks tunggal [20], dengan mengkompres menjadi
tiga matriks yang lebih kecil dengan
ukuran yang sama [21]. Cara kerjanya
mengurangi data pada kolom dan baris [22] [23]. Salah satu alat analisis numerik
yang efektif digunakan untuk menganalisis matriks [20] beroperasi di jantung
algoritma seperti pada algoritma PCA dan LSI dan tergolong metode machine
learning yang banyak dipakai [5] dan banyak diterapkan pada berbagai bidang,
termasuk clustering pada data klinik [24], image compresing [25], wetermarking,
[26] [27], klasifikasi dokumen [28], mapping gen [2] dan pencarian data series [29].
Algoritma Singular Value Decomposition (SVD) mempunyai kelebihan pada
efisiensi waktu proses [19] untuk digunakan pada dataset yang berskala besar [30]
[31], dapat digunakan untuk memaksimalkan data ekstraksi pada algoritma PCA [24]
serta dapat beroperasi dijantung algoritma PCA untuk mendapatkan nilai left
eigenvector [30] [31]. Namun kekurangan
SVD selain tidak dapat melakukan
perhitungan jika dataset memiliki elemen yang hilang (missing value) [24] juga hasil
data ekstraknya kurang maksimal disebabkan korelasi antar atribut belum bersih
100% dibanding dengan algoritma Principal Component Analysis (PCA) [32] [33].
Algoritma Principal Component Analysis (PCA) diperkenalkan oleh Pearson dan
Hotelling termasuk metode eksplorasi statistik multidimensi dengan latar belakang
matematika aljabar linier dan eigen analysis. Cara kerja PCA adalah menemukan
himpunan bilangan orthogonal dengan menggunakan teknik SVD [30]] [31] dari
proyeksi matriks vektor pada atribut ekstraksi dengan memaksimalkan variancess
data, kemudian mengurangi dimensi melalui kombinasi linear dari variabel awal
tanpa mengorbankan akurasi [17] [3].
Kelebihan algoritma Principal Component Analysis (PCA) mampu menghasilkan
data ekstrak
yang lebih signifikan dibandingkan dengan SVD, menghilangkan
korelasi 100% [32] [33] dan mampu mengolah hasil data ekstrak algoritma SVD
dengan cara meningkatkan pemisahan antara sampel dari kelas yang berbeda serta
mengurangi pemisahan antara sampel dari kelas yang sama [33] [18], menghasilkan
variable baru (principal component) yang berisi scores principal component hasil
kombinasi linier dari variable asli, namun kekurangan algoritma Principal
Component Analysis (PCA) lambat memproses dataset dibanding dengan algoritma
SVD [19] [31].
2.
Rumusan Masalah
Dari latar belakang masalah, maka permasalahan yang dirumuskan yaitu:
Masalah umum:
Tersedianya jumlah basis data biomedis yang berlimpah, berupa basis data publik
(internet) dimana datasetnya dari peneliti-peneliti individu dan dari praktek-praktek
klinik, dan juga tersedia berupa digitisasi informasi, seperti laporan lab, data pasien,
paper penelitian, gambar anatomik dan sejumlah data perawatan pasien. Namun
dataset biomedis memiliki ribuan atribut serta ribuan jumlah record yang saling
berinteraksi yang menghasilkan data kompleks dan berskala besar.
Masalah spesifik:
Algoritma Singular Value Decomposition (SVD) tepat digunakan untuk memproses
dataset yang berskala besar dan kompleks, dan cepat dalam memproses dataset yang
berskala besar, namun hasil data ekstrak SVD kurang maksimal dibanding dengan
PCA.
Algoritma Principal Component Analysis (PCA) mampu memproses score left
eigenvector (data ekstrak ) dari algoritma SVD, yang disebut sebagai score principal
component, namun algoritma PCA sangat lambat memproses dataset berskala besar.
3.
Tujuan
Tujuan dari penelitian ini adalah untuk memaksimalkan variances score principal
component dan efisiensi waktu proses pada algoritma Principal Component Analysis
(PCA)
4.
Manfaat
Manfaat dari penelitian ini adalah:
1.
Manfaat Umum:
Penelitian ini sangat membantu para peneliti dan praktisi biomedis, untuk
memproses informasi yang belum terorganisir, dimana penelitian ini menghasilkan
data yang telah siap pakai atau siap diproses pada model datamining, agar nantinya
bermanfaaat pada masyarakat umum.
2.
Manfaat ilmu pengetahuan
Jumlah atribut yang telah dikurangi dan hasil nilai varian pada scores principal
component yang lebih maksimal serta atribut yang tidak saling berkorelasi dapat
dijadikan sebagai input variable, dan sangat berpengaruh pada efisiensi waktu proses
serta dapat meningkatkan akurasi, antara lain:
a) Model cluster
b) Analisa regresi berganda
c) Analisa diskriminan
d) Analisa factor
e) Klasifikasi dengan menggunakan Neural Net
5.
Landasan Teori
5.1. Pengolahan Awal Data
Peningkatan hasil akurasi algoritma data mining untuk data kompleks dan
berdimensi tinggi akhir-akhir ini telah diakui sebagai salah satu masalah yang paling
menantang dalam penelitian data mining [5], dan diakui sebagai salah satu dari top10 masalah dalam penelitian data mining.
Data yang kompleks dan data multidimensi menghasilkan banyak noise, outlier dan
juga data tidak konsisten [9] [34] [35] sehingga membutuhan pra-pengolahan data
dan teknik pengurangan dimensi yang merupakan alat yang menjanjikan untuk
mengatasi masalah data kompleks dan multidimensi [5], dan juga merupakan kunci
untuk meningkatkan akurasi serta efisiensi waktu [35] [36] dengan mengubah data
menjadi lebih kecil tanpa mengubah informasi di dalamnya.
Langkah-Langkah dalam pra-pengolahan data adalah pembersihan data (cleansing),
denoising, deteksi anomali (outlier) discretization, generalizes, dan normalisasi
(normalization) kemudian diikuti dengan teknik pengurangan dimensi (dimension
reduction).
5.1.1
Data Cleansing
Permasalahan sebagian besar pada dataset tidak dapat digunakan langsung pada
model datamining [34] karena banyak atribut yang saling beinteraksi namun tidak
konsisten atau kurangnya nilai atribut (missing value), dan hanya mengandung data
agregat, berisik (noise), mengandung kesalahan, memiliki outlier, atau data tidak
konsisten karena perbedaan coding pada konvensi penamaan [37]. Permasalahan ini
dapat diatasi dengan data cleansing . Pembersihan data atau data cleansing dimulai
dengan proses keterpusatan untuk mengurangi data dengan mencari rata-rata setiap
atribut, dengan menggunakan persamaan:
=
dimana
adalah hasil setelah pemusatan,
−
adalah kolom vector, dan
(1)
adalah rata-rata dari
kolom yang sesuai. Proses berpusat dilakukan untuk semua rangka dalam, jika nilai null
ditemukan, nilai akan diganti dengan nilai rata-rata pada kolom tersebut,
6.
Kerangka Pemikiran
Kerangka pemikiran pada penelitian dijelaskan dengan skema Gambar 1.
Gambar 1. Kerangka Pemikiran
7.
Metode
Metode pada penelitian ini menggabungkan keunggulan algoritma SVD dan algoritma
PCA, disingkat SVD+PCA, untuk memaksimalkan variance score principal component
dan efisiensi proses pada PCA dan juga menghilangkan korelasi 100 % pada atribut data
yang saling berkorelasi pada data yang kompleks dan berskala besar. Dengan Skema
seperti Gambar 2
Gambar 2. Metode/Model yang Diusulkan
8.
Hasil dan Pembahasan
Pada Tabel 1 adalah hasil nilai variances dan waktu proses yang dihasilkan
masing masing algoritma.
Tabel 1 Hasil Nilai Variances & Waktu Proses (contoh) Dataset Breast_Cancer
item
SVD
PCA
SVD+PCA
Process time
keep_variancesce threshold
24482
24482
24482
Jumlah Atribut
23 attribute
14 attribute
2 attribute
Dimensionality Reduction Result
0.001
0.000
0.000
Mean
0.001
0.010
0.001
Variance
Bersih 100%
Bersih 100%
Korelasi Atribut Masih berkorelasi
Tabel 2. Hasil Komparasi Menggunakan F-Test Pada dataset Breast_Cancer
1 menit 1 detik
0.005
5 menit 2 detik
0.005
2 menit 47 detik
0.05
9.
9.1
24482
PCA &
SVD+PCA
24482
SVD &
SVD+PCA
24482
999
999
999
0.100
9.967
0.998
0.000
0.000
0.490
0.901
1.110
0.901
Item
SVD & PCA
Observations
df
F
P(F<=f) one-tail
F Critical one-tail
Kesimpulan dan Saran
Kesimpulan
Dari hasil eksperimen dan pengujian model menggunakan lima dataset dapat diambil
kesimpulan, algoritma SVD+PCA menghasilkan reduksi atribut yang lebih baik
dibanding algoritma SVD dan PCA, menghasilkan nilai variance yang lebih baik
dibanding PCA, dan menghasilkan data ekstrak yang lebih baik dibanding SVD,
karena mampu menghilangkan korelasi 100%, kemudian unggul dari segi waktu dan
nilai variance dibanding PCA, artinya metode yang diusulkan, menggabungkan
keunggulan SVD+PCA sangat tepat digunakan pada dataset biomedis yang memiliki
ribuan atribut dan record yang saling berkorelasi dan berskala besar (komplek)
9.2
Saran
Penelitian ini dapat digabungkan dengan penelitian Shameek Biswas et al [2] dan
penelitian Fangzhou Yao et al [38] menjadi SVD+IPCA, menggunakan SVD+PCA
untuk efisiensi waktu proses dan memaksimalkan variance, kemudian ICA untuk
Denoising beban vektor yang dihasilkan oleh PCA.
10. Acknowledgement
1. Bapak Dr.Ir. Edi Noersasongko, M.Kom selaku rektor Universitas Dian
Nuswantoro.
2. Bapak Dr. Abdul Syukur, M.Kom selaku direktur Pasca Sarjana
Universitas Dian Nuswantoro.
3. Bapak Dr. Ing. Vincent Suhartono, selaku pembimbing utama yang telah
banyak memberikan masukan dan pemikiran kepada penulis.
4. Bapak Dr. Stefanus Santosa, M.Kom selaku pembimbing tesis dan dosen
yang telah banyak memberikan ilmu dan konsep kepada penulis.
5. Bapak Romi Satrio Wahono, M.Eng selaku dosen yang telah banyak
memberikan pengetahuan, pemikiran, konsep, dan motivasi yang tiada
henti kepada penulis.
6. Bapak. Rahmat Widia Sembiring, M.Sc.IT, terima kasih untuk berbagi
paper penelitiannya dan pengetahuan khususnya bidang datamining pada
pengolahan awal data.
7. Bapak dosen-dosen
penguji yang telah memberikan masukan berupa
kritik dan saran yang membangun untuk perbaikan tesis ini.
8. YPIPT ICHSAN Gorontalo, yang telah memberikan kesempatan kepada
penulis untuk melanjutkan studi ketingkat Strata dua (S2)
9. Seluruh staf dosen dan pegawai tata usaha pada lingkungan Universitas
Dian Nuswantoro yang telah membantu selama proses studi.
DAFTAR PUSTAKA
[1] Hsinchun Chen; Mihail C. Roco;, "Global and Longitudinal Patent and
Literature Analysis," in Mapping Nano Technology Innovations and Knowledge,
Professor Ramesh Sharda and Prof. Dr. Stefan, Eds. Tucson, Arizona,
Arlington, Virginia, USA: springer.com, 2009, ch. 13: 978-0-387-71619-0, pp.
1-321.
[2] Biswas, Shameek; Storey, John D; Akey, Joshua M, "Mapping gene expression
quantitativetrait loci by singular value decomposition and independent
component analysis," IEEE Transaction On Computational Biology and
Bioinformatics, vol. 5, no. 7, pp. 1-14, May 2008.
[3] Sanga, S; Chou, T.Y; Cristini, V; Edgerton, M.E;, "Neural Network with KMeans Clustering via PCA for Gene Expression Profile Analysis," IEEE Computer Science and Information Engineering, vol. 3, pp. 670-673, April
2009.
[4] Tajunisha; Saravanan;, "Performance analysis of k-means with different
initialization methods for high dimensional data ," International Journal of
Artificial Intelligence & Applications (IJAIA), vol. 1, no. 4, pp. 44-52, October
2010.
[5] Panagis Magdalinos; Christos Doulkeridis; Michalis Vazirgiannis;, "Enhancing
Clustering Quality through Landmark-Based Dimensionality Reduction," ACM
Transactions on Knowledge Discovery from Data, vol. 5, no. 2, pp. 1-44,
Februari 2011.
[6] Jiawei Han ; Micheline Kamber;, Data Mining: Concepts and Techniques, 2nd
ed., Asma Stephan, Ed. San Francisco, USA: Morgan Kaufmann Publishers is
an imprint of Elsevier, 2007.
[7] Shanwen Zhang; Rongzhi Jing;, "Dimension Reduction Based on Modified
Maximum Margin Criterion for Tumor Classification ," in Fourth International
Conference on Information and Computing, China, 2011, pp. 552-554.
[8] M. Revathi, "Network Intrusion Detection System Using Reduced
Dimensionality," Indian Journal of Computer Science and Engineering (IJCSE),
vol. 2 , no. 1, pp. 61-67, 2010.
[9] Longcun Jin; Wanggen Wan; Yongliang Wu; Bin Cui; Xiaoqing Yu; Youyong
Wu;, "A Robust High-dimensional Data Reduction Method," The International
Journal of Virtual Reality, vol. 9, no. 1, pp. 55-60, 2010.
[10] R. Krakovsky; R. Forgac;, "Neural Network Approach to Multidimensional
Data Classification via Clustering," in IEEE 9th International Symposium on
Intelligent Systems and Informatics , Serbia, September 2011, pp. 169-174.
[11] Karunaratne, Thashmee ; Boström, Henrik; Norinder, Ulf;, "Pre-Processing
Structured Data for Standard Machine Learning Algorithms by Supervised
Graph Propositionalization - a Case Study with Medicinal Chemistry Datasets,"
in International Conference on Machine Learning and Applications, Sweden,
2010, pp. 1-6.
[12] D.Napoleon; S.Pavalakodi;, "A New Method for Dimensionality Reduction
using K Means Clustering Algorithm for High Dimensional Data Set,"
International Journal of Computer Applications (0975 – 8887), vol. 13, no. 7,
pp. 41-46, January 2011.
[13] Ethem Alpaydın, Introduction to Machine Learning, 2nd ed., Thomas Dietterich
et al., Eds. London, England: Cambridge, Massachusetts, 2010.
[14] B. B. Zhao and Y. Q. Chen, "Singular value decomposition (SVD) for extraction
of gravity anomaly associated with gold mineralization in Tongshi gold
field,Western Shandong Uplifted Block, Eastern China," School of Earth and
Mineral Resource, China University of Geosciences, Beijing- China, Nonlin.
Processes Geophys. doi:10.5194/npg-18-103-2011-, 2011.
[15] Jun Yan, Benyu Zhang, Ning Liu; Shuicheng Yan; Qiansheng Cheng; Weiguo
Fan; Qiang Yang; Wensi Xi; Zheng Chen;, "Effective and Efficient
Dimensionality Reduction for Large-Scale and Streaming Data Preprocessing,"
IEEE Transaction On Knowledge And Data Engineering, vol. 18, no. 2, pp. 114, Febbruari 2008.
[16] Ali Shadvar, "Dimension Reduction by Mutual Information discriminant
analysis," International Journal of Artificial Intelligence & Applications
(IJAIA), vol. 3, no. 3, pp. 23-35, May 2012.
[17] Chang, Cheng-Ding; Wang, Chien-Chih; Jiang, Bernard C;, "Singular Value
Decomposition Based Feature Extraction Technique for Physiological Signal
Analysis," Journal of Medical Systems., vol. 36, no. 3, pp. 1769 - 1777, June
2012.
[18] Stan Lipovetsky;, "PCA and SVD with nonnegative loadings," GfK Custom
Research for excelence, vol. 42, no. 1, pp. 1-30, Januari 2009.
[19] Sembiring, Rahmat Widia; Zain, Jasni Mohamad; Embong, Abdullah;,
"Dimension Reduction of Health Data Clustering," International Journal on
New Computer Architectures and Their Applications (IJNCAA), vol. 3, no. 1,
pp. 1041-1050, 2011.
[20] S.M. Rafizul Haque, "Singular Value Decomposition and Discrete," Department
of Interaction and System Design School of Engineering Blekinge Institute of
Technology, Sweden, Master Thesis MCS-2008:8, 2008.
[21] Taufik Fuadi Abidin ; Bustami Yusuf ; Munzir Umran;, "Singular Value
Decomposition for Dimensionality Reduction in Unsupervised Text Learning
Problems," in 2nd International Conference on Education Technology and
Computer (ICETC), Banda Aceh-Indonesia, 201O, pp. 422-426.
[22] Taro Konda; Yoshimasa Nakamura;, "A new algorithm for singular value
decomposition and its parallelization," Parallel Computing, vol. 02, no. 001, pp.
1-14, 2009.
[23] C.Venkata Narasimhulu; K.Satya Prasad;, "A Robust Watermarking Technique
based on Nonsubsampled Contourlet Transform and SVD," International
Journal of Computer Applications, vol. 16, no. 8, pp. 27-36, February 2011.
[24] Kumar, Nishith; Mohammed Nasser ; Subaran Chandra Sarker;, "A New
Singular Value Decomposition Based Robust Graphical Clustering Technique
and Its Application in Climatic Data," Journal of Geography and Geology, vol.
3, no. 1, pp. 227-238, September 2011.
[25] Pritha.D.N; L.Savitha; Shylaja.S.S ;, "Face Recognition by Feedforward Neural
Network using Laplacian of Gaussian filter and Singular Value Decomposition,"
in IEEE International Conference on Data Engineering, India, 2010, pp. 56-61.
[26] Hu Zhihua, "Binary Image Watermarking Algorithm Based on SVD," in
International Conference on Intelligent Human-Machine Systems and
Cybernetics, China, 2009, pp. 400-403.
[27] Satyanarayana Murty. P; M.Uday Bhaskar; P. Rajesh Kumar;, "A Semi-Blind
Reference Watermarking Scheme Using DWT-DCT-SVD for Copyright
Protection," International Journal of Computer Science & Information
Technology (IJCSIT), vol. 4, no. 2, pp. 69-82, April 2012.
[28] Lailil Muflikhah; Baharum Baharudin;, "Document Clustering using Concept
Space and Cosine Simila rity Measurement," in 2009 International Conference
on Computer Technology and Development, Malaysia, 2009, pp. 58 -62.
[29] Muhammad Marwan Muhammad Fuad; Pierre-François Marteau, "Speeding-up
the Similarity Search in Time Series Databases by Coupling Dimensionality
Reduction Techniqueswith a Fast-and-dirty Filter," in IEEE International
Conference on Semantic Computing, Vannes, France, 2010, pp. 101-104.
[30] Mario Navas; Carlos Ordonez;, "Efficient computation of PCA with SVD in
SQL," in ACM, Paris, June 2009, pp. 1-10.
[31] Rinsurongkawong, Waree; Carlos Ordonez;, "Microarray Data Analysis with
PCA in a DBMS," in DTMBIO Napa Valley, California, USA, 2008, pp. 13-20.
[32] Mari-Sanna Paukkeri, Ilkka Kivim¨ aki Santosh Tirunagari;, "Effect of
Dimensionality Reduction on Different Distance Measures in Document
Clustering," Springer-Verlag Berlin Heidelberg, vol. 3, pp. 167-176, 2011.
[33] Jha, Sunil K.; R. D. S. Yadava;, "Denoising by Singular Value Decomposition
and Its Application to Electronic Nose Data Processing," IEEE Sensor Journal,
vol. 11, no. 1, pp. 35-44, January 2011.
[34] Rúben D.M.A. Pereira; Rui J. Almeida, Uzay Kaymak;, "Predicting Septic
Shock Outcomes in a Database with Missing Data using Fuzzy Modeling,"
IEEE International Conference on Fuzzy Systems, vol. 27, no. 30, pp. 25072512, June 2011.
[35] Zhang Yun; Li Weihua; Chen Yang;, "The study of Multidimensional-Data flow
of Fishbone applied for Data mining," in Seventh ACIS International
Conference on Software Engineering Research, Management and Applications,
China, 2009, pp. 86-91.
[36] Ribeiro, Marcela X; Ferreira, Mônica R. P. ; Traina Jr., Caetano ;, "Data Preprocessing: A new algorithm for Feature Selection and Data Discretization," in
CSTST , Cergy-Pontoise, France, 2008, pp. 252-257.
[37] Oded , Maimon; Lior , Rokach;, Data Mining and Knowledge Discovery
Handbook, Second Edition ed., Maimon Oded and Rokach Lior, Eds. Tel-Aviv,
Israel: Springer New York Dordrecht Heidelberg London, 2010.
[38] Fangzhou Yao; Jeff Coquery; Kim-Anh Lê Cao;, "Independent Principal
Component Analysis for biologically meaningful dimension reduction of large
biological data sets," IEEE Transaction On Computational Biology and
Bioinformatics, vol. 13, no. 24, pp. 1-15, 2012.
Pernyataan Original tesis
Download