Sebuah Kajian Pustaka

advertisement
Konferensi Nasional Ilmu Sosial & Teknologi (KNiST)
Maret 2017, pp. 19~24
19
PENDEKATAN METODE FEATURE EXTRACTION
DENGAN ALGORITMA NAÏVE BAYES
Riski Annisa
AMIK BSI Pontianak
e-mail: [email protected]
Abstrak
Feature adalah alat ukur proses yang sedang diamati. Menggunakan seperangkat
feature, setiap algoritma pembelajaran dapat melakukan proses klasifikasi. Penelitian ini akan
melakukan pendekatan metode feature extraction. Dengan metode principal componen analysis
(PCA), independent component analysis (ICA), dan self organizing map (SOM) dengan
algoritma klasifikasi Naïve Bayes. Pendekatan feature extraction yang diusulkan bertujuan
untuk mengatasi masalah yang timbul dari klasifikasi Naïve Bayes dengan mengukur kinerja
pengurangan dimensi algoritma klasifikasi Naïve Bayes menggunakan dataset heart disease for
male. Untuk validasi menggunakan 10-fold cross validation. Hasil pengukuran algoritma dengan
membandingkan accuracy dan tingkat error dari ketiga metode yang digabung dengan
algoritma Naïve Bayes. Metode feature extraction dan Naïve Bayes tersebut dimanfaatkan
sebagai pendekatan klasifikasi dan perbandingan yang dibuat diukur dengan membandingkan
accuracy dari ketiganya. Hasil penelitian didapatkan dari Confusion Matrix untuk mendapatkan
nilai accuracy, sensitivity/recall, specitifity, FPrate, precision, F measure, dan G-mean. Hasilnya
didapatlah nilai accuracy dan tingkat error yang menunjukkan metode feature extraction ICA
lebih baik kinerja pengurangan dimensinya diimplementasikan menggunakan Naïve Bayes
dibandingkan PCA dan SOM yaitu sebesar 69.84%.
Keywords: Feature Extraction, Naïve Bayes, PCA, ICA, SOM
1. Pendahuluan
Feature adalah alat ukur proses yang sedang
diamati. Menggunakan seperangkat feature,
setiap
algoritma
pembelajaran
dapat
melakukan
proses
klasifikasi.
Dalam
beberapa tahun terakhir dalam aplikasi
pembelajaran algoritma atau pengenalan
pola, domain feature telah diperluas dari
puluhan hingga ratusan variabel atau feature
yang digunakan dalam aplikasi tersebut.
Beberapa teknik yang dikembangkan untuk
mengatasi masalah mengurangi variabel
yang tidak relevan dan berlebihan yang
merupakan
tugas
menantang
(Chandrashekar & Sahin, 2014).
Ada
dua
pendekatan
utama
untuk
pengurangan dimensi: feature extraction dan
feature selection (Bonev, Escolano, &
Cazorla,
2008).
Feature
extraction
merupakan masalah penting dalam klasifikasi
data dengan dimensi besar. Tujuan dari
feature extraction adalah untuk menghasilkan
satu set fitur yang memiliki dimensi lebih kecil
dari dimensi dari data asli, sementara untuk
tetap mempertahankan karakteristik data asli
yang cukup untuk mengklasifikasikan data
(Park & Choi, 2009). Metode feature
extraction digambarkan dari dimensi data
yang tinggi ke ruang dimensi rendah dengan
membangun ruang fitur baru. Saat ini, ada
banyak metode ekstraksi fitur, seperti analisis
komponen
utama
(PCA),
non-linear
dimensionality
reduction
(NLDR),
independent component analysis (ICA), linear
discriminant analysis (LDA), etc (Wang &
Wei, 2016).
Beberapa teknik klasifikasi yang telah
diusukan dan meningkat selama beberapa
tahun
misalnya:
Linear
supervised
classification yaitu: Rule-based classifier,
Nearest-Neighbor
classifier,
Bayesian
classifier, Principal Component Analysis
(PCA), Decision Trees, Fisher discriminant
analysis (FDA), Partial Least Squares (PLS);
dan teknik non-linear classification yaitu:
Artificial Neural Networks (ANN), Support
Vector Machine (SVM), dan lainnya (Jing &
Hou, 2015). Klasifikasi Naïve Bayes adalah
klasifikasi probabilistik yang sederhana
menerapkan teorema Bayes dengan asumsi
independensi yang kuat (Li, Wu, & Ye, 2015)
dan Principal Component Analysis dan
Independent Component Analysis banyak
digunakan adalah baik pengurangan dimensi
dan alat diagnosis kesalahan. Selain
diterapkan sebagai pengurangan dimensi,
Diterima 28 Februari 2017; Revisi 07 Maret 2017; Disetujui 15 Maret 2017
ISBN: 978-602-61242-0-3
juga diterapkan untuk kesalahan klasifikasi
(Jing & Hou, 2015)(Cai, Tian, & Chen, 2014).
Penelitian ini akan melakukan pendekatan
metode feature extraction. Dengan metode
principal
componen
analysis
(PCA),
independent component analysis (ICA), dan
self organizing map (SOM) dengan algoritma
klasifikasi Naïve Bayes. Metode feature
extraction dan Naïve Bayes tersebut
dimanfaatkan sebagai pendekatan klasifikasi
dan perbandingan yang dibuat diukur dengan
membandingkan accuracy dari ketiganya.
Paper ini disusun dengan urutan sebagai
berikut: Pada bagian 2, menjelaskan metode
penelitian yang diusulkan akan dipaparkan.
Selanjutnya pada bagian 3 akan menyajikan
pembahasan. Kemudian pada bagian akhir
bagian 4 akan disampaikan kesimpulan dari
penelitian yang dilakukan.
2. Metode Penelitian
Penelitian ini membahas performa salah satu
teknik feature extraction yaitu PCA dengan
algoritma klasifikasi Naïve Bayes. Dalam
penelitian ini
menerapkan tiga aturan
pengurangan dimensi algoritma klasifikasi
Naïve Bayes, yaitu (NB + PCA), (NB + ICA),
dan (NB + SOM). Karena pendekatan feature
extraction yang diusulkan bertujuan untuk
mengatasi masalah yang timbul dari
klasifikasi Naïve Bayes.
Naïve Bayes didasarkan pada teorema
Bayes. Oleh karena itu, meninjau teorema
Bayes dan kemudian menggambarkan
klasifikasi. List dari paket software data
mining yang mendukung pembelajaran
klasifikasi Naïve Bayes tersedia. Beberapa
aplikasi klasifikasi Naïve Bayes tersedia
dengan referensi (Brown, 2014). Teorema
Bayes berasal dari persamaan:
( | ) ( )
( )
( | )
Klasifikasi Naïve Bayes memperkirakan
persamaan probabilitas berikut:
( )
( | )
Keterangan:
n , total nomor dari point data pada data set
training
ny , nomor dari point data target class y
ny&xi , nomor dari point data dengan target
class y
KNiST, 30 Maret 2017
i , variabel atribut yang mengambil nilai dari xi
PCA adalah teknik pengurangan variabel. Hal
ini digunakan ketika variabel yang sangat
berkorelasi. Hal ini mengurangi jumlah
variabel yang diamati untuk sejumlah kecil
komponen
utama
yang
menjelaskan
sebagian dari varians dari variabel yang
diamati. Ini adalah prosedur sampel yang
besar. Jumlah total varians dalam PCA
adalah sama dengan jumlah variabel yang
diamati dianalisis. Dalam PCA, mengamati
variabel yang standar, misalnya, mean = 0,
standar deviasi = 1, diagonal dari matriks
sama dengan 1. jumlah perbedaan dijelaskan
sama dengan jejak matriks (jumlah dari
diagonal dari korelasi membusuk matriks).
Jumlah komponen diekstraksi adalah sama
dengan jumlah variabel yang diamati dalam
analisis (Chandrashekar & Sahin, 2014).
Konsep sentral dari PCA adalah untuk
menurunkan dimensi dari dataset yang
memiliki berbagai variabel yang saling terkait
sementara tetap variasi di dalamnya
sebanyak mungkin. Ini membangun yang
disebut pemuatan vektor terdiri dari
sekelompok vektor orthogonal. vektor ini
diurutkan
menurut
nilai
varians.
Mempertimbangkan n × m dataset training (n
observasi dan variabel pengamatan m) dan
susun nilai tersebut ke matriks X, maka
pemuatan vektor dihitung melalui dekomposisi
eigenvalue.
mxm
Dimana V ∈ R
adalah matriks kesatuan,
dan Λ adalah matriks diagonal utama yang
diurutkan berdasarkan besarnya penurunan
nilai eigen nyata non negatif di sepanjang
diagonal utamanya, (yaitu, λ1 ≥ λ2 ... ≥ λm ≥
0) dan unsur-unsur sisa diagonal utama
adalah nol. Vektor-vektor kolom dalam
matriks V ortogonal, dan vektor dalam
matriks yang diberi nama pemuatan vektor,
th
λi adalah i nilai karakteristik dari dataset
2
pelatihan. Statistik T dapat digunakan untuk
mendeteksi kesalahan untuk proses data
yang berhubungan antara dua variabel.
T
n×m
Beranggapan bahwa Λ=Σ Σ , Σ∈R
adalah
terbalik, representasi PCA berikut digunakan
2
untuk menghitung statistik T
secara
langsung.
(
)
2
Statistik T untuk ruang dimensi yang lebih
rendah harus dihitung sebagai berikut:
20
ISBN: 978-602-61242-0-3
Dimana P terdiri dari nilai-nilai singular
terbesar, Σα mengandung baris pertama dari
2
Σ. Statistik T berasal dari:
(
)(
(
)
)
( (
))
Dimana α adalah tingkat signifikan (Jing &
Hou, 2015).
SOM adalah salah satu model jaringan saraf
yang paling populer untuk belajar tanpa
pengawasan. kelompok SOM contoh data
yang sama ke dalam 2D atau 3D kisi, yaitu,
peta output. Di sisi lain, contoh data yang
berbeda akan terpisah dalam peta output.
Selain itu, beberapa sifat ruang input penting
dapat disimpulkan dari itu peta keluaran.
Algoritma SOM secara singkat dijelaskan
n
dalam apa yang berikut. Misalkan X ϵ R data
manifold n-dimensi (De la Hoz, De La Hoz,
Ortiz, Ortega, & Prieto, 2015). Peta SOM
terdiri dari unit d, masing-masing diwakili oleh
ωi model vektor n-dimensi. Untuk setiap input
data misalnya v, Best Matching Unit (BMU)
didefinisikan sebagai unit ωi terdekat v:
faktor tersembunyi yang mendasari satu set
variabel acak. Dibandingkan dengan analisis
komponen utama yang mencoba untuk
mengubah Ulasan variabel ini menjadi satu
set variabel berkorelasi, ICA mencoba untuk
mengubah mereka menjadi variabel baru
yang saling independen atau sebagai
independen mungkin satu sama lain. Oleh
karena itu teknik yang lebih kuat yang telah
Banyak digunakan dalam memecahkan
berbagai masalah klasifikasi, misalnya
analisis microarray data dan klasifikasi EKG
beat (Fan, Poh, & Zhou, 2009).
Untuk mengukur kinerja pengurangan
dimensi algoritma klasifikasi Naïve Bayes
dengan menggunakan dataset heart disease
for male. Untuk validasi menggunakan 10fold cross validation. Hasil pengukuran
algoritma dengan membandingkan accuracy
ketiga metode yang digabung dengan
algoritma
Naïve
Bayes.
Partisi Dataset
Validation - 1
Validation - 2
Validation - 3
Validation - 4
Validation - 5
∈
Validation - 6
Dimana
adalah jarak Euclidean dan X
adalah dataset pelatihan. Setelah BMU
ditentukan untuk iterasi saat ini, vektor Model
diperbarui sesuai dengan aturan:
Validation - 7
Validation - 8
Validation - 9
Validation - 10
(
)
( )
( ) ( )(
( ))
Gambar 1. Stratified 10 Fold Cross Validation
dimana α(t) adalah tingkat pembelajaran dan
hi(t) adalah fungsi yang mendefinisikan
lingkungan sekitar ωi BMU. Biasanya, α(t)
berkurang menyusul aturan peluruhan
eksponensial dan hi adalah teknik Gaussian
yang lebar menyusut dalam waktu (iterasi).
SOM telah diinisialisasi linear sebagai berikut
untuk menghindari efek acak. Linear SOM
prototipe
inisialisasi
bertujuan
untuk
mengakomodasi nilai-nilai eigen data training
dan vektor eigen. Metode inisialisasi ini
menyiratkan bahwa dimensi pertama dari
prototipe diatur secara proporsional ke
komponen utama pertama dan bahwa
dimensi kedua diatur proporsional untuk
komponen utama kedua (De la Hoz et al.,
2015).
Independent Component Analysis (ICA)
adalah yang teknik multivariate statistical
yang relatif baru untuk menemukan faktor-
KNiST, 30 Maret 2017
Proses pengujian metode dimulai dari
pembagian dataset dengan metode 10-fold
cross validation yang membagi dataset
menjadi dua yaitu data training dan data
testing. Selanjutnya diterapkan tahapan
evaluasi menggunakan Area Under Curve
(AUC) untuk mengukur hasil akurasi dari
performa model klasifikasi. Hasil akurasi
dilihat
menggunakan
curva
Receiver
Operating Characteristic (ROC) dan hasil
confusion matrix. ROC menghasilkan dua
garis dengan bentuk true positive sebagai
garis vertikal dan false positive sebagai garis
horizontal. Pengukuran akurasi dengan
confusion matrix dapat dilihat pada tabel
berikut ini:
21
ISBN: 978-602-61242-0-3
Tabel 1. Confusion Matrix
Actual True Actual False
True
False
Predicted
Positive
Negative(FN)
True
(TP)
False
True
Predicted
Positive
Negative
False
(FP)
(TN)
Formulasi
berikut:
perhitungan
adalah
sebagai
Gambar 2. Model Penerapan Pendekatan
Feature Extraction dengan Algoritma Naïve
Bayes
√
Dalam pengklasifikasian data menggunakan
AUC penjelasannya sebagai berikut:
Tabel 2. Nilai AUC dan Keterangan
Nilai AUC
Klasifikasi
excellent classification
0.90 - 1.00
good classification
0.80 - 0.90
fair classification
0.70 - 0.80
poor classification
0.60 - 0.70
failure
0.50 - 0.60
Hasil
pengukuran
algoritma
dengan
membandingkan accuracy ketiga metode
yang digabung dengan algoritma Naïve
Bayes.
3. Pembahasan
Dalam eksperimen ini menggunakan dataset
heart disease male. Dataset diambil dari UCI
repository yang terdiri dari data numerik dan
nominal.
KNiST, 30 Maret 2017
Metode yang diuji untuk pengurangan
dimensi algoritma klasifikasi Naïve Bayes
dengan principal component analysis (PCA),
independent component analysis (ICA), dan
self organizing map (SOM). Hasil eksperimen
yang disajikan dalam confusion matrix untuk
mendapatkan
hasil
accuracy,
sensitivity/recall, specitifity, FPrate, precision,
F measure, dan G-mean. Confusion matrix
merupakan
matrik
2
dimensi
yang
menggambarkan perbandingan antara hasil
prediksi dengan kenyataan.
3.1. Naïve Bayes dan PCA
Berikut ini tabel pengukuran menggunakan
Confusion Matrix yang didapat dari algoritma
Naïve Bayes dengan Metode Principal
Component Analysis (PCA):
Tabel 3. Confusion Matrix NB+PCA
True
False
Pred. True
19
10
Pred. False
10
24
Dari tabel tersebut didapat perhitungan
accuracy, sensitivity/recall, specitifity, FPrate,
precision, F measure, dan G-mean.
22
ISBN: 978-602-61242-0-3
3.3. Naïve Bayes dan SOM
Berikut ini tabel pengukuran menggunakan
Confusion Matrix yang didapat dari algoritma
Naïve Bayes dengan Metode Self Organizing
Map (SOM):
Tabel 5. Confusion Matrix NB+SOM
True
False
Pred. True
11
5
Pred. False
18
29
Dari tabel tersebut
sebagai berikut:
didapat
perhitungan
√
3.2. Naïve Bayes dan ICA
Berikut ini tabel pengukuran menggunakan
Confusion Matrix yang didapat dari algoritma
Naïve Bayes dengan Metode Independent
Component Analysis (PCA):
Tabel 4. Confusion Matrix NB+ICA
True
False
Pred. True
13
7
Pred. False
12
31
Dari tabel tersebut
sebagai berikut:
didapat
perhitungan
√
Berdasarkan perhitungan dari penggabungan
ketiga metode dengan algoritma Naïve
bayes, dapat dijabarkan dalam tabel berikut:
Tabel 6. Hasil Perhitungan dari Confusion
Matrix
NB+PCA NB+ICA NB+SOM
Accuracy
Recall
Spesificity
FPrate
Precision
F-Measure
√
KNiST, 30 Maret 2017
Dari tabel diatas menunjukkan hasil accuracy
dan spesificity tertinggi pada metode
NB+ICA, sedangkan nilai recall dan FPrate
oleh metode NB+SOM, serta nilai precision
dan f-measure oleh metode NB+PCA.
Dikukur dari tingkat akurasinya maka metode
23
ISBN: 978-602-61242-0-3
ICA lebih baik dibanding PCA dan SOM pada
Naïve Bayes. Jika kita bandingkan lagi
dengan tingkat error masing-masing metode
dengan Naïve Bayes maka didapatkan data
sebagai berikut:
Tabel 7. Tingkat Error masing-masing
metode
NB+PCA
NB+ICA
NB+SOM
0.3175
0.3016
0.3651
Dari data tabel diatas didapatkan hasil bahwa
NB+ICA memiliki tingkat error yang jauh lebih
kecil dari pada PCA dan SOM yaitu sebesar
0.3016. Semakin kecil implikasi error suatu
metode maka metode tersebut semakin baik.
Dari hasil perbandingan nilai accuracy tertingi
sebesar 69.86% dan memiliki tingkat error
terkecil
maka
kinerja
pengurangan
dimensinya akan semakin baik.
4. Simpulan
Penelitian ini menggunakan dataset heart
disease for male dengan mengkomparasi
algoritma Naïve Bayes dengan metode
feature extraction untuk mengukur kinerja
pengurangan dimensi algoritma Naïve Bayes.
Dengan menggunakan validasi 10-fold cross
validation. Dengan menggunakan dataset
untuk menguji metode feature extraction
terbaik dengan algoritma Naïve Bayes.
Menggunakan Confusion Matrix untuk
mendapatkan nilai accuracy, sensitivity/recall,
specitifity, FPrate, precision, F measure, dan
G-mean.
Hasil
penelitian
dengan
menggunakan pengukuran accuracy dan
tingkat error menunjukkan metode feature
extraction ICA lebih baik kinerja pengurangan
dimensinya diimplementasikan menggunakan
Naïve Bayes dibandingkan PCA dan SOM
yaitu sebesar 69.84%.
Referensi
Bonev, B., Escolano, F., & Cazorla, M.
(2008). Feature selection, mutual
information, and the classification of
high-dimensional patterns: Applications
to image classification and microarray
data analysis. Pattern Analysis and
Applications,
11(3–4),
309–319.
https://doi.org/10.1007/s10044-0080107-0
Brown, M. S. (2014). (For Dummies) Meta S.
Brown-Data Mining For Dummies-Wiley
Publishing Inc. (2014).pdf. Retrieved
KNiST, 30 Maret 2017
from www.wiley.com
Cai, L., Tian, X., & Chen, S. (2014). A
process monitoring method based on
noisy independent component analysis.
Neurocomputing,
127,
231–246.
https://doi.org/10.1016/j.neucom.2013.0
7.029
Chandrashekar, G., & Sahin, F. (2014). A
survey on feature selection methods.
Computers and Electrical Engineering,
40(1),
16–28.
https://doi.org/10.1016/j.compeleceng.2
013.11.024
De la Hoz, E., De La Hoz, E., Ortiz, A.,
Ortega, J., & Prieto, B. (2015). PCA
filtering and probabilistic SOM for
network
intrusion
detection.
Neurocomputing,
164,
71–81.
https://doi.org/10.1016/j.neucom.2014.0
9.083
Fan, L., Poh, K. L., & Zhou, P. (2009). A
sequential feature extraction approach
for na??ve bayes classification of
microarray data. Expert Systems with
Applications,
36(6),
9919–9923.
https://doi.org/10.1016/j.eswa.2009.01.0
75
Jing, C., & Hou, J. (2015). SVM and PCA
based fault classification approaches for
complicated
industrial
process.
Neurocomputing,
167,
636–642.
https://doi.org/10.1016/j.neucom.2015.0
3.082
Li, L., Wu, Y., & Ye, M. (2015). Experimental
comparisons of multi-class classifiers.
Informatica (Slovenia), 39(1), 71–85.
Park, M. S., & Choi, J. Y. (2009). Theoretical
analysis on feature extraction capability
of class-augmented PCA. Pattern
Recognition,
42(11),
2353–2362.
https://doi.org/10.1016/j.patcog.2009.04.
011
Wang, S., & Wei, J. (2016). Feature selection
based on measurement of ability to
classify subproblems. Neurocomputing,
(March),
0–1.
https://doi.org/10.1016/j.neucom.2016.1
0.062
24
Download