UJI KINERJA DAN ANALISIS K-SUPPORT VECTOR NEAREST

advertisement
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
UJI KINERJA DAN ANALISIS K-SUPPORT VECTOR NEAREST
NEIGHBOR DENGAN SVM DAN ANN BACK-PROPAGATION
Eko Prasetyo1), Syariful Alim2), Harunur Rosyid3)
1,2)
3)
Program Studi Teknik Informatika, Fakultas Teknik Universitas Bhayangkara Surabaya
Program Studi Teknik Informatika Fakultas Teknik Universitas Muhammadiyah Gresik
email: [email protected]), [email protected]), [email protected])
Abstrak
Algoritma K-Support Vector Nearest Neighbor (K-SVNN) menjadi salah satu alternative metode hasil evolusi K-Nearest
Neighbor (K-NN) yang bertujuan untuk mengurangi waktu yang digunakan pada saat prediksi tetapi diharapkan dapat tetap
mempertahankan akurasi prediksi. Metode ini masih relatif muda sehingga baru dibandingkan hanya dengan metode-metode
berbasis K-NN lainnya. Dalam penelitian ini dilakukan analisis perbandingan kesamaan, perbedaan, dan kinerja terhadap
metode ANN Error Back-Propagation dan Support Vector Machine (SVM). Pengujian dengan perbandingan ini penting
untuk mengetahui keunggulan dan kelemahan relatif yang dimiliki oleh K-SVNN. Dengan mengetahui keunggulan dan
kelemahan maka metode tersebut dapat dibuktikan baik tidaknya ketika diimplementasikan. Hasil pengujian menunjukkan
bahwa K-SVNN pada satu sisi lebih baik sedangkan pada sisi lain tidak lebih baik daripada dua metode pembanding lainnya.
Pengujian dilakukan baik pada saat pelatihan maupun prediksi. Kinerja pelatihan diukur dalam hal waktu yang digunakan
untuk pelatihan, kinerja prediksi diukur dalam hal waktu yang digunakan untuk prediksi dan akurasi prediksi yang didapat.
Kata kunci: Support Vector; Nearest Neighbor; Back-propagation; perbandingan; kinerja.
1.
Pendahuluan
Salah satu algoritma klasifikasi yang banyak
mendapat perhatian para peneliti dan pembangun
aplikasi adalah K-Nearest Neighbor (K-NN). K-NN
juga masuk dalam jajaran 10 metode popular dalam
data mining [4]. Kesederhanaan pada algoritma yang
membuat K-NN mempunyai daya tarik untuk
diimplementasikan dalam berbagai aplikasi. Tetapi
kelemahan yang dihadapi K-NN adalah lamanya
waktu yang digunakan untuk melakukan prediksi [2].
Masalah ini juga menjadi perhatian banyak peneliti
untuk memperbaikinya agar kinerja waktu prediksi
menjadi lebih singkat tetapi kinerja akurasi tetap baik.
Karena hal tersebut maka algoritma K-NN telah
mengalami banyak evolusi dalam berbagai penelitian
baik untuk meningkatkan kinerja akurasi maupun
kinerja waktu prediksi [5][6][7]. Hal lain yang
penting untuk diketahui adalah bahwa jika K-NN
versi klasik tidak ada proses pelatihan sama sekali,
maka pada metode-metode berbasis K-NN yang
berkembang ternyata secara implisit langung maupun
tidak langsung memerlukan waktu untuk melakukan
pelatihan.
Algoritma K-Support Vector Nearest Neighbor
(K-SVNN) [1] yang diusulkan Prasetyo bertujuan
untuk melakukan reduksi pada set data latih yang
digunakan untuk acuan dalam proses prediksi.
Parameter penting yang berpengaruh pada hasil
reduksi adalah K, dimana K adalah jumlah tetangga
terdekat yang dilibatkan untuk mendapat support
vector yang mempunyai pengaruh dalam penentuan
keputusan hasil prediksi. Support vector yang
dimaksud disini adalah data-data yang berada pada
posisi disekitar garis keputusan. Garis keputusan
adalah garis yang membagi data menjadi dua kelas
atau lebih berbeda. Pada berbagai kasus garis ini tidak
linear, tetapi K-SVNN dan metode-metode berbasis
K-NN lainnya dapat memproses data dengan garis
keputusan yang tidak linear. K-SVNN membutuhkan
K sebagai parameter yang menentukan jumlah data
yang direduksi. Pengujian kinerja metode secara lokal
untuk mengamati penggunaan K menyatakan bahwa
semakin kecil nilai K maka jumlah data yang tersisa
sebagai support vector semakin sedikit, begitu pula
sebaliknya. Hasil pengujian kinerja metode secara
lokal lainnya menyatakan bahwa prediksi yang
dilakukan K-SVNN tidak dipengaruhi secara
signifikan oleh nilai K yang digunakan pada saat
reduksi.
Pengujian kinerja secara global yang dilakukan
sebelumnya adalah membandingkan K-SVNN dengan
metode-metode berbasis K-NN lainnya seperti: KNN, Template Reduction K-Nearest Neighbor
(TRKNN), dan Support Vector K-NN (SV-KNN).
Hasil pengujian menyatakan bahwa kinerja akurasi
prediksi dan waktu prediksi K-SVNN relatif lebih
baik dibanding metode lainnya, hal ini terlihat dari
akurasi yang didapatkan K-SVNN pada sebagian set
data yang diujikan lebih baik daripada metode lainnya
tetapi pada set data yang lain tidak lebih baik daripada
metode lainnya. Sedangkan jumlah data yang
dikeluarkan dari set data lebih banyak dibanding
B-173
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
metode lainnya, tetapi untuk hal ini masih
dipengaruhi nilai K yang digunakan.
Pengujian yang belum dilakukan pada K-SVNN
adalah uji kinerja K-SVNN yang dibandingkan
dengan metode klasifikasi yang lain. Perbandingan
kinerja yang diamati adalah waktu yang digunakan
untuk pelatihan, waktu yang digunakan untuk
prediksi, dan akurasi kinerja prediksi.
Makalah ini dibagi menjadi 5 bagian. Bagian 1
menyajikan pendahuluan yang melatarbelakangi
penulis melakukan penelitian. Bagian 2 menyajikan
penelitian-penelitian terkait yang menjadi dasar bagi
penulis untuk melakukan penelitian. Bagian 3
menyajikan analisis perbandingan berbagai aspek
ketiga metode yang dibandingkan. Bagian 4
menyajikan pengujian dan analisis yang dilakukan
untuk mengukur kinerja ketiga metode. Dan bagian 5
menyajikan simpulan dari hasil penelitian dan saran
untuk penelitian berikutnya.
2.
digunakan, semakin tinggi nilai K yang digunakan
maka waktu yang dibutuhkan untuk melakukan
prediksi juga semakin lama, begitu pula sebaliknya.
K-SVNN juga melakukan generalisasi terhadap KNN dimana untuk K sama dengan jumlah data, maka
tidak data yang dikeluarkan sehingga K-SVNN
menghasilkan support vector yang sama dengan data
latih sebelumnya.
Hasil uji kinerja yang dibandingkan dengan
metode-metode serumpun yaitu TR-KNN dan SVKNN menunjukkan bahwa kinerja akurasi prediksi
dan waktu prediksi K-SVNN relatif lebih baik
dibanding metode lainnya, hal ini terlihat dari akurasi
dan waktu prediksi yang didapatkan K-SVNN pada
sebagian set data yang diujikan lebih baik daripada
metode lainnya tetapi pada set data yang lain tidak
lebih baik daripada metode lainnya. Sedangkan
jumlah data yang dikeluarkan dari set data lebih
banyak dibanding metode lainnya, tetapi untuk hal ini
masih dipengaruhi nilai K yang digunakan.
Tinjauan Pustaka
2.2 ANN Error Back-Propagation
2.1 K-Support Vector Nearest Neighbor
Prasetyo [1] mengusulkan K-SVNN sebagai
metode untuk mereduksi data latih sebelum
melakukan prediksi. Ada waktu yang diperlukan KSVNN untuk melakukan tahap reduksi (disebut
sebagai pelatihan). Hasil reduksi adalah sejumlah data
latih yang punya pengaruh pada fungsi tujuan
kemudian data latih yang didapatkan tersebut
disimpan untuk digunakan sebagai acuan pada saat
prediksi. Prasetyo menyatakan bahwa K-SVNN
termasuk dalam kategori semi eiger learning. Hasil
pengujian
Parameter penting yang berpengaruh pada hasil
reduksi adalah K, dimana K adalah jumlah tetangga
terdekat yang dilibatkan untuk mendapat support
vector yang mempunyai pengaruh dalam penentuan
keputusan hasil prediksi. Support vector yang
dimaksud disini adalah data-data yang berada pada
posisi disekitar garis keputusan. Garis keputusan
adalah garis yang membagi data menjadi dua kelas
atau lebih berbeda. Pada berbagai kasus garis ini tidak
linear, tetapi K-SVNN dan metode-metode berbasis
K-NN lainnya dapat memproses data dengan garis
keputusan yang tidak linear. K-SVNN membutuhkan
K sebagai parameter yang menentukan jumlah data
yang direduksi. Pengujian kinerja metode secara lokal
untuk mengamati penggunaan K menyatakan bahwa
semakin kecil nilai K maka jumlah data yang tersisa
sebagai support vector semakin sedikit, begitu pula
sebaliknya. Hasil pengujian kinerja metode secara
lokal lainnya menyatakan bahwa prediksi yang
dilakukan K-SVNN tidak dipengaruhi secara
signifikan oleh nilai K yang digunakan pada saat
reduksi. Waktu yang diperlukan untuk melakukan
prediksi juga berbanding lurus terhadap nilai K yang
Artificial Neural Network (ANN) merupakan
suatu konsep rekayasa pengetahuan dalam bidang
kecerdasan buatan yang didesain dengan mengadopsi
sistem saraf manusia, dimana pemrosesan utama
sistem syaraf manusia ada di otak. ANN terdiri dari
sebuah unit pemroses yang disebut neuron yang berisi
penambah (adder) dan fungsi aktivasi, sejumlah
bobot, dan sejumlah vektor masukan [3]. Fungsi
aktivasi yang berguna untuk mengatur keluaran yang
diberikan oleh neuron. ANN membutuhkan proses
pelatihan agar ANN dapat melakukan prediksi kelas
suatu data uji baru yang ditemukan. Proses pelatihan
dalam ANN dapat menggunakan algoritma-algoritma
seperti: Perceptron, Backpropagation, Self Organizing
Map (SOM), Delta, Associative Memori, Learning
Vector Quantization, dan sebagainya.
Multi Layer Percetron (MLP) merupakan ANN
turunan dari perceptron, berupa ANN feedforward
dengan satu atau lebih layer tersembunyi (hidden
layer). Biasanya, jaringan terdiri dari satu layer
masukan, setidaknya satu layer neuron komputasi
ditengah (tersembunyi/hidden), dan sebuah layer
neuron komputasi keluaran. Sinyal masukan
dipropagasikan dengan arah maju pada layer-perlayer.
Banyak algoritma pelatihan yang tersedia, tetapi
yang paling popular adalah back-propagation. Metode
ini diusulkan pertama kali pada tahun 1969 oleh
Bryson dan Ho. Cara pelatihan yang dilakukan
algoritma back-propagation sama dengan perceptron.
Sejumlah data latih sebagai pola masukan diberikan
pada jaringan. Jaringan menghitung pola keluaran,
jika ada error (perbedaan antara target keluaran yang
diinginkan dengan nilai keluaran) maka bobot dalam
jaringan akan diubah untuk mengurangi error
tersebut.
B-174
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
Dalam
MLP
back-propagation,
algoritma
pelatihan mempunyai dua fase. Fase pertama,
vektor/pola masukan diberikan pada layer masukan.
Jaringan kemudian merambatkan pola masukan dari
layer masukan ke hidden layer pertama, kemudian
diteruskan ke layer hidden berikutnya sampai nilai
keluaran dibangkitkan oleh layer keluaran. Fase
kedua, jika nilai/pola keluaran berbeda dengan nilai
keluaran yang diinginkan, error akan dihitung
kemudian dirambatkan balik dari layer keluaran
sampai kembali ke layer masukan. Bobot
dimodifikasi selama proses perambatan balik.
Parameter-parameter yang mempengaruhi kinerja
ANN Error Back-propagation sebagai berikut:
1. Jumlah layer tersembunyi. Layer ini berfungsi
untuk memetakan fitur-fitur tersembunyi dari
fungsi tujuan kemudian menyalurkan sinyal
keluarannya ke layer setelahnya. Dengan satu
hidden
layer,
dapat
merepresentasikan
sembarang fungsi kontinyu dari sinyal masukan,
dan dengan dua hidden layer fungsi
diskontinyupun dapat direpresentasikan.
2. Jumlah neuron dalam layer tersembunyi.
Neuron dalam hidden layer mendeteksi fiturfitur tersembunyi, bobot dari neuron dalam
hidden
layer
merepresentasikan
fitur
tersembunyi dalam vektor masukan. Fitur-fitur
tersembunyi ini kemudian digunakan oleh layer
keluaran dalam penentuan pola/kelas keluaran.
Semakin besar jumlah neuron dalam layer
tersembunyi maka proses pelatihan menjadi
lebih lama, tetapi jumlah yang sedikit dapat
menyebabkan ANN manjadi underfitting.
3. Laju
pelatihan
(),
digunakan
untuk
menentukan laju perubahan bobot. Nilainya
dalam jangkauan 0 ≤  ≤ 1.
4. Momentum
(),
digunakan
untuk
menyeimbangkan proses pelatihan dengan
overfitting yang kemungkinan dapat terjadi.
Nilainya dalam jangkauan 0 ≤  ≤ 1.
5. Target error, digunakan untuk menentukan
kriteria error yang harus dicapai sebagai ukuran
bahwa ANN berhasil melakukan generalisasi
data dengan baik. Nilainya biasanya kecil, e ≤
0.001
6. Jumlah iterasi, nilainya digunakan untuk
membatasi jumlah pelatihan jika targer error
belum tercapai.
2.3 Support Vector Machine
Metode
klasifikasi
yang
kini
banyak
dikembangkan dan diterapkan adalah Support Vector
Machine (SVM). Metode ini berakar dari teori
pembelajaran statistik yang hasilnya sangat
menjanjikan untuk memberikan hasil yang lebih baik
dari metode yang lain [3]. SVM juga bekerja dengan
baik pada dat set dengan dimensi yang tinggi, bahkan
SVM yang menggunakan teknik kernel harus
memetakan data asli dari dimensi asalnya menjadi
dimensi lain yang relatif lebih tinggi. Jika pada ANN,
semua data latih akan dipelajari selama proses
pelatihan, SVM tidak seperti itu, hanya sejumlah data
terpilih saja yang berkontribusi untuk membentuk
model yang digunakan dalam klasifikasi yang akan
dipelajari. Hal ini menjadi kelebihan SVM karena
tidak semua data latih akan dipandang untuk
dilibatkan dalam setiap iterasi pelatihannya. Data-data
yang berkontribusi tersebut disebut Support Vector.
Konsep klasifikasi dengan SVM dapat dijelaskan
secara sederhana sebagai usaha mencari hyperplane
terbaik yang berfungsi sebagai pemisah dua buah
kelas data pada input space. Hyperplane (decision
boundary) pemisah terbaik antara kedua kelas dapat
ditemukan dengan mengukur margin hyperplane
tersebut dan mencari titik maksimalnya. Margin
adalah jarak antara hyperplane tersebut dengan data
terdekat dari masing-masing kelas. Data yang paling
dekat ini disebut sebagai support vector. Usaha untuk
mencari lokasi hyperplane ini merupakan inti dari
proses pelatihan pada SVM.
Parameter-parameter yang berpengaruh dalam
kinerja SVM adalah sebagai berikut:
1. Alpha, nilai Lagrange multiplier () yang
didapatkan dari proses pelatihan.
2. Bias, nilai bias (b) yang didapat dari pelatihan.
Fungsi kernel, pilihan yang bisa digunakan:
linear, quadratic, rbf, polynomial.
3.
Analisis Perbandingan
Metode-metode yang dilakukan pengujian kinerja
dan analisis yaitu K-SVNN, ANN Error BackPropagation (ANN-EBP), dan SVM. Ketiga metode
ini dapat digunakan untuk klasifikasi, tetapi berasal
dari rumpun yang berbeda. K-SVNN diturunkan dari
K-NN, ANN-EBP diturunkan dari Perceptron yang
masih keluarga Artificial Neural Network, sedangkan
SVM diturunkan dari formula-formula statistik.
Karena berasal dari induk berbeda maka penggunaan
parameter-parameter dalam penggunaannya juga
berbeda, tetapi ketiga bertujuan sama, yaitu
melakukan klasifikasi. K-SVNN yang dibandingkan
terhadap ANN-EBP dan SVM tidak dibandingkan
dalam hal parameter melainkan dalam hal kinerja,
baik kinerja pada saat pelatihan maupun pada saat
prediksi. Parameter-parameter untuk ketiga metode
dipilih nilai-nilai yang dapat mengoptimalkan akurasi.
Kinerja pelatihan diukur dalam hal waktu yang
digunakan untuk pelatihan, kinerja prediksi diukur
dalam hal waktu yang digunakan untuk prediksi dan
akurasi prediksi yang didapat. Skema sistem yang
dilakukan dalam penelitian ini seperti pada gambar 1.
B-175
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
4.
K-SVNN
ANN-EBP
PERBANDINGAN
KINERJA: akurasi,
waktu pelatihan,
waktu prediksi
SVM
Hasil
Perbandingan
Gambar 1. Skema perbandingan metode
Hasil analisis yang dilakukan penulis dalam
menemukan persamaan yang dimiliki oleh ketiga
metode tersebut adalah sebagai berikut:
1. Ketiga metode memerlukan proses pelatihan
sebelum model digunakan pada saat prediksi.
2. Ketiga metode dapat memproses data-data yang
mempunyai garis keputusan yang tidak linear.
Sedangkan perbedaan ketiga metode disajikan
pada tabel 1. Hasil analisis pada saat pengamatan
proses metode dapat dijelaskan sebagai berikut:
1. Penyimpanan sebagian set data latih
ANN-EBP sama sekali tidak menyimpan
satupun data yang digunakan pada saat
pelatihan, hanya bobot terakhir yang didapat
pada saat pelatihan saja yang disimpan. SVM
menyimpan sebagian data yang mempunyai
pengaruh pada fungsi tujuan (hyperplane).
Sedangkan K-SVNN juga menyimpan sebagian
data yang berpengaruh pada fungsi tujuan, tetapi
komposisi data yang lolos menjadi support
vector disini tidak sama dengan SVM. Dalam
SVM, support vector didapat setelah melalui
pemetaan oleh fungsi kernel, sedangkan KSVNN tidak menggunakan pemetaan.
2. Kriteria yang mempengaruhi kinerja
ANN-EBP menggunakan banyak parameter
yang harus ditetapkan diawal proses, pemilihan
nilai ini juga menjadi hal yang sangat
merepotkan, perlu pengetahuan yang luas untuk
dapat memberikan set nilai yang tepat. SVM
hanya menetapkan parameter fungsi kernel yang
digunakan.
Sedangkan
K-SVNN
hanya
menggunakan K tetangga terdekat. Pemilihan
nilai K juga menjadi hal yang sensitif.
3. Solusi global optima
Solusi global optima merupakan solusi yang
selalu mengarah pada jawaban yang sama pada
setiap kali percobaan. Hanya SVM yang bisa
dipastikan mengarah pada solusi yang global
optima. Sedangkan K-SVNN relatif dipengaruhi
oleh nilai K yang digunakan, untuk K yang
sama pada setiap percobaan K-SVNN dapat
mengarah pada solusi global optima, tetapi
untuk K berbeda pada setiap percobaan KSVNN dapat terjebak pada solusi lokal optima.
Secara implisit/eksplisit menggunakan fungsi
kernel
SVM secara eksplisit menggunakan fungsi
kernel. ANN-EBP secara implicit menggunakan
fungsi kernel, ini bisa diamati pada layer
tersembunyi, dimana latyer tersembunyi seolah
memetakan data masukan ke dimensi yang
relatif lebih tinggi. Sedangkan K-SVNN sama
sekali tidak menggunakan fungsi kernel, hal ini
menjadi salah satu keunggulan K-SVNN
dibandingkan dua metode lainnya.
5. Kebutuhan memori
Memori yang digunakan oleh SVM adalah untuk
menyimpan hasil pemetaan pasangan data hasil dari
fungsi kernel. ANN-EBP hanya membutuhkan
sejumlah variabel untuk menyimpan nilai bobot.
Sedangkan ukuran memori yang dibutuhkan K-SVNN
setara dengan SVM karena K-SVNN harus
menyimpan semua jarak pasangan data.
4.
Pengujian Kinerja dan Analisis Hasil
Pengujian dilakukan terhadap empat set data
publik yang diunduh dari UCI Machine Learning
Repository [8], yaitu: Iris (150 record, 4 fitur),
Vertebral Column (310 record, 6 fitur), Wine (178
record, 13 fitur), dan Glass (214 record, 9 fitur).
Sistem pengujian menggunakan 5 fold, dimana 80%
digunakan sebagai data latih dan 20% digunakan
sebagai data uji. K-SVNN yang diuji dalam penelitian
ini masih bekerja hanya pada dua kelas saja, sehingga
harus dilakukan penggabungan beberapa kelas
berbeda menjadi satu kelas pada data set yang
komposisi kelasnya lebih dari dua, yaitu Iris,
dilakukan penggabungan data dengan label kelas
„setosa‟ dan „versicolor‟ menjadi satu kelas. Karena
data-data pada setiap fitur mempunyai jangkauan nilai
yang berbeda,maka dilakukan pra-pemrosesan yaitu
normalisasi. Sebelum dilakukan proses pengujian,
semua data pada setiap fitur dilakukan normalisasi
agar nilai pada setiap fitur menggunakan jangkauan
yang sama yaitu [0,1].
Untuk
K-SVNN,
pengujian
dilakukan
menggunakan nilai K = 13 baik untuk pelatihan
maupun prediksi. Untuk ANN-EBP menggunakan
parameter-parameter sebagai berikut: jumlah layer
tersembunyi = 1, jumlah neuron dalam layer
tersembunyi = 150, laju pembelajaran = 0.1,
momentum = 0.95, target error = 0.001, dan jumlah
iterasi maksimal = 1000. Sedangkan SVM diuji
menggunakan fungsi kernel rbf.
Hasil pengujian untuk akurasi disajikan pada tabel
2, hasil pengujian untuk waktu yang digunakan dalam
proses pelatihan disajikan pada tabel 3, hasil
pengujian untuk waktu yang digunakan dalam proses
prediksi disajikan pada tabel 4. Dari hasil disajikan
pada tabel 2, dapat diamati bahwa K-SVNN
mempunyai akurasi prediksi yang relatif lebih baik
B-176
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
daripada metode pembanding, kolom keterangan
memberikan point keunggulan K-SVNN dibanding
metode lainnya. Khusus perbandigan dengan SVM,
ternyata K-SVNN unggul pada 2 set data yaitu Iris
dan Wine, sedangkan untukVertebral Column dan
Glass masih dibawah SVM, hal ini menjadi kelebihan
relatif K-SVNN dibanding SVM mengingat SVM
mempunyai kinerja prediksi sudah terbukti baik tetapi
dengan komputasi yang lebih mahal.
Hasil pengujian waktu yang digunakan selama
proses pelatihan menunjukkan bahwa K-SVNN juga
relatif lebih singkat dibanding metode lainnya. Untuk
set data Iris, perbandingan dengan SVM ternyata KSVNN 14 kali lebih singkat, sedangkan dengan ANNEBP 655 kali lebih singkat. Khusus untuk Wine,
SVM lebih unggul dibanding K-SVNN, walaupun
hanya beda tipis 6 mili detik.
Tabel 2. Akurasi prediksi
Akurasi (%)
Set data
Ket.
K-SVNN
ANN-EBP
SVM
Daftar Pustaka:
44.00
96.00
**
77.10
62.90
83.55
*
87.13
48.90
82.08
**
Glass
88.37
74.35
90.70
*
Ket.
Iris
23.03
15070.08
336.78
**
Ver. Col.
58.77
28772.44
2781.90
**
Wine
32.26
3990.88
26.94
Glass
37.12
21848.48
1196.36
Tabel 4. Waktu prediksi
Waktu (milidetik)
Set data
K-SVNN
ANN-EBP
SVM
Simpulan
Ket.
96.67
SVM
5.
Dari pengujian dan analisis yang dilakukan dalam
penelitian ini dapat disimpulkan sebagai berikut:
1. K-SVNN mempunyai akurasi yang relatif lebih
baik dan waktu pelatihan yang relatif lebih
singkat daripada ANN-EBP dan SVM
2. Dalam hal waktu prediksi, K-SVNN tidak lebih
baik dari pada SVM, tetapi lebih baik daripada
ANN-EBP.
3. Waktu yang digunakan K-SVNN untuk
pelatihan masih boleh dikatakan jauh lebih
singkat jika dibandingkan dua metode lainnya.
Saran yang dapat diberikan dari hasil penelitian ini
adalah sebagai berikut:
1. Pengujian dalam penelitian ini hanya diterapkan
pada 4 set data saja, sehingga hasil yang didapat
dari penelitian ini masih relatif terhadap set data
yang sudah diuji saja. Perlu pendalaman lebih
lanjut dengan mengujinya pada set data yang
lain.
2. K-SVNN masih perlu dibandingkan dengan
metode-metode klasifikasi yang lain, seperti:
decision tree, atau naïve bayes, untuk
mengetahui sejauh mana perbandingan kinerja
dari metode yang lain ketika diimplementasikan.
3. K-SVNN mempunyai peluang untuk dapat
digunakan sebagai pekerjaan pra-pemrosesan
pada set data sebelum digunakan sebagai data
latih baik pada ANN-EBP maupun SVM, tetapi
tentu saja hal ini harus dibayar oleh waktu
komputasi yang dibutuhkan untuk melakukan
reduksi.
Iris
Ver.
Col.
Wine
Tabel 3. Waktu pelatihan
Waktu (milidetik)
Set data
K-SVNN ANN-EBP
melakukannya, yang secara komputasi tentu saja lebih
mahal.
Dari analisis pengujian yang dilakukan pada 3
masalah tersebut, dapat dinyatakan bahwa K-SVNN
pada satu sisi lebih baik sedangkan pada sisi lain tidak
lebih baik daripada dua metode pembanding lainnya.
*
**
Iris
2.38
1.72
10.86
*
Ver. Col.
6.09
3.38
13.10
*
Wine
6.92
2.40
11.53
*
Glass
3.64
2.20
18.02
*
E. Prasetyo, “K-Support Vector Nearest
Neighbor untuk Klasifikasi Berbasis K-NN”, in
proceding Seminar Nasional Sistem Informasi
Indonesia, Jurusan Sistem Informati ITS,
Surabaya, 2012.
[2] P.N. Tan, M. Steinbach, V. Kumar, “
Introduction to Data Mining”, 1st Ed, Pearson
Education: Boston San Fransisco New York,
2006.
[3] E. Prasetyo, “Data Mining – Konsep dan Aplikasi
Menggunakan Matlab”, edisi 1, Andi Offset:
Yogyakarta, 2012.
[4] X. Wu, V. Kumar, “The Top Ten Algorithms in
Data Mining”, CRC Press Taylor & Francis
Group: Boca Raton London, 2009.
[1]
Hasil
pengujian
untuk
waktu
prediksi
menunjukkan bahwa K-SVNN masih kalah
dibandingkan ANN-EBP pada semua set data. Hal ini
sangat
beralasan
karena
ANN-EBP
tidak
menggunakan sama sekali set latih yang sudah
dilatihkan terhadapnya sehingga proses prediksi
menjadi lebih singkat. Sedangkan K-SVNN selalu
lebih unggul dibanding SVM, hasil juga sangat
beralasan mengingat K-SVNN tidak menggunakan
fungsi kernel untuk memetakan data ke dimensi baru
yang relatif lebih tinggi, sedangkan SVM
B-177
Prosiding SENTIA 2014-Politeknik Negeri Malang
Volume 6~ISSN:2085-2347
K.C. Gowda, G. Krishna, G, “The Condensed
Nearest Neighbor Rule Using the Concept of
Mutual
Nearest
Neighborhood”,
IEEE
Transactions on Information Theory. 25 (4),
1979, pp.488-490.
[6] A. Srisawat, T. Phienthrakul, B. Kijsirikul, “SVKNNC: An Algorithm for Improving the
Efficiency of K-Nearest Neighbor”, In: Qiang
Yang, Geoffrey I. Webb. The 09th Pacific Rim
International
Conference
on
Artificial
[5]
Intelligence (PRICAI-2006). Guilin, China, 7-11
August 2006. Springer-Verlag Berlin Heidelberg,
2006.
[7] H.A. Fayed, A.F. Atiya, “A Novel Template
Reduction Approach for the K-Nearest Neghbor
Method”, IEEE Transaction on Neural Network,
20(5), 2009, pp.890-896.
[8] UCI Machine Learning Repository , 20 Mei
2012, http://archive.ics.uci.edu/ml/datasets.html
B-178
Download