Uploaded by T Yudi Hadiwandra

Analisis Algoritma Support Vector

advertisement
Universitas Sumatera Utara
Repositori Institusi USU
http://repositori.usu.ac.id
Departemen Teknologi Informasi
Tesis Magister
2019
Analisis Algoritma Support Vector
Machine dan Naive Bayes Kernel dalam
Klasifikasi Data
Simangunsong, Juanto
Universitas Sumatera Utara
http://repositori.usu.ac.id/handle/123456789/16784
Downloaded from Repositori Institusi USU, Univsersitas Sumatera Utara
ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAIVE
BAYES KERNEL DALAM KLASIFIKASI DATA
TESIS
JUANTO SIMANGUNSONG
177038006
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2019
Universitas Sumatera Utara
ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAIVE
BAYES KERNEL DALAM KLASIFIKASI DATA
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
JUANTO SIMANGUNSONG
177038006
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2019
Universitas Sumatera Utara
Universitas Sumatera Utara
PERNYATAAN
ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE BAYES
KERNEL DALAM KLASIFIKASI DATA
TESIS
Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Universitas Sumatera Utara
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini:
Nama
: Juanto Simangunsong
NIM
: 177038006
Program Studi
: S-2 Teknik Informatika
Jenis Karya Ilmiah : Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalti
Free Right) atas tesis saya yang berjudul:
ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE BAYES
KERNEL DALAM KLASIFIKASI DATA
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti NonEksklusif ini, Universitas Sumatera Utara
berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis
saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai
penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Universitas Sumatera Utara
Telah diuji pada
Tanggal:
23 Juli 2019_______________________________________________
PANITA PENGUJI TESIS
Ketua
: Prof. Dr. Muhammad Zarlis
Anggota
: 1. Prof. Dr. Tulus
2. Prof. Dr. Herman Mawengkang
3. Dr. Syahril Effendy. SSi, M.IT
Universitas Sumatera Utara
RIWAYAT HIDUP
DATA PRIBADI
Nama Lengkap
: Juanto Simangunsong
Tempat dan Tanggal Lahir
: Porsea, 18 Juni 1980
Alamat Rumah
: Jl. Sembada No. 43 B Kelurahan Beringin
Medan Selayang – Kota Medan
HP
: 0813 9792 8106
Instansi Tempat Bekerja
: Wiraswasta
DATA PENDIDIKAN
SD
: Negeri 1735421
Tamat Tahun 1993
SLTP : SWASTA BONAPASOGIT
Tamat Tahun 1996
SLTA : STM Negeri 2 Medan
Tamat Tahun 1999
D3
: FMIPA Instrumentasi USU
Tamat Tahun 2002
S1
: Institute Teknologi TD. Pardede
Tamat Tahun 2007
S2
: Teknik Informatika USU
Tamat Tahun 2019
Universitas Sumatera Utara
KATA PENGANTAR
Pertama-tama dan yang paling utama, penulis mengucapkan puji dan syukur
kehadirat Tuhan Yang Maha Kuasa, yang telah melimpahkan Kasih Setia dan karuniaNya kepada penulis, sehingga penulis dapat menyelesaikan tesis ini dengan sebaikbaiknya. Penulis mengucapkan terima kasih yang tak terhingga kepada pihak yang
telah mendukung diantaranya:
1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H.,
M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat
mengikuti
dan menyelesaikan pendidikan
Program
Magister Teknik
Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas
Sumatera Utara.
2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI)
Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang
sudah banyak memberikan bimbingan dan arahan.
3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr.
Muhammad Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak
Syahril Efendi, S.Si., M.IT. Beserta seluruh Staf Pengajar Program Studi
Magister Teknik Informatika Fakultas Ilmu Komputer dan Teknologi
Informasi Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga
kepada Bapak Prof. Dr. Tulus selaku Pembimbing Kedua yang dengan penuh
kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini
dengan baik.
5. Bapak Prof. Dr. Herman Mawengkang dan Bapak Dr. Syahril Effendy, S.Si,
M.IT, sebagai Dosen Pembanding yang telah memberikan saran dan masukan
serta arahan yang baik demi penyelesaian tesis ini.
i
Universitas Sumatera Utara
6. Istri saya tercinta Nurmala Dewi Simanjuntak, S.Si, dimana sudah banyak
memberikan doa dan dukungan kepada penulis selama proses perkuliahan di
Universitas Sumatera Utara.
7. Orang tua dan Mertua saya, dimana selalu berdoa untuk kesehatan dan proses
perkuliahan saya di Universitas Sumatera Utara.
8. Seluruh staf pegawai Program Studi Magister S2 Teknik Informatika Fakultas
Ilmu Komputer dan Teknik Informatika, serta teman-teman seperjuangan
mahasiswa/i Kom-A 2017.
9. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini,
sekali lagi terima kasih atas segala bantuan dan doa yang telah diberikan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini
dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan
penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada
umumnya. Sekali lagi penulis mengucapkan terima kasih, semoga Tuhan Yang Maha
Kuasa membalas semua kebaikan yang telah diberikan. Amin.
Medan, 25 Juli 2019
Penulis,
Juanto Simangunsong
NIM: 177038006
ii
Universitas Sumatera Utara
ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE
BAYES KERNEL DALAM KLASIFIKASI DATA
ABSTRAK
Pemrosesan data dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih
baik dan optimal. Dengan melakukan perbandingan dari metode yang digunakan
sangat dibutuhkan untuk proses pengolahan data yang baik untuk menganalisa kinerja
algoritma melalui perbandingan dari algoritma Support Vector Machine dan Naive
Bayes Kernel dengan klasifikasi kelas yang berbeda. Pada penelitian yang dilakukan
mengenai Haberman’s Survival dataset dilakukan dengan menghasilkan prediksi dari
metode Support Vector Machine dan Naïve Bayes dengan melakukan pencarian
tingkat keakuratan tertinggi yang baik. Dari hasil analisis bahwa Support Vector
Machine mampu meningkatkan akurasi dari metode Naïve Bayes, dimana peningkatan
rata-rata akurasi tertinggi terhadap Support Vector Machine diperoleh pada
Haberman’s Survival dataset yaitu sebesar 89.66% pada class precision dan
sedangkan Naïve Bayes mencapai 89.29%. Pada class recall Naïve Bayes memperoleh
nilai 89.29% dan Support Vector Machine 92.86%, dan akurasi data mencapai 80.65%
pada Naïve Bayes dan 83.87% pada Support Vector Machine. Keberhasilan dalam
memprediksi
menggunakan metode
Support
Vector
Machine
menggunakan
Haberman’s Survival dataset yang telah dilakukan dalam pengujian.
Kata kunci: Support Vector Machine, Naïve Bayes, Klasifikasi, Haberman’s Survival
dataset.
iii
Universitas Sumatera Utara
ABSTRACT
Data processing requires several methods to get better and optimal results. By doing a
comparison of the methods used it is very necessary for good data processing to
analyze the performance of the algorithm through a comparison of the Support Vector
Machine and Naive Bayes Kernel algorithms with different classifications. The
research conducted on Haberman's Survival dataset was conducted by producing
predictions from the method of Support Vector Machine and Naïve Bayes by
searching for the highest level of accuracy that is good. From the results of the
analysis that Support Vector Machine is able to improve the accuracy of the Naïve
Bayes method, where the highest increase in the average accuracy of Support Vector
Machine is obtained by Haberman’s Survival dataset, which is 89.66% in class
precision and Naïve Bayes reaches 89.29%. In the recall class Naïve Bayes obtained
89.29% and Support Vector Machine 92.86%, and data accuracy reached 80.65% at
Naïve Bayes and 83.87% on Support Vector Machine. Success in predicting uses the
Support Vector Machine method using the Haberman's Survival dataset that was
carried out in the test.
Keywords: Support Vector Machine, Naïve Bayes, Classification, Haberman's
Survival dataset.
iv
Universitas Sumatera Utara
DAFTAR ISI
Hal
UCAPAN TERIMAKASIH
i
ABTRAK
iii
ABSTRACT
iv
DAFTAR ISI
v
DAFTAR GAMBAR
vii
DAFTAR TABEL
viii
DAFTAR PUSTAKA
ix
LAMPIRAN
BAB 1 PENDAHULUAN
1
1.1. Latar Belakang
1
1.2. Rumusan Masalah
2
1.3. Batasan Masalah
2
1.4. Tujuan Penelitian
3
1.5. Manfaat Penelitian
3
BAB 2 LANDASAN TEORI
4
2.1. Klasifikasi
4
2.2. Naïve Bayes
5
v
Universitas Sumatera Utara
2.2.1. Prinsif Metode Bayes
6
2.2.2. Teknik Klasifikasi Metode Bayes
7
2.2.3. Keuntungan dan Kerugian Metode Bayes
8
2.3. Smooth Support Vector Machine
8
2.3.1. Karakteristik Support Vector Machine
9
2.4. Validasi dan Evaluasi Kinerja Algoritma Klasifikasi
9
2.4.1. Cross-Validation
10
2.4.2. Confusion Matix
11
2.5. Polinomial
14
BAB 3 METODE PENELITIAN
16
3.1. Rancangan Penelitian
16
3.1.1. Rancangan Penelitian SVM
17
3.1.2. Rancangan Penelitian Naïve Bayes
18
3.1.3. Rancangan Penelitian SVM dan Naïve Bayes
19
3.2. Pelaksanaan Penelitian
20
3.2.1. Observasi
20
3.2.2. Data yang digunakan
20
3.2.3. Analisis kebutuhan data
21
3.3. Desain Sistem
24
BAB 4 HASIL DAN PEMBAHASAN
25
vi
Universitas Sumatera Utara
4.1. Pengujian Metode Klasifikasi
26
4.1.1. Implementasi Dataset
27
4.1.1.1. Analisa Dataset SVM
27
4.1.1.2. Analisa Dataset pada Naïve Bayesian
31
4.2. Perbandingan Performance Metode Dataset
BAB 5 KESIMPULAN DAN SARAN
39
40
5.1. Kesimpulan
40
5.2. Saran
40
vii
Universitas Sumatera Utara
DAFTAR GAMBAR
Hal
Gambar 2.1. Support Vector Machine
9
Gambar 3.1. Rancangan Penelitian Support Vector Machine
17
Gambar 3.2. Rancangan Penelitian Naïve Bayes
18
Gambar 3.3. Rancangan Penelitian 2 Algoritma
19
Gambar 4.1. Penentuan Atribut Support Vector Machine
27
Gambar 4.2. Rancangan Model Support Vector Machine
28
Gambar 4.3. Atribut Haberman’s Survival Naïve Bayesian
31
Gambar 4.4. Rancangan Model Naïve Bayesian
32
Gambar 4.5. Hasil Analisis Naïve Bayesian terhadap Atribut Usia
35
Gambar 4.6. Hasil Analisis Naïve Bayesian terhadap Atribut Tahun
36
Gambar 4.7. Hasil Analisis Naïve Bayesian terhadap Atribut Jumlah KGB
37
viii
Universitas Sumatera Utara
DAFTAR TABEL
Hal
Tabel 2.1. Confusion Matix
11
Tabel 3.1.
Data Sets Penelitian
21
Tabel 4.1.
Hasil Preprocessing Haberman’s Survival Dataset
26
Tabel 4.2.
Hasil Distribusi Data Metode SVM Haberman’s Survival Dataset
29
Tabel 4.3 Confusion Matrix SVM menggunakan Haberman’s Survival
30
Tabel 4.4.
33
Hasil Distribusi Data Metode Naïve Bayesian Haberman’s Survival
Tabel 4.5. Rekapitulasi Distribusi Dataset Haberman’s Survival Naïve Bayesian
Tabel 4.6
34
Confusion Matrix Metode Naïve Bayesian menggunakan Haberman’s
Survival
38
Tabel 4.7 Perbandingan Performance Metode
39
ix
Universitas Sumatera Utara
1
BAB 1
PENDAHULUAN
1.1.
Latar Belakang
Penelitian (Lee, 2001) SVM memanfaatkan optimasi dengan pemrograman kuadratik,
sehingga untuk data dimensi tinggi dan sejumlah besar data SVM menjadi kurang
efisien. Dukungan Mesin Vektor (SSVM).
Menurut (Rachman, 2011), (Huang, 2003) dan (Byvatov, 2003) Dukungan
Mesin Vector sedangkan hasil penelitian memiliki penurunan akurasi yang signifikan
dibandingkan dengan metode regresi logistik, JST, Naif Bayes, dan CART. Metode
pembelajaran berbasis SVM sangat menjanjikan untuk penelitian lebih lanjut karena
mereka memiliki kinerja tinggi dan dapat diterapkan secara luas untuk klasifikasi dan
estimasi. Menurut penelitian (Honakan, 2018) klasifikasi dengan proses dukungan
vektor mesin memiliki akurasi tinggi dengan stopword, kombinasi tokenizing, istilah
frekuensi & chi-square 47,43%.
Sedangkan penelitian (Pratama, 2018) Support Vector Machine (SVM)
mengklasifikasikan data menjadi 2 kelas menggunakan RBF kernel Gaussian dengan
kombinasi nilai parameter λ = 0,5, konstan γ = 0,01, dan ε (epsilon) = 0,001 itermax =
100 , c = 1 menggunakan data pelatihan untuk 170 dataset. Penelitian ini
menghasilkan akurasi rata-rata 80,55%. Jadi persentase keakuratan, memori, dan
keakuratan
dipengaruhi
oleh
penentuan
data
pelatihan.
(Ridwan,
2013).
Dalam metode Naïve Bayes, diharapkan untuk memprediksi jumlah penggunaan
listrik per rumah tangga sehingga lebih mudah untuk mengatur penggunaan listrik.
Dari 60 data penggunaan listrik di rumah telah diuji menggunakan algoritma Naive
Bayes dan hasilnya 78,3333% untuk akurasi prediksi, di mana 60 penggunaan listrik
di rumah telah diuji dengan menggunakan algoritma Naive Bayes 47 data tentang
penggunaan listrik di rumah yang berhasil diklasifikasikan dengan benar. (Saleh,
2015).
Universitas Sumatera Utara
2
1.2.
Rumusan Masalah
Dari latar belakang masalah yang diuraikan di atas, penulis mengambil rumusan
masalah untuk setiap data yang diolah sehingga dibutuhkan metode dengan beberapa
jenis untuk mendapatkan hasil yang diinginkan dengan baik dan optimal. Dengan
membuat perbandingan metode yang digunakan, sangat penting untuk memproses
data yang diproses sehingga mendapatkan hasil yang baik untuk menganalisis kinerja
algoritma melalui perbandingan Support Vector Machine dan algoritma Kernel Naive
Bayes dengan klasifikasi kelas yang berbeda.
1.3.
Batasan Masalah
Berdasarkan permasalahan yang terdapat dalam penelitian ini, Maka dengan ini
dibutuhkan adanya sebuah batasan masalah. Batasan masalah membuat penelitian
menjadi lebih terarah sehingga tujuan penelitian dapat tercapai.
Adapun batasan pada penelitian ini adalah sebagai berikut:
1. Penulis hanya mengklasifikasi data dengan menggunakan data yang telah
ditentukan sebelumnya, dengan data yang memiliki atribut-atribut untuk diuji.
2. Dalam penelitian ini penulis hanya menganalisa hasil perbandingan
berdasarkan precision, recall & accuracy pada kedua algoritma tersebut.
1.4.
Tujuan Penelitian
Di dalam penelitian ini, penulis memiliki tujuan, yaitu untuk mengimplementasikan
Algortitma Support Vector Machine dan Naïve Bayes Kernel dalam pengklasifikasian
data dalam memprediksi tingkat banyaknya data yang diuji dalam pencarian tingkat
keakuratan data tertinggi serta yang baik pada fungsi atribut-atribut data pada SVM
dan Naïve Bayes Kernel. Kemudian peneliti akan dapat segera mengetahui secara
detail bagaimana kelemahan dan kelebihan algoritma yang efisien untuk digunakan
dalam pengujian data besar ataupun kecil, dengan begitu pada penelitian mengenai
keakurasian dan klasifikasi data dapat dicapai secara baik.
Universitas Sumatera Utara
3
1.5.
Manfaat Penelitian
Manfaat penelitian tesis ini adalah:
1. Dapat menjadi pembelajaran dalam hasil studi dan penelitian selanjutnya dan
mengembangkan penelitian ini.
2. Agar dapat memberikan pembelajaran dan pengetahuan penulis mengenai
metode data mining
3. Mengetahui penggunaan Algoritma Support Vector Machine dan Naive Bayes
Kernel dapat memberikan hasil yang optimal pada akurasi data.
Universitas Sumatera Utara
4
BAB 2
LANDASAN TEORI
Pada bab ini akan diuraikan seluruh landasan teori yang berhubungan dengan
penelitian. Konsep-konsep yang akan di jelaskan dalam penelitian ini
seperti
Klasifikasi, Support Vector Machine dan Naive Bayes Kernel, Precision, Recall &
Accuracy.
2.1.
Klasifikasi
Klasifikasi biasanya terkait dengan peramalan kategori kelas dan mengklasifikasikan
data atau membangun model berdasarkan data pelatihan untuk menentukan dan nilainilai kelas dalam kelas atribut dan menggunakan kelas data baru. klasifikasi sering
digunakan dalam bidang persetujuan kredit, target pemasaran, diagnosa medis, dan
analisis
efektivitas
keputusan.
Langkah
klasifikasi
dengan
menggambarkan
sekumpulan kelas yang telah ditentukan dan menggunakan model yang berfungsi
untuk mengklasifikasikan tupel data yang label kelasnya tidak diketahui. Modelmodel ini disajikan sebagai aturan klasifikasi, pohon keputusan, atau rumus
matematika. Berbagai klasifikasi yang sering digunakan adalah Pohon Keputusan,
Jaringan Bayesian, Jaringan Bayesian Adaptif, Naïve Bayes, dan sebagainya.
Teknik yang digunakan untuk melihat perilaku dan atribut kelompok yang
ditentukan. Metode ini dengan memanipulasi data yang telah diklasifikasikan dan
dengan menggunakan hasil untuk memberikan sejumlah aturan dapat memberikan
klasifikasi data baru. Aturan-aturan ini digunakan pada data baru untuk
diklasifikasikan. Teknik ini menggunakan induksi terawasi, yang memanfaatkan
kumpulan tes dari catatan rahasia untuk menentukan kelas tambahan. Salah satu
contoh mudah dan populer adalah Decision Tree, yang merupakan salah satu metode
klasifikasi paling populer karena mudah ditafsirkan. Decision tree adalah model
prediksi menggunakan struktur pohon atau struktur hierarkis. Pohon keputusan adalah
Universitas Sumatera Utara
5
struktur bagan alur seperti pohon, di mana setiap simpul internal menandakan tes pada
atribut, setiap cabang mewakili hasil tes, dan simpul daun mewakili kelas atau
distribusi kelas. Alur dalam pohon keputusan dilacak dari simpul akar ke simpul daun
yang menampung prediksi kelas sebagai contoh.
2.2.
Naïve Bayes
Naive Bayes Classifier (NBC) adalah algoritma yang melakukan teknik penambangan
data dengan menerapkan metode Naive Bayes dalam mengklasifikasikan data. Teori
naif bayes carastatistik dalam melakukan pengenalan pola. Naif Bayes memiliki nilai
atribut independen ketika nilai output digunakan. Output probabilitas melalui
probabilitas individual. NBC dilakukan dengan memasukkan persamaan 1 dan
persamaan 2. (Santosa, 2002).
Probabilitas klasifikasi yang sangat sederhana yang melakukan perhitungan
dengan
beberapa
probabilitas
dengan
melakukan
sejumlah
frekuensi
dan
menggabungkan nilai-nilai dari dataset yang digunakan adalah metode pengujian naif
Bayes. Naïve Bayes mengasumsikan atribut independen atau tidak saling
ketergantungan pada nilai variabel setiap kelas. (Patil, 2013). Peneliti lain mengatakan
bahwa metode Bayes naif dibuat oleh orang Inggris, Thomas Bayes, yang
mengklasifikasikan probabilitas dan statistik dengan memprediksi masa depan dengan
melakukannya menggunakan pengalaman sebelumnya (Bustami, 2013).
Naïve bayes tidak diberi nilai output dan menyederhanakan nilai atriut
independen secara kondisional. Dengan kata lain, dengan mengamati probabilitas
probabilitas individu produk. (Ridwan, 2013). Barang yang dihasilkan dengan
menggunakan metode n = adalah bahwa metode ini hanya membutuhkan sedikit data
dalam melakukan pelatihan data dan dalam menentukan perkiraan parameter yang
digunakan dalam proses klasifikasi data. Naïve Bayes bekerja sangat baik dalam
kehidupan nyata global seperti yang diharapkan.
Teorema bayes digunakan untuk menghitung jumlah probabilitas untuk
peristiwa yang memiliki pengaruh pada hasil pengamatan. Dalam Bayesian, parameter
digunakan sebagai variabel acak sedangkan di dunia statistik sebelumnya, parameter
harus selalu diperbaiki. Pastor Thomas Bayes adalah nama theorem Bayes yang
digambarkan sebagai hubungan antara peluang peristiwa A dan Z, yang dijelaskan
Universitas Sumatera Utara
6
dalam rumus berikut (Kundu, 2011):
P(x | H) P(H)
P(H | x) =
P(x)
Atau
P(x | H) P(H)
P(H | x) =
P(x | H)P(H) + P(x | H)P(H)
Dalam kelas sampel data X yang labelnya belum diketahui, dan H adalah hipotesis,
data sampel x ditransfer ke kelas khusus c. P (H / x) adalah probabilitas yang
menjelaskan data tentang data penelitian x. P (H / x) adalah probabilitas posterior
yang menyerupai kepercayaan pada prediksi setelah x diberikan. Sebaliknya, P (H)
adalah probabilitas H sebelum sampel digunakan, sebelum sampel terbentuk.
Probabilitas posterior P (H / x) didasarkan pada banyak informasi dari probabilitas
priori P (H). Teori Bayes memiliki cara menghitung probabilitas posterior P (H / x)
menggunakan probabilitas P (H), P (X) dan P (H / x).
Metode Bayes adalah pendekatan statistik untuk inferensi induksi pada
masalah klasifikasi. Pertama dibahas pertama tentang konsep dasar dan definisi dalam
teori Bayes, kemudian menggunakan teorema ini untuk mengklasifikasikan dalam
Penambangan Data. Metode Bayes menggunakan proporsi bersyarat sebagai dasar.
2.2.1.
Prinsip Metode Bayes
Metode Bayes memiliki cara mudah untuk menambahkan informasi dari luar ke
proses analisis data. Proses ini dilakukan dengan mendistribusikan data yang ada
Universitas Sumatera Utara
7
dengan set data yang disetujui (Albert, 2009). Metode ini dilakukan dengan peluang
yang memiliki persyaratan.
Aplikasi Metode Bayes biasanya digunakan dalam beberapa kategori sebagai berikut:
A. Diagnosa yang telah di tentukan dalam menganalisa suatu penyakit berdasarkan
data-data gejala (biasanya digunakan pada analisa penykit hipertensi atau
sakit jantung).
Meneliti buah dalam pengenalan buah berdasarkan spesifikasi buah seperti warna,
bentuk, rasa dan lain-lain
B. Pengenalan warna berdasarkan fitur indeks warna RGB
C. Pendeteksian warna kulit (skin detection) dengan melihat sisi warna
chrominant
D. Penentuan keputusan terhadap aksi (olahraga, art, psikologi) dari sebuah
keadaan.
E. Penentuan jenis pakaian yang pas dipakai untuk keadaan-keadaan tertentu
(seperti cuaca, musim, temperatur, acara, waktu, tempat dan lain-lain)
2.2.2. Teknik Klasifikasi Metode Bayes
Beberapa teknik pengklasifikasian yang digunakan (Albert, 2009):
a.
Decision tree classifier
b.
Rule based classifier
c.
Neural network
d.
Naive bayes
Setiap teknik menggunakan algoritma pembelajaran untuk mengidentifikasi model
yang menyediakan hubungan yang paling tepat. Contoh teori bayesian adalah kasus
pasien yang mengalami kesulitan bernapas. Keputusan yang diambil adalah antara
kasus pasien yang menderita asma atau pasien yang menderita kanker paru-paru
(Bolstad, 2007).
a. Keputusan 1: menyatakan bahwa seseorang menderita kanker paru-paru meskipun
gejala asma yang sebenarnya (biaya: cukup tinggi, sehingga membuat pasien takut dan
Universitas Sumatera Utara
8
membuat pasien menjalani pemeriksaan yang tidak perlu).
b. Keputusan 2: menyatakan seseorang asma meskipun sebenarnya itu adalah kanker
paru-paru (biaya: sangat tinggi yang membuat pasien kehilangan kesempatan untuk
mengobati kanker pada tahap awal atau akhir).
2.2.3. Keuntungan dan Kerugian Metode Bayes
Kerugian dari Metode Bayes termasuk bahwa Metode Bayes hanya dapat digunakan
untuk masalah klasifikasi dengan pembelajaran yang diawasi dan data kategorikal,
Metode Bayes membutuhkan pengetahuan awal untuk dapat membuat keputusan.
Tingkat keberhasilan metode ini tergantung pada pengetahuan awal yang diberikan.
Kelebihan dari Metode Bayes termasuk adalah Interpolasi: Metode Bayes memiliki
pilihan tentang berapa banyak waktu dan upaya yang dilakukan oleh manusia vs
komputer; Bahasa: Metode Bayes memiliki bahasa sendiri untuk menentukan hal-hal
sebelumnya dan posterior; Intuisi: Melibatkan sebelum dan integrasi, dua kegiatan
yang secara luas bermanfaat.
Probabilitas Bayesian adalah teori terbaik dalam menangani masalah estimasi
dan menarik kesimpulan. Metode Bayesian dapat digunakan untuk menarik
kesimpulan dalam kasus-kasus dengan banyak sumber pengukuran yang tidak dapat
ditangani oleh metode lain seperti model hierarkis yang kompleks (Bolstad, 2007).
2.3.
Smooth Support Vector Machine
SVM diciptakan oleh Vapnik pada tahun 1992 menggunakan serangkaian konsep
unggul yang baik di bidang pengenalan pola. SVM masih dianggap muda dalam
metode pengenalan pola. Namun, kemampuannya dalam berbagai aplikasi sering
digunakan sebagai seni dalam membuat pola. SVM juga merupakan metode mesin
pembelajaran yang bekerja berdasarkan prinsip Structural Risk Minimization (SRM)
yang berfungsi sebagai hyperplane terbaik yang memisahkan input.
Konsep SVM adalah kombinasi yang baik dari teori komputer yang telah
digunakan selama beberapa tahun, seperti margin hyperplane (Duda & Hart pada
tahun 1973, Cover pada tahun 1965, Vapnik 1964, dll.), Kernel diperkenalkan oleh
Aronszajn pada tahun 1950, dan juga dengan rencana pendukung lainnya. Tetapi
sampai tahun 1992, belum pernah ada upaya untuk merakit komponen-komponen ini.
Universitas Sumatera Utara
9
SVM memiliki fitur multi-dimensi yang memiliki plot sebagai titik data dalam
mengklasifikasikan dengan mendefinisikan batas antara titik data dari permukaan.
SVM bertujuan untuk membuat garis bawah atau disebut hyperlink dengan arah
partisi data yang sama satu sama lain. Dengan cara ini, pembelajaran SVM
menggabungkan aspek-aspek pembelajaran dari tetangga terdekat. Untuk masalah
klasifikasi biner, SVM sangat cocok.
Support Vector Machine dapat dibayangkan sebagai permukaan yang
mendefinisikan batas antara berbagai titik data yang mewakili contoh yang diplot
dalam ruang multidimensi sesuai dengan fiturnya. Tujuan dari SVM adalah untuk
membuat batas dasar atau yang disebut dengan hyperline yang mengarah pada partisi
data yang homogeny diantara kedua sisi. Dengan cara ini, pembelajaran SVM yang
menggabungkan
aspek-aspek
dari
pembelajaran
tetangga
terdekat.
Untuk
permasalahan klasifikasi biner, SVM sangat cocok digunakan. Sebagai contoh pada
gambar 2.5 berikut ini.
Gambar 2.1. Support Vector Machine
2.4.
2.4.1.
Validasi dan Evaluasi Kinerja Algortima Klasifikasi
Cross-Validation
Universitas Sumatera Utara
10
Dalam validasi silang, setiap catatan digunakan beberapa kali dalam jumlah yang
sama untuk pelatihan dan sangat cocok untuk pengujian. Untuk menggambarkan
metode ini, anggaplah kita mempartisi data menjadi dua bagian yang sama. Pertama,
kami memilih salah satu dari dua himpunan bagian untuk pelatihan dan yang lainnya
untuk pengujian. Kemudian transisi dari subset yang disetujui dilakukan sehingga
subset sebelumnya sebagai set pelatihan adalah set tes yang berlawanan. Rekomendasi
ini disebut validasi silang ganda. Total kesalahan diperoleh dengan menjumlahkan
kesalahan untuk proses kedua. Dalam contoh ini, setiap rekaman digunakan tepat satu
kali untuk pelatihan dan satu kali untuk pengujian. Metode validasi silang k-fold
menggeneralisasikan temuan ini dengan mensegmentasi data ke dalam partisi k yang
sama. Selama proses, salah satu partisi dipilih untuk pengujian, sedangkan sisanya
digunakan untuk pelatihan. Prosedur ini diulang setiap partisi yang digunakan untuk
menguji tepat sekali. Total kesalahan ditentukan dengan menjumlahkan kesalahan
untuk semua proses k.
Kasus khusus untuk metode k-fold validasi silang menentukan k = N, ukuran
kumpulan data. Metode ini hanya membutuhkan satu jalan keluar, setiap set tes hanya
berisi satu catatan. Informasi ini memiliki keuntungan menggunakan data sebanyak
mungkin untuk pelatihan. Koleksi tes eksklusif yang saling terkait dan set data yang
efektif. Ringkasan ini membahas jumlah perhitungan untuk mengulangi prosedur N
kali (Tan, 2005).
Metode evaluasi standar adalah stratifikasi 10 kali lipat, validasi silang adalah
pilihan terbaik untuk mendapatkan hasil validasi yang akurat. 10 kali validasi silang
akan mengulang tes 10 kali dan hasil nilai rata-rata tes 10 kali tes. Keuntungan dari
metode ini, hindari tumpang tindih pengujian data. Koleksi tes eksklusif yang saling
terkait dan set data yang efektif. Ini adalah angka yang dihitung untuk prosedur yang
dilakukan sebanyak N kali (Gorunescu, 2011).
Untuk data yang tidak seimbang, akurat lebih akurat dengan data kelas
minoritas, maka metrik yang tepat adalah AUC (Area Di Bawah Kurva ROC), FMeasure, G-Mean, akurasi keseluruhan, dan akurasi untuk kelas minoritas (Zhang,
2011). Mengevaluasi dengan F-Measure, rata-rata harmonik dua digit lebih tinggi dari
dua, dengan nilai F-Measure tinggi dapat memastikan keduanya (ingat) dan presisi
tinggi. Jika hanya menggunakan kelas positif dianggap sebagai dua langkah penting,
yaitu tingkat TP dan Nilai Prediktif Positif (nilai PP). Nilai PP didefinisikan sebagai
Universitas Sumatera Utara
11
presisi yang menunjukkan penyajian objek yang relevan yang ditetapkan untuk
pengambilan. Dalam mencari informasi, tingkat TP mengacu pada penarikan yang
menunjukkan presentasi dari objek yang diambil relevan. Rata-rata harmonik adalah
kombinasi ukuran presisi dan memori.
Dalam pengujian data yang telah dilakukan akan mendapatkan hasil prediksi,
setelah hasil prediksi diperoleh langkah selanjutnya dengan mengukur kinerja
algoritma. Mengukur kinerja sistem klasifikasi adalah penting.
2.4.2
Confusion Matrix
Adalah sebuah metode yang dapat digunakan dalam mengukur kinerja suatu metode
klasifikasi. Pada dasarnya confusion matrix berisi informasi tentang klasifikasi aktual
dan prediksi yang dilakukan oleh sistem klasifikasi. Kinerja dari sistem tersebut
umumnya dievaluasi menggunakan data dalam matriks.
Pada pengukuran kinerja menggunakan confusion matrix yang telah dijelaskan
sebelumnya terdapat empat istilah yang digunakan sebagai representasi dari proses
klasifikasi. Keempat istilah tersebut adalah True Posistif yang disingkat dengan TP,
True Negatif yang disingkat dengan TN, False Positive yang disingkat dengan FP dan
False Negatif yang disingkat dengan FN. TP merupakan data positif yang terdeteksi
benar, TN merupakan data negatif yang terdeteksi salah, FP merupakan data negatif
yang terdeteksi benar dan FN merupakan data negatif yang terdeteksi salah.
Tabel 2.1. Confusion Matrix (Wang, 2014)
Prediksi
Actual
Class
Positive
Negative
Positive
True Positive (TP)
True Negative (TN)
Negative False Postive (FP)
False Negative (FN)
Keterangan :
Universitas Sumatera Utara
12
a. True Positif (TP) adalah jumlah instance dari kelas positif yang benar
diprediksi sebagai kelas positif
b. False Positif (FP) adalah jumlah instance dari kelas negatif yang diprediksi
sebagai kelas positif
c. False Negatif (FN) adalah jumlah instance dari kelas positif yang diprediksi
sebagai kelas negative
d. True Negatif (TN) adalah jumlah instance dari kelas negatif yang diprediksi
sebagai kelas negatif
Berdasarkan nilai TP,TN, FP dan FN dapat diperloleh nilai metric yang selalu
digunakan untuk menghitung kinerja dari model klasifikasi seperti accuracy,
precision, sensitivity, specificity, F1 Score, F1 Measure dan AUC, sebagai berikut :
a.
Accuracy
Accuracy adalah nilai ketepatan model dalam memprediksi data dengan perbandingan
data aktualnya dan sebagai pengukur model untuk menentukan seberapa akurat dalam
melakukan prediksi.
b.
Precision
Precision adalah untuk mengevaluasi seberapa baik kepastian model dalam
memprediksi suatu kelas dengan benar. Precision merupakan perhitungan untuk
mendapat nilai antara perbandingan jumlah data untuk satu kelas tertentu yang
diprediksi dengan benar dibagi dengan jumlah keseluruhan prediksi kelas. Rentang
nilai precision berada diantara 0 dan 1, dimana jika nilai mendekati 0 maka ketepatan
dalam memprediksi tidak baik dan jika nilai mendekati 1 maka ketetapan dalam
memprediksi baik. Dan untuk mendapatkan nilai dalam persentase maka nilai
dikalikan dengan 100%.
Universitas Sumatera Utara
13
c.
Recall/Sensitivity
Recall/Sensitivity adalah untuk mengevaluasi seberapa besar coverage suatu model
dalam memprediksi kelas positif diklasifikasikan. Recall/Sensitivity didapatkan
dengan menghitung perbandingan antara jumlah data untuk satu kelas tertentu yang
diprediksi dengan benar dibagi jumlah total kelas tersebut.
d.
Specificity
Recall/Sensitivity adalah untuk mengevaluasi seberapa besar coverage suatu model
dalam memprediksi kelas negatif diklasifikasikan. Recall/Sensitivity didapatkan
dengan menghitung perbandingan antara jumlah data untuk satu kelas tertentu yang
diprediksi dengan benar dibagi jumlah total kelas tersebut.
e.
F1 Measure
F1 Measure adalah perhitungan kombinasi antara recall dan precision. Rentang nilai
F1 Measure adalah 0 sampai dengan 1, jika nilai mendekati 0 maka model prediksi
tidak baik dan sebaliknya jika nilai mendekati 1 maka model prediksi baik. Untuk
mendapatkan nilai dalam persentase maka nilai dikalikan dengan 100.
Universitas Sumatera Utara
14
f.
F1 Score
F1 Score adalah untuk mengevaluasi seberapa baik metric hybrid yang dipergunakan
untuk kelas tidak seimbang. Rentang nilai F1 Score adalah 0 sampai dengan 1, jika
nilai mendekati 0 maka model prediksi tidak baik dan sebaliknya jika nilai mendekati
1 maka model prediksi baik. Untuk mendapatkan nilai dalam persentase maka nilai
dikalikan dengan 100.
2.5.
Polinomial
x2 + 5x – 2 dan 2x5 – 6x3 + 11x disebut dengan suku banyak (polinomial) dalam x
yang merupakan berderajat dua dan lima pada masing-masingnya. Pangkat tertinggi
dari x merupakan derajat suatu suku banyak dalam x adalah dalam suku banyak itu.
Jika an, an-1, an-2, …, a0 adalah konstanta, maka: anxn + an-1xn-1 + an-2xn-2 + … + a1x + a0
adalah suku banyak dalam x yang berderajat n, jika n bilangan cacah dan an ≠ 0.
Perhatikan, bahwa dalam suatu suku banyak semua pangkat lebih besar atau sama
dengan nol. Bilangan ak dinamakan koefisien suku xk dan a0 dinamakan suku tetap.
Contoh:
8x3 + 5x – 2, koefisien x3 adalah 8, koefisien x2 adalah 0, koefisien x adalah 5, dan
suku tetap adalah -2.
Suatu bentuk (1 – x)(2 + x + x2) + 3x + 7 juga dinamakan suku banyak karena dapat
ditulis –x3 + 2x + 9. Dengan menyatakan suku banyak dengan f(x), maka nilai suku
banyak itu jika x diganti dengan 1 (cara subtitusi) adalah f(1),
Universitas Sumatera Utara
15
f(x) = –x3 + 2x + 9
f(1) = -(1)3 + 2(1) + 9
= -1 + 2 + 9 = 10.
Universitas Sumatera Utara
16
BAB 3
METODE PENELITIAN
Sekumpulan proses terstruktur mengenai peraturan, kegiatan dan prosedur yang
digunakan oleh pelaku suatu disiplin ilmu yang menceritakan bagaimana sebuah
penelitian dilaksanakan adalah pengertian Metodologi Penelitian (Zarlis, 2015). Pada
hakekatnya metodologi penelitian merupakan hal yang mengkaji perihal urutan
langkah – langkah yang ditempuh supaya pengetahuan yang diperoleh memenuhi ciri
– ciri ilmiah.
3.1.
Rancangan Penelitian
Adapun rancangan dari penelitian ini terbagi atas rancangan penelitian pada algoritma
Support Vector Machine dan algoritma Naïve Bayes yang dapat dilihat sebagai
berikut:
Universitas Sumatera Utara
17
3.1.1. Rancangan Penelitian Support Vector Machine
Gambar 3.1. Rancangan Penelitian Support Vector Machine
Pada rancangan penelitian yang dilakukan pada Gambar 3.1, dijelaskan bahwa
peneliti melakukan analisa terhadap algoritma Support Vector Machine dengan cara
melakukan input data training yang telah dipersiapkan data ujinya terlebih dahulu,
kemudian memproses training data, dihasilkan data training, kemudian data tersebut
klasifikasi menggunakan algoritma Support Vector Machine dan mendapatkan hasil
prediksi dari algoritma Support Vector Machine.
Universitas Sumatera Utara
18
3.1.2. Rancangan Penelitian Naïve Bayes
Gambar 3.2. Rancangan Penelitian Naïve Bayes
Pada rancangan penelitian yang dilakukan pada Gambar 3.2, disini peneliti
melakukan beberapa analisa terhadap algoritma Naïve Bayes dengan terlebih dahulu
melakukan input data training yang telah dipersiapkan data ujinya terlebih dahulu,
kemudian memproses training data, dihasilkan data training, kemudian data tersebut
klasifikasi menggunakan algoritma Naïve Bayes dan mendapatkan hasil prediksi dari
algoritma Naïve Bayes.
Universitas Sumatera Utara
19
3.1.3. Rancangan Penelitian Support Vector Machine dan Naïve Bayes
Gambar 3.3. Rancangan Penelitian 2 Algoritma
Pada rancangan penelitian yang dilakukan pada Gambar 3.3. tersebut, peneliti
melakukan analisa terhadap algoritma Support Vector Machine dan Naïve Bayes
dengan melakukan input data training yang telah dipersiapkan data ujinya terlebih
dahulu, kemudian memproses training data, dihasilkan data training, kemudian data
Universitas Sumatera Utara
20
tersebut klasifikasi menggunakan algoritma Support Vector Machine dan Naïve Bayes
dan mendapatkan hasil prediksi dari algoritma Support Vector Machine dan Naïve
Bayes, kemudian di analisa perbandingan terhadap hasil precision, recall & accuracy.
3.2.
Pelaksanaan Penelitian
Proses penelitian ini terdapat beberapa kegiatan, yaitu kegiatan-kegiatan yang terdapt
pada penelitian, yaitu observasi lapangan, pengumpulan data dan analisa data.
3.2.1. Observasi
Observasi yang dilakukan pada penelitian ini adalah hal yang paling penting. Karena
penulis dpat mengetahui tingkat visibilitas yang digunakan. Data-data yang telah
dikumpulkan telah menjadi titik pantauan dalam observasi ini sehingga mendapatkan
hasil yang diinginkan
.
3.2.2. Data yang Digunakan
Langkah pertama yang dilakukan dalam menganalisa data dalam menentukan
beberapa atribut dengan menggunakan parameter dalam mengklasifikasi serta akurasi
dari data yang digunakan. Pada data sampel yang diuji terdapat penjelasan tentang
metode-metode dalam mengambil sampel. Sampel yang baik adalah dengan adanya
penggambaran tentang populasinya. Dengan mengambil sampel yang baik maka perlu
adanya pemilihan anggota sampel. Sampel yang tidak acak merupakan salah satu
metode pengambilan yang merupakan pemilihan sampel dengan cara penggunaan
ilmu pengetahuan serta opini dari peneliti yang berasal dari objek yang akan diteliti
oleh peneliti.
Data sets untuk pelatihan dan pengujian (training sets dan testing sets) berupa
Haberman’s Survival dataset. Rincian masing-masing data set dapat dilihat sebagai
berikut:
Universitas Sumatera Utara
21
Tabel 3.1. Data Sets Penelitian
Data Sets
Instances
Haberman’s Survival
dataset
306
Attributes
3
Classes
1
3.2.3. Analisis kebutuhan data
Data yang dibutuhkan untuk pembuatan model analisa ini adalah sebagai berikut:
Dataset yang akan digunakan pada penelitian ini bersumber UCI machine learning
repository, repositori UCI machine learning repository memiliki cukup banyak koleksi
dataset yang digunakan pada penelitian tentang clustering, dataset tersebut antara lain
adalah Haberman’s Survival dataset. Haberman’s Survival dataset memiliki jumlah
data sebanyak 306 data, jumlah atribut sebanyak 3 atribut dan jumlah kelas sebanyak
1 kelas.
1. Kebutuhan Input
Kebutuhan pada masukan data dalam rancangan model analisa terbagi atas 2 yaitu
SVM, dan Naïve Bayes.
a. Masukkan pada SVM
Support Vector Machine untuk optimisasi. PSO adalah metode komputasi yang
mengoptimalkan masalah dengan secara iteratif yang mencoba meningkatkan solusi
kandidat sehubungan dengan ukuran kualitas yang diberikan.
Operator ini menerapkan pendekatan hibrid yang menggabungkan dukungan
vektor classifier dengan optimalisasi kerumunan partikel, untuk meningkatkan
kekuatan masing-masing teknik individu dan mengimbangi kelemahan masing-
Universitas Sumatera Utara
22
masing. Klasifikasi Support Vector Machine (SVM) mengoperasikan pemisahan linier
yang ditambah dengan beberapa kernel tertentu yang memenuhi kondisi Mercer.
Kernel-kernel ini memetakan vektor-vektor input ke dalam ruang berdimensi sangat
tinggi, kemungkinan berdimensi tak terbatas, di mana pemisahan linear lebih mungkin
terjadi. Kemudian bidang hiper pemisah linier ditemukan dengan memaksimalkan
margin antara dua kelas pada model ini. Karenanya kompleksitas hyper plane yang
terpisah tergantung pada sifat dan sifat dari kernel yang digunakan.
Particle
swarm
optimization
(PSO)
adalah
metode
komputasi
yang
mengoptimalkan masalah dengan secara iteratif mencoba meningkatkan solusi
kandidat terkait dengan ukuran kualitas yang diberikan. PSO adalah metaheuristik
karena membuat sedikit optimalisasi pada permasalahan. Namun, metaheuristik
seperti PSO tidak menjamin solusi optimal yang pernah ditemukan. Lebih khusus,
PSO tidak menggunakan gradien dari masalah yang sedang dioptimalkan, yang berarti
PSO tidak mengharuskan masalah optimisasi dapat dibedakan seperti yang
disyaratkan oleh sebagian besar metode optimasi klasik. Karenanya, PSO juga dapat
digunakan pada masalah optimisasi yang sebagian tidak teratur, berisik, berubah
seiring waktu, dll.
Pada input ini menggunakan data set. Operator ini tidak dapat menangani
atribut nominal; dengan menerapkan data set dengan atribut numerik. Dengan begitu
harus memilihatribut numerik walaupun dari bentuk nominal.
Jenis fungsi kernel dipilih melalui parameter ini. Jenis kernel berikut ini
didukung: dot, radial, polinomial, neural, anova, epachnenikov, kombinasi gaussian,
multiquadric
dot: Kernel dot didefinisikan oleh k (x, y) = x * y i.e. ini adalah produk dalam dari x
dan y.
radial: Kernel radial didefinisikan oleh exp (-g || x-y || ^ 2) di mana g adalah gamma,
ditentukan oleh parameter kernel gamma. Parameter yang dapat disesuaikan
memainkan peran utama dalam kinerja kernel, dan harus disesuaikan dengan masalah
yang ada.
Universitas Sumatera Utara
23
polinomial: Kernel polinomial didefinisikan oleh k (x, y) = (x * y + 1) ^ d di mana d
adalah derajat polinomial dan ditentukan oleh parameter derajat kernel. Kernel
polinomial sangat cocok untuk masalah di mana semua data pelatihan dinormalisasi.
neural: Kernel neural didefinisikan oleh tanh net neural dua lapis (a x * y + b) di mana
a adalah alpha dan b adalah tetapan konstan. Parameter ini dapat disesuaikan
menggunakan parameter kernel a dan kernel b. Nilai umum untuk alpha adalah 1 / N,
di mana N adalah dimensi data. Perhatikan bahwa tidak semua pilihan a dan b
mengarah ke fungsi kernel yang valid.
gaussian_combination: Ini adalah kernel kombinasi gaussian. Ini memiliki parameter
yang dapat disesuaikan kernel sigma1, kernel sigma2 dan kernel sigma3.
multiquadric: Kernel multiquadric didefinisikan oleh akar kuadrat dari || x-y || ^ 2 + c
^ 2. Ini memiliki parameter yang dapat disesuaikan kernel sigma1 dan pergeseran
sigma kernel.
Operator SVM (PSO) diterapkan dalam subproses pelatihan operator Validasi
Split. Operator SVM (PSO) diterapkan dengan nilai default dari semua parameter.
Operator Model digunakan dalam subproses pengujian untuk menerapkan model yang
dihasilkan oleh operator SVM (PSO). Hasilnya berlabel data set digunakan oleh
operator Performance (Klasifikasi) untuk mengukur kinerja model. Model klasifikasi
dan vektor kinerjanya terhubung ke output dan terdapat di Hasil Workspace.
Keakuratan model ini ternyata sekitar 85%.
Nilai default digunakan untuk sebagian besar parameter. Untuk mendapatkan
hasil yang lebih andal, nilai-nilai ini harus dipilih dengan cermat. Biasanya teknik
seperti cross-validasi digunakan untuk menemukan nilai terbaik dari parameter ini
untuk ExampleSet yang sedang dipertimbangkan.
Universitas Sumatera Utara
24
3.3.
Desain Sistem
Pada penelitian ini, keperluan hardware dan software sebagai bagian dari proses
desain sistem meliputi:
a. Perangkat Keras (Hardware)
1. Laptop Acer
2. Processor Intel Core I5 @1.66GHz 1.67 GHz
3. RAM 2 GB
4. Harddisk 500 GB
5. Monitor dengan reolusi 1024 x 600 pixel (32 bit true color)
6. Mouse dan keyboard
b. Perangkat Lunak (Software)
1. Sistem Operasi Windows 7
Sistem Operasi Windows 7 merupakan sistem operasi berbasis grafis yang
dirancang oleh Microsoft berfingsi pada computer pribadi, termasuk
computer rumah, bisnis, laptop, dan lain sebagainya. Windows 7
merupakan sistem dasar yang mendukung pada setiap proses penelitian ini.
Universitas Sumatera Utara
25
BAB 4
HASIL DAN PEMBAHASAN
Pada bab ini merupakan penjelasan tentang penggunaan algoritma Support Vector
Machine dan Naive Bayes dengan ditetapkannya atribut masukan, serta banyaknya
dataset yang bisa mendapatkan hasil dalam penelitian dengan cara memprediksi data
yang digunakan dalam melakukan percobaan ini adalah Haberman’s Survival dataset
yang diperoleh dari http://archive.ics.uci.edu/ml/datasets/Haberman's+Survival (UCI
Machine Learning repository). Dataset Haberman merupakan dataset yang berisi
kasus-kasus dari penelitian yang telah dilakukan pada kelangsungan hidup pasien yang
telah menjalani operasi kanker payudara. Dataset ini memiliki sejumlah 306 record
pasien kanker payudara dengan 3 atribut dan 1 class. Class pada dataset haberman’s
merupakan klasifikasi kelangsungan hidup pasien usai menjalani operasi kanker
payudara.
Pelatihan serta pengujian dalam penelitian ini adalah dengan cara melakukan
pencarian tingkat keakuratan tertinggi yang baik pada Support Vector Machine dan
Naive Bayes Kernel. Dalam penelitian ini 80% dataset akan dijadikan sebagai data
latih, dan 20% akan dijadikan data uji. Pengolahan data yang baik untuk menganalisa
kinerja algoritma melalui perbandingan dari algoritma Support Vector Machine dan
Naive Bayes Kernel.
Untuk melihat apakah pencarian tingkat keakuratan tertinggi yang baik atau
tidak, maka akan dilakukan analisa kinerja dari kedua metode berdasarkan hasil
akurasi dari setiap dataset yang digunakan. Dimana untuk mengukur tingkat akurasi
dapat menggunakan persamaan berikut (Han, 2011):
=
Universitas Sumatera Utara
26
4.1. Pengujian Metode Klasifikasi
Pada penelitian ini, hanya melakukan dua proses preprocessing. Pertama adalah
penanganan missing value. Missing value pada atribut yang bernilai numerik
digantikan dengan nilai rata-rata (mean) dari atribut pada kolom yang sama.
Sedangkan missing value pada atribut yang bernilai nominal digantikan dengan nilai
kemungkinan terbanyak dari atribut pada kolom yang sama. Selanjutnya adalah proses
cleaning dilakukan dengan membuang duplikasi data.
Proses selanjutnya adalah memberikan bentuk kategori untuk masing – masing
subset / atribut agar memudahkan proses mining dan keakuratan pengklasifikasian.
Berikut adalah hasil data preprocessing dari dataset haberman’s survival
Tabel 4.1. Hasil Preprocessing Haberman’s Survival Dataset
No.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
.
.
.
306
Usia
30
30
30
31
31
33
33
34
34
34
34
34
34
34
35
35
36
36
37
37
.
.
.
83
Tahun
64
62
65
59
65
58
60
59
66
58
60
61
67
60
64
63
60
69
60
63
.
.
.
58
Jumlah
KGB
1
3
0
2
4
10
0
0
9
30
1
10
7
0
13
0
1
0
0
0
.
.
.
2
Survival Status
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Meninggal sebelum 5 tahun
Meninggal sebelum 5 tahun
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
Bertahan 5 tahun atau lebih
.
.
.
Meninggal sebelum 5 tahun
Universitas Sumatera Utara
27
4.1.1. Implementasi Dataset
Implementasi pengukuran akurasi metode yang digunakan yaitu Support Vector
Machine dan Naive Bayesdibangun dengan dukungan perangkat lunak Rapid Miner®
versi 5.3.
4.1.1.1. Analisa Dataset pada SVM
a. Penentuan Atribut Data
Gambar 4.1 Penentuan Atribut Support Vector Machine
Pada gambar 4.1 diatas menunjukkan proses penentuan atribut dan label pada
algoritma SVM dengan menggunakan data numerik sebagai atribut-atributnya, serta
penggunaan binomial ini digunakan untuk memodelkan jumlah keberhasilan pada
jumlah data.
Universitas Sumatera Utara
28
b. Model RancanganSupport Vector Machine
Gambar 4.2 Rancangan Model Support Vector Machine
Pada gambar 4.2 diatas menunjukkan prosedur kerjaSupport Vector Machine
pada Rapidminer. Langkah pertama adalah memasukkan dataset yang memiliki format
.excel (Read Excel), kemudian dilakukan Split Data dengan memisahkan dataset
menjadi data latih (90%) dan data uji (10%) secara random. Hasil Split Data
kemudian dimasukkan ke metode SVM untuk data training dan Apply Modelyang
merupakan model SVM untuk data uji serta terakhir perhitungan tingkat akurasi
menggunakan operator Performance. Berikut adalah Hasil distribusi data pada metode
SVM untuk Haberman’s Survival Dataset.
Universitas Sumatera Utara
29
Tabel 4.2. Hasil Distribusi Data Metode SVM Haberman’s Survival Dataset
No
Survival Status
Confidence
(Survive 5
years)
Confidence
(Die within
5 years)
1
Bertahan 5 tahun atau lebih
0.7795682
0.2204318
2
Bertahan 5 tahun atau lebih
0.7795586
0.2204414
3
Bertahan 5 tahun atau lebih
0.5728769
0.4271231
4
Bertahan 5 tahun atau lebih
0.779546
0.220454
5
Bertahan 5 tahun atau lebih
0.779546
0.220454
6
Bertahan 5 tahun atau lebih
0.779542
0.220458
7
Bertahan 5 tahun atau lebih
0.4925851
0.5074149
8
Bertahan 5 tahun atau lebih
0.7795221
0.2204779
9
Bertahan 5 tahun atau lebih
0.768217
0.231783
10
Bertahan 5 tahun atau lebih
0.5885539
0.4114461
11
Meninggal sebelum 5 tahun
0.7444151
0.2555849
12
Bertahan 5 tahun atau lebih
0.7682028
0.2317972
13
Bertahan 5 tahun atau lebih
0.7681871
0.2318129
14
Bertahan 5 tahun atau lebih
0.7681738
0.2318262
15
Bertahan 5 tahun atau lebih
0.7794911
0.2205089
16
Bertahan 5 tahun atau lebih
0.7681902
0.2318098
17
Meninggal sebelum 5 tahun
0.7443833
0.2556167
18
Bertahan 5 tahun atau lebih
0.6921415
0.3078585
19
Bertahan 5 tahun atau lebih
0.7794745
0.2205255
20
Bertahan 5 tahun atau lebih
0.6921735
0.3078265
21
Bertahan 5 tahun atau lebih
0.7681489
0.2318511
22
Bertahan 5 tahun atau lebih
0.7794782
0.2205218
23
Bertahan 5 tahun atau lebih
0.7794531
0.2205469
24
Bertahan 5 tahun atau lebih
0.6921278
0.3078722
25
Bertahan 5 tahun atau lebih
0.7443404
0.2556596
26
Bertahan 5 tahun atau lebih
0.7057024
0.2942976
27
Bertahan 5 tahun atau lebih
0.4602116
0.5397884
28
Bertahan 5 tahun atau lebih
0.7794269
0.2205731
29
Bertahan 5 tahun atau lebih
0.7680942
0.2319058
30
Bertahan 5 tahun atau lebih
0.7794128
0.2205872
31
Bertahan 5 tahun atau lebih
0.7793818
0.2206182
Prediction
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Meninggal
sebelum 5 tahun
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Meninggal
sebelum 5 tahun
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Usia
Tahun
Jumlah
KGB
35
63
0
37
63
0
37
60
15
38
60
0
38
60
0
41
64
0
42
62
20
43
60
0
44
63
1
45
59
14
46
69
3
49
67
1
50
63
1
50
58
1
50
61
0
51
66
1
52
69
3
54
59
7
54
62
0
54
69
7
55
58
1
57
69
0
59
63
0
59
64
7
59
67
3
62
62
6
64
65
22
65
64
0
66
58
1
69
66
0
76
67
0
Universitas Sumatera Utara
30
Tabel 4.3 Confusion Matrix Metode SVM menggunakan Haberman’s Survival
Kinerja Klasifikasi
Predicted Class
Actual Class
Diprediksi. Bertahan 5 Diprediksi. Meninggal
tahun atau lebih
dibawah 5 tahun
Actual. Class Bertahan 5 tahun 26
atau lebih
(True Positive)
Actual.
Class
dibawah 5 tahun
2
(False Negative)
Meninggal 3
0
(False Positive)
(True Negative)
Berdasarkan tabel 4.3, maka dilanjutkan dengan menghitung nilai Accuracy
pengklasifikasian
dari
model
klasifikasi
SVM
menggunakan
Dataset
Haberman’s Survival. Berikut hasil perhitungannya:
Accuracy =
=
=
= 0.8387*100% = 83.87%
Dengan demikian tingkat kedekatan antara nilai prediksi class dengan nilai
aktual class atau jumlah prediksi class yang benar dari model klasifikasi SVM
terhadap Dataset Haberman’s Survival adalah sebesar 83.87%.
Universitas Sumatera Utara
31
4.1.1.2.
Analisa Dataset pada Naïve Bayesian
a. Penentuan Atribut Data
Gambar 4.3 Atribut Haberman’s SurvivalNaïve Bayesian
Pada gambar 4.3 diatas menunjukkan proses penentuan atribut dan label pada
algoritma Naïve Bayesian dengan menggunakan data numeric sebagai atributatributnya, serta penggunaan binomial ini digunakan untuk memodelkan jumlah
keberhasilan pada jumlah data.
Universitas Sumatera Utara
32
b. Model Rancangan Naïve Bayesian
Gambar 4.4 Rancangan Model Naïve Bayesian
Pada gambar 4.4 diatas menunjukkan prosedur kerja Naïve Bayesian pada
Rapidminer. Langkah pertama adalah memasukkan dataset yang memiliki format
.excel (Read Excel), Sebelum melakukan Split Data maka terlebih dahulu diberikan
kategori untuk masing – masing atribut agar memudahkan dalam analisis dan
meningkatkan keakuratan pengklasifikasian. Kemudian barulah dilakukan Split Data
dengan memisahkan dataset menjadidata latih (90%) dan data uji (10%) secara
random. Hasil Split Data kemudian dimasukkan ke metode Naïve Bayesian untuk data
training dan Apply Model yang merupakan model Naïve Bayesian untuk data uji serta
terakhir perhitungan tingkat akurasi menggunakan operator Performance. Berikut
adalah Hasil distribusi data pada metode Naïve Bayesian untuk Haberman’s Survival
Dataset dapat dilihat pada tabel 4.4 berikut :
Universitas Sumatera Utara
33
Tabel 4.4. Hasil Distribusi Data Metode Naïve Bayesian Haberman’s Survival
Dataset
No
Survival Status
tahun
1
Bertahan 5
atau lebih
tahun
2
Bertahan 5
atau lebih
tahun
3
Bertahan 5
atau lebih
tahun
4
Bertahan 5
atau lebih
Bertahan 5
atau lebih
tahun
5
6
Meninggal sebelum
5 tahun
Bertahan 5 tahun
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0.0832233
Bertahan 5 tahun
atau lebih
<= 6
0.0832233
Bertahan 5 tahun
atau lebih
<= 6
0.3661734
Bertahan 5 tahun
atau lebih
<= 18
0.8968487
0.1031513
Bertahan 5 tahun
atau lebih
<= 6
0.8968487
0.1031513
Bertahan 5 tahun
atau lebih
<= 6
0.3164135
Bertahan 5 tahun
atau lebih
<= 6
0.2531503
Bertahan 5 tahun
atau lebih
<= 6
0.3004335
Bertahan 5 tahun
atau lebih
<= 6
0.2531503
Bertahan 5 tahun
atau lebih
<= 6
0.6338266
27
9
Prediction
0.9167767
26
8
Confidence
(Die within
5 years)
0.9167767
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Meninggal
sebelum 5 tahun
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Meninggal
sebelum 5 tahun
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
7
Confidence
(Survive 5
years)
0.6835865
0.7468497
0.6995665
0.7468497
Jumlah
KGB
0.3167414
0.6832586
0.7892033
0.2107967
0.7892033
0.2107967
0.7468497
0.2531503
0.6995665
0.3004335
0.7468497
0.2531503
0.7033906
0.2966094
0.8042895
0.1957105
0.448715
0.551285
0.7640608
0.2359392
0.5668551
0.4331449
0.7187818
0.2812182
0.8042895
0.1957105
0.7640608
0.2359392
0.4302589
0.5697411
0.8042895
0.1957105
0.7640608
0.2359392
Meninggal
sebelum 5 tahun
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Meninggal
sebelum 5 tahun
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
Meninggal
sebelum 5 tahun
Bertahan 5 tahun
atau lebih
Bertahan 5 tahun
atau lebih
0.7033906
0.2966094
Bertahan 5 tahun
<= 6
Tahun
<= Tahun
1963
<= Tahun
1963
<= Tahun
1960
<= Tahun
1960
<= Tahun
1960
<= Tahun
1966
<= Tahun
1963
<= Tahun
1960
<= Tahun
1963
<= Tahun
1960
<= Tahun
1969
<= Tahun
1969
<= Tahun
1963
<= Tahun
1960
<= Tahun
1963
<= Tahun
1966
<= Tahun
1969
<= Tahun
1960
<= Tahun
1963
<= Tahun
1969
<= Tahun
1960
<= Tahun
1969
<= Tahun
1963
<= Tahun
1966
<= Tahun
1969
<= Tahun
1963
Usia
>= 40
Tahun
>= 40
Tahun
>= 40
Tahun
>= 40
Tahun
>= 40
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 50
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
<= 6
<=
>= 60
<= 18
<= 6
<= 6
<= 6
<= 6
<= 6
<= 6
<= 6
<=12
<= 6
<=12
<= 6
<= 6
<= 6
<=12
<= 6
Tahun
Universitas Sumatera Utara
34
atau lebih
Bertahan
atau lebih
Bertahan
atau lebih
Bertahan
atau lebih
Bertahan
atau lebih
28
29
30
31
atau lebih
5 tahun
0.7033906
0.2966094
0.7187818
0.2812182
5 tahun
5 tahun
0.7033906
0.2966094
5 tahun
0.8042895
0.1957105
Bertahan 5
atau lebih
Bertahan 5
atau lebih
Bertahan 5
atau lebih
Bertahan 5
atau lebih
tahun
<= 6
tahun
<= 6
tahun
<= 6
tahun
<= 6
1966
Tahun
<= Tahun
1966
<= Tahun
1960
<= Tahun
1966
<= Tahun
1969
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
>= 60
Tahun
Tabel 4.5. Rekapitulasi Distribusi Dataset Haberman’s Survival Naïve Bayesian
No
Atribut
Parameter
Bertahan 5 Tahun
atau Lebih
Meninggal
dibawah 5
Tahun
1
Jumlah
KGB
value=<= 6
0.909
0.731
2
Jumlah
KGB
value=<=12
0.066
0.167
3
Jumlah
KGB
value=<= 18
0.025
0.103
4
Jumlah
KGB
value=unknown
0.000
0.000
5
Tahun
value=<= Tahun
1960
0.289
0.320
6
Tahun
value=<= Tahun
1963
0.264
0.231
7
Tahun
value=<= Tahun
1966
0.279
0.333
8
Tahun
value=<= Tahun
1969
0.168
0.115
9
Tahun
value=unknown
0.000
0.000
10
Usia
value=>= 30
Tahun
0.015
0.000
11
Usia
value=>= 40
Tahun
0.157
0.051
Universitas Sumatera Utara
35
12
Usia
value=>= 50
Tahun
0.284
0.346
13
Usia
value=>= 60
Tahun
0.543
0.602
Tabel 4.5 merupakan hasil rekapitulasi distribusi data pada pengklasifikasian dataset
Haberman’s Survival untuk pengujian Naïve Bayesian. Angka – angka pada masing –
masing kolom Bertahan 5 tahun atau lebih dan meninggal dibawah 5 tahun adalah angka
kemungkinan atau probabilitas kepadatan (Density Probability) masing – masing atribut
terhadap klasifikasi masing – masing kelas. Berikut adalah hasil analisis dataset
Haberman’s Survival untuk pengujian Naïve Bayesian dalam bentuk Histogram.
c. Hasil Analisis Naïve Bayesianterhadap Haberman’s Survival (Histogram)
Gambar 4.5 Hasil Analisis Naïve Bayesian terhadap Atribut Usia
Universitas Sumatera Utara
36
Gambar 4.5 merupakan hasil kemungkinan atau probabilitas kepadatan (Density
Probability) atribut Usia terhadap klasifikasi masing – masing kelas. Untuk kategori Usia
>=60 Tahun, kemungkinan untuk Bertahan 5 tahun atau lebihberada pada derajat yang
rendah yakni 0.543 sedangkan kemungkinan besar untuk Meninggal sebelum 5
tahunberada pada derajat yakni 0.602. Untuk kategori Usia>=50 Tahun, kemungkinan
untuk Bertahan 5 tahun atau lebih hampir tidak ada sedangkan kemungkinan besar adalah
Meninggal sebelum 5 tahun berada pada derajat yakni 0.346. Untuk kategori Usia >=40
Tahun, kemungkinan besar untuk Bertahan 5 tahun atau lebih berada pada derajat yakni
0.157 sedangkan kemungkinan kecil untuk Meninggal sebelum 5 tahun berada pada
derajat yakni 0.051. Untuk kategori Usia>=30 Tahun, kemungkinan besar untuk Bertahan
5 tahun atau lebih berada pada derajat yakni 0.015 sedangkan tidak kemungkinan untuk
meninggal dibawah 5 tahun.
Gambar 4.6 Hasil Analisis Naïve Bayesian terhadap Atribut Tahun
Universitas Sumatera Utara
37
Gambar 4.6 merupakan hasil kemungkinan atau probabilitas kepadatan (Density
Probability) atribut Tahun terhadap klasifikasi masing – masing kelas. Untuk kategori
Tahun <=Tahun 1969, kemungkinan besar untuk Bertahan 5 tahun atau lebih berada pada
derajat yakni 0.168 sedangkan kemungkinan kecil untuk Meninggal sebelum 5
tahunberada pada derajat yakni 0.115. Untuk kategori Tahun <=Tahun 1966,
kemungkinan kecil untuk Bertahan 5 tahun atau lebihberada pada derajat 0.279
sedangkan kemungkinan besar adalah Meninggal sebelum 5 tahunberada pada derajat
0.333. Untuk kategori Tahun <=Tahun 1963, kemungkinan untuk Bertahan 5 tahun atau
lebih berada pada derajat 0.264 sedangkan kemungkinan untuk Meninggal sebelum 5
tahun berada pada derajat yakni 0.231. Untuk kategori Tahun <=Tahun 1963,
kemungkinan kecil untuk Bertahan 5 tahun atau lebih berada pada derajat yakni 0.289
sedangkan kemungkinan besar untuk Meninggal sebelum 5 tahun berada pada derajat
0.320.
Gambar 4.7 Hasil Analisis Naïve Bayesian terhadap Atribut Jumlah KGB
Universitas Sumatera Utara
38
Gambar 4.7 merupakan hasil kemungkinan atau probabilitas kepadatan (Density
Probability) atribut Tahun terhadap klasifikasi masing – masing kelas. Untuk kategori
Jumlah Kelenjar Getah Bening (KGB)<=18, kemungkinan sangat kecil untuk Bertahan 5
tahun atau lebih berada pada derajat yakni 0.025 sedangkan kemungkinan untuk
Meninggal sebelum 5 tahun berada pada derajat yakni 0.103. Untuk kategori Jumlah
Kelenjar Getah Bening (KGB) <=12, kemungkinan kecil untuk Bertahan 5 tahun atau
lebih berada pada derajat 0.066, sedangkan kemungkinan besar adalah Meninggal
sebelum 5 tahunberada pada derajat 0.167. Untuk kategori Jumlah Kelenjar Getah Bening
(KGB) <=6, kemungkinan sangat besar untuk Bertahan 5 tahun atau lebih berada pada
derajat 0.909 sedangkan kemungkinan untuk Meninggal sebelum 5 tahun berada pada
derajat yakni 0.731.
Tabel 4.6 Confusion Matrix Metode Naïve Bayesian menggunakan Haberman’s Survival
Kinerja Klasifikasi
Actual Class
Predicted Class
Diprediksi. Bertahan 5 Diprediksi.
tahun atau lebih.
dibawah 5 tahun
Actual. Class Bertahan 5 tahun 25
3
atau lebih
(False Negative)
Actual.
(True Positive)
Class
dibawah 5 tahun
Meninggal
meninggal 3
0
(False Positive)
(True Negative)
Berdasarkan tabel 4.6, maka dilanjutkan dengan menghitung nilai Accuracy
pengklasifikasian dari model klasifikasi Naïve Bayesian menggunakan Dataset
Haberman’s Survival. Berikut hasil perhitungannya:
Accuracy =
=
=
= 0.8065*100% = 80.65%
Universitas Sumatera Utara
39
Dengan demikian jarak terdekat antara nilai prediksi class dan nilai aktual class atau
jumlah prediksi class yang benar dari model klasifikasi Naïve Bayesian terhadap
Dataset Haberman’s Survival adalah sebesar 80.65%.
4.2. Perbandingan Performance Metode Dataset
Dari hasil pengujian diatas, maka dapat disimpulkan tingkat akurasi dari kedua
algoritma tersebut yang dapat dilihat pada tabel berikut:
Tabel 4.7 Perbandingan Performance Metode
SVM
Naïve Bayes
precision
89.66%
89.29%
class recall
92.86%
89.29%
Accuracy
83.87%
80.65%
Dari tabel diatas diketahui nilai Precision dari Support Vector Machine lebih besar
dengan nilai 89.66% dari Naïve bayes yang menghasilkan 89.29% yang memiliki
selisih 0.37 % dari kedua algoritma tersebut. Sedangkan Class Recall yang dihasilkan
Naïve Bayes mencapai 89.29% dan Support Vector Machine 92.86% dan dengan
perbedaan nilai akurasi mencapai 3.22% dari perbandingan performa kedua algoritma
tersebut.
Universitas Sumatera Utara
40
BAB 5
KESIMPULAN DAN SARAN
5.1. Kesimpulan
Berdasarkan penelitian dan identifikasi masalah dari penelitian ini menghasilkan
kesimpulan sebagai berikut:
1. Pada penelitian yang dilakukan mengenai Haberman’s Survival dataset
dilakukan dengan menghasilkan prediksi dari metode Support Vector Machine
dan Naïve Bayes dengan melakukan pencarian tingkat keakuratan tertinggi
yang baik.
2. Dari hasil analisis bahwa Support Vector Machine mampu meningkatkan
akurasi dari metode Naïve Bayes, dimana peningkatan rata-rata akurasi
tertinggi terhadap Support Vector Machine diperoleh pada Haberman’s
Survival dataset yaitu sebesar 89.66% pada class precision dan sedangkan
Naïve Bayes mencapai 89.29%. Pada class recall Naïve Bayes memperoleh
nilai 89.29% dan Support Vector Machine 92.86%, dan akurasi data mencapai
80.65% pada Naïve Bayes dan 83.87% pada Support Vector Machine.
3. Keberhasilan dalam memprediksi menggunakan metode Support Vector
Machine menggunakan Haberman’s Survival dataset.
5.2. Saran
Pada penelitian selanjutnya yang diharapkan penulis adalah untuk mengembangkan
sistem program dalam memprediksi data yang lebih besar lagi, karena masih ada
kekurangan dalam penelitian ini sehingga harus disempurnakan dalam penelitian
kedepannya dapat memperoleh hasil lebih baik dari sebelumnya dan sistematis lagi.
Maka dari itu penulis mengharapkan penelitian ini dilanjutkan dengan menggunakan
algoritma lainnya dan memperoleh hasil akhir yang sesuai dengan keinginan. Semoga
mendapatkan keakuratan yang lebih besar serta menghasilkan konsep prediksi yang
lebih baik.
Universitas Sumatera Utara
DAFTAR PUSTAKA
Albert, J. 2009. Bayesian Computation with R, Springer : New York.
Bustami. 2013. Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi Data
Nasabah Asuransi. TECHSI : Jurnal Penelitian Teknik Informatika. Vol. 3,
No.2, Hal. 127-146.
Bolstad, W.M. 2007. Introduction to Bayesian Statistics. John Wiley and Sons : New Jersey.
Bramer, M. 2007. Principles of Data Mining. London: Springer.
Gorunescu, F. 2011. Data Mining: Concepts, Models and Techniques. Berlin: SpringerVerlag.
Han, J., Kamber, M. 2001. “Data Mining Concepts and Techniques”, Morgan Kaufman Pub.,
USA.
Han, J. and Kamber, M. 2006. “Data Mining Concepts and Techniques Second Edition”.
Morgan Kauffman, San Francisco.
Han, J., Kamber, M., & Pei, J. 2011. Data Mining: Concepts and Techniques (3rded.). San
Francisco: Morgan Kaufmann Publishers Inc.
Patil, T. R., Sherekar, M. S., 2013. Performance Analysis of Naive Bayes and J48
Classification Algorithm for Data Classification. International Journal of
Computer Science and Applications, Vol. 6, No. 2, Hal 256-261.
Pattekari, S. A., Parveen, A. 2012. Prediction System for Heart Disease Using Naive
Bayes. International Journal of Advanced Computer and Mathematical Sciences,
ISSN 2230-9624, Vol. 3, No 3, Hal 290-294.
x
Universitas Sumatera Utara
Ridwan, M., Suyono, H., Sarosa, M. 2013. Penerapan Data Mining untuk Evaluasi
Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier,.
Jurnal EECCIS, Vol 1, No. 7, Hal. 59-64.
Santosa, B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha
Ilmu. Yogyakarta.
Zarlis, M., Sitompul, O.S., Sawaluddin, Effendi, S., Sihombing, P. & Nababan, E.B.
2015. Pedoman Penulisan Tesis. FasilkomTI. Universitas Sumatera Utara.
Zhang, H., & Wang. Z. 2011. “A Normal Distributions - Based Over - Sampling
Approach to Imbalanced Data Classification. Advanced Data Mining and Applications
– 7th International Conference (pp. 83-96). Beijing, Springer.
xi
Universitas Sumatera Utara
Download