Universitas Sumatera Utara Repositori Institusi USU http://repositori.usu.ac.id Departemen Teknologi Informasi Tesis Magister 2019 Analisis Algoritma Support Vector Machine dan Naive Bayes Kernel dalam Klasifikasi Data Simangunsong, Juanto Universitas Sumatera Utara http://repositori.usu.ac.id/handle/123456789/16784 Downloaded from Repositori Institusi USU, Univsersitas Sumatera Utara ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAIVE BAYES KERNEL DALAM KLASIFIKASI DATA TESIS JUANTO SIMANGUNSONG 177038006 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2019 Universitas Sumatera Utara ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAIVE BAYES KERNEL DALAM KLASIFIKASI DATA TESIS Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Magister Teknik Informatika JUANTO SIMANGUNSONG 177038006 PROGRAM STUDI S2 TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA MEDAN 2019 Universitas Sumatera Utara Universitas Sumatera Utara PERNYATAAN ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE BAYES KERNEL DALAM KLASIFIKASI DATA TESIS Saya mengakui bahwa tesis ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya. Universitas Sumatera Utara PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di bawah ini: Nama : Juanto Simangunsong NIM : 177038006 Program Studi : S-2 Teknik Informatika Jenis Karya Ilmiah : Tesis Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalti Free Right) atas tesis saya yang berjudul: ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE BAYES KERNEL DALAM KLASIFIKASI DATA Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti NonEksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media, memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta. Demikian pernyataan ini dibuat dengan sebenarnya. Universitas Sumatera Utara Telah diuji pada Tanggal: 23 Juli 2019_______________________________________________ PANITA PENGUJI TESIS Ketua : Prof. Dr. Muhammad Zarlis Anggota : 1. Prof. Dr. Tulus 2. Prof. Dr. Herman Mawengkang 3. Dr. Syahril Effendy. SSi, M.IT Universitas Sumatera Utara RIWAYAT HIDUP DATA PRIBADI Nama Lengkap : Juanto Simangunsong Tempat dan Tanggal Lahir : Porsea, 18 Juni 1980 Alamat Rumah : Jl. Sembada No. 43 B Kelurahan Beringin Medan Selayang – Kota Medan HP : 0813 9792 8106 Instansi Tempat Bekerja : Wiraswasta DATA PENDIDIKAN SD : Negeri 1735421 Tamat Tahun 1993 SLTP : SWASTA BONAPASOGIT Tamat Tahun 1996 SLTA : STM Negeri 2 Medan Tamat Tahun 1999 D3 : FMIPA Instrumentasi USU Tamat Tahun 2002 S1 : Institute Teknologi TD. Pardede Tamat Tahun 2007 S2 : Teknik Informatika USU Tamat Tahun 2019 Universitas Sumatera Utara KATA PENGANTAR Pertama-tama dan yang paling utama, penulis mengucapkan puji dan syukur kehadirat Tuhan Yang Maha Kuasa, yang telah melimpahkan Kasih Setia dan karuniaNya kepada penulis, sehingga penulis dapat menyelesaikan tesis ini dengan sebaikbaiknya. Penulis mengucapkan terima kasih yang tak terhingga kepada pihak yang telah mendukung diantaranya: 1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H., M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. 2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI) Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah banyak memberikan bimbingan dan arahan. 3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si., M.IT. Beserta seluruh Staf Pengajar Program Studi Magister Teknik Informatika Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. 4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga kepada Bapak Prof. Dr. Tulus selaku Pembimbing Kedua yang dengan penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini dengan baik. 5. Bapak Prof. Dr. Herman Mawengkang dan Bapak Dr. Syahril Effendy, S.Si, M.IT, sebagai Dosen Pembanding yang telah memberikan saran dan masukan serta arahan yang baik demi penyelesaian tesis ini. i Universitas Sumatera Utara 6. Istri saya tercinta Nurmala Dewi Simanjuntak, S.Si, dimana sudah banyak memberikan doa dan dukungan kepada penulis selama proses perkuliahan di Universitas Sumatera Utara. 7. Orang tua dan Mertua saya, dimana selalu berdoa untuk kesehatan dan proses perkuliahan saya di Universitas Sumatera Utara. 8. Seluruh staf pegawai Program Studi Magister S2 Teknik Informatika Fakultas Ilmu Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i Kom-A 2017. 9. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali lagi terima kasih atas segala bantuan dan doa yang telah diberikan. Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada umumnya. Sekali lagi penulis mengucapkan terima kasih, semoga Tuhan Yang Maha Kuasa membalas semua kebaikan yang telah diberikan. Amin. Medan, 25 Juli 2019 Penulis, Juanto Simangunsong NIM: 177038006 ii Universitas Sumatera Utara ANALISIS ALGORITMA SUPPORT VECTOR MACHINE DAN NAÏVE BAYES KERNEL DALAM KLASIFIKASI DATA ABSTRAK Pemrosesan data dibutuhkan beberapa metode untuk mendapatkan hasil yang lebih baik dan optimal. Dengan melakukan perbandingan dari metode yang digunakan sangat dibutuhkan untuk proses pengolahan data yang baik untuk menganalisa kinerja algoritma melalui perbandingan dari algoritma Support Vector Machine dan Naive Bayes Kernel dengan klasifikasi kelas yang berbeda. Pada penelitian yang dilakukan mengenai Haberman’s Survival dataset dilakukan dengan menghasilkan prediksi dari metode Support Vector Machine dan Naïve Bayes dengan melakukan pencarian tingkat keakuratan tertinggi yang baik. Dari hasil analisis bahwa Support Vector Machine mampu meningkatkan akurasi dari metode Naïve Bayes, dimana peningkatan rata-rata akurasi tertinggi terhadap Support Vector Machine diperoleh pada Haberman’s Survival dataset yaitu sebesar 89.66% pada class precision dan sedangkan Naïve Bayes mencapai 89.29%. Pada class recall Naïve Bayes memperoleh nilai 89.29% dan Support Vector Machine 92.86%, dan akurasi data mencapai 80.65% pada Naïve Bayes dan 83.87% pada Support Vector Machine. Keberhasilan dalam memprediksi menggunakan metode Support Vector Machine menggunakan Haberman’s Survival dataset yang telah dilakukan dalam pengujian. Kata kunci: Support Vector Machine, Naïve Bayes, Klasifikasi, Haberman’s Survival dataset. iii Universitas Sumatera Utara ABSTRACT Data processing requires several methods to get better and optimal results. By doing a comparison of the methods used it is very necessary for good data processing to analyze the performance of the algorithm through a comparison of the Support Vector Machine and Naive Bayes Kernel algorithms with different classifications. The research conducted on Haberman's Survival dataset was conducted by producing predictions from the method of Support Vector Machine and Naïve Bayes by searching for the highest level of accuracy that is good. From the results of the analysis that Support Vector Machine is able to improve the accuracy of the Naïve Bayes method, where the highest increase in the average accuracy of Support Vector Machine is obtained by Haberman’s Survival dataset, which is 89.66% in class precision and Naïve Bayes reaches 89.29%. In the recall class Naïve Bayes obtained 89.29% and Support Vector Machine 92.86%, and data accuracy reached 80.65% at Naïve Bayes and 83.87% on Support Vector Machine. Success in predicting uses the Support Vector Machine method using the Haberman's Survival dataset that was carried out in the test. Keywords: Support Vector Machine, Naïve Bayes, Classification, Haberman's Survival dataset. iv Universitas Sumatera Utara DAFTAR ISI Hal UCAPAN TERIMAKASIH i ABTRAK iii ABSTRACT iv DAFTAR ISI v DAFTAR GAMBAR vii DAFTAR TABEL viii DAFTAR PUSTAKA ix LAMPIRAN BAB 1 PENDAHULUAN 1 1.1. Latar Belakang 1 1.2. Rumusan Masalah 2 1.3. Batasan Masalah 2 1.4. Tujuan Penelitian 3 1.5. Manfaat Penelitian 3 BAB 2 LANDASAN TEORI 4 2.1. Klasifikasi 4 2.2. Naïve Bayes 5 v Universitas Sumatera Utara 2.2.1. Prinsif Metode Bayes 6 2.2.2. Teknik Klasifikasi Metode Bayes 7 2.2.3. Keuntungan dan Kerugian Metode Bayes 8 2.3. Smooth Support Vector Machine 8 2.3.1. Karakteristik Support Vector Machine 9 2.4. Validasi dan Evaluasi Kinerja Algoritma Klasifikasi 9 2.4.1. Cross-Validation 10 2.4.2. Confusion Matix 11 2.5. Polinomial 14 BAB 3 METODE PENELITIAN 16 3.1. Rancangan Penelitian 16 3.1.1. Rancangan Penelitian SVM 17 3.1.2. Rancangan Penelitian Naïve Bayes 18 3.1.3. Rancangan Penelitian SVM dan Naïve Bayes 19 3.2. Pelaksanaan Penelitian 20 3.2.1. Observasi 20 3.2.2. Data yang digunakan 20 3.2.3. Analisis kebutuhan data 21 3.3. Desain Sistem 24 BAB 4 HASIL DAN PEMBAHASAN 25 vi Universitas Sumatera Utara 4.1. Pengujian Metode Klasifikasi 26 4.1.1. Implementasi Dataset 27 4.1.1.1. Analisa Dataset SVM 27 4.1.1.2. Analisa Dataset pada Naïve Bayesian 31 4.2. Perbandingan Performance Metode Dataset BAB 5 KESIMPULAN DAN SARAN 39 40 5.1. Kesimpulan 40 5.2. Saran 40 vii Universitas Sumatera Utara DAFTAR GAMBAR Hal Gambar 2.1. Support Vector Machine 9 Gambar 3.1. Rancangan Penelitian Support Vector Machine 17 Gambar 3.2. Rancangan Penelitian Naïve Bayes 18 Gambar 3.3. Rancangan Penelitian 2 Algoritma 19 Gambar 4.1. Penentuan Atribut Support Vector Machine 27 Gambar 4.2. Rancangan Model Support Vector Machine 28 Gambar 4.3. Atribut Haberman’s Survival Naïve Bayesian 31 Gambar 4.4. Rancangan Model Naïve Bayesian 32 Gambar 4.5. Hasil Analisis Naïve Bayesian terhadap Atribut Usia 35 Gambar 4.6. Hasil Analisis Naïve Bayesian terhadap Atribut Tahun 36 Gambar 4.7. Hasil Analisis Naïve Bayesian terhadap Atribut Jumlah KGB 37 viii Universitas Sumatera Utara DAFTAR TABEL Hal Tabel 2.1. Confusion Matix 11 Tabel 3.1. Data Sets Penelitian 21 Tabel 4.1. Hasil Preprocessing Haberman’s Survival Dataset 26 Tabel 4.2. Hasil Distribusi Data Metode SVM Haberman’s Survival Dataset 29 Tabel 4.3 Confusion Matrix SVM menggunakan Haberman’s Survival 30 Tabel 4.4. 33 Hasil Distribusi Data Metode Naïve Bayesian Haberman’s Survival Tabel 4.5. Rekapitulasi Distribusi Dataset Haberman’s Survival Naïve Bayesian Tabel 4.6 34 Confusion Matrix Metode Naïve Bayesian menggunakan Haberman’s Survival 38 Tabel 4.7 Perbandingan Performance Metode 39 ix Universitas Sumatera Utara 1 BAB 1 PENDAHULUAN 1.1. Latar Belakang Penelitian (Lee, 2001) SVM memanfaatkan optimasi dengan pemrograman kuadratik, sehingga untuk data dimensi tinggi dan sejumlah besar data SVM menjadi kurang efisien. Dukungan Mesin Vektor (SSVM). Menurut (Rachman, 2011), (Huang, 2003) dan (Byvatov, 2003) Dukungan Mesin Vector sedangkan hasil penelitian memiliki penurunan akurasi yang signifikan dibandingkan dengan metode regresi logistik, JST, Naif Bayes, dan CART. Metode pembelajaran berbasis SVM sangat menjanjikan untuk penelitian lebih lanjut karena mereka memiliki kinerja tinggi dan dapat diterapkan secara luas untuk klasifikasi dan estimasi. Menurut penelitian (Honakan, 2018) klasifikasi dengan proses dukungan vektor mesin memiliki akurasi tinggi dengan stopword, kombinasi tokenizing, istilah frekuensi & chi-square 47,43%. Sedangkan penelitian (Pratama, 2018) Support Vector Machine (SVM) mengklasifikasikan data menjadi 2 kelas menggunakan RBF kernel Gaussian dengan kombinasi nilai parameter λ = 0,5, konstan γ = 0,01, dan ε (epsilon) = 0,001 itermax = 100 , c = 1 menggunakan data pelatihan untuk 170 dataset. Penelitian ini menghasilkan akurasi rata-rata 80,55%. Jadi persentase keakuratan, memori, dan keakuratan dipengaruhi oleh penentuan data pelatihan. (Ridwan, 2013). Dalam metode Naïve Bayes, diharapkan untuk memprediksi jumlah penggunaan listrik per rumah tangga sehingga lebih mudah untuk mengatur penggunaan listrik. Dari 60 data penggunaan listrik di rumah telah diuji menggunakan algoritma Naive Bayes dan hasilnya 78,3333% untuk akurasi prediksi, di mana 60 penggunaan listrik di rumah telah diuji dengan menggunakan algoritma Naive Bayes 47 data tentang penggunaan listrik di rumah yang berhasil diklasifikasikan dengan benar. (Saleh, 2015). Universitas Sumatera Utara 2 1.2. Rumusan Masalah Dari latar belakang masalah yang diuraikan di atas, penulis mengambil rumusan masalah untuk setiap data yang diolah sehingga dibutuhkan metode dengan beberapa jenis untuk mendapatkan hasil yang diinginkan dengan baik dan optimal. Dengan membuat perbandingan metode yang digunakan, sangat penting untuk memproses data yang diproses sehingga mendapatkan hasil yang baik untuk menganalisis kinerja algoritma melalui perbandingan Support Vector Machine dan algoritma Kernel Naive Bayes dengan klasifikasi kelas yang berbeda. 1.3. Batasan Masalah Berdasarkan permasalahan yang terdapat dalam penelitian ini, Maka dengan ini dibutuhkan adanya sebuah batasan masalah. Batasan masalah membuat penelitian menjadi lebih terarah sehingga tujuan penelitian dapat tercapai. Adapun batasan pada penelitian ini adalah sebagai berikut: 1. Penulis hanya mengklasifikasi data dengan menggunakan data yang telah ditentukan sebelumnya, dengan data yang memiliki atribut-atribut untuk diuji. 2. Dalam penelitian ini penulis hanya menganalisa hasil perbandingan berdasarkan precision, recall & accuracy pada kedua algoritma tersebut. 1.4. Tujuan Penelitian Di dalam penelitian ini, penulis memiliki tujuan, yaitu untuk mengimplementasikan Algortitma Support Vector Machine dan Naïve Bayes Kernel dalam pengklasifikasian data dalam memprediksi tingkat banyaknya data yang diuji dalam pencarian tingkat keakuratan data tertinggi serta yang baik pada fungsi atribut-atribut data pada SVM dan Naïve Bayes Kernel. Kemudian peneliti akan dapat segera mengetahui secara detail bagaimana kelemahan dan kelebihan algoritma yang efisien untuk digunakan dalam pengujian data besar ataupun kecil, dengan begitu pada penelitian mengenai keakurasian dan klasifikasi data dapat dicapai secara baik. Universitas Sumatera Utara 3 1.5. Manfaat Penelitian Manfaat penelitian tesis ini adalah: 1. Dapat menjadi pembelajaran dalam hasil studi dan penelitian selanjutnya dan mengembangkan penelitian ini. 2. Agar dapat memberikan pembelajaran dan pengetahuan penulis mengenai metode data mining 3. Mengetahui penggunaan Algoritma Support Vector Machine dan Naive Bayes Kernel dapat memberikan hasil yang optimal pada akurasi data. Universitas Sumatera Utara 4 BAB 2 LANDASAN TEORI Pada bab ini akan diuraikan seluruh landasan teori yang berhubungan dengan penelitian. Konsep-konsep yang akan di jelaskan dalam penelitian ini seperti Klasifikasi, Support Vector Machine dan Naive Bayes Kernel, Precision, Recall & Accuracy. 2.1. Klasifikasi Klasifikasi biasanya terkait dengan peramalan kategori kelas dan mengklasifikasikan data atau membangun model berdasarkan data pelatihan untuk menentukan dan nilainilai kelas dalam kelas atribut dan menggunakan kelas data baru. klasifikasi sering digunakan dalam bidang persetujuan kredit, target pemasaran, diagnosa medis, dan analisis efektivitas keputusan. Langkah klasifikasi dengan menggambarkan sekumpulan kelas yang telah ditentukan dan menggunakan model yang berfungsi untuk mengklasifikasikan tupel data yang label kelasnya tidak diketahui. Modelmodel ini disajikan sebagai aturan klasifikasi, pohon keputusan, atau rumus matematika. Berbagai klasifikasi yang sering digunakan adalah Pohon Keputusan, Jaringan Bayesian, Jaringan Bayesian Adaptif, Naïve Bayes, dan sebagainya. Teknik yang digunakan untuk melihat perilaku dan atribut kelompok yang ditentukan. Metode ini dengan memanipulasi data yang telah diklasifikasikan dan dengan menggunakan hasil untuk memberikan sejumlah aturan dapat memberikan klasifikasi data baru. Aturan-aturan ini digunakan pada data baru untuk diklasifikasikan. Teknik ini menggunakan induksi terawasi, yang memanfaatkan kumpulan tes dari catatan rahasia untuk menentukan kelas tambahan. Salah satu contoh mudah dan populer adalah Decision Tree, yang merupakan salah satu metode klasifikasi paling populer karena mudah ditafsirkan. Decision tree adalah model prediksi menggunakan struktur pohon atau struktur hierarkis. Pohon keputusan adalah Universitas Sumatera Utara 5 struktur bagan alur seperti pohon, di mana setiap simpul internal menandakan tes pada atribut, setiap cabang mewakili hasil tes, dan simpul daun mewakili kelas atau distribusi kelas. Alur dalam pohon keputusan dilacak dari simpul akar ke simpul daun yang menampung prediksi kelas sebagai contoh. 2.2. Naïve Bayes Naive Bayes Classifier (NBC) adalah algoritma yang melakukan teknik penambangan data dengan menerapkan metode Naive Bayes dalam mengklasifikasikan data. Teori naif bayes carastatistik dalam melakukan pengenalan pola. Naif Bayes memiliki nilai atribut independen ketika nilai output digunakan. Output probabilitas melalui probabilitas individual. NBC dilakukan dengan memasukkan persamaan 1 dan persamaan 2. (Santosa, 2002). Probabilitas klasifikasi yang sangat sederhana yang melakukan perhitungan dengan beberapa probabilitas dengan melakukan sejumlah frekuensi dan menggabungkan nilai-nilai dari dataset yang digunakan adalah metode pengujian naif Bayes. Naïve Bayes mengasumsikan atribut independen atau tidak saling ketergantungan pada nilai variabel setiap kelas. (Patil, 2013). Peneliti lain mengatakan bahwa metode Bayes naif dibuat oleh orang Inggris, Thomas Bayes, yang mengklasifikasikan probabilitas dan statistik dengan memprediksi masa depan dengan melakukannya menggunakan pengalaman sebelumnya (Bustami, 2013). Naïve bayes tidak diberi nilai output dan menyederhanakan nilai atriut independen secara kondisional. Dengan kata lain, dengan mengamati probabilitas probabilitas individu produk. (Ridwan, 2013). Barang yang dihasilkan dengan menggunakan metode n = adalah bahwa metode ini hanya membutuhkan sedikit data dalam melakukan pelatihan data dan dalam menentukan perkiraan parameter yang digunakan dalam proses klasifikasi data. Naïve Bayes bekerja sangat baik dalam kehidupan nyata global seperti yang diharapkan. Teorema bayes digunakan untuk menghitung jumlah probabilitas untuk peristiwa yang memiliki pengaruh pada hasil pengamatan. Dalam Bayesian, parameter digunakan sebagai variabel acak sedangkan di dunia statistik sebelumnya, parameter harus selalu diperbaiki. Pastor Thomas Bayes adalah nama theorem Bayes yang digambarkan sebagai hubungan antara peluang peristiwa A dan Z, yang dijelaskan Universitas Sumatera Utara 6 dalam rumus berikut (Kundu, 2011): P(x | H) P(H) P(H | x) = P(x) Atau P(x | H) P(H) P(H | x) = P(x | H)P(H) + P(x | H)P(H) Dalam kelas sampel data X yang labelnya belum diketahui, dan H adalah hipotesis, data sampel x ditransfer ke kelas khusus c. P (H / x) adalah probabilitas yang menjelaskan data tentang data penelitian x. P (H / x) adalah probabilitas posterior yang menyerupai kepercayaan pada prediksi setelah x diberikan. Sebaliknya, P (H) adalah probabilitas H sebelum sampel digunakan, sebelum sampel terbentuk. Probabilitas posterior P (H / x) didasarkan pada banyak informasi dari probabilitas priori P (H). Teori Bayes memiliki cara menghitung probabilitas posterior P (H / x) menggunakan probabilitas P (H), P (X) dan P (H / x). Metode Bayes adalah pendekatan statistik untuk inferensi induksi pada masalah klasifikasi. Pertama dibahas pertama tentang konsep dasar dan definisi dalam teori Bayes, kemudian menggunakan teorema ini untuk mengklasifikasikan dalam Penambangan Data. Metode Bayes menggunakan proporsi bersyarat sebagai dasar. 2.2.1. Prinsip Metode Bayes Metode Bayes memiliki cara mudah untuk menambahkan informasi dari luar ke proses analisis data. Proses ini dilakukan dengan mendistribusikan data yang ada Universitas Sumatera Utara 7 dengan set data yang disetujui (Albert, 2009). Metode ini dilakukan dengan peluang yang memiliki persyaratan. Aplikasi Metode Bayes biasanya digunakan dalam beberapa kategori sebagai berikut: A. Diagnosa yang telah di tentukan dalam menganalisa suatu penyakit berdasarkan data-data gejala (biasanya digunakan pada analisa penykit hipertensi atau sakit jantung). Meneliti buah dalam pengenalan buah berdasarkan spesifikasi buah seperti warna, bentuk, rasa dan lain-lain B. Pengenalan warna berdasarkan fitur indeks warna RGB C. Pendeteksian warna kulit (skin detection) dengan melihat sisi warna chrominant D. Penentuan keputusan terhadap aksi (olahraga, art, psikologi) dari sebuah keadaan. E. Penentuan jenis pakaian yang pas dipakai untuk keadaan-keadaan tertentu (seperti cuaca, musim, temperatur, acara, waktu, tempat dan lain-lain) 2.2.2. Teknik Klasifikasi Metode Bayes Beberapa teknik pengklasifikasian yang digunakan (Albert, 2009): a. Decision tree classifier b. Rule based classifier c. Neural network d. Naive bayes Setiap teknik menggunakan algoritma pembelajaran untuk mengidentifikasi model yang menyediakan hubungan yang paling tepat. Contoh teori bayesian adalah kasus pasien yang mengalami kesulitan bernapas. Keputusan yang diambil adalah antara kasus pasien yang menderita asma atau pasien yang menderita kanker paru-paru (Bolstad, 2007). a. Keputusan 1: menyatakan bahwa seseorang menderita kanker paru-paru meskipun gejala asma yang sebenarnya (biaya: cukup tinggi, sehingga membuat pasien takut dan Universitas Sumatera Utara 8 membuat pasien menjalani pemeriksaan yang tidak perlu). b. Keputusan 2: menyatakan seseorang asma meskipun sebenarnya itu adalah kanker paru-paru (biaya: sangat tinggi yang membuat pasien kehilangan kesempatan untuk mengobati kanker pada tahap awal atau akhir). 2.2.3. Keuntungan dan Kerugian Metode Bayes Kerugian dari Metode Bayes termasuk bahwa Metode Bayes hanya dapat digunakan untuk masalah klasifikasi dengan pembelajaran yang diawasi dan data kategorikal, Metode Bayes membutuhkan pengetahuan awal untuk dapat membuat keputusan. Tingkat keberhasilan metode ini tergantung pada pengetahuan awal yang diberikan. Kelebihan dari Metode Bayes termasuk adalah Interpolasi: Metode Bayes memiliki pilihan tentang berapa banyak waktu dan upaya yang dilakukan oleh manusia vs komputer; Bahasa: Metode Bayes memiliki bahasa sendiri untuk menentukan hal-hal sebelumnya dan posterior; Intuisi: Melibatkan sebelum dan integrasi, dua kegiatan yang secara luas bermanfaat. Probabilitas Bayesian adalah teori terbaik dalam menangani masalah estimasi dan menarik kesimpulan. Metode Bayesian dapat digunakan untuk menarik kesimpulan dalam kasus-kasus dengan banyak sumber pengukuran yang tidak dapat ditangani oleh metode lain seperti model hierarkis yang kompleks (Bolstad, 2007). 2.3. Smooth Support Vector Machine SVM diciptakan oleh Vapnik pada tahun 1992 menggunakan serangkaian konsep unggul yang baik di bidang pengenalan pola. SVM masih dianggap muda dalam metode pengenalan pola. Namun, kemampuannya dalam berbagai aplikasi sering digunakan sebagai seni dalam membuat pola. SVM juga merupakan metode mesin pembelajaran yang bekerja berdasarkan prinsip Structural Risk Minimization (SRM) yang berfungsi sebagai hyperplane terbaik yang memisahkan input. Konsep SVM adalah kombinasi yang baik dari teori komputer yang telah digunakan selama beberapa tahun, seperti margin hyperplane (Duda & Hart pada tahun 1973, Cover pada tahun 1965, Vapnik 1964, dll.), Kernel diperkenalkan oleh Aronszajn pada tahun 1950, dan juga dengan rencana pendukung lainnya. Tetapi sampai tahun 1992, belum pernah ada upaya untuk merakit komponen-komponen ini. Universitas Sumatera Utara 9 SVM memiliki fitur multi-dimensi yang memiliki plot sebagai titik data dalam mengklasifikasikan dengan mendefinisikan batas antara titik data dari permukaan. SVM bertujuan untuk membuat garis bawah atau disebut hyperlink dengan arah partisi data yang sama satu sama lain. Dengan cara ini, pembelajaran SVM menggabungkan aspek-aspek pembelajaran dari tetangga terdekat. Untuk masalah klasifikasi biner, SVM sangat cocok. Support Vector Machine dapat dibayangkan sebagai permukaan yang mendefinisikan batas antara berbagai titik data yang mewakili contoh yang diplot dalam ruang multidimensi sesuai dengan fiturnya. Tujuan dari SVM adalah untuk membuat batas dasar atau yang disebut dengan hyperline yang mengarah pada partisi data yang homogeny diantara kedua sisi. Dengan cara ini, pembelajaran SVM yang menggabungkan aspek-aspek dari pembelajaran tetangga terdekat. Untuk permasalahan klasifikasi biner, SVM sangat cocok digunakan. Sebagai contoh pada gambar 2.5 berikut ini. Gambar 2.1. Support Vector Machine 2.4. 2.4.1. Validasi dan Evaluasi Kinerja Algortima Klasifikasi Cross-Validation Universitas Sumatera Utara 10 Dalam validasi silang, setiap catatan digunakan beberapa kali dalam jumlah yang sama untuk pelatihan dan sangat cocok untuk pengujian. Untuk menggambarkan metode ini, anggaplah kita mempartisi data menjadi dua bagian yang sama. Pertama, kami memilih salah satu dari dua himpunan bagian untuk pelatihan dan yang lainnya untuk pengujian. Kemudian transisi dari subset yang disetujui dilakukan sehingga subset sebelumnya sebagai set pelatihan adalah set tes yang berlawanan. Rekomendasi ini disebut validasi silang ganda. Total kesalahan diperoleh dengan menjumlahkan kesalahan untuk proses kedua. Dalam contoh ini, setiap rekaman digunakan tepat satu kali untuk pelatihan dan satu kali untuk pengujian. Metode validasi silang k-fold menggeneralisasikan temuan ini dengan mensegmentasi data ke dalam partisi k yang sama. Selama proses, salah satu partisi dipilih untuk pengujian, sedangkan sisanya digunakan untuk pelatihan. Prosedur ini diulang setiap partisi yang digunakan untuk menguji tepat sekali. Total kesalahan ditentukan dengan menjumlahkan kesalahan untuk semua proses k. Kasus khusus untuk metode k-fold validasi silang menentukan k = N, ukuran kumpulan data. Metode ini hanya membutuhkan satu jalan keluar, setiap set tes hanya berisi satu catatan. Informasi ini memiliki keuntungan menggunakan data sebanyak mungkin untuk pelatihan. Koleksi tes eksklusif yang saling terkait dan set data yang efektif. Ringkasan ini membahas jumlah perhitungan untuk mengulangi prosedur N kali (Tan, 2005). Metode evaluasi standar adalah stratifikasi 10 kali lipat, validasi silang adalah pilihan terbaik untuk mendapatkan hasil validasi yang akurat. 10 kali validasi silang akan mengulang tes 10 kali dan hasil nilai rata-rata tes 10 kali tes. Keuntungan dari metode ini, hindari tumpang tindih pengujian data. Koleksi tes eksklusif yang saling terkait dan set data yang efektif. Ini adalah angka yang dihitung untuk prosedur yang dilakukan sebanyak N kali (Gorunescu, 2011). Untuk data yang tidak seimbang, akurat lebih akurat dengan data kelas minoritas, maka metrik yang tepat adalah AUC (Area Di Bawah Kurva ROC), FMeasure, G-Mean, akurasi keseluruhan, dan akurasi untuk kelas minoritas (Zhang, 2011). Mengevaluasi dengan F-Measure, rata-rata harmonik dua digit lebih tinggi dari dua, dengan nilai F-Measure tinggi dapat memastikan keduanya (ingat) dan presisi tinggi. Jika hanya menggunakan kelas positif dianggap sebagai dua langkah penting, yaitu tingkat TP dan Nilai Prediktif Positif (nilai PP). Nilai PP didefinisikan sebagai Universitas Sumatera Utara 11 presisi yang menunjukkan penyajian objek yang relevan yang ditetapkan untuk pengambilan. Dalam mencari informasi, tingkat TP mengacu pada penarikan yang menunjukkan presentasi dari objek yang diambil relevan. Rata-rata harmonik adalah kombinasi ukuran presisi dan memori. Dalam pengujian data yang telah dilakukan akan mendapatkan hasil prediksi, setelah hasil prediksi diperoleh langkah selanjutnya dengan mengukur kinerja algoritma. Mengukur kinerja sistem klasifikasi adalah penting. 2.4.2 Confusion Matrix Adalah sebuah metode yang dapat digunakan dalam mengukur kinerja suatu metode klasifikasi. Pada dasarnya confusion matrix berisi informasi tentang klasifikasi aktual dan prediksi yang dilakukan oleh sistem klasifikasi. Kinerja dari sistem tersebut umumnya dievaluasi menggunakan data dalam matriks. Pada pengukuran kinerja menggunakan confusion matrix yang telah dijelaskan sebelumnya terdapat empat istilah yang digunakan sebagai representasi dari proses klasifikasi. Keempat istilah tersebut adalah True Posistif yang disingkat dengan TP, True Negatif yang disingkat dengan TN, False Positive yang disingkat dengan FP dan False Negatif yang disingkat dengan FN. TP merupakan data positif yang terdeteksi benar, TN merupakan data negatif yang terdeteksi salah, FP merupakan data negatif yang terdeteksi benar dan FN merupakan data negatif yang terdeteksi salah. Tabel 2.1. Confusion Matrix (Wang, 2014) Prediksi Actual Class Positive Negative Positive True Positive (TP) True Negative (TN) Negative False Postive (FP) False Negative (FN) Keterangan : Universitas Sumatera Utara 12 a. True Positif (TP) adalah jumlah instance dari kelas positif yang benar diprediksi sebagai kelas positif b. False Positif (FP) adalah jumlah instance dari kelas negatif yang diprediksi sebagai kelas positif c. False Negatif (FN) adalah jumlah instance dari kelas positif yang diprediksi sebagai kelas negative d. True Negatif (TN) adalah jumlah instance dari kelas negatif yang diprediksi sebagai kelas negatif Berdasarkan nilai TP,TN, FP dan FN dapat diperloleh nilai metric yang selalu digunakan untuk menghitung kinerja dari model klasifikasi seperti accuracy, precision, sensitivity, specificity, F1 Score, F1 Measure dan AUC, sebagai berikut : a. Accuracy Accuracy adalah nilai ketepatan model dalam memprediksi data dengan perbandingan data aktualnya dan sebagai pengukur model untuk menentukan seberapa akurat dalam melakukan prediksi. b. Precision Precision adalah untuk mengevaluasi seberapa baik kepastian model dalam memprediksi suatu kelas dengan benar. Precision merupakan perhitungan untuk mendapat nilai antara perbandingan jumlah data untuk satu kelas tertentu yang diprediksi dengan benar dibagi dengan jumlah keseluruhan prediksi kelas. Rentang nilai precision berada diantara 0 dan 1, dimana jika nilai mendekati 0 maka ketepatan dalam memprediksi tidak baik dan jika nilai mendekati 1 maka ketetapan dalam memprediksi baik. Dan untuk mendapatkan nilai dalam persentase maka nilai dikalikan dengan 100%. Universitas Sumatera Utara 13 c. Recall/Sensitivity Recall/Sensitivity adalah untuk mengevaluasi seberapa besar coverage suatu model dalam memprediksi kelas positif diklasifikasikan. Recall/Sensitivity didapatkan dengan menghitung perbandingan antara jumlah data untuk satu kelas tertentu yang diprediksi dengan benar dibagi jumlah total kelas tersebut. d. Specificity Recall/Sensitivity adalah untuk mengevaluasi seberapa besar coverage suatu model dalam memprediksi kelas negatif diklasifikasikan. Recall/Sensitivity didapatkan dengan menghitung perbandingan antara jumlah data untuk satu kelas tertentu yang diprediksi dengan benar dibagi jumlah total kelas tersebut. e. F1 Measure F1 Measure adalah perhitungan kombinasi antara recall dan precision. Rentang nilai F1 Measure adalah 0 sampai dengan 1, jika nilai mendekati 0 maka model prediksi tidak baik dan sebaliknya jika nilai mendekati 1 maka model prediksi baik. Untuk mendapatkan nilai dalam persentase maka nilai dikalikan dengan 100. Universitas Sumatera Utara 14 f. F1 Score F1 Score adalah untuk mengevaluasi seberapa baik metric hybrid yang dipergunakan untuk kelas tidak seimbang. Rentang nilai F1 Score adalah 0 sampai dengan 1, jika nilai mendekati 0 maka model prediksi tidak baik dan sebaliknya jika nilai mendekati 1 maka model prediksi baik. Untuk mendapatkan nilai dalam persentase maka nilai dikalikan dengan 100. 2.5. Polinomial x2 + 5x – 2 dan 2x5 – 6x3 + 11x disebut dengan suku banyak (polinomial) dalam x yang merupakan berderajat dua dan lima pada masing-masingnya. Pangkat tertinggi dari x merupakan derajat suatu suku banyak dalam x adalah dalam suku banyak itu. Jika an, an-1, an-2, …, a0 adalah konstanta, maka: anxn + an-1xn-1 + an-2xn-2 + … + a1x + a0 adalah suku banyak dalam x yang berderajat n, jika n bilangan cacah dan an ≠ 0. Perhatikan, bahwa dalam suatu suku banyak semua pangkat lebih besar atau sama dengan nol. Bilangan ak dinamakan koefisien suku xk dan a0 dinamakan suku tetap. Contoh: 8x3 + 5x – 2, koefisien x3 adalah 8, koefisien x2 adalah 0, koefisien x adalah 5, dan suku tetap adalah -2. Suatu bentuk (1 – x)(2 + x + x2) + 3x + 7 juga dinamakan suku banyak karena dapat ditulis –x3 + 2x + 9. Dengan menyatakan suku banyak dengan f(x), maka nilai suku banyak itu jika x diganti dengan 1 (cara subtitusi) adalah f(1), Universitas Sumatera Utara 15 f(x) = –x3 + 2x + 9 f(1) = -(1)3 + 2(1) + 9 = -1 + 2 + 9 = 10. Universitas Sumatera Utara 16 BAB 3 METODE PENELITIAN Sekumpulan proses terstruktur mengenai peraturan, kegiatan dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu yang menceritakan bagaimana sebuah penelitian dilaksanakan adalah pengertian Metodologi Penelitian (Zarlis, 2015). Pada hakekatnya metodologi penelitian merupakan hal yang mengkaji perihal urutan langkah – langkah yang ditempuh supaya pengetahuan yang diperoleh memenuhi ciri – ciri ilmiah. 3.1. Rancangan Penelitian Adapun rancangan dari penelitian ini terbagi atas rancangan penelitian pada algoritma Support Vector Machine dan algoritma Naïve Bayes yang dapat dilihat sebagai berikut: Universitas Sumatera Utara 17 3.1.1. Rancangan Penelitian Support Vector Machine Gambar 3.1. Rancangan Penelitian Support Vector Machine Pada rancangan penelitian yang dilakukan pada Gambar 3.1, dijelaskan bahwa peneliti melakukan analisa terhadap algoritma Support Vector Machine dengan cara melakukan input data training yang telah dipersiapkan data ujinya terlebih dahulu, kemudian memproses training data, dihasilkan data training, kemudian data tersebut klasifikasi menggunakan algoritma Support Vector Machine dan mendapatkan hasil prediksi dari algoritma Support Vector Machine. Universitas Sumatera Utara 18 3.1.2. Rancangan Penelitian Naïve Bayes Gambar 3.2. Rancangan Penelitian Naïve Bayes Pada rancangan penelitian yang dilakukan pada Gambar 3.2, disini peneliti melakukan beberapa analisa terhadap algoritma Naïve Bayes dengan terlebih dahulu melakukan input data training yang telah dipersiapkan data ujinya terlebih dahulu, kemudian memproses training data, dihasilkan data training, kemudian data tersebut klasifikasi menggunakan algoritma Naïve Bayes dan mendapatkan hasil prediksi dari algoritma Naïve Bayes. Universitas Sumatera Utara 19 3.1.3. Rancangan Penelitian Support Vector Machine dan Naïve Bayes Gambar 3.3. Rancangan Penelitian 2 Algoritma Pada rancangan penelitian yang dilakukan pada Gambar 3.3. tersebut, peneliti melakukan analisa terhadap algoritma Support Vector Machine dan Naïve Bayes dengan melakukan input data training yang telah dipersiapkan data ujinya terlebih dahulu, kemudian memproses training data, dihasilkan data training, kemudian data Universitas Sumatera Utara 20 tersebut klasifikasi menggunakan algoritma Support Vector Machine dan Naïve Bayes dan mendapatkan hasil prediksi dari algoritma Support Vector Machine dan Naïve Bayes, kemudian di analisa perbandingan terhadap hasil precision, recall & accuracy. 3.2. Pelaksanaan Penelitian Proses penelitian ini terdapat beberapa kegiatan, yaitu kegiatan-kegiatan yang terdapt pada penelitian, yaitu observasi lapangan, pengumpulan data dan analisa data. 3.2.1. Observasi Observasi yang dilakukan pada penelitian ini adalah hal yang paling penting. Karena penulis dpat mengetahui tingkat visibilitas yang digunakan. Data-data yang telah dikumpulkan telah menjadi titik pantauan dalam observasi ini sehingga mendapatkan hasil yang diinginkan . 3.2.2. Data yang Digunakan Langkah pertama yang dilakukan dalam menganalisa data dalam menentukan beberapa atribut dengan menggunakan parameter dalam mengklasifikasi serta akurasi dari data yang digunakan. Pada data sampel yang diuji terdapat penjelasan tentang metode-metode dalam mengambil sampel. Sampel yang baik adalah dengan adanya penggambaran tentang populasinya. Dengan mengambil sampel yang baik maka perlu adanya pemilihan anggota sampel. Sampel yang tidak acak merupakan salah satu metode pengambilan yang merupakan pemilihan sampel dengan cara penggunaan ilmu pengetahuan serta opini dari peneliti yang berasal dari objek yang akan diteliti oleh peneliti. Data sets untuk pelatihan dan pengujian (training sets dan testing sets) berupa Haberman’s Survival dataset. Rincian masing-masing data set dapat dilihat sebagai berikut: Universitas Sumatera Utara 21 Tabel 3.1. Data Sets Penelitian Data Sets Instances Haberman’s Survival dataset 306 Attributes 3 Classes 1 3.2.3. Analisis kebutuhan data Data yang dibutuhkan untuk pembuatan model analisa ini adalah sebagai berikut: Dataset yang akan digunakan pada penelitian ini bersumber UCI machine learning repository, repositori UCI machine learning repository memiliki cukup banyak koleksi dataset yang digunakan pada penelitian tentang clustering, dataset tersebut antara lain adalah Haberman’s Survival dataset. Haberman’s Survival dataset memiliki jumlah data sebanyak 306 data, jumlah atribut sebanyak 3 atribut dan jumlah kelas sebanyak 1 kelas. 1. Kebutuhan Input Kebutuhan pada masukan data dalam rancangan model analisa terbagi atas 2 yaitu SVM, dan Naïve Bayes. a. Masukkan pada SVM Support Vector Machine untuk optimisasi. PSO adalah metode komputasi yang mengoptimalkan masalah dengan secara iteratif yang mencoba meningkatkan solusi kandidat sehubungan dengan ukuran kualitas yang diberikan. Operator ini menerapkan pendekatan hibrid yang menggabungkan dukungan vektor classifier dengan optimalisasi kerumunan partikel, untuk meningkatkan kekuatan masing-masing teknik individu dan mengimbangi kelemahan masing- Universitas Sumatera Utara 22 masing. Klasifikasi Support Vector Machine (SVM) mengoperasikan pemisahan linier yang ditambah dengan beberapa kernel tertentu yang memenuhi kondisi Mercer. Kernel-kernel ini memetakan vektor-vektor input ke dalam ruang berdimensi sangat tinggi, kemungkinan berdimensi tak terbatas, di mana pemisahan linear lebih mungkin terjadi. Kemudian bidang hiper pemisah linier ditemukan dengan memaksimalkan margin antara dua kelas pada model ini. Karenanya kompleksitas hyper plane yang terpisah tergantung pada sifat dan sifat dari kernel yang digunakan. Particle swarm optimization (PSO) adalah metode komputasi yang mengoptimalkan masalah dengan secara iteratif mencoba meningkatkan solusi kandidat terkait dengan ukuran kualitas yang diberikan. PSO adalah metaheuristik karena membuat sedikit optimalisasi pada permasalahan. Namun, metaheuristik seperti PSO tidak menjamin solusi optimal yang pernah ditemukan. Lebih khusus, PSO tidak menggunakan gradien dari masalah yang sedang dioptimalkan, yang berarti PSO tidak mengharuskan masalah optimisasi dapat dibedakan seperti yang disyaratkan oleh sebagian besar metode optimasi klasik. Karenanya, PSO juga dapat digunakan pada masalah optimisasi yang sebagian tidak teratur, berisik, berubah seiring waktu, dll. Pada input ini menggunakan data set. Operator ini tidak dapat menangani atribut nominal; dengan menerapkan data set dengan atribut numerik. Dengan begitu harus memilihatribut numerik walaupun dari bentuk nominal. Jenis fungsi kernel dipilih melalui parameter ini. Jenis kernel berikut ini didukung: dot, radial, polinomial, neural, anova, epachnenikov, kombinasi gaussian, multiquadric dot: Kernel dot didefinisikan oleh k (x, y) = x * y i.e. ini adalah produk dalam dari x dan y. radial: Kernel radial didefinisikan oleh exp (-g || x-y || ^ 2) di mana g adalah gamma, ditentukan oleh parameter kernel gamma. Parameter yang dapat disesuaikan memainkan peran utama dalam kinerja kernel, dan harus disesuaikan dengan masalah yang ada. Universitas Sumatera Utara 23 polinomial: Kernel polinomial didefinisikan oleh k (x, y) = (x * y + 1) ^ d di mana d adalah derajat polinomial dan ditentukan oleh parameter derajat kernel. Kernel polinomial sangat cocok untuk masalah di mana semua data pelatihan dinormalisasi. neural: Kernel neural didefinisikan oleh tanh net neural dua lapis (a x * y + b) di mana a adalah alpha dan b adalah tetapan konstan. Parameter ini dapat disesuaikan menggunakan parameter kernel a dan kernel b. Nilai umum untuk alpha adalah 1 / N, di mana N adalah dimensi data. Perhatikan bahwa tidak semua pilihan a dan b mengarah ke fungsi kernel yang valid. gaussian_combination: Ini adalah kernel kombinasi gaussian. Ini memiliki parameter yang dapat disesuaikan kernel sigma1, kernel sigma2 dan kernel sigma3. multiquadric: Kernel multiquadric didefinisikan oleh akar kuadrat dari || x-y || ^ 2 + c ^ 2. Ini memiliki parameter yang dapat disesuaikan kernel sigma1 dan pergeseran sigma kernel. Operator SVM (PSO) diterapkan dalam subproses pelatihan operator Validasi Split. Operator SVM (PSO) diterapkan dengan nilai default dari semua parameter. Operator Model digunakan dalam subproses pengujian untuk menerapkan model yang dihasilkan oleh operator SVM (PSO). Hasilnya berlabel data set digunakan oleh operator Performance (Klasifikasi) untuk mengukur kinerja model. Model klasifikasi dan vektor kinerjanya terhubung ke output dan terdapat di Hasil Workspace. Keakuratan model ini ternyata sekitar 85%. Nilai default digunakan untuk sebagian besar parameter. Untuk mendapatkan hasil yang lebih andal, nilai-nilai ini harus dipilih dengan cermat. Biasanya teknik seperti cross-validasi digunakan untuk menemukan nilai terbaik dari parameter ini untuk ExampleSet yang sedang dipertimbangkan. Universitas Sumatera Utara 24 3.3. Desain Sistem Pada penelitian ini, keperluan hardware dan software sebagai bagian dari proses desain sistem meliputi: a. Perangkat Keras (Hardware) 1. Laptop Acer 2. Processor Intel Core I5 @1.66GHz 1.67 GHz 3. RAM 2 GB 4. Harddisk 500 GB 5. Monitor dengan reolusi 1024 x 600 pixel (32 bit true color) 6. Mouse dan keyboard b. Perangkat Lunak (Software) 1. Sistem Operasi Windows 7 Sistem Operasi Windows 7 merupakan sistem operasi berbasis grafis yang dirancang oleh Microsoft berfingsi pada computer pribadi, termasuk computer rumah, bisnis, laptop, dan lain sebagainya. Windows 7 merupakan sistem dasar yang mendukung pada setiap proses penelitian ini. Universitas Sumatera Utara 25 BAB 4 HASIL DAN PEMBAHASAN Pada bab ini merupakan penjelasan tentang penggunaan algoritma Support Vector Machine dan Naive Bayes dengan ditetapkannya atribut masukan, serta banyaknya dataset yang bisa mendapatkan hasil dalam penelitian dengan cara memprediksi data yang digunakan dalam melakukan percobaan ini adalah Haberman’s Survival dataset yang diperoleh dari http://archive.ics.uci.edu/ml/datasets/Haberman's+Survival (UCI Machine Learning repository). Dataset Haberman merupakan dataset yang berisi kasus-kasus dari penelitian yang telah dilakukan pada kelangsungan hidup pasien yang telah menjalani operasi kanker payudara. Dataset ini memiliki sejumlah 306 record pasien kanker payudara dengan 3 atribut dan 1 class. Class pada dataset haberman’s merupakan klasifikasi kelangsungan hidup pasien usai menjalani operasi kanker payudara. Pelatihan serta pengujian dalam penelitian ini adalah dengan cara melakukan pencarian tingkat keakuratan tertinggi yang baik pada Support Vector Machine dan Naive Bayes Kernel. Dalam penelitian ini 80% dataset akan dijadikan sebagai data latih, dan 20% akan dijadikan data uji. Pengolahan data yang baik untuk menganalisa kinerja algoritma melalui perbandingan dari algoritma Support Vector Machine dan Naive Bayes Kernel. Untuk melihat apakah pencarian tingkat keakuratan tertinggi yang baik atau tidak, maka akan dilakukan analisa kinerja dari kedua metode berdasarkan hasil akurasi dari setiap dataset yang digunakan. Dimana untuk mengukur tingkat akurasi dapat menggunakan persamaan berikut (Han, 2011): = Universitas Sumatera Utara 26 4.1. Pengujian Metode Klasifikasi Pada penelitian ini, hanya melakukan dua proses preprocessing. Pertama adalah penanganan missing value. Missing value pada atribut yang bernilai numerik digantikan dengan nilai rata-rata (mean) dari atribut pada kolom yang sama. Sedangkan missing value pada atribut yang bernilai nominal digantikan dengan nilai kemungkinan terbanyak dari atribut pada kolom yang sama. Selanjutnya adalah proses cleaning dilakukan dengan membuang duplikasi data. Proses selanjutnya adalah memberikan bentuk kategori untuk masing – masing subset / atribut agar memudahkan proses mining dan keakuratan pengklasifikasian. Berikut adalah hasil data preprocessing dari dataset haberman’s survival Tabel 4.1. Hasil Preprocessing Haberman’s Survival Dataset No. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 . . . 306 Usia 30 30 30 31 31 33 33 34 34 34 34 34 34 34 35 35 36 36 37 37 . . . 83 Tahun 64 62 65 59 65 58 60 59 66 58 60 61 67 60 64 63 60 69 60 63 . . . 58 Jumlah KGB 1 3 0 2 4 10 0 0 9 30 1 10 7 0 13 0 1 0 0 0 . . . 2 Survival Status Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Meninggal sebelum 5 tahun Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih . . . Meninggal sebelum 5 tahun Universitas Sumatera Utara 27 4.1.1. Implementasi Dataset Implementasi pengukuran akurasi metode yang digunakan yaitu Support Vector Machine dan Naive Bayesdibangun dengan dukungan perangkat lunak Rapid Miner® versi 5.3. 4.1.1.1. Analisa Dataset pada SVM a. Penentuan Atribut Data Gambar 4.1 Penentuan Atribut Support Vector Machine Pada gambar 4.1 diatas menunjukkan proses penentuan atribut dan label pada algoritma SVM dengan menggunakan data numerik sebagai atribut-atributnya, serta penggunaan binomial ini digunakan untuk memodelkan jumlah keberhasilan pada jumlah data. Universitas Sumatera Utara 28 b. Model RancanganSupport Vector Machine Gambar 4.2 Rancangan Model Support Vector Machine Pada gambar 4.2 diatas menunjukkan prosedur kerjaSupport Vector Machine pada Rapidminer. Langkah pertama adalah memasukkan dataset yang memiliki format .excel (Read Excel), kemudian dilakukan Split Data dengan memisahkan dataset menjadi data latih (90%) dan data uji (10%) secara random. Hasil Split Data kemudian dimasukkan ke metode SVM untuk data training dan Apply Modelyang merupakan model SVM untuk data uji serta terakhir perhitungan tingkat akurasi menggunakan operator Performance. Berikut adalah Hasil distribusi data pada metode SVM untuk Haberman’s Survival Dataset. Universitas Sumatera Utara 29 Tabel 4.2. Hasil Distribusi Data Metode SVM Haberman’s Survival Dataset No Survival Status Confidence (Survive 5 years) Confidence (Die within 5 years) 1 Bertahan 5 tahun atau lebih 0.7795682 0.2204318 2 Bertahan 5 tahun atau lebih 0.7795586 0.2204414 3 Bertahan 5 tahun atau lebih 0.5728769 0.4271231 4 Bertahan 5 tahun atau lebih 0.779546 0.220454 5 Bertahan 5 tahun atau lebih 0.779546 0.220454 6 Bertahan 5 tahun atau lebih 0.779542 0.220458 7 Bertahan 5 tahun atau lebih 0.4925851 0.5074149 8 Bertahan 5 tahun atau lebih 0.7795221 0.2204779 9 Bertahan 5 tahun atau lebih 0.768217 0.231783 10 Bertahan 5 tahun atau lebih 0.5885539 0.4114461 11 Meninggal sebelum 5 tahun 0.7444151 0.2555849 12 Bertahan 5 tahun atau lebih 0.7682028 0.2317972 13 Bertahan 5 tahun atau lebih 0.7681871 0.2318129 14 Bertahan 5 tahun atau lebih 0.7681738 0.2318262 15 Bertahan 5 tahun atau lebih 0.7794911 0.2205089 16 Bertahan 5 tahun atau lebih 0.7681902 0.2318098 17 Meninggal sebelum 5 tahun 0.7443833 0.2556167 18 Bertahan 5 tahun atau lebih 0.6921415 0.3078585 19 Bertahan 5 tahun atau lebih 0.7794745 0.2205255 20 Bertahan 5 tahun atau lebih 0.6921735 0.3078265 21 Bertahan 5 tahun atau lebih 0.7681489 0.2318511 22 Bertahan 5 tahun atau lebih 0.7794782 0.2205218 23 Bertahan 5 tahun atau lebih 0.7794531 0.2205469 24 Bertahan 5 tahun atau lebih 0.6921278 0.3078722 25 Bertahan 5 tahun atau lebih 0.7443404 0.2556596 26 Bertahan 5 tahun atau lebih 0.7057024 0.2942976 27 Bertahan 5 tahun atau lebih 0.4602116 0.5397884 28 Bertahan 5 tahun atau lebih 0.7794269 0.2205731 29 Bertahan 5 tahun atau lebih 0.7680942 0.2319058 30 Bertahan 5 tahun atau lebih 0.7794128 0.2205872 31 Bertahan 5 tahun atau lebih 0.7793818 0.2206182 Prediction Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Usia Tahun Jumlah KGB 35 63 0 37 63 0 37 60 15 38 60 0 38 60 0 41 64 0 42 62 20 43 60 0 44 63 1 45 59 14 46 69 3 49 67 1 50 63 1 50 58 1 50 61 0 51 66 1 52 69 3 54 59 7 54 62 0 54 69 7 55 58 1 57 69 0 59 63 0 59 64 7 59 67 3 62 62 6 64 65 22 65 64 0 66 58 1 69 66 0 76 67 0 Universitas Sumatera Utara 30 Tabel 4.3 Confusion Matrix Metode SVM menggunakan Haberman’s Survival Kinerja Klasifikasi Predicted Class Actual Class Diprediksi. Bertahan 5 Diprediksi. Meninggal tahun atau lebih dibawah 5 tahun Actual. Class Bertahan 5 tahun 26 atau lebih (True Positive) Actual. Class dibawah 5 tahun 2 (False Negative) Meninggal 3 0 (False Positive) (True Negative) Berdasarkan tabel 4.3, maka dilanjutkan dengan menghitung nilai Accuracy pengklasifikasian dari model klasifikasi SVM menggunakan Dataset Haberman’s Survival. Berikut hasil perhitungannya: Accuracy = = = = 0.8387*100% = 83.87% Dengan demikian tingkat kedekatan antara nilai prediksi class dengan nilai aktual class atau jumlah prediksi class yang benar dari model klasifikasi SVM terhadap Dataset Haberman’s Survival adalah sebesar 83.87%. Universitas Sumatera Utara 31 4.1.1.2. Analisa Dataset pada Naïve Bayesian a. Penentuan Atribut Data Gambar 4.3 Atribut Haberman’s SurvivalNaïve Bayesian Pada gambar 4.3 diatas menunjukkan proses penentuan atribut dan label pada algoritma Naïve Bayesian dengan menggunakan data numeric sebagai atributatributnya, serta penggunaan binomial ini digunakan untuk memodelkan jumlah keberhasilan pada jumlah data. Universitas Sumatera Utara 32 b. Model Rancangan Naïve Bayesian Gambar 4.4 Rancangan Model Naïve Bayesian Pada gambar 4.4 diatas menunjukkan prosedur kerja Naïve Bayesian pada Rapidminer. Langkah pertama adalah memasukkan dataset yang memiliki format .excel (Read Excel), Sebelum melakukan Split Data maka terlebih dahulu diberikan kategori untuk masing – masing atribut agar memudahkan dalam analisis dan meningkatkan keakuratan pengklasifikasian. Kemudian barulah dilakukan Split Data dengan memisahkan dataset menjadidata latih (90%) dan data uji (10%) secara random. Hasil Split Data kemudian dimasukkan ke metode Naïve Bayesian untuk data training dan Apply Model yang merupakan model Naïve Bayesian untuk data uji serta terakhir perhitungan tingkat akurasi menggunakan operator Performance. Berikut adalah Hasil distribusi data pada metode Naïve Bayesian untuk Haberman’s Survival Dataset dapat dilihat pada tabel 4.4 berikut : Universitas Sumatera Utara 33 Tabel 4.4. Hasil Distribusi Data Metode Naïve Bayesian Haberman’s Survival Dataset No Survival Status tahun 1 Bertahan 5 atau lebih tahun 2 Bertahan 5 atau lebih tahun 3 Bertahan 5 atau lebih tahun 4 Bertahan 5 atau lebih Bertahan 5 atau lebih tahun 5 6 Meninggal sebelum 5 tahun Bertahan 5 tahun 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 0.0832233 Bertahan 5 tahun atau lebih <= 6 0.0832233 Bertahan 5 tahun atau lebih <= 6 0.3661734 Bertahan 5 tahun atau lebih <= 18 0.8968487 0.1031513 Bertahan 5 tahun atau lebih <= 6 0.8968487 0.1031513 Bertahan 5 tahun atau lebih <= 6 0.3164135 Bertahan 5 tahun atau lebih <= 6 0.2531503 Bertahan 5 tahun atau lebih <= 6 0.3004335 Bertahan 5 tahun atau lebih <= 6 0.2531503 Bertahan 5 tahun atau lebih <= 6 0.6338266 27 9 Prediction 0.9167767 26 8 Confidence (Die within 5 years) 0.9167767 Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih 7 Confidence (Survive 5 years) 0.6835865 0.7468497 0.6995665 0.7468497 Jumlah KGB 0.3167414 0.6832586 0.7892033 0.2107967 0.7892033 0.2107967 0.7468497 0.2531503 0.6995665 0.3004335 0.7468497 0.2531503 0.7033906 0.2966094 0.8042895 0.1957105 0.448715 0.551285 0.7640608 0.2359392 0.5668551 0.4331449 0.7187818 0.2812182 0.8042895 0.1957105 0.7640608 0.2359392 0.4302589 0.5697411 0.8042895 0.1957105 0.7640608 0.2359392 Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih Meninggal sebelum 5 tahun Bertahan 5 tahun atau lebih Bertahan 5 tahun atau lebih 0.7033906 0.2966094 Bertahan 5 tahun <= 6 Tahun <= Tahun 1963 <= Tahun 1963 <= Tahun 1960 <= Tahun 1960 <= Tahun 1960 <= Tahun 1966 <= Tahun 1963 <= Tahun 1960 <= Tahun 1963 <= Tahun 1960 <= Tahun 1969 <= Tahun 1969 <= Tahun 1963 <= Tahun 1960 <= Tahun 1963 <= Tahun 1966 <= Tahun 1969 <= Tahun 1960 <= Tahun 1963 <= Tahun 1969 <= Tahun 1960 <= Tahun 1969 <= Tahun 1963 <= Tahun 1966 <= Tahun 1969 <= Tahun 1963 Usia >= 40 Tahun >= 40 Tahun >= 40 Tahun >= 40 Tahun >= 40 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 50 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun <= 6 <= >= 60 <= 18 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <= 6 <=12 <= 6 <=12 <= 6 <= 6 <= 6 <=12 <= 6 Tahun Universitas Sumatera Utara 34 atau lebih Bertahan atau lebih Bertahan atau lebih Bertahan atau lebih Bertahan atau lebih 28 29 30 31 atau lebih 5 tahun 0.7033906 0.2966094 0.7187818 0.2812182 5 tahun 5 tahun 0.7033906 0.2966094 5 tahun 0.8042895 0.1957105 Bertahan 5 atau lebih Bertahan 5 atau lebih Bertahan 5 atau lebih Bertahan 5 atau lebih tahun <= 6 tahun <= 6 tahun <= 6 tahun <= 6 1966 Tahun <= Tahun 1966 <= Tahun 1960 <= Tahun 1966 <= Tahun 1969 >= 60 Tahun >= 60 Tahun >= 60 Tahun >= 60 Tahun Tabel 4.5. Rekapitulasi Distribusi Dataset Haberman’s Survival Naïve Bayesian No Atribut Parameter Bertahan 5 Tahun atau Lebih Meninggal dibawah 5 Tahun 1 Jumlah KGB value=<= 6 0.909 0.731 2 Jumlah KGB value=<=12 0.066 0.167 3 Jumlah KGB value=<= 18 0.025 0.103 4 Jumlah KGB value=unknown 0.000 0.000 5 Tahun value=<= Tahun 1960 0.289 0.320 6 Tahun value=<= Tahun 1963 0.264 0.231 7 Tahun value=<= Tahun 1966 0.279 0.333 8 Tahun value=<= Tahun 1969 0.168 0.115 9 Tahun value=unknown 0.000 0.000 10 Usia value=>= 30 Tahun 0.015 0.000 11 Usia value=>= 40 Tahun 0.157 0.051 Universitas Sumatera Utara 35 12 Usia value=>= 50 Tahun 0.284 0.346 13 Usia value=>= 60 Tahun 0.543 0.602 Tabel 4.5 merupakan hasil rekapitulasi distribusi data pada pengklasifikasian dataset Haberman’s Survival untuk pengujian Naïve Bayesian. Angka – angka pada masing – masing kolom Bertahan 5 tahun atau lebih dan meninggal dibawah 5 tahun adalah angka kemungkinan atau probabilitas kepadatan (Density Probability) masing – masing atribut terhadap klasifikasi masing – masing kelas. Berikut adalah hasil analisis dataset Haberman’s Survival untuk pengujian Naïve Bayesian dalam bentuk Histogram. c. Hasil Analisis Naïve Bayesianterhadap Haberman’s Survival (Histogram) Gambar 4.5 Hasil Analisis Naïve Bayesian terhadap Atribut Usia Universitas Sumatera Utara 36 Gambar 4.5 merupakan hasil kemungkinan atau probabilitas kepadatan (Density Probability) atribut Usia terhadap klasifikasi masing – masing kelas. Untuk kategori Usia >=60 Tahun, kemungkinan untuk Bertahan 5 tahun atau lebihberada pada derajat yang rendah yakni 0.543 sedangkan kemungkinan besar untuk Meninggal sebelum 5 tahunberada pada derajat yakni 0.602. Untuk kategori Usia>=50 Tahun, kemungkinan untuk Bertahan 5 tahun atau lebih hampir tidak ada sedangkan kemungkinan besar adalah Meninggal sebelum 5 tahun berada pada derajat yakni 0.346. Untuk kategori Usia >=40 Tahun, kemungkinan besar untuk Bertahan 5 tahun atau lebih berada pada derajat yakni 0.157 sedangkan kemungkinan kecil untuk Meninggal sebelum 5 tahun berada pada derajat yakni 0.051. Untuk kategori Usia>=30 Tahun, kemungkinan besar untuk Bertahan 5 tahun atau lebih berada pada derajat yakni 0.015 sedangkan tidak kemungkinan untuk meninggal dibawah 5 tahun. Gambar 4.6 Hasil Analisis Naïve Bayesian terhadap Atribut Tahun Universitas Sumatera Utara 37 Gambar 4.6 merupakan hasil kemungkinan atau probabilitas kepadatan (Density Probability) atribut Tahun terhadap klasifikasi masing – masing kelas. Untuk kategori Tahun <=Tahun 1969, kemungkinan besar untuk Bertahan 5 tahun atau lebih berada pada derajat yakni 0.168 sedangkan kemungkinan kecil untuk Meninggal sebelum 5 tahunberada pada derajat yakni 0.115. Untuk kategori Tahun <=Tahun 1966, kemungkinan kecil untuk Bertahan 5 tahun atau lebihberada pada derajat 0.279 sedangkan kemungkinan besar adalah Meninggal sebelum 5 tahunberada pada derajat 0.333. Untuk kategori Tahun <=Tahun 1963, kemungkinan untuk Bertahan 5 tahun atau lebih berada pada derajat 0.264 sedangkan kemungkinan untuk Meninggal sebelum 5 tahun berada pada derajat yakni 0.231. Untuk kategori Tahun <=Tahun 1963, kemungkinan kecil untuk Bertahan 5 tahun atau lebih berada pada derajat yakni 0.289 sedangkan kemungkinan besar untuk Meninggal sebelum 5 tahun berada pada derajat 0.320. Gambar 4.7 Hasil Analisis Naïve Bayesian terhadap Atribut Jumlah KGB Universitas Sumatera Utara 38 Gambar 4.7 merupakan hasil kemungkinan atau probabilitas kepadatan (Density Probability) atribut Tahun terhadap klasifikasi masing – masing kelas. Untuk kategori Jumlah Kelenjar Getah Bening (KGB)<=18, kemungkinan sangat kecil untuk Bertahan 5 tahun atau lebih berada pada derajat yakni 0.025 sedangkan kemungkinan untuk Meninggal sebelum 5 tahun berada pada derajat yakni 0.103. Untuk kategori Jumlah Kelenjar Getah Bening (KGB) <=12, kemungkinan kecil untuk Bertahan 5 tahun atau lebih berada pada derajat 0.066, sedangkan kemungkinan besar adalah Meninggal sebelum 5 tahunberada pada derajat 0.167. Untuk kategori Jumlah Kelenjar Getah Bening (KGB) <=6, kemungkinan sangat besar untuk Bertahan 5 tahun atau lebih berada pada derajat 0.909 sedangkan kemungkinan untuk Meninggal sebelum 5 tahun berada pada derajat yakni 0.731. Tabel 4.6 Confusion Matrix Metode Naïve Bayesian menggunakan Haberman’s Survival Kinerja Klasifikasi Actual Class Predicted Class Diprediksi. Bertahan 5 Diprediksi. tahun atau lebih. dibawah 5 tahun Actual. Class Bertahan 5 tahun 25 3 atau lebih (False Negative) Actual. (True Positive) Class dibawah 5 tahun Meninggal meninggal 3 0 (False Positive) (True Negative) Berdasarkan tabel 4.6, maka dilanjutkan dengan menghitung nilai Accuracy pengklasifikasian dari model klasifikasi Naïve Bayesian menggunakan Dataset Haberman’s Survival. Berikut hasil perhitungannya: Accuracy = = = = 0.8065*100% = 80.65% Universitas Sumatera Utara 39 Dengan demikian jarak terdekat antara nilai prediksi class dan nilai aktual class atau jumlah prediksi class yang benar dari model klasifikasi Naïve Bayesian terhadap Dataset Haberman’s Survival adalah sebesar 80.65%. 4.2. Perbandingan Performance Metode Dataset Dari hasil pengujian diatas, maka dapat disimpulkan tingkat akurasi dari kedua algoritma tersebut yang dapat dilihat pada tabel berikut: Tabel 4.7 Perbandingan Performance Metode SVM Naïve Bayes precision 89.66% 89.29% class recall 92.86% 89.29% Accuracy 83.87% 80.65% Dari tabel diatas diketahui nilai Precision dari Support Vector Machine lebih besar dengan nilai 89.66% dari Naïve bayes yang menghasilkan 89.29% yang memiliki selisih 0.37 % dari kedua algoritma tersebut. Sedangkan Class Recall yang dihasilkan Naïve Bayes mencapai 89.29% dan Support Vector Machine 92.86% dan dengan perbedaan nilai akurasi mencapai 3.22% dari perbandingan performa kedua algoritma tersebut. Universitas Sumatera Utara 40 BAB 5 KESIMPULAN DAN SARAN 5.1. Kesimpulan Berdasarkan penelitian dan identifikasi masalah dari penelitian ini menghasilkan kesimpulan sebagai berikut: 1. Pada penelitian yang dilakukan mengenai Haberman’s Survival dataset dilakukan dengan menghasilkan prediksi dari metode Support Vector Machine dan Naïve Bayes dengan melakukan pencarian tingkat keakuratan tertinggi yang baik. 2. Dari hasil analisis bahwa Support Vector Machine mampu meningkatkan akurasi dari metode Naïve Bayes, dimana peningkatan rata-rata akurasi tertinggi terhadap Support Vector Machine diperoleh pada Haberman’s Survival dataset yaitu sebesar 89.66% pada class precision dan sedangkan Naïve Bayes mencapai 89.29%. Pada class recall Naïve Bayes memperoleh nilai 89.29% dan Support Vector Machine 92.86%, dan akurasi data mencapai 80.65% pada Naïve Bayes dan 83.87% pada Support Vector Machine. 3. Keberhasilan dalam memprediksi menggunakan metode Support Vector Machine menggunakan Haberman’s Survival dataset. 5.2. Saran Pada penelitian selanjutnya yang diharapkan penulis adalah untuk mengembangkan sistem program dalam memprediksi data yang lebih besar lagi, karena masih ada kekurangan dalam penelitian ini sehingga harus disempurnakan dalam penelitian kedepannya dapat memperoleh hasil lebih baik dari sebelumnya dan sistematis lagi. Maka dari itu penulis mengharapkan penelitian ini dilanjutkan dengan menggunakan algoritma lainnya dan memperoleh hasil akhir yang sesuai dengan keinginan. Semoga mendapatkan keakuratan yang lebih besar serta menghasilkan konsep prediksi yang lebih baik. Universitas Sumatera Utara DAFTAR PUSTAKA Albert, J. 2009. Bayesian Computation with R, Springer : New York. Bustami. 2013. Penerapan Algoritma Naive Bayes Untuk Mengklasifikasi Data Nasabah Asuransi. TECHSI : Jurnal Penelitian Teknik Informatika. Vol. 3, No.2, Hal. 127-146. Bolstad, W.M. 2007. Introduction to Bayesian Statistics. John Wiley and Sons : New Jersey. Bramer, M. 2007. Principles of Data Mining. London: Springer. Gorunescu, F. 2011. Data Mining: Concepts, Models and Techniques. Berlin: SpringerVerlag. Han, J., Kamber, M. 2001. “Data Mining Concepts and Techniques”, Morgan Kaufman Pub., USA. Han, J. and Kamber, M. 2006. “Data Mining Concepts and Techniques Second Edition”. Morgan Kauffman, San Francisco. Han, J., Kamber, M., & Pei, J. 2011. Data Mining: Concepts and Techniques (3rded.). San Francisco: Morgan Kaufmann Publishers Inc. Patil, T. R., Sherekar, M. S., 2013. Performance Analysis of Naive Bayes and J48 Classification Algorithm for Data Classification. International Journal of Computer Science and Applications, Vol. 6, No. 2, Hal 256-261. Pattekari, S. A., Parveen, A. 2012. Prediction System for Heart Disease Using Naive Bayes. International Journal of Advanced Computer and Mathematical Sciences, ISSN 2230-9624, Vol. 3, No 3, Hal 290-294. x Universitas Sumatera Utara Ridwan, M., Suyono, H., Sarosa, M. 2013. Penerapan Data Mining untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier,. Jurnal EECCIS, Vol 1, No. 7, Hal. 59-64. Santosa, B. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Graha Ilmu. Yogyakarta. Zarlis, M., Sitompul, O.S., Sawaluddin, Effendi, S., Sihombing, P. & Nababan, E.B. 2015. Pedoman Penulisan Tesis. FasilkomTI. Universitas Sumatera Utara. Zhang, H., & Wang. Z. 2011. “A Normal Distributions - Based Over - Sampling Approach to Imbalanced Data Classification. Advanced Data Mining and Applications – 7th International Conference (pp. 83-96). Beijing, Springer. xi Universitas Sumatera Utara