Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk Prediksi

advertisement
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016
ISBN: 978-602-1034-40-8
Komparasi Akurasi Algoritma C4.5 dan Naïve Bayes untuk Prediksi
Pendonor Darah Potensial dengan Dataset RFMTC
Wahyu Eko Susanto1, Candra Agustina2
1, 2
Program Studi Manajemen Informatika, AMIK BSI Yogyakarta
Email: [email protected], [email protected]
Abstrak
Darah yang di donorkan oleh pendonor hanya dapat bertahan selama 42 hari saja oleh karenanya stok darah harus
di jaga, salah satunya dengan mengetahui mana pendonor yang potensial untuk mendonorkannya kembali. Selama
ini beberapa algoritma memeiliki keakuratan yang berbeda-beda dalam memprediksi pendonor darah potensial.
Sehingga belum di ketahui algoritma mana yang cocok untuk digunakan. untuk menjaga stok darah tetap aman maka
perlu di cari cara untuk mengetahui dan membedakan antara pendonor darah yang potensial mendonorkan
darahnya kembali dan yang tidak sehingga unit donor darah dapat mengambil keputusan. Dalam penelitian ini
dilakukan komparasi Algoritma C4.5 dan Naïve Bayes yang diterapkan pada data diri pendonor dan data transaksi
donor darah dengan dataset RFMTC. Dari hasil pengujian dengan mengukur kinerja kedua algoritma ketika
dilakukan Curva ROC, diketahui bahwa algoritma C4.5 memiliki nilai accuracy lebih tinggi. Sehingga algoritma
C4.5 dalam penelitian ini lebih baik dari pada algoritma untuk diterapkan pada prediksi pendonor darah potensial.
Kata Kunci: C4.5, Naïve Bayes, RFMTC
Abstract
Donate blood at the donor can only survive for 42 days therefore the blood supply must be on guard, one of them by
knowing which potential donors to donate back. During this time some algorithms memeiliki different accuracyin
predicting the potential blood donor. So not yet known where the algorithms are suitable for use. to keep the blood
supply remains safe it is necessary to find a way to identify and distinguish between potential blood donors donate
blood so that the back and that is not a blood donor unit can make a decision. In this study a comparison algorithm
C4.5 and Naïve Bayes is applied to the personal data of donors and blood donors transaction data with datasets
RFMTC. From the test results by measuring the performance of both algorithms when testing Confusion Matrix and
ROC curves, it is known that the Naïve Bayes algorithm has a higher accuracyvalue. So that the Naïve Bayes
algorithm in this study is better than the algorithm C4.5 to be applied to the prediction of potential blood donors.
Keyword: C4.5, Naïve Bayes, RFMTC
1. PENDAHULUAN
Kesadaran masyarakat yang kurang untuk menjadi pendonor sukarela menjadi salah satu faktor yang
mengakibatkan persediaan darah di Unit Donor Darah (UDD) menjadi rendah [1]. Menurut American Red
Cross dilain sisi, darah hasil donor tidak lagi dapat digunakan setelah 42 hari. Satu-satunya cara untuk
memenuhi permintaan adalah dengan memiliki sumbangan rutin dari sukarelawan yang sehat [2]. Di
Indonesia saja pada tahun 2013 mengalami kekurangan kantong darah sebanyak 2.476.389, dimana
idealnya ketersediaan darah yang diperuntukkan untuk donor adalah 2,5% dari Jumlah Penduduk. [1].
Beberapa penelitian telah dilakukan untuk menentukan pendonor darah yang potensial mendonorkan
darahnya kembali untuk menjawab permasalahan tersebut.
Penelitian menggunakan algoritma C4.5 dan Fuzzy Tahani dengan dataset yang memiliki variabel
golongan darah, jenis kelamin, usia, berat badan, tekanan darah, kadar HB (hemoglobin), dan kadar HTC
(hematocit) adapun target variabel output-nya adalah atribut Donor Lagi yang berisikan nilai „ya‟ atau
„tidak‟ berdasarkan nilai ambang batas jumlah donor, bernilai „ya‟ apabila jumlah donor >=2 dan bernilai
„tidak‟ apabila jumlah donor < 2 . Pada penelitian ini menghasilkan akurasi rata-rata sebesar 89,64%
dengan menggunakan dataset yang berasal dari PMI Kota Malang[3].
Pada penelitian yang lain digunakan algoritma MLP dan SVM dan variabel dataset RFMTC (Recency,
Frequency, Monetary, Time, Churn Probability). Dataset yang digunakan berasal dari UCI Machine
Learning. Dari penelitian ini dihasilkan sensitivity 65.8% dan specificity 78.2% dari 600 data training dan
148 data testing [2].
Penelitian selanjutnya mengenai klasifikasi pendonor menggunakan metode Naïve Bayes classifier.
Adapun variabel yang digunakan dalam penelitian ini adalah hemoglobin (HB), tensi atas, tensi bawah,
berat badan, umur, jenis kelamin, riwayat penyakit menular, interval donor serta mempunyai variabel
16
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016
ISBN: 978-602-1034-40-8
target pendonor dan non pendonor. Dari 4 percobaan pengujian hasil yang didapatkan dalam penelitian ini
adalah keakuratan rata-rata yang didapatkan sebesar 74% [4].
Dengan melihat perbedaan akurasi dari penelitian terdahulu maka dalam penelitian ini dicarilah algoritma
yang lebih baik dalam memprediksi pendonor darah yang potensial mendonorkan darahnya kembali
dengan menggunakan dataset di UDD PMI Kabupaten Bantul dengan cara membandingkan Algoritma
C4.5 dan Naïve Baiyes. agar di ketahui tingkat akurasi pada masing-masing algoritma dengan variabel
dataset RFMTC.
2. METODE
Penelitian ini adalah penelitian eksperimen. Penelitian ini bertujuan untuk mencari algoritma yang tepat
untuk digunakan dalam memprediksi pendonor yang potensial mendonorkan darahnya kembali dan yang
tidak. Variabel target dari penelitian ini adalah donor lagi yang mempunyai class “donor” dan “Tidak
Donor”. Data yang digunakan dalam penelitian ini berasal dari data pendonor yang melakukan donor
darah di UDD PMI Kabupaten Bantul tahun 2012 sampai 2014 Data pendonor tersebut akan dianalisa
untuk kemudian ditarik kesimpulan algoritma yang tepat untuk digunakan.
2.1. Dataset RFMTC
Variabel dari dataset RFMTC (Recency, Frequency, Monetary value, Time since first purchase and
Churn probability) merupakan modifikasi dari teknik RFM, tiga variabel sederhana, yaitu Recency of
purchase, Frequency of purchase, dan Monetary value of purchase, merupakan dasar dari teknik RFM
[5].
RFMTC merupakan hasil modofikasi dari Y, I-Cheng, Y, King-Jang, and T, Tao-Ming yang digunakan
untuk meramalkan perilaku pendonor darah apakah pendonor tersebut termasuk klasifikasi yang potensial
mendonorkan darahnya kembali atau tidak, Akurasi dari RFMTC ini menurut I-Cheng dkk, lebih tinggi
daripada RFM, Adapun penjelasan dari variabel RFMTC tersebut [2].
Adapun
penjelasan
mengenai
Variabel
RFMTC
adalah
(a)
Recency
Jumlah
bulan sejak terakhir menyumbangkan darah. (b) Frequency adalah jumlah berapakali donor, (c) monetary
adalah jumlah darah yang disumbangkan dalam c.c., (d) Time yaitu jumlah bulan sejak pertama
menyumbangkan darah, Churn Probability yaitu or merupakan variabel yang merepresentasikan apakah
pendonor mendonorkan darahnya kembali atau tidak, 1 menyatakan mendonorkan darah (Donation), 0
menyatakan tidak menyumbangkan darah (non Donation).
2.2. Metode Pengumpulan Data
Dalam penelitian ini metode pengumpulan data yang digunakan adalah metode pengumpulan data
sekunder, yaitu dengan cara mengunduh data yang telah tersedia di database sistem informasi donor
darah UDD PMI Kabupaten Bantul. Sampel dari data penelitian ini adalah data profile pendonor darah
dan data hasil transaksi donor darah yang didapatkan dari UDD PMI Kabupaten Bantul.
2.3. Analisis Data
Beberapa tahapan dalam melakukan analisa data dalam KDD [6] adalah:
1) Domain Understanding dan KDD Goals
Tahap pertama dari KDD yaitu Domain Understanding dan KDD Goals pada tahapan ini dilakukan
pencarian persoalan-persoalan yang berkaitan dengan prediksi pendonor darah yang potensial, yang
dilanjutkan dengan menentukan rumusan masalah serta menganalisa kebutuhan untuk dapat
memecahkan masalah tersebut.
2) Selection and Addition
Pada tahapan Selection and Addition data yang didapatkan dianalisa agar dapat ditentukan variabel
apa saja yang diperlukan berdasarkan analisa kebutuhan yang diperoleh.
3) Preprocessing Data Cleaning
Pada tahap ini akan dilakukan pembersihan data. Setelah dihilangkan duplikasi dan null value,
terdapat 824 record yang dapat digunakan.
4) Transformation
Data yang digunakan dalam penulisan ini beberapa masih dalam bentuk angka, oleh karenanya data
ditransformasikan ke dalam klasifikasi atau kelompok berdasar interval untuk pengujian.
17
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016
ISBN: 978-602-1034-40-8
Pilihan interval kelas tergantung pada jumlah kelas untuk distribusi tertentu dan ukuran data.
Interval kelas diusahakan harus dengan ukuran yang sama. Prof. Sturge telah memberikan rumus
berikut untuk menentukan ukuran interval kelas [7]:
(1)
Keterangan:
N = Total Frekuensi
i = Ukuran Kelas Intervalence
5) Evaluation and Interpretation
Pada tahap ini adalah tahap pengujian dilakukan dengan menggunakan 660 data training data dan
165 data testing, kemudian dievaluasi menggunakan metode confusion matrix dan curva ROC.
AUC pada kurva ROC memiliki tingkat nilai diagnosa yaitu [8]:
a. Akurasi bernilai 0,90 – 1,00 = excellent classification
b. Akurasi bernilai 0,80 – 0,90 = good classification
c. Akurasi bernilai 0,70 – 0,80 = fair classification
d. Akurasi bernilai 0,60 – 0,70 = poor classification
e. Akurasi bernilai 0,50 – 0,60 = failure
6) Discovered Knowledge
Setelah pembentukan model, dilakukan analisa, dan pengukuran, selanjutnya pada tahap ini
diterapkan model yang paling akurat dari algoritma sebagai dasar pembuatan aplikasi yang dibuat
berdasarkan algoritma terbaik.
3. HASIL DAN PEMBAHASAN
3.1 Hasil
Penelitian ini bertujuan melakukan komparasi algoritma C4.5 dan Naïve Bayes untuk prediksi pendonor
darah yang potensial mendonorkan darahnya kembali dengan menggunakan dataset RFMTC, kemudian
menganalisa akurasi algoritma, algoritma yang paling cocok akan digunakan untuk melakukan prediksi
pendonor darah yang potensial mendonorkan darahnya kembali.
1) Algoritma Naïve Bayes
Pengujian Confussion Matrix
Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai accuracy sebesar 70.30% seperti
ditampilkan pada Tabel 1.
Tabel 1. Hasil Nilai accuracy
Accuracy: 70.30%
True Tidak Donor
True Donor
Class precision
Pred. Tidak Donor
73
28
72.28%
Pred. Donor
21
43
67.19%
Class recall
77.66%
60.56%
Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai precision sebesar 67.19% seperti
ditampilkan pada Tabel 2.
Tabel 2. Hasil Nilai precision
Precision: 67.19% (positive class: Donor)
True Tidak Donor
True Donor
Class precision
Pred. Tidak Donor
73
28
72.28%
Pred. Donor
21
43
67.19%
Class recall
77.66%
60.56%
Pada percobaan menggunakan algoritma Naïve Bayes didapatkan nilai recall sebesar 60.56% seperti
ditampilkan pada Tabel 3.
18
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016
ISBN: 978-602-1034-40-8
Tabel 3. Hasil Nilai precision
recall: 60.56% (positive class: Donor)
True Tidak Donor
Pred. Tidak Donor
73
Pred. Donor
21
Class recall
77.66%
True Donor
28
43
60.56%
Class precision
72.28%
67.19%
Pengujian Curva ROC
Pada algoritma Naive Bayes didapatkan hasil dari pengunaan ROC dengan menggunakan data testing
menghasilkan nilai sebesar 0,780. Gambar dapat dilihat pada Gambar 1 dengan nilai 0,780, maka tingkat
diagnosanya adalah fair classification.
Gambar 1. Grafik ROC Naïve Bayes
2)
Algoritma C4.5
Pengujian Confussion Matrix
Pada percobaan menggunakan algoritma C4.5 didapatkan nilai accuracy sebesar 67.27% seperti
ditampilkan pada Tabel 4.
Tabel 4. Hasil Nilai accuracy
Accuracy: 67.27%
True Tidak Donor
True Donor
Class precision
Pred. Tidak Donor
48
8
85.71%
Pred. Donor
46
63
57.80%
Class recall
51.06%
88.73%
Pada percobaan menggunakan algoritma C4.5 didapatkan nilai precision sebesar 57.80% seperti
ditampilkan pada Tabel 5.
Tabel 5. Hasil Nilai Precision
precision: 57.80%
True Tidak Donor
True Donor
Class precision
Pred. Tidak Donor
48
8
85.71%
Pred. Donor
46
63
57.80%
Class recall
51.06%
88.73%
Pada percobaan menggunakan algoritma C4.5 didapatkan nilai recall sebesar 88.73% seperti ditampilkan
pada Tabel 6.
19
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016
ISBN: 978-602-1034-40-8
Tabel 6. Hasil Nilai Precision
recall: 70.30% (positive class: Donor)
True Tidak Donor
Pred. Tidak Donor
48
Pred. Donor
46
Class recall
51.06%
True Donor
8
53
60.56%
Class precision
85.71%
57.80%
Pengujian Curva ROC
Pada algoritma C4.5 di dapatkan hasil dari Kurva ROC/AUC (Area Under Curve) dengan menggunakan
data testing menghasilkan nilai sebesar 0,945. Gambar dapat dilihat pada Gambar 2 dengan nilai 0, 945.
maka tingkat diagnosanya adalah excellent classification
Gambar 2. Grafik ROC C4.5
3.2 PEMBAHASAN
Dari pengujian confussion matrix dari masing-masing algoritma menghasilkan perbandingan nilai
accuracy, precision dan recall pada Tabel 7.
Tabel 7. Perbandinga hasil pengujian confussion matrix
Algoritma
Accuracy
Precision
Recall
C4.5
67.27%
57.80%
88.73%
Naïve Bayes
70.30%
67.19%
60.56%
Dari Tabel 7, dapat kita lihat perbandingan nilai accuracy pada masing-masing algoritma menunjukkan
hasil bahwa algoritma Naïve Bayes memiliki nilai accuracy dan Precision yang lebih tinggi dari C4.5
yaitu sebesar 70.30% untuk accuracy dan 67.19 % untuk precision. Sedangkan algoritma C4.5
mempunyai nilai recall 88.73%, lebih tinggi dari Naïve Bayes.
Adapun hasil pengujian curva ROC pada masing-masing algoritma hasilnya dapat dilihat pada Tabel 8.
Tabel 8. Komparasi curva ROC
Algoritma
Nilai ROC
C4.5
0.945
Naïve Bayes
0.780
20
Seminar Nasional Ilmu Komputer (SNIK 2016) - Semarang, 10 Oktober 2016
ISBN: 978-602-1034-40-8
Berdasarkan hasil pengujian nilai ROC pada Tabel 8 dapat dilihat bahwa algoritma C4.5 memiliki nilai
ROC yang lebih tinggi daripada algoritma Naïve Bayes, sebesar 0.945 dengan klasifikasi Excelent
clasification.
4. SIMPULAN
Kesimpulan yang dapat diambil dari penelitian mengenai komparasi algoritma C4.5 dan Naïve Bayes
untuk prediksi pendonor darah yang potensial mendonorkan darahnya kembali dengan menggunakan
dataset RFMTC dari data yang berasal dari UDD PMI Kabupaten Bantul adalah algoritma C4.5 secara
keseluruhan nilai AUC memiliki klasifikasi nilai ROC yang lebih baik dari Algoritma Naïve Bayes,
sebesar 0.945 dengan klasifikasi Excelent classification.
5. REFERENSI
[1] Kementrian Kesehatan Republik Indonesia. 2014. Darah Untuk Menyelamatkan Ibu.
http://sehatnegeriku.kemkes.go.id/baca/rilis-media/20140624/4510357/darah-untukmenyelamatkan-ibu/, diakses (18 Juli 2016).
[2] Darwiche, M., Feuilloy, M., Bousaleh, G., & Schang, D. 2010. Prediction of Blood Transfusion
Donation. IEEE. pp.51-56.
[3] Yunus, M., Dahlan, H. S., & Santoso , P. B. 2014. SPK Pemilihan Calon Pendonor Darah Potensial
dengan Algoritma C4.5 dan Fuzzy Tahani. Jurnal EECCIS. Vol 8 (1) 47-54.
[4] Fais A, S. N., Aditya D, M., & Mulya I, S. 2015. Klasifikasi Calon Pendonor Darah Dengan Metode
Naive Bayes Clasifier. http://yudistira.lecture.ub.ac.id/ ,diakses 3 Juli 2016.
[5] Aviliani, Sumarwan, U., Sugema, I., & Saefuddin, A. .2011. Segmentasi Nasabah Tabungan Mikro
Berdasarkan Recency, Frequency, Dan Monetary : Kasus Bank BRI. Finance and Banking Journal,
Vol. 13(1). 95-109.
[6] Maimon, O., & Rokach, L. 2010. Data Mining and Knowledge Discovery Handbook. Springer, New
York.
[7] Jain, T.R & Aggarwal, S.C. 2010. Statistics for BBA. VK Indiana Enterprises, New Delhi.
[8] Gorunescu, F. 2011. Data Mining Concepts, Models and Techniques. Springer, Verlag Berlin
Heidelrbeg.
21
Download