BAB 4 HASIL DAN BAHASAN 4.1 Arsitekur Data Mining Gambar 4.1 Arsitektur Data Mining Gambar 4.1 menjelaskan arsitektur data mining yang akan dibuat. Pertama data yang didapat dari hasil pengumpulan data dilakukan data selection untuk memilih data atau atribut yang relevan. Setelah proses cleaning dilakukan data transformation, yaitu data diubah ke dalam bentuk yang lebih berkualitas dengan cara dilakukan Generalization dan Discritization. Lalu dilakukan proses mining menggunakan algoritma Naïve Bayes dan Decision Tree J48. Setelah proses mining selesai, dilakukan perbandingan antara kedua algoritma tersebut, dipilih algoritma mana yang paling baik dalam mengklasifikasikan pola penyakit. 55 56 4.2 Functional DataWarehouse Dalam membangun Data Mining membutuhkan suatu Data Warehouse, untuk itu akan dibangun Data Warehouse sederhana guna memenuhi kebutuhan proses Data Mining. Data warehouse yang dibangun bukan merupakan data warehouse yang menyimpan seluruh data transaksional,hanya merupakan data warehouse yang menunjang pembangunan data mining, sehingga data dan formatnya pun disesuaikan dengan kebutuhan data mining. Data warehouse merupakan sebuah sistem yang mengambil dan menggabungkan data secara periodik dari sistem sumber data ke penyimpanan data bentuk dimensional atau normal, untuk menyimpan data dalam bentuk nonvolatile sebagai pendukung manajemen dalam proses pengambilan keputusan. Data warehouse menyatukan dan menggabungkan data dalam bentuk multidimensi. Pembangunan data warehouse meliputi pembersihan data, penyatuan data dan transformasi data, dan dapat dilihat sebagai preprocessing yang penting untuk digunakan dalam Data Mining. Selain itu data warehouse mendukung Online Analytical Processing (OLAP) yaitu sebuah alat yang digunakan untuk menganalisis secara interaktif dari bentuk multidimensi yang mempunyai data yang rinci, sehingga dapat memfasilitasi secara efektif data generalization dan Data Mining. 4.2.1 Data Selection Database dapat menyimpan terabyte data sehingga kemungkinan data akan menjadi besar. Analisis data yang kompleks dan proses mining pada data dalam jumlah besar dapat memakan waktu yang lama dan membuat analisis menjadi tidak layak. Untuk itu dibutuhkan tahap data selection. Dalam tahap ini dilakukan pemilihan data atau atribut yang relevan pada tabel karena tidak semua data digunakan, hanya data atau atribut yang sesuai untuk dianalisis yang akan dipilih dari tabel. Seleksi data dapat diterapkan untuk memperoleh kumpulan data yang memiliki volume lebih kecil namun tetap mempertahankan integritas data asli. 57 Gambar 4.2 Data setelah Tahap Selection Tahap data selection sangat penting untuk mendapatkan data atau atribut yang relevan sebelum dilakukan proses Data mining berikutnya seperti pada gambar 4.2. Prosedur dimulai dengan atribut lengkap lalu menghilangkan atribut yang tidak relevan. Pemilihan atribut melalui proses eliminasi dilakukan setelah melakukan wawancara dengan pihak RSAL Dr. Mintohardjo terkait dengan atribut apa saja yang berguna untuk menjadi acuan dalam menentukan pola penyakit. Data Rekam Medis Pasien Rawat Jalan selama triwulan pertama tahun 2012 menjadi sumber dari data yang akan diolah dan mempunyai ekstensi .xls dengan jumlah record sebanyak 1985 records. Setelah dilakukan tahap data selection, jumlah atribut yang terpilih setelah dieliminasi menjadi sebanyak 6 atribut dari 12 atribut di dalam tabel Rekam Medis Pasien. 4.2.2 Data Cleaning Data Cleaning merupakan suatu proses untuk membersihkan data kotor. Data kotor yang dimaksud adalah data yang mengandung missing value pada atributatribut, data yang tidak konsisten dan tidak relevan. 58 Gambar 4.3 Data yang mengandung Missing Value Data yang mengandung missing values, noise dan inconsistencies dapat menjadikan data tidak akurat dan berkualitas sehingga akan menghasilkan proses mining yang tidak baik. Proses dalam data cleaning adalah menemukan ketidaksesuaian data yang dapat disebabkan oleh beberapa faktor, termasuk data yang hilang atau kosong, kekurangan atribut yang sesuai, berisi data yang outlier, rancangan formulir data entry yang memiliki banyak pilihan fields, human error dalam penginputan data, kesalahan yang disengaja seperti responden tidak ingin untuk informasi tentang dirinya disebarkan dan kerusakan data. Proses untuk membersihkan data dapat dilakukan dengan beberapa teknik, yaitu dengan memperkecil noise, memperbaiki data yang tidak konsisten, mengisi missing value dan mengidentifikasi atau membuang outlier. Dalam menyelesaikan masalah dalam gambar 4.3 terdapat berbagai macam cara yaitu elimination, inspection, identification dan substitution. Yang diterapkan dalam penelitian ini adalah dengan cara elimination, yaitu membuang semua data yang mempunyai satu atau lebih atribut yang hilang. Proses ini dilakukan didalam Microsoft Excel, dimana data masukan awal yang mengandung nilai yang tidak 59 lengkap akan dihapus semua data nya. Data ini kemudian digunakan pada proses mining di penelitian ini. Untuk memperbaiki data missing values pada gambar 4.3 dilakukan dengan cara mengabaikan record yang memiliki label klasifikasi yang kosong, dan dengan mengisi data secara manual. Setelah dilakukan proses data cleaning, maka data yang dapat diolah adalah 1759 records. 4.2.3 Data Transformation Tahap Data Transformation dilakukan agar dapat merubah data untuk kepentingan analisis, dengan mengubah data yang telah diseleksi sehingga menghasilkan data yang berkualitas. Tahap dari Data Transformation yang dilakukan antara lain menghilangkan meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut. • Discretization Discretization dilakukan dengan mengganti nilai atribut yang berbentuk numeric dengan interval labels atau conceptual labels. Dari 6 atribut yang dipilih untuk dianalisa, atribut umur dapat di kategorikan dengan menggunakan strategi discretization. Proses pengelompokan umur untuk kesehatan berdasarkan pada WHO (World Health Organization) yaitu teknik pengelompokkan umur sesuai dengan jenjang (bayi dan anak-anak, remaja dan dewasa, tua). Tabel 4.1 Kategori Umur Range Umur <=11 tahun Kategori Bayi dan Anak-Anak >=12 tahun dan <= 45 Remaja dan Dewasa Jumlah 30 452 tahun >=46 tahun Tua 1292 Untuk mempermudah pengelompokkan umur, maka data excel di export ke SQL SERVER 2008 untuk dilakukan manipulasi data menggunakan 60 syntax queries. Tabel 4.1 menggambarkan range umur <=11 tahun maka pasien akan dikategorikan ke Bayi dan Anak-anak, >12tahun dan <=45 tahun merupakan kategori Remaja dan Dewasa, dan >=46 tahun merupakan kategori Tua. Dari 1759 records rekam medis, kategori Bayi dan Anak berjumlah 30 pasien, kategori Remaja dan Dewasa berjumlah 452 pasien dan kategori Tua berjumlah 1292 pasien. Query yang digunakan untuk mengkategorikan umur di sql server 2008 dapat dilihat di Gambar 4.4. Gambar 4.4 SQL Query Pengelompokkan Umur • Generalization Generalization bertujuan untuk mengubah data atribut low level menjadi atribut high level. Atribut-atribut yang ada diubah ke dalam bentuk categorical. Berikut adalah hasil dari tahap Generalization berdasarkan atribut-atribut yang sudah terpilih - ICDX (ICD-10) Pengelompokkan ICDX (International Statistical Classiication of Diseases and Related Health Problem) adalah pengkodean penyakit, tanda-tanda, gejala, temuan yang abnormal, keluhan, keadaan sosial dan eksternal yang menyebabkan cedera atau penyakit, seperti yang diklasifikasikan oleh WHO. Pengkodean ini menetapkan lebih dari 155.000 yang memungkinkan berbagai kode dan memungkinkan yang banyak berasal dari pelacakan diagnosis dan prosedur baru dengan perluasan yang signifikan. Tabel 4.2 akan menjelaskan pengelompokkan ICDX berdasarkan WHO. 61 Tabel 4.2 Pengelompokkan ICDX Kode ICDX Keterangan Jumlah A00-B99 Penyakit Infeksi dan Parasit 104 C00-D48 Neoplasma 65 D50-D89 Penyakit Darah dan Organ Pembentuk Darah 5 Termasuk Gangguan Sistem Imun E00-E90 Endokrin, Nutrisi, dan Gangguan Metabolik 350 G00-G99 Penyakit yang Mengenai Sistem Syaraf 176 I00-I99 Penyakit Pada Sistem Sirkulasi 250 J00-J99 Penyakit Pada Sistem Pernapasan 87 K00-K93 Penyakit Pada Sistem Pencernaan 171 L00-L99 Penyakit Pada Kulit dan Jaringan 21 Subcutaneous M00-M99 Penyakit Pada Sistem Musculoskletat 149 N00-N99 Penyakit Pada Sistem Saluran Kemih dan 229 Genital O00-O99 Kehamilan dan Kelahiran 1 Q00-Q99 Malformasi Kongenital, Deformasi dan 5 Kelainan Chromosom R00-R99 Gejala, tanda, Kelainan klinik dan kelainan 11 lab yang tidak ditemukan pada klasifikasi lain S00-T98 Keracunan, cedera dan beberapa yang berasal 83 dari luar V01-Y98 Penyebab morbiditas dan kematian external 4 Z00-Z99 Faktor-faktor yang memengaruhi status 63 kesehatan dan hubungannya dengan jasa kesehatan − Wilayah Pengelompokkan atribut ‘Kecamatan’ menjadi kelompok wilayah dimaksudkan untuk mempermudah dalam melakukan analisa, sehingga hasil yang ada nantinya dapat memberikan 62 informasi berdasarkan lokasi/ wilayah kotamadya yang bersangkutan. Pengelompokkan wilayah dilakukan di SQL SERVER untuk dilakukan manipulasi data menggunakan syntax queries. Berikut adalah tabel untuk mengelompokkan kecamatan berdasarkan wilayah kotamadya nya : Tabel 4.3 Pengelompokkan Wilayah JakartaUtara JakartaPusat JakartaBarat JakartaSelatan JakartaTimur Penjaringan Tanah Abang Kembangan Jagakarsa Pasar Rebo Pademangan Menteng Kebon Jeruk Pasar Minggu Ciracas Tanjung Priuk Senen Palmerah Cilandak Cipayung Koja Johar Baru Grogol Pesanggrahan Makasar Kebayoran Kramat Jati Petamburan Kelapa Gading Cempaka Baru Kalideres Lama Cilincing Kemayoran Tambora Kebayoran Baru Jatinegara Sawah Besar Taman Sari Mampang Duren Sawit Prapatan Gambir Cengkareng Pancaoran Cakung Tebet Pulo Gadung Setia Budi Matraman Pengelompokkan wilayah dari kecamatan ke kotamadya menggunakan sql server 2008. Gambar 4.5 di bawah ini merupakan query dari pengelompokkan tersebut. 63 Gambar 4.5 SQL Query Pengelompokkan Wilayah Gambar 4.6 Hasil Data Transformation Gambar 4.6 merupakan hasil dari diterapkannya proses Data Transformation, dimana umur sudah dikategorikan menurut jenjang nya sesuai dengan WHO, kode ICDX juga dikategorikan berdasarkan diagnosa 64 yang diberikan kepada pasien dan kotamadya didapat dari penggolongan kecamatan. Tahap berikutnya adalah dengan mengkonversi data yang semula menggunakan Microsoft Excel lalu menjadi format CSV (Command Separated Values) atau arff yang dikenali oleh WEKA 3.6. 4.3 Star Schema Gambar 4.7 Star Schema Gambar 4.7 menjelaskan table fakta dan dimensi yang ada pada rekam medis. Tiap table dimensi memiliki Surrogate key dan Natural key. Table fakta berisi summary rekam medis harian. Measure pada table fakta yaitu jumlah rekam medis, menunjukkan jumlah banyaknya rekam medis dalam satu hari. Di dalam star schema ini berisi 6 table dimensi, yaitu Dimensi Waktu, kodya, kategori umur, ICD, Pekerjaan dan Jenis Kelamin. 4.4 Data Mining Pada tahapan ini, menjelaskan mengenai pembuatan model data mining, yang terdiri dari teknik-teknik data mining. Pada penelitian ini aplikasi yang digunakan adalah Weka 3.6.10, yang digunakan untuk mengolah data rekam medis. 65 Weka (Waikato Environment for Knowledge Analysis) merupakan aplikasi data mining yang berbasis open source dan berengine java. Weka dipilih karena teknik yang digunakan pada Weka, didasarkan pada asumsi bahwa data tersedia sebagai hubungan dimana data digambarkan oleh sejumlah atribut yang tetap, biasanya atribut nya numerik atau nominal. Dalam proses ini, digunakan 2 algoritma yaitu Naïve Bayes dan Decision Tree J48. Hasil dari 2 algoritma ini akan dibandingkan sehingga menghasilkan algoritma yang paling baik diantara Naive Bayes dan Decision Tree J48. Langkah pertama yang dilakukan adalah membuka aplikasi Weka (Waikato Environment for Knowledge Analysis), tampilannya seperti pada gambar 2.19. File yang akan di olah Weka harus memiliki ekstensi file csv (Command Separated Values) atau arff , jika data belum berbentuk arff atau csv data harus di konversi ke format arff atau csv. Setelah format data berbentuk csv atau arff, data siap untuk ke proses pengolahan. 4.3.1 Decision Tree J48 Decision Tree J48 merupakan implemetasi dari algoritma C4.5 yang memproduksi decision tree. Ini merupakan standar algoritma yang digunakan dalam machine learning. Decision Tree merupakan salah satu algoritma klasifikasi dalam data mining. Algoritma klasifikasi merupakan algoritma yang secara induktif dalam pembelajaran dalam mengkonstruksikan sebuah model dari dataset yang belum diklasifikasikan. Setiap data dari item berdasarkan dari nilai setiap atribut. Klasifikasi dapat dilihat sebagai mapping dari sekelompok set dari atribut kelas tertentu. Decision Tree mengklasifikasikan data yang diberikan menggunakan nilai atribut. Dataset dengan atribut pilihan pada Gambar 4.2 kemudian diklasifikasikan menggunakan Decision Tree J48. 4.3.1.1 Confidence Confidence adalah ukuran yang menilai tingkatkepastian bersyarat, yaitu probabilitas bahwa transaksi yang mengandung X juga akan mengandung Y. Hasil Confidence dari Decision Tree J48 akan ditampilkan pada tabel 4.4 Tabel 4.4 Hasil Confidence Decision Tree J48 Confidence 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 27.7714 29.4286 29.6571 29.7714 29.7714 29.8857 29.8857 29.8857 29.8857 72.2286 70.5714 70.3429 70.2286 70.2286 70.1143 70.1143 70.1143 70.1143 Correctly Classified Instances Incorrectly Classified Instances 4.3.1.2 Cross Validation dan Confusion Matrix Tabel 4.5 Decision Tree J48 menggunakan K-Fold Cross Validation Cross Validation 2 Correctly Classified 25.2571 3 4 5 6 7 8 9 10 26.1143 25.6 25.9429 25.8286 26.4 26.5143 26.1143 26.3429 73.8857 74.4 74.0571 74.1714 73.6 73.4857 73.8857 73.6571 Instances Incorrectly Classified Instances 74.7429 67 Berdasarkan tabel 4.5 K-Fold Cross Validation, data pengujian dipisah secara acak ke dalam k himpunan atau folds (lipatan), D1, D2, Dk, yang masing-masing kurang lebih berukuran sama. Data Training dan Testing dilakukan sebanyak k kali. Pada iterasi ke-1, partisi D1 digunakan sebagai data tes, dan partisi sisanya digunakan bersama untuk melatih model. Dalam iterasi pertama, yang diuji pada D1; iterasi kedua dilatih pada himpunan bagian D1, D2,D3,....Dk dan diuji pada D2; dan seterusnya. Dalam penelitian ini menggunakan 10-fold Cross Validation dan 8 fold merupakan hasil yang paling baik karena memiliki correctly classified instances terbesar dibanding jumlah fold lain. Gambar 4.8 Hasil Confusion Matrix Decision Tree J48 di WEKA 68 Confusion Matrix merupakan sebuah metode untuk evaluasi yang menggunakan tabel matrix Pada gambar 4.8 dapat dilihat bahwa jika dataset terdiri dari 14 class. Evaluasi dengan Confusion Matrix menghasilkan nilai accuracy, precision dan recall.. Nilai accuracy merupakan persentase jumlah record data yang diklasifikasikan secara benar oleh sebuah algoritma dapat membuat klasifikasi setelah dilakukan pengujian pada hasil klasifikasi tersebut. Confusion Matrix berisi informasi aktual dan prediksi yang dilakukan oleh sistem klasifikasi. Beberapa persyaratan standar yang telah didefinisikan untuk matriks ini adalah : 1. True Positive (TP) : Jika hasil dari prediksi adalah positive dan nilai aktual juga positive, maka disebut True Positive (TP). 2. False Positive (FP) : Namun, jika nilai sebenarnya negative, maka dikatakan False Positive (FP). 3. False Negative (FN) :Jumlah record positif yang diklasifikasikan secara negative. 4. True Negative (TN) : Jumlah record negative yang diklasifikasikan sebagai negative. 5. Precision dan Recall : Precision adalah sebagian kecil dari contoh diambil yang relevan, sementara recall adalah sebagian kecil dari contoh yang relevan yang diambil. 6. Precision dapat dilihat sebagai ukuran ketepatan atau kualitas, sedangkan recall adalah ukuran dari kelengkapan atau kuantitas. Recall dengan nilai tinggi berarti bahwa algoritma memiliki hasil yang lebih relevan dibanding tidak relevan. 7. Recall digunakan untuk membandingkan jumlah t_pos terhadap jumlah record yang posiitf, sedangkan Precision adalah perbandingan jumlah t_neg terhadap jumlah record yang negative. Gambar 4.8 diatas merupakan Confusion Matrix yang mengkalkulasikan nilai aktual dan prediksi. Jumlah True Positive dari class a adalah 0, sedangkan False Positive nya adalah 5. Jumlah True Positive dari class b adalah 8, sedangkan False Positive nya adalah 42. Jumlah True Positive dari class c adalah 4, sedangkan False Positive nya adalah 28. Jumlah True Positive dari class d adalah 238, sedangkan False Positive nya 69 adalah 817. Jumlah True Positive dari class e adalah 1, sedangkan False Positive nya adalah 24. Jumlah True Positive dari class f adalah 45, sedangkan False Positive nya adalah 139. Jumlah True Positive dari class g adalah 7, sedangkan False Positive nya adalah 19. Jumlah True Positive dari class h adalah 25, sedangkan False Positive nya adalah 155. Jumlah True Positive dari class i adalah 0, sedangkan False Positive nya adalah 0. Jumlah True Positive dari class j adalah 0, sedangkan False Positive nya adalah 8. Jumlah True Positive dari class k adalah 105, sedangkan False Positive nya adalah 332. Jumlah True Positive dari class l adalah 0, sedangkan False Positive nya adalah 0. Jumlah True Positive dari class m adalah 22, sedangkan False Positive nya adalah 124. Jumlah True Positive dari class n adalah 9, sedangkan False Positive nya adalah 57. Perhitungan precision, recall, f-measure yang telah dilakukan dengan menggunakan rumus pada confusion matrix berturut-turut ditunjukkan pada tabel 4.6, 4.7 dan 4.8. Tabel 4.6 Hasil Perhitungan Precision Decesion Tree J48 KODE ICD-X Precision= TP Hasil TP+FP U00-U99 0/0 0 A00-B99 8/42 0.19047 C00-D48 4/28 0.14285 E00-E90 238/817 0.29130 G00-G99 1/24 0.04167 I00-I99 45/139 0.32374 J00-J99 7/19 0.36842 KOO-K93 25/155 0.16129 L00-L99 0/0 0 70 MOO-M99 0/8 0 NOO-N99 105/332 0.31626 R00-R99 0/0 0 S00-T98 22/124 0.17741 Z00-Z990 9/57 0.15789 Tabel 4.7 Hasil Perhitungan Recall Decesion Tree J48 KODE ICD-X Recall = TP Hasil TP+FN U00-U99 0/25 0 A00-B99 8/103 0.07766 C00-D48 4/64 0.0625 E00-E90 238/342 0.69590 G00-G99 1/170 0.00588 I00-I99 45/241 0.186722 J00-J99 7/85 0.08235 KOO-K93 25/174 0.14367 L00-L99 0/21 0 MOO-M990 0/143 0 NOO-N99 105/226 0.46460 R00-R99 0/11 0 S00-T98 22/81 0.27160 Z00-Z990 9/64 0.140625 71 Tabel 4.8 Hasil Perhitungan F-Measure Decesion Tree J48 KODE ICD-X F-Measure = 2.P.R Hasil P+R U00-U99 0/0 0 A00-B99 0.02958/0.26813 0.11031 C00-D48 0.01785/0.20535 0.08677 E00-E90 0.40543/0.9872 0.41068 G00-G99 0.00049/0.04755 0.01030 I00-I99 0.12089/0.51046 0.23684 J00-J99 0.06067/0.45077 0.13461 KOO-K93 0.046660/0.30496 0.15281 L00-L99 0/0 0 MOO-M990 0/0 0 NOO-N99 0.29386/0.78086 0.3763 R00-R99 0/0 0 S00-T98 0.09636/0.44901 0.21462 Z00-Z990 0.04440/0.298515 0.14875 . 4.3.2 Naive Bayes Naive Bayes adalah metode pembelajaran yang didasarkan pada hipotesis sederhana. Pada Naive Bayes ada atau tidaknya dari fitur tertentu dari kelas tidak berhubungan dengan ada atau tidaknya dari fitur lainnya. Namun, meskipun Naive Bayes terlihat kuat dan efisien, kinerjanya tetap sebanding dengan teknik data mining lainnya. Naive Bayes classifier adalah linear classifier , serta analisis diskriminan linier, regresi logistik atau linier SVM ( support vector mesin). Perbedaannya terletak pada metode estimasi parameter dari classifier nya. Naïve Bayes classifier secara luas digunakan dalam dunia penelitian. Para peneliti mengemukakan bahwa Naive Bayes sangat mudah untuk program dan penerapannya, parameter yang mudah untuk diperkirakan, metode pembelajaran yang cepat bahkan pada database yang sangat besar, akurasinya cukup baik dibandingkan dengan teknik data mining yang lain. Di sisi lain , pengguna akhir tidak mendapatkan model mudah untuk menafsirkan dan menyebarkan. Dalam menguji kinerja Naive Bayes dapat menggunakan tools WEKA, yang dapat diihat pada tabel 4.9 adalah hasil dari perhitungan algoritma Naive Bayes dengan menggunakan test option Cross Validation. Tabel 4.9 Naïve Bayes menggunakan K-Fold Cross Validation Cross Validation 3 4 5 6 7 8 9 10 Classified 27.7714 29.4286 29.6571 29.7714 29.7714 29.8857 29.8857 29.8857 29.8857 Incorrectly Classified 72.2286 70.5714 70.3429 70.2286 70.2286 70.1143 70.1143 70.1143 70.1143 Correctly 2 Instances Instances 73 Pada Cross Validation data yang ada pada data sampel mempunyai peluang yang sama untuk menjadi data training dan data tes. Dapat dilihat pada tabel 4.9, algoritma Naive Bayes menggunakan model pengujian Cross Validation, yang dapat dihasilkan nilai terbaik pada 7 fold sampai 10 fold dengan nilai 29.8857. Indeks berisi sama ( atau kira-kira sama ) proporsi dari bilangan bulat 1 sampai K yang mendefinisikan partisi dari pengamatan N ke K menguraikan subset . Panggilan berulang kembali partisi dibuat secara acak dan berbeda. Pada K - fold Cross Validation, K - 1 lipatan digunakan untuk pelatihan dan lipatan terakhir digunakan untuk evaluasi. Proses ini diulang K kali , meninggalkan satu nilai yang berbeda untuk evaluasi setiap kalinya . Data pada cross validation yang digunakan untuk membentuk hasil klasifikasi dan untuk mengetesnya pun berbeda. Walaupun, merupakan satu kesatuan data. Fungsi Cross Validation menciptakan partisi acak, yang tergantung pada keadaan default nilai acak . Maka dari itu, hasil yang didapat akan berbeda dengan nilai yang berbeda pula. Gambar 4.9 Hasil Confusion Matrix Naïve Bayes di WEKA Pada gambar 4.9 merupakan Confusion Matrix yang mengkalkulasikan nilai aktual dan prediksi. Jumlah True Positive dari class a adalah 0, sedangkan False Positive nya adalah 0. Jumlah True Positive dari class b adalah 29, sedangkan False Positive nya adalah 150. Jumlah True Positive dari class c adalah 2, sedangkan False Positive nya adalah 5. Jumlah True Positive dari class d adalah 256, sedangkan False 74 Positive nya adalah 337. Jumlah True Positive dari class e adalah 3, sedangkan False Positive nya adalah 8. Jumlah True Positive dari class f adalah 0, sedangkan False Positive nya adalah 5. Jumlah True Positive dari class g adalah 7, sedangkan False Positive nya adalah 7. Jumlah True Positive dari class h adalah 49, sedangkan False Positive nya adalah 246. Jumlah True Positive dari class i adalah 0, sedangkan False Positive nya adalah 0. Jumlah True Positive dari class j adalah 1, sedangkan False Positive nya adalah 20. Jumlah True Positive dari class k adalah 82, sedangkan False Positive nya adalah 281. Jumlah True Positive dari class l adalah 0, sedangkan False Positive nya adalah 0. Jumlah True Positive dari class m adalah 23, sedangkan False Positive nya adalah 104. Jumlah True Positive dari class n adalah 0, sedangkan False Positive nya adalah 0. Perhitungan precision, recall, f-measure yang telah dilakukan dengan menggunakan rumus pada confusion matrix berturut-turut ditunjukkan pada tabel 4.10, 4.11 dan 4.12. Tabel 4.10 Hasil Perhitungan Precision Naïve Bayes Precision= KODE ICD-X TP TP+FP Hasil U00-U99 0/0 0 A00-B99 29/134 0.2164 C00-D48 2/5 0.4 E00-E90 256/940 0.2723 G00-G99 3/8 0.375 I00-I99 0/5 0 J00-J99 7/7 1 K00-K93 49/246 0.1991 L00-L99 0/0 0 75 M00-M99 1/20 0.05 N00-N99 82/281 0.2918 R00-R99 0/0 0 S00-T98 23/104 0.2211 Z00-Z990 0/0 0 Tabel 4.11 Hasil Perhitungan Recall Naïve Bayes Recall KODE ICD-X = TP TP+FN Hasil U00-U99 0/25 0 A00-B99 29/103 0.2815 C00-D48 2/64 0.0312 E00-E90 256/342 0.7485 G00-G99 3/173 0.0173 I00-I99 0/241 0 J00-J99 7/85 0.0823 K00-K93 49/174 0.2816 L00-L99 0/21 0 M00-M990 1/143 0.0069 N00-N99 82/226 0.3628 R00-R99 0/11 0 S00-T98 23/81 0.2839 Z00-Z990 0/64 0 76 Tabel 4.12 Hasil Perhitungan F-Measure Naïve Bayes F-Measure = 2.P.R KODE ICD-X P+R Hasil U00-U99 0/0 0 A00-B99 0.121824/0.498 0.245 C00-D48 0.0248/0.431 0.058 E00-E90 0.4074/1.021 0.399 G00-G99 0.0135/0.393 0.034 I00-I99 0/0 0 J00-J99 0.164/1.082 0.152 KOO-K93 0.1122/0.481 0.233 L00-L99 0/0 0 MOO-M990 0.0007/0.057 0.012 NOO-N99 0.2119/0.655 0.323 R00-R99 0/0 0 S00-T98 0.1255/0.505 0.249 Z00-Z990 0/0 0 77 Dari perhitungan Precision dan Recall dapat dihasilkan F-Measure tertinggi pada Kode ICDX E00-E90, sebesar 0.399. Dapat diartikan pada teknik Naïve Bayes, penyakit yang paling banyak diderita pada triwulan tahun 2012 adalah pasien yang menderita pada diagnosa Endokrin, Nutrisi dan Gangguan Metabolik dengan kode ICDX E00-E90. 4.4 Perbandingan Algoritma Decision Tree J48 dan Naïve Bayes Pemecahan suatu masalah tidak hanya dapat diselesaikan oleh satu metode. Penyelesaian masalah bisa diselesaikan dengan menggunakan beberapa metode dan logika yang berlainan. Membandingkan metode mana yang dapat dinilai baik dalam penyelesaian masalah dapat dilihat dari 1. berbagai aspek. Diantaranya : Tingkat Kepercayaan tinggi (realibility). Hasil yang diperoleh dari proses memiliki akurasi yang tinggi dan benar 2. Proses yang efisien yaitu proses harus diselesaikan secepat mungkin dan frekuensi kalkulasi yang sependek mungkin. 3. Bersifat general, maksudnya tidak hanya menyelesaikan satu kasus saja, tetapi kasus lain yang lebih general. 4. Bisa dikembangkan (expendable). Harus menjadi sesuatu yang dapat dikembangkan lebih jauh bedasarkan requirement yang ada. 5. Mudah dimengerti, Siapa saja yang melihat, orang itu akan dapat dengan mudah memahami algoritma tersebut. Karena jika sulit untuk dimengerti, maka akan suliit untuk dikelola. 6. Portabilitas yang tinggi (portability). Bisa dengan mudah diimplementasikan dimana saja. 7. Precise(tepat, benar, teliti). Setiap instruksi harus ditulis dengan baik dan tidak ada keragu-raguan, dengan demikian setiap instruksi harus dinyatakan secara eksplisit dan tidak ada bagian yang dihilangkan karena user dianggap sudah mengerti. Sedangkan Kriteria algoritma yang dinilai baik menurut Donald E. Knuth yaitu: 1. Input : algoritma memiliki nol atau lebih inputan dari luar. 2. Output : algoritma harus memiliki minimal satu buah output keluaran. 3. Definiteness : algoritma harus memiliki instruksi-instruksi yang jelas dan tidak ambigu. 4. Finiteness : algoritma harus memiliki batasan 78 5. Efectiveness : algoritma harus sebisa mungkin harus dapat dilakukan secara efektif. Dari hal tersebut, dapat dilakukan perbandingan algoritma Decision Tree J48 dan Naïve Bayes dari beberapa aspek yang bisa dibandingkan, seperti seberapa efektif algoritma tersebut dapat mengelompokkan pola penyakit, tingkat keakuratan dan aspek lainnya. Berikut perbandingan Algoritma Decision Tree dan J48 naive bayes. Tabel 4.13 Perbandingan Precision Decision Tree J48 dan Naïve Bayes 79 Gambar 4.10 Grafik Perbandingan Precision DT J48 dan Naïve Bayes Dari tabel 4.13 dapat dilihat sebarapa baik tingkat Precision dari hasil komputasi menggunakan algoritma Decision Tree J48 dan Naïve Bayes. Pada hasil komputasi precision dengan kode icdx U00-099 kedua algoritma tersebut sama-sama menghasilkan precision 0. Hasil komputasi pada kode icdx A00-B99 algoritma Naïve Bayes menghasilkan hasil yang lebih baik, yaitu 0.2164 sedangkan decision tree j48 hanya 0.19047. Hasil komputasi kode icdx C00-D48 algoritma Naïve Bayes menghasilkan hasil yang lebih baik, yaitu 0,4 sedangka decision Tree J48 hanya 0,14285. Hasil komputasi pada kode icdx E00-E90 algoritma Decision Tree J48 menghasilkan hasil yang lebih baik, yaitu 0,29310 sedangkan naïve bayes hanya 0,2723. Hasil komputasi kode icdx G00-G99 algoritma yang menghasilkan hasil 80 yang lebih baik yaitu Naïve Bayes, yaitu 0.375 sedangkan Decision Tree J48 hanya 0.375. Hasil komputasi pada kode icdx I00-I99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision Tree J48, yaitu 0.32374 sedangkan Naïve Bayes menghasilkan 0. Hasil komputasi kode icdx J00-J99 algoritma yang menghasilkan hasil yang lebih baik yaitu naïve bayes, yaitu 1 sedangkan decision tree j48 hanya 0,36842. Hail komputasi pada kode icdx K00-K93 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, yaitu 0,1991 sedangkan decision tree j48 hanya 0,16129. Hasil komputasi pada kode icdx L00-L99 kedua algoritma samasama menghasilkan 0. Hasil komputasi pada kode icdx M00-M99 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, dengan hasil 0,05 sedangkan decision tree j48 hanya menghasilkan 0. Hasil komputasi pada kode icdx N00-N99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision tree J48 sedangkan Naïve Bayes hanya menghasilkan 0,2918. Hasil komputasi pada kode icdx R00-R99 kedua algoritma sama-sama menghasilkan hasil 0. Hasil komputasi pada kode icdx S00-T98 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, dengan hasil 0,2211 sedangkan Decision tree J48 hanya menghasilkan 0,17741. Hasil komputasi pada kode icdx Z00-Z99. Algoritma yang menghasilkan hasil yang lebih baik yaitu Decision tree J48 dengan hasil 0,15789 sedangkan Naïve bayes hanya menghasilkan 0. Dari data diatas dapat dilihat ke dalam bentuk grafiknya pada gambar 4.10, dimana Naïve Bayes ratarata memiliki precision lebih unggul (terlebih pada class dengan kode icdx J00J99),dibanding dengan Decision Tree J48. Dapat disimpulkan algoritma yang menghasilkan tingkat precision yang lebih baik dalam pengkalsifikasian pola penyakit yaitu Naïve Bayes, karena kedua algoritma tersebut menghasilkan confusion matrix yang berbeda. Karena confusion Matrix berisi informasi actual dan prediksi yang dilakukan oleh algoritma tersebut. Naïve Bayes lebih baik dalam memprediksikan kejadian positive yaitu dimana nilai actual dan prediksi bernilai positive. 81 Tabel 4.14 Perbandingan Recall Decision Tree J48 dan Naïve Bayes Gambar 4.11 Grafik Perbandingan Recall DT J48 dan Naïve Bayes 82 Dari tabel 4.14 dapat dilihat sebarapa baik tingkat Recall dari hasil komputasi menggunakan algoritma Decision Tree J48 dan Naïve Bayes. Pada hasil komputasi Recall dengan kode icdx U00-099 kedua algoritma tersebut sama-sama menghasilkan recall 0. Hasil komputasi pada kode icdx A00-B99 algoritma Naïve Bayes menghasilkan hasil yang lebih baik, yaitu 0.2815 sedangkan decision tree j48 hanya 0.07766. Hasil komputasi kode icdx C00-D48 algoritma Decision Tree menghasilkan hasil yang lebih baik, 0.0625 sedangkan Naïve Bayes hanya 0.0312. Hasil komputasi pada kode icdx E00-E90 algoritma Naïve Bayes menghasilkan hasil yang lebih baik, yaitu 0.7485 sedangkan Decision Tree J48 hanya 0.69590. Hasil komputasi kode icdx G00-G99 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, yaitu 0.0173sedangkan Decision Tree J48 hanya 0.00588. Hasil komputasi pada kode icdx I00-I99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision Tree J48, yaitu 0.186722 sedangkan Naïve Bayes menghasilkan 0. Hasil komputasi kode icdx J00-J99 kedua algoritma menghasilkan hasil yang sama yaitu 0.0823. Hail komputasi pada kode icdx K00-K93 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, yaitu 0.2816 sedangkan decision tree J48 hanya 0.14367. Hasil komputasi pada kode icdx L00-L99 kedua algoritma sama-sama menghasilkan 0. Hasil komputasi pada kode icdx M00-M99 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, dengan hasil 0.0069 sedangkan decision tree j48 hanya menghasilkan 0. Hasil komputasi pada kode icdx N00-N99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision tree J48 dengan hasil 0.46460 sedangkan Naïve Bayes hanya menghasilkan 0.3628. Hasil komputasi pada kode icdx R00-R99 kedua algoritma sama-sama menghasilkan hasil 0. Hasil komputasi pada kode icdx S00-T98 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, dengan hasil 0.2839 sedangkan Decision tree J48 hanya menghasilkan 0.27160. Hasil komputasi pada kode icdx Z00-Z99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision tree J48 dengan hasil 0.140625 sedangkan Naïve bayes hanya menghasilkan 0. Dari data diatas dapat dilihat ke dalam bentuk grafiknya pada gambar 4.11, dimana hasil recall Decision Tree J48 bersaing dengan hasil recall Naïve Bayes. Dapat disimpulkan algoritma yang menghasilkan tingkat recall yang lebih baik dalam pengkalsifikasian pola penyakit yaitu Naïve Bayes, karena kedua algoritma tersebut menghasilkan confusion matrix yang berbeda. Karena confusion Matrix 83 berisi informasi actual dan prediksi yang dilakukan oleh algoritma tersebut. Hal ini disebabkan naïve bayes lebih banyak memiliki record yang positif tetapi diklasifikasikan negative. Tabel 4.15 Perbandingan F-Measure Decision Tree J48 dan Naïve Bayes 84 Gambar 4.12 Grafik Perbandingan F-Measure Decision Tree J48 dan Naïve Bayes Dari tabel 4.15 dapat dilihat sebarapa baik tingkat F-Measure dari hasil komputasi menggunakan algoritma Decision Tree J48 dan Naïve Bayes. Pada hasil komputasi F-Measure dengan kode icdx U00-099 kedua algoritma tersebut samasama menghasilkan recall 0. Hasil komputasi pada kode icdx A00-B99 algoritma Naïve Bayes menghasilkan hasil yang lebih baik, yaitu 0.11031 sedangkan decision tree j48 hanya 0.245. Hasil komputasi kode icdx C00-D48 algoritma Decision Tree menghasilkan hasil yang lebih baik, 0.08677 sedangkan Naïve Bayes hanya 0.058. Hasil komputasi pada kode icdx E00-E90 algoritma Decision Tree J48 menghasilkan hasil yang lebih baik, yaitu 0.41068 sedangkan Naïve Bayes hanya 0.399. Hasil komputasi kode icdx G00-G99 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, yaitu 0.034 sedangkan Decision Tree J48 hanya 0.01030. Hasil komputasi pada kode icdx I00-I99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision Tree J48, yaitu 0.23684 sedangkan Naïve Bayes menghasilkan 0. Hasil komputasi kode icdx J00-J99 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes yaitu 0.152 sedangkan decision tree J48 hanya 0.152. Hasil komputasi pada kode icdx K00-K93 algoritma yang 85 menghasilkan hasil yang lebih baik yaitu Naïve Bayes, yaitu 0.233sedangkan decision tree j48 hanya 0.15281. Hasil komputasi pada kode icdx L00-L99 kedua algoritma sama-sama menghasilkan 0. Hasil komputasi pada kode icdx M00-M99 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, dengan hasil 0.012 sedangkan decision tree j48 hanya menghasilkan 0. Hasil komputasi pada kode icdx N00-N99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision tree J48 dengan hasil 0.3763 sedangkan Naïve Bayes hanya menghasilkan 0.323. Hasil komputasi pada kode icdx R00-R99 kedua algoritma sama-sama menghasilkan hasil 0. Hasil komputasi pada kode icdx S00-T98 algoritma yang menghasilkan hasil yang lebih baik yaitu Naïve Bayes, dengan hasil 0.249 sedangkan Decision tree J48 hanya menghasilkan 0.21462. Hasil komputasi pada kode icdx Z00-Z99 algoritma yang menghasilkan hasil yang lebih baik yaitu Decision tree J48 dengan hasil 0.14875 sedangkan Naïve bayes hanya menghasilkan 0. Dari data diatas dapat dilihat ke dalam bentuk grafiknya pada gambar 4.12, dimana hasil F-measure Naïve Bayes dan Decision Tree berbeda tipis, tetapi Naïve Bayes tetap unggul dengan banyak class yang menghasilkan hasil lebih tinggi dibanding dengan Decision Tree J48. Dapat disimpulkan algoritma yang menghasilkan tingkat F-Measure yang lebih baik dalam pengkalsifikasian pola penyakit yaitu Naïve Bayes, karena kedua algoritma tersebut menghasilkan confusion matrix yang berbeda. Karena confusion Matrix berisi informasi actual dan prediksi yang dilakukan oleh algoritma tersebut. 4.4.1 ROC AREA Untuk menentukan kinerja identifikasi, ROC (Receiver Operating Characteristic) adalah analisis yang digunakan. Berdasarkan kurva yang dibentuk oleh ROC kesalahan dalam distribusi dapat diidentifikasi oleh algoritma dengan baik. 86 • U00-U99 Gambar 4.13 Kurva ROC UOO-U99 Grafik pada gambar 4.13, menggambarkan, ROC area Class U00-U99 yang menggunakan classifier Naïve Bayes menghasilkan kurva yang lebih baik, sebab terlihat classifier naïve bayes lebih menghasilkan kurva yang lebih stabil dan mengalami kenaikan yang konstan. Sedangkan kurva yang dihasilkan menggunakan classifier Decision Tree J48 hasilnya tidak lebih baik dibandingkan dengan kurva yang dihasikan menggunakan naïve bayes. Terlihat pada kurva yang dihasilkan Decision Tree J48 garis kurva mengalami kenaikan, tetapi kenaikannya tidak konstan dan garis yang dihasilkan lebih tipis dibandingkan dengan garis yang dihasilkan pada kurva yang menggunakan classifier Naïve • A00-B99 Gambar 4.14 Kurva ROC A00-B99 87 Grafik pada gambar 4.14 menggambarkan ROC class A00-B99, kurva yang dihasilkan menggunakan classifier Naïve Bayes memiliki Kurva yang lebih baik, Kurva yang dihasilkan lebih stabil dibandingkan kurva yang menggunakan classifier Decision Tree J48 yang lebih fluktuatif. Dan dapat dilihat juga garis kurva yang dihasilkan Naïve Bayes lebih tebal dibandingkan yang dihasilkan Decision Tree J48. • C00-D48 Gambar 4.15 Kurva ROC C00-D48 Grafik pada gambar 4.15 menggambarkan kurva yang dihasilkan menggunakan classifier Naïve Bayes lebih baik dibandingkan menggunakan classifier Decision Tree J48. Kurva yang dihasilkan Classifier decision tree J48 memiliki garis lebih tipis dan kurva yang lebih landau dibandingkan dengan yang mengguanakan classifier Decision Tree J48. • E00-E90 Gambar 4.16 Kurva ROC E00-E90 88 Grafik pada gambar 4.16 menggambarkan kurva yang dihasilkan menggunakan classifier Decision Tree J48 dan Naïve Bayes memiliki hasil yang tidak jauh berbeda. Tetapi yang menggunakan classifier Decision Tree J48 memiliki hasil yang lebih baik dibandingkan Naïve Bayes. Classifier Decision Tree J48 menghasilkan ROC area sebesar 0.6677 sedangkan ROC yang dihasilkan menggunakan classifier Naïve Bayes hanya sebesar 0.6564. • G00-G99 Gambar 4.17 Kurva ROC G00-G99 Grafik pada gambar 4.17 menggambarkan kurva yang dihasilkan dengan menggunakan classifier Decision Tree J48 dan Naïve Bayes. Dari dua classifier tersebut menghasilkan hasil ROC area yang sama, yaitu sebesar 0.5218. • I00-I99 Gambar 4.18 Kurva ROC I00-I99 89 Grafik pada gambar 4.18 menggambarkan kurva yang dihasilkan dengan menggunakan classifier Decision Tree J48 dan Naïve Bayes. Dapat dilihat kedua classifier tersebut menghasilkan nilai ROC area yang relatif sama. Tetapi ROC area yang dihasilkan menggunakan classifier decision tree j48 lebih baik dibandingkan dengan menggunakan classifier naïve bayes. ROC area yang dihasilkan menggunakan Decision Tree J48 sebesar 0.6156 sedangkan yang menggunakan Naïve Bayes sebesar 0.6097 • J00-J99 Gambar 4.19 Kurva ROC J00-J99 Grafik pada gambar 4.19, menggambarkan kurva yang dihasilkan dengan menggunakan classifier Decision Tree J48 dan Naïve Bayes. Dapat dilihat kedua classifier tersebut menghasilkan nilai ROC area yang tidak jauh berbeda. ROC yang dihasilkan dengan menggunakan classifier Decision Tree J48 sebesar 0.5997 sedangkan ROC yang dihasilkan menggunakan Naïve Bayes hanya sebesar 0.5832. • K00-K93 Gambar 4.20 Kurva ROC K00-K93 90 Grafik pada gambar 4.20 menggambarkan ROC area yang dihasilkan menggunakan dua classifier yaitu Decision Tree J48 dan Naïve Bayes. Classifier yang menghasilkan nilai ROC yang lebih baik yaitu yang menggunakan Naïve Bayes. Terlihat kurva yang dihasilkan menggunakan Naïve Bayes memiliki garis yang lebih tebal dan stabil. • L00-L99 Gambar 4.21 Kurva ROC L00-L99 Grafik pada gambar 4.21 menggambarkan ROC area yang dihasilkan menggunakan dua classifier yaitu Decision Tree J48 dan Naïve Bayes. Classifier yang menggunakan Naïve Bayes menghasilkan kurva yang lebih baik, karena mengalami kenaikan yang konstan sehingga menghasilkan nila 0.6661 sedangkan Naïve Bayes memiliki kurva yang fluktuatif dan hanya menghasilkan nilai ROC sebesar 0.5943 • M00-M99 Gambar 4.22 Kurva ROC M00-M99 91 Grafik pada gambar 4.22 menggambarkan ROC area yang dihasilkan menggunakan dua classifier yaitu Decision Tree J48 dan Naïve Bayes. Classifier yang menggunakan Decision Tree J48 menghasilkan kurva yang lebih baik, karena mengalami kenaikan yang konstan sehingga menghasilkan nila 0.5878 sedangkan Naïve Bayes memiliki kurva yang fluktuatif dan hanya menghasilkan nilai ROC sebesar 0.5693 • N00-N99 Gambar 4.23 Kurva ROC N00-N99 Grafik pada gambar 4.23 menggambarkan ROC area yang dihasilkan menggunakan dua classifier yaitu Decision Tree J48 dan Naïve Bayes. Kurva yang dihasilkan Naïve Bayes lebih baik dibandingkan yang menggunakan Decision Tree J48. Hal tersebut dapat dilihat melalui kurva yang dihasilkan menggunakan Naïve Bayes, pada kurva ini Naïve Bayes menghasilkan kurva yang lebih stabil dibandingkan dengan Decision Tree J48. • R00-R99 Gambar 4.24 Kurva ROC R00-R99 92 Grafik pada gambar 4.24 menggambarkan ROC area yang dihasilkan menggunakan dua classifier yaitu Decision Tree J48 dan Naïve Bayes. Kedua classifier menghasilkan nilai ROC yang tidak jauh berbeda. Kurva yang dihasilkan Decision Tree J48 memiliki nilai ROC 0.3453 sedangkan yang dihasilkan Naïve Bayes hanya bernilai 0.313 • S00-T98 Gambar 4.25 Kurva ROC S00-T98 Grafik pada gambar 4.25 menggambarkan ROC area yang dihasilkan menggunakan dua classifier yaitu Decision Tree J48 dan Naïve Bayes. Kurva yang dihasilkan menggunakan classifier Naïve Bayes mengasilkan ROC area yang lebih baik sebesar 0.7492 sedangkan ROC area yang dihasilkan menggunakan classifier Decision Tree J48 hanya sebesar 0.6576. Terlihat perbedaan kurva yang dihasilkan, kurva yang dihasilkan menggunakan Naïve Bayes mempunyai garis yang lebih tebal. • Z00-Z990 Gambar 4.26 Kurva ROC Z00-Z990 93 Grafik pada gambar 4.26 menggambarkan ROC area yang dihasilkan menggunakan dua classifier yaitu Decision Tree J48 dan Naïve Bayes. Kedua classifier tersebut menghasilkan kurva yang tidak jauh berbeda. Naïve Bayes menghasilkan nilai ROC area sebesar 0.6179 dan kurva yang dihasilkan menggunakan Decision Tree J48 bernilai 0.6137. Tabel 4.16 Perbandingan Algoritma Decision Tree J48 dan Naïve Bayes Decision Tree KODE ICD-X Better Naïve Bayes U00-U99 0.5956 0.605 Naïve Bayes A00-B99 0.715 0.735 Naïve Bayes C00-D48 0.5169 0.5527 Naïve Nayes E00-E90 0.6677 0.6564 Decision Tree G00-G99 0.5128 0.5128 Both I00-I99 0.6156 0.6097 Decision Tree J00-J99 0.5997 0.5832 Decision Tree K00-K93 0.6189 0.6159 Decision Tree L00-L99 0.5943 0.6661 Naïve Bayes M00-M99 0.5878 0.5693 Decision Tree N00-N99 0.6527 0.6982 Naïve Bayes R00-R99 0.3453 0.313 Decision Tree S00-T98 0.6576 0.7492 Naïve Bayes Z00-Z990 0.6137 0.6179 Naïve Bayes Dari data tabel 4.16 Algoritma naïve bayes lebih baik dalam melakukan pengklasifikasian penyakit. Algoritma Naïve Bayes lebih baik dalam mengklasifikasikan penyakit dengan kode U00-U99,A00-B99, C00-D48, L00-L99, N00-N99, S00-T98 dan Z00-Z99. Sedangkan Algoritma Decision Tree J48 hanya baik dalam mengklasifikasikan penyakit dengan kode E00-E90, I00-I99, J00-J99, K00-K93, M00-M99 dan R00-R99. Sedangkan pengklasifikasian penyakit dengan kode icdx G00-G99, kedua algoritma sama-sama dapat mengklasfikasikannya dengan nilai ROC area yang sama.