PENERAPAN ALGORITMA DECISION TREE C4.5 UNTUK DIAGNOSA PENYAKIT STROKE DENGAN KLASIFIKASI DATA MINING PADA RUMAH SAKIT SANTA MARIA PEMALANG Sigit Abdillah A11.2011.06469 Program Studi Teknik Informatika – S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro, Jl. Nakula 1 No. 5-11 Semarang [email protected] ABSTRAK Data Mining adalah proses ekstraksi sebelumnya tidak dikenal dan dipahami dari database berukuran besar dan digunakan untuk membuat keputusan bisnis yang penting.Studi kasus yang digunakan dan diterapkan dalam tugas akhir ini adalah data pasien penyakit saraf khususnya penyakit Stroke untuk dikelola menggunakan algoritma C4.5 dengan metode klasifikasi data mining. Stroke termasuk penyakit pembuluh darah otak ditandai dengan kematian jaringan otak yang terjadi karena berkurangnya aliran darah dan oksigen ke otak. Salah satu cara untuk mempelajari Stroke yaitu dengan ilmu data mining tepatnya menggunakan algoritma C4.5, hasil laporan ini menentukan pasien penyakit stroke dengan variabel yang diketahui kemudian diolah menggunakan data mining algoritma C4.5. Kata kunci :Data mining, algoritma C4.5, klasifikasi, stroke I. PENDAHULUAN Pada dunia kesehatan secara teknis macam kasus tersebut diantaranya yaitu sudah mengenal data mining dalam cakupan terdapat teknik Naïve Bayes classification luas menjadi potensial informasi. Contohnya (NBC) dalam sudah kesehatan contohnya seleksi embrio, dan menggunakan beberapa teknik data mining teknik data mining Decision Treeuntuk modern pada beberapa kasus yang ada mendeteksi dan memvalidasi hipertensi pada bidang rekam medis seperti klasifikasi dan data prediktif.Macam- yang diterapkan pada bidang kehamilan di rumah sakit ataupun instansi mendeteksi dan memvalidasi hipertensi pada kesehatan lainnya[2]. kehamilan di rumah sakit ataupun instansi Untuk menganalisa data dalam kesehatan lainnya. jumlah besar yang tersimpan pada database, biasanya digunakan teknik data Dalam hal ini studi kasus yang dibahas adalah mengenai salah satu penyakit mining.Meski telah umum digunakan pada berbahaya industri menyebabkan keuangan dan telekomunikasi, bagi manusia kematian yang yaitu dapat penyakit teknik data mining mulai diterapkan secara stroke, penyakit ini terbagi menjadi dua intensif dibidang kesehatan. Sebagai contoh, yaitu stroke mayor dan stroke minor yang Mayo Clinic bekerjasama dengan IBM dapat mengancam jiwa seseorang, dan dapat menerapkan teknik data mining pada pasien terjadi karena ada gangguan suplai darah dengan kesamaan jenis kelamin, usia dan pada sebagian atau seluruh organ otak. riwayat kesehatan untuk mengetahui respon terhadap pengobatan tertentu. Dari hal yang telah dijabarkan diatas, akan dilakukan pengujian mengenai Data Mining adalah proses ekstraksi mengangkat permasalahan tersebut sebagai sebelumnya tidak dikenal dan dipahami dari Penerapan Algoritma Decision Tree C4.5 database berukuran besar dan digunakan Untuk Diagnosa Penyakit Stroke Dengan untuk membuat keputusan bisnis yang Klasifikasi Data Mining Pada Rumah Sakit. penting[1]. II. METODOLOGI A. Tahap-tahap Data Mining Pada dunia kesehatan secara teknis sudah mengenal data mining dalam cakupan luas menjadi potensial informasi. Contohnya dalam bidang rekam medis sudah menggunakan beberapa teknik data mining modern pada beberapa kasus yang ada seperti klasifikasi dan data prediktif. Macam-macam kasus tersebut diantaranya yaitu terdapat teknik Naïve Bayes classification (NBC) yang diterapkan pada bidang kesehatan contohnya seleksi embrio, dan teknik data mining Decision Treeuntuk Gambar 1.Tahapan Data Mining 1. Pembersihan data (Cleaning data) karena kesalahan pada integrasi data Untuk menghilangkan data yang bisa menghasilkan hasil yang tidak diperlukan, data yang diperoleh menyimpang dan bahkanmenyesatkan dari tahap pengambilan dataset akan pengambilan keputusan pada akhirnya. disaring untuk menghasilkan data yang Dalam integrasi data ini juga perlu benar-benar dibutuhkan. umumnya data dilakukan tersebut memiliki nilai yang tidak pembersihan data karena seringkali data sempurna yang dari dua database berbeda tidak sama hilang.Selain itu, ada juga atribut-atribut cara penulisannya atau bahkan data data yang ada di satu database ternyata tidak seperti yang tidak data rsesuai dengan transformasi pemrosesan data mining yang akan ada di database lainnya. digunakan.Data-data yang tidak relevan 3. Seleksi Data dan itu juga lebih baik dibuang karena Data diseleksi untuk menentukan keberadaannya bisa mengurangi mutu variabel apa saja yang akan diambil atau akurasi dari hasil data mining agar nantinya. Pembersihan data juga akan perulangan yang tidak diperlukan dalam mempengaruhi performasi dari sistem pengolahan teknik data mining.Sebagai data mining karena data yang ditangani contoh, sebuah kasus yang meneliti akan faktor kecenderungan berkurang jumlah dan kompleksitasnya. kesamaan dan orangmembeli tidak perlu mengambil namapelanggan, Datayang akan digunakan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari database terjadi dalam kasus market basket analysis, 2. Integrasi data beberapa tidak atau file teks. cukup dengan id pelanggan saja. 4. Transformasi data Pengubahan data menjadi format ekstensi yang sesuai untuk pengolahan Integrasi data dilakukan pada atribut- dalamdata mining.Beberapa aribut yang mengidentifikasikan entitas- data mining membutuhkan format data entitas yang unik seperti atribut nama, yangkhusus jenis produk, nomor pelanggan dan lain- dalam teknik data mining. Misalnya lain. Pada tahap ini hal yang perlu sebagian metode standarseperti analisis dilakukan untuk lebih detail dan cermat asosiasi dan klastering hanya bisa sebelum bisa metode diproses menerima input datakategorikal. Tahapterakhir Karenanya data berupa angka numerik miningadalah yang berlanjut perlu dibagimenjadi memformulasikan keputusanatau aksi beberapa interval. dari hasil analisis yang didapat. Ada 5. Proses mining, kalanya hal ini harus melibatkanorang- Untuk memproses teknik utama saat metode diterapkan hasil B. CRISP-DM (Cross Industry Standart Process for Data Mining) CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan proses Tahap ini yaitu mengidentifikasi pola-pola menarik kedalam knowledge based presentasi datamining. harus di terapkan pada proses mining 6. Evaluasi pola data bagaimana mining.Karenanya menemukanpengetahuan berharga, data setelah data melalui tahap transformasi. proses orang yang tidak memahami data agar yang terkumpulkan sesuai prosedur dari yangdiidentifikasikan. standar yang biasa digunakan dalam penerapan ilmu data mining. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yangkhas maupun model prediksi dievaluasi untuk menilai apakah kajian yang ada sudah memenuhi target yang diinginkan. Jika ternyata hasil yang diperoleh tidak sesuai kajian adabeberapa alternatif dengan mencoba metode data mining Gambar 2.CRISP-DM lain agarlebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaanyang mungkin bermanfaat. Merupakan visualisasi dan penyajian yangdigunakan mengenai untuk Memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian 7. Presentasi pengetahuan pengetahuan 1. Business Understanding metode memperoleh pengetahuan yang diperoleh pengguna. menterjemakan pendefinisian pengetahuan ini masalah dalam ke data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut. Menerjemahkan tujuan dan batasan dari data yang diambil dari rumah sakit menjadi formula dari permasalahan data Atribut Detail penggunaan Id Nilai unique mining mulai dari menyiapkan strategi Umur Nilai Model awal hingga metode yang dibutuhkan Jenis kelamin No untuk mencapai tujuan. 2. Data Understanding Pengumpulan data yang akan dilanjutkan mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi. 3. Tabel 1.atribut pengolahan data Data Preparation Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data Suhu tubuh X No Denyut nadi X Nilai Model Pernafasan X Nilai Model Kesadaran X No Sulit bicara X No Gerak terbatas X Nilai Model Badan lemas X No Mual muntah X No Factor keturunan X No Diabetes mellitus Nilai Model Hipertensi Nilai Model Kolesterol X Nilai Model Hemoglobin X Nilai Model pemodelan) dari data mentah. Tahap ini Kadar gula acak X Nilai Model dapat diulang beberapa kali. Kolesterol total X Nilai Model yang akan diproses pada tahap Tahap ini adalah pemilihan atribut data Ket. Stroke Label Target yang digunakan, serta pembagian data menjadi dua kelompok yaitu data Setelah dilakukan pemilihan atribut testing dan data training yang akan pada proses pengolahan data dengan diimplementasikan pada analisa dan berdiskusi dengan pakar dibidangnya pembahasan yaitu kepala rekam medis rumah sakit tempat melaksanakannya penelitian sebagai perwakilan dari pakar bidang kesehatan pada rumah sakit umum Santa Maria tersebut, apa sajakah variabel pendukung yang lebih mempengaruhi tingkat keakuratannya dalam pengaruh penkonversian penyakit atribut ini stroke, berbguna untuk memudahkan dalam melakukan perhitungan dan analisa dalam tahap Id Umur Hipertensi Diabetes Ket. Stroke 001 002 003 004 005 Dewasa Tua Tua Tua Tua Ya Tidak Ya Tidak Ya Positif Negatif Positif Negatif Negatif Tidak Ya Ya Tidak Ya 006 007 Tua Tua Tidak Ya Positif Positif Tidak Ya No. Umur Hipertensi Diabetes Ket. Stroke 001 002 003 004 005 35 49 55 57 50 Ya Tidak Ya Tidak Ya Positif Negatif Positif Negatif Negatif Tidak Ya Ya Tidak Ya 008 Tua Ya Negatif Tidak 009 Muda Ya Positif Tidak 010 Dewasa Tidak Negatif Ya 006 007 57 61 Tidak Ya Positif Positif Tidak Ya 011 Tua Ya Positif Tidak 012 Tua Tidak Positif Ya 008 49 Ya Negatif Tidak 013 Tua Tidak Positif Ya 009 30 Ya Positif Tidak 014 Tua Tidak Positif Ya 010 44 Tidak Negatif Ya 011 72 Ya Positif Tidak 012 81 Tidak Positif Ya 015 016 : 156 Tua Dewasa : Dewasa Ya Tidak : Ya Negatif Negatif : Negatif Tidak Ya : Tidak 013 27 Tidak Positif Ya 014 68 Tidak Positif Ya 015 016 : 156 67 45 : 37 Ya Tidak : Ya Negatif Negatif : Negatif Tidak Ya : Tidak data mining Table 4.data setelah dikonversi 4. Modeling Table 2.ilustrasi atribut yang akan Dalam digunakan dalam pemodelan pemilihan teknik tahap dan ini akan penerapan pemodelan dan dilakukan berbagai beberapa parameternya akan disesuaikan untuk Kemudian lakukan pengkonversian data agar mudah dilakukan pengolahan teknik data mining. Table 3. mendapatkan nilai yang optimal. Data yang penelitian ini digunakan adalah dalam sumber data primer. Data yang dikumpulkan yaitu data pasien berpenyakit stroke C. Gambar 3 Model penelitian yang diusulkan DECISION TREE ALGORITMA C4.5 Decision Tree.Pohon (Tree) adalah sebuah struktur data yang yan terdiri dari simpul (node) dan rusuk (edge). Simpul 5. Evaluation pada sebuah pohon keputusan dibedakan Melakukan evaluasi terhadap keefektifan dan kualitas model tujuan yang ditetapkan pada fase tahap ini adalah menentukan apakah ada bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining. 6. akan diatur dan dipresentasikan dalam bentuk khusus dapat digunakan oleh pengguna. Tahap deployment dapat berupa banyak pembuatan kasus, melibatkan laporan tahap konsumen, Dalam deployment di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus simpul, simpul Pada pohon keputusan ini bisa memberikan keuntungan berwujud visualisasi dari pemecahan masalah yang diolah menggunakan teknik data mining yang membuat protocol dari prediksinya dapat diamati, maka dari itu konsep ini keputusan ini sendiri juga sudah banyak Pengetahuan atau informasi yang telah sehingga akar termasuk fleksibel dan atraktif. Pohon Deployment diperoleh tiga, percabangan, dan simpul akhir[12]. awal (Business Understanding).Kunci dari masalah menjadi dilakukan untuk menggunakan model yang telah dibuat. digunakan pada berbagai bidang ilmu pengetahuan, salah satunya yaitu bidang kesehatan untuk diagnosa penyakit pasien, ilmu computer pada struktur data, psikologi untuk teori pengambilan keputusan, dan lain-lain. Dalam pohon keputusan sangat berhubungan dengan algoritma algoritma C4.5 keputusan.Algoritma merupakan C4.5, salah karena adalah data satu dasar pohon mining C4.5 algoritma yang digunakan untuk melakukan klasifikasi atau segmentasi bersifat atau pengelompokan prediktif.Cabang-cabang yang D. MATRIKS KONFUSI pohon Confusion Matrix adalah tool yang keputusan merupakan pertanyaan klasifikasi digunakan untuk evaluasi model klasifikasi dan daun-daunnya merupakan kelas-kelas untuk memperkirakan objek yang benar atau atau segmen-segmennya. salah. Sebuah matrix dari prediksi yang akan Rumus menghitung entropy pada algoritma C4.5 𝑘 𝑖=1 −𝑝𝑖 𝑙𝑜𝑔2 Entropi (S) = 𝑝𝑖……..….(2.1) dibandingkan dengan kelas yang asli dari inputan dengan kata lain berisi informasi nilai aktual dan prediksi pada klasifikasi. Keterangan : Table 5.contohconfusion matrix S : Himpunan (dataset) kasus k : Banyaknya partisi S Pi : Probabilitaas yang didapat dari Classification Sum(Ya) atau Sum(Tidak) dibagi total kasus Setelah atau mendapatkan entropi Class=Yes dari Class=No keseluruhan kasus, lakukan analisis pada Predicted class Class = Yes Class = No a (true b (false negative- positive-TP) FN) c (false d (true negative- positive-FP) TN) setiap atribut dan nilai-nilainya dan hitung entropinya. Langkah berikutnya yaitu dengan menghitung Gain, rumus daripada Gain adalah sebagai berikut: Rumus untuk menghitung tingkat akurasi pada matriks adalah: 𝑇𝑃 + 𝑇𝑁 Akurasi = 𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁 = Gain(A) = Entropi (S) - 𝑘 |𝑆𝑖| 𝑖=1 |𝑆| 𝑎+𝑑 ....(2.3) 𝑎+𝑏+𝑐+𝑑 x Entropi (Si.) ..………………………………………..………..(2.2) Keterangan : S : himpunan kasus A : atribut n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S III. ANALISA DAN PEMBAHASAN a. Pengoperasian Sistem yaitu menjumlahkan Stroke(positive) stroke(positive) nilai Prediksi denganPrediksi kemudian Non- membaginya dengan seluruh elemen variabel yang ada yaitu Prediksi Stroke(positive), Prediksi Stroke(negative), stroke(positive), Prediksi dan stroke(negative). (76+31)/(76+16+7+31) Non- Prediksi Nilainya x Nonyaitu 100% = 82,3077%. b. Pohon Keputusan Untuk mendukung aturan aturan yang Gambar 4 Input Data Training pada Sistem terbentuk dari data pasien stroke yang Data diinputkan pada sistem yang diperoleh kedalam sistem maka dibentuklah dibuat menggunakan matlab versi R2010a, pohon keputusan, selain berfungsi sebagai isikan semua data yang dibutuhkan sesuai penentuan rulesatau aturan form yang tersedia. Pada gambar 4.3 penyakit stroke, sistem pohon keputusan ini langkah yang pertama dijalankan yaitu juga mempresentasikan bagaimana seorang mengunggah file yang akan diolah dalam pasien bisa terserang stroke dari beberapa sistem, file yang digunakan adalah „data variabel yang tersedia dari data pasien training TA‟ yang berekstensi „.xls‟ yaitu penyakit stroke. data pasien penyakit stroke klasifikasi setelah dikonversi, data tersebut mengandung empat variabel pendukung yaitu jenis kelamin, usia, jipertensi, dan diabetes. Serta mempunyai satu variabel target sebagai klasifikasi keputusan Stroke atau Nonstroke. Dalam file „data training.xls‟ tersebut terdapat tingkat akurasi sebesar 82,3077%, dengan cara menghitungnya Gambar 5. Pohon Keputusan pada Sistem Berikut penjelasan data training dan diklasifikasikan NonStroke tetapi masuk data testing yang akan digunakan dalam kedalam Stroke, sedangkan jumlah (Prediksi proses uji coba tingkat akurat data pasien, NonStroke – TrueNonStroke) adalah 5 dari 156 data akan dibagi menjadi dua merupakan bagian yaitu data training yang berjumlah diklasifikasikan NonStroke. 130 data pasien dan sisanya pada data Accuracy = (a+d)/(a+b+c+d) testing yaitu berjumlah 26 data pasien. jumlah pasien yang = (15+5)/(15+0+6+5) x 100% = 76,92% Table 6. Pembagian Data Testing dan Data Training IV. KESIMPULAN Berdasarkan hasil penelitian dari jumlah persentase Data Training 130 83,33% permasalahan yang dikembangkan dapat Data Testing 26 16,67% disimpulkan bahwa untuk c. Confusion Matrix True Stroke klasifikasi data mining dengan algoritma C4.5 sebagai klasifikasi stroke atau non- True Nonstroke 15 6 0 5 stroke. Data yang digunakan sebagai penelitian disini adalah data pasien penyakit Stroke Prediksi kasus penyakit stroke dapat memanfaatkan teknik Table 7.confusion matrix dari data testing Prediksi studi stroke rumah sakit yang sifatnya rahasia Dari metode klasifikasi data mining Nonstroke dengan algoritma C4.5 dan pengaplikasian Pada tabel 7 tersebut menjelaskan pohon keputusanyang membentuk aturan bahwa jumlah tabel (Prediksi Stroke - True tersebut terdapat akurasi pada data training Stroke) atau (a) yaitu 15 merupakan jumlah yang berjumlah 130 dari 156 data pasien pasien sebesar 82,31% diklasifikasikan Stroke, jumlah sedangkan akurasi pada (Prediksi Stroke – True Nonstroke) atau (b) data testing yang berjumlah 26 dari 156 data adalah 6 merupakan jumlah pasien yang pasien diklasifikasikan keduanya menggunakanconfusion matrix. kedalam Stroke NonStroke, tetapi jumlah masuk jumlah pasien 76,92%. Perhitungan (Prediksi NonStroke – True Stroke) atau (c) adalah 0 merupakan sebesar yang V. [1] DAFTAR PUSTAKA R. A. Prasetyo, "Aplikasi Data Mining Asociation Rule Untuk Menampilkan Informasi Penyebaran Penyakit Menggunakan Algoritma (Studi Kasus Universitas di Dian Departemen Pola Dengan Poliklinik [6] Stroke”.Palembang: Universitas Bina Dian Dharma Nuswantoro, vol. 1, pp. 2, 2013. [2] Murtanto, A, "klasifikasi biaya [7] perawatan, & pencagahan”. Andi menggunakan teknik data mining [3] [8] “Konsep dan Aplikasi Menggunakan Universitas Halu Oleo, 2014. Matlab”,Yogyakarta: Kejadian CV. ANDI, 2012 I. K. Gama, I. K. W. Yasa dan I. [9] E. Prasetyo, “DATA MINING - "Kepatuhan Kontrol Hipertensi Dengan Mengolah Data Menjadi Informasi Keperawatan Menggunakan Matlab”, Yogyakarta: Penderita Stroke", CV. ANDI, 2014. Politeknik Kesehatan Denpasar,vol. 1, pp. 4-5. 2011 [10] P.P. Widodo, R.T. Handayanto dan M. K. Mukhlis. 2011. “Diagnosa Herlawati, “Penerapan Data Mining Kemungkinan Pasien Terkena Stroke Dengan Matlab”,Bandung: Rekayasa Dengan Menggunakan Metode Naive Sains, 2013. Bayes Dan Metode Jaringan Syaraf Tiruan Berbasis Web”. Surabaya: Institut Negeri Sepuluh Nopember [5] E. Prasetyo, DATA MINING – naive bayes," Skripsi Teknik Kendali Hartini [4] dr. pinzon, R. dr Asanti L. “Awas Stroke! pengertian, gejala, tindakan, pasien rawat inap penyakit jantung attribute important (ai) dan algoritma A. Linda. 2012. “Sistem Pakar Pendeteksi Kemungkinan Penyakit Nuswantoro)", Universitas Vector Quantization”. Surabaya. ISPA Apriori Leraning [11] D. Retnosari, "Sistem Aplikasi Data Mining Informasi Untuk Tingkat Menampilkan Kelulusan S.A. Aji, M. Sarosa dan S. Onny. Mahasiswa,", Departemen Teknik 2014. Informatika “Klasifikasi Berdasarkan Kelainan Stroke Patologis Universitas Islam Kalimantan, vol. 1, pp. 16-17, 2013. [12] F.A. Himawati, Data Yogyakarta: ANDI, 2013 Mining,