Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 ISSN: 2338-3887 ALGORITMA C4.5 BERBASIS ADABOOST UNTUK PREDIKSI PENYAKIT JANTUNG KORONER Adi Suwondo 1) Dian Asmarajati 2) Heri Surahman 3) Program Studi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer Universitas Sains Al-Quran Jawa Tengah di Wonosobo 1,2,3) Jl. Raya Kalibeber Km.03 Mojotengah, Wonosobo Telepon (0286) 3326102 E-mail: [email protected] 1) E-mail: [email protected] 2) E-mail: [email protected] 3) ABSTRACT The pattern of symptoms of coronary heart disease (CHD) are so numerous and varied, so that predition of the disease is still less accrurate. Many methods used in this case, one of them data mining. Data mining is a method of extracting or “mining” knowledge from large amounts of data. Techniques use in data mining is based AdaBoost algorithm C4.5. Adaboost based C4.5 algorithm will be used to classify the pattern of symptoms of coronary haerat disease with the addition of aboosting method to obtain higher accuracy value. C4.5 uses anormalization to get te information (entropy difference) and the results of the election is used to separate the attributes of the data. Attributes that have the highest normalized information is one that is used to make decisions. While AdaBoost is a boosting algorithm that is used to bulid the strength of the classification as a linier combination. Therefore in this study will try to predict coronary heart disease (CHD) with 195 general chek-up of data taken from the Avisena Wonosobo laboratory database. The framework used in this study is Rapid Miner Keywords : Coronary Heart Disease (CHD), Datamining, C4.5, AdaBoost, Rapid Miner PENDAHULUAN Faktor risiko penyakit kardiovaskular sekarang sudah signifikan dalam semua populasi [2]. Di Indonesia telah terjadi pergeseran kejadian penyakit jantung dan pembuluh darah dari urutan ke-10 pada tahun 1980 menjadi urutan ke13 pada tahun 1986 [1]. Sedangkan sebagai penyebab kematian tetap menduduki peringkat ke-3. Pada penelitian ini mengambil data pasien general chek up dari laboratorium Avisena dari tahun 2010 hingga 2011, teknik yang digunakan adalah decision tree dengan menambahkan metode boosting didalamnya yakni adaboost [6]. Adaboost digunakan dengan alasan metode ini dapat mingkatkan ketelitian dalam proses klasifikasi dan prediksi dengan cara membangkitkan kombinasi dari suatu model, dengan memilih model yang memiliki nilai bobot paling besar. Berdasarkan latar belakang yang telah diuraikan di atas, dapat dirumuskan bahwa Prediksi penyakit jantung koroner dengan algoritma C4.5 belum menunjukkan nilai akurasi tinggi. Sedangkan pertanyaan penelitian (question research) pada penelitian ini adalah Bagaimana penerapan Adaboost pada algoritma C4.5 dapat meningkatkan akurasi pada prediksi penyakit jantung koroner?. Tujuan penelitian ini adalah untuk menerapkan AdaBoost pada Algoritma C4.5 untuk meningkatkan akurasi prediksi penyakit jantung koroner” Manfaat dari penelitian ini adalah manfaat praktis dari penelitian ini adalah staff medis dapat menggunakan model yang telah dikembangkan untuk memprediksi penyakit jantung koroner pada pasien, serta manfaat teoritis hasil penelitian ini adalah penerapan Adaboost pada algoritma C4.5 dalam pemodelan yang berkaitan dengan klasifikasi faktor risiko penyakit jantung koroner, dan manfaat kebijakan penelitian ini diharapkan dapat digunakan pada lembaga laboratorium Avisena Wonosobo. Kontribusi yang diharapkan dapat diberikan dari penelitian ini adalah dengan penerapan Adaboost pada algoritma C4.5 akan meningkatkan prediksi penyakit jantung koroner berdasarkan faktor risiko dengan lebih akurat. LANDASAN TEORI 1. Data Mining Secara sederhana, data mining merupakan penggalian atau "pertambangan" pengetahuan dari sejumlah besar data [7]. Data mining merupakan bagian dari proses Knowledge Discovery from Data (KDD). 1 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 1. 2. 3. 4. 5. 6. 7. 2. ISSN: 2338-3887 Penemuan pengetahuan sebagai suatu proses memiliki urutan sebagai berikut [7]: Data Cleaning (untuk menghilangkan noise dan data yang tidak konsisten) Data Integration (di mana beberapa sumber data dapat dikombinasikan) Data Selection (di mana data yang relevan dengan penelitian yang akan diambil) Data transformation (dimana data diubah atau dikonsolidasikan ke dalam bentuk yang sesuai untuk pertambangan dengan melakukan operasi ringkasan atau agregas) Data mining (proses esensial dimana metode cerdas yang diterapkan dalam rangka untuk mengekstrak pola data) Pattern Evaluation (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan Knowledge Presentation (di mana visualisasi dan teknik representasi pengetahuan digunakan untuk menyajikan pengetahuan kepada pengguna) Algoritma C4.5 Secara umum, decision tree adalah suatu gambaran pemodelan dari suatu persoalan yang terdiri dari serangkaian keputusan yang mengarah ke solusi. Tiap simpul dalam menyatakan keputusan dan daun menyatakan solusi. Adapun pemodelan pohon yang biasa dipakai dalam pohon keputusan adalah rooted tree (pohon berakar) Pohon berakar adalah pohon yang satu buah simpulnya diperlakukan sebagai akar dan sisi-sisinya diberi arah sehingga menjadi graf berarah. Pada metode decision tree langkah awalnya ialah mencari node yang akan digunakan sebagai akar pohon [7]. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus seperti tertera dalam persamaan 1. | | ( , )= ( )− ( ) … … … … … (1) ∗ Dengan : S : Himpunan kasus A : Atribut n : Jumlah partisi atribut A |Si| : Jumlah kasus pada partisi ke i |S| : Jumlah kasus dalam S Sedangkan perhitungan nilai entropy dapat dilihat pada persamaan 2 berikut [7]: ( )= − ∗ … … … … … … … … … … … … … (2) Dengan : S : Himpunan Kasus A : Fitur n : Jumlah partisi S pi : Proporsi dari Si terhadap S 3. AdaBoost pada C4.5 AdaBoost adalah algoritma untuk membangun kekuatan klasifikasi sebagai kombinasi linear, Adaboost merupakan singkatan dari Adaptive Boosting yang dikembangkan oleh Freund dan Schapire [12]. Bentuk umum persamaan Adaboost menggunakan rumus ( 4. )= ( ) … … … … … … … … … … … … … … … … … (3) CRISP-DM (Cross-Industry Standard Process for Data Mining) Dikembangkan pada tahun 1996 oleh analyst yang mewakili DaimlerChrysler, SPSS, dan NCR [15]. CRISP menyediakan standar proses baku untuk data mining yang dapat diterapkan kedalam strategi pemecahan masalah umum pada bisnis atau pada unit penelitian. Standar baku ini merupakan standar nonproprietary, bebas digunakan siapapun tanpa harus membayar lisensi. Menurut CRISP-DM, sebuah Project Data Mining memiliki Lifecycle yang terdiri dari enam fase, dari keenam fase tersebut adalah: 1. Business / research understanding 2. Data Understanding (Pemahaman terhadap data) 3. Data preparation (persiapan data) 4. Modeling (pemodelan) 5. Evaluation (evaluasi) 2 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 6. ISSN: 2338-3887 Deployment (penyebaran) Dalam mengevaluasi data mining menggunakan Cross Validation untuk membuat validasi dari jumlah data untuk data pelatihan dan pengujian yang terbatas [15]. ROC Curve dan Confusion Matrix, ROC Curve dikenal sebagai teknik representasi dalam bentuk grafis dalam mengevaluasi data mining [16]. Confusion Matrix [15] berisi informasi tentang sistem klasifikasi aktualisasi dan prediksi. Kinerja sistem biasanya dievaluasi menggunakan data dalam matriks. Tabel berikut menunjukkan confusion matrix untuk pengklasifikasi dua kelas true positif dan true negatif. 5. Jantung Koroner dan Faktor Risiko Penyakit jantung koroner (PJK) mempunyai jangka kematian dan kesakitan yang tinggi. Walaupun penyebab dasar terjadinya penyakit jantung koroner belum diketahui dengan pasti, para ahli telah mengidentifikasi sejumlah faktor yang berhubungan dengan terjadinya penyakit jantung yang disebut sebagai faktor risiko. Faktor risiko penyakit jantung koroner ada yang membaginya dalam faktor risiko primer (independen) dan sekunder, [9] yaitu: faktor risiko primer; faktor ini dapat menyebabkan gangguan arteri berupa aterosklerosis tanpa harus dibantu oleh faktor lain (independen), termasuk faktor risiko primer, yaitu hiperlidemi, merokok, dan hipertensi. Dan faktor risiko sekunder; Faktor ini baru dapat menimbulkan kelainan arteri bila ditemukan faktor lain secara bersamaan, termasuk faktor risiko sekunder, yaitu PJK melitus (DM), obesitas, stres, kurang olah raga, alkohol, dan riwayat keluarga. Yang termasuk risiko utama adalah [1]: a. Hipertensi b. Hiperkolesterolemi c. Kolesterol total Kadar Kolesterol Normal Agak tinggi Tinggi (Pertengahan) <200 mg/dl 200 – 239 mg/dl >240 mg/dl d. LDL kolesterol Kadar LDL Normal Agak tinggi (Pertengahan) Tinggi <130 mg/dl 130 – 159 mg/dl >160 mg/dl 5. HDL Kolesterol Normal 6. > 45 mg/dl Kadar trigliserida Kadar HDL Agak tinggi (Pertengahan) 35 - 45 mg/dl Tinggi >35 mg/dl Kadar Trigliserida Agak tinggi (Pertengahan) 150 - 250 mg/dl Normal > 150 mg/dl Tinggi >500 mg/dl METODE PENELITIAN Dalam penelitian ini digunakan data catatan rekam medis pada laboratorium Avisena baik yang diduga penderita penyakit jantung koroner maupun orang sehat yang melakukan General Check-up. Dalam penelitian ini menggunakan model Cross-Standard Industry for Data Mining (CRISP-DM) [10]. Klasifikasi Adult Treatment Panel-III, 2001 [11] mengenai kadar kolesterol total, kadar LDL, kadar trigliserida, kadar HDL (dalam mg/dL) adalah sebagai berikut : Tabel 1 Klasifikasi kadar kolesterol total Nilai Atribut Interval Desirable < 200 Borderline 200 – 239 Tinggi ≥ 240 3 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 ISSN: 2338-3887 Tabel 2 Klasifikasi kadar LDL (Low Density Lipoprotein) Nilai Atribut Interval Optimal < 100 Mendekati/ di atas optimal 100 – 129 Borderline tinggi 130 – 159 Tinggi 160 – 189 Sangat tinggi ≥ 190 Tabel 3 Klasifikasi kadar Trigliserida Nilai Atribut Interval Normal < 100 Sedang 100 – 149 Borderline Tinggi 150 – 199 Tinggi 200 – 499 Sangat tinggi ≥ 500 Tabel 4 Klasifikasi kadar HDL (High Density Lipoprotein) Nilai Atribut Interval Rendah < 40 Tinggi ≥ 60 Kemudian dilakukan tahap preparation data, Kemudian data yang dihasilkan setelah proses persiapan data adalah data training yang sudah terklasifikasi seperti pada tabel Tabel 5 berikut: Tabel 5 Data Training hasil dari Proses Preparation No Trigliserida HDL LDL Kolesterol Class 1 Normal Optimal Rendah Desirable PJK 2 Tinggi Tinggi Rendah Tinggi PJK 3 Borderline Hight Sangat Tinggi Tinggi Tinggi PJK 4 Normal di atas Optimal Rendah Desirable PJK 5 Normal di atas Optimal Tinggi Desirable PJK 6 Normal Borderline Hight Tinggi Tinggi PJK 7 Borderline Hight Borderline Hight Rendah Borderline TIDAK 8 Tinggi Borderline Hight Rendah Borderline TIDAK 9 Borderline Hight Borderline Hight Rendah Tinggi PJK 10 Normal Optimal Tinggi Desirable TIDAK 11 Normal Borderline Hight Rendah Desirable TIDAK 12 Borderline Hight Tinggi Rendah Borderline TIDAK 13 Borderline Hight Sangat Tinggi Rendah Tinggi PJK 14 Normal di atas Optimal Tinggi Borderline TIDAK 15 Borderline Hight di atas Optimal Rendah Desirable TIDAK 16 Borderline Hight Optimal Rendah Desirable TIDAK 17 Borderline Hight Optimal Tinggi Desirable TIDAK 18 Normal Optimal Rendah Borderline TIDAK 19 Normal Borderline Hight Tinggi Borderline TIDAK 20 Borderline Hight Borderline Hight Tinggi Borderline TIDAK 21 Tinggi di atas Optimal Tinggi Borderline TIDAK 22 Tinggi Borderline Hight Tinggi Borderline TIDAK 23 Normal di atas Optimal Rendah Borderline TIDAK 24 Tinggi Tinggi Tinggi Borderline TIDAK 25 Tinggi di atas Optimal Rendah Borderline TIDAK 4 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 1. ISSN: 2338-3887 26 Borderline Hight di atas Optimal Tinggi Borderline TIDAK 27 Borderline Hight Optimal Rendah Borderline TIDAK 28 Normal Optimal Tinggi Borderline TIDAK 29 Normal Optimal Rendah Tinggi TIDAK 30 Normal di atas Optimal Rendah Tinggi TIDAK 31 Borderline Hight Optimal Rendah Tinggi PJK Tahap Modeling a) Algoritma C4.5 Tahap modeling ini merupakan langkah algoritma untuk membentuk pohon keputusan dengan data pada tabel 5 di atas yakni sebagai berikut: Langkah 1: Menghitung jumlah class, jumlah class untuk PJK dan class untuk TIDAK. Menghitung nilai entropy dari semua class dan menghitung class yang dibagi berdasarkan atribut Trigliserida, LDL, HDL dan Kolesterol. Kemudian dilakukan perhitungan Gain untuk tiap atribut, karna nilai gain tertinggilah yang akan dijadikan sebagai akar. Hasil perhitungan yang pertama ditunjukkan oleh tabel 6 berikut: Tabel 6 Perhitungan Node 1 Jumlah Node PJK TIDAK Entropy Gain Kasus 1 Total 31 9 22 0.869138 Trigliserida 0.01443 Normal 13 4 9 0.890492 Borderline Hight 12 4 8 0.918296 Tinggi 6 1 5 0.650022 Sangat tinggi 0 0 0 0.000000 LDL 0.12718 Optimal 9 2 7 0.764205 di atas optimal 9 2 7 0.764205 Borderline Hight 8 2 6 0.811278 Tinggi 3 1 2 0.918296 Sangat tinggi 2 2 0 0.000000 HDL 0.00911 Rendah Tinggi 18 13 6 3 12 10 0.918296 0.779350 Kolesterol 0.41347 Desirable 8 3 5 Borderline 15 0 15 Tinggi 8 6 2 Kolom entropy pada baris Total dihitung dengan persamaan 2 sebagai berikut: ( )= − ( ) = 0.869138 0.954434 0.000000 0.811278 + − Karena untuk menghitung sebuah gain atribut membutuhkan entropy dari setiap kasus pada atribut tersebut maka entropy harus diketahui terlebih dahulu dengan persamaan 2. Langkah 2: Kemudian nilai Gain pada baris Trigliserida dihitung dengan menggunakan persamaan 1 sebagai berikut: ( , ) = 0.869138 − , ) = 0.01443 0.890492 + 0 ( 5 0.918296 + 0.650022 + Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 b) c) ISSN: 2338-3887 Algoritma C4.5 dan AdaBoost Langkah kerja AdaBoost dengan menggunakan 31 data yang terbagi dalam 4 atribut yakni Trigliserida, HDL, LDL dan Kolesterol. Pada tabel 5 di atas menunjukkan 9 data dengan class PJK dan 22 data dengan class TIDAK. Dilakukan pencarian bobot untuk masing-masing data menggunakan algoritma AdaBoost sehingga didapatkan tabel bobot seperti pada tabel 7 di bawah: Tabel 7 Pembobotan data oleh AdaBoost Bobot Setelah No Bobot Awal Iterasi I Iterasi II Iterasi III Iterasi VI 1 0.0556 0.0086 0.0116 0.0459 -0.1137 2 0.0556 0.0086 0.0116 0.0459 -0.1137 3 0.0556 0.0086 0.0116 0.0459 -0.1137 4 0.0556 0.0086 0.0116 0.0459 -0.1137 5 0.0556 0.0086 0.0116 0.0459 -0.1137 6 0.0556 0.0086 0.0116 0.0459 -0.1137 7 0.0556 0.0086 0.0116 0.0459 -0.1137 8 0.0556 0.0086 0.0116 0.0459 -0.1137 9 0.0556 0.0086 0.0116 0.0459 -0.1137 10 0.0208 0.0025 0.0042 0.0115 -0.0284 11 0.0208 0.0025 0.0042 0.0115 -0.0284 12 0.0208 0.0025 0.0042 0.0070 -0.0173 13 0.0208 0.0025 0.0042 0.0070 -0.0173 14 0.0208 0.0025 0.0042 0.0042 0.0042 15 0.0208 0.0025 0.0042 0.0070 -0.0173 16 0.0208 0.0025 0.0042 0.0070 -0.0070 17 0.0208 0.0025 0.0042 0.0070 -0.0173 18 0.0208 0.0025 0.0042 0.0070 -0.0173 19 0.0208 0.0025 0.0042 0.0070 -0.0173 20 0.0208 0.0025 0.0042 0.0115 -0.0284 21 0.0208 0.0025 0.0042 0.0115 -0.0284 22 0.0208 0.0025 0.0042 0.0115 -0.0284 23 0.0208 0.0025 0.0042 0.0042 -0.0173 24 0.0208 0.0025 0.0042 0.0042 -0.0105 25 0.0208 0.0025 0.0042 0.0070 -0.0105 26 0.0208 0.0025 0.0042 0.0070 -0.0173 27 0.0208 0.0025 0.0042 0.0115 -0.0070 28 0.0208 0.0025 0.0042 0.0042 -0.0173 29 0.0208 0.0025 0.0042 0.0042 -0.0105 30 0.0208 0.0025 0.0042 0.0070 -0.0105 31 0.0208 0.0025 0.0042 0.0189 -0.0105 Evaluasi Evaluasi menggunakan Cross Validation, ROC Curve dan Confusin Matrix akan dijelaskan selanjutnya. HASIL PENELITIAN DAN PEMBAHASAN 1. Pengukuran Penelitian Konfigurasi algoritma C4.5 dan Adaboost yang digunakan adalah: Tabel 8 Konfigurasi C4.5 dan Adaboost C4.5 C4.5 + Adaboost Criteria Information Gain Information Gain Minimal Size for Split 2 2 6 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 Minimal Leaf Size Minimal Gain Maximal Dept Confidence Number of Prepruning Iterations 2. 1 0.1 20 0.25 3 X ISSN: 2338-3887 1 0.1 20 0.25 3 10 Hasil Penelitian Hasil pengujian akan membentuk pohon keputusan sesuai dengan pengujian yang sudah dilakukan dan menunjukkan akurasi prediksi penyakit jantung koroner antara algoritma C4.5 dan AdaBoost yang dimodelkan dengan pohon keputusan. Algoritma C4.5 dan AdaBoost hasil dari pengujian yang menggunakan tool rapidminer adalah seperti pada gambar 1, 2, 3 dan 4: Gambar 1 Algoritma C4.5 yang terbentuk dari pengujian menggunakan tool RapidMiner Gambar 2 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 2.674. 7 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 ISSN: 2338-3887 Gambar 3 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 2.909 Gambar 4 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 0.855 3. Pengujian Model Nilai akurasi yang ditunjukkan oleh C4.5 Gambar 5 nilai akurasi yang ditunjukkan oleh C4.5 adalah 91.38% Perubahan akurasinya dapat dilihat setelah ditambahkan metode AdaBoost Gambar 6 nilai akurasi yang ditunjukkan setelah menggunakan metode boosting adalah 94.83% 4. Kurva ROC (Receiver Operating Characteristic) Gambar kurva di bawah menunjukkan grafik ROC, dimana nilai AUC yang ditunjukkan dari keduanya memiliki nilai akurasi yang cukup baik yakni di atas 0.500. Tabel 9 di bawah menunjukkan status data yang dibaca oleh grafik ROC 8 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 ISSN: 2338-3887 Tabel 9 Status Data yang dibaca oleh ROC Curve No C4.5 C4.5 dan Adaboost 1. PJK PJK 2. PJK PJK 3. PJK PJK 4. PJK PJK 5. PJK PJK 6. PJK PJK 7. PJK PJK 8. TIDAK PJK 9. TIDAK PJK 10. PJK PJK 11. TIDAK TIDAK 12. PJK TIDAK 13. TIDAK TIDAK 14. TIDAK TIDAK 15. TIDAK TIDAK 16. TIDAK TIDAK 17. TIDAK TIDAK 18. TIDAK TIDAK 19. TIDAK TIDAK 20. TIDAK TIDAK 21. TIDAK TIDAK 22. TIDAK TIDAK 23. TIDAK TIDAK 24. TIDAK TIDAK 25. TIDAK TIDAK 26. TIDAK TIDAK 27. TIDAK TIDAK 28. TIDAK TIDAK 29. TIDAK TIDAK 30. TIDAK TIDAK 31. TIDAK TIDAK Gambar 7 Kurva akurasi C4.5 dan AdaBoost Dari pengujian yang dilakukan di dapatkan hasil seperti pada tabel di bawah ini: Acuracy Precision Sensitivity Specificity Tabel 10 Hasil uji C4.5 dengan metode Boosting C4.5 AdaBoost 91.38% 94.83% 97.92% 94.34% 85.71% 62.58% 92.16% 100% 9 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 Recall AUC 92.16% 8.000 ISSN: 2338-3887 100% 1.000 PENUTUP 1. 2. Kesimpulan Berdasarkan hasil penelitian, analisis dan pengembangan model dalam memprediksi penyakit jantung koroner berdasarkan klasifikasi faktor risiko menggunakan algoritma C4.5 menunjukkan nilai 91.38%, kemudian ditamkahkan metode boosting yakni AdaBoost sehingga nilai akurasi menunjukkan kenaikan sebesar 94.84%. Maka dapat diambil kesimpulan bahwa penambahan metode AdaBoost dalam memprediksi penyakit jantung koroner terbukti memiliki nilai akurasi cukup tinggi yakni 94.84%. Jadi nyata bahwa penerapan AdaBoost pada Algoritma C4.5 dapat meningkatkan akurasi prediksi penyakit jantung koroner Saran Dari hasil pembahasan penelitian ini maka dapat diberikan saran-saran sebagai berikut: 1. Implementasi Algoritma C4.5 berbasis AdaBoost pada data yang memiliki atribut prediksi lebih banyak. 2. Melakukan uji komparasi baik pada algoritmanya maupun metode representasinya yang mungkin dapat diterapkan dalam sistem, sehingga dapat meningkatkan nilai akuarsi yang lebih tinggi di masa mendatang REFERENSI [1] T. B. Anwar, "Faktor Risiko Penyakit Jantung Koroner," repository.usu.ac.id, p. 15, 2004. [2] (2002) www.who.int. [Online]. http://www.who.int/cardiovascular_diseases/resources/atlas/en/ [3] Minas A. Karaolis, Joseph A. Moutiris, Demetra Hadjipanayi, Constantinos S. Pattichis, "Assessment of the risk factors of coronary heart events based on data mining with decision trees," IEEE Transactions on Information Technology in Biomedicine, v.14 n.3, p.559-566, vol. 14, no. 3, pp. 559-566, May 2010. [4] Jyoti, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International Journal of Computer Applications (0975 – 8887), vol. 17, pp. 1-3, Mar. 2011. [5] M. Kumari and S. Godara, "Comparative Study of Data Mining Classification Methods in Cardiovascular Disease Prediction," International Journal of Computer Sci ence and Technology, vol. 2, no. 2, pp. 304-308, Jun. 2011. [6] C. &. Hall, The Top Ten Algorithms in Data Mining. Boca Raton, London: CRC Press, 2009. [7] Han, J., & Kamber, M., Data Mining Concept and Tehniques., M. Kauffman., Ed. San Francisco, 2006. [8] D. T. Larose, Discovering Knowledge in Data An Introduction to Data Mining. Hoboken, New Jersey: A JOHN WILEY & SONS, INC., 2005. [9] D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons. Inc, 2005. [10] Quinlan, JR, C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993. [11] Kusrini, Emha Taufiq Lutfi, Algoritma data Mining. Yogyakarta: Andi Offset, 2009. [12] Tom Mitchell, Machine Learning. Boston: McGraw Hill, 1997. [13] S. Craw, Case Based Reasoning. Berlin, Heidelberg: Springer-Verlag, 2005. [14] Y. Freund and R. E. Schapire, "A Short Introduction to Boosting," Journal of Japanese Society for Artificial Intelligence, vol. 5, no. 14, pp. 771-780, Sep. 1999. [15] P. Chapman, CRISP-DM 1.0: step-by-step data mining guide. SPSS, 2000. [16] I. H. Witten, E. Frank, and M. A. Hall, Data Mining (Practical Machine Learning Tools and Techniques), 3rd ed. Burlington, United States of Amerika: Morgan Kaufman, 2011. [17] I. H. Witten and E. Frank, Data Mining: Practical machine learning tools and techniques, 2nd ed. San Francisco, United States of Amerika: Elsevier Inc., 2005. [18] R. Kohavi and F. Provost, Applications of data mining to electronic commerce. Kluwer Academic Publishers, 2001. [19] M. Clinic. (2010, Aug.) http://www.clinic-medicare.com. [Online]. http://www.clinicmedicare.com/story_detail.php?id=4 [20] Boon NA, Colledge NR, Walker BR and Hunter JAA, avidson's Principles & Practice of Medicine, 20th Edition. Churchill Livingstone, 2006. [21] Kasiman, Sutomo, "Gangguan Metabolisme Lemak dan Penyakit Jantung Koroner," in Pidato Pengukuhan Jabatan Guru Besar Tetap dalam Ilmu Penyakit Dalam pada Universitas Sumatra Utara, Medan, 1997, p. 6. [22] A. Tjokroprawiro, "Diabetes Melitus : capita Selecta 2001-B (Clinical Experiences and Recent Advances).," in , Yogyakarta., 2001. [23] Mohammed M. Mazid, A. B. M. Shawkat Ali, Kevin S. Tickle , "Improved C4.5 algorithm for rule based 10 Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013 FASTIKOM UNSIQ Wonosobo, 18 Juni 2013 ISSN: 2338-3887 classification," Proceedings of the 9th WSEAS international conference on Artificial intelligence, knowledge engineering and data bases, 2010. [24] Ford ES, Capewell S., "Coronary heart disease mortality among young adults in the US from 1980 through 2002: concealed levelling of mortality rates.," in , 2007. [25] T. Yang, "Computational Verb Decision Trees," International Journal of Computational Cognition, pp. 34-46, 2006. [26] J. Soni, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International Journal of Computer Applications (0975 – 8887), pp. 1-3, 2011. [27] Khusrini and L. E. T., Algoritma Data Mining. Yogyakarta, Indonesia: Andi Publishing, 2009. [28] A. M. Morrison, Receiver Operating Characteristic (ROC) Curve. Boston, United States of Amerika: Massachusetts Water Resources Authority, 2005. 11