algoritma c4.5 berbasis adaboost untuk prediksi penyakit jantung

advertisement
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
ALGORITMA C4.5 BERBASIS ADABOOST UNTUK
PREDIKSI PENYAKIT JANTUNG KORONER
Adi Suwondo 1)
Dian Asmarajati 2)
Heri Surahman 3)
Program Studi Teknik Informatika, Fakultas Teknik dan Ilmu Komputer
Universitas Sains Al-Quran Jawa Tengah di Wonosobo 1,2,3)
Jl. Raya Kalibeber Km.03 Mojotengah, Wonosobo
Telepon (0286) 3326102
E-mail: [email protected] 1)
E-mail: [email protected] 2)
E-mail: [email protected] 3)
ABSTRACT
The pattern of symptoms of coronary heart disease (CHD) are so numerous and varied, so
that predition of the disease is still less accrurate. Many methods used in this case, one of them
data mining. Data mining is a method of extracting or “mining” knowledge from large amounts
of data. Techniques use in data mining is based AdaBoost algorithm C4.5. Adaboost based C4.5
algorithm will be used to classify the pattern of symptoms of coronary haerat disease with the
addition of aboosting method to obtain higher accuracy value. C4.5 uses anormalization to get
te information (entropy difference) and the results of the election is used to separate the
attributes of the data. Attributes that have the highest normalized information is one that is used
to make decisions. While AdaBoost is a boosting algorithm that is used to bulid the strength of
the classification as a linier combination.
Therefore in this study will try to predict coronary heart disease (CHD) with 195 general
chek-up of data taken from the Avisena Wonosobo laboratory database. The framework used in
this study is Rapid Miner
Keywords : Coronary Heart Disease (CHD), Datamining, C4.5, AdaBoost, Rapid Miner
PENDAHULUAN
Faktor risiko penyakit kardiovaskular sekarang sudah signifikan dalam semua populasi [2]. Di Indonesia telah
terjadi pergeseran kejadian penyakit jantung dan pembuluh darah dari urutan ke-10 pada tahun 1980 menjadi urutan ke13 pada tahun 1986 [1]. Sedangkan sebagai penyebab kematian tetap menduduki peringkat ke-3.
Pada penelitian ini mengambil data pasien general chek up dari laboratorium Avisena dari tahun 2010 hingga
2011, teknik yang digunakan adalah decision tree dengan menambahkan metode boosting didalamnya yakni adaboost
[6]. Adaboost digunakan dengan alasan metode ini dapat mingkatkan ketelitian dalam proses klasifikasi dan prediksi
dengan cara membangkitkan kombinasi dari suatu model, dengan memilih model yang memiliki nilai bobot paling
besar.
Berdasarkan latar belakang yang telah diuraikan di atas, dapat dirumuskan bahwa Prediksi penyakit jantung
koroner dengan algoritma C4.5 belum menunjukkan nilai akurasi tinggi. Sedangkan pertanyaan penelitian (question
research) pada penelitian ini adalah Bagaimana penerapan Adaboost pada algoritma C4.5 dapat meningkatkan akurasi
pada prediksi penyakit jantung koroner?. Tujuan penelitian ini adalah untuk menerapkan AdaBoost pada Algoritma
C4.5 untuk meningkatkan akurasi prediksi penyakit jantung koroner” Manfaat dari penelitian ini adalah manfaat praktis
dari penelitian ini adalah staff medis dapat menggunakan model yang telah dikembangkan untuk memprediksi penyakit
jantung koroner pada pasien, serta manfaat teoritis hasil penelitian ini adalah penerapan Adaboost pada algoritma C4.5
dalam pemodelan yang berkaitan dengan klasifikasi faktor risiko penyakit jantung koroner, dan manfaat kebijakan
penelitian ini diharapkan dapat digunakan pada lembaga laboratorium Avisena Wonosobo. Kontribusi yang diharapkan
dapat diberikan dari penelitian ini adalah dengan penerapan Adaboost pada algoritma C4.5 akan meningkatkan prediksi
penyakit jantung koroner berdasarkan faktor risiko dengan lebih akurat.
LANDASAN TEORI
1.
Data Mining
Secara sederhana, data mining merupakan penggalian atau "pertambangan" pengetahuan dari sejumlah besar
data [7]. Data mining merupakan bagian dari proses Knowledge Discovery from Data (KDD).
1
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
1.
2.
3.
4.
5.
6.
7.
2.
ISSN: 2338-3887
Penemuan pengetahuan sebagai suatu proses memiliki urutan sebagai berikut [7]:
Data Cleaning (untuk menghilangkan noise dan data yang tidak konsisten)
Data Integration (di mana beberapa sumber data dapat dikombinasikan)
Data Selection (di mana data yang relevan dengan penelitian yang akan diambil)
Data transformation (dimana data diubah atau dikonsolidasikan ke dalam bentuk yang sesuai untuk
pertambangan dengan melakukan operasi ringkasan atau agregas)
Data mining (proses esensial dimana metode cerdas yang diterapkan dalam rangka untuk mengekstrak pola
data)
Pattern Evaluation (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan
Knowledge Presentation (di mana visualisasi dan teknik representasi pengetahuan digunakan untuk
menyajikan pengetahuan kepada pengguna)
Algoritma C4.5
Secara umum, decision tree adalah suatu gambaran pemodelan dari suatu persoalan yang terdiri dari
serangkaian keputusan yang mengarah ke solusi. Tiap simpul dalam menyatakan keputusan dan daun menyatakan
solusi. Adapun pemodelan pohon yang biasa dipakai dalam pohon keputusan adalah rooted tree (pohon berakar)
Pohon berakar adalah pohon yang satu buah simpulnya diperlakukan sebagai akar dan sisi-sisinya diberi arah
sehingga menjadi graf berarah.
Pada metode decision tree langkah awalnya ialah mencari node yang akan digunakan sebagai akar pohon [7].
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk
menghitung gain digunakan rumus seperti tertera dalam persamaan 1.
| |
( , )=
( )−
( ) … … … … … (1)
∗
Dengan :
S : Himpunan kasus
A : Atribut
n : Jumlah partisi atribut A
|Si| : Jumlah kasus pada partisi ke i
|S| : Jumlah kasus dalam S
Sedangkan perhitungan nilai entropy dapat dilihat pada persamaan 2 berikut [7]:
( )=
−
∗
… … … … … … … … … … … … … (2)
Dengan :
S : Himpunan Kasus
A : Fitur
n : Jumlah partisi S
pi : Proporsi dari Si terhadap S
3.
AdaBoost pada C4.5
AdaBoost adalah algoritma untuk membangun kekuatan klasifikasi sebagai kombinasi linear, Adaboost
merupakan singkatan dari Adaptive Boosting yang dikembangkan oleh Freund dan Schapire [12].
Bentuk umum persamaan Adaboost menggunakan rumus
(
4.
)=
(
) … … … … … … … … … … … … … … … … … (3)
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Dikembangkan pada tahun 1996 oleh analyst yang mewakili DaimlerChrysler, SPSS, dan NCR [15]. CRISP
menyediakan standar proses baku untuk data mining yang dapat diterapkan kedalam strategi pemecahan masalah
umum pada bisnis atau pada unit penelitian. Standar baku ini merupakan standar nonproprietary, bebas digunakan
siapapun tanpa harus membayar lisensi.
Menurut CRISP-DM, sebuah Project Data Mining memiliki Lifecycle yang terdiri dari enam fase, dari
keenam fase tersebut adalah:
1. Business / research understanding
2. Data Understanding (Pemahaman terhadap data)
3. Data preparation (persiapan data)
4. Modeling (pemodelan)
5. Evaluation (evaluasi)
2
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
6.
ISSN: 2338-3887
Deployment (penyebaran)
Dalam mengevaluasi data mining menggunakan Cross Validation untuk membuat validasi dari jumlah data
untuk data pelatihan dan pengujian yang terbatas [15]. ROC Curve dan Confusion Matrix, ROC Curve dikenal
sebagai teknik representasi dalam bentuk grafis dalam mengevaluasi data mining [16].
Confusion Matrix [15] berisi informasi tentang sistem klasifikasi aktualisasi dan prediksi. Kinerja sistem
biasanya dievaluasi menggunakan data dalam matriks. Tabel berikut menunjukkan confusion matrix untuk
pengklasifikasi dua kelas true positif dan true negatif.
5.
Jantung Koroner dan Faktor Risiko
Penyakit jantung koroner (PJK) mempunyai jangka kematian dan kesakitan yang tinggi. Walaupun penyebab
dasar terjadinya penyakit jantung koroner belum diketahui dengan pasti, para ahli telah mengidentifikasi sejumlah
faktor yang berhubungan dengan terjadinya penyakit jantung yang disebut sebagai faktor risiko. Faktor risiko
penyakit jantung koroner ada yang membaginya dalam faktor risiko primer (independen) dan sekunder, [9] yaitu:
faktor risiko primer; faktor ini dapat menyebabkan gangguan arteri berupa aterosklerosis tanpa harus dibantu oleh
faktor lain (independen), termasuk faktor risiko primer, yaitu hiperlidemi, merokok, dan hipertensi. Dan faktor
risiko sekunder; Faktor ini baru dapat menimbulkan kelainan arteri bila ditemukan faktor lain secara bersamaan,
termasuk faktor risiko sekunder, yaitu PJK melitus (DM), obesitas, stres, kurang olah raga, alkohol, dan riwayat
keluarga. Yang termasuk risiko utama adalah [1]:
a. Hipertensi
b. Hiperkolesterolemi
c. Kolesterol total
Kadar Kolesterol
Normal
Agak tinggi
Tinggi
(Pertengahan)
<200 mg/dl
200 – 239 mg/dl
>240 mg/dl
d. LDL kolesterol
Kadar LDL
Normal
Agak tinggi (Pertengahan)
Tinggi
<130 mg/dl
130 – 159 mg/dl
>160 mg/dl
5.
HDL Kolesterol
Normal
6.
> 45 mg/dl
Kadar trigliserida
Kadar HDL
Agak tinggi
(Pertengahan)
35 - 45 mg/dl
Tinggi
>35 mg/dl
Kadar Trigliserida
Agak tinggi
(Pertengahan)
150 - 250 mg/dl
Normal
> 150 mg/dl
Tinggi
>500 mg/dl
METODE PENELITIAN
Dalam penelitian ini digunakan data catatan rekam medis pada laboratorium Avisena baik yang diduga penderita
penyakit jantung koroner maupun orang sehat yang melakukan General Check-up. Dalam penelitian ini menggunakan
model Cross-Standard Industry for Data Mining (CRISP-DM) [10].
Klasifikasi Adult Treatment Panel-III, 2001 [11] mengenai kadar kolesterol total, kadar LDL, kadar trigliserida,
kadar HDL (dalam mg/dL) adalah sebagai berikut :
Tabel 1 Klasifikasi kadar kolesterol total
Nilai Atribut
Interval
Desirable
< 200
Borderline
200 – 239
Tinggi
≥ 240
3
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
Tabel 2 Klasifikasi kadar LDL (Low Density Lipoprotein)
Nilai Atribut
Interval
Optimal
< 100
Mendekati/ di atas optimal
100 – 129
Borderline tinggi
130 – 159
Tinggi
160 – 189
Sangat tinggi
≥ 190
Tabel 3 Klasifikasi kadar Trigliserida
Nilai Atribut
Interval
Normal
< 100
Sedang
100 – 149
Borderline Tinggi
150 – 199
Tinggi
200 – 499
Sangat tinggi
≥ 500
Tabel 4 Klasifikasi kadar HDL (High Density Lipoprotein)
Nilai Atribut
Interval
Rendah
< 40
Tinggi
≥ 60
Kemudian dilakukan tahap preparation data, Kemudian data yang dihasilkan setelah proses persiapan data adalah
data training yang sudah terklasifikasi seperti pada tabel Tabel 5 berikut:
Tabel 5 Data Training hasil dari Proses Preparation
No
Trigliserida
HDL
LDL
Kolesterol
Class
1
Normal
Optimal
Rendah
Desirable
PJK
2
Tinggi
Tinggi
Rendah
Tinggi
PJK
3
Borderline Hight
Sangat Tinggi
Tinggi
Tinggi
PJK
4
Normal
di atas Optimal
Rendah
Desirable
PJK
5
Normal
di atas Optimal
Tinggi
Desirable
PJK
6
Normal
Borderline Hight
Tinggi
Tinggi
PJK
7
Borderline Hight
Borderline Hight
Rendah
Borderline
TIDAK
8
Tinggi
Borderline Hight
Rendah
Borderline
TIDAK
9
Borderline Hight
Borderline Hight
Rendah
Tinggi
PJK
10
Normal
Optimal
Tinggi
Desirable
TIDAK
11
Normal
Borderline Hight
Rendah
Desirable
TIDAK
12
Borderline Hight
Tinggi
Rendah
Borderline
TIDAK
13
Borderline Hight
Sangat Tinggi
Rendah
Tinggi
PJK
14
Normal
di atas Optimal
Tinggi
Borderline
TIDAK
15
Borderline Hight
di atas Optimal
Rendah
Desirable
TIDAK
16
Borderline Hight
Optimal
Rendah
Desirable
TIDAK
17
Borderline Hight
Optimal
Tinggi
Desirable
TIDAK
18
Normal
Optimal
Rendah
Borderline
TIDAK
19
Normal
Borderline Hight
Tinggi
Borderline
TIDAK
20
Borderline Hight
Borderline Hight
Tinggi
Borderline
TIDAK
21
Tinggi
di atas Optimal
Tinggi
Borderline
TIDAK
22
Tinggi
Borderline Hight
Tinggi
Borderline
TIDAK
23
Normal
di atas Optimal
Rendah
Borderline
TIDAK
24
Tinggi
Tinggi
Tinggi
Borderline
TIDAK
25
Tinggi
di atas Optimal
Rendah
Borderline
TIDAK
4
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
1.
ISSN: 2338-3887
26
Borderline Hight
di atas Optimal
Tinggi
Borderline
TIDAK
27
Borderline Hight
Optimal
Rendah
Borderline
TIDAK
28
Normal
Optimal
Tinggi
Borderline
TIDAK
29
Normal
Optimal
Rendah
Tinggi
TIDAK
30
Normal
di atas Optimal
Rendah
Tinggi
TIDAK
31
Borderline Hight
Optimal
Rendah
Tinggi
PJK
Tahap Modeling
a) Algoritma C4.5
Tahap modeling ini merupakan langkah algoritma untuk membentuk pohon keputusan dengan data pada
tabel 5 di atas yakni sebagai berikut:
Langkah 1: Menghitung jumlah class, jumlah class untuk PJK dan class untuk TIDAK. Menghitung nilai
entropy dari semua class dan menghitung class yang dibagi berdasarkan atribut Trigliserida, LDL, HDL dan
Kolesterol. Kemudian dilakukan perhitungan Gain untuk tiap atribut, karna nilai gain tertinggilah yang akan
dijadikan sebagai akar. Hasil perhitungan yang pertama ditunjukkan oleh tabel 6 berikut:
Tabel 6 Perhitungan Node 1
Jumlah
Node
PJK
TIDAK Entropy
Gain
Kasus
1 Total
31
9
22 0.869138
Trigliserida
0.01443
Normal
13
4
9 0.890492
Borderline Hight
12
4
8 0.918296
Tinggi
6
1
5 0.650022
Sangat tinggi
0
0
0 0.000000
LDL
0.12718
Optimal
9
2
7 0.764205
di atas optimal
9
2
7 0.764205
Borderline Hight
8
2
6 0.811278
Tinggi
3
1
2 0.918296
Sangat tinggi
2
2
0 0.000000
HDL
0.00911
Rendah
Tinggi
18
13
6
3
12
10
0.918296
0.779350
Kolesterol
0.41347
Desirable
8
3
5
Borderline
15
0
15
Tinggi
8
6
2
Kolom entropy pada baris Total dihitung dengan persamaan 2 sebagai berikut:
(
)= −
(
) = 0.869138
0.954434
0.000000
0.811278
+ −
Karena untuk menghitung sebuah gain atribut membutuhkan entropy dari setiap kasus pada atribut tersebut
maka entropy harus diketahui terlebih dahulu dengan persamaan 2.
Langkah 2: Kemudian nilai Gain pada baris Trigliserida dihitung dengan menggunakan persamaan 1 sebagai
berikut:
(
,
) = 0.869138 −
,
) = 0.01443
0.890492 +
0
(
5
0.918296 +
0.650022 +
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
b)
c)
ISSN: 2338-3887
Algoritma C4.5 dan AdaBoost
Langkah kerja AdaBoost dengan menggunakan 31 data yang terbagi dalam 4 atribut yakni Trigliserida,
HDL, LDL dan Kolesterol. Pada tabel 5 di atas menunjukkan 9 data dengan class PJK dan 22 data dengan
class TIDAK. Dilakukan pencarian bobot untuk masing-masing data menggunakan algoritma AdaBoost
sehingga didapatkan tabel bobot seperti pada tabel 7 di bawah:
Tabel 7 Pembobotan data oleh AdaBoost
Bobot Setelah
No
Bobot Awal
Iterasi I
Iterasi II Iterasi III Iterasi VI
1
0.0556
0.0086
0.0116
0.0459
-0.1137
2
0.0556
0.0086
0.0116
0.0459
-0.1137
3
0.0556
0.0086
0.0116
0.0459
-0.1137
4
0.0556
0.0086
0.0116
0.0459
-0.1137
5
0.0556
0.0086
0.0116
0.0459
-0.1137
6
0.0556
0.0086
0.0116
0.0459
-0.1137
7
0.0556
0.0086
0.0116
0.0459
-0.1137
8
0.0556
0.0086
0.0116
0.0459
-0.1137
9
0.0556
0.0086
0.0116
0.0459
-0.1137
10
0.0208
0.0025
0.0042
0.0115
-0.0284
11
0.0208
0.0025
0.0042
0.0115
-0.0284
12
0.0208
0.0025
0.0042
0.0070
-0.0173
13
0.0208
0.0025
0.0042
0.0070
-0.0173
14
0.0208
0.0025
0.0042
0.0042
0.0042
15
0.0208
0.0025
0.0042
0.0070
-0.0173
16
0.0208
0.0025
0.0042
0.0070
-0.0070
17
0.0208
0.0025
0.0042
0.0070
-0.0173
18
0.0208
0.0025
0.0042
0.0070
-0.0173
19
0.0208
0.0025
0.0042
0.0070
-0.0173
20
0.0208
0.0025
0.0042
0.0115
-0.0284
21
0.0208
0.0025
0.0042
0.0115
-0.0284
22
0.0208
0.0025
0.0042
0.0115
-0.0284
23
0.0208
0.0025
0.0042
0.0042
-0.0173
24
0.0208
0.0025
0.0042
0.0042
-0.0105
25
0.0208
0.0025
0.0042
0.0070
-0.0105
26
0.0208
0.0025
0.0042
0.0070
-0.0173
27
0.0208
0.0025
0.0042
0.0115
-0.0070
28
0.0208
0.0025
0.0042
0.0042
-0.0173
29
0.0208
0.0025
0.0042
0.0042
-0.0105
30
0.0208
0.0025
0.0042
0.0070
-0.0105
31
0.0208
0.0025
0.0042
0.0189
-0.0105
Evaluasi
Evaluasi menggunakan Cross Validation, ROC Curve dan Confusin Matrix akan dijelaskan selanjutnya.
HASIL PENELITIAN DAN PEMBAHASAN
1.
Pengukuran Penelitian
Konfigurasi algoritma C4.5 dan Adaboost yang digunakan adalah:
Tabel 8 Konfigurasi C4.5 dan Adaboost
C4.5
C4.5 + Adaboost
Criteria
Information Gain
Information Gain
Minimal Size for Split
2
2
6
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
Minimal Leaf Size
Minimal Gain
Maximal Dept
Confidence
Number of Prepruning
Iterations
2.
1
0.1
20
0.25
3
X
ISSN: 2338-3887
1
0.1
20
0.25
3
10
Hasil Penelitian
Hasil pengujian akan membentuk pohon keputusan sesuai dengan pengujian yang sudah dilakukan dan
menunjukkan akurasi prediksi penyakit jantung koroner antara algoritma C4.5 dan AdaBoost yang dimodelkan
dengan pohon keputusan.
Algoritma C4.5 dan AdaBoost hasil dari pengujian yang menggunakan tool rapidminer adalah seperti pada gambar
1, 2, 3 dan 4:
Gambar 1 Algoritma C4.5 yang terbentuk dari pengujian menggunakan tool RapidMiner
Gambar 2 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 2.674.
7
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
Gambar 3 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 2.909
Gambar 4 Algoritma C4.5 + AdaBoost yang terbentuk dari pembobotan 0.855
3.
Pengujian Model
Nilai akurasi yang ditunjukkan oleh C4.5
Gambar 5 nilai akurasi yang ditunjukkan oleh C4.5 adalah 91.38%
Perubahan akurasinya dapat dilihat setelah ditambahkan metode AdaBoost
Gambar 6 nilai akurasi yang ditunjukkan setelah menggunakan metode boosting adalah 94.83%
4.
Kurva ROC (Receiver Operating Characteristic)
Gambar kurva di bawah menunjukkan grafik ROC, dimana nilai AUC yang ditunjukkan dari keduanya memiliki
nilai akurasi yang cukup baik yakni di atas 0.500. Tabel 9 di bawah menunjukkan status data yang dibaca oleh
grafik ROC
8
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
Tabel 9 Status Data yang dibaca oleh ROC Curve
No
C4.5
C4.5 dan Adaboost
1.
PJK
PJK
2.
PJK
PJK
3.
PJK
PJK
4.
PJK
PJK
5.
PJK
PJK
6.
PJK
PJK
7.
PJK
PJK
8.
TIDAK
PJK
9.
TIDAK
PJK
10.
PJK
PJK
11.
TIDAK
TIDAK
12.
PJK
TIDAK
13.
TIDAK
TIDAK
14.
TIDAK
TIDAK
15.
TIDAK
TIDAK
16.
TIDAK
TIDAK
17.
TIDAK
TIDAK
18.
TIDAK
TIDAK
19.
TIDAK
TIDAK
20.
TIDAK
TIDAK
21.
TIDAK
TIDAK
22.
TIDAK
TIDAK
23.
TIDAK
TIDAK
24.
TIDAK
TIDAK
25.
TIDAK
TIDAK
26.
TIDAK
TIDAK
27.
TIDAK
TIDAK
28.
TIDAK
TIDAK
29.
TIDAK
TIDAK
30.
TIDAK
TIDAK
31.
TIDAK
TIDAK
Gambar 7 Kurva akurasi C4.5 dan AdaBoost
Dari pengujian yang dilakukan di dapatkan hasil seperti pada tabel di bawah ini:
Acuracy
Precision
Sensitivity
Specificity
Tabel 10 Hasil uji C4.5 dengan metode Boosting
C4.5
AdaBoost
91.38%
94.83%
97.92%
94.34%
85.71%
62.58%
92.16%
100%
9
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
Recall
AUC
92.16%
8.000
ISSN: 2338-3887
100%
1.000
PENUTUP
1.
2.
Kesimpulan
Berdasarkan hasil penelitian, analisis dan pengembangan model dalam memprediksi penyakit jantung
koroner berdasarkan klasifikasi faktor risiko menggunakan algoritma C4.5 menunjukkan nilai 91.38%, kemudian
ditamkahkan metode boosting yakni AdaBoost sehingga nilai akurasi menunjukkan kenaikan sebesar 94.84%.
Maka dapat diambil kesimpulan bahwa penambahan metode AdaBoost dalam memprediksi penyakit
jantung koroner terbukti memiliki nilai akurasi cukup tinggi yakni 94.84%. Jadi nyata bahwa penerapan AdaBoost
pada Algoritma C4.5 dapat meningkatkan akurasi prediksi penyakit jantung koroner
Saran
Dari hasil pembahasan penelitian ini maka dapat diberikan saran-saran sebagai berikut:
1. Implementasi Algoritma C4.5 berbasis AdaBoost pada data yang memiliki atribut prediksi lebih banyak.
2. Melakukan uji komparasi baik pada algoritmanya maupun metode representasinya yang mungkin dapat
diterapkan dalam sistem, sehingga dapat meningkatkan nilai akuarsi yang lebih tinggi di masa mendatang
REFERENSI
[1] T. B. Anwar, "Faktor Risiko Penyakit Jantung Koroner," repository.usu.ac.id, p. 15, 2004.
[2] (2002) www.who.int. [Online]. http://www.who.int/cardiovascular_diseases/resources/atlas/en/
[3] Minas A. Karaolis, Joseph A. Moutiris, Demetra Hadjipanayi, Constantinos S. Pattichis, "Assessment of the risk
factors of coronary heart events based on data mining with decision trees," IEEE Transactions on Information
Technology in Biomedicine, v.14 n.3, p.559-566, vol. 14, no. 3, pp. 559-566, May 2010.
[4] Jyoti, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International
Journal of Computer Applications (0975 – 8887), vol. 17, pp. 1-3, Mar. 2011.
[5] M. Kumari and S. Godara, "Comparative Study of Data Mining Classification Methods in Cardiovascular Disease
Prediction," International Journal of Computer Sci ence and Technology, vol. 2, no. 2, pp. 304-308, Jun. 2011.
[6] C. &. Hall, The Top Ten Algorithms in Data Mining. Boca Raton, London: CRC Press, 2009.
[7] Han, J., & Kamber, M., Data Mining Concept and Tehniques., M. Kauffman., Ed. San Francisco, 2006.
[8] D. T. Larose, Discovering Knowledge in Data An Introduction to Data Mining. Hoboken, New Jersey: A JOHN
WILEY & SONS, INC., 2005.
[9] D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining. John Willey & Sons. Inc, 2005.
[10] Quinlan, JR, C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
[11] Kusrini, Emha Taufiq Lutfi, Algoritma data Mining. Yogyakarta: Andi Offset, 2009.
[12] Tom Mitchell, Machine Learning. Boston: McGraw Hill, 1997.
[13] S. Craw, Case Based Reasoning. Berlin, Heidelberg: Springer-Verlag, 2005.
[14] Y. Freund and R. E. Schapire, "A Short Introduction to Boosting," Journal of Japanese Society for Artificial
Intelligence, vol. 5, no. 14, pp. 771-780, Sep. 1999.
[15] P. Chapman, CRISP-DM 1.0: step-by-step data mining guide. SPSS, 2000.
[16] I. H. Witten, E. Frank, and M. A. Hall, Data Mining (Practical Machine Learning Tools and Techniques), 3rd ed.
Burlington, United States of Amerika: Morgan Kaufman, 2011.
[17] I. H. Witten and E. Frank, Data Mining: Practical machine learning tools and techniques, 2nd ed. San Francisco,
United States of Amerika: Elsevier Inc., 2005.
[18] R. Kohavi and F. Provost, Applications of data mining to electronic commerce. Kluwer Academic Publishers,
2001.
[19] M.
Clinic.
(2010,
Aug.)
http://www.clinic-medicare.com.
[Online].
http://www.clinicmedicare.com/story_detail.php?id=4
[20] Boon NA, Colledge NR, Walker BR and Hunter JAA, avidson's Principles & Practice of Medicine, 20th Edition.
Churchill Livingstone, 2006.
[21] Kasiman, Sutomo, "Gangguan Metabolisme Lemak dan Penyakit Jantung Koroner," in Pidato Pengukuhan
Jabatan Guru Besar Tetap dalam Ilmu Penyakit Dalam pada Universitas Sumatra Utara, Medan, 1997, p. 6.
[22] A. Tjokroprawiro, "Diabetes Melitus : capita Selecta 2001-B (Clinical Experiences and Recent Advances).," in ,
Yogyakarta., 2001.
[23] Mohammed M. Mazid, A. B. M. Shawkat Ali, Kevin S. Tickle , "Improved C4.5 algorithm for rule based
10
Prosiding Seminar Nasional Teknologi dan Teknopreneur (SNTT) 2013
FASTIKOM UNSIQ Wonosobo, 18 Juni 2013
ISSN: 2338-3887
classification," Proceedings of the 9th WSEAS international conference on Artificial intelligence, knowledge
engineering and data bases, 2010.
[24] Ford ES, Capewell S., "Coronary heart disease mortality among young adults in the US from 1980 through 2002:
concealed levelling of mortality rates.," in , 2007.
[25] T. Yang, "Computational Verb Decision Trees," International Journal of Computational Cognition, pp. 34-46,
2006.
[26] J. Soni, "Predictive Data Mining for Medical Diagnosis: An Overview of Heart Disease Prediction," International
Journal of Computer Applications (0975 – 8887), pp. 1-3, 2011.
[27] Khusrini and L. E. T., Algoritma Data Mining. Yogyakarta, Indonesia: Andi Publishing, 2009.
[28] A. M. Morrison, Receiver Operating Characteristic (ROC) Curve. Boston, United States of Amerika:
Massachusetts Water Resources Authority, 2005.
11
Download