klasifikasi faktor penentu wanita berpotensi diabetes menggunakan

advertisement
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
KLASIFIKASI FAKTOR PENENTU WANITA
BERPOTENSI DIABETES MENGGUNAKAN
DECISION TREE CHAID
Muhammad Maulana Ramadhan1, Irwan Budiman2, Heru Kartika Chandra3
1,2,3Prodi Ilmu Komputer FMIPA ULM
Jl. A. Yani Km 36 Banjarbaru, Kalimantan selatan
Email:[email protected]
Abstract
A diabetic women should have condition that influenced by some factors. Based on
the results of data training PIMA Indian Diabetes dataset by UCI process using CHAID
found the most influential diabetic wowen determinant factor with the highest
significaty value is glucose level and decision tree pattern that classify potentially
diabetic women into 6 class. First class, women with ≥ 140 glucose level and > 27 body
mass index with 70,05% diabetic positive; second class, women with <140 glucose level,
> 27 body mass index dan have > 2 pregnancy with 36,5% diabetic positive; third class
is women with ≥ 140 glucose level and 18,5 - 27 body mass index with 45,8% diabetic
positive; fourth class, women with with < 140 glucose level and body mass index ≤ 17 27 with 4,2% diabetic; fifth class, women with <140 glucose level, > 27 body mass index,
have 0 - 2 pregnancy and 80,1 - 100 diastolic blood pressure with 40% diabetic positive;
sixth class is women with < 140 glucose level, > 27 body mass index, have 0 - 2 pregnant
and 40 - 80 diastolic blood pressure with 17,5% diabetic positive. Classification rule that
was obtained from CHAID algorithm decision tree then compared with data testing from
Kelayan Dalam Banjarmasin Medical Center. The result is classification rule of CHAID
decision tree got 85,92% compability percentage then the conclution is classification
rule is have great enough accuracy when applied to the diabetics women case in
Indonesia.
Keywords : Decsion tree, Chi-squared Automatic Interaction Detection, Diabetes
melitus, Dataset PIMA Indians Diabetes
Abstrak
Seorang wanita yang menderita diabetes tentu memiliki kondisi yang
diperngaruhi faktor tertentu. Berdasarkan hasil pengolahan data training yaitu dataset
PIMA Indians Diabetes yang diperoleh dari UCI dengan algoritma CHAID ditemukan
bahwa faktor yang paling berpengaruh terhadap wanita berpotensi diabetes dengan
nilai signifikansi terbesar adalah kadar glukosa dan didapatkan pola decision tree yang
mengklasifikasikan wanita berpotensi diabetes menjadi 6 macam. Pertama, wanita
dengan kadar glukosa ≥ 140 dan massa indeks tubuh > 27 dengan persentase 70.05%
positif diabetes; kedua wanita dengan kadar glukosa < 140, massa indeks tubuh > 27
dan jumlah kehamilan > 2 dengan persentase 36.5% positif diabetes; ketiga wanita
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 40
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
dengan kadar glukosa ≥ 140 dan massa indeks tubuh 18.5 – 27 dengan persentase
45.8% positif diabetes; keempat Wanita dengan kadar glukosa < 140 dan memiliki
massa indeks tubuh 17 – 27 dengan persentase 4.2% positif diabetes; kelima wanita
dengan kadar glukosa <140, massa indeks tubuh > 27, jumlah kehamilan 0 – 2 dan
tekanan darah diastolic 80.1 – 100 dengan persentase 40% positif diabetes; keenam
wanita dengan kadar glukosa <140, massa indeks tubuh > 27, jumlah kehamilan 0 – 2
dan tekanan darah diastolic 40 – 80 dengan persentase 17.5% positif diabetes. Aturan
klasifikasi yang dihasilkan tersebut kemudian dibandingkan dengan data testing
wanita penderita diabtetes yang diperoleh dari Puskesmas Kelayan Dalam
Banjarmasin. Dari hasil perbandingan aturan klasifikasi pohon keputusan CHAID dan
data testing diperoleh kecocokan dengan persentase sebesar 85,92%; dan dapat
disimpulkan aturan klasifikasi yang telah didapatkan memiliki akurasi cukup besar
saat diterapkan pada kasus diabetes pada wanita Indonesia.
Kata kunci : Decsion tree, Chi-squared Automatic Interaction Detection, Diabetes
melitus, Dataset PIMA Indians Diabetes
1. PENDAHULUAN
Berdasarkan analisis antara jenis kelamin dengan kejadian Diabetes
melitus, Kementrian Kesehatan Indonesia dalam InfoDATIN 2014[1]
menuliskan bahwa proporsi wanita dengan toleransi gula terganggu (TGT)
dan diabetes melitus lebih tinggi daripada laki laki. Berdasarkan penelitian
milik Igusti Made Geria Jelantik dan Hj. Erna Haryati menyimpulkan bahwa
pada wilayah kerja puskesmas mataram tahun 2013 kasus diabetes melitus
lebih banyak dialami oleh perempuan dimana terdapat 32 kejadian diabtes
melitus dari 60 responden [2]. Pada penelitian Irawan (2010) menyebutkan,
wanita lebih berisiko mengidap diabetes karena secara fisik wanita memiliki
peluang peningkatan indeks masa tubuh yang lebih besar [3].
Seorang wanita tentunya memiliki kondisi tertentu saat positif
menderita diabetes. Dari beberapa artikel dan penelitian klinis tentang
daibetes diakatan gula darah tinggi dan obesitas (MIT berlebihan) merupakan
faktor yang paling berpengruh saat seseorang menderita daibetes. Namun
tidak menutup kemungkinan ada faktor lain yang berpengaruh saar seseorang
wanita positif diabetes, seperti jumlah kehamilan, tekanan darah diastolic,
umur dan riwayat diabetes. Di sisi lain, penyakit diabetes merupakan penyakit
preventif yang dapat dicegah, sehingga dengan mengetahui faktor apa saja
yang berpengaruh akan lebih mudah dilakukan pencegahan.
Dalam penelitian ini data mining menggunakan algoritma CHAID
diharapkan mampu menemukan hubungan dan pola diantara faktor faktor
yang mungkin berpengaruh terhadap diabetes. Hasil yang diperoleh dari
poses data mining ini dapat dijadikan refensi untuk melakukan tindakan medis
dalam penanganan kasus diabetes kedepannya bahkan dapat menjadi
referensi untuk menghindari penyakit diabtese tersebut.
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 41
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Data training yang digunakan adalah dataset PIMA Indian diabetes
yang diperoleh dari UCI untuk menemukan faktor yang paling mempengaruhi
diabetes dan pola klasifikasi pohon keputusan faktor yang mempengaruhi
tersebut. Data testing yang digunakan adalah data wanita penderita diabetes
yang diperoleh dari Puskesmas Kelayan Dalam Banjarmasin tahun 2015 2016, dimana dengan data ini akan dilihat bagaimana kesesuaian pola pohon
keputusan yang diperoleh terhadap kasus diabetes aktual yang terjadi.
2. METODE PENELITIAN
Pada penelitian ini metode yang digunakan adalah Knowledge Discovery
Database (KDD). Berdasarkan buku Jiawei Han, Micheline Kamber dan Jian Pei
Terdapat beberapa tahap dalam metode ini yaitu Data cleaning, Data
integration, Data selection, Data transformation, Data mining, pattern
evaluation dan knowledge presentation [4]. Data yang digunakan sebagai data
training yaitu dataset PIMA Indian diabetes yang diperoleh dari UCI sebanyak
769 data dan data yang digunakan sebaagai data testing adalah data wanita
penderita diabetes Puskesmas Kelayan Dalam Banjarmasin tahun 2015 - 2016
sebanyak 71 data. Data training akan diuji dengan algoritma CHAID untuk
menemukan faktor yang paling berpengaruh terhadap wanita berpotensi
diabetes dan pola klasifikasi faktor yang berpengaruh terhadap wanita
berpotensi diabetes, kemudian data testing akan diuji dengan pola klasifikasi
yang sudah diperoleh agar diketahui kesesuaiannya terhadap kasus diabetes
aktual yang terjadi.
2.1
Penentuan dataset
Dataset dalam penelitian kali ini adalah dataset PIMA Indians diabetes.
Data ini diperoleh dari UCI yang aslinya dimiliki oleh National Institute of
Diabetes and Digestive and Kidney Diseases sebagai dataset yang diberikan
secara bebas kepada siapa saja yang ingin melakukan penelitian, adapun
variabel yang terdapat pada data training terlihat sepeti pada tabel 1.
Tabel 1. Variabel dataset PIMA Indians diabetes
Nama
Tipe data
keterangan
Jumlah kehamilan
Kontinu
Independen
Kadar glukosa (mg/dl)
Kontinu
Independen
Tekanan darah diastolic (mm Hg)
Kontinu
Independen
Keletabalan kulit pada trisep (mm)
kontinu
Independen
serum insulin (mu U/ml)
kontinu
Independen
Massa indeks tubuh (kg/ m^2)
Kontinu
Independen
Fungsi riwayat diabetes
Kontinu
Independen
Umur (tahun)
kontinu
Independen
Positif diabetes (0 atau 1)
Nominal
dependen
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 42
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
2.2
Data cleaning
Dalam tahapan ini dilkukan filter terhadap data training untuk
menemukan nilai 0 atau null. Pada tahap ini ditemukan hasil filter dan
perlakuan terhadap data seperti tedapat pada tabel 2.
Tabel 2. Hasil filter nilai 0 pada data training
Variabel
Jumlah kehamilan
Kadar glukosa (mg/dl)
Tekanan darah diastolic (mm Hg)
Keletabalan kulit pada trisep (mm)
serum insulin (mu U/ml)
Massa indeks tubuh (kg/ m^2)
Fungsi riwayat diabetes
Umur (tahun)
Positif diabetes (0 atau 1)
hasil
111 nilai 0
5 nilai 0
35 nilai 0
227 nilai 0
374 nilai 0
11 nilai 0
Tidak ada
Tidak ada
-
perlakukan
Tidak dilakukan apa apa
Hapus data dengan nilai 0
Hapus data dengan nilai 0
Variabel tidak dipakai
Variabel tidak dipakai
Hapus data dengan nilai 0
Tidak dilakukan apa apa
Tidak dilakukan apa apa
-
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Dari tabel 2 tersebut diperoleh hasil data cleaning yaitu variabel yang
dipakai pada penelitian ini adalag jumlah kehamilan, kadar glukosa, tekanan
darah diastolic, massa indeks tubuh, fungsi riwayat diabetes dan umur sebagai
variabel independen dan positif diabetes sebagai variabel dependen.
Ketebalan kulit pada trisep dan serum insulin tidak digunakan karena data
dengan nilai 0 atau null terlalu banyak dimana hal ini akan menurunkan
kualitas hasil data mining. Jumlah data yang tersisa dari tahap ini yaitu 724
data.
2.3
Data integration
Data integration tidak di terapkan, berkaitan dengan bentuk dataset
yang digunakan yaitu dataset tunggal.
2.4
Data selection
Data yang dipilih untuk dimasukkan ke tahap selanjutnya yaitu seluruh
data yang diperoleh dari hasil tahap data cleaning.
2.5
Data transformation
Data yang digunakan diubah kebentuk yang paling sesuai untuk
algoritma CHAID, yaitu data independen yang berbentuk kontinu dibubah
menjadi data berbentuk kategori. Berikut hasil transformasi dari setiap
variabel.
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 43
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tabel 3. Hasil transformasi data untuk variabel kehamilan berdasarkan ilmu
kebidanan
Kategori
Range
banyaknya data
Positif Tidak Total
Nulligravida
0
32
67
99
Primigravida
1
28
103
131
Secungravida 2
18
78
96
Multigravida
>2
171
227
398
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Tabel 4. Hasil transformasi data untuk variabel kadar glukosa berdasarkan
diabetesmealplans.com
Kategori
Range
banyaknya data
Positif Tidak Total
Normal
Tinggi
< 140
≥ 140
121
128
413
62
534
190
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Tabel 5. Hasil transformasi data untuk variabel tekanan darah diastolic
berdasarkan ketetapan WHO
Kategori
Range
banyaknya data
Positif Tidak Total
Rendah
Normal
Agak Tinggi
Tinggi
40 – 60
60.1 – 80
80.1 – 90
90.1 – 100
23
150
59
17
99
289
67
20
122
439
126
37
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Tabel 6. Hasil transformasi data untuk variabel massa indeks tubuh
berdasarkan ketetapan WHO
Kategori
Range
banyaknya data
Positif Tidak Total
Kekurangan
Normal
Berlebihan
Sangat berlebihan
≤ 17.0 – 18.4
18.5 – 25.0
25.1 – 27
> 27
0
7
10
232
4
94
51
326
4
101
61
558
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 44
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tabel 7. Hasil transformasi data untuk variabel umur berdasarkan ketetapan
Dinas Kesehatan Indonesia
Kategori Range
banyaknya data
Positif Tidak Total
Produktif
Tua
15 – 64
> 64
245
4
465
10
710
14
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Tabel 8. Hasil transformasi data untuk variabel riwayat diabetes berdasarkan
penelitian Jack W. Smith, BS dan kawan – kawan
Kategori
Range
banyaknya data
Positif Tidak Total
Sangat rendah
Rendah
Sedang
Tinggi
Sangat tinggi
0 – 0.244
0.245 – 0.525
0.526 – 0.805
0.806 – 1.11
> 1.11
40
90
60
31
28
91
186
94
70
34
131
276
154
101
62
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Setelah dilakukan transformasi pada setiap variabel kemudian data
dengan bentuk baru ini dimasukkan ke tahap data mining.
2.6
Data mining
Algoritma CHAID memiliki tiga tahapan utama dalam setiap iterasinya
yaitu penggabungan, pemisahan dan penghentian. Pada setiap iterasi
dilakukan uji nilai chi-square menggunakan tabel kontingensi pada setiap
variabel untuk mendapatkan nilai chi-square paling signifikan, sehingga dapat
diketahui pengaruh setiap variabel independen terhadap variabel
dependennya.
Tahap penggabungan iterasi pertama menghasilkan nilai chi-square
untuk tiap variabel seperti terlihat pada tabel 9.
Tabel 9. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
pertama
Variabel
Jumlah Kehamilan
Kadar Glukosa
Tekanan darah diastolic
Massa indeks tubuh
Umur
Riwayat diabetes
Nilai chi-square
28.787846087833
124.14668860267
23.877675738915
57.295071349913
0.21436962506385
2.4752961580203
p value terkoreksi bonferroni
0.0003
0.0001
0.0003
0.0003
0.5244
0.3382
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 45
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Kadar glukosa merupakan variabel dengan nilai chi-square paling
signifikan sehingga dipilih untuk masuk ke tahap pemisahan. Kadar glukosa
dipilih untuk membagi wanita berpotensi diabetes (node 0) menjadi dua yaitu
kadar glukosa <140 (node 1) dan kadar glukosa ≥ 140 (node 2).
Tahap penggabungan iterasi kedua menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 10.
Tabel 10. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
kedua
Variabel
Nilai chi-square
Jumlah Kehamilan
Tekanan darah diastolic
Massa indeks tubuh
Umur
Riwayat diabetes
14.272860856253
7.878734812503
37.507791738438
1.7778450363196
3.987867431267
Nilai p value
terkoreksi bonferroni
0.0006
0.0149
0.0003
0.1824
0.171
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi kedua massa indeks tubuh merupakan variabel terpilih
dengan nilai chi-square paling signifikan. Variabel massa indeks tubuh
dimasukkan ke tahap pemisahan membagi kategori kadar glukosa < 140 (node
1) dengan dua kategori yang didapatkan dari tahap penggabungan yaitu massa
indeks tubuh ≤ 17 – 27 (node 3) dan massa indeks tubuh > 27 (node 4).
Tahap penggabungan iterasi ketiga menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 11.
Tabel 11. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
ketiga
Variabel
Jumlah Kehamilan
Tekanan darah diastolic
Massa indeks tubuh
Umur
Riwayat diabetes
Nilai chi-square
Nilai p value
terkoreksi bonferroni
2.1657878411911
0.1411
0.62011906198243
0.4310
5.7950286529181
0.032
1.1460364232542
0.2844
0.010640681003584
0.9178
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi ketiga didapatkan massa indeks tubuh juga merupakan
variabel dengan nilai chi-square paling signifikan. Massa indeks tubuh dipilij
untuk memasuki tahap pemisahan, membagi kategori kadar glukosa ≥ 140
(node 2) menjadi dua kategori yang diperoleh pada saat tahap penggabungan
yaitu massa indeks tubuh 18.5 – 27 (node 5) dan massa indeks tubuh > 27
(node 6).
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 46
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tahap penggabungan iterasi keempat menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 12.
Tabel 12. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
keempat
Variabel
Nilai chi-square
Jumlah Kehamilan
Tekanan darah diastolic
Riwayat diabetes
10.285934128804
5.4460868799553
7.5714560895403
Nilai p value
terkoreksi bonferroni
0.0004
0.058
0.023
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi ke empat didapatkan variabel jumlah kehamilan memiliki
nilai chi-square paling signifikan. Variabel ini dipilih untuk masuk ke tahap
pemisahan, membagi kategori massa indeks tubuh > 27 (node 4) menjadi dua
kategori yang diperoleh selama tahap penggabungan yaitu kategori kehamilan
0 – 2 (node 7) dan kehamilan > 2 (node 8).
Tahap penggabungan iterasi kelima menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 13.
Tabel 13. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
kelima
Variabel
Jumlah Kehamilan
Tekanan darah diastolic
Riwayat diabetes
Nilai chi-square
Nilai p value
terkoreksi bonferroni
3.56036120742
0.0592
0.060682036639819
0.8054
1.9473972430041
0.1629
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi kelima tidak ada variabel dengan nilai chi-square
signifikan. Maka tidak ada yang dapat membagi kategori massa indeks tubuh
≤ 17 – 27 (node 3), sehingga node 3 masuk ketahap penghentian dan disebut
node terminal.
Tahap penggabungan iterasi keenam menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 14.
Tabel 14. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
keenam
Variabel
Jumlah Kehamilan
Tekanan darah diastolic
Riwayat diabetes
Nilai chi-square
Nilai p value
terkoreksi bonferroni
3.9616853734501
0.0465
0.086566065513434
0.7686
0.16783216783217
0.6820
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 47
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi keenam tidak ada variabel dengan nilai chi-square
signifikan. Maka tidak ada yang dapat membagi kategori massa indeks tubuh
18.5 – 27 (node 5), sehingga node 5 masuk ketahap penghentian dan disebut
node terminal.
Tahap penggabungan iterasi ketujuh menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 15.
Tabel 15. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
ketujuh
Variabel
Jumlah Kehamilan
Tekanan darah diastolic
Umur
Riwayat diabetes
Nilai chi-square
Nilai p value
terkoreksi bonferroni
0.040005915912323
0.8415
0.28126841356749
0.5959
0.22448351214988
0.6356
1.0349209452461
0.3090
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi ketujuh tidak ada variabel dengan nilai chi-square
signifikan. Maka tidak ada yang dapat membagi kategori massa indeks tubuh
> 27 (node 6), sehingga node 6 masuk ketahap penghentian dan disebut node
terminal.
Tahap penggabungan iterasi kedelapan menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 16.
Tabel 16. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
kedelapan
Variabel
Nilai chi-square
Tekanan darah diastolic
Riwayat diabetes
8.4745325702643
4.9804750076415
Nilai p value
terkoreksi bonferroni
0.018
0.0985
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi kedelapan ditemukan variabel tekanan darah diastolic
memiliki nilai chi-square paling signifikan. Variabel tekanan darah diastolic
dipilih untuk dimasukkan ke tahap pemisahan, untuk membagi kategori
kehamilan 0 -2 (node 7) dengan dua kategori yang diperoleh saat tahap
penggabungan yaitu kategori tekanan darah diastolic 40 – 80 (node 9) dan
kategori tekanan darah diastolic 80.1 – 100 (node 10).
Tahap penggabungan iterasi kesembilan menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 17.
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 48
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tabel 17. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
kesembilan
Variabel
Nilai chi-square
Tekanan darah diastolic
Riwayat diabetes
0.7589834956996
2.3684944057463
Nilai p value
terkoreksi bonferroni
0.3836
0.1238
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi kesembilan tidak ada variabel dengan nilai chi-square
signifikan. Maka tidak ada yang dapat membagi kategori kehamilan > 2 (node
8), sehingga node 8 masuk ketahap penghentian dan disebut node terminal.
Tahap penggabungan iterasi kesepuluh menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 18.
Tabel 18. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
kesepuluh
Variabel
Riwayat diabetes
Nilai chi-square
4.7880688604857
Nilai p value
terkoreksi bonferroni
0.11
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi kesepuluh variabel riwayat diabetes memiliki nilai chisquare signifikan namun nilai p value terkoreksi bonferroni nya > 0,5. Maka
tidak ada yang dapat membagi kategori tekanan darah diastolic 40 – 80 (node
9), sehingga node 9 masuk ketahap penghentian dan disebut node terminal.
Tahap penggabungan iterasi kesebelas menghasilkan nilai chi-square
untuk tiap variabel seperti pada tabel 19.
Tabel 19. Hasil uji chi-square setiap variabel tahap penggabungan iterasi
kesebelas
Variabel
Riwayat diabetes
Nilai chi-square
2.5573671497585
Nilai p value
terkoreksi bonferroni
0.1098
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Pada iterasi kesebelas tidak ada variabel dengan nilai chi-square
signifikan. Maka tidak ada yang dapat membagi kategori tekanan darah
diastolic 80.1 – 100 (node 10), sehingga node 10 masuk ketahap penghentian
dan disebut node terminal.
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 49
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
3. HASIL DAN PEMBAHASAN
3.1
Pattern evaluation
Gambar 1. Pohon keputusan algoritma CHAID
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 50
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Pada tahap sebelumnya data training yaitu dataset PIMA Indians
diabetes telah dimasukkan ke dalam tahap data mining. Pada tahap tersebut
dataset melalui sub tahapan sehingga diperoleh nilai uji chi-square setiap
variabel independen terhadap variabel dependennya. Dari tahap tersebut juga
diketahui pengaruh setiap variabel berdasarkan nilai chi-square nya, sehingga
dapat dibuat pohon keputusan seperti pada gambar 1.
Pada pohon keputusan tersebut dapat dilihat bahwa faktor yang paling
mempengaruhi wanita berpotensi diabetes node 0 pada dataset yang
digunakan dalam penelitian ini adalah kadar glukosa, dengan nilai chi-square
sebesar 124,147. faktor ini membagi wanita berpotensi daibetes kedalam dua
kategori yaitu kategori normal (< 140) node 1 dan tinggi (≥ 140) node 2.
Kemudian wanita berpotensi diabetes dengan kadar glukosa normal (< 140)
node 1 dibagi oleh faktor berikutnya yaitu massa indeks tubuh normal,
berlebihan, kekurangan (17 – 27) node 3 dan sangat berlebihan (> 27) node 4,
faktor ini memiliki nilai chi-square sebesar 37.508. untuk wanita berpotensi
diabetes dengan kadar glukosa antara 140 – 200 node 2 dibagi oleh faktor
massa indeks tubuh dengan nilai chi-square sebesar 5.795, faktor ini membagi
kadar glukosa berlebihan (≥ 140) node 2 kedalam dua kategori yaitu normal,
berlebihan (18.5 – 27) node 4 dan sangat berlebihan ( > 27) node 5. kemudian
faktor massa indeks tubuh sangat berlebihan (> 27) node 4 dibagi oleh jumlah
kehamilan dengan nilai chi-square sebesar 10.286, jumlah kehamilan
membagi massa indeks tubuh sangat berlebihan (> 27) node 4 dengan jumlah
kehamilan nulligravida, primigravida, secungravida (0 – 2) node 7 dan
multigravida (> 2) node 8. Node 3, node 5 dan node 6 merupakan node
terminal karena tidak memiliki faktor dengan nilai chi-square signifikan yang
dapat membagi node tersebut. Kemudian jumlah kehamilan nulligravida,
primigravida, secungravida (0 – 2) node 7 dibagi oleh faktor tekanan darah
diastolic yang memiliki nilai chi-square sebesar 8.475 yaitu rendah, normal
(40 – 80) node 9 dan tinggi, sangat tinggi (80.1 – 100) node 10. Node 8 kategori
multigravida (kehamilan > 2) tidak memiliki faktor dengan nilai chi-square
signifikan yang dapat membagi faktor tersebut sehingga menjadi node
terminal. Node 9 tekanan darah diastolic rendah, normal (40 – 80) node 9 dan
node 10 tekanan darah diastolic tinggi, sangat tinggi (80.1 – 100) juga
merupakan node terminal karena faktor yang tersisa tidak bisa membagi
kedua node tersebut.
3.2
Knowledge presentation
Berdasarkan pohon klasifikasi pada gambar 1 dapat dibentuk beberapa
klasifiaksi faktor wanita berpotensi diabetes seperti pada tabel 20
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 51
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Tabel 20. Pola klasifikasi faktor wanita berpotensi diabetes berdasarkan
pohon keputusan algortima CHAID
No
1
Faktor wanita berpotensi diabetes
Wanita dengan kadar glukosa ≥ 140
dan massa indeks tubuh > 27
2
Wanita dengan kadar glukosa < 140,
massa indeks tubuh > 27 dan jumlah
kehamilan > 2
Wanita dengan kadar glukosa ≥ 140
dan massa indeks tubuh 18.5 - 27
3
4
Persentase
Dari 166 respondeden yang
terklasifikasi 70.5 % positif
diabetes dan 29.5 % tidak
Dari 203 responden yang
terklasifikasi 36.5% positif
diabetes dan 63.5% tidak
Dari 24 responden 45.8%
positif diabetes dan 54.2%
tidak
Dari 142 responden yang
terklasifikasi 4.2% positif
diabetes dan 95.8% tidak
Dari 35 responden yan
terklasifikasi 40% positif
diabetes dan 60% tidak
Klasifikasi
Berpotensi
diabetes
Tidak
berpotensi
diabetes
Tidak
berpotensi
diabetes
Tidak
berpotensi
diabetes
Tidak
berpotensi
diabetes
Wanita dengan kadar glukosa < 140
dan memiliki massa indeks tubuh ≤
17 – 27
5
Wanita dengan kadar glukosa <140,
massa indeks tubuh > 27, jumlah
kehamilan 0 – 2 dan tekanan darah
diastolic 80.1 - 100
6
Wanita dengan kadar glukosa <140,
Dari 154 responden yang
Tidak
massa indeks tubuh > 27, jumlah
treklasifikasi 17.5% positif
berpotensi
kehamilan 0 – 2 dan tekanan darah
diabetes dan 82.5% tidak
diabetes
diastolic 40 – 80
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Kemudian klasifikasi yang sudah didapatkan dari pohon keputusan
algoritma chaid diperiksa perbandingannya dengan kasus diabetes yang
digunakan sebagai data testing pembanding yaitu dataset kasus wanita
diabetes Puskesmas Kelayan Dalam Banjarmasin. Hasil dari perbandingan
tersebut dapat dilihat pada tabel 21.
Tabel 21. Hasil perbandingan klasifikasi dengan dataset diabetes puskesmas
kelayan dalam banjarmasin
klasifikasi
jumlah
Persentase %
Keterangan
klasifikasi ke 1
61
85,92
Positif
klasifikasi ke 2
7
9.86
Tidak
klasifikasi ke 3
1
1.41
Tidak
klasifiaksi ke 4
1
1.41
Tidak
klasifikasi ke 5
1
1.41
Tidak
klasifiaksi ke 6
0
0.00
Tidak
Total
71
100
85, 92% positif; 14,08% tidak
Sumber : Klasifikasi Faktor Penentu Wanita Berpotensi Diabetes Dengan Decision tree
Menggunakan Algoritma Chi-Squared Automatic Interaction Detection (Chaid). 2017
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 52
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
Seperti yang dapat dilihat pada tabel 21 terdapat 85,92% wanita yang
masuk kedalam klasifikasi positif diabetes. Sedangkan terdapat 14,08%
wanita yang termasuk tidak positif diabetes. Pohon klasifikasi yang terbentuk
dari algoritma CHAID ini sudah memiliki persentase kesesuaian yang cukup
besar, walaupun masih ada wanita yang positif diabetes pada data testing
namun termasuk tidak positif pada klasifiaksi pohon keputusan.
4. SIMPULAN
Dari penelitian yang sudah dilakukan, maka kesimpulan yang dapat
diambil adalah sebagai berikut:
a. Faktor yang berpengaruh pada kondisi seorang wanita yang berpotensi
mengalami diabetes berdasarkan data training yang digunakan pada
penelitian ini diurutkan berdasarkan nilai chi-square nya seperti berikut
1) Kadar glukosa dengan nilai chi-square sebesar 124. 147
2) Massa indeks tubuh dengan nilai chi-square sebesar 37.508
3) Jumlah kehamilan dengan nilai chi-square sebesar 10.286
4) Tekanan darah diastolik dengan nilai chi-square sebesar 9.475
b. Pola decision tree dari faktor – faktor yang mempengaruhi kondisi wanita
tersebut yaitu
1) Wanita dengan Wanita dengan kadar glukosa ≥ 140 dan massa indeks
tubuh > 27; wanita dengan kondisi ini 70,5% berpotensi diabetes.
2) Wanita dengan kadar glukosa < 140; massa indeks tubuh > 27 dan
jumlah kehamilan > 2; wanita dengan kondisi ini 36,5% berpotensi
daibetes.
3) Wanita dengan kadar glukosa ≥ 140 dan massa indeks tubuh 18,5 – 27;
wanita dengan kondisi ini 45,8% berpotensi diabetes.
4) Wanita dengan kadar glukosa < 140 dan memiliki massa indeks tubuh
≤ 17 – 27; wanita dengan kondisi ini 4,2% berpotensi diabetes.
5) Wanita dengan kadar glukosa <140; massa indeks tubuh > 27; jumlah
kehamilan 0 – 2 dan tekanan darah diastolic 80,1 – 100; wanita dengan
kondisi ini 40% berpotensi diabetes.
6) Wanita dengan kadar glukosa <140, massa indeks tubuh > 27; jumlah
kehamilan 0 – 2 dan tekanan darah diastolic 40 – 80; wanita dengan
kondisi ini 17,5% berpotensi diabetes
Dari pola decision tree berdasarkan data training ini, kesesuaian dengan kasus
diabetes yang terdata pada Puskesmas Kelayan Dalam memiliki persentase
sebesar 85,92%
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 53
Jurnal Elektronik Nasional Teknologi dan Ilmu Komputer (JENTIK)
DAFTAR PUSTAKA
[1]
[2]
[3]
[4]
[5]
Kementerian Kesehatan RI, “InfoDATIN Situati dan Analisis
Diabetes”, Kementerian Kesehatan RI, 2014.
Jelantik, Igusti, M.G, dan Haryati, E., “Hubungan Faktor Risiko Umur,
Jenis Kelamin, Kegemukan dan Hipertensi dengan Kejadian
Diabetes Mellitus Tipe II di Wilayah Kerja Puskesmas Mataram”.
Jurnal Penelitian. Volume 8, No. 1, ISSN No. 1978-3787, Februari 2014.
Irawan, Dedi, “Prevalensi dan Faktor Risiko Kejadian Diabetes
melitus Tipe 2 di Daerah Urban Indonesia (Analisa Data Sekunder
Riskesdas 2007)”, Thesis, Universitas Indonesia, 2010.
Han, Jiawei dan Kamber, Micheline, “Data mining: Concepts and
Techniques Second Edition”, Elsevier, 2006.
Ramadhan, M.,M., “Klasifikasi Faktor Penentu Wanita Berpotensi
Diabetes Dengan Decision tree Menggunakan Algoritma ChiSquared Automatic Interaction Detection (Chaid)”, Skripsi Program
Studi Ilmu Komputer, Universitas Lambung Mangkurat, Banjarbaru,
2017.
Klasifikasi Faktor Penentu Wanita Diabetes (Muhammad Maulana Ramadhan) | 54
Download