plagiat merupakan tindakan tidak terpuji plagiat

advertisement
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
IDENTIFIKASI PENYAKIT HEPATITIS DENGAN
PENDEKATAN AGGLOMERATIVE HIERARCHICAL
CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun oleh :
Christina Wienda Asrini
095314011
HALAMAN JUDUL
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2013
i
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
IDENTIFICATION OF HEPATITIS DISEASE BY USING
AGGLOMERATIVEHIERARCHICAL CLUSTERING
APPROACH
A Thesis
Presented as Partial Fulfillment of the Requirements
To Obtain the Sarjana Komputer Degree
In Informatics Engineering Study Program
By :
Christina Wienda Asrini
095314011
HALAMAN JUDUL (Inggris)
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2013
ii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN PERSETUJUAN
iii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN PENGESAHAN
iv
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
HALAMAN PERSEMBAHAN
Skripsi ini saya persembahkan untuk :
Tuhan Yesus Kristus,
Keluarga tercinta, Dosen serta sahabat yang terkasih
Terima Kasih atas segalanya
God Bless!
v
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak
memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam
kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.
Yogyakarta, 1 November 2013
Penulis
Christina Wienda Asrini
HALAMAN PERNYATAAN KEASLIAN KARYA
vi
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
HALAMAN PERSETUJUAN PUBLIKASI
Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma :
Nama : Christina Wienda Asrini
NIM
: 095314011
Demi pengembangan pengetahuan, saya memberikan kepada perpustakaan
Universitas Sanata Dhama karya ilmiah yang berjudul :
IDENTIFIKASI PENYAKIT HEPATITIS DENGAN PENDEKATAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING
Beserta perangkat yang diperlukan (bila ada) dengan demikian saya memberikan
kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan,
mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan
data, mendistribusikan secara terbatas dan mempublikasikan di internet atau
media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya
maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya
sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Yogyakarta, ….. November 2013
Yang menyatakan,
ChristinaWienda Asrini
vii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
IDENTIFIKASI PENYAKIT HEPATITIS DENGAN PENDEKATAN
AGGLOMERATIVE HIERARCHICAL CLUSTERING
ABSTRAK
Penyakit hepatitis merupakan salah satu jenis penyakit hati. Walaupun
hepatitis memiliki tipe yang bermacam-macam, tetapi gejala seseorang terkena
penyakit hepatitis sangat mirip sehingga sangat sulit untuk menentukan bahwa
orang tersebut terkena penyakit hepatitis tipe A, B atau C. Pada bidang teknik
informatika, penelitian terkait hepatitis sudah pernah dilakukan sebelumnya oleh
Estu Karunianingtyas. Pada penelitian tersebut hanya mendapatkan akurasi 51,11 %
karena hanya menggunakan data gejala yang tidak pasti merujuk pada satu
penyakit saja.
Pada penelitian ini menambahkan data laboratorium sehingga mempengaruhi
hasil akurasi dimana data laboratorium dapat mendiagnosa dengan benar jenis
penyakit hepatitis. Berdasarkan hal tersebut maka sistem cerdas dibuat untuk
mengelompokkan pasien yang terinfeksi hepatitis A, B dan C sesuai dengan data
gejala dan data laboratoriumnya. Tahap pada penelitian ini menggunakan
knowledge discovery in databases sehingga tujuan penelitian dapat tercapai.
Pengelompokkan ini menggunakan algoritma
agglomerative hierarchical
clustering dengan pengukuran kemiripan single, average dan complete linkage.
Ada empat pengujian yang dilakukan untuk menghitung akurasi, yaitu
perhitungan data laboratorium yang mendapatkan hasil 100 %, data gabungan
gejala dan laboratorium dengan hasil 82,72 %, data laboratorium dan data gejala
yang sudah diproses dengan principal component analysisdengan hasil 80,90 %
serta data laboratorium dan data gejala hasil dari principal component
analysisdengan 100 %. Hasil yang baik didapatkan oleh normalisasi [0-1] dengan
pengukuran kemiripan complete linkage. Data laboratorium yang digunakan untuk
pengelompokkan sangat membantu karena hasil akurasi yang dihasilkan cukup
baik.
viii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
ABSTRACT
Hepatitis is one of kind the liver diseases. There are many various types of
hepatitis. However, the symptoms of hepatitis are very similar because of that it
was very difficult to determine that the person was infected by hepatitis A,
hepatitis B and hepatitis C. In informatics engineering’s field, the research about
hepatitis diseases had been done by Estu Karunianingtyas. In that research, it just
got accuracy about 51,11 % because it only used symptoms data that were not
only indicated one disease.
This research added laboratory data to influence the result of accuracy in
which laboratory data can diagnose the hepatitis diseases correctly. Based on the
previous explanation, intelligent system was made in order to cluster the patients
who were infected by hepatitis A, hepatitis B, and hepatitis C that were
appropriate with the laboratory data and the symptoms data. The step of this
research used knowledge discovery in databases so that the purpose of this
research
can
be
achieved.
The
clustering’s
algorithm
that
were
usedwereagglomerative hierarchical clustering with similarity measure of single,
average and complete linkage.
There were four tests that were used to calculate the accuracy: calculation of
laboratory data that got the result of 100 %, the data with a combination of
symptoms and laboratory that got the result of 82.72 %, symptoms and laboratory
data that had been processed by principal component analysis that got the result of
80,90 %, and the last was result of laboratory data from principal component
analysis that combine with symptoms data was 100 %. The good results were
obtained by normalization [0-1] and used the similarity measure of complete
linkage. The laboratory data which were used to cluster were very useful because
the accuracy result was good enough.
ix
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
KATA PENGANTAR
Puji dan syukur saya panjatkan kepada Tuhan Yesus Kristus karena
limpahan kebaikan dan penyertaan-Nya sehingga saya dapat menyelesaikan tugas
akhir yang berjudul “Identifikasi Penyakit Hepatitis dengan Pendekatan
Aglomerative Hierarchical Clustering”. Pada proses penulisan tugas akhir ini,
saya mengucapkan terima kasih yang sebesar-besarnya kepada :
1. Romo Dr. Cyprianus Kuntoro Adi, SJ, MA, M.Sc selaku dosen
pembimbing, terima kasih atas segala bimbingan dan kesabarannya
sehingga saya dapat menyelesaikan tugas akhir ini.
2. Ibu Ridowati Gunawan, S.Kom, M.T dan Ibu Sri hartati Wijono, S.Si,
M.Kom, selaku dosen penguji yang telah memberikan banyak kritik dan
saran terhadap tugas akhir saya.
3. Seluruh staff dosen dan laboran teknik informatika universitas sanata
dharma yang telah banyak memberikan bantuan selama saya menempuh
studi.
4. Kedua orang tua saya, bapak Dwi Budiyanto dan ibu Endang Retno yang
senantiasa mendukung saya dengan doa, kasih sayang dan perhatiannya
sehingga saya mampu menyelesaikan studi saya.
5. Adik satu-satunya Enggar Jati, saya juga mengucapkan terimakasih karena
mendukung saya baik secara tindakan maupun dengan doa.
x
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
6. Keluarga saya yang lain, Eyang kakung dan eyang putri dari Magelang
dan Temanggung, Angga Satria, Dolorosa Lintang, Tante Woro dan Om
Dwi yang juga telah memberikan dukungannya serta doa.
7. Sahabat yang luar biasa dari SMP, Lucia Septi dan Gofenni yang
senantiasa mendengarkan keluh kesah setiap saat serta memberi saya
dukungan moril.
8. Teman-teman dari Teknik Informatika 2009, Cosmas Dipta, Mirella Tri,
Fiona Endah, Fidelis Adi, Audris Evan, Astriana Krisma, Rafaela Rosi,
Dyah Ayu Paramita, Ade Ignatio, Nicodimus, Laurentius Puji, Petrus Kiki,
Setyo Resmi, Wiwinniarti,Yoseph Dian, Agustinus Wikrama dan semua
yang tidak sempat disebutkan, terimakasih atas segala dukungan, bantuan,
canda-tawa dan doa sehingga saya dapat tetap semangat.
9. Teman-teman dari PBSID dan PBI 2009, Yohanes Marwan dan Paulina
Ine, yang membantu saya mengoreksi dan memberikan dukungan.
Dengan rendah hati penulis menyadari bahwa tugas akhir ini masih jauh
dari sempurna. Oleh karena itu segala kritik dan saran untuk perbaikan tugas
akhir ini sangat diperlukan. Akhir kata, semoga tugas akhir ini dapat
bermanfaat bagi semua pihak. Sekian dan terima kasih.
Yogyakarta, 11 November 2013
Christina Wienda Asrini
xi
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
DAFTAR ISI
HALAMAN JUDUL ........................................................................................................ i
HALAMAN JUDUL (Inggris) ........................................................................................ ii
HALAMAN PERSETUJUAN ....................................................................................... iii
HALAMAN PENGESAHAN ........................................................................................ iv
HALAMAN PERSEMBAHAN ...................................................................................... v
HALAMAN PERNYATAAN KEASLIAN KARYA ..................................................... vi
HALAMAN PERSETUJUAN PUBLIKASI.................................................................. vii
ABSTRAK .................................................................................................................. viii
ABSTRACT .................................................................................................................. ix
KATA PENGANTAR..................................................................................................... x
DAFTAR ISI ................................................................................................................ xii
DAFTAR GAMBAR ................................................................................................... xiv
DAFTAR TABEL ........................................................................................................ xvi
BAB I ............................................................................................................................. 1
PENDAHULUAN .......................................................................................................... 1
1.1
Latar Belakang................................................................................................. 1
1.2
Rumusan Masalah............................................................................................ 4
1.3
Batasan Masalah .............................................................................................. 4
1.4
Tujuan Penelitian ............................................................................................. 5
1.5
Manfaat Penelitian ........................................................................................... 5
BAB II ............................................................................................................................ 6
LANDASAN TEORI ...................................................................................................... 6
2.1
Pengertian Knowledge Discovery in Databases (KDD) .................................... 6
2.2
Jenis-Jenis Metode Data mining..................................................................... 10
2.3
Metode Clustering ......................................................................................... 13
2.3.1
Pengertian Clustering ............................................................................. 13
2.3.2
Agglomerative Hierarchical Clustering .................................................. 19
2.4
Dimensionality Reduction .............................................................................. 29
2.5
Penyakit Hepatitis.......................................................................................... 30
xii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2.6
Pengujian Keakuratan Metode........................................................................ 34
BAB III ......................................................................................................................... 37
METODOLOGI PENELITIAN..................................................................................... 37
3.1
Data ............................................................................................................... 37
3.2
Metode Pengumpulan Data ............................................................................ 38
3.3
Teknik Analisa Data ...................................................................................... 39
3.4
Design User Interface .................................................................................... 46
3.5
Spesifikasi Software dan Hardware ................................................................ 49
BAB IV ........................................................................................................................ 50
IMPLEMENTASI DAN ANALISA HASIL .................................................................. 50
4.1
Hasil Penelitian dan Analisa........................................................................... 50
4.2
Preprocessing Data ........................................................................................ 52
4.3
Hasil Uji Clustering dan Akurasi ................................................................... 56
4.4
Implementasi User Interface .......................................................................... 83
4.4.1
Tampilan menu utama ............................................................................ 83
4.4.2
Tampilan sub menu preprocessing .......................................................... 84
4.4.3
Tampilan sub menu clustering ................................................................ 86
4.4.4
Tampilan menu help ............................................................................... 89
BAB V.......................................................................................................................... 90
PENUTUP .................................................................................................................... 90
5.1
Kesimpulan.................................................................................................... 90
5.2
Saran ............................................................................................................. 92
DAFTAR PUSTAKA ................................................................................................... 93
xiii
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
DAFTAR GAMBAR
Gambar
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
2.11
2.12
2.13
2.14
2.15
2.16
2.17
2.18
2.19
3.1
3.2
3.3
3.4
3.5
3.6
3.7
4.1
4.2
4.3
Keterangan
Proses KDD
Obyek dan atribut
Ilustrasi algoritma Apriori
Hasil clustering pada data
hipertensi
Dendrogram
Hasil ilustrasi clustering
Matriks jarak
Matriks jarak kedua single linkage
Matriks jarak ketiga single linkage
Matriks jarak terakhir single
linkage
Dendrogram single linkage untuk
jarak antara lima obyek
Matriks jarak kedua complete
linkage
Matriks jarak ketiga complete
linkage
Demdrogram complete linkage
untuk jarak antara lima obyek
Matriks jarak kedua average
linkage
Matriks jarak ketiga average
linkage
Matriks jarak terakhir average
linkage
Demdrogram average linkage
untuk jarak antara lima obyek
Dendrogram yang sudah di
lakukan pemotongan (cut-off)
Diagram blok proses clustering
Dendrogram single linkage
Dendrogram average linkage
Dendrogram complete linkage
Halaman utama
Halaman preprocessing
Halaman clustering
Dendrogram complete linkage
Dendrogram complete linkage
Dendrogram single linkage
xiv
Halaman
7
9
11
13
16
19
21
22
22
23
23
24
25
25
26
27
27
28
28
40
41
42
42
47
48
49
60
61
62
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
4.18
4.19
4.20
4.21
4.22
4.23
4.24
4.25
Dendrogram complete linkage
Dendrogram complete linkage
Grafik akurasi tanpa normalisasi
Dendrogram single linkage
Dendrogram average linkage
Dendrogram complete linkage
Dendrogram complete linkage
Dendrogram complete linkage
Dendrogram single linkage
Dendrogram average linkage
Dendrogram complete linkage
Hasil akurasi dengan normalisasi
[0-1]
Dendrogram single linkage
Dendrogram complete linkage
Dendrogram complete linkage
Dendrogram complete linkage
Hasil akurasi dengan normalisasi
zscore
Halaman utama sistem
Halaman preprocessing sistem
Halaman clusterig sistem
Contoh Dendrogram
PDF Bantuan
xv
63
65
66
68
68
69
70
71
73
73
74
75
76
78
79
80
81
84
85
87
88
90
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
DAFTAR TABEL
Gambar
2.1
2.2
2.3
2.4
2.5
3.1
3.2
3.3
3.4
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
4.16
4.17
4.18
4.19
4.20
4.21
Keterangan
Contoh data klasifikasi
Contoh data clustering
Contoh data
Contoh matrik similiarity
Cluster Evaluation
Data gejala hepatitis
Contoh matrik jarak dengan
Euclidean distance
Hasilcluster
Confusion matrix
Deskripsi data gejala hepatitis
Deskripsi data laboratorium
hepatitis
SGOT dan SGPT sebelum dan
sesudah normalisasi
Penanda hepatitis sebelum dan
sesudah normalisasi
Hasil tanpa normalisasi
Confusion matrix complete linkage
Confusion matrix complete linkage
Confusion matrix single linkage
Confusion matrix complete linkage
Confusion matrix complete linkage
Hasil akurasi dengan normalisasi
[0-1]
Confusion matrix single linkage,
average lnkage, complete linkage
Confusion matrix complete linkage
Confusion matrix complete linkage
Confusion matrix complete linkage
Hasil akurasi dengan normalisasi
zscore
Confusion matrix single linkage
Confusion matrix complete linkage
Confusion matrix complete linkage
Confusion matrix complete linkage
Hasil pengelompokkan dengan
agglomerative hierarchical
clustering
xvi
Halaman
11
12
20
20
34
40
43
45
46
51
52
54
55
59
61
62
63
64
65
66
69
70
72
74
75
77
78
79
80
83
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
BAB I
PENDAHULUAN
Pada bab ini menjelaskan latar belakang yang menjadi landasan dalam penelitian
ini. Kemudian dari latar belakang yang ada dirumuskan permasalahan untuk
diselesaikan beserta batasan masalah yang diberikan pada penelitian ini. Pada bab
ini juga menjelaskan mengenai tujuan dari penelitian dan manfaat penelitian
1.1
Latar Belakang
Kesehatan merupakan hal yang sangat penting dan perlu dijaga oleh
masyarakat. Dewasa ini, masyarakat mudah terserang penyakit karena perubahan
cuaca yang ekstrim, kondisi lingkungan yang tidak bersih, dan pola hidup yang
tidak teratur. Selain itu, penyakityang ada kinimemiliki beragam tipe. Penyakit
tersebut mulai mengalami perubahan (mutasi) sehingga menghasilkan tipe
penyakit baru, seperti flu burung dengan tipe baru yang lebih ganas dari tipe
sebelumnya. Penyakit yang sudah lama pun ada yang memiliki beragam tipe
seperti hepatitis, jantung dan diabetes.
Penyakit hepatitis merupakan salah satu penyakit yang sekarang ini mulai
banyak diderita terutama hepatitis B dan C (Abas, 2011). Penyakit hepatitis
mempunyai tipe-tipe yang berbeda, antara lain hepatitis A, hepatitis B, hepatitis C,
hepatitis D, hepatitis E, hepatitis F dan hepatitis G. Hepatitis A merupakan tipe
hepatitis yang paling ringan, sedangkan hepatitis B merupakan tipe hepatitis yang
berbahaya. Ada 15 juta penderita atau sebanyak 50 persen penderita hepatitis B
1
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2
dan C di Indonesia akan menjadi penyakit hati kronik, sedangkan 10 persen
penderita menjadi penyakit liver fibrosis dan kanker hati (Dimyati, 2011). Istilah
hepatitisberasal dari bahasa latin yang dipakai untuk semua jenis peradangan pada
hati (Wening Sari, 2008:10). Penyakit inimemiliki penyebab antara lain, virus,
komplikasi dari penyakit lain, alkohol, obat-obatan atau zat kimia sampai karena
penyakit autoimun (Wening Sari, 2008:16). Proses pemeriksaan yang dilakukan
dokter dengan cara melakukan pemeriksaan fisik dananamnesisserta pemeriksaan
laboratorium.
Pemilihan penyakit hepatitis dilakukan karena banyak orang yang tidak
sadar terkena penyakit hepatitis tipe tertentu karena gejalanya yang mirip. Hal ini
dapat dijadikan studi kasus pada data mining. Data mining adalah bagian dari
knowledge discovery in databasesyang merupakan keseluruhan proses konversi
data mentah menjadi pengetahuan yang bermanfaat yang terdiri dari serangkaian
tahap transformasi meliputi data preprocessing dan postprocessing. Pengertian
data mining itu merujuk pada “extracting” atau “mining” pengetahuan dari
sekumpulan besar data (Han&Kamber,2004). Data mining memiliki beberapa
metode, antara lain classification, association dan clustering.
Penelitian terkait hepatitis sudah pernah dilakukan sebelumnya, yaitu
“Sistem Diagnosa Penyakit Hepatitis dengan menggunakan Metode Naïve
Bayesian” oleh EstuKarunianingtyas. Penelitian tersebut menggunakan data
mining untuk menentukan pasien tertentu masuk pada kelas hepatitis A, B atau C
berdasarkan gejala. Akurasi pada penelitian sebelumnya tergolong rendah karena
hanya mendapatkan 51,11 persen untuk kombinasi gejala dan 44,44 persen untuk
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
3
per gejala. Penelitian ini akan memasukkan pemeriksaan laboratorium dalam
proses analisis. Metode clustering digunakan karena dengan menggunakan
pendekatan yang berbeda dan menambah feature yang lebih lengkap maka dapat
memberikan hasil pengelompokan yang berbeda dan lebih baik.Data gejala dan
data hasil laboratoriumhepatitis akan dikelompokkan sesuai dengan tipe
hepatitisnya dengan menemukan kemiripan antar data, maka akan terbentuk
kelompok yang berisi data pasien yang terkena hepatitis A, hepatitis B dan
hepatitis C.
Algoritmayang digunakandengan pendekatan hirarki yaituagglomerative
hierarchical clustering. Algoritma tersebut mengelompokkan data gejala yang
mirip ke dalam cluster yang sama, sedangkan yang jauh dikelompokkan pada
hirarki yang berbeda. Proses yang dikerjakan mulai dari Ncluster menjadi satu
kesatuan cluster, dimana N adalah jumlah data. Perbedaan penelitian ini dengan
penelitian sebelumnya adalah metode yang digunakan. Selain itu, penelitian ini
juga menambahkan data hasil laboratorium sehingga akurasi pengelompokkannya
dapat lebih tinggi.Penelitian ini penting untuk dilakukan karena dapat membantu
dalam
mengelompokkan
data
gejala
pasien
menurut
hepatitisnyasehingga dapat memberikan penanganan yang tepat.
tipe
penyakit
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
1.2
4
Rumusan Masalah
Berdasarkan latar belakang
yang telah
dikemukakan
di atas, maka
permasalahan yang akan dibahas dalam penelitian ini, yaitu :
-
Sejauh mana metode agglomerativehierarchicalclustering secara akurat
mampu mengelompokkan pasien yang terkena hepatitis A, B atau C?
1.3
Batasan Masalah
Pada pengerjaan penelitian ini diberikan batasan-batasan masalah untuk
permasalahan yang ada antara lain,
1. Metode data mining yang digunakan adalah dengan menggunakan
agglomerativehierarchical clustering.
2. Jenis pengukuran kemiripan yang digunakan adalah single linkage,
average linkage dan complete linkage menggunakan prinsip jarak
minimum yang diawali dengan mencari dua obyek terdekat dan keduanya
membentuk cluster
3. Penyakit hepatitis yang akan diteliti hanya yang bertipe A, B dan C
sampelnya akan diambil dari kumpulan pasien yang berobat pada dokter
hepatitisdari tahun 2000 sampai 2010 di rumah sakit di Yogyakarta.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
1.4
5
Tujuan Penelitian
Berdasarkan rumusan permasalahan diatas, maka tujuan yang ingin dicapai
dalam penelitian ini, yaitu :
1. Menganalisa, merancang, mengimplementasikan sistem cerdas untuk
mengelompokan penyakit hepatitis.
2. Mengetahui hasil pengelompokan pasien yang terkena penyakit hepatitis
A, hepatitis B dan hepatitis C dengan metode agglomerative hierarchical
clustering.
3. Menguji kehandalan sistem dengan menghitung akurasi pengelompokan.
1.5
Manfaat Penelitian
Manfaat yang diberikan penelitian ini, yaitu :
1. Membantu menganalisa permasalahan yang ada dibidang kedokteran
dengan metode data mining.
2. Menjadi referensi bagi penelitian-penelitian berikut yang relevan dengan
kasus pengelompokan penyakit hepatitis.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
BAB II
LANDASAN TEORI
Bab ini menjelaskan tentang dasar teori yang digunakan dalam penyusunan tugas
akhir ini untuk memperjelas materi-materi yang digunakan dalam penelitian.
Penjelasan dimulai dengan Knowledge Discovery in Databases, tentang penyakit
hepatitis, cara perhitunganagglomerative hierarchical clustering danmetode
akurasi yang akan dipakai.
2.1
Pengertian Knowledge Discovery in Databases (KDD)
Data mining adalah bagian dari Knowledge Discovery in Databases yang
merupakan kegiatan yang meliputi pengumpulan, pemakaian data historis untuk
menemukan keteraturan, pola atau hubungan dalam data yang berukuran besar
(Santoso, 2007). Data mining juga merupakan ilmu pengetahuan yang sekarang
sering digunakan untuk mencari informasi yang berada pada kumpulan data yang
berjumlah banyak. Pengertian data mining itu merujuk pada extracting atau
mining pengetahuan dari sekumpulan besar data (Han&Kamber,2004).
Knowledge discovery in databases memiliki proses yang harus dilakukan
dalam mencari pengetahuan yang diperlukan, yaitu data cleaning, data
integration, data selection, data transformation, data mining dan pattern
evaluationyang dapat dilihat pada gambar 2.1.
6
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
7
Gambar 2.1 : (Han& Kamber,2004)Proses KDD
1.
Data cleaning
Langkah pertama adalah dengan melakukan pembersihan terhadap
data. Proses ini bertujuanuntuk menghilangkan noise dan data yang tidak
konsisten.
2.
Data integration
Pada tahap ini, sumber data yang terpecah dan terpisah akan
digabungkan dari segala macam tempat penyimpanan menjadi satu tempat.
3.
Data selection
Pada data selection, data yang relevan diambil dari database untuk
dianalisis. Atribut yang tidak relevan tidak akan digunakan dalam proses
selanjutnya.
4.
Data transformation
Pada tahap ini data diubah menjadi bentuk yang tepat untuk
ditambang. Hal-hal yang masuk dalam proses data transformation, yaitu
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
8
smooting, aggregation, generalization dan attribute construction atau
feature construction. Contoh metode normalisasi, yaitu [0-1] dan zscore.
Definisi rumus normalisasi[0-1], sebagai berikut .
𝑋=
π‘₯𝑖 − π‘‹π‘šπ‘–π‘›
π‘‹π‘šπ‘Žπ‘₯ − π‘‹π‘šπ‘–π‘›
Keterangan :
-
Xi = nilai yang akan dinormalisasi
-
Xmin = nilai minimum dari variabel
-
Xmax = nilai maksimum dari variabel
Definisi rumus zscore, sebagai berikut :
𝑧=
𝑋−πœ‡
𝜎
(2.2)
Keterangan :
5.
-
X = nilai yang akan di normalisasi
-
µ = rata-rata
-
σ = standar deviasi
Data mining
Pada proses data mining ini merupakan suatu proses utama saat
metode diterapkan untuk menemukan pola dari data.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
6.
9
Pattern evaluation
Pada tahap ini, mengidentifikasi pola yang benar-benar menarik
yang mewakili pengetahuan berdasarkan atas beberapa pengukuran yang
penting.
7.
Knowledge presentation
Langkah terakhir ini informasi yang sudah ditambang akan
divisualisasikan dan direpresentasikan kepada user.
Langkah 1 sampai dengan 4 merupakan langkah preprocessing. Setelah
melakukan serangkaian proses diatas seperti data cleaning, data integration, data
selection dan data transformation, maka hasilnya siap untuk dilakukan proses
mining. Pada data mining, data yang dipakai merupakan sekumpulan obyek data
dan atribut. Atribut merupakan karakteristik yang dimiliki oleh sebuah obyek.
Gambar 2.2 memperlihatkan obyek serta atribut pada sekumpulan dataset yang
akan diukur dengan menggunakan metode pada data mining.
Gambar 2.2 Objek dan Atribut
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2.2
10
Jenis-Jenis Metode Data mining
Pada model data mining dibuat dari metode pembelajaran dengan
supervised dan unsupervised. Fungsi pembelajaran supervised digunakan untuk
memprediksi suatu nilai dan mempunyai keluaran berupa label dari setiap data.
Pada supervised memiliki proses training dan testing terhadap data yang ada.
Setelah dilakukan proses tersebut, maka dapat diketahui parameter yang
digunakan untuk menentukan model. Model ini yang akan melakukan tugas
prediksi atau peramalan. Contoh dari algoritma dengan pembelajaran supervised,
yaitu naïve Bayesian. Fungsi pembelajaran unsupervised tidak memerlukan label
dan datanya tidak perlu dilakukan proses training dan testing. Label yang ada
pada unsupervised adalah label dari data yang akan dikelompokkan sehingga
dengan label tersebut dapat diketahui bahwa data tersebut masuk ke dalam
kelompok tertentu. Contoh algoritma unsupervised, yaitu k-means clustering dan
agglomerative hierarchical clustering.
Data mining memiliki beberapa metode yang sering dibahas, antara lain
classification, association danclustering. Setiap metode memiliki berbagai macam
algoritma sesuai dengan karakteristiknya masing-masing.
a. Classification mining adalah sebuah pengekstraksi pola pengelompokan
atau pengklasifikasian sebuah himpunan obyek atau data ke dalam kelas
tertentu berdasarkan atribut-atributnya. Contoh algoritma klasifikasi
adalah naïve bayesian, decision tree dan support vector machine. Berikut
ini merupakan contoh kasus data penyakit hipertensi untuk classification.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
11
Tabel 2.1 (Ali, 2006) contoh data klasifikasi
Pada contoh tersebut terdapat label pada setiap obyek data yang menjadi
kesimpulan bahwa orang tersebut terkena hipertensi atau tidak.
b. Association mining adalah sebuah cara untuk menemukan pola asosiasi
dalam data. Contoh pada association, mempunyai algoritma apriori,
FPTree. Berikut ini merupakan contoh kasus pada association.
Gambar 2.3 (Han&Kamber,2011) ilustrasi algoritma apriori
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
12
Contohnya pada saat menganalisa keranjang belanja dengan menghitung
support dan confidence pada masing-masing item set, maka dapat
diketahui pola asosiasinya seperti barang-barang yang dibeli secara
bersamaan pada suatu transaksi pembelian. Pola tersebut berguna untuk
keperluan promosi, segmentasi pembeli, pembuatan catalog produk dan
melihat pola belanja pembeli.
c. Clustering mining adalah proses mencari cluster atau kelompok dari
sekumpulan obyek sehingga obyek-obyek di dalam sebuah cluster mirip
satu dengan lainnya, dan berbeda dengan obyek di luar cluster-nya. Ada 2
jenis clusteringyang biasa digunakan, yaitu hierarchical clustering dan
partition clustering. Contoh algoritma yang ada pada clustering adalah KMeans dan agglomerative. Berikut ini contoh data pada clustering.
Tabel 2.2 (Ali, 2006) contoh data clustering
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
13
Pada gambar tersebut tidak terdapat label yang menyertakan orang tersebut
terkena hipertensi atau tidak. Pada clustering, ditentukan labelnya
berdasarkan tingkat kemiripan data. Seperti pada gambar dibawah ini
terdapat 2 buah cluster,cluster pertama berada pada tingkat gemuk dan
sangat gemuk serta terletak pada usia muda dan paruh baya. Sedangkan
cluster kedua pada tingkat terlalu gemuk dan usia paruh baya dan tua,
maka dari hal tersebut dapat disimpulkan bahwa pada cluster kedua
merupakan pasien yang terkena hipertensi. Sedangkan pada cluster
pertama tidak.
Gambar 2.4 (Ali, 2006) hasil clusteringpada data hipertensi
2.3
Metode Clustering
2.3.1 Pengertian Clustering
Metode data mining yang akan dipakai adalah clustering.Clustering
merupakan proses pengelompokan objek yang sama menjadi satu kelompok,
sedangkan obyek diantara kelompok tersebut berbeda satu sama lain. Pada proses
clusteringmemilikicluster, yaitu kumpulan objek data yang sama satu sama lain
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
14
dalam cluster yang sama dan berbeda untuk objek dalam kelompok lain. Tujuan
dari cluster ini untuk menemukan kemiripan antara data, sesuai dengan
karakteristik yang ditemukan di dalam data dan pengelompokan data objek yang
sama ke dalam kelompok-kelompok tertentu (Han&Kamber.2004). Jadi, prinsip
dari clustering adalah memaksimalkan kesamaan antar anggota satu cluster dan
meminimumkan kesamaan antar cluster.
Pada clustering terdapat 2 jenis metode, yaituhierarchical clusteringdan
partition clustering. Hierarchical clusteringadalah teknik clustering yang
membentuk hirarki dimana data yang mirip akan ditempatkan pada hirarki yang
berdekatan dan yang tidak pada hirarki yang berjauhan. Metode ini terbagi
menjadi dua yaitu bottom-up (agglomerative) yang menggabungkan cluster kecil
menjadi cluster lebih besar dan top-down (divisive) yang memecah cluster besar
menjadi cluster yang lebih kecil. Sedangkan partition clustering adalah teknik
pengelompokan obyek ke dalam cluster tertentu dengan menentukan jumlah
cluster terlebih dahulu. Contohnya: algoritma K-Means dan Fuzzy K-Means.
Metode yang akan digunakan untuk penelitian ini menggunakan pendekatan
hirarki yaitu dengan menggunakan agglomerative hierarchical clustering.
Pemilihan metode agglomerative hierarchical clusteringkarena algoritmanya
yang
sederhana,
jarak
untuk
setiap
gejala
dapat
diketahui,
model
pengelompokannya dapat dilihat dengan dendrogram, dan tidak perlu menentukan
jumlah cluster yang diinginkan diawal. Metode tersebut bekerja dengan
mengelompokan data-data yang mirip ke dalam hirarki yang sama sedangkan
yang jauh dikelompokan pada hirarki yang berbeda. Agglomerative melakukan
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
15
proses clustering dari Ncluster menjadi satu kesatuan cluster, dimana N adalah
jumlah data. Jenis pengukuran jarak yang akan digunakan adalah single linkage,
average linkagedan complete linkage. Penggunaan tiga pengukuran kemiripan
jarak karena dapat mengetahui mana hasil yang terbaik dengan melihat
dendrogram yang dihasilkan.
a. Single linkage merupakan jarak minimum antara elemen dari setiap
cluster. Jarak antara dua cluster didefinisikan sebagai
d(A,B) =
min
{Sxy }
π‘₯πœ–π΄, π‘¦πœ–π΅
(2.3)
Keterangan :
-
Sxy merupakan jarak antara dua data x dan y dari masing cluster A
dan B.
b. Average linkagemerupakan rata-rata jarak antara elemen dari setiap
cluster pada setiap data. Jarak antar cluster didefinisikan sebagai,
𝑑 𝐴, 𝐡 =
1
𝑛𝐴 𝑛𝐡
𝑠{π‘₯, 𝑦}
π‘₯πœ–π΄ π‘¦πœ–π΅
(2.4)
Keterangan :
-
nA dan nB adalah banyaknya data dalam set A dan B.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
16
c. Complete linkagemelihat jarak maksimum antar elemen dalam cluster.
Jarak antar cluster didefinisikan sebagai,
d(A,B) =
max
{Sxy }
π‘₯πœ–π΄, π‘¦πœ–π΅
(2.5)
Keterangan :
-
Sxy merupakan jarak antara dua data x dan y dari masing cluster A
dan B.
Ketiga jenis pengukuran jarak tersebutmenggunakan prinsip jarak minimum
yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk
cluster yang pertama. Langkah selanjutnya dapat dipilih menjadi dua
kemungkinan, obyek ketiga akan bergabung dengan cluster yang telah terbentuk,
atau membentuk cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk
cluster tunggal. Hasil dari pengelompokan ini dapat ditampilkan dalam bentuk
dendrogram.
Gambar 2.5 : dendrogram
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
17
Pada dendrogram diatas terdapat jarak antar obyek. Garis vertikal
merupakan jarak, sedangkan garis horizontal merupakan obyek. Salah satu cara
untuk mempermudah pengembangan dendrogram untuk hierarchicalclustering ini
adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar
data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai
macam cara seperti :
a. Euclidean distance, pengukuran jarak yang biasa digunakan dan sering
disebut dengan formula phytagoras.
(2.6)
Keterangan :
-
n = jumlah atribut atau dimensi.
-
pkdan qk= data.
b. Minskowski distance, merupakan generalisasi dari euclidean matrix.
(2.7)
Keterangan :
1. r = parameter
2. n = jumlah dimensi atau atribut,
3. pk dan qk = obyek data p dan q
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
18
c. Simple Matching Coefficients, biasa digunakan jika data hanya memiliki
atribut bertipe biner. Cara kerjanya adalah jumlah data yang cocok
dibagi dengan jumlah atribut.
SMC = (M11+ M00 ) / (M01 + M10 + M11+ M00 )
(2.8)
Keterangan :
1. M01 = jumlah atribut dimana p = 0 dan q = 1
2. M10 = jumlah atribut dimana p = 1 dan q = 0
3. M00 = jumlah atribut dimana p = 0 dan q = 0
4. M11 = jumlah atribut dimana p = 1 dan q = 1
d. Jaccard Coefficient, biasa digunakan jika data hanya memiliki atribut
bertipe biner. Cara kerjanya adalah jumlah biner 1 dan 1 yang cocok
dibagi dengan jumlah nilai atribut yang keduanya tidak 0.
J = (M11) / (M01 + M10 + M11)
(2.9)
Keterangan :
1. M01 = jumlah atribut dimana p = 0 dan q = 1
2. M10 = jumlah atribut dimana p = 1 dan q = 0
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
19
3. M00 = jumlah atribut dimana p = 0 dan q = 0
4. M11 = jumlah atribut dimana p = 1 dan q = 1
2.3.2 Agglomerative Hierarchical Clustering
Pada agglomerative hierarchical clustering, harus dihitung jarak masingmasing obyek. Setelah jarak dari semua obyek dihitung, maka lakukan langkahlangkah berikut ini :
1. Biarkan setiap data point menjadi sebuah cluster
2. Hitung matriks kemiripan
3. Kelompokkan data paling mirip untuk dimasukan ke dalam cluster yang
sama dengan melihat jarak dalam matriks kemiripan
4. Perbarui matriks kemiripan dengan jarak yang baru.
5. Ulangi sampai tersisa hanya satu cluster. (Tan,Steinbach,dkk 2004).
Gambar 2.6 hasil ilustrasiclustering
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
20
Rumus yang digunakan dalam menghitung jarak antar obyek bermacammacam dan salah satu yang digunakan adalah euclidean distance. Pada tabel
dibawah ini merupakan contoh data yang belum dihitung jarak kedekatannya. Dari
tabel inilah dapat dihitung dengan menggunakan rumus euclidean distance.
Tabel 2.3 Contoh Data
Titik
X
Y
0.4
0.53
1
0.22
0.38
2
0.35
0.32
3
0.26
0.19
4
0.08
0.41
5
0.45
0.30
6
Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak. Dalam
matriks ini jarak dari setiap pasang obyek dihitung dan nilai dalam satu masukan
menunjukan jarak antar obyek dari indeks dari kolom dan baris. Matriks jarak ini
bersifat simetris.
1
2
3
4
5
6
1
0
0.24
0.22
0.37
0.34
0.23
Tabel 2.4 Contoh Matriks Similiarity
2
3
4
5
0.24
0.22
0.37
0.34
0
0.15
0.20
0.14
0.15
0
0.15
0.28
0.20
0.15
0
0.29
0.14
0.28
0.29
0
0.25
0.11
0.22
0.39
6
0.23
0.25
0.11
0.22
0.39
0
Untuk mengukur jarak antara dua cluster A dan B digunakan 3 pengukuran
kemiripan, yaitu :
a. Jarak minimum antara elemen dari setiap cluster (singlelinkage)
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
21
Pada single linkage, akan mengelompokan data dengan cara melihat jarak
yang paling minimum.
Gambar 2.7 : matriks jarak
Pertama gabungkan dua item yang paling dekat, karena objek 5 dan 3
memiliki jarak yang minimum, maka kedua obyek tersebut digabung
min(dik ) = d53 = 2 untuk membentuk cluster (35). Kemudian untuk
menemukan cluster berikutnya, maka memerlukan jarak-jarak antara
cluster (35) dan objek-objek yang lain yang tersisa yaitu 1, 2 dan 4. Jarak
yang berdekatan, yaitu :
-
d (35 )1 = min { d 31, d 51} = min {3, 11} = 3
-
d (35 )2 = min { d 32, d 52} = min {7, 10} = 7
-
d (35 )4 = min { d 34, d 54} = min { 9, 8} = 8
Kemudian menghapus baris dan kolom yang bersesuaian dengan objek 3,
5 dan untuk cluster (35), maka mendapatkan matrik jarak yang baru.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
22
Gambar 2.8 : matriks jarak keduasingle linkage
Dari matriks jarak yang baru tersebut, cari jarak terkecil antara pasanganpasangan cluster sekarang, yaitu d (35)1 = 3. Lalu menggabungkan cluster
(1) dengan cluster (35) untuk mendapatkan cluster berikutnya dengan
menghitung :
-
d (135 )2 = min { d (35)2, d 12} = min {7, 9} = 7
-
d (135 )4 = min { d (35)4, d 14} = min {8, 6} = 6
Kemudian hapus baris dan kolom dari cluster (35) dan (1), maka akan
mendapatkan matrik jarak untuk hasil cluster berikutnya, yaitu :
Gambar 2.9 : matriks jarak ketigasingle linkage
Jarak terdekat berikutnya yang paling kecil antara pasangan cluster adalah
(24) = 5. Kemudian gabung objek 4 dan 2 untuk mendapatkan cluster (24).
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
23
Saat ini sudah mempunyai 2 cluster yang berlainan, (135) dan (24), maka
jarak terdekatnya, yaitu
-
d (135 )24 = min { d (135 )2 , d (135 )4 } = min {7, 6} = 6
Proses perhitungan sudah selesai karena cluster sudah tersisa satu. Dari
hasil diatas menghasilkan matriks jarak yang terakhir dan dendrogramnya
sebagai berikut :
Gambar 2.10 : matriks jarak terakhirsingle linkage
Gambar 2.11: Dendrogram single linkage untuk jarak antara 5 obyek
b. Jarak maksimum antara elemen dalam cluster (complete linkage).
Pada complete linkage, semua item dalam satu cluster berada dalam jarak
paling jauh satu sama lain. Pada complete linkage ini menggunakan
matriks jarak pertama yang digunakan untuk menghitung single linkage.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
24
Pada tahap pertama objek- objek 3 dan 5 digabung karena jaraknya paling
dekat. Perbedaan single linkagedengan complete linkageadalah pemilihan
jaraknya. Setelah dihitung maka akan menghasilkan matriks jarak baru.
Kolom dan baris 3 dan 5 akan dihapus untuk membentuk cluster 35.
-
d (35 )1 = maks { d 31, d 51} = maks {3, 11} = 11
-
d (35 )2 = maks { d 32, d 52} = maks {7, 10} = 10
-
d (35 )4 = maks { d 34, d 54} = maks { 9, 8} = 9
Gambar 2.12 : matriks jarak keduacomplete linkage
Penggabungan berikutnya terjadi antara kelompok yang paling dekat 2 dan
4 untuk membentuk cluster (24) = 5. Pada tahap ini menghasilkan matrik
jarak yang baru dengan menghapus baris dan kolom yang bersesuaian.
-
d (24)(35) = maks { d 2(35), d 4(35)} = maks {10, 9} = 10
-
d (24)1 = maks { d 21, d 41} = 9
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
25
Gambar 2.13: matriks jarak ketigacomplete linkage
Penggabungan berikutnya menghasilkan cluster (124). Pada tahap akhir
kelompok (35) dan (124) digabungkan menjadi cluster tunggal (12345)
pada perhitungan d (124)(35) = maks { d (1)(35) , d (24)(35) } = maks {11,
10} = 11. Dari hasil inilah maka dapat dibuat bentuk dendrogramnya
seperti pada gambar dibawah ini.
Gambar 2.14 : dendrogram complete linkage untuk jarak 5 objek
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
26
c. Rata-rata jarak antara elemen dari setiap cluster (average linkage).
Pada average linkage, jarak antara dua cluster dihitung sebagai jarak ratarata antara semua pasangan item-item yang ada pada tiap cluster. Pada
average linkageini juga masih menggunakan matriks jarak pertama. Pada
tahap pertama objek 3 dan 5 digabung karena mereka paling dekat
jaraknya. Pada tahap kedua, hitung jarak seperti dibawah ini.
-
d (35 )1 = { d 31+ d 51}/ 2 = {3 +11}/ 2 = 7
-
d (35 )2 = { d 32 + d 52}/2 = {7 + 10}/2 = 8,5
-
d (35 )4 = { d 34 + d 54}/2 = { 9 + 8}/2 = 8,5
0
Gambar 2.15 : matriks jarak keduaaverage linkage
Kemudian cari jarak yang paling dekat berikutnya. Kelompok yang paling
mirip adalah 2 dan 4 untuk membentuk cluster (24) = 5. Pada tahap ketiga,
hitung gabungan cluster untuk menghasilkan matrik jarak yang baru.
-
d (24)35 = {d (2,3) + d(2,5) + d(4,3) +d(4,5) }/4 = (7+10+9+8)/4 = 8,5
-
d (24)1 = { d (2,1) + d (4,1) }/2 = (9+6)/2 = 7,5
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
27
0
0
Gambar 2.16: Matriks jarak ketigaaverage linkage
Pada tahap ini, jarak yang paling dekat menghasilkan cluster (135).
Kemudian cluster (135) dan (24) digabungkan menjadi cluster tunggal
(13524). Perhitungan ini akan menghasilkan matriks jarak baru dan
dendrogram.
-
d (135)(24)
= { d (2,1)+ d (2,3) + d (2,5) + d (4,1)+ d (4,3) + d
(4,5) }/6 = 49/6 =8,17
Gambar 2.17: matriks jarak terakhir average linkage
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
28
Gambar 2.18 : Dendrogram average linkage untuk jarak 5 obyek.
Setelah proses perhitungan dengan single linkage, average linkage dan
complete
linkage,
pengelompokkan
dari
maka
hasil
dibuatkan
perhitungan
dendrogram
tersebut.
untuk
Pada,
mengetahui
agglomerative
hierarchical clustering, dapat menentukan jumlah cluster dengan cara memotong
dendrogram pada jarak tertentu. Contohnya pada gambar dibawah ini. Pada
gambar 2.21 dapat dilihat bahwa cluster terbagi menjadi 2. Cluster 1 berisi obyek
1, 3 dan 5, sedangkan cluster 2 berisi obyek 2 dan 4.
Cut off
Gambar 2.19 : Dendrogram yang sudah dilakukan pemotongan (cut-off)
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2.4
29
Dimensionality Reduction
Dimensionality reduction adalah proses pengurangan dimensi dari data yang
berdimensi besar menjadi data yang berdimensi kecil. Ada dua teknik dalam
dimensionality reduction ini, yaitu feature selection dan feature extraction.
Feature selection, memilih feature yang berpengaruh dari sekumpulan data asli.
Feature extraction, membentuk feature baru berdasarkan feature yang lama
dengan dimensi yang lebih sedikit dibandingkan dengan sebelumnya.
Teknik yang digunakan adalah featureextraction dengan principal
component analysis. Tujuan dari principal component analysis adalah
mengekstrak informasi yang paling penting dari dataset, mengompres ukuran dari
dataset dengan hanya menjaga informasi yang penting, menyederhanakan
deskripsi dari dataset dan menganalisa struktur dari observasi dan variable
(Herve,Lynne2010). Dalam pencapaian tujuan diatas, principal component
analysis menghitung variabel baru yang disebut dengan principal component yang
diperoleh sebagai kombinasilinear dari variabel yang asli.Principal component
analysis menganalisa semua variance di dalam variabel dan mengatur ulang ke
dalam sekumpulan komponen yang baru yang sama dengan jumlah variabel asli.
Cara kerja dari principal component analysis, antara lain :
1.
Pada data matrix, kurangi rata-rata dari setiap dimensi data (scalling).
2.
Hitung covariance matrix dari kumpulan data matrix.
3.
Hitung eigenvector dan eigenvalue dari covariance matrix.
4.
Pilih component dan bentuk vector feature dan ambil principal
component dari eigenvector yang memiliki eigenvalue paling besar
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
5.
2.5
30
Menurunkan data set yang baru. (Smith, 2002).
Penyakit Hepatitis
Penyakit hepatitisadalah penyakit yang disebabkan oleh beberapa jenis virus
yang menyebabkan peradangan serta merusak sel-sel organ hati manusia. Penyakit
hepatitis mempunyai tipe-tipe yang berbeda, antara lain hepatitis A, hepatitis B,
hepatitis C, hepatitis D, hepatitis E, hepatitis F dan hepatitis G. Hepatitis A
merupakan tipe hepatitis yang paling ringan, sedangkan hepatitis B merupakan
tipe hepatitis yang berbahaya. Sebanyak 50 persen atau 15 juta penderita hepatitis
B dan C di Indonesia akan menjadi penyakit hati kronik dan 10 persen menjadi
liver fibrosis dan kanker hati (dimyati, 2011). Istilah hepatitisberasal dari bahasa
latin yang dipakai untuk semua jenis peradangan pada hati (Wening Sari,
2008:10). Penyebabnya dapat berbagai macam, mulai dari virus, komplikasi dari
penyakit lain, alkohol, obat-obatan atau zat kimia sampai karena penyakit
autoimun (Wening Sari, 2008:16).
Hepatitis merupakan penyakit yang sangat menarik untuk dijadikan bahan
penelitian. Sebelumnya sudah ada penelitian yang membahas permasalahan
hepatitis ini. Perbedaan antara penelitian ini dengan penelitian sebelumnya adalah
metode yang digunakan. Metode yang digunakan adalah classification dengan
algoritma Naïve Bayesian. Hasil dari penelitian tersebut memiliki nilai akurasi
yang tergolong rendah. Akurasi per gejala menghasilkan 44,44 persen, sedangkan
kombinasi gejala menghasilkan akurasi 51,11 persen. Penulis beranggapan bahwa
rendahnya hasil akurasi disebabkan oleh kurangnya featureatau atribut dari data
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
31
hasil pemeriksaan laboratorium. Berdasarkan dari penelitian sebelumnya, maka
penelitian ini akan memakai data hasil pemeriksaan laboratorium sehingga hasil
akurasi yang didapatkan akan tinggi.
Penyakit yang akan dijadikan bahan penelitian adalah hepatitis karena
penyakit tersebut memiliki banyak tipe dan sulit untuk menggolongkan pasien
termasuk dalam tipe hepatitisyang ada karena memiliki gejala yang hampir sama.
Pada penelitian ini terbatas untuk hepatitis A, B dan C saja. Berikut ini
merupakan penjelasan mengenai hepatitistipe A, B dan C.
a. Hepatitis A
Hepatitis A adalah golongan penyakit Hepatitis yang ringan dan
jarang sekali menyebabkan kematian. Virus hepatitis A penyebarannya
melalui kotoran atau tinja penderita yang penularannya melalui makanan
dan minuman yang terkontaminasi dan bukan melalui aktivitas seksual atau
melalui darah. Penyakit Hepatitis A memiliki masa inkubasi dari 2 sampai 6
minggu sejak penularan terjadi. Kemudian penderita menunjukkan beberapa
tanda dan gejala terserang penyakit Hepatitis A. Pada gejala penyakit Hepatitis
A diantaranya yaitu pada minggu pertama, individu yang dijangkit akan
mengalami sakit seperti kuning, keletihan, demam, hilang selera makan,
muntah, pusing dan kencing yang berwarna hitam pekat. Demam yang terjadi
adalah demam yang terus menerus, tidak seperti demam yang lainnya yaitu
demam berdarah, TBC, dan thpyus.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
32
b. Hepatitis B
Hepatitis B merupakan salah satu penyakit menular yang tergolong
berbahaya didunia. Penyakit ini disebabkan oleh virus hepatitis B yang
menyerang hati dan menyebabkan peradangan hati akut, seperti hepatitis C,
kedua penyakit ini dapat menjadi kronis dan akhirnya menjadi kanker hati.
Proses penularan hepatitis B yaitu melalui pertukaran cairan tubuh atau kontak
dengan darah dari orang yang terinfeksi hepatitis B. Ada beberapa hal yang
menjadi pola penularan antara lain penularan dari ibu ke bayi saat
melahirkan, hubungan seksual, transfusi darah, jarum suntik, maupun
penggunaan alat kebersihan diri secara bersama-sama. Hepatitis B dapat
menyerang siapa saja, akan tetapi umumnya bagi mereka yang berusia
produktif akan lebih beresiko terkena penyakit ini. Pada gejala penyakit
Hepatitis B, secara khusus tanda dan gejala terserangnya hepatitis B yang
akut adalah demam, sakit perut dan kuning (terutama pada area mata yang
putih atau sklera). Namun, bagi penderita hepatitis B kronik akan cenderung
tidak tampak tanda-tanda tersebut, sehingga penularan kepada orang lain
menjadi lebih beresiko.
c. Hepatitis C
Penyakit hepatitis C adalah penyakit hati yang disebabkan oleh virus
hepatitis C. Proses penularannya melalui kontak darah seperti transfusi, jarum
suntik. Penderitahepatitis C kadang tidak menampakkan gejala yang jelas, akan
tetapi pada penderita Hepatitis C kronik menyebabkan kerusakan sel-sel hati
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
33
dan terdeteksi sebagai kanker hati. Sejumlah 85% dari kasus, infeksi hepatitis
C menjadi kronis dan secara perlahan merusak hati selama bertahun-tahun.
Penderita sering kali tidak menunjukkan gejala, walaupun infeksi telah terjadi
bertahun-tahun lamanya. Namun, beberapa gejala yang samar diantaranya
adalah lelah, hilang selera makan, sakit perut, urine menjadi gelap dan kulit
atau mata menjadi kuning yang disebut jaundice. Pada beberapa kasus dapat
ditemukan
peningkatan
enzyme
hati
pada
pemeriksaan
urine,
Pemeriksaan laboratorium diperlukan untuk memastikan diagnosis hepatitis
karena gejalahepatitis tidak khas. Berikut ini, tahap-tahap pemeriksaan untuk
hepatitis yang harus dilalui selain melihat dari sisi gejala yang tampak dari luar
(Marzuki Suryaatmadja, 2010).
1. Pemeriksaan untuk hepatitis akut:
ο‚·
Enzim SGOT, SGPT
ο‚·
Penanda hepatitis A (Anti HAV IgM)
ο‚·
Penanda hepatitis B (HbsAg, Anti HBc IgM)
ο‚·
Penanda hepatitis C (Anti HCV, HCV RNA)
2. Pemeriksaan untuk hepatitis kronis:
ο‚·
Enzim SGOT, SGPT.
ο‚·
Penanda hepatitis B (HbsAg, Hbe, Anti H Bc, Anti Hbe, HBV DNA).
ο‚·
Penanda hepatitis C (Anti HCV, HCV RNA).
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
2.6
34
Pengujian Keakuratan Metode
Pengujian keakuratan hasil pengelompokan hepatitis ini penting agar
hasilnya lebih valid. Oleh karena itu diperlukan suatu metode untuk mengetahui
keakuratan hasil yang telah diperoleh. Pada clustering biasanya menggunakan 3
pendekatan untuk memastikan bahwa proses clustering tepat. Tiga pendekatan itu
adalah external test, internal test dan relative test.
a.
Pengujian dengan metode external test, pada pengujian ini digunakan
untuk mengukur sejauh mana label pada cluster cocok dengan label class
yang disediakan. Seperti pada tabel 2.5 terdapat tabel untuk mengevaluasi
cluster. Kolom mewakili jenis hepatitis, sedangkan baris mewakili
kelompok clustering. Contohnya menggunakan confusion matrix, entropy
dan purity. Rumus yang digunakan untuk menghitung akurasi dengan
confusion matrix, yaitu :
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
π½π‘’π‘šπ‘™π‘Žβ„Ž π‘π‘’π‘›π‘Žπ‘Ÿ π‘ π‘’π‘‘π‘–π‘Žπ‘ cluster
π‘₯ 100 %
π½π‘’π‘šπ‘™π‘Žβ„Ž π‘‘π‘Žπ‘‘π‘Ž
(2.7)
Tabel 2.5 : Cluster evaluation
hepatitis
A
B
C
1
X
X
X
2
X
X
X
3
X
X
X
kelompok
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
b.
35
Pengujian dengan metode internal test, pada pengujian ini penyelesaian
cluster digunakan untuk melihat kualitas cluster tanpa informasi yang
berasal dari luar (external). Contoh pengukuran pada internal test, yaitu
cluster separation dan cluster cohesion.
a) Cluster cohesion adalah jumlah dari lebar semua link yang ada di
dalam cluster. Cohesion adalah pengukuran di dalam cluster
dengan sum of square (SSE).
WSS ο€½ οƒ₯ οƒ₯ ( x ο€­ mi ) 2
xοƒŽCi
i
(2.6)
b) Cluster separation, pengukuran antar cluster dengan sum of
square (SSE).
BSS ο€½ οƒ₯ Ci (m ο€­ mi ) 2
i
(2.7)
c.
Pengujian dengan metode relative test, pada pengujian ini beberapa
penyelesaian cluster yang berbeda dari data dibandingkan dengan
menggunakan algoritma yang sama dengan parameter yang berbeda. Pada
relative test ini sering menggunakan external index atau internal index
untuk mengukurnya. Contohnya dengan SSE atau entropy.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
36
Metode evaluasi untukclustering yang akan digunakan pada penelitian ini adalah
external test. External test bekerja dengan membandingkan hasil clustering yang
sudah didapat dengan class label yang sudah disediakan. Jadi dapat dilihat tingkat
kecocokan hasil clustering yang ada dengan label yang sudah tersedia. Hasil
pengelompokkan juga akan dihitung akurasinya sehingga dengan akurasi tersebut
dapat terlihat bagus atau tidaknya hasil pengelompokkan yang didapat.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
BAB III
METODOLOGI PENELITIAN
Pada bab ini menjelaskan mengenai data yang digunakan pada penelitian dan
mengenai metode pengumpulan data. Selain itumembahas mengenai teknik
analisis dan evaluasi hasil.
3.1
Data
Pada penelitian yang dilakukan ini menggunakan data pasien yang berupa
data hasil laboratorium dan data dari hasil pemeriksaan dari dokter. Data
penelitian ini didapat dari rumah sakit di Yogyakarta. Data yang digunakan adalah
data gejala dan data laboratorium. Data hasil laboratorium sangat penting karena
hasil ini sangat berpengaruh langsung pada diagnosis akhir. Data gejala hasil
pemeriksaan dokter juga sama pentingnya untuk memberikan diagnosa awal pada
pasien tersebut dan dapat memperkuat hasil dari diagnosa akhir.
Data hasil pemeriksaan dokter yang dikumpulkan adalah hasil diagnosa
pada pasien dari tahun 2000 sampai dengan 2010. Data ini berupa data diri pasien,
gejala, diagnosa awal dan akhir. Data pasien yang digunakan terbatas pada pasien
yang terkena hepatitisA, B dan C.Sebelumnya, data gejala ini dipakai oleh
Karunia Estu pada skripsinya yang berjudul “Sistem diagnosa penyakit hepatitis
dengan menggunakan metode Naïve Bayesian”. Pada data hasil pemeriksaan
dokter yang digunakan terdapat 5 induk gejala, yaitu gejala otot, gejala perut,
gejala kulit, gejala mata dan gejala mirip flu. Jumlah data yang akan dipakai
sebanyak 110.
37
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
38
Data hasil laboratorium merupakan hal yang sangat penting untuk
menetapkan pasien tersebut terkena hepatitis tipe tertentu. Pemeriksaan
laboratorium dibagi menjadi dua, yaitu kualitatif dan kuantitatif. Pada
pemeriksaan kualitatif hanya menetapkan bahwa pasien tersebut positif atau
negative terkena hepatitis, sedangkan pemeriksaan kuantitatif memiliki ukuran
atau kadar yang berasal dari penanda hepatitis. Pemeriksaan laboratorium untuk
hepatitis meliputi pemeriksaan fungsi hati, yaitu SGOT dan SGPT.Selain itu,
pemeriksaan yang paling penting untuk hasil diagnosa akhir adalah penanda
hepatitis, yaitu anti HAV untuk hepatitis A, HBsAg untuk hepatitis B dan anti
HCV untuk hepatitis C.
3.2
Metode Pengumpulan Data
Data- data yang digunakan dalam penelitian ini menggunakan data yang
didapat dari hasil laboratorium dan hasil wawancara dengan dokter. Pada
pembuatan sistem data mining untuk pengelompokan data penyakit hepatitis
dengan menggunakan metode data mining, menggunakan beberapa teknik
pengumpulan data dan variabel, yaitu :
1. Studi kepustakaan.
Proses ini digunakan untuk mendapatkan informasi tentang penyakit
hepatitis dan metode-metode data mining yang akan digunakan untuk
memecahkan masalah. Buku-buku yang akan digunakan terkait dengan
data mining dan aplikasinya.
2. Mengadakan wawancara dengan dokter terkait dengan penjelasan
penyakit hepatitis dan gejala-gejalanya.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
39
Wawancara yang akan dilakukan ini secara lisan dan mempunyai tujuan
untuk mengetahui mengenai penyakit hepatitis itu beserta dengan gejala.
Tujuannya agar lebih mudah memahami mengenai penyakit hepatitis itu
sendiri yang nantinya dapat berguna dalam menentukan atribut untuk
menganalisa data-data pasien.
3. Mengajukan permohonan untuk meminta data sample pasien yang
berobat untuk mengetahui penyakit hepatitis yang diderita.
Proses pengajuan untuk meminta data pasien perlu dilakukan karena
data-data pasien yang ada tidak dapat secara langsung disebarluaskan
karena bersifat pribadi, maka diperlukan adanya surat izin untuk meminta
data pasien hepatitis.
3.3
Teknik Analisa Data
Sumber data yang digunakan diperoleh dari survey lapangan di rumah sakit.
Data yang akan diambil berupa hasil pemeriksaan laboratorium yang ditunjukan
oleh setiap pasien kepada dokter yang berobat di rumah sakit yang bersangkutan.
Sumber data ini akan terbatas pada data-data pasien yang hasil diagnosa akhirnya
terkena hepatitisA, B maupun C. Data-data yang sudah didapat akan dianalisa
untuk diketahui jenis pengelompokan berdasarkan tipe penyakitnya. Tahap-tahap
jalannya program, sebagai berikut.
Data
Preprocessing
Perhitun
gan jarak
Clustering
Output
Dendrogram
Akurasi
Single
Average
Complete
Gambar 3.1 Diagram blok proses clustering
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
40
a. Preprocessing
Data yang sudah dikumpulkan masuk pada tahap preprocessing yang ada
padaknowledge discovery in databases, yaitu data cleaning, data integration,
data selectiondan data transformation. Data gejala pasien hepatitis masih
terpisah berdasarkan hasil identifikasi penyakit antara satu sama lain sehingga
perlu digabungkan untuk mempermudah proses pengelompokkan seperti pada
tabel dibawah ini.
Tabel 3.1 Data gejala hepatitis
Feature
No
gejala
otot
1
Normal
2
Normal
3
Normal
4
Pegal
5
Normal
6
Normal
7
linulinu
gejala perut
muntah,mual,nyeri
perut sebelah
kanan,nafsu makan
berkurang
muntah,mual,nafsu
makan berkurang
muntah,kembung,mu
al, nyeri perut
sebelah kanan, nafsu
makan berkurang
mual, nyeri perut
sebelah kanan
muntah,kembung,
nafsu makan
berkurang,perut_acit
es
nyeri perut sebelah
kanan
muntah,mual, nafsu
makan
berkurang,perut_acit
es
hasil
Identifika
si
gejala
kulit
gejala
mata
gejala mirip
flu
Normal
kuning
Normal
normal
demam,batuk
demam,pusing
batuk
Gatal
kuning
demam,pusing,
lesu,batuk
B
Normal
normal
lesu,batuk
B
Normal
normal
C
Normal
normal
lesu
demam,pusing,
lesu
Normal
normal
demam,pusing,
batuk
A
A
C
C
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
41
Dari data diatas gejalanya dikelompokkan menurut gejala masing-masing
seperti gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu.
Setelah itu menjabarkan masing-masing gejala seperti pegal, nyeri sendi dan
normal untuk gejala otot. Gejala mual, muntah, diare, nyeri perut sebelah
kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites untuk
gejala perut. Gejala normal, kuning, lembab, gatal, kemerahan, kering untuk
gejala kulit. Gejala normal dan kuning untuk gejala mata Sedangkan gejala
demam, pusing, lesu, mialgia, lelah, menggigil, dan batuk untuk gejala mirip
flu. Dari gejala-gejala tersebut dilakukan proses binerisasi yang sudah
dilakukan pada penelitian Karunia Estu.
Kemudian, selain data gejala ditambahkan pula data laboratorium dengan
atribut SGOT, SGPT, anti HAV, HbsAg dan Anti HCV. Gejala laboratorium
memiliki range yang berbeda-beda sehingga perlu untuk di normalisasi agar
rentang nilai antar data tidak jauh. Jenis normalisasi yang diberikan adalah
zscore atau normalisasi [0-1]. Selain itu, pengurangan dimensi dengan
principal component analysis dapat dilakukan agar mengurangi dimensi data
tetapi tidak menghilangkan informasi penting yang terkandung pada data.
b. Pengukuran jarak
Data yang sudah di preprocessing akan dilakukan pengukuran jarak antar
data dengan menggunakan salah satu dari pilihan pengukuran jarak. Seperti
yang sudah dijelaskan pada bab sebelumnya. Ada pengukuran dengan
euclidean distance, minkowski distance, simple matching coefficients
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
42
danjaccard coefficients. Hasil dari pengukuran jarak ini berupa matriks jarak
antar obyek data.
c. Clustering
Hasil dari matriks jarakakan masuk pada tahap clustering. Metode yang
dipakai untuk menyelesaikan pengelompokan data-data pasien yang terkena
hepatitis dengan memakai agglomerativehierarchical clustering. Data pasien
yang akan terkumpul pada masing-masing cluster menggunakan metode
pengukuran kemiripan single linkage (jarak minimum), average linkage (jarak
rata-rata) dan complete linkage (jarak maksimum)dengan memilih jarak
minimum atau yang paling mirip untuk tiap data.Berikut ini adalah tabel untuk
jarak keseluruhan antara ke enam data sample yang sudah dihitung dengan
menggunakan rumus jarak euclidean distance.
Tabel 3.2: Contoh matriks jarak dengan Euclidean distance
1
2
3
4
5
6
1
0
2
2.236068
2.828427
3
3
2
3
4
5
6
0
2.645751
0
2.828427 3.316625
0
2.645751 3.162278
3
0
2.645751 3.162278 2.64575131 2.828427
0
1. Pengukuran jarak dengan single linkage merupakan pengukuran jarak
minimum antara elemen dari setiap cluster. Dari matriks jarak yang ada,
jarak yang paling minimum adalah 2 yang didapat dari obyek 1 ke 2.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
43
Kemudian pasangkan obyek data lainnya dengan jarak yang minimum
agar mendapatkan hasil jarak baru pada matriks jarak dan masuk ke
dalam cluster.Hasil jarak baru yang sudah didapat, akan membentuk
matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut.
Gambar 3.2 : Dendrogram singlelinkage
2. Pengukuranaverage linkage yang merupakan pengukuran rata-rata jarak
antara elemen dari setiap cluster. Dari matriks jarak yang ada, jarak yang
paling minimum adalah 2 dari obyek 1 ke 2. Kemudian pasangkan
dengan seluruh data agar didapat hasil jarak baru pada matrik jarak dan
keseluruhan data sudah masuk ke dalam cluster.Pada average
linkageumlah jarak antar data dibagi dengan jumlah anggota di
dalamcluster. Hasil jarak baru yang sudah didapat, akan membentuk
matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
44
Gambar 3.3 : Dendrogram untuk average linkage
3. Pengukuran complete linkagemerupakan pengukuranyang melihat jarak
maksimum antar elemen dalam cluster. Dari matriks jarak yang ada,
jarak yang paling minimum adalah 2 dari obyek 1 ke 2. Pemilihan jarak
diawal tiap iterasi tetap nilai yang paling minimum, sedangkan untuk
perhitungan kemiripan menggunakan nilai yang paling maksimum.
Pasangkan dengan seluruh data agar didapat hasil jarak baru pada matriks
jarak dan keseluruhan data sudah masuk ke dalam cluster.Hasil jarak
baru yang sudah didapat, akan membentuk matriks jarak baru sehingga
dapat dibentuk dendrogram, sebagai berikut.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
45
Gambar 3.4 : dendrogram untuk complete linkage
4. Menentukan jumlah cluster dari hasil dendrogram yang ada. Pada kasus
ini akan dibuat 3 cluster, yaitu hepatitisA, B dan C. Kemudian dapat
dilakukan proses cut-off atau pemotongan pada dendrogram pada
ketinggian atau jarak tertentu agar terbentuk menjadi tigacluster. Selain
itu, dapat dilakukan dengan proses maxclust, yaitu proses yang
membatasi terbentuknya cluster hanya tiga cluster.
Tabel 3.3 Hasilcluster
Kelompok 1
Kelompok 2
Kelompok 3
1
4
5
2
6
3
d. Perhitungan Akurasi
Seterlah dendrogram ditampilkan, maka pengujian akurasi dilakukan agar
dapat mengetahui keakuratan hasil pengelompokkan. Tabel yang digunakan
adalah tabel evaluasi cluster untuk mengetahui keakuratan hasil yang didapat
dengan metode agglomerative hierarchical clustering dalam mengelompokan
penyakit hepatitis A, B dan C. Evaluasi ini dilakukan dengan cara
membandingkan hasil penggelompokan dengan agglomerative hierarchical
clustering dengan data asli. Hasil yang didapat dari penelitian perlu dievaluasi
agar hasil yang diperoleh dapat mencapai tujuan yang ingin dicapai pada
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
46
penelitian ini. Berikut ini adalah tabel evaluasi cluster dari perhitungan
sebelumnya. Kolom pada tabel mewakili tipe hepatitis dan baris mewakili
kelompok.
Tabel 3.4 : confusion matrix
hepatitis
A
B
C
1
2
1
0
2
0
1
1
3
0
0
1
kelompok
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
4
∗ 100 % = 66, 67%
6
3.4 Design UserInterface
Design interface sistem identifikasi penyakit hepatitis dengan menggunakan
algoritma agglomerative hierarchical clusteringini memiliki tampilan seperti
dibawah ini :
a.
Halaman utama
Pada halaman utama ini terdiri dari gambar icon, judul, menu file dan
help.
Pada menu file terdiri dari sub menu preprocessing dan
clustering.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
47
Gambar 3.5 Halaman Utama
b.
Halaman preprocessing
Pada halaman processing ini terdapat fungsi untuk mencari file yang
bertipe .csv. Kemudian ada pilihan untuk memilih jenis normalisasiserta
pilihan untuk memasukan jumlah principal component untuk dilakukan
proses principal component analysisyang kemudian hasilnya akan
disimpan dalam file yang bertipe .csv.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
48
Gambar 3.6 Halaman Preprocessing
c.
Halaman Clustering
Pada halaman clustering ini terdapat fungsi untuk mencari file yang
bertipe .csv dan menampilkannya pada tabel, memilih jenis perhitungan
kedekatan, menampilkan dendrogram dan menghitung akurasi.
Gambar 3.7 Halaman Clustering
d.
Halaman Help
Pada fungsi help ini menjelaskan mengenai cara-cara penggunaan
program pada masing-masing submenu. Fungsi help ini ditampilkan
berupa file berformat .pdf.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
3.5
49
Spesifikasi Software dan Hardware
Spesifikasi software dan hardware yang digunakan dalam implementasi
sistem identifikasi penyakit hepatitis dengan agglomerative hierarchical
clustering ini, sebagai berikut :
1.
2.
Software :
a.
Sistem Operasi : Microsoft Windows 7 ultimate 32-bit
b.
Bahasa pemrograman : Matlab Student Version
Hardware :
a.
Processor : Intel(R) Core(TM) 2 Duo CPU T6400 @ 2.00GHz
b.
Memory : 2 GB
c.
Harddisk : 320 GB
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
BAB IV
IMPLEMENTASI DAN ANALISA HASIL
Pada penelitian ini membahas mengenai hasil pengelompokkan penyakit hepatitis
dengan agglomerative hierarchical clustering. Selain itu implementasi program
pengelompokkanjuga dijelaskan dalam bab ini. Pada bab ini juga akan membahas
hasil akurasi yang didapat dengan agglomerative hierarchical clustering.
4.1
Hasil Penelitian dan Analisa
Penelitian yang telah dilakukan ini menggunakan 110 data yang terdiri dari
hepatitis A, B, dan C. Data gejala sudah digabungkan dengan data dari
laboratorium hepatitis sehingga total atributnya adalah 31. Atribut yang baru ini
antara lain SGOT, SGPT, bilirubin direk, bilirubin indirek, anti HAV, HBsAg dan
Anti HCV. Atribut tersebut merupakan pemeriksaan yang dilakukan untuk
melihat fungsi hati yang berkaitan dengan penyakit hepatitis.
Tabel 4.1 Deskripsi data gejala hepatitis
No.
Gejala
Keterangan
1.
Otot
Pegal, nyeri sendi, normal dan linu-linu.
2.
Perut
Muntah, diare, kencing berwarna gelap, nyeri perut sebelah
kanan, nafsu makan berkurang dan perut acites.
3.
Kulit
Normal, kuning, lembab, gatal, kemerahan, dan kering.
4.
Mata
Normal dan kuning.
5.
Mirip flu
Demam, pusing, lesu, mialgia, lelah, menggigil dan batuk.
50
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
51
Tabel 4.2 Deskripsi data gejala laboratorium hepatitis
No.
Gejala
Keterangan
1.
Fungsi hati
SGOT, SGPT, bilirubin direk, bilirubin
indirek, albumin, globulin.
2.
Penanda
Anti HAV, HBsAg dan Anti HCV
Hepatitis
Data laboratorium yang akan digunakan adalah SGOT, SGPT, anti HAV,
HBsAg dan Anti HCV. Pemeriksaan bilirubin direk, bilirubin indirek, albumin,
dan globulin tidak digunakan karena tidak semua pasien menjalani pemeriksaan
laboratorium tersebut. Alasan lain karena menurut dokter Tri Joko selaku kepala
laboratorium di rumah sakit di Yogyakarta bahwa pemeriksaan yang paling
penting adalah SGOT, SGPT dan penanda hepatitis. Pemeriksaan SGOT dan
SGPT ini memiliki normal range yang berbeda antara pria dan wanita. Pada pria
memiliki range SGOT 0-37 dan SGPT 0-42. Pada wanita memiliki range SGOT
0-32 dan SGPT 0-31. Pemeriksaan pada penanda hepatitis Anti HAV, HBsAg dan
Anti HCV berbeda-beda alat dan satuannya. Pemilihan alat periksa data
laboratorium tergantung dari dokter yang memeriksa pasien sehingga antara
pasien yang satu dengan yang lain tidak sama alat periksanya.
Data pasien yang telah digabung dengan data laboratorium ini disimpan
dalam file berformat .xls. Data masing-masing pasien dipisahkan menurut jenis
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
52
hepatitis A, B dan C. Pada sheet pertama, terdapat data 40 pasien hepatitis A,
sheet kedua 40 data pasien hepatitis B, dan sheet ketiga berjumlah 30 pasien
hepatitis C. Jadi, total keseluruhan pasien ada 110 data yang akan dilakukan
proses pengelompokan.
4.2
Preprocessing Data
Data-data yang digunakan dalam penelitian ini merupakan data pasien yang
berobat dari tahun 2002 sampai 2010 yang diambil secara random. Data yang
diambil adalah data hasil laboratorium, yaitu SGOT, SGPT, anti HAV, HBsAg
dan Anti HCV. Tahap pertama yang dilakukan sebelum melakukan proses data
mining adalah preprocessing pada data pasien terlebih dahulu. Langkah-langkah
preprocessing yang dilakukan antara lain :
1. Data Cleaning
Pembersihan data merupakan tahap awal dalam proses penambangan
data. Data yang didapatkan tidak langsung dapat digunakan karena banyak
data yang tidak lengkap. Pertama data-data yang tidak lengkap
dikumpulkan sesuai dengan jenis hepatitis. Kedua, data yang tidak
memenuhi kriteria tidak akan digunakan sehingga total data yang akan
digunakan adalah 110 dari 130 data yang dicatat.
2. Data Integration
Data yang sudah dilakukan proses pembersihan akan digabung sesuai
dengan tipe hepatitis dan akan disimpan ke dalam satu tempat
penyimpanan yang sama yang bertipe .csv. Data yang sudah digabung
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
53
antara hepatitis A, B dan C akan mempermudah proses clustering.
3. Data Transformation
Data yang sudah terkumpul dalam satu tempat akan ditransformasi
kedalam bentuk yang tepat untuk di tambang. Data pasien hepatitis ini
memiliki rentang nilai yang jauh antara nilai satu dengan yang lain
sehingga perlu dilakukan proses normalisasi agar datanya menjadi
seimbang dan berada dalam range yang sudah ditetapkan. Normalisasi
yang digunakan adalah [0-1] dan zscore.
Normalisasi [0-1] dilakukan pada atribut SGOT dan SGPT dan data
gabungan antara gejala dan laboratorium. Atribut SGOT dan SGPT yang
memiliki range yang berbeda antara pria dan wanita. Range normal SGOT
wanita berkisar antara 0-32. Sedangkan normal SGOT pria berkisar antara
0-37. Range normal SGPT wanita berkisar antara 0-31. Sedangkan range
normal SGPT pria berkisar antara 0-42. SGOT dan SGPT masing-masing
wanita dan pria akan di normalisasi sesuai dengan rangenya. Berikut ini
data SGOT dan SGPT sebelum dan sesudah di normalisasi.
Tabel 4.3 SGOT dan SGPT sebelum dan sesudah dinormalisasi
Sebelum
SGOT
163.8
273.9
1092
340.4
SGPT
Sesudah
SGOT
756.3 2.619421
4.5934
460.8
1710.7 19.26108
639.1 4.615795
SGPT
10.69117
6.427688
24.46128
7.895486
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
100.1
44.9
302.2
26.3
402.7 1.477347
344 0.487668
561.1 5.10079
57.9 0.154189
54
5.589419
4.742494
7.87482
0.614634
Penanda hepatitis A, B dan C, yaitu anti HAV igm, HBsAg, dan anti
HCV juga akan dinormlisasi. Hal tersebut karena alat yang digunakan
untuk memeriksa data laboratorium berbeda dan satuannya pun berbeda
sehingga range antara satu data dan lainnya menjadi jauh. Contohnya ada
yang bernilai 4,78 dan ada yang bernilai 1955. Salah satu penyelesaiannya
adalah mengubah data tersebut menjadi bilangan biner 0 dan 1. Bilangan 1
berarti pasien tersebut terkena penyakit hepatitis A, B atau C, sedangkan 0
berarti pasien tersebut tidak terkena penyakit hepatitis A, B atau C.
Tabel 4.4 Penanda hepatitis sebelum dan sesudah normalisasi
Sebelum
Anti
HaV
HBsAg
2.67
0
3.12
0
4.74
3.37
3.24
3.43
2.57
1.55
2.8
3.84
0
0
0
0
0
0
0
0
0
0
0
0
1955
18.89
17.22
20.2
Sesudah
Anti
HCV
Anti
HaV
0
0
0
0
0
0
0
0
0
0
0
0
0
0
HBsAg
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
1
0
0
0
0
0
1
1
1
1
Anti
HCV
0
0
0
0
0
0
0
0
0
0
0
0
0
0
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
23.41
18.48
1
1
0.72
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
10.53
11.03
1
97.6
1
12.33
1
1
402
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
0
0
0
0
0
0
0
0
0
0
55
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
Setelah data tersebut dikonversi, maka data tersebut masih harus
dilakukan normalisasi terlebih dahulu. Hal itu karena masih adanya
perbedaan range antara data yang bernilaibiner dan desimal. Normalisasi
yang dilakukan dengan normalisasi 0-1karena banyak yang bertipe data 0
dan 1. Kemudian hasil normalisasi tersebut yang digunakan untuk proses
clustering dengan agglomerative hierarchical clustering.
4. Data Reduksi
Proses ini dilakukan agar mengurangi dimensi pada data sehingga
dapat memperoleh dataset yang lebih kecil dari sisi volume sehingga dapat
menjaga integrity data dari data yang sebenarnya. Salah satu teknik data
reduksi adalah principal component analysis. Cara kerjanya dengan
memproyeksikan data yang berdimensi tinggi ke dimensi yang rendah.
Tujuan dari principal component analysisadalah mengurangi dimensi data
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
56
dengan mempertahankan variasi dari data yang ada. Dari data gejala hasil
dikelompokkan menurut gejala masing-masing seperti gejala otot, gejala
perut, gejala kulit, gejala mata dan gejala mirip flu. Gejala otot terdiri dari
pegal, nyeri sendi dan normal. Gejala perut terdiri dari mual, muntah, diare,
nyeri perut sebelah kanan, kencing berwarna gelap, nafsu makan
berkurang dan perut acites. Gejala kulit terdiri dari normal, kuning, lembab,
gatal, kemerahan, kering. Gejala mata terdiri dari normal dan kuning untuk
gejala mata. Sedangkan gejala mirip flu terdiri dari demam, pusing, lesu,
mialgia, lelah, menggigil, dan batuk. Adapula hasil laboratorium yang
meliputi SGOT, SGPT, anti HAV, HBsAg, dan anti HCV. Gejala-gejala
ini digabungkan dengan hasil laboratorium sehingga total atribut ada 31
atribut. Kemudian, 31 atribut dilakukan preprocessing dengan principal
component analysis, maka 31 atribut tersebut akan berkurang sesuai
dengan parameter principal component yang akan dimasukan. Hasilfeature
baru yang akan digunakan adalah yang memiliki nilai eigenvalue tertinggi
yang diurutkan dari besar ke kecil.
4.3
Hasil UjiClustering dan Akurasi
Sebelum masuk pada tahap clustering, ada tahap perhitungan jarak dengan
menggunakan memilih euclidean distance untuk menghitung jarak antar
obyek.Perhitungan jarak dengan jaccard coefficient tidak
menghasilkan
pengelompokkan yang baik sehingga pilihan pengukuran jarak dengan euclidean
distance.Hasil pengelompokan data pasien hepatitis A, B dan C dibagi
berdasarkan empat percobaan, yaitu :
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
1.
57
Data laboratorium.
Data laboratorium yang akan dikelompokkan menggunakan 5 atribut,
yaitu SGOT, SGPT, anti HAV, HBsAg, dan anti HCV.
2. Data gejala
Data gejala yang akan dikelompokkan berjumlah 26 atribut. Gejala mual,
muntah, diare, nyeri perut sebelah kanan, kencing berwarna gelap, nafsu
makan berkurang dan perut acites untuk gejala perut. Gejala normal,
kuning, lembab, gatal, kemerahan, kering untuk gejala kulit. Gejala
normal dan kuning untuk gejala mata. Sedangkan gejala demam, pusing,
lesu, mialgia, lelah, menggigil, dan batuk untuk gejala mirip flu.
3. Data gejala dengan data laboratorium
Data yang dipakai merupakan gabungan antara data gejala yang sudah
digabungkan dengan data laboratorium. Total atribut yang digunakan
berjumlah 31 atribut, 26 atribut dari data gejala dan 5 dari data
laboratorium.
4. Data
laboratorium
dengan
data
gejala
yang
sudah
diproses
denganprincipal component analysis
Perbedaan dengan percobaan sebelumnya adalah dilengkapi dengan
principal component analysis. Principal component yang digunakan
pada percobaan ini adalah 25principalcomponent. Alasan digunakan 25
principal component adalah karena menghasilkan akurasi yang lebih
baik dibandingkan dengan jumlah principal component yang lain.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
58
5. Data laboratorium dan data gejala hasil dariprincipal component
analysis.
Data gejala dilakukan dengan proses principal component analysis dan
menggunakan atribut baru dari 12 principal component. Hal itu karena
12 principal component menghasilkan akurasi yang baik dibandingkan
yang lain. Setelah itu data feature baru tersebut digabungkan dengan
data laboratorium sehingga total atribut data berjumlah 17.
Percobaan ini dilakukan dengan melakukan normalisasi 0-1, zscore dan
tanpa normalisasi terhadap 110 data. Berikut ini percobaan dengan menggunakan
algoritmaagglomerative hierarchical clustering.
1) Percobaan tanpa normalisasi dengan hasil pada tabel 4.5, dibawah ini.
Tabel 4.5 hasil tanpa normalisasi
No
1.
Data Laboratorium
Pengukuran
Kemiripan
Single Linkage
2.
Data Laboratorium
Average Linkage
40,90 %
3.
Data Laboratorium
Complete Linkage
42,72 %
4.
Data Gejala
Single Linkage
37,27 %
5.
Data Gejala
Average Linkage
42,72 %
6.
Data Gejala
Complete Linkage
49,09 %
7.
Data gejala dan
Laboratorium
Data gejala dan
Laboratorium
Data gejala dan
Laboratorium
Single Linkage
41,81 %
Average Linkage
40,90 %
Complete Linkage
40,90 %
8.
9.
Feature
Akurasi
41,81 %
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
10.
11.
12.
13.
14.
15.
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium
Data gejala (pca)
laboratorium
Data gejala (pca)
laboratorium
+ Single Linkage
40,90 %
+ Average Linkage
40,90 %
+ Complete Linkage
42,72 %
+ Single Linkage
41,81 %
+ Average Linkage
40,90 %
+ Complete Linkage
42,72 %
59
a) Hasil akurasi yang paling besar dari data laboratorium adalah
complete linkage dengan akurasi 42,72 %. Berikut ini gambar
dendrogram pada 4.1 dan confusion matrix pada tabel 4.6.
a. Dendrogram dari complete linkage.
Gambar 4.1 Dendrogramcomplete linkage
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
60
b. Confusion matrix dari complete linkage.
Tabel 4.6 Confusion matrix complete linkage
Cluster
Hepatitis
A
1
2
3
9
6
0
B
20
30
30
C
11
4
0
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
47
π‘₯ 100 % = 42,72 %
110
b) Hasil akurasi yang paling besar dari data gejala adalah dengan
pengukuran kemiripan complete linkagedengan 49,09 %. Berikut
ini gambar 4.2 dendrogram dan confusion matrix pada tabel 4.7.
a. Dendrogram dari complete linkage.
Gambar 4.2 Dendrogram complete linkage
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
61
c. Confusion matrix dari complete linkage.
Tabel 4.7 Confusion matrix complete linkage
Cluster
Hepatitis
A
1
2
3
16
5
9
B
6
12
15
C
18
23
6
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
c) Hasil
akurasi
yang
54
π‘₯ 100 % = 49,09 %
110
paling
besar
dari
data
gejala
dan
laboratoriumadalah single linkage dengan akurasi 41,81 %. Berikut
ini gambar dendrogram pada 4.3 dan confusion matrix pada tabel
4.8.
a.
Dendrogram dari single linkage.
Gambar 4.3 Dendrogram single linkage
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
b.
62
Confusion matrix dari single linkage.
Tabel 4.8Confusion matrixsingle linkage
Cluster
1
2
3
A
27
36
30
B
10
3
0
C
3
1
0
Hepatitis
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
46
π‘₯ 100 % = 41,81 %
110
d) Hasil akurasi yang paling besar dari data laboratorium dengan data
gejala
yang
sudah
diproses
dengan
principal
component
analysisadalah complete linkage dengan akurasi 42,72 %. Berikut
ini gambar dendrogram pada 4.4 dan confusion matrix pada tabel
4.9.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
a.
63
Dendrogram dari complete linkage.
Gambar 4.4 Dendrogram complete linkage
b.
Confusion matrix dari complete linkage.
Tabel 4.9 Confusion matrixcomplete linkage
Cluster
1
2
3
A
10
6
0
B
19
30
30
C
11
4
0
Hepatitis
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
47
π‘₯ 100 % = 42,72 %
110
e) Hasil akurasi yang paling besar dari data laboratorium dan data
gejala hasil dariprincipal component analysisadalah complete
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
64
linkage dengan akurasi 42,72 %. Berikut ini gambar dendrogram
pada 4.5 dan confusion matrix pada tabel 4.10.
a.
Dendrogram dari complete linkage.
Gambar 4.5 Dendrogram complete linkage
b.
Confusion matrix dari complete linkage.
Tabel 4.10Confusion matrixcomplete linkage
Cluster
Hepatitis
1
2
3
A
10
6
0
B
19
30
30
C
11
4
0
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
47
π‘₯ 100 % = 42,72 %
110
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
65
Berdasarkan grafik 4.6, dari ketiga jenis perhitungan kemiripan diatas
yang memiliki akurasi paling besaradalah complete linkagedengan 42,72
walaupun hasil akurasinya tidak sampai 50 % hanya 42,72 %. Hal ini
membuktikan bahwa data yang digunakan ini perlu dinormalisasi dahulu
sebelum dilakukan pengelompokkan.
Grafik Akurasi
60.000%
49.090%
41.810%42.720%
50.000%
42.720%
42.720%
42.720%
41.810%
40.000%
41.810%
40.900%
40.900%
40.900%
30.000%
40.900%37.270%
40.900%
40.900%
20.000%
single
10.000%
.000%
average
complete
Gambar 4.6: Grafik akurasi tanpa normalisasi
2) Percobaan dengan normalisasi [0-1] dengan hasil pada tabel 4.11, dibawah
ini.
Tabel 4.11 hasil akurasi dengan normalisasi [0-1]
No
Feature
1.
Data Laboratorium
Pengukuran
Kemiripan
Single Linkage
Akurasi
2.
Data Laboratorium
Average Linkage
100 %
3.
Data Laboratorium
Complete Linkage
100 %
100 %
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
4.
5.
6.
7.
8.
9.
10.
11.
12.
Data gejala dan
Laboratorium
Data gejala dan
Laboratorium
Data gejala dan
Laboratorium
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium
Data gejala (pca)
laboratorium
Data gejala (pca)
laboratorium
Single Linkage
38,18 %
Average Linkage
41,81 %
Complete Linkage
82,72 %
+ Single Linkage
38,18 %
+ Average Linkage
36,36 %
+ Complete Linkage
80,90 %
+ Single Linkage
37,27 %
+ Average Linkage
39,09 %
+ Complete Linkage
100 %
66
a) Hasil akurasi yang paling besar dari data laboratorium adalah
single linkage, average linkage dan complete linkage dengan
akurasi 100 %. Berikut ini gambar dendrogram pada 4.7, 4.8, dan
4.9 dan confusion matrix pada tabel 4.12.
a.
Dendrogram dari single linkage, average linkage dan
complete linkage.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Gambar 4.7 Dendrogram Single Linkage
Gambar 4.8 Dendrogram Average Linkage
67
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
68
Gambar 4.9 Dendrogram Complete Linkage
b.
Confusion matrix dari single linkage, average linkage dan
complete linkage.
Tabel 4.12Confusion matrix dari single linkage, average
linkage dan complete linkage.
Cluster
1
2
3
A
0
0
40
B
40
0
0
C
0
30
0
Hepatitis
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
110
π‘₯ 100 % = 100 %
110
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
69
b) Hasil akurasi yang paling besar dari data gejala dan data
laboratorium adalah complete linkage dengan akurasi 82,72 %.
Berikut ini gambar dendrogram pada 4.10 dan confusion matrix
pada tabel 4.13.
a.
Dendrogram dari single linkage, average linkage dan
complete linkage.
Gambar 4.10 Dendrogram Complete Linkage
b.
Confusion matrix dari complete linkage.
Tabel 4.13Confusion matrix complete linkage.
Cluster
1
2
3
A
36
1
3
B
1
29
10
C
0
4
26
Hepatitis
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
π΄π‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =
70
91
π‘₯ 100 % = 82,72 %
110
c) Hasil akurasi yang paling besar dari data gejala dan data
laboratorium
dengan
menggunakan
principal
component
analysisadalah complete linkage dengan akurasi 80,90 %. Berikut
ini gambar dendrogram pada 4.11 dan confusion matrix pada tabel
4.14.
a.
Dendrogram daricomplete linkage.
Gambar 4.11 Dendrogram Complete linkage
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
b.
71
Confusion matrix dari complete linkage.
Tabel 4.14Confusion matrixdaricomplete linkage.
Cluster
1
2
3
A
35
1
4
B
1
28
11
C
0
4
26
Hepatitis
Akurasi =
89
π‘₯ 100 % = 80,90 %
110
d) Hasil akurasi yang paling besar dari data laboratorium dan data
gejala hasil dari principal component analysisadalah single linkage,
average linkage dan complete linkage dengan akurasi 100 %.
Berikut ini gambar dendrogram pada 4.12, 4.13, 4.14 dan confusion
matrix pada tabel 4.15.
a.
Dendrogram darisingle linkage, average linkage dan
complete linkage.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
Gambar 4.12 Dendrogramsingle linkage
Gambar 4.13 Dendrogram average linkage
72
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
73
Gambar 4.14 Dendrogram complete linkage
b.
Confusion matrix dari complete linkage.
Tabel 4.15Confusion matrix daricomplete linkage.
Cluster
1
2
3
A
40
0
0
B
0
40
0
C
0
0
30
Hepatitis
Akurasi =
110
π‘₯ 100 % = 100%
110
Berdasarkan grafik 4.15, dari ketiga jenis perhitungan kemiripan
diatas, semua menghasilkan akurasi yang besar dengan 100 %.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
74
Grafik Akurasi
120.000%
100.000%
100.000%
100.000%
80.000%
60.000%
100.000%
82.720% 80.900%
100.000%
41.810% 38.180%
40.000%
20.000%
single
38.180%
36.360%
average
.000%
complete
Gambar 4.15 : Hasil akurasi data dengan normalisasi [ 0-1].
3) Percobaan dengan normalisasi zscoredengan hasil pada tabel 4.16,
dibawah ini.
Tabel 4.16 hasil akurasi dengan normalisasi zscore
No
1.
Data Laboratorium
Pengukuran
Kemiripan
Single Linkage
2.
Data Laboratorium
Average Linkage
45,45 %
3.
Data Laboratorium
Complete Linkage
45,45 %
4.
Data gejala dan
Laboratorium
Data gejala dan
Laboratorium
Data gejala dan
Laboratorium
Data gejala (pca) +
laboratorium (pca)
Single Linkage
39,09 %
Average Linkage
39,09 %
Complete Linkage
53,63 %
Single Linkage
39,09 %
5.
6.
7.
Feature
Akurasi
100 %
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
8.
9.
10.
11.
12.
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium (pca)
Data gejala (pca)
laboratorium
Data gejala (pca)
laboratorium
Data gejala (pca)
laboratorium
+ Average Linkage
39,09 %
+ Complete Linkage
40,90 %
+ Single Linkage
36,36 %
+ Average Linkage
37,27 %
+ Complete Linkage
69,09 %
75
a) Hasil akurasi yang paling besar dari data laboratoriumadalah single
linkage dengan akurasi 100 %. Berikut ini gambar dendrogram
pada 4.16 dan confusion matrix pada tabel 4.17.
a.
Dendrogram dari single linkage.
Gambar 4.16 Dendrogram single linkage
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
b.
76
Confusion matrix dari single linkage.
Tabel 4.17 Confusion matrix darisingle linkage.
Cluster
1
2
3
Hepatitis
A
40
0
0
B
0
40
0
C
0
0
30
Akurasi =
110
π‘₯ 100 % = 100 %
110
b) Hasil akurasi yang paling besar dari data laboratorium dan gejala
adalah complete linkage dengan akurasi 53,63 %. Berikut ini
gambar dendrogram pada 4.17 dan confusion matrix pada tabel
4.18.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
a.
77
Dendrogram daricomplete linkage.
Gambar 4.17 Dendrogram complete linkage
b.
Confusion matrix dari complete linkage.
Tabel 4.18Confusion matrix daricomplete linkage.
Cluster
1
2
3
A
35
17
10
B
5
23
19
C
0
0
1
Hepatitis
Akurasi =
59
π‘₯ 100 % = 53,63 %
110
c) Hasil akurasi yang paling besar dari data laboratorium yang ditambah
dengan data gejala yang sudah dilakukan proses principal component
analysisadalah complete linkage dengan akurasi 40,90 %. Berikut ini
gambar dendrogram pada 4.18 dan confusion matrix pada tabel 4.19.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
a.
Dendrogram daricomplete linkage.
Gambar 4.18 Dendrogram complete linkage
b.
Confusion matrix dari complete linkage.
Tabel 4.19Confusion matrix daricomplete linkage.
Cluster
1
2
3
A
19
15
19
B
21
25
10
C
0
0
1
Hepatitis
Akurasi =
45
π‘₯ 100 % = 40,90 %
110
78
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
79
d) Hasil akurasi yang paling besar dari data laboratorium dandata
gejala hasil dariprincipal component analysisadalahcomplete
linkage dengan akurasi 69,09 %. Berikut ini gambar dendrogram
pada 4.19 dan confusion matrix pada tabel 4.20.
a.
Dendrogram daricomplete linkage.
Gambar 4.19 Dendrogram complete linkage
b.
Confusion matrix dari complete linkage.
Tabel 4.20Confusion matrix daricomplete linkage.
Cluster
1
2
3
A
23
37
0
B
8
0
30
C
9
3
0
Hepatitis
Akurasi =
56
π‘₯ 100 % = 50,90 %
110
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
80
Pada gambar grafik 4.20, hasil akurasi data dengan menggunakan
normalisasi zscore tersebut dapat dilihat bahwa dari ketiga jenis perhitungan
kemiripan tersebut yang paling baik adalah complete linkage. Single linkage
hanya baik dalam hal mengelompokkan data laboratorium karena dapat
memberikan akurasi sebesar 100%, sedangkan average linkagememberikan hasil
yang buruk dibawah 50 %.
Grafik Akurasi Zscore
120.000%
100.000%
100.000%
80.000%
60.000%
40.000%
20.000%
.000%
45.450%
69.090%
53.630%
40.900%
37.270%
45.450%
39.090%39.090%
39.090%
39.090%
36.360%
single
average
complete
Gambar 4.20Hasil akurasi data dengan normalisasi zscore
Berdasarkan tabel 4.20, data yang tidak dinormalisasi menghasilkan
akurasi dibawah 50 % untuk semua pengukuran jarak kemiripan. Pada percobaan
dengan data gejala saja hanya menghasilkan akurasi paling besar 49,09 %. Pada
data yang diberikan normalisasi [0-1], mendapatkan hasil yang lebih bagus pada
complete linkage dengan akurasi yang lebih dari 80 % dibandingkan dengan
single linkage dan average linkage yang hasilnya hanya dibawah 50 %. Hal
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
81
tersebut membuktikan bahwa dengan maupun tanpa principal component analysis
dapat memberikan hasil yang baik karena menghasilkan akurasi yang lebih dari
80 % dengan adanya data laboratorium. Pada data yang diberikan normalisasi
zscore, akurasi yang didapat beragam. Ada hasil akurasi yang bagus dengan
pengukurancomplete linkage adapula dengansingle linkage.Single linkage
menghasilkan akurasi yang baik dalam mengelompokkan data laboratorium,
sedangkan complete linkage baik dalam mengelompokkan ketiga percobaan selain
data laboratorium dengan normalisasi zscore.
Percobaan menggunakan data gejala yang diberikan proses principal
component analysis dan digabung dengan data laboratorium dapat menghasilkan
akurasi yang cukup baik jika dibandingkan dengan tidak menggunakan principal
component analysis. Secara keseluruhan normalisasi dengan zscore tidak
menghasilkan akurasi yang baik karena hasil paling tingginya tidak lebih dari
70 %. Persamaan antara normalisasi [0-1] dan zscore adalah dapat memberikan
hasil akurasi 100 % pada data laboratorium.
Hasil dari penelitian ini membuktikan bahwa data laboratorium sangat
berperan penting dalam menentukan seseorang terkena hepatitis atau tidak. Hal
tersebut terbukti dengan adanya penanda hepatitis A, B dan C sehingga pasien
dapat dengan tepat terdiagnosa. Hasil akurasi yang didapatkan juga membuktikan
bahwa data laboratorium mampu meningkatkan akurasi hasil pengelompokkan.
Hasil akurasi tersebut lebih baik jika dibandingkan dengan hasil penelitian
sebelumnya yang hanya memakai data gejala dan hanya menghasilkan akurasi
sebesar
51,11
%.
Hal
itu
karena
data
gejala
masih
berupa
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
82
perkiraanumumsementara dan belum pasti dapat disimpulkan bahwa pasien
tersebut terkena hepatitis jenis tertentu sehingga hasil akurasinya rendah.
Tabel 4.21 Hasil pengelompokkan dengan agglomerative hierarchical clustering
Feature
Pengukuran Kemiripan
(Tanpa Normalisasi)
single
average complete
Laboratorium
41.81% 40.90%
42.72%
Gejala
37.27% 42.72%
49.09%
Laboratorium+gejala
41.81% 40.90%
40.90%
Laboratorium(PCA)+gejala(PCA) 40.90% 40.90%
42.72%
Laboratorium+gejala(PCA)
41.81% 40.90%
42.72%
(Normalisasi [0,1])
single
average complete
Laboratorium
100.00% 100.00% 100.00%
Laboratorium+gejala
38.18% 41.81%
82.72%
Laboratorium(PCA)+gejala(PCA) 38.18% 36.36%
80.90%
Laboratorium+gejala(PCA)
100.00% 100.00% 100.00%
(Normalisasi zscore)
single
average complete
Laboratorium
100.00% 45.45%
45.45%
Laboratorium+gejala
39.09% 39.09%
53.63%
Laboratorium(PCA)+gejala(PCA) 39.09% 39.09%
40.90%
Laboratorium+gejala(PCA)
36.36% 37.27%
69.09%
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
4.4
83
Implementasi User Interface
Implementasi
menggunakan
sistem
agglomerative
pengelompokkan
hierarchical
penyakit
clustering
hepatitis
ini
dibuat
dengan
dengan
menggunakan Matlab Student Version.
4.4.1 Tampilan menu utama
Tampilan halaman utama ini tersimpan pada file yang berekstensi .m
dengan nama hal_utama.m. File hal_utama.m menjalankan fungsi untuk
menampilkan halaman utama dari program.
Gambar 4.21 Halaman Utama
Pada gambar 4.21 merupakan tampilan dari halaman utama dengan menu
file dan help. Pada menu file terdapat sub menu preprocessing, clustering dan ada
pula tombol keluar. Fungsi menu preprocessing adalah menampilkan halaman
untuk melakukan proses principal component analysispada data gejala. Fungsi
menu
clusteringadalah
menampilkan
halaman
untuk
melakukan
proses
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
84
pengelompokkan dengan agglomerative hierarchical clusteringdan menampilkan
hasil akurasinya. Tombol keluar berfungsi untuk keluar dari halaman. Pada menu
help merupakan user manual penggunaan program yang apabila di klik maka akan
menampilkan file bantuan berformat .pdf.
4.4.2 Tampilan sub menu preprocessing
Tampilan menu preprocessing ini tersimpan pada file yang berekstensi .m
dengan nama preprocessing.m. File preprocessing.m menjalankan fungsi untuk
menampilkan halaman preprocessing dari program.
Gambar 4.22 Halaman preprocessing
Pada gambar 4.22 merupakan halaman untuk preprocessing dengan2 jenis
normalisasi dan principal component analysis. Terdapat fungsi cari file yang
bertipe .csv dan menampilkan hasil pencarian file pada tabel disamping. Selain itu
ada
fungsi
untuk
untukmemasukan
memilih
jumlah
jenis
principal
normalisasi
component
zscore
yang
dan
[0-1]serta
dikehendaki
user.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
85
Tekantombol proses maka akan menyimpan file yang bertipe .csv untuk
digunakan pada proses clustering. Jenis normalisasi hanya dapat dipilih satu,
sedangkan memilih principal component untuk proses principal component
analysisdapat disertai dengan memilih salah satu jenis normalisasi.Berikut ini
merupakan perintah yang diberikan untuk normalisasi zscore dan normalisasi [0-1]
% Normalisasi zcore menggunakan perintah pada matlab
zsc=zscore(Data);
% Normalisasi [0-1] sehingga menghasilkan nilai dari range 0-1
Dataset =
bsxfun(@rdivide,bsxfun(@minus,Data,min(Data)),(max(Data)min(Data)));
Berikut ini source code darifunctionprincipal component analysisyang
sudah dimodifikasidimana jumlah principal component dapat dimasukkan sebagai
parameter.
function [eigenvector,eigenvalue,data_baru,new_cut] =
pca2rev(data,jml_pc)
%=================================================================
========%
% INPUT :
% data_baru = MxN hasil matrix baru
% jml_pc = jumlah principal component yang ingin digunakan
% OUTPUT :
% eigenvector = setiap kolom adalah eigenvector
% eigenvalue = Mx1 matrix variansi dari eigenvector
% new_cut = hasil data baru yang sudah dipotong sesuai dengan
masukan
% KETERANGAN :
% by Jonathon Shlens (Salk Institute for Biological Sciences)
% http://www.snl.salk.edu/~shlens/pub/notes/pca.pdf
% modified by christina wienda –rev date : 08/08/2013
%=================================================================
========%
[M,N] = size(data);
% kurangi dengan rata-rata utk setiap dimensi
mn = mean(data,2);
data = data - repmat(mn,1,N);
% menghitung covariance matrix
covariance = 1 / (N-1) * data * data';
% menemukan eigenvectors dan eigenvalues
[eigenvector, eigenvalue] = eig(covariance);
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
86
% mengekstrak diagonal dari matrix sebagai vektor
eigenvalue = diag(eigenvalue);
%eigenvalue=cumsum(flipud(diag(eigenvalue))) /
sum(diag(eigenvalue))
% Mengurutkan hasil variance dari besar ke kecil sort the variance
in decreasing order
[junkeigenval, rindices] = sort(-1*eigenvalue);
eigenvalue = eigenvalue(rindices);
eigenvector = eigenvector(:,rindices);
% Hasil data yang baru berdasarkan dari data asli
data_baru = eigenvector' * data;
data_baru=data_baru';
new_cut = data_baru(:,1:jml_pc);
4.4.3 Tampilan sub menu clustering
Tampilan menu clustering dengan agglomerative hierarchical clustering ini
tersimpan pada file yang berekstensi .m dengan nama cobasearch.m. File
cobasearch.m menjalankan fungsi untuk menampilkan halaman pengelompokkan
untuk penyakit hepatitis.
Gambar 4.23 Halaman clustering
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
87
Gambar 4.24Contohdendrogram
Pada
gambar
4.23
menampilkan
halaman
untuk
melakukan
clusteringdengan agglomerative hierarchical clustering. Pada halaman ini
tersedia fungsi mencari file yang bertipe .csv dan memilih 3 jenis linkage, yaitu
single, average dan complete. Pada proses mencari file ini dapat menggunakan
file hasil preprocessing sebelumnya dan dapat juga menggunakan data yang
belum di lakukan proses preprocessingdengan principal component analysis.
Hasil dari pencarian file, perhitungan pengelompokkan dan confusion matrix akan
dimasukan kedalam tabel agar dapat dilihat user. Selain itu, terdapat tempat untuk
menampilkan hasil akurasi dari pengelompokkan. Berikut ini merupakan perintah
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
88
dari proses clustering dengan agglomerative hierarchical clustering dengan single,
average
dan
complete
linkageyang
tersimpan
dalam
function
Agglomerative_clus.m.Hasil dari function tersebut akan menghasilkan jarak dari
indeks antar cluster yang akan digunakan dalam pembuatan dendrogram seperti
pada gambar 4.24.
function Hasil_jarak = Agglomerative_clus(Data, method)
%=================================================================
=========%
% Fungsi untuk melakukan pengelompokan dengan cara agglomerative
% hierarchical clustering.
% INPUT :
% Data = Data matrix
% Method = jenis pengukuran kemiripan (single, average dan
complete)
% OUTPUT :
% Hasil_jarak = nilai jarak antar cluster beserta indeksnya yang
sesuai dengan metodenya (single, average dan complete). Dari hasil
penyimpanan jarak dan indeks tersebut untuk membuat dendrogram.
% KETERANGAN :
% www.pudn.com>
% ArtificialImmunealgorithmprogres(matlab).rar
% Matlab,inc
% change:1999-01-29
% Modified : Christina Wienda - rev date : 20/07/2013
%=================================================================
========%
% menyimpan nilai minimum dari matrix jarak.
[v, Baris] = min(X);
% mencari indeks pasangan yang mempunyai nilai minimum.
i = floor(jumlahBaris+1/2-sqrt(jumlahBaris^2-jumlahBaris+1/42*(Baris-1)));
j = Baris - (i-1)*(jumlahBaris-i/2)+i;
% indeks pasangan jarak yang sudah dipakai diawal tidak digunakan.
Kemudian mencocokan indek I dan J dengan jarak.
I1 = 1:(i-1); I2 = (i+1):(j-1); I3 = (j+1):jumlahBaris;
U = [I1 I2 I3];
I = [I1.*(jumlahBaris-(I1+1)/2)-jumlahBaris+i i*(jumlahBaris(i+1)/2)-jumlahBaris+I2 i*(jumlahBaris-(i+1)/2)-jumlahBaris+I3];
J = [I1.*(jumlahBaris-(I1+1)/2)-jumlahBaris+j I2.*(jumlahBaris(I2+1)/2)-jumlahBaris+j j*(jumlahBaris-(j+1)/2)-jumlahBaris+I3];
% single linkage (jarak minimal antar cluster)
Data(I) = min(Data(I),Data(J));
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
89
% average linkage (jarak rata-rata tiap cluster)
Data(I) = Data(I) + Data(J);
%complete linkage (jarak maksimal antar cluster)
Data(I) = max(Data(I),Data(J));
%Menyimpan hasil jarak dari single, average dan complete yang akan
dibuat sebagai jarak pada dendrogram.
Hasil_jarak(s,:) = [R(i) R(j) v];
4.4.4 Tampilan menu help
Gambar 4.25PDF Bantuan
Pada gambar 4.25 diatas merupakan tampilan file bantuan.pdf. Jika menu help
diklik maka akan menampilkan file yang bertipe .pdf. Pada file tersebut terdapat
penjelasan mengenai penggunaan program mulai dari preprocessing sampai
clustering.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
BAB V
PENUTUP
Halaman ini menjelaskan mengenai kesimpulan dari penelitian terkait dengan
pengelompokkan hepatitis. Pada halaman ini juga akan dijelaskan saran yang
diberikan pada program yang sudah dibuat.
5.1
Kesimpulan
Pengelompokkan
penyakit
hepatitis
menggunakanagglomerative
hierarchical clustering berdasarkan data gejala dan data laboratorium. Ada empat
uji percobaan yang dilakukan untuk menghitung akurasi, yaitu perhitungan data
laboratorium, data gejala, data gabungan gejala dan laboratorium, data
laboratorium dengan data gejala yang sudah diproses dengan principal component
analysisdandata laboratorium dan data gejala hasil dari principal component
analysis. Berdasarkan hasil percobaan diatas, kesimpulan yang dapat diambil
sebagai berikut :
1. Aggomerative hierarchical clustering mampu mengelompokkan pasien
yang terkena hepatitis A, B dan C dengan hasil akurasi yang baik.
2. Percobaan dengan data laboratorium menghasilkan akurasi sebesar 100 %
baik oleh single, average dan complete linkage dengan normalisasi [0-1],
sedangkan dengan normalisasi zscore hanya single linkage saja yang
menghasilkan 100 %. Hal tersebut berarti dengan menggunakan data
laboratorium dapat dengan cepat membedakan tiga jenis hepatitis
dengan baik karena terdapat penanda untuk tiap jenis hepatitis.
90
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
91
3. Percobaan dengan data gejala menghasilkan akurasi yang paling besar
hanya 49.09 % dengan menggunakan complete linkage. Hal tersebut
berarti dengan hanya menggunakan data gejala maka belum dapat
menentukan jenis penyakit tertentu karena gejala hanya merupakan
pemeriksaan umum dan belum tentu gejala merujuk pada satu penyakit
saja sehingga hasil akurasi yang didapatkan rendah.
4. Percobaan data gejala yang sudah diproses dengan principal component
analysis dan digabung laboratorium menghasilkan akurasi sebesar 100%
yang didapatkan oleh single linkage, average linkage dan complete
linkage.
5. Percobaan data gabungan dengan normalisasi [0-1] dapat tidak
menggunakan principal component analysis karena data yangdigabung
tanpa principal component analysis juga baik hasil akurasinya yaitu
82,72 %.
6. Percobaan data gabungan dengan normalisasi zscore menghasilkan
akurasi yang lebih baik jika menggunakan principal component analysis
dan mendapatkan 69,09 %.
7. Hasil akurasi yang didapatkan oleh data gabungan sudah baik karena
menggunakan data laboratorium yang dapat menentukan seseorang
dapat terkena penyakit hepatitis atau tidak. Hasil yang didapatkan ini
lebih baik daripada hasil dari penelitian sebelumnya yang hanya
mendapatkan 51,11 %
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
92
8. Hasil yang terbaik didapatkan oleh normalisasi [0-1] dengan 84,54 %
dengan menggunakan data gejala yang dilakukan proses principal
component analysis dan digabung dengan data laboratorium.
9. Secara keseluruhan hasil akurasi complete linkage lebih baik jika
dibandingkan dengan single linkage dan average linkage.
5.2
Saran
Saran yang diperlukan untuk pengembangan program lebih lanjut, sebagai
berikut :
1. Perhitungan jarak kedekatan dapat dicoba dengan metode yang lain
selain single linkage, average linkage dan complete linkage.
2. Menambahkan feature untuk data laboratorium lainnya.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
93
DAFTAR PUSTAKA
Abdi,H. & Williams, L.,(2010,July/August), Principal Component Analysis, John Wiley
& Sons, inc, Diakses 2 Oktober 2013.
Amro, 2011, Agglomerative Clustering in Matlab ,
http://stackoverflow.com/questions/7132130/matlab-cluster-coding-plot-scatter-graph,
diakses 5 Mei 2013.
Bing Liu, 2004, Chapter 4 : Unsupervised Learning, University Illnois of
Chicago.http://www.cs.uic.edu/~liub/teach/cs583-fall-05/CS583-unsupervisedlearning.ppt. Diakses tanggal 18 Agustus 2013.
Dimyati,V, 2011, 30 Juta Orang Kena Hepatitis,
http://www.jurnas.com/news/35402/30_Juta_Orang_Kena_Hepatitis/1/Sosial_Bu
daya/Kesehatan.
Edward,R., 2010, UPGMA Worked Example , University of Southampton,
http://www.southampton.ac.uk/~re1u06/teaching/upgma/, Diakses pada tanggal 4 april
2013.
Han, J.& Kamber,M., 2011, Data mining Concepts and Techniques ,USA:
Morgan Kaufmann
Hartini,E, 2012, Metode Clustering Hirarki, Batan,
http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf, Diakses pada
tanggal 4 April 2013.
Ridho,A., 2006, Clustering, Politeknik Elektronika Negeri Surabaya,http://lecturer.eepisits.edu/~entin/Machine%20Learning/Minggu%206%20Clustering.pdf, Diakses pada 5
April 2013.
Santosa,Budi, 2007, Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis,
Yogyakarta : Graha Ilmu.
Sari, W & Indrawati, L., 2008, Care your Self: Hepatitis, Jakarta : Penebar plus+,
Jakarta.
PLAGIAT
PLAGIATMERUPAKAN
MERUPAKANTINDAKAN
TINDAKANTIDAK
TIDAKTERPUJI
TERPUJI
94
Shlens,Jonathon, 2009, A Tutorial on Principal Component
Analysis.http://www.snl.salk.edu/~shlens/pca.pdf.Diakses tanggal 28 Juli 2013.
Suryaatmadja, Marzuki, Diagnosis Laboratorium Hepatitis Virus dengan
Penanda Virus Hepatitis. http://[email protected]. Diakses tanggal 28 April 2013.
Smith, L., 2002, A Tutorial on Principal component analysis,
http://www.ce.yildiz.edu.tr/personal/songul/file/1097/principal_components.pdf.
Diakses pada tanggal 7 Juni 2013.
Tan &Steinbach,dkk, 2004, Lecture Notes for Chapter 2 : Introduction to Data
Mining, http://www-users.cs.umn.edu/~kumar/dmbook/index.php. Diakses pada
tanggal 30 September 2013.
Download