PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI IDENTIFIKASI PENYAKIT HEPATITIS DENGAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Disusun oleh : Christina Wienda Asrini 095314011 HALAMAN JUDUL PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2013 i PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI IDENTIFICATION OF HEPATITIS DISEASE BY USING AGGLOMERATIVEHIERARCHICAL CLUSTERING APPROACH A Thesis Presented as Partial Fulfillment of the Requirements To Obtain the Sarjana Komputer Degree In Informatics Engineering Study Program By : Christina Wienda Asrini 095314011 HALAMAN JUDUL (Inggris) INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2013 ii PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI HALAMAN PERSETUJUAN iii PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI HALAMAN PENGESAHAN iv PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI HALAMAN PERSEMBAHAN Skripsi ini saya persembahkan untuk : Tuhan Yesus Kristus, Keluarga tercinta, Dosen serta sahabat yang terkasih Terima Kasih atas segalanya God Bless! v PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI PERNYATAAN KEASLIAN KARYA Saya menyatakan dengan sesungguhnya bahwa tugas akhir yang saya tulis tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah. Yogyakarta, 1 November 2013 Penulis Christina Wienda Asrini HALAMAN PERNYATAAN KEASLIAN KARYA vi PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS HALAMAN PERSETUJUAN PUBLIKASI Yang bertanda tangan dibawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Christina Wienda Asrini NIM : 095314011 Demi pengembangan pengetahuan, saya memberikan kepada perpustakaan Universitas Sanata Dhama karya ilmiah yang berjudul : IDENTIFIKASI PENYAKIT HEPATITIS DENGAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING Beserta perangkat yang diperlukan (bila ada) dengan demikian saya memberikan kepada perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas dan mempublikasikan di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis. Demikian pernyataan ini saya buat dengan sebenarnya. Yogyakarta, ….. November 2013 Yang menyatakan, ChristinaWienda Asrini vii PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI IDENTIFIKASI PENYAKIT HEPATITIS DENGAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING ABSTRAK Penyakit hepatitis merupakan salah satu jenis penyakit hati. Walaupun hepatitis memiliki tipe yang bermacam-macam, tetapi gejala seseorang terkena penyakit hepatitis sangat mirip sehingga sangat sulit untuk menentukan bahwa orang tersebut terkena penyakit hepatitis tipe A, B atau C. Pada bidang teknik informatika, penelitian terkait hepatitis sudah pernah dilakukan sebelumnya oleh Estu Karunianingtyas. Pada penelitian tersebut hanya mendapatkan akurasi 51,11 % karena hanya menggunakan data gejala yang tidak pasti merujuk pada satu penyakit saja. Pada penelitian ini menambahkan data laboratorium sehingga mempengaruhi hasil akurasi dimana data laboratorium dapat mendiagnosa dengan benar jenis penyakit hepatitis. Berdasarkan hal tersebut maka sistem cerdas dibuat untuk mengelompokkan pasien yang terinfeksi hepatitis A, B dan C sesuai dengan data gejala dan data laboratoriumnya. Tahap pada penelitian ini menggunakan knowledge discovery in databases sehingga tujuan penelitian dapat tercapai. Pengelompokkan ini menggunakan algoritma agglomerative hierarchical clustering dengan pengukuran kemiripan single, average dan complete linkage. Ada empat pengujian yang dilakukan untuk menghitung akurasi, yaitu perhitungan data laboratorium yang mendapatkan hasil 100 %, data gabungan gejala dan laboratorium dengan hasil 82,72 %, data laboratorium dan data gejala yang sudah diproses dengan principal component analysisdengan hasil 80,90 % serta data laboratorium dan data gejala hasil dari principal component analysisdengan 100 %. Hasil yang baik didapatkan oleh normalisasi [0-1] dengan pengukuran kemiripan complete linkage. Data laboratorium yang digunakan untuk pengelompokkan sangat membantu karena hasil akurasi yang dihasilkan cukup baik. viii PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI ABSTRACT Hepatitis is one of kind the liver diseases. There are many various types of hepatitis. However, the symptoms of hepatitis are very similar because of that it was very difficult to determine that the person was infected by hepatitis A, hepatitis B and hepatitis C. In informatics engineering’s field, the research about hepatitis diseases had been done by Estu Karunianingtyas. In that research, it just got accuracy about 51,11 % because it only used symptoms data that were not only indicated one disease. This research added laboratory data to influence the result of accuracy in which laboratory data can diagnose the hepatitis diseases correctly. Based on the previous explanation, intelligent system was made in order to cluster the patients who were infected by hepatitis A, hepatitis B, and hepatitis C that were appropriate with the laboratory data and the symptoms data. The step of this research used knowledge discovery in databases so that the purpose of this research can be achieved. The clustering’s algorithm that were usedwereagglomerative hierarchical clustering with similarity measure of single, average and complete linkage. There were four tests that were used to calculate the accuracy: calculation of laboratory data that got the result of 100 %, the data with a combination of symptoms and laboratory that got the result of 82.72 %, symptoms and laboratory data that had been processed by principal component analysis that got the result of 80,90 %, and the last was result of laboratory data from principal component analysis that combine with symptoms data was 100 %. The good results were obtained by normalization [0-1] and used the similarity measure of complete linkage. The laboratory data which were used to cluster were very useful because the accuracy result was good enough. ix PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI KATA PENGANTAR Puji dan syukur saya panjatkan kepada Tuhan Yesus Kristus karena limpahan kebaikan dan penyertaan-Nya sehingga saya dapat menyelesaikan tugas akhir yang berjudul “Identifikasi Penyakit Hepatitis dengan Pendekatan Aglomerative Hierarchical Clustering”. Pada proses penulisan tugas akhir ini, saya mengucapkan terima kasih yang sebesar-besarnya kepada : 1. Romo Dr. Cyprianus Kuntoro Adi, SJ, MA, M.Sc selaku dosen pembimbing, terima kasih atas segala bimbingan dan kesabarannya sehingga saya dapat menyelesaikan tugas akhir ini. 2. Ibu Ridowati Gunawan, S.Kom, M.T dan Ibu Sri hartati Wijono, S.Si, M.Kom, selaku dosen penguji yang telah memberikan banyak kritik dan saran terhadap tugas akhir saya. 3. Seluruh staff dosen dan laboran teknik informatika universitas sanata dharma yang telah banyak memberikan bantuan selama saya menempuh studi. 4. Kedua orang tua saya, bapak Dwi Budiyanto dan ibu Endang Retno yang senantiasa mendukung saya dengan doa, kasih sayang dan perhatiannya sehingga saya mampu menyelesaikan studi saya. 5. Adik satu-satunya Enggar Jati, saya juga mengucapkan terimakasih karena mendukung saya baik secara tindakan maupun dengan doa. x PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 6. Keluarga saya yang lain, Eyang kakung dan eyang putri dari Magelang dan Temanggung, Angga Satria, Dolorosa Lintang, Tante Woro dan Om Dwi yang juga telah memberikan dukungannya serta doa. 7. Sahabat yang luar biasa dari SMP, Lucia Septi dan Gofenni yang senantiasa mendengarkan keluh kesah setiap saat serta memberi saya dukungan moril. 8. Teman-teman dari Teknik Informatika 2009, Cosmas Dipta, Mirella Tri, Fiona Endah, Fidelis Adi, Audris Evan, Astriana Krisma, Rafaela Rosi, Dyah Ayu Paramita, Ade Ignatio, Nicodimus, Laurentius Puji, Petrus Kiki, Setyo Resmi, Wiwinniarti,Yoseph Dian, Agustinus Wikrama dan semua yang tidak sempat disebutkan, terimakasih atas segala dukungan, bantuan, canda-tawa dan doa sehingga saya dapat tetap semangat. 9. Teman-teman dari PBSID dan PBI 2009, Yohanes Marwan dan Paulina Ine, yang membantu saya mengoreksi dan memberikan dukungan. Dengan rendah hati penulis menyadari bahwa tugas akhir ini masih jauh dari sempurna. Oleh karena itu segala kritik dan saran untuk perbaikan tugas akhir ini sangat diperlukan. Akhir kata, semoga tugas akhir ini dapat bermanfaat bagi semua pihak. Sekian dan terima kasih. Yogyakarta, 11 November 2013 Christina Wienda Asrini xi PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI DAFTAR ISI HALAMAN JUDUL ........................................................................................................ i HALAMAN JUDUL (Inggris) ........................................................................................ ii HALAMAN PERSETUJUAN ....................................................................................... iii HALAMAN PENGESAHAN ........................................................................................ iv HALAMAN PERSEMBAHAN ...................................................................................... v HALAMAN PERNYATAAN KEASLIAN KARYA ..................................................... vi HALAMAN PERSETUJUAN PUBLIKASI.................................................................. vii ABSTRAK .................................................................................................................. viii ABSTRACT .................................................................................................................. ix KATA PENGANTAR..................................................................................................... x DAFTAR ISI ................................................................................................................ xii DAFTAR GAMBAR ................................................................................................... xiv DAFTAR TABEL ........................................................................................................ xvi BAB I ............................................................................................................................. 1 PENDAHULUAN .......................................................................................................... 1 1.1 Latar Belakang................................................................................................. 1 1.2 Rumusan Masalah............................................................................................ 4 1.3 Batasan Masalah .............................................................................................. 4 1.4 Tujuan Penelitian ............................................................................................. 5 1.5 Manfaat Penelitian ........................................................................................... 5 BAB II ............................................................................................................................ 6 LANDASAN TEORI ...................................................................................................... 6 2.1 Pengertian Knowledge Discovery in Databases (KDD) .................................... 6 2.2 Jenis-Jenis Metode Data mining..................................................................... 10 2.3 Metode Clustering ......................................................................................... 13 2.3.1 Pengertian Clustering ............................................................................. 13 2.3.2 Agglomerative Hierarchical Clustering .................................................. 19 2.4 Dimensionality Reduction .............................................................................. 29 2.5 Penyakit Hepatitis.......................................................................................... 30 xii PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 2.6 Pengujian Keakuratan Metode........................................................................ 34 BAB III ......................................................................................................................... 37 METODOLOGI PENELITIAN..................................................................................... 37 3.1 Data ............................................................................................................... 37 3.2 Metode Pengumpulan Data ............................................................................ 38 3.3 Teknik Analisa Data ...................................................................................... 39 3.4 Design User Interface .................................................................................... 46 3.5 Spesifikasi Software dan Hardware ................................................................ 49 BAB IV ........................................................................................................................ 50 IMPLEMENTASI DAN ANALISA HASIL .................................................................. 50 4.1 Hasil Penelitian dan Analisa........................................................................... 50 4.2 Preprocessing Data ........................................................................................ 52 4.3 Hasil Uji Clustering dan Akurasi ................................................................... 56 4.4 Implementasi User Interface .......................................................................... 83 4.4.1 Tampilan menu utama ............................................................................ 83 4.4.2 Tampilan sub menu preprocessing .......................................................... 84 4.4.3 Tampilan sub menu clustering ................................................................ 86 4.4.4 Tampilan menu help ............................................................................... 89 BAB V.......................................................................................................................... 90 PENUTUP .................................................................................................................... 90 5.1 Kesimpulan.................................................................................................... 90 5.2 Saran ............................................................................................................. 92 DAFTAR PUSTAKA ................................................................................................... 93 xiii PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI DAFTAR GAMBAR Gambar 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 3.1 3.2 3.3 3.4 3.5 3.6 3.7 4.1 4.2 4.3 Keterangan Proses KDD Obyek dan atribut Ilustrasi algoritma Apriori Hasil clustering pada data hipertensi Dendrogram Hasil ilustrasi clustering Matriks jarak Matriks jarak kedua single linkage Matriks jarak ketiga single linkage Matriks jarak terakhir single linkage Dendrogram single linkage untuk jarak antara lima obyek Matriks jarak kedua complete linkage Matriks jarak ketiga complete linkage Demdrogram complete linkage untuk jarak antara lima obyek Matriks jarak kedua average linkage Matriks jarak ketiga average linkage Matriks jarak terakhir average linkage Demdrogram average linkage untuk jarak antara lima obyek Dendrogram yang sudah di lakukan pemotongan (cut-off) Diagram blok proses clustering Dendrogram single linkage Dendrogram average linkage Dendrogram complete linkage Halaman utama Halaman preprocessing Halaman clustering Dendrogram complete linkage Dendrogram complete linkage Dendrogram single linkage xiv Halaman 7 9 11 13 16 19 21 22 22 23 23 24 25 25 26 27 27 28 28 40 41 42 42 47 48 49 60 61 62 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19 4.20 4.21 4.22 4.23 4.24 4.25 Dendrogram complete linkage Dendrogram complete linkage Grafik akurasi tanpa normalisasi Dendrogram single linkage Dendrogram average linkage Dendrogram complete linkage Dendrogram complete linkage Dendrogram complete linkage Dendrogram single linkage Dendrogram average linkage Dendrogram complete linkage Hasil akurasi dengan normalisasi [0-1] Dendrogram single linkage Dendrogram complete linkage Dendrogram complete linkage Dendrogram complete linkage Hasil akurasi dengan normalisasi zscore Halaman utama sistem Halaman preprocessing sistem Halaman clusterig sistem Contoh Dendrogram PDF Bantuan xv 63 65 66 68 68 69 70 71 73 73 74 75 76 78 79 80 81 84 85 87 88 90 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI DAFTAR TABEL Gambar 2.1 2.2 2.3 2.4 2.5 3.1 3.2 3.3 3.4 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 4.12 4.13 4.14 4.15 4.16 4.17 4.18 4.19 4.20 4.21 Keterangan Contoh data klasifikasi Contoh data clustering Contoh data Contoh matrik similiarity Cluster Evaluation Data gejala hepatitis Contoh matrik jarak dengan Euclidean distance Hasilcluster Confusion matrix Deskripsi data gejala hepatitis Deskripsi data laboratorium hepatitis SGOT dan SGPT sebelum dan sesudah normalisasi Penanda hepatitis sebelum dan sesudah normalisasi Hasil tanpa normalisasi Confusion matrix complete linkage Confusion matrix complete linkage Confusion matrix single linkage Confusion matrix complete linkage Confusion matrix complete linkage Hasil akurasi dengan normalisasi [0-1] Confusion matrix single linkage, average lnkage, complete linkage Confusion matrix complete linkage Confusion matrix complete linkage Confusion matrix complete linkage Hasil akurasi dengan normalisasi zscore Confusion matrix single linkage Confusion matrix complete linkage Confusion matrix complete linkage Confusion matrix complete linkage Hasil pengelompokkan dengan agglomerative hierarchical clustering xvi Halaman 11 12 20 20 34 40 43 45 46 51 52 54 55 59 61 62 63 64 65 66 69 70 72 74 75 77 78 79 80 83 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI BAB I PENDAHULUAN Pada bab ini menjelaskan latar belakang yang menjadi landasan dalam penelitian ini. Kemudian dari latar belakang yang ada dirumuskan permasalahan untuk diselesaikan beserta batasan masalah yang diberikan pada penelitian ini. Pada bab ini juga menjelaskan mengenai tujuan dari penelitian dan manfaat penelitian 1.1 Latar Belakang Kesehatan merupakan hal yang sangat penting dan perlu dijaga oleh masyarakat. Dewasa ini, masyarakat mudah terserang penyakit karena perubahan cuaca yang ekstrim, kondisi lingkungan yang tidak bersih, dan pola hidup yang tidak teratur. Selain itu, penyakityang ada kinimemiliki beragam tipe. Penyakit tersebut mulai mengalami perubahan (mutasi) sehingga menghasilkan tipe penyakit baru, seperti flu burung dengan tipe baru yang lebih ganas dari tipe sebelumnya. Penyakit yang sudah lama pun ada yang memiliki beragam tipe seperti hepatitis, jantung dan diabetes. Penyakit hepatitis merupakan salah satu penyakit yang sekarang ini mulai banyak diderita terutama hepatitis B dan C (Abas, 2011). Penyakit hepatitis mempunyai tipe-tipe yang berbeda, antara lain hepatitis A, hepatitis B, hepatitis C, hepatitis D, hepatitis E, hepatitis F dan hepatitis G. Hepatitis A merupakan tipe hepatitis yang paling ringan, sedangkan hepatitis B merupakan tipe hepatitis yang berbahaya. Ada 15 juta penderita atau sebanyak 50 persen penderita hepatitis B 1 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 2 dan C di Indonesia akan menjadi penyakit hati kronik, sedangkan 10 persen penderita menjadi penyakit liver fibrosis dan kanker hati (Dimyati, 2011). Istilah hepatitisberasal dari bahasa latin yang dipakai untuk semua jenis peradangan pada hati (Wening Sari, 2008:10). Penyakit inimemiliki penyebab antara lain, virus, komplikasi dari penyakit lain, alkohol, obat-obatan atau zat kimia sampai karena penyakit autoimun (Wening Sari, 2008:16). Proses pemeriksaan yang dilakukan dokter dengan cara melakukan pemeriksaan fisik dananamnesisserta pemeriksaan laboratorium. Pemilihan penyakit hepatitis dilakukan karena banyak orang yang tidak sadar terkena penyakit hepatitis tipe tertentu karena gejalanya yang mirip. Hal ini dapat dijadikan studi kasus pada data mining. Data mining adalah bagian dari knowledge discovery in databasesyang merupakan keseluruhan proses konversi data mentah menjadi pengetahuan yang bermanfaat yang terdiri dari serangkaian tahap transformasi meliputi data preprocessing dan postprocessing. Pengertian data mining itu merujuk pada “extracting” atau “mining” pengetahuan dari sekumpulan besar data (Han&Kamber,2004). Data mining memiliki beberapa metode, antara lain classification, association dan clustering. Penelitian terkait hepatitis sudah pernah dilakukan sebelumnya, yaitu “Sistem Diagnosa Penyakit Hepatitis dengan menggunakan Metode Naïve Bayesian” oleh EstuKarunianingtyas. Penelitian tersebut menggunakan data mining untuk menentukan pasien tertentu masuk pada kelas hepatitis A, B atau C berdasarkan gejala. Akurasi pada penelitian sebelumnya tergolong rendah karena hanya mendapatkan 51,11 persen untuk kombinasi gejala dan 44,44 persen untuk PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 3 per gejala. Penelitian ini akan memasukkan pemeriksaan laboratorium dalam proses analisis. Metode clustering digunakan karena dengan menggunakan pendekatan yang berbeda dan menambah feature yang lebih lengkap maka dapat memberikan hasil pengelompokan yang berbeda dan lebih baik.Data gejala dan data hasil laboratoriumhepatitis akan dikelompokkan sesuai dengan tipe hepatitisnya dengan menemukan kemiripan antar data, maka akan terbentuk kelompok yang berisi data pasien yang terkena hepatitis A, hepatitis B dan hepatitis C. Algoritmayang digunakandengan pendekatan hirarki yaituagglomerative hierarchical clustering. Algoritma tersebut mengelompokkan data gejala yang mirip ke dalam cluster yang sama, sedangkan yang jauh dikelompokkan pada hirarki yang berbeda. Proses yang dikerjakan mulai dari Ncluster menjadi satu kesatuan cluster, dimana N adalah jumlah data. Perbedaan penelitian ini dengan penelitian sebelumnya adalah metode yang digunakan. Selain itu, penelitian ini juga menambahkan data hasil laboratorium sehingga akurasi pengelompokkannya dapat lebih tinggi.Penelitian ini penting untuk dilakukan karena dapat membantu dalam mengelompokkan data gejala pasien menurut hepatitisnyasehingga dapat memberikan penanganan yang tepat. tipe penyakit PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 1.2 4 Rumusan Masalah Berdasarkan latar belakang yang telah dikemukakan di atas, maka permasalahan yang akan dibahas dalam penelitian ini, yaitu : - Sejauh mana metode agglomerativehierarchicalclustering secara akurat mampu mengelompokkan pasien yang terkena hepatitis A, B atau C? 1.3 Batasan Masalah Pada pengerjaan penelitian ini diberikan batasan-batasan masalah untuk permasalahan yang ada antara lain, 1. Metode data mining yang digunakan adalah dengan menggunakan agglomerativehierarchical clustering. 2. Jenis pengukuran kemiripan yang digunakan adalah single linkage, average linkage dan complete linkage menggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk cluster 3. Penyakit hepatitis yang akan diteliti hanya yang bertipe A, B dan C sampelnya akan diambil dari kumpulan pasien yang berobat pada dokter hepatitisdari tahun 2000 sampai 2010 di rumah sakit di Yogyakarta. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 1.4 5 Tujuan Penelitian Berdasarkan rumusan permasalahan diatas, maka tujuan yang ingin dicapai dalam penelitian ini, yaitu : 1. Menganalisa, merancang, mengimplementasikan sistem cerdas untuk mengelompokan penyakit hepatitis. 2. Mengetahui hasil pengelompokan pasien yang terkena penyakit hepatitis A, hepatitis B dan hepatitis C dengan metode agglomerative hierarchical clustering. 3. Menguji kehandalan sistem dengan menghitung akurasi pengelompokan. 1.5 Manfaat Penelitian Manfaat yang diberikan penelitian ini, yaitu : 1. Membantu menganalisa permasalahan yang ada dibidang kedokteran dengan metode data mining. 2. Menjadi referensi bagi penelitian-penelitian berikut yang relevan dengan kasus pengelompokan penyakit hepatitis. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI BAB II LANDASAN TEORI Bab ini menjelaskan tentang dasar teori yang digunakan dalam penyusunan tugas akhir ini untuk memperjelas materi-materi yang digunakan dalam penelitian. Penjelasan dimulai dengan Knowledge Discovery in Databases, tentang penyakit hepatitis, cara perhitunganagglomerative hierarchical clustering danmetode akurasi yang akan dipakai. 2.1 Pengertian Knowledge Discovery in Databases (KDD) Data mining adalah bagian dari Knowledge Discovery in Databases yang merupakan kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam data yang berukuran besar (Santoso, 2007). Data mining juga merupakan ilmu pengetahuan yang sekarang sering digunakan untuk mencari informasi yang berada pada kumpulan data yang berjumlah banyak. Pengertian data mining itu merujuk pada extracting atau mining pengetahuan dari sekumpulan besar data (Han&Kamber,2004). Knowledge discovery in databases memiliki proses yang harus dilakukan dalam mencari pengetahuan yang diperlukan, yaitu data cleaning, data integration, data selection, data transformation, data mining dan pattern evaluationyang dapat dilihat pada gambar 2.1. 6 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 7 Gambar 2.1 : (Han& Kamber,2004)Proses KDD 1. Data cleaning Langkah pertama adalah dengan melakukan pembersihan terhadap data. Proses ini bertujuanuntuk menghilangkan noise dan data yang tidak konsisten. 2. Data integration Pada tahap ini, sumber data yang terpecah dan terpisah akan digabungkan dari segala macam tempat penyimpanan menjadi satu tempat. 3. Data selection Pada data selection, data yang relevan diambil dari database untuk dianalisis. Atribut yang tidak relevan tidak akan digunakan dalam proses selanjutnya. 4. Data transformation Pada tahap ini data diubah menjadi bentuk yang tepat untuk ditambang. Hal-hal yang masuk dalam proses data transformation, yaitu PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 8 smooting, aggregation, generalization dan attribute construction atau feature construction. Contoh metode normalisasi, yaitu [0-1] dan zscore. Definisi rumus normalisasi[0-1], sebagai berikut . π= π₯π − ππππ ππππ₯ − ππππ Keterangan : - Xi = nilai yang akan dinormalisasi - Xmin = nilai minimum dari variabel - Xmax = nilai maksimum dari variabel Definisi rumus zscore, sebagai berikut : π§= π−π π (2.2) Keterangan : 5. - X = nilai yang akan di normalisasi - µ = rata-rata - σ = standar deviasi Data mining Pada proses data mining ini merupakan suatu proses utama saat metode diterapkan untuk menemukan pola dari data. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 6. 9 Pattern evaluation Pada tahap ini, mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa pengukuran yang penting. 7. Knowledge presentation Langkah terakhir ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada user. Langkah 1 sampai dengan 4 merupakan langkah preprocessing. Setelah melakukan serangkaian proses diatas seperti data cleaning, data integration, data selection dan data transformation, maka hasilnya siap untuk dilakukan proses mining. Pada data mining, data yang dipakai merupakan sekumpulan obyek data dan atribut. Atribut merupakan karakteristik yang dimiliki oleh sebuah obyek. Gambar 2.2 memperlihatkan obyek serta atribut pada sekumpulan dataset yang akan diukur dengan menggunakan metode pada data mining. Gambar 2.2 Objek dan Atribut PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 2.2 10 Jenis-Jenis Metode Data mining Pada model data mining dibuat dari metode pembelajaran dengan supervised dan unsupervised. Fungsi pembelajaran supervised digunakan untuk memprediksi suatu nilai dan mempunyai keluaran berupa label dari setiap data. Pada supervised memiliki proses training dan testing terhadap data yang ada. Setelah dilakukan proses tersebut, maka dapat diketahui parameter yang digunakan untuk menentukan model. Model ini yang akan melakukan tugas prediksi atau peramalan. Contoh dari algoritma dengan pembelajaran supervised, yaitu naïve Bayesian. Fungsi pembelajaran unsupervised tidak memerlukan label dan datanya tidak perlu dilakukan proses training dan testing. Label yang ada pada unsupervised adalah label dari data yang akan dikelompokkan sehingga dengan label tersebut dapat diketahui bahwa data tersebut masuk ke dalam kelompok tertentu. Contoh algoritma unsupervised, yaitu k-means clustering dan agglomerative hierarchical clustering. Data mining memiliki beberapa metode yang sering dibahas, antara lain classification, association danclustering. Setiap metode memiliki berbagai macam algoritma sesuai dengan karakteristiknya masing-masing. a. Classification mining adalah sebuah pengekstraksi pola pengelompokan atau pengklasiο¬kasian sebuah himpunan obyek atau data ke dalam kelas tertentu berdasarkan atribut-atributnya. Contoh algoritma klasifikasi adalah naïve bayesian, decision tree dan support vector machine. Berikut ini merupakan contoh kasus data penyakit hipertensi untuk classification. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 11 Tabel 2.1 (Ali, 2006) contoh data klasifikasi Pada contoh tersebut terdapat label pada setiap obyek data yang menjadi kesimpulan bahwa orang tersebut terkena hipertensi atau tidak. b. Association mining adalah sebuah cara untuk menemukan pola asosiasi dalam data. Contoh pada association, mempunyai algoritma apriori, FPTree. Berikut ini merupakan contoh kasus pada association. Gambar 2.3 (Han&Kamber,2011) ilustrasi algoritma apriori PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 12 Contohnya pada saat menganalisa keranjang belanja dengan menghitung support dan confidence pada masing-masing item set, maka dapat diketahui pola asosiasinya seperti barang-barang yang dibeli secara bersamaan pada suatu transaksi pembelian. Pola tersebut berguna untuk keperluan promosi, segmentasi pembeli, pembuatan catalog produk dan melihat pola belanja pembeli. c. Clustering mining adalah proses mencari cluster atau kelompok dari sekumpulan obyek sehingga obyek-obyek di dalam sebuah cluster mirip satu dengan lainnya, dan berbeda dengan obyek di luar cluster-nya. Ada 2 jenis clusteringyang biasa digunakan, yaitu hierarchical clustering dan partition clustering. Contoh algoritma yang ada pada clustering adalah KMeans dan agglomerative. Berikut ini contoh data pada clustering. Tabel 2.2 (Ali, 2006) contoh data clustering PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 13 Pada gambar tersebut tidak terdapat label yang menyertakan orang tersebut terkena hipertensi atau tidak. Pada clustering, ditentukan labelnya berdasarkan tingkat kemiripan data. Seperti pada gambar dibawah ini terdapat 2 buah cluster,cluster pertama berada pada tingkat gemuk dan sangat gemuk serta terletak pada usia muda dan paruh baya. Sedangkan cluster kedua pada tingkat terlalu gemuk dan usia paruh baya dan tua, maka dari hal tersebut dapat disimpulkan bahwa pada cluster kedua merupakan pasien yang terkena hipertensi. Sedangkan pada cluster pertama tidak. Gambar 2.4 (Ali, 2006) hasil clusteringpada data hipertensi 2.3 Metode Clustering 2.3.1 Pengertian Clustering Metode data mining yang akan dipakai adalah clustering.Clustering merupakan proses pengelompokan objek yang sama menjadi satu kelompok, sedangkan obyek diantara kelompok tersebut berbeda satu sama lain. Pada proses clusteringmemilikicluster, yaitu kumpulan objek data yang sama satu sama lain PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 14 dalam cluster yang sama dan berbeda untuk objek dalam kelompok lain. Tujuan dari cluster ini untuk menemukan kemiripan antara data, sesuai dengan karakteristik yang ditemukan di dalam data dan pengelompokan data objek yang sama ke dalam kelompok-kelompok tertentu (Han&Kamber.2004). Jadi, prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu cluster dan meminimumkan kesamaan antar cluster. Pada clustering terdapat 2 jenis metode, yaituhierarchical clusteringdan partition clustering. Hierarchical clusteringadalah teknik clustering yang membentuk hirarki dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki yang berjauhan. Metode ini terbagi menjadi dua yaitu bottom-up (agglomerative) yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down (divisive) yang memecah cluster besar menjadi cluster yang lebih kecil. Sedangkan partition clustering adalah teknik pengelompokan obyek ke dalam cluster tertentu dengan menentukan jumlah cluster terlebih dahulu. Contohnya: algoritma K-Means dan Fuzzy K-Means. Metode yang akan digunakan untuk penelitian ini menggunakan pendekatan hirarki yaitu dengan menggunakan agglomerative hierarchical clustering. Pemilihan metode agglomerative hierarchical clusteringkarena algoritmanya yang sederhana, jarak untuk setiap gejala dapat diketahui, model pengelompokannya dapat dilihat dengan dendrogram, dan tidak perlu menentukan jumlah cluster yang diinginkan diawal. Metode tersebut bekerja dengan mengelompokan data-data yang mirip ke dalam hirarki yang sama sedangkan yang jauh dikelompokan pada hirarki yang berbeda. Agglomerative melakukan PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 15 proses clustering dari Ncluster menjadi satu kesatuan cluster, dimana N adalah jumlah data. Jenis pengukuran jarak yang akan digunakan adalah single linkage, average linkagedan complete linkage. Penggunaan tiga pengukuran kemiripan jarak karena dapat mengetahui mana hasil yang terbaik dengan melihat dendrogram yang dihasilkan. a. Single linkage merupakan jarak minimum antara elemen dari setiap cluster. Jarak antara dua cluster didefinisikan sebagai d(A,B) = min {Sxy } π₯ππ΄, π¦ππ΅ (2.3) Keterangan : - Sxy merupakan jarak antara dua data x dan y dari masing cluster A dan B. b. Average linkagemerupakan rata-rata jarak antara elemen dari setiap cluster pada setiap data. Jarak antar cluster didefinisikan sebagai, π π΄, π΅ = 1 ππ΄ ππ΅ π {π₯, π¦} π₯ππ΄ π¦ππ΅ (2.4) Keterangan : - nA dan nB adalah banyaknya data dalam set A dan B. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 16 c. Complete linkagemelihat jarak maksimum antar elemen dalam cluster. Jarak antar cluster didefinisikan sebagai, d(A,B) = max {Sxy } π₯ππ΄, π¦ππ΅ (2.5) Keterangan : - Sxy merupakan jarak antara dua data x dan y dari masing cluster A dan B. Ketiga jenis pengukuran jarak tersebutmenggunakan prinsip jarak minimum yang diawali dengan mencari dua obyek terdekat dan keduanya membentuk cluster yang pertama. Langkah selanjutnya dapat dipilih menjadi dua kemungkinan, obyek ketiga akan bergabung dengan cluster yang telah terbentuk, atau membentuk cluster baru. Proses ini akan berlanjut sampai akhirnya terbentuk cluster tunggal. Hasil dari pengelompokan ini dapat ditampilkan dalam bentuk dendrogram. Gambar 2.5 : dendrogram PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 17 Pada dendrogram diatas terdapat jarak antar obyek. Garis vertikal merupakan jarak, sedangkan garis horizontal merupakan obyek. Salah satu cara untuk mempermudah pengembangan dendrogram untuk hierarchicalclustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti : a. Euclidean distance, pengukuran jarak yang biasa digunakan dan sering disebut dengan formula phytagoras. (2.6) Keterangan : - n = jumlah atribut atau dimensi. - pkdan qk= data. b. Minskowski distance, merupakan generalisasi dari euclidean matrix. (2.7) Keterangan : 1. r = parameter 2. n = jumlah dimensi atau atribut, 3. pk dan qk = obyek data p dan q PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 18 c. Simple Matching Coefficients, biasa digunakan jika data hanya memiliki atribut bertipe biner. Cara kerjanya adalah jumlah data yang cocok dibagi dengan jumlah atribut. SMC = (M11+ M00 ) / (M01 + M10 + M11+ M00 ) (2.8) Keterangan : 1. M01 = jumlah atribut dimana p = 0 dan q = 1 2. M10 = jumlah atribut dimana p = 1 dan q = 0 3. M00 = jumlah atribut dimana p = 0 dan q = 0 4. M11 = jumlah atribut dimana p = 1 dan q = 1 d. Jaccard Coefficient, biasa digunakan jika data hanya memiliki atribut bertipe biner. Cara kerjanya adalah jumlah biner 1 dan 1 yang cocok dibagi dengan jumlah nilai atribut yang keduanya tidak 0. J = (M11) / (M01 + M10 + M11) (2.9) Keterangan : 1. M01 = jumlah atribut dimana p = 0 dan q = 1 2. M10 = jumlah atribut dimana p = 1 dan q = 0 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 19 3. M00 = jumlah atribut dimana p = 0 dan q = 0 4. M11 = jumlah atribut dimana p = 1 dan q = 1 2.3.2 Agglomerative Hierarchical Clustering Pada agglomerative hierarchical clustering, harus dihitung jarak masingmasing obyek. Setelah jarak dari semua obyek dihitung, maka lakukan langkahlangkah berikut ini : 1. Biarkan setiap data point menjadi sebuah cluster 2. Hitung matriks kemiripan 3. Kelompokkan data paling mirip untuk dimasukan ke dalam cluster yang sama dengan melihat jarak dalam matriks kemiripan 4. Perbarui matriks kemiripan dengan jarak yang baru. 5. Ulangi sampai tersisa hanya satu cluster. (Tan,Steinbach,dkk 2004). Gambar 2.6 hasil ilustrasiclustering PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 20 Rumus yang digunakan dalam menghitung jarak antar obyek bermacammacam dan salah satu yang digunakan adalah euclidean distance. Pada tabel dibawah ini merupakan contoh data yang belum dihitung jarak kedekatannya. Dari tabel inilah dapat dihitung dengan menggunakan rumus euclidean distance. Tabel 2.3 Contoh Data Titik X Y 0.4 0.53 1 0.22 0.38 2 0.35 0.32 3 0.26 0.19 4 0.08 0.41 5 0.45 0.30 6 Setelah dihitung jarak antar obyek maka dibuatkan matriks jarak. Dalam matriks ini jarak dari setiap pasang obyek dihitung dan nilai dalam satu masukan menunjukan jarak antar obyek dari indeks dari kolom dan baris. Matriks jarak ini bersifat simetris. 1 2 3 4 5 6 1 0 0.24 0.22 0.37 0.34 0.23 Tabel 2.4 Contoh Matriks Similiarity 2 3 4 5 0.24 0.22 0.37 0.34 0 0.15 0.20 0.14 0.15 0 0.15 0.28 0.20 0.15 0 0.29 0.14 0.28 0.29 0 0.25 0.11 0.22 0.39 6 0.23 0.25 0.11 0.22 0.39 0 Untuk mengukur jarak antara dua cluster A dan B digunakan 3 pengukuran kemiripan, yaitu : a. Jarak minimum antara elemen dari setiap cluster (singlelinkage) PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 21 Pada single linkage, akan mengelompokan data dengan cara melihat jarak yang paling minimum. Gambar 2.7 : matriks jarak Pertama gabungkan dua item yang paling dekat, karena objek 5 dan 3 memiliki jarak yang minimum, maka kedua obyek tersebut digabung min(dik ) = d53 = 2 untuk membentuk cluster (35). Kemudian untuk menemukan cluster berikutnya, maka memerlukan jarak-jarak antara cluster (35) dan objek-objek yang lain yang tersisa yaitu 1, 2 dan 4. Jarak yang berdekatan, yaitu : - d (35 )1 = min { d 31, d 51} = min {3, 11} = 3 - d (35 )2 = min { d 32, d 52} = min {7, 10} = 7 - d (35 )4 = min { d 34, d 54} = min { 9, 8} = 8 Kemudian menghapus baris dan kolom yang bersesuaian dengan objek 3, 5 dan untuk cluster (35), maka mendapatkan matrik jarak yang baru. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 22 Gambar 2.8 : matriks jarak keduasingle linkage Dari matriks jarak yang baru tersebut, cari jarak terkecil antara pasanganpasangan cluster sekarang, yaitu d (35)1 = 3. Lalu menggabungkan cluster (1) dengan cluster (35) untuk mendapatkan cluster berikutnya dengan menghitung : - d (135 )2 = min { d (35)2, d 12} = min {7, 9} = 7 - d (135 )4 = min { d (35)4, d 14} = min {8, 6} = 6 Kemudian hapus baris dan kolom dari cluster (35) dan (1), maka akan mendapatkan matrik jarak untuk hasil cluster berikutnya, yaitu : Gambar 2.9 : matriks jarak ketigasingle linkage Jarak terdekat berikutnya yang paling kecil antara pasangan cluster adalah (24) = 5. Kemudian gabung objek 4 dan 2 untuk mendapatkan cluster (24). PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 23 Saat ini sudah mempunyai 2 cluster yang berlainan, (135) dan (24), maka jarak terdekatnya, yaitu - d (135 )24 = min { d (135 )2 , d (135 )4 } = min {7, 6} = 6 Proses perhitungan sudah selesai karena cluster sudah tersisa satu. Dari hasil diatas menghasilkan matriks jarak yang terakhir dan dendrogramnya sebagai berikut : Gambar 2.10 : matriks jarak terakhirsingle linkage Gambar 2.11: Dendrogram single linkage untuk jarak antara 5 obyek b. Jarak maksimum antara elemen dalam cluster (complete linkage). Pada complete linkage, semua item dalam satu cluster berada dalam jarak paling jauh satu sama lain. Pada complete linkage ini menggunakan matriks jarak pertama yang digunakan untuk menghitung single linkage. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 24 Pada tahap pertama objek- objek 3 dan 5 digabung karena jaraknya paling dekat. Perbedaan single linkagedengan complete linkageadalah pemilihan jaraknya. Setelah dihitung maka akan menghasilkan matriks jarak baru. Kolom dan baris 3 dan 5 akan dihapus untuk membentuk cluster 35. - d (35 )1 = maks { d 31, d 51} = maks {3, 11} = 11 - d (35 )2 = maks { d 32, d 52} = maks {7, 10} = 10 - d (35 )4 = maks { d 34, d 54} = maks { 9, 8} = 9 Gambar 2.12 : matriks jarak keduacomplete linkage Penggabungan berikutnya terjadi antara kelompok yang paling dekat 2 dan 4 untuk membentuk cluster (24) = 5. Pada tahap ini menghasilkan matrik jarak yang baru dengan menghapus baris dan kolom yang bersesuaian. - d (24)(35) = maks { d 2(35), d 4(35)} = maks {10, 9} = 10 - d (24)1 = maks { d 21, d 41} = 9 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 25 Gambar 2.13: matriks jarak ketigacomplete linkage Penggabungan berikutnya menghasilkan cluster (124). Pada tahap akhir kelompok (35) dan (124) digabungkan menjadi cluster tunggal (12345) pada perhitungan d (124)(35) = maks { d (1)(35) , d (24)(35) } = maks {11, 10} = 11. Dari hasil inilah maka dapat dibuat bentuk dendrogramnya seperti pada gambar dibawah ini. Gambar 2.14 : dendrogram complete linkage untuk jarak 5 objek PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 26 c. Rata-rata jarak antara elemen dari setiap cluster (average linkage). Pada average linkage, jarak antara dua cluster dihitung sebagai jarak ratarata antara semua pasangan item-item yang ada pada tiap cluster. Pada average linkageini juga masih menggunakan matriks jarak pertama. Pada tahap pertama objek 3 dan 5 digabung karena mereka paling dekat jaraknya. Pada tahap kedua, hitung jarak seperti dibawah ini. - d (35 )1 = { d 31+ d 51}/ 2 = {3 +11}/ 2 = 7 - d (35 )2 = { d 32 + d 52}/2 = {7 + 10}/2 = 8,5 - d (35 )4 = { d 34 + d 54}/2 = { 9 + 8}/2 = 8,5 0 Gambar 2.15 : matriks jarak keduaaverage linkage Kemudian cari jarak yang paling dekat berikutnya. Kelompok yang paling mirip adalah 2 dan 4 untuk membentuk cluster (24) = 5. Pada tahap ketiga, hitung gabungan cluster untuk menghasilkan matrik jarak yang baru. - d (24)35 = {d (2,3) + d(2,5) + d(4,3) +d(4,5) }/4 = (7+10+9+8)/4 = 8,5 - d (24)1 = { d (2,1) + d (4,1) }/2 = (9+6)/2 = 7,5 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 27 0 0 Gambar 2.16: Matriks jarak ketigaaverage linkage Pada tahap ini, jarak yang paling dekat menghasilkan cluster (135). Kemudian cluster (135) dan (24) digabungkan menjadi cluster tunggal (13524). Perhitungan ini akan menghasilkan matriks jarak baru dan dendrogram. - d (135)(24) = { d (2,1)+ d (2,3) + d (2,5) + d (4,1)+ d (4,3) + d (4,5) }/6 = 49/6 =8,17 Gambar 2.17: matriks jarak terakhir average linkage PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 28 Gambar 2.18 : Dendrogram average linkage untuk jarak 5 obyek. Setelah proses perhitungan dengan single linkage, average linkage dan complete linkage, pengelompokkan dari maka hasil dibuatkan perhitungan dendrogram tersebut. untuk Pada, mengetahui agglomerative hierarchical clustering, dapat menentukan jumlah cluster dengan cara memotong dendrogram pada jarak tertentu. Contohnya pada gambar dibawah ini. Pada gambar 2.21 dapat dilihat bahwa cluster terbagi menjadi 2. Cluster 1 berisi obyek 1, 3 dan 5, sedangkan cluster 2 berisi obyek 2 dan 4. Cut off Gambar 2.19 : Dendrogram yang sudah dilakukan pemotongan (cut-off) PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 2.4 29 Dimensionality Reduction Dimensionality reduction adalah proses pengurangan dimensi dari data yang berdimensi besar menjadi data yang berdimensi kecil. Ada dua teknik dalam dimensionality reduction ini, yaitu feature selection dan feature extraction. Feature selection, memilih feature yang berpengaruh dari sekumpulan data asli. Feature extraction, membentuk feature baru berdasarkan feature yang lama dengan dimensi yang lebih sedikit dibandingkan dengan sebelumnya. Teknik yang digunakan adalah featureextraction dengan principal component analysis. Tujuan dari principal component analysis adalah mengekstrak informasi yang paling penting dari dataset, mengompres ukuran dari dataset dengan hanya menjaga informasi yang penting, menyederhanakan deskripsi dari dataset dan menganalisa struktur dari observasi dan variable (Herve,Lynne2010). Dalam pencapaian tujuan diatas, principal component analysis menghitung variabel baru yang disebut dengan principal component yang diperoleh sebagai kombinasilinear dari variabel yang asli.Principal component analysis menganalisa semua variance di dalam variabel dan mengatur ulang ke dalam sekumpulan komponen yang baru yang sama dengan jumlah variabel asli. Cara kerja dari principal component analysis, antara lain : 1. Pada data matrix, kurangi rata-rata dari setiap dimensi data (scalling). 2. Hitung covariance matrix dari kumpulan data matrix. 3. Hitung eigenvector dan eigenvalue dari covariance matrix. 4. Pilih component dan bentuk vector feature dan ambil principal component dari eigenvector yang memiliki eigenvalue paling besar PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 5. 2.5 30 Menurunkan data set yang baru. (Smith, 2002). Penyakit Hepatitis Penyakit hepatitisadalah penyakit yang disebabkan oleh beberapa jenis virus yang menyebabkan peradangan serta merusak sel-sel organ hati manusia. Penyakit hepatitis mempunyai tipe-tipe yang berbeda, antara lain hepatitis A, hepatitis B, hepatitis C, hepatitis D, hepatitis E, hepatitis F dan hepatitis G. Hepatitis A merupakan tipe hepatitis yang paling ringan, sedangkan hepatitis B merupakan tipe hepatitis yang berbahaya. Sebanyak 50 persen atau 15 juta penderita hepatitis B dan C di Indonesia akan menjadi penyakit hati kronik dan 10 persen menjadi liver fibrosis dan kanker hati (dimyati, 2011). Istilah hepatitisberasal dari bahasa latin yang dipakai untuk semua jenis peradangan pada hati (Wening Sari, 2008:10). Penyebabnya dapat berbagai macam, mulai dari virus, komplikasi dari penyakit lain, alkohol, obat-obatan atau zat kimia sampai karena penyakit autoimun (Wening Sari, 2008:16). Hepatitis merupakan penyakit yang sangat menarik untuk dijadikan bahan penelitian. Sebelumnya sudah ada penelitian yang membahas permasalahan hepatitis ini. Perbedaan antara penelitian ini dengan penelitian sebelumnya adalah metode yang digunakan. Metode yang digunakan adalah classification dengan algoritma Naïve Bayesian. Hasil dari penelitian tersebut memiliki nilai akurasi yang tergolong rendah. Akurasi per gejala menghasilkan 44,44 persen, sedangkan kombinasi gejala menghasilkan akurasi 51,11 persen. Penulis beranggapan bahwa rendahnya hasil akurasi disebabkan oleh kurangnya featureatau atribut dari data PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 31 hasil pemeriksaan laboratorium. Berdasarkan dari penelitian sebelumnya, maka penelitian ini akan memakai data hasil pemeriksaan laboratorium sehingga hasil akurasi yang didapatkan akan tinggi. Penyakit yang akan dijadikan bahan penelitian adalah hepatitis karena penyakit tersebut memiliki banyak tipe dan sulit untuk menggolongkan pasien termasuk dalam tipe hepatitisyang ada karena memiliki gejala yang hampir sama. Pada penelitian ini terbatas untuk hepatitis A, B dan C saja. Berikut ini merupakan penjelasan mengenai hepatitistipe A, B dan C. a. Hepatitis A Hepatitis A adalah golongan penyakit Hepatitis yang ringan dan jarang sekali menyebabkan kematian. Virus hepatitis A penyebarannya melalui kotoran atau tinja penderita yang penularannya melalui makanan dan minuman yang terkontaminasi dan bukan melalui aktivitas seksual atau melalui darah. Penyakit Hepatitis A memiliki masa inkubasi dari 2 sampai 6 minggu sejak penularan terjadi. Kemudian penderita menunjukkan beberapa tanda dan gejala terserang penyakit Hepatitis A. Pada gejala penyakit Hepatitis A diantaranya yaitu pada minggu pertama, individu yang dijangkit akan mengalami sakit seperti kuning, keletihan, demam, hilang selera makan, muntah, pusing dan kencing yang berwarna hitam pekat. Demam yang terjadi adalah demam yang terus menerus, tidak seperti demam yang lainnya yaitu demam berdarah, TBC, dan thpyus. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 32 b. Hepatitis B Hepatitis B merupakan salah satu penyakit menular yang tergolong berbahaya didunia. Penyakit ini disebabkan oleh virus hepatitis B yang menyerang hati dan menyebabkan peradangan hati akut, seperti hepatitis C, kedua penyakit ini dapat menjadi kronis dan akhirnya menjadi kanker hati. Proses penularan hepatitis B yaitu melalui pertukaran cairan tubuh atau kontak dengan darah dari orang yang terinfeksi hepatitis B. Ada beberapa hal yang menjadi pola penularan antara lain penularan dari ibu ke bayi saat melahirkan, hubungan seksual, transfusi darah, jarum suntik, maupun penggunaan alat kebersihan diri secara bersama-sama. Hepatitis B dapat menyerang siapa saja, akan tetapi umumnya bagi mereka yang berusia produktif akan lebih beresiko terkena penyakit ini. Pada gejala penyakit Hepatitis B, secara khusus tanda dan gejala terserangnya hepatitis B yang akut adalah demam, sakit perut dan kuning (terutama pada area mata yang putih atau sklera). Namun, bagi penderita hepatitis B kronik akan cenderung tidak tampak tanda-tanda tersebut, sehingga penularan kepada orang lain menjadi lebih beresiko. c. Hepatitis C Penyakit hepatitis C adalah penyakit hati yang disebabkan oleh virus hepatitis C. Proses penularannya melalui kontak darah seperti transfusi, jarum suntik. Penderitahepatitis C kadang tidak menampakkan gejala yang jelas, akan tetapi pada penderita Hepatitis C kronik menyebabkan kerusakan sel-sel hati PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 33 dan terdeteksi sebagai kanker hati. Sejumlah 85% dari kasus, infeksi hepatitis C menjadi kronis dan secara perlahan merusak hati selama bertahun-tahun. Penderita sering kali tidak menunjukkan gejala, walaupun infeksi telah terjadi bertahun-tahun lamanya. Namun, beberapa gejala yang samar diantaranya adalah lelah, hilang selera makan, sakit perut, urine menjadi gelap dan kulit atau mata menjadi kuning yang disebut jaundice. Pada beberapa kasus dapat ditemukan peningkatan enzyme hati pada pemeriksaan urine, Pemeriksaan laboratorium diperlukan untuk memastikan diagnosis hepatitis karena gejalahepatitis tidak khas. Berikut ini, tahap-tahap pemeriksaan untuk hepatitis yang harus dilalui selain melihat dari sisi gejala yang tampak dari luar (Marzuki Suryaatmadja, 2010). 1. Pemeriksaan untuk hepatitis akut: ο· Enzim SGOT, SGPT ο· Penanda hepatitis A (Anti HAV IgM) ο· Penanda hepatitis B (HbsAg, Anti HBc IgM) ο· Penanda hepatitis C (Anti HCV, HCV RNA) 2. Pemeriksaan untuk hepatitis kronis: ο· Enzim SGOT, SGPT. ο· Penanda hepatitis B (HbsAg, Hbe, Anti H Bc, Anti Hbe, HBV DNA). ο· Penanda hepatitis C (Anti HCV, HCV RNA). PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 2.6 34 Pengujian Keakuratan Metode Pengujian keakuratan hasil pengelompokan hepatitis ini penting agar hasilnya lebih valid. Oleh karena itu diperlukan suatu metode untuk mengetahui keakuratan hasil yang telah diperoleh. Pada clustering biasanya menggunakan 3 pendekatan untuk memastikan bahwa proses clustering tepat. Tiga pendekatan itu adalah external test, internal test dan relative test. a. Pengujian dengan metode external test, pada pengujian ini digunakan untuk mengukur sejauh mana label pada cluster cocok dengan label class yang disediakan. Seperti pada tabel 2.5 terdapat tabel untuk mengevaluasi cluster. Kolom mewakili jenis hepatitis, sedangkan baris mewakili kelompok clustering. Contohnya menggunakan confusion matrix, entropy dan purity. Rumus yang digunakan untuk menghitung akurasi dengan confusion matrix, yaitu : π΄ππ’πππ π = π½π’πππβ πππππ π ππ‘πππ cluster π₯ 100 % π½π’πππβ πππ‘π (2.7) Tabel 2.5 : Cluster evaluation hepatitis A B C 1 X X X 2 X X X 3 X X X kelompok PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI b. 35 Pengujian dengan metode internal test, pada pengujian ini penyelesaian cluster digunakan untuk melihat kualitas cluster tanpa informasi yang berasal dari luar (external). Contoh pengukuran pada internal test, yaitu cluster separation dan cluster cohesion. a) Cluster cohesion adalah jumlah dari lebar semua link yang ada di dalam cluster. Cohesion adalah pengukuran di dalam cluster dengan sum of square (SSE). WSS ο½ ο₯ ο₯ ( x ο mi ) 2 xοCi i (2.6) b) Cluster separation, pengukuran antar cluster dengan sum of square (SSE). BSS ο½ ο₯ Ci (m ο mi ) 2 i (2.7) c. Pengujian dengan metode relative test, pada pengujian ini beberapa penyelesaian cluster yang berbeda dari data dibandingkan dengan menggunakan algoritma yang sama dengan parameter yang berbeda. Pada relative test ini sering menggunakan external index atau internal index untuk mengukurnya. Contohnya dengan SSE atau entropy. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 36 Metode evaluasi untukclustering yang akan digunakan pada penelitian ini adalah external test. External test bekerja dengan membandingkan hasil clustering yang sudah didapat dengan class label yang sudah disediakan. Jadi dapat dilihat tingkat kecocokan hasil clustering yang ada dengan label yang sudah tersedia. Hasil pengelompokkan juga akan dihitung akurasinya sehingga dengan akurasi tersebut dapat terlihat bagus atau tidaknya hasil pengelompokkan yang didapat. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI BAB III METODOLOGI PENELITIAN Pada bab ini menjelaskan mengenai data yang digunakan pada penelitian dan mengenai metode pengumpulan data. Selain itumembahas mengenai teknik analisis dan evaluasi hasil. 3.1 Data Pada penelitian yang dilakukan ini menggunakan data pasien yang berupa data hasil laboratorium dan data dari hasil pemeriksaan dari dokter. Data penelitian ini didapat dari rumah sakit di Yogyakarta. Data yang digunakan adalah data gejala dan data laboratorium. Data hasil laboratorium sangat penting karena hasil ini sangat berpengaruh langsung pada diagnosis akhir. Data gejala hasil pemeriksaan dokter juga sama pentingnya untuk memberikan diagnosa awal pada pasien tersebut dan dapat memperkuat hasil dari diagnosa akhir. Data hasil pemeriksaan dokter yang dikumpulkan adalah hasil diagnosa pada pasien dari tahun 2000 sampai dengan 2010. Data ini berupa data diri pasien, gejala, diagnosa awal dan akhir. Data pasien yang digunakan terbatas pada pasien yang terkena hepatitisA, B dan C.Sebelumnya, data gejala ini dipakai oleh Karunia Estu pada skripsinya yang berjudul “Sistem diagnosa penyakit hepatitis dengan menggunakan metode Naïve Bayesian”. Pada data hasil pemeriksaan dokter yang digunakan terdapat 5 induk gejala, yaitu gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Jumlah data yang akan dipakai sebanyak 110. 37 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 38 Data hasil laboratorium merupakan hal yang sangat penting untuk menetapkan pasien tersebut terkena hepatitis tipe tertentu. Pemeriksaan laboratorium dibagi menjadi dua, yaitu kualitatif dan kuantitatif. Pada pemeriksaan kualitatif hanya menetapkan bahwa pasien tersebut positif atau negative terkena hepatitis, sedangkan pemeriksaan kuantitatif memiliki ukuran atau kadar yang berasal dari penanda hepatitis. Pemeriksaan laboratorium untuk hepatitis meliputi pemeriksaan fungsi hati, yaitu SGOT dan SGPT.Selain itu, pemeriksaan yang paling penting untuk hasil diagnosa akhir adalah penanda hepatitis, yaitu anti HAV untuk hepatitis A, HBsAg untuk hepatitis B dan anti HCV untuk hepatitis C. 3.2 Metode Pengumpulan Data Data- data yang digunakan dalam penelitian ini menggunakan data yang didapat dari hasil laboratorium dan hasil wawancara dengan dokter. Pada pembuatan sistem data mining untuk pengelompokan data penyakit hepatitis dengan menggunakan metode data mining, menggunakan beberapa teknik pengumpulan data dan variabel, yaitu : 1. Studi kepustakaan. Proses ini digunakan untuk mendapatkan informasi tentang penyakit hepatitis dan metode-metode data mining yang akan digunakan untuk memecahkan masalah. Buku-buku yang akan digunakan terkait dengan data mining dan aplikasinya. 2. Mengadakan wawancara dengan dokter terkait dengan penjelasan penyakit hepatitis dan gejala-gejalanya. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 39 Wawancara yang akan dilakukan ini secara lisan dan mempunyai tujuan untuk mengetahui mengenai penyakit hepatitis itu beserta dengan gejala. Tujuannya agar lebih mudah memahami mengenai penyakit hepatitis itu sendiri yang nantinya dapat berguna dalam menentukan atribut untuk menganalisa data-data pasien. 3. Mengajukan permohonan untuk meminta data sample pasien yang berobat untuk mengetahui penyakit hepatitis yang diderita. Proses pengajuan untuk meminta data pasien perlu dilakukan karena data-data pasien yang ada tidak dapat secara langsung disebarluaskan karena bersifat pribadi, maka diperlukan adanya surat izin untuk meminta data pasien hepatitis. 3.3 Teknik Analisa Data Sumber data yang digunakan diperoleh dari survey lapangan di rumah sakit. Data yang akan diambil berupa hasil pemeriksaan laboratorium yang ditunjukan oleh setiap pasien kepada dokter yang berobat di rumah sakit yang bersangkutan. Sumber data ini akan terbatas pada data-data pasien yang hasil diagnosa akhirnya terkena hepatitisA, B maupun C. Data-data yang sudah didapat akan dianalisa untuk diketahui jenis pengelompokan berdasarkan tipe penyakitnya. Tahap-tahap jalannya program, sebagai berikut. Data Preprocessing Perhitun gan jarak Clustering Output Dendrogram Akurasi Single Average Complete Gambar 3.1 Diagram blok proses clustering PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 40 a. Preprocessing Data yang sudah dikumpulkan masuk pada tahap preprocessing yang ada padaknowledge discovery in databases, yaitu data cleaning, data integration, data selectiondan data transformation. Data gejala pasien hepatitis masih terpisah berdasarkan hasil identifikasi penyakit antara satu sama lain sehingga perlu digabungkan untuk mempermudah proses pengelompokkan seperti pada tabel dibawah ini. Tabel 3.1 Data gejala hepatitis Feature No gejala otot 1 Normal 2 Normal 3 Normal 4 Pegal 5 Normal 6 Normal 7 linulinu gejala perut muntah,mual,nyeri perut sebelah kanan,nafsu makan berkurang muntah,mual,nafsu makan berkurang muntah,kembung,mu al, nyeri perut sebelah kanan, nafsu makan berkurang mual, nyeri perut sebelah kanan muntah,kembung, nafsu makan berkurang,perut_acit es nyeri perut sebelah kanan muntah,mual, nafsu makan berkurang,perut_acit es hasil Identifika si gejala kulit gejala mata gejala mirip flu Normal kuning Normal normal demam,batuk demam,pusing batuk Gatal kuning demam,pusing, lesu,batuk B Normal normal lesu,batuk B Normal normal C Normal normal lesu demam,pusing, lesu Normal normal demam,pusing, batuk A A C C PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 41 Dari data diatas gejalanya dikelompokkan menurut gejala masing-masing seperti gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Setelah itu menjabarkan masing-masing gejala seperti pegal, nyeri sendi dan normal untuk gejala otot. Gejala mual, muntah, diare, nyeri perut sebelah kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites untuk gejala perut. Gejala normal, kuning, lembab, gatal, kemerahan, kering untuk gejala kulit. Gejala normal dan kuning untuk gejala mata Sedangkan gejala demam, pusing, lesu, mialgia, lelah, menggigil, dan batuk untuk gejala mirip flu. Dari gejala-gejala tersebut dilakukan proses binerisasi yang sudah dilakukan pada penelitian Karunia Estu. Kemudian, selain data gejala ditambahkan pula data laboratorium dengan atribut SGOT, SGPT, anti HAV, HbsAg dan Anti HCV. Gejala laboratorium memiliki range yang berbeda-beda sehingga perlu untuk di normalisasi agar rentang nilai antar data tidak jauh. Jenis normalisasi yang diberikan adalah zscore atau normalisasi [0-1]. Selain itu, pengurangan dimensi dengan principal component analysis dapat dilakukan agar mengurangi dimensi data tetapi tidak menghilangkan informasi penting yang terkandung pada data. b. Pengukuran jarak Data yang sudah di preprocessing akan dilakukan pengukuran jarak antar data dengan menggunakan salah satu dari pilihan pengukuran jarak. Seperti yang sudah dijelaskan pada bab sebelumnya. Ada pengukuran dengan euclidean distance, minkowski distance, simple matching coefficients PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 42 danjaccard coefficients. Hasil dari pengukuran jarak ini berupa matriks jarak antar obyek data. c. Clustering Hasil dari matriks jarakakan masuk pada tahap clustering. Metode yang dipakai untuk menyelesaikan pengelompokan data-data pasien yang terkena hepatitis dengan memakai agglomerativehierarchical clustering. Data pasien yang akan terkumpul pada masing-masing cluster menggunakan metode pengukuran kemiripan single linkage (jarak minimum), average linkage (jarak rata-rata) dan complete linkage (jarak maksimum)dengan memilih jarak minimum atau yang paling mirip untuk tiap data.Berikut ini adalah tabel untuk jarak keseluruhan antara ke enam data sample yang sudah dihitung dengan menggunakan rumus jarak euclidean distance. Tabel 3.2: Contoh matriks jarak dengan Euclidean distance 1 2 3 4 5 6 1 0 2 2.236068 2.828427 3 3 2 3 4 5 6 0 2.645751 0 2.828427 3.316625 0 2.645751 3.162278 3 0 2.645751 3.162278 2.64575131 2.828427 0 1. Pengukuran jarak dengan single linkage merupakan pengukuran jarak minimum antara elemen dari setiap cluster. Dari matriks jarak yang ada, jarak yang paling minimum adalah 2 yang didapat dari obyek 1 ke 2. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 43 Kemudian pasangkan obyek data lainnya dengan jarak yang minimum agar mendapatkan hasil jarak baru pada matriks jarak dan masuk ke dalam cluster.Hasil jarak baru yang sudah didapat, akan membentuk matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut. Gambar 3.2 : Dendrogram singlelinkage 2. Pengukuranaverage linkage yang merupakan pengukuran rata-rata jarak antara elemen dari setiap cluster. Dari matriks jarak yang ada, jarak yang paling minimum adalah 2 dari obyek 1 ke 2. Kemudian pasangkan dengan seluruh data agar didapat hasil jarak baru pada matrik jarak dan keseluruhan data sudah masuk ke dalam cluster.Pada average linkageumlah jarak antar data dibagi dengan jumlah anggota di dalamcluster. Hasil jarak baru yang sudah didapat, akan membentuk matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 44 Gambar 3.3 : Dendrogram untuk average linkage 3. Pengukuran complete linkagemerupakan pengukuranyang melihat jarak maksimum antar elemen dalam cluster. Dari matriks jarak yang ada, jarak yang paling minimum adalah 2 dari obyek 1 ke 2. Pemilihan jarak diawal tiap iterasi tetap nilai yang paling minimum, sedangkan untuk perhitungan kemiripan menggunakan nilai yang paling maksimum. Pasangkan dengan seluruh data agar didapat hasil jarak baru pada matriks jarak dan keseluruhan data sudah masuk ke dalam cluster.Hasil jarak baru yang sudah didapat, akan membentuk matriks jarak baru sehingga dapat dibentuk dendrogram, sebagai berikut. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 45 Gambar 3.4 : dendrogram untuk complete linkage 4. Menentukan jumlah cluster dari hasil dendrogram yang ada. Pada kasus ini akan dibuat 3 cluster, yaitu hepatitisA, B dan C. Kemudian dapat dilakukan proses cut-off atau pemotongan pada dendrogram pada ketinggian atau jarak tertentu agar terbentuk menjadi tigacluster. Selain itu, dapat dilakukan dengan proses maxclust, yaitu proses yang membatasi terbentuknya cluster hanya tiga cluster. Tabel 3.3 Hasilcluster Kelompok 1 Kelompok 2 Kelompok 3 1 4 5 2 6 3 d. Perhitungan Akurasi Seterlah dendrogram ditampilkan, maka pengujian akurasi dilakukan agar dapat mengetahui keakuratan hasil pengelompokkan. Tabel yang digunakan adalah tabel evaluasi cluster untuk mengetahui keakuratan hasil yang didapat dengan metode agglomerative hierarchical clustering dalam mengelompokan penyakit hepatitis A, B dan C. Evaluasi ini dilakukan dengan cara membandingkan hasil penggelompokan dengan agglomerative hierarchical clustering dengan data asli. Hasil yang didapat dari penelitian perlu dievaluasi agar hasil yang diperoleh dapat mencapai tujuan yang ingin dicapai pada PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 46 penelitian ini. Berikut ini adalah tabel evaluasi cluster dari perhitungan sebelumnya. Kolom pada tabel mewakili tipe hepatitis dan baris mewakili kelompok. Tabel 3.4 : confusion matrix hepatitis A B C 1 2 1 0 2 0 1 1 3 0 0 1 kelompok π΄ππ’πππ π = 4 ∗ 100 % = 66, 67% 6 3.4 Design UserInterface Design interface sistem identifikasi penyakit hepatitis dengan menggunakan algoritma agglomerative hierarchical clusteringini memiliki tampilan seperti dibawah ini : a. Halaman utama Pada halaman utama ini terdiri dari gambar icon, judul, menu file dan help. Pada menu file terdiri dari sub menu preprocessing dan clustering. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 47 Gambar 3.5 Halaman Utama b. Halaman preprocessing Pada halaman processing ini terdapat fungsi untuk mencari file yang bertipe .csv. Kemudian ada pilihan untuk memilih jenis normalisasiserta pilihan untuk memasukan jumlah principal component untuk dilakukan proses principal component analysisyang kemudian hasilnya akan disimpan dalam file yang bertipe .csv. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 48 Gambar 3.6 Halaman Preprocessing c. Halaman Clustering Pada halaman clustering ini terdapat fungsi untuk mencari file yang bertipe .csv dan menampilkannya pada tabel, memilih jenis perhitungan kedekatan, menampilkan dendrogram dan menghitung akurasi. Gambar 3.7 Halaman Clustering d. Halaman Help Pada fungsi help ini menjelaskan mengenai cara-cara penggunaan program pada masing-masing submenu. Fungsi help ini ditampilkan berupa file berformat .pdf. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 3.5 49 Spesifikasi Software dan Hardware Spesifikasi software dan hardware yang digunakan dalam implementasi sistem identifikasi penyakit hepatitis dengan agglomerative hierarchical clustering ini, sebagai berikut : 1. 2. Software : a. Sistem Operasi : Microsoft Windows 7 ultimate 32-bit b. Bahasa pemrograman : Matlab Student Version Hardware : a. Processor : Intel(R) Core(TM) 2 Duo CPU T6400 @ 2.00GHz b. Memory : 2 GB c. Harddisk : 320 GB PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI BAB IV IMPLEMENTASI DAN ANALISA HASIL Pada penelitian ini membahas mengenai hasil pengelompokkan penyakit hepatitis dengan agglomerative hierarchical clustering. Selain itu implementasi program pengelompokkanjuga dijelaskan dalam bab ini. Pada bab ini juga akan membahas hasil akurasi yang didapat dengan agglomerative hierarchical clustering. 4.1 Hasil Penelitian dan Analisa Penelitian yang telah dilakukan ini menggunakan 110 data yang terdiri dari hepatitis A, B, dan C. Data gejala sudah digabungkan dengan data dari laboratorium hepatitis sehingga total atributnya adalah 31. Atribut yang baru ini antara lain SGOT, SGPT, bilirubin direk, bilirubin indirek, anti HAV, HBsAg dan Anti HCV. Atribut tersebut merupakan pemeriksaan yang dilakukan untuk melihat fungsi hati yang berkaitan dengan penyakit hepatitis. Tabel 4.1 Deskripsi data gejala hepatitis No. Gejala Keterangan 1. Otot Pegal, nyeri sendi, normal dan linu-linu. 2. Perut Muntah, diare, kencing berwarna gelap, nyeri perut sebelah kanan, nafsu makan berkurang dan perut acites. 3. Kulit Normal, kuning, lembab, gatal, kemerahan, dan kering. 4. Mata Normal dan kuning. 5. Mirip flu Demam, pusing, lesu, mialgia, lelah, menggigil dan batuk. 50 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 51 Tabel 4.2 Deskripsi data gejala laboratorium hepatitis No. Gejala Keterangan 1. Fungsi hati SGOT, SGPT, bilirubin direk, bilirubin indirek, albumin, globulin. 2. Penanda Anti HAV, HBsAg dan Anti HCV Hepatitis Data laboratorium yang akan digunakan adalah SGOT, SGPT, anti HAV, HBsAg dan Anti HCV. Pemeriksaan bilirubin direk, bilirubin indirek, albumin, dan globulin tidak digunakan karena tidak semua pasien menjalani pemeriksaan laboratorium tersebut. Alasan lain karena menurut dokter Tri Joko selaku kepala laboratorium di rumah sakit di Yogyakarta bahwa pemeriksaan yang paling penting adalah SGOT, SGPT dan penanda hepatitis. Pemeriksaan SGOT dan SGPT ini memiliki normal range yang berbeda antara pria dan wanita. Pada pria memiliki range SGOT 0-37 dan SGPT 0-42. Pada wanita memiliki range SGOT 0-32 dan SGPT 0-31. Pemeriksaan pada penanda hepatitis Anti HAV, HBsAg dan Anti HCV berbeda-beda alat dan satuannya. Pemilihan alat periksa data laboratorium tergantung dari dokter yang memeriksa pasien sehingga antara pasien yang satu dengan yang lain tidak sama alat periksanya. Data pasien yang telah digabung dengan data laboratorium ini disimpan dalam file berformat .xls. Data masing-masing pasien dipisahkan menurut jenis PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 52 hepatitis A, B dan C. Pada sheet pertama, terdapat data 40 pasien hepatitis A, sheet kedua 40 data pasien hepatitis B, dan sheet ketiga berjumlah 30 pasien hepatitis C. Jadi, total keseluruhan pasien ada 110 data yang akan dilakukan proses pengelompokan. 4.2 Preprocessing Data Data-data yang digunakan dalam penelitian ini merupakan data pasien yang berobat dari tahun 2002 sampai 2010 yang diambil secara random. Data yang diambil adalah data hasil laboratorium, yaitu SGOT, SGPT, anti HAV, HBsAg dan Anti HCV. Tahap pertama yang dilakukan sebelum melakukan proses data mining adalah preprocessing pada data pasien terlebih dahulu. Langkah-langkah preprocessing yang dilakukan antara lain : 1. Data Cleaning Pembersihan data merupakan tahap awal dalam proses penambangan data. Data yang didapatkan tidak langsung dapat digunakan karena banyak data yang tidak lengkap. Pertama data-data yang tidak lengkap dikumpulkan sesuai dengan jenis hepatitis. Kedua, data yang tidak memenuhi kriteria tidak akan digunakan sehingga total data yang akan digunakan adalah 110 dari 130 data yang dicatat. 2. Data Integration Data yang sudah dilakukan proses pembersihan akan digabung sesuai dengan tipe hepatitis dan akan disimpan ke dalam satu tempat penyimpanan yang sama yang bertipe .csv. Data yang sudah digabung PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 53 antara hepatitis A, B dan C akan mempermudah proses clustering. 3. Data Transformation Data yang sudah terkumpul dalam satu tempat akan ditransformasi kedalam bentuk yang tepat untuk di tambang. Data pasien hepatitis ini memiliki rentang nilai yang jauh antara nilai satu dengan yang lain sehingga perlu dilakukan proses normalisasi agar datanya menjadi seimbang dan berada dalam range yang sudah ditetapkan. Normalisasi yang digunakan adalah [0-1] dan zscore. Normalisasi [0-1] dilakukan pada atribut SGOT dan SGPT dan data gabungan antara gejala dan laboratorium. Atribut SGOT dan SGPT yang memiliki range yang berbeda antara pria dan wanita. Range normal SGOT wanita berkisar antara 0-32. Sedangkan normal SGOT pria berkisar antara 0-37. Range normal SGPT wanita berkisar antara 0-31. Sedangkan range normal SGPT pria berkisar antara 0-42. SGOT dan SGPT masing-masing wanita dan pria akan di normalisasi sesuai dengan rangenya. Berikut ini data SGOT dan SGPT sebelum dan sesudah di normalisasi. Tabel 4.3 SGOT dan SGPT sebelum dan sesudah dinormalisasi Sebelum SGOT 163.8 273.9 1092 340.4 SGPT Sesudah SGOT 756.3 2.619421 4.5934 460.8 1710.7 19.26108 639.1 4.615795 SGPT 10.69117 6.427688 24.46128 7.895486 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 100.1 44.9 302.2 26.3 402.7 1.477347 344 0.487668 561.1 5.10079 57.9 0.154189 54 5.589419 4.742494 7.87482 0.614634 Penanda hepatitis A, B dan C, yaitu anti HAV igm, HBsAg, dan anti HCV juga akan dinormlisasi. Hal tersebut karena alat yang digunakan untuk memeriksa data laboratorium berbeda dan satuannya pun berbeda sehingga range antara satu data dan lainnya menjadi jauh. Contohnya ada yang bernilai 4,78 dan ada yang bernilai 1955. Salah satu penyelesaiannya adalah mengubah data tersebut menjadi bilangan biner 0 dan 1. Bilangan 1 berarti pasien tersebut terkena penyakit hepatitis A, B atau C, sedangkan 0 berarti pasien tersebut tidak terkena penyakit hepatitis A, B atau C. Tabel 4.4 Penanda hepatitis sebelum dan sesudah normalisasi Sebelum Anti HaV HBsAg 2.67 0 3.12 0 4.74 3.37 3.24 3.43 2.57 1.55 2.8 3.84 0 0 0 0 0 0 0 0 0 0 0 0 1955 18.89 17.22 20.2 Sesudah Anti HCV Anti HaV 0 0 0 0 0 0 0 0 0 0 0 0 0 0 HBsAg 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 0 0 0 1 1 1 1 Anti HCV 0 0 0 0 0 0 0 0 0 0 0 0 0 0 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 23.41 18.48 1 1 0.72 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 10.53 11.03 1 97.6 1 12.33 1 1 402 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 55 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 Setelah data tersebut dikonversi, maka data tersebut masih harus dilakukan normalisasi terlebih dahulu. Hal itu karena masih adanya perbedaan range antara data yang bernilaibiner dan desimal. Normalisasi yang dilakukan dengan normalisasi 0-1karena banyak yang bertipe data 0 dan 1. Kemudian hasil normalisasi tersebut yang digunakan untuk proses clustering dengan agglomerative hierarchical clustering. 4. Data Reduksi Proses ini dilakukan agar mengurangi dimensi pada data sehingga dapat memperoleh dataset yang lebih kecil dari sisi volume sehingga dapat menjaga integrity data dari data yang sebenarnya. Salah satu teknik data reduksi adalah principal component analysis. Cara kerjanya dengan memproyeksikan data yang berdimensi tinggi ke dimensi yang rendah. Tujuan dari principal component analysisadalah mengurangi dimensi data PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 56 dengan mempertahankan variasi dari data yang ada. Dari data gejala hasil dikelompokkan menurut gejala masing-masing seperti gejala otot, gejala perut, gejala kulit, gejala mata dan gejala mirip flu. Gejala otot terdiri dari pegal, nyeri sendi dan normal. Gejala perut terdiri dari mual, muntah, diare, nyeri perut sebelah kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites. Gejala kulit terdiri dari normal, kuning, lembab, gatal, kemerahan, kering. Gejala mata terdiri dari normal dan kuning untuk gejala mata. Sedangkan gejala mirip flu terdiri dari demam, pusing, lesu, mialgia, lelah, menggigil, dan batuk. Adapula hasil laboratorium yang meliputi SGOT, SGPT, anti HAV, HBsAg, dan anti HCV. Gejala-gejala ini digabungkan dengan hasil laboratorium sehingga total atribut ada 31 atribut. Kemudian, 31 atribut dilakukan preprocessing dengan principal component analysis, maka 31 atribut tersebut akan berkurang sesuai dengan parameter principal component yang akan dimasukan. Hasilfeature baru yang akan digunakan adalah yang memiliki nilai eigenvalue tertinggi yang diurutkan dari besar ke kecil. 4.3 Hasil UjiClustering dan Akurasi Sebelum masuk pada tahap clustering, ada tahap perhitungan jarak dengan menggunakan memilih euclidean distance untuk menghitung jarak antar obyek.Perhitungan jarak dengan jaccard coefficient tidak menghasilkan pengelompokkan yang baik sehingga pilihan pengukuran jarak dengan euclidean distance.Hasil pengelompokan data pasien hepatitis A, B dan C dibagi berdasarkan empat percobaan, yaitu : PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 1. 57 Data laboratorium. Data laboratorium yang akan dikelompokkan menggunakan 5 atribut, yaitu SGOT, SGPT, anti HAV, HBsAg, dan anti HCV. 2. Data gejala Data gejala yang akan dikelompokkan berjumlah 26 atribut. Gejala mual, muntah, diare, nyeri perut sebelah kanan, kencing berwarna gelap, nafsu makan berkurang dan perut acites untuk gejala perut. Gejala normal, kuning, lembab, gatal, kemerahan, kering untuk gejala kulit. Gejala normal dan kuning untuk gejala mata. Sedangkan gejala demam, pusing, lesu, mialgia, lelah, menggigil, dan batuk untuk gejala mirip flu. 3. Data gejala dengan data laboratorium Data yang dipakai merupakan gabungan antara data gejala yang sudah digabungkan dengan data laboratorium. Total atribut yang digunakan berjumlah 31 atribut, 26 atribut dari data gejala dan 5 dari data laboratorium. 4. Data laboratorium dengan data gejala yang sudah diproses denganprincipal component analysis Perbedaan dengan percobaan sebelumnya adalah dilengkapi dengan principal component analysis. Principal component yang digunakan pada percobaan ini adalah 25principalcomponent. Alasan digunakan 25 principal component adalah karena menghasilkan akurasi yang lebih baik dibandingkan dengan jumlah principal component yang lain. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 58 5. Data laboratorium dan data gejala hasil dariprincipal component analysis. Data gejala dilakukan dengan proses principal component analysis dan menggunakan atribut baru dari 12 principal component. Hal itu karena 12 principal component menghasilkan akurasi yang baik dibandingkan yang lain. Setelah itu data feature baru tersebut digabungkan dengan data laboratorium sehingga total atribut data berjumlah 17. Percobaan ini dilakukan dengan melakukan normalisasi 0-1, zscore dan tanpa normalisasi terhadap 110 data. Berikut ini percobaan dengan menggunakan algoritmaagglomerative hierarchical clustering. 1) Percobaan tanpa normalisasi dengan hasil pada tabel 4.5, dibawah ini. Tabel 4.5 hasil tanpa normalisasi No 1. Data Laboratorium Pengukuran Kemiripan Single Linkage 2. Data Laboratorium Average Linkage 40,90 % 3. Data Laboratorium Complete Linkage 42,72 % 4. Data Gejala Single Linkage 37,27 % 5. Data Gejala Average Linkage 42,72 % 6. Data Gejala Complete Linkage 49,09 % 7. Data gejala dan Laboratorium Data gejala dan Laboratorium Data gejala dan Laboratorium Single Linkage 41,81 % Average Linkage 40,90 % Complete Linkage 40,90 % 8. 9. Feature Akurasi 41,81 % PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 10. 11. 12. 13. 14. 15. Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium Data gejala (pca) laboratorium Data gejala (pca) laboratorium + Single Linkage 40,90 % + Average Linkage 40,90 % + Complete Linkage 42,72 % + Single Linkage 41,81 % + Average Linkage 40,90 % + Complete Linkage 42,72 % 59 a) Hasil akurasi yang paling besar dari data laboratorium adalah complete linkage dengan akurasi 42,72 %. Berikut ini gambar dendrogram pada 4.1 dan confusion matrix pada tabel 4.6. a. Dendrogram dari complete linkage. Gambar 4.1 Dendrogramcomplete linkage PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 60 b. Confusion matrix dari complete linkage. Tabel 4.6 Confusion matrix complete linkage Cluster Hepatitis A 1 2 3 9 6 0 B 20 30 30 C 11 4 0 π΄ππ’πππ π = 47 π₯ 100 % = 42,72 % 110 b) Hasil akurasi yang paling besar dari data gejala adalah dengan pengukuran kemiripan complete linkagedengan 49,09 %. Berikut ini gambar 4.2 dendrogram dan confusion matrix pada tabel 4.7. a. Dendrogram dari complete linkage. Gambar 4.2 Dendrogram complete linkage PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 61 c. Confusion matrix dari complete linkage. Tabel 4.7 Confusion matrix complete linkage Cluster Hepatitis A 1 2 3 16 5 9 B 6 12 15 C 18 23 6 π΄ππ’πππ π = c) Hasil akurasi yang 54 π₯ 100 % = 49,09 % 110 paling besar dari data gejala dan laboratoriumadalah single linkage dengan akurasi 41,81 %. Berikut ini gambar dendrogram pada 4.3 dan confusion matrix pada tabel 4.8. a. Dendrogram dari single linkage. Gambar 4.3 Dendrogram single linkage PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI b. 62 Confusion matrix dari single linkage. Tabel 4.8Confusion matrixsingle linkage Cluster 1 2 3 A 27 36 30 B 10 3 0 C 3 1 0 Hepatitis π΄ππ’πππ π = 46 π₯ 100 % = 41,81 % 110 d) Hasil akurasi yang paling besar dari data laboratorium dengan data gejala yang sudah diproses dengan principal component analysisadalah complete linkage dengan akurasi 42,72 %. Berikut ini gambar dendrogram pada 4.4 dan confusion matrix pada tabel 4.9. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI a. 63 Dendrogram dari complete linkage. Gambar 4.4 Dendrogram complete linkage b. Confusion matrix dari complete linkage. Tabel 4.9 Confusion matrixcomplete linkage Cluster 1 2 3 A 10 6 0 B 19 30 30 C 11 4 0 Hepatitis π΄ππ’πππ π = 47 π₯ 100 % = 42,72 % 110 e) Hasil akurasi yang paling besar dari data laboratorium dan data gejala hasil dariprincipal component analysisadalah complete PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 64 linkage dengan akurasi 42,72 %. Berikut ini gambar dendrogram pada 4.5 dan confusion matrix pada tabel 4.10. a. Dendrogram dari complete linkage. Gambar 4.5 Dendrogram complete linkage b. Confusion matrix dari complete linkage. Tabel 4.10Confusion matrixcomplete linkage Cluster Hepatitis 1 2 3 A 10 6 0 B 19 30 30 C 11 4 0 π΄ππ’πππ π = 47 π₯ 100 % = 42,72 % 110 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 65 Berdasarkan grafik 4.6, dari ketiga jenis perhitungan kemiripan diatas yang memiliki akurasi paling besaradalah complete linkagedengan 42,72 walaupun hasil akurasinya tidak sampai 50 % hanya 42,72 %. Hal ini membuktikan bahwa data yang digunakan ini perlu dinormalisasi dahulu sebelum dilakukan pengelompokkan. Grafik Akurasi 60.000% 49.090% 41.810%42.720% 50.000% 42.720% 42.720% 42.720% 41.810% 40.000% 41.810% 40.900% 40.900% 40.900% 30.000% 40.900%37.270% 40.900% 40.900% 20.000% single 10.000% .000% average complete Gambar 4.6: Grafik akurasi tanpa normalisasi 2) Percobaan dengan normalisasi [0-1] dengan hasil pada tabel 4.11, dibawah ini. Tabel 4.11 hasil akurasi dengan normalisasi [0-1] No Feature 1. Data Laboratorium Pengukuran Kemiripan Single Linkage Akurasi 2. Data Laboratorium Average Linkage 100 % 3. Data Laboratorium Complete Linkage 100 % 100 % PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 4. 5. 6. 7. 8. 9. 10. 11. 12. Data gejala dan Laboratorium Data gejala dan Laboratorium Data gejala dan Laboratorium Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium Data gejala (pca) laboratorium Data gejala (pca) laboratorium Single Linkage 38,18 % Average Linkage 41,81 % Complete Linkage 82,72 % + Single Linkage 38,18 % + Average Linkage 36,36 % + Complete Linkage 80,90 % + Single Linkage 37,27 % + Average Linkage 39,09 % + Complete Linkage 100 % 66 a) Hasil akurasi yang paling besar dari data laboratorium adalah single linkage, average linkage dan complete linkage dengan akurasi 100 %. Berikut ini gambar dendrogram pada 4.7, 4.8, dan 4.9 dan confusion matrix pada tabel 4.12. a. Dendrogram dari single linkage, average linkage dan complete linkage. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI Gambar 4.7 Dendrogram Single Linkage Gambar 4.8 Dendrogram Average Linkage 67 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 68 Gambar 4.9 Dendrogram Complete Linkage b. Confusion matrix dari single linkage, average linkage dan complete linkage. Tabel 4.12Confusion matrix dari single linkage, average linkage dan complete linkage. Cluster 1 2 3 A 0 0 40 B 40 0 0 C 0 30 0 Hepatitis π΄ππ’πππ π = 110 π₯ 100 % = 100 % 110 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 69 b) Hasil akurasi yang paling besar dari data gejala dan data laboratorium adalah complete linkage dengan akurasi 82,72 %. Berikut ini gambar dendrogram pada 4.10 dan confusion matrix pada tabel 4.13. a. Dendrogram dari single linkage, average linkage dan complete linkage. Gambar 4.10 Dendrogram Complete Linkage b. Confusion matrix dari complete linkage. Tabel 4.13Confusion matrix complete linkage. Cluster 1 2 3 A 36 1 3 B 1 29 10 C 0 4 26 Hepatitis PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI π΄ππ’πππ π = 70 91 π₯ 100 % = 82,72 % 110 c) Hasil akurasi yang paling besar dari data gejala dan data laboratorium dengan menggunakan principal component analysisadalah complete linkage dengan akurasi 80,90 %. Berikut ini gambar dendrogram pada 4.11 dan confusion matrix pada tabel 4.14. a. Dendrogram daricomplete linkage. Gambar 4.11 Dendrogram Complete linkage PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI b. 71 Confusion matrix dari complete linkage. Tabel 4.14Confusion matrixdaricomplete linkage. Cluster 1 2 3 A 35 1 4 B 1 28 11 C 0 4 26 Hepatitis Akurasi = 89 π₯ 100 % = 80,90 % 110 d) Hasil akurasi yang paling besar dari data laboratorium dan data gejala hasil dari principal component analysisadalah single linkage, average linkage dan complete linkage dengan akurasi 100 %. Berikut ini gambar dendrogram pada 4.12, 4.13, 4.14 dan confusion matrix pada tabel 4.15. a. Dendrogram darisingle linkage, average linkage dan complete linkage. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI Gambar 4.12 Dendrogramsingle linkage Gambar 4.13 Dendrogram average linkage 72 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 73 Gambar 4.14 Dendrogram complete linkage b. Confusion matrix dari complete linkage. Tabel 4.15Confusion matrix daricomplete linkage. Cluster 1 2 3 A 40 0 0 B 0 40 0 C 0 0 30 Hepatitis Akurasi = 110 π₯ 100 % = 100% 110 Berdasarkan grafik 4.15, dari ketiga jenis perhitungan kemiripan diatas, semua menghasilkan akurasi yang besar dengan 100 %. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 74 Grafik Akurasi 120.000% 100.000% 100.000% 100.000% 80.000% 60.000% 100.000% 82.720% 80.900% 100.000% 41.810% 38.180% 40.000% 20.000% single 38.180% 36.360% average .000% complete Gambar 4.15 : Hasil akurasi data dengan normalisasi [ 0-1]. 3) Percobaan dengan normalisasi zscoredengan hasil pada tabel 4.16, dibawah ini. Tabel 4.16 hasil akurasi dengan normalisasi zscore No 1. Data Laboratorium Pengukuran Kemiripan Single Linkage 2. Data Laboratorium Average Linkage 45,45 % 3. Data Laboratorium Complete Linkage 45,45 % 4. Data gejala dan Laboratorium Data gejala dan Laboratorium Data gejala dan Laboratorium Data gejala (pca) + laboratorium (pca) Single Linkage 39,09 % Average Linkage 39,09 % Complete Linkage 53,63 % Single Linkage 39,09 % 5. 6. 7. Feature Akurasi 100 % PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 8. 9. 10. 11. 12. Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium (pca) Data gejala (pca) laboratorium Data gejala (pca) laboratorium Data gejala (pca) laboratorium + Average Linkage 39,09 % + Complete Linkage 40,90 % + Single Linkage 36,36 % + Average Linkage 37,27 % + Complete Linkage 69,09 % 75 a) Hasil akurasi yang paling besar dari data laboratoriumadalah single linkage dengan akurasi 100 %. Berikut ini gambar dendrogram pada 4.16 dan confusion matrix pada tabel 4.17. a. Dendrogram dari single linkage. Gambar 4.16 Dendrogram single linkage PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI b. 76 Confusion matrix dari single linkage. Tabel 4.17 Confusion matrix darisingle linkage. Cluster 1 2 3 Hepatitis A 40 0 0 B 0 40 0 C 0 0 30 Akurasi = 110 π₯ 100 % = 100 % 110 b) Hasil akurasi yang paling besar dari data laboratorium dan gejala adalah complete linkage dengan akurasi 53,63 %. Berikut ini gambar dendrogram pada 4.17 dan confusion matrix pada tabel 4.18. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI a. 77 Dendrogram daricomplete linkage. Gambar 4.17 Dendrogram complete linkage b. Confusion matrix dari complete linkage. Tabel 4.18Confusion matrix daricomplete linkage. Cluster 1 2 3 A 35 17 10 B 5 23 19 C 0 0 1 Hepatitis Akurasi = 59 π₯ 100 % = 53,63 % 110 c) Hasil akurasi yang paling besar dari data laboratorium yang ditambah dengan data gejala yang sudah dilakukan proses principal component analysisadalah complete linkage dengan akurasi 40,90 %. Berikut ini gambar dendrogram pada 4.18 dan confusion matrix pada tabel 4.19. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI a. Dendrogram daricomplete linkage. Gambar 4.18 Dendrogram complete linkage b. Confusion matrix dari complete linkage. Tabel 4.19Confusion matrix daricomplete linkage. Cluster 1 2 3 A 19 15 19 B 21 25 10 C 0 0 1 Hepatitis Akurasi = 45 π₯ 100 % = 40,90 % 110 78 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 79 d) Hasil akurasi yang paling besar dari data laboratorium dandata gejala hasil dariprincipal component analysisadalahcomplete linkage dengan akurasi 69,09 %. Berikut ini gambar dendrogram pada 4.19 dan confusion matrix pada tabel 4.20. a. Dendrogram daricomplete linkage. Gambar 4.19 Dendrogram complete linkage b. Confusion matrix dari complete linkage. Tabel 4.20Confusion matrix daricomplete linkage. Cluster 1 2 3 A 23 37 0 B 8 0 30 C 9 3 0 Hepatitis Akurasi = 56 π₯ 100 % = 50,90 % 110 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 80 Pada gambar grafik 4.20, hasil akurasi data dengan menggunakan normalisasi zscore tersebut dapat dilihat bahwa dari ketiga jenis perhitungan kemiripan tersebut yang paling baik adalah complete linkage. Single linkage hanya baik dalam hal mengelompokkan data laboratorium karena dapat memberikan akurasi sebesar 100%, sedangkan average linkagememberikan hasil yang buruk dibawah 50 %. Grafik Akurasi Zscore 120.000% 100.000% 100.000% 80.000% 60.000% 40.000% 20.000% .000% 45.450% 69.090% 53.630% 40.900% 37.270% 45.450% 39.090%39.090% 39.090% 39.090% 36.360% single average complete Gambar 4.20Hasil akurasi data dengan normalisasi zscore Berdasarkan tabel 4.20, data yang tidak dinormalisasi menghasilkan akurasi dibawah 50 % untuk semua pengukuran jarak kemiripan. Pada percobaan dengan data gejala saja hanya menghasilkan akurasi paling besar 49,09 %. Pada data yang diberikan normalisasi [0-1], mendapatkan hasil yang lebih bagus pada complete linkage dengan akurasi yang lebih dari 80 % dibandingkan dengan single linkage dan average linkage yang hasilnya hanya dibawah 50 %. Hal PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 81 tersebut membuktikan bahwa dengan maupun tanpa principal component analysis dapat memberikan hasil yang baik karena menghasilkan akurasi yang lebih dari 80 % dengan adanya data laboratorium. Pada data yang diberikan normalisasi zscore, akurasi yang didapat beragam. Ada hasil akurasi yang bagus dengan pengukurancomplete linkage adapula dengansingle linkage.Single linkage menghasilkan akurasi yang baik dalam mengelompokkan data laboratorium, sedangkan complete linkage baik dalam mengelompokkan ketiga percobaan selain data laboratorium dengan normalisasi zscore. Percobaan menggunakan data gejala yang diberikan proses principal component analysis dan digabung dengan data laboratorium dapat menghasilkan akurasi yang cukup baik jika dibandingkan dengan tidak menggunakan principal component analysis. Secara keseluruhan normalisasi dengan zscore tidak menghasilkan akurasi yang baik karena hasil paling tingginya tidak lebih dari 70 %. Persamaan antara normalisasi [0-1] dan zscore adalah dapat memberikan hasil akurasi 100 % pada data laboratorium. Hasil dari penelitian ini membuktikan bahwa data laboratorium sangat berperan penting dalam menentukan seseorang terkena hepatitis atau tidak. Hal tersebut terbukti dengan adanya penanda hepatitis A, B dan C sehingga pasien dapat dengan tepat terdiagnosa. Hasil akurasi yang didapatkan juga membuktikan bahwa data laboratorium mampu meningkatkan akurasi hasil pengelompokkan. Hasil akurasi tersebut lebih baik jika dibandingkan dengan hasil penelitian sebelumnya yang hanya memakai data gejala dan hanya menghasilkan akurasi sebesar 51,11 %. Hal itu karena data gejala masih berupa PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 82 perkiraanumumsementara dan belum pasti dapat disimpulkan bahwa pasien tersebut terkena hepatitis jenis tertentu sehingga hasil akurasinya rendah. Tabel 4.21 Hasil pengelompokkan dengan agglomerative hierarchical clustering Feature Pengukuran Kemiripan (Tanpa Normalisasi) single average complete Laboratorium 41.81% 40.90% 42.72% Gejala 37.27% 42.72% 49.09% Laboratorium+gejala 41.81% 40.90% 40.90% Laboratorium(PCA)+gejala(PCA) 40.90% 40.90% 42.72% Laboratorium+gejala(PCA) 41.81% 40.90% 42.72% (Normalisasi [0,1]) single average complete Laboratorium 100.00% 100.00% 100.00% Laboratorium+gejala 38.18% 41.81% 82.72% Laboratorium(PCA)+gejala(PCA) 38.18% 36.36% 80.90% Laboratorium+gejala(PCA) 100.00% 100.00% 100.00% (Normalisasi zscore) single average complete Laboratorium 100.00% 45.45% 45.45% Laboratorium+gejala 39.09% 39.09% 53.63% Laboratorium(PCA)+gejala(PCA) 39.09% 39.09% 40.90% Laboratorium+gejala(PCA) 36.36% 37.27% 69.09% PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 4.4 83 Implementasi User Interface Implementasi menggunakan sistem agglomerative pengelompokkan hierarchical penyakit clustering hepatitis ini dibuat dengan dengan menggunakan Matlab Student Version. 4.4.1 Tampilan menu utama Tampilan halaman utama ini tersimpan pada file yang berekstensi .m dengan nama hal_utama.m. File hal_utama.m menjalankan fungsi untuk menampilkan halaman utama dari program. Gambar 4.21 Halaman Utama Pada gambar 4.21 merupakan tampilan dari halaman utama dengan menu file dan help. Pada menu file terdapat sub menu preprocessing, clustering dan ada pula tombol keluar. Fungsi menu preprocessing adalah menampilkan halaman untuk melakukan proses principal component analysispada data gejala. Fungsi menu clusteringadalah menampilkan halaman untuk melakukan proses PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 84 pengelompokkan dengan agglomerative hierarchical clusteringdan menampilkan hasil akurasinya. Tombol keluar berfungsi untuk keluar dari halaman. Pada menu help merupakan user manual penggunaan program yang apabila di klik maka akan menampilkan file bantuan berformat .pdf. 4.4.2 Tampilan sub menu preprocessing Tampilan menu preprocessing ini tersimpan pada file yang berekstensi .m dengan nama preprocessing.m. File preprocessing.m menjalankan fungsi untuk menampilkan halaman preprocessing dari program. Gambar 4.22 Halaman preprocessing Pada gambar 4.22 merupakan halaman untuk preprocessing dengan2 jenis normalisasi dan principal component analysis. Terdapat fungsi cari file yang bertipe .csv dan menampilkan hasil pencarian file pada tabel disamping. Selain itu ada fungsi untuk untukmemasukan memilih jumlah jenis principal normalisasi component zscore yang dan [0-1]serta dikehendaki user. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 85 Tekantombol proses maka akan menyimpan file yang bertipe .csv untuk digunakan pada proses clustering. Jenis normalisasi hanya dapat dipilih satu, sedangkan memilih principal component untuk proses principal component analysisdapat disertai dengan memilih salah satu jenis normalisasi.Berikut ini merupakan perintah yang diberikan untuk normalisasi zscore dan normalisasi [0-1] % Normalisasi zcore menggunakan perintah pada matlab zsc=zscore(Data); % Normalisasi [0-1] sehingga menghasilkan nilai dari range 0-1 Dataset = bsxfun(@rdivide,bsxfun(@minus,Data,min(Data)),(max(Data)min(Data))); Berikut ini source code darifunctionprincipal component analysisyang sudah dimodifikasidimana jumlah principal component dapat dimasukkan sebagai parameter. function [eigenvector,eigenvalue,data_baru,new_cut] = pca2rev(data,jml_pc) %================================================================= ========% % INPUT : % data_baru = MxN hasil matrix baru % jml_pc = jumlah principal component yang ingin digunakan % OUTPUT : % eigenvector = setiap kolom adalah eigenvector % eigenvalue = Mx1 matrix variansi dari eigenvector % new_cut = hasil data baru yang sudah dipotong sesuai dengan masukan % KETERANGAN : % by Jonathon Shlens (Salk Institute for Biological Sciences) % http://www.snl.salk.edu/~shlens/pub/notes/pca.pdf % modified by christina wienda –rev date : 08/08/2013 %================================================================= ========% [M,N] = size(data); % kurangi dengan rata-rata utk setiap dimensi mn = mean(data,2); data = data - repmat(mn,1,N); % menghitung covariance matrix covariance = 1 / (N-1) * data * data'; % menemukan eigenvectors dan eigenvalues [eigenvector, eigenvalue] = eig(covariance); PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 86 % mengekstrak diagonal dari matrix sebagai vektor eigenvalue = diag(eigenvalue); %eigenvalue=cumsum(flipud(diag(eigenvalue))) / sum(diag(eigenvalue)) % Mengurutkan hasil variance dari besar ke kecil sort the variance in decreasing order [junkeigenval, rindices] = sort(-1*eigenvalue); eigenvalue = eigenvalue(rindices); eigenvector = eigenvector(:,rindices); % Hasil data yang baru berdasarkan dari data asli data_baru = eigenvector' * data; data_baru=data_baru'; new_cut = data_baru(:,1:jml_pc); 4.4.3 Tampilan sub menu clustering Tampilan menu clustering dengan agglomerative hierarchical clustering ini tersimpan pada file yang berekstensi .m dengan nama cobasearch.m. File cobasearch.m menjalankan fungsi untuk menampilkan halaman pengelompokkan untuk penyakit hepatitis. Gambar 4.23 Halaman clustering PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 87 Gambar 4.24Contohdendrogram Pada gambar 4.23 menampilkan halaman untuk melakukan clusteringdengan agglomerative hierarchical clustering. Pada halaman ini tersedia fungsi mencari file yang bertipe .csv dan memilih 3 jenis linkage, yaitu single, average dan complete. Pada proses mencari file ini dapat menggunakan file hasil preprocessing sebelumnya dan dapat juga menggunakan data yang belum di lakukan proses preprocessingdengan principal component analysis. Hasil dari pencarian file, perhitungan pengelompokkan dan confusion matrix akan dimasukan kedalam tabel agar dapat dilihat user. Selain itu, terdapat tempat untuk menampilkan hasil akurasi dari pengelompokkan. Berikut ini merupakan perintah PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 88 dari proses clustering dengan agglomerative hierarchical clustering dengan single, average dan complete linkageyang tersimpan dalam function Agglomerative_clus.m.Hasil dari function tersebut akan menghasilkan jarak dari indeks antar cluster yang akan digunakan dalam pembuatan dendrogram seperti pada gambar 4.24. function Hasil_jarak = Agglomerative_clus(Data, method) %================================================================= =========% % Fungsi untuk melakukan pengelompokan dengan cara agglomerative % hierarchical clustering. % INPUT : % Data = Data matrix % Method = jenis pengukuran kemiripan (single, average dan complete) % OUTPUT : % Hasil_jarak = nilai jarak antar cluster beserta indeksnya yang sesuai dengan metodenya (single, average dan complete). Dari hasil penyimpanan jarak dan indeks tersebut untuk membuat dendrogram. % KETERANGAN : % www.pudn.com> % ArtificialImmunealgorithmprogres(matlab).rar % Matlab,inc % change:1999-01-29 % Modified : Christina Wienda - rev date : 20/07/2013 %================================================================= ========% % menyimpan nilai minimum dari matrix jarak. [v, Baris] = min(X); % mencari indeks pasangan yang mempunyai nilai minimum. i = floor(jumlahBaris+1/2-sqrt(jumlahBaris^2-jumlahBaris+1/42*(Baris-1))); j = Baris - (i-1)*(jumlahBaris-i/2)+i; % indeks pasangan jarak yang sudah dipakai diawal tidak digunakan. Kemudian mencocokan indek I dan J dengan jarak. I1 = 1:(i-1); I2 = (i+1):(j-1); I3 = (j+1):jumlahBaris; U = [I1 I2 I3]; I = [I1.*(jumlahBaris-(I1+1)/2)-jumlahBaris+i i*(jumlahBaris(i+1)/2)-jumlahBaris+I2 i*(jumlahBaris-(i+1)/2)-jumlahBaris+I3]; J = [I1.*(jumlahBaris-(I1+1)/2)-jumlahBaris+j I2.*(jumlahBaris(I2+1)/2)-jumlahBaris+j j*(jumlahBaris-(j+1)/2)-jumlahBaris+I3]; % single linkage (jarak minimal antar cluster) Data(I) = min(Data(I),Data(J)); PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 89 % average linkage (jarak rata-rata tiap cluster) Data(I) = Data(I) + Data(J); %complete linkage (jarak maksimal antar cluster) Data(I) = max(Data(I),Data(J)); %Menyimpan hasil jarak dari single, average dan complete yang akan dibuat sebagai jarak pada dendrogram. Hasil_jarak(s,:) = [R(i) R(j) v]; 4.4.4 Tampilan menu help Gambar 4.25PDF Bantuan Pada gambar 4.25 diatas merupakan tampilan file bantuan.pdf. Jika menu help diklik maka akan menampilkan file yang bertipe .pdf. Pada file tersebut terdapat penjelasan mengenai penggunaan program mulai dari preprocessing sampai clustering. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI BAB V PENUTUP Halaman ini menjelaskan mengenai kesimpulan dari penelitian terkait dengan pengelompokkan hepatitis. Pada halaman ini juga akan dijelaskan saran yang diberikan pada program yang sudah dibuat. 5.1 Kesimpulan Pengelompokkan penyakit hepatitis menggunakanagglomerative hierarchical clustering berdasarkan data gejala dan data laboratorium. Ada empat uji percobaan yang dilakukan untuk menghitung akurasi, yaitu perhitungan data laboratorium, data gejala, data gabungan gejala dan laboratorium, data laboratorium dengan data gejala yang sudah diproses dengan principal component analysisdandata laboratorium dan data gejala hasil dari principal component analysis. Berdasarkan hasil percobaan diatas, kesimpulan yang dapat diambil sebagai berikut : 1. Aggomerative hierarchical clustering mampu mengelompokkan pasien yang terkena hepatitis A, B dan C dengan hasil akurasi yang baik. 2. Percobaan dengan data laboratorium menghasilkan akurasi sebesar 100 % baik oleh single, average dan complete linkage dengan normalisasi [0-1], sedangkan dengan normalisasi zscore hanya single linkage saja yang menghasilkan 100 %. Hal tersebut berarti dengan menggunakan data laboratorium dapat dengan cepat membedakan tiga jenis hepatitis dengan baik karena terdapat penanda untuk tiap jenis hepatitis. 90 PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 91 3. Percobaan dengan data gejala menghasilkan akurasi yang paling besar hanya 49.09 % dengan menggunakan complete linkage. Hal tersebut berarti dengan hanya menggunakan data gejala maka belum dapat menentukan jenis penyakit tertentu karena gejala hanya merupakan pemeriksaan umum dan belum tentu gejala merujuk pada satu penyakit saja sehingga hasil akurasi yang didapatkan rendah. 4. Percobaan data gejala yang sudah diproses dengan principal component analysis dan digabung laboratorium menghasilkan akurasi sebesar 100% yang didapatkan oleh single linkage, average linkage dan complete linkage. 5. Percobaan data gabungan dengan normalisasi [0-1] dapat tidak menggunakan principal component analysis karena data yangdigabung tanpa principal component analysis juga baik hasil akurasinya yaitu 82,72 %. 6. Percobaan data gabungan dengan normalisasi zscore menghasilkan akurasi yang lebih baik jika menggunakan principal component analysis dan mendapatkan 69,09 %. 7. Hasil akurasi yang didapatkan oleh data gabungan sudah baik karena menggunakan data laboratorium yang dapat menentukan seseorang dapat terkena penyakit hepatitis atau tidak. Hasil yang didapatkan ini lebih baik daripada hasil dari penelitian sebelumnya yang hanya mendapatkan 51,11 % PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 92 8. Hasil yang terbaik didapatkan oleh normalisasi [0-1] dengan 84,54 % dengan menggunakan data gejala yang dilakukan proses principal component analysis dan digabung dengan data laboratorium. 9. Secara keseluruhan hasil akurasi complete linkage lebih baik jika dibandingkan dengan single linkage dan average linkage. 5.2 Saran Saran yang diperlukan untuk pengembangan program lebih lanjut, sebagai berikut : 1. Perhitungan jarak kedekatan dapat dicoba dengan metode yang lain selain single linkage, average linkage dan complete linkage. 2. Menambahkan feature untuk data laboratorium lainnya. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 93 DAFTAR PUSTAKA Abdi,H. & Williams, L.,(2010,July/August), Principal Component Analysis, John Wiley & Sons, inc, Diakses 2 Oktober 2013. Amro, 2011, Agglomerative Clustering in Matlab , http://stackoverflow.com/questions/7132130/matlab-cluster-coding-plot-scatter-graph, diakses 5 Mei 2013. Bing Liu, 2004, Chapter 4 : Unsupervised Learning, University Illnois of Chicago.http://www.cs.uic.edu/~liub/teach/cs583-fall-05/CS583-unsupervisedlearning.ppt. Diakses tanggal 18 Agustus 2013. Dimyati,V, 2011, 30 Juta Orang Kena Hepatitis, http://www.jurnas.com/news/35402/30_Juta_Orang_Kena_Hepatitis/1/Sosial_Bu daya/Kesehatan. Edward,R., 2010, UPGMA Worked Example , University of Southampton, http://www.southampton.ac.uk/~re1u06/teaching/upgma/, Diakses pada tanggal 4 april 2013. Han, J.& Kamber,M., 2011, Data mining Concepts and Techniques ,USA: Morgan Kaufmann Hartini,E, 2012, Metode Clustering Hirarki, Batan, http://www.batan.go.id/ppin/lokakarya/LKSTN_15/Entin.pdf, Diakses pada tanggal 4 April 2013. Ridho,A., 2006, Clustering, Politeknik Elektronika Negeri Surabaya,http://lecturer.eepisits.edu/~entin/Machine%20Learning/Minggu%206%20Clustering.pdf, Diakses pada 5 April 2013. Santosa,Budi, 2007, Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis, Yogyakarta : Graha Ilmu. Sari, W & Indrawati, L., 2008, Care your Self: Hepatitis, Jakarta : Penebar plus+, Jakarta. PLAGIAT PLAGIATMERUPAKAN MERUPAKANTINDAKAN TINDAKANTIDAK TIDAKTERPUJI TERPUJI 94 Shlens,Jonathon, 2009, A Tutorial on Principal Component Analysis.http://www.snl.salk.edu/~shlens/pca.pdf.Diakses tanggal 28 Juli 2013. Suryaatmadja, Marzuki, Diagnosis Laboratorium Hepatitis Virus dengan Penanda Virus Hepatitis. http://[email protected]. Diakses tanggal 28 April 2013. Smith, L., 2002, A Tutorial on Principal component analysis, http://www.ce.yildiz.edu.tr/personal/songul/file/1097/principal_components.pdf. Diakses pada tanggal 7 Juni 2013. Tan &Steinbach,dkk, 2004, Lecture Notes for Chapter 2 : Introduction to Data Mining, http://www-users.cs.umn.edu/~kumar/dmbook/index.php. Diakses pada tanggal 30 September 2013.