SKRIPSI ANA ALISIS DA ATA RAW WAT INA AP RUMA AH SAKIT T KOTA SEMA ARANG UNTUK U M MENGET TAHUI DA AERAH ENDEMI E PENY YAKIT MENGGU M UNAKAN ALGORITMA K-M MEANS Laporan inni disusun sebaagai salah satuu syarat untukk menyelesaik kan mata Kuliaah Tugas Akhhir pada Program m Studi Tekniik Informatikaa – S1 Fakultaas Ilmu Kompuuter Univeersitas Dian Nuuswantoro Oleh : N NAMA P : FITRA WAHYU PUTRI N NIM : A11.2011.05977 Prrogram Studdi : Teknik Informatikaa – S1 FAKULT TAS ILMU KOMPUTE K ER UN NIVERSITA AS DIAN NUSWANT N TORO SEMARAN NG TAHUN 20015 SKRIPSI ANA ALISIS DA ATA RAW WAT INA AP RUMA AH SAKIT T KOTA SEMA ARANG UNTUK U M MENGET TAHUI DA AERAH ENDEMI E PENY YAKIT MENGGU M UNAKAN ALGORITMA K-M MEANS Laporan inni disusun sebaagai salah satuu syarat untukk menyelesaik kan mata Kuliaah Tugas Akhhir pada Program m Studi Tekniik Informatikaa – S1 Fakultaas Ilmu Kompuuter Univeersitas Dian Nuuswantoro Oleh : N NAMA P : FITRA WAHYU PUTRI N NIM : A11.2011.05977 Prrogram Studdi : Teknik Informatikaa – S1 FAKULT TAS ILMU KOMPUTE K ER UN NIVERSITA AS DIAN NUSWANT N TORO SEMARAN NG TAHUN 20015 i KATA PENGANTAR Puji syukur kepada Tuhan yang Maha Esa atas segala berkat yang telah diberikanNya, sehingga Laporan Tugas Akhir ini dapat diselesaikan. Laporan Tugas Akhir dengan judul “ANALISIS DATA RAWAT INAP RUMAH SAKIT KOTA SEMARANG UNTUK MENGETAHUI DAERAH ENDEMI PENYAKIT MENGGUNAKAN ALGORITMA K-MEANS” ini ditujukan untuk memenuhi sebagian persyaratan akademik guna menyelesaikan studi di Program Studi Teknik Informatika Strata Satu Universitas Dian Nuswantoro Semarang. Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari berbagai pihak, Laporan Tugas Akhir ini tidak akan dapat diselesaikan tepat pada waktunya. Oleh karena itu, penulis mengucapkan terimakasih yang sebesar-besarnya kepada semua pihak yang telah membantu dalam proses penulisan Laporan Tugas Akhir ini, yaitu kepada : 1) Dr. Ir. Edi Noersasongko, M.Kom, selaku Rektor Universitas Dian Nuswantoro. 2) Dr. Abdul Syukur, selaku Dekan Fakultas Ilmu Komputer. 3) Heru Agus Santoso, Ph. D, selaku Ketua Program Studi Teknik Informatika – S1 dan Dosen Pembimbing Tugas Akhir yang telah memberikan bimbingan dan banyak memberikan masukan kepada penulis. 4) Sutrisno, SKM. MH.Kes, selaku Wakil Direktur Umum dan Keuangan Rumah Sakit Kota Semarang yang berkenan memberi ijin penulis untuk melaksanakan penelitian di tempat yang bapak pimpin. 5) Ardytha Luthfiarta, M.Kom, M.CS selaku pembimbing tugas akhir yang memberikan ide penelitian, informasi referensi yang penulis butuhkan dan bimbingan yang berkaitan dengan penelitian penulis. 6) Dosen-dosen pengampu di Fakultas Ilmu Komputer Teknik Informatika Universitas Dian Nuswantoro Semarang yang telah memberikan ilmu dan pengalamannya masing-masing, sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan. 7) Ibu, Bapak, dek Yoga, serta mas Bangkit yang telah memberikan dukungan moril, doa dan kasih sayang. 8) Andika Rukun, Dedi, Restu, Rizky, Mas Fadly, Mas Tedy, Mas Ragil, Maya dan teman-teman Teknik Informatika 2011 atas motivasi dan dukungan selama ini. 9) Semua pihak yang namanya tidak dapat disebutkan satu per satu yang terlibat dalam penyusunan Laporan Tugas Akhir ini sehingga dapat selesai dengan baik. 10) Direksi, staf perpustakaan, dan asisten laboratorium Universitas Dian Nuswantoro yang telah memberikan data untuk keperluan penyusunan tugas akhir. vi Akhir kata, penulis menyadari bahwa mungkin masih terdapat kekurangan dalam Laporan Tugas Akhir ini. Oleh karena itu, kritik dan saran dari pembaca sangat bermanfaat bagi penulis. Semoga Laporan Tugas Akhir ini dapat bermanfaat bagi semua pihak yang membacanya. Semarang, 3 Maret 2015 Penulis vii ABSTRAK Mencari pola informasi dan pengetahuan yang berharga dari suatu data pada database yang sangat besar disebut dengan data mining. Salah satu algoritma yang popular pada teknik data mining adalah algoritma K-Means. Sedangkan dalam penemuan pola kombinasi hubungan antar itemsets digunakan Cluster Rules (Aturan Clustering). Data mining telah diimplementasikan keberbagai bidang, diantaranya bidang kesehatan, bisnis atau perdagangan, pendidikan, dan telekomunikasi. Di bidang kesehatan misalnya hasil implementasi data mining menggunakan algoritna K-Means dapat membantu para medis dalam kebijakan pengambilan keputusan terhadap apa yang berhubungan dengan institusi kesehatan. ANALISIS DATA RAWAT INAP RUMAH SAKIT KOTA SEMARANG UNTUK MENGETAHUI DAERAH ENDEMI PENYAKIT MENGGUNAKAN ALGORITMA K-MEANS Kata Kunci : Data Mining, Clustering, K-Means, Rekam Medis, Endemi Penyakit, Jarak Levenshtein. viii ABSTRACT Finding patterns of information and valuable knowledge of the data on a very large database called data mining. One popular algorithm in data mining technique is the K-Means algorithm. While the discovery of relationships between item sets pattern combinations used Cluster Rules (Rule Clustering). Data mining has been implemented every related fields, including health, business or trade, education, and telecommunications. In the health sector for example the results of the implementation of data mining using the K-Means algorithm can help medical in policy decisions related to any health institution. DATA ANALYSIS OF INPATIENTS IN HOSPITAL IN SEMARANG TO KNOW THE DISEASE ENDEMIC AREA USING K-MEANS ALGORITHM Key Words : Data Mining, Clustering, K-Means, Medical Record, Endemic Diseases, Levenshtein Distance. ix DAFTAR ISI HALAMAN JUDUL ..................................................................... i PERSETUJUAN SKRIPSI ............................................................ ii PENGESAHAN DEWAN PENGUJI ............................................. iii PERNYATAAN KEASLIAN SKRIPSI ................................... iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS....................... v KATA PENGANTAR ABSTRAK ....................................................................... vi ............................................................................................... viii ABSTRACT ............................................................................................... ix DAFTAR ISI ................................................................................... x DAFTAR GAMBAR DAFTAR TABEL ....................................................................... xiii ................................................................................... xiv BAB I PENDAHULUAN ....................................................................... 1 1.1. Latar Belakang ....................................................................... 1 1.2. Rumusan Masalah ....................................................................... 2 1.3. Batasan Masalah ....................................................................... 3 1.4. Tujuan Penelitian ....................................................................... 3 1.5. Manfaat Penelitian ....................................................................... 3 BAB II LANDASAN TEORI ....................................................................... 4 2.1. Tinjauan Studi ....................................................................... 4 2.1.1. Aplikasi Sistem Informasi Geografis untuk Penanganan Penyebarab Penyakit Demam Berdarah ................ 4 2.1.2. Perancangan E-health untuk Penyakit Demam Berdarah Dengue (DBD) pada daerah endemi .......................... 5 2.2. Kerangka Pemikiran ....................................................................... 7 2.3. Tinjauan Pustaka ....................................................................... 9 2.3.1. Sistem Informasi Manajemen Rumah Sakit .............................. 9 x 2.3.2. ICD-10 ....................................................................................... 9 2.3.3. Data Mining ............................................................................... 10 2.3.3.1. Definisi Cross-Industry Standard Process for Data Mining (CRISP-DM) ........................................... 11 2.3.3.2. Teknik-Teknik Data Mining ......................................... 11 2.3.3.3. Konsep Pengelompokan (Cluster) ................................. 13 2.3.3.4. K-Means Algorithm ...................................................... 16 2.3.4. Java ............................................................................................ 17 2.3.5. Netbeans Integrated Development Environment (IDE) ............. 18 2.3.6. Levenshtein Distance Algorithm ............................................... 19 BAB III METODE PENELITIAN ............................................................... 21 3.1 Implementasi Cross-Industry Standard Process for Data Mining (CRISP-DM) ....................................................................... 21 3.1.1 Fase Pemahaman Bisnis ............................................................. 21 3.1.2 Fase Pemahaman Data ............................................................... 22 3.1.3 Fase Pengolahan Data ................................................................ 23 3.1.4 Fase Pemodelan ....................................................................... 25 3.1.5 Fasa Evaluasi ....................................................................... 26 3.1.6 Fase Implementasi ...................................................................... 26 3.2 Kebutuhan Perangkat Lunak ............................................................ 27 3.3 Flowchard Sistem 3.4 Tahap-tahap Pengujian ...................................................................... 31 ....................................................................... 29 3.4.1 Pengujian Teknik Cluster K-Means ........................................... 31 3.4.2 Analisa Hasil 3.4.3 Evaluasi Kualitas Software ......................................................... 33 ....................................................................... 32 BAB IV RANCANGAN SISTEM DAN PEMBAHASAN ......................... 34 4.1 Perancangan Sistem ....................................................................... 34 4.1.1 Komunikasi dengan pengguna (User Communication)................................................................ 34 xi 4.1.1.1 Analisa Kebutuhan User ................................................. 34 4.1.1.2 Use Case Diagram........................................................... 35 4.1.1.3 Activity Diagram ............................................................ 36 4.1.2 Desain Antarmuka ..................................................................... 37 4.1.2.1 Desain Tampilan Awal ................................................. 38 4.1.2.2 Desain Menu Utama 4.1.3 ................................................. 39 Database Daerah Endemi Penyakit ............................................. 39 4.1.3.1 Class Diagram ................................................................ 40 4.2 Pembahasan ...................................................................................... 43 4.3 Hasil Data Mining Menggunakan Dataset Data Training ................ 52 BAB V KESIMPULAN DAN SARAN ................................................. 54 5.1 Kesimpulan ...................................................................................... 54 5.2 Saran ................................................................................................ 55 DAFTAR PUSTAKA .................................................................................. 56 xii DAFTAR GAMBAR Gambar 2.1 Kerangka Pemikiran ............................................................. 7 Gambar 2.2 Contoh kode ICD-10 ............................................................. 10 Gambar 2.3 a. Data sebelum pengelompokan (kiri) .................................... 14 b.Data setelah pengelompokan (kanan) .................................. 14 Gambar 2.4 Alur Pembuatan dan eksekusi program Java ....................... 17 Gambar 2.5 Tampilan Awal Netbeans IDE ............................................. 19 Gambar 2.6 Algoritma Levenshtein Distance .......................................... 19 Gambar 3.1 Enam Fase CRISP-DM ........................................................ 21 Gambar 3.2 Data Mentah ......................................................................... 23 Gambar 3.3 Sistematikan Penelitian ........................................................ 23 Gambar 3.4 Data setelah dilakukan selection .......................................... 24 Gambar 3.5 Data setelah dilakukan cleaning ........................................... 25 Gambar 3.6 Diagram Perancangan Analisa K-Means Clustering ........... 26 Gambar 3.7 Flowchard penerapan K-Means pada kasus analisa daerah endemic penyakit ` ................................................................ 30 Gambar 4.1 Diagram Use-Case pada perancangan sistem ...................... 35 Gambar 4.2 Activity Diagram proses mining dan pencarian daerah endemi penyakit ................................................................... 36 Gambar 4.3 Desain Tampilan Awal pada rancangan program ................ 38 Gambar 4.4 Desain Menu Utama pada rancangan program .................... 39 Gambar 4.5 Class Diagram Aplikasi Clustering untuk Analisa Daerah Endemi Penyakit pada Rumah Sakit Kota Semarang .......... 40 Gambar 4.6 Algoritma Levenshtein Distance .......................................... 49 Gambar 4.7 Perhitungan bacterial instestinal dengan typhoid-fever menggunakan levenshtein distance algorithm ..................... 50 Gambar 4.8 Perhitungan typhoid-fever dengan typhoid-fever menggunakan levenshtein distance algorithm ..................... 50 Gambar 4.9 Hasil perhitungan statistik proses mining ............................ 52 Gambar 4.10 Hasil Mining yang telah disimpan pada file text ................. 53 xiii DAFTAR TABEL Tabel 3.1. Spesifikasi software di computer yang digunakan sebagai Editor .......................................................................................... 27 Tabel 3.2. Tabel Rekam Medis berisi kode ICD-10 ................................... 28 Tabel 3.3. Daftar kecamatan se-kota semarang .......................................... 28 Tabel 3.4. Daftar penyakit endemi .............................................................. 29 Tabel 4.1. Pemberian nama cluster pada masing-masing data .................... 43 Tabel 4.2. Hasil penghitungan jarak setiap data untuk masingmasing cluster ............................................................................ 46 Tabel 4.3. Anggota data untuk setiap cluster .............................................. 46 Tabel 4.4. Hasil Cluster terakhir pada iterasi ke-5 ....................................... 48 xiv BAB I PENDAHULUAN 1.1 Latar Belakang Rumah sakit adalah institusi perawatan kesehatan profesional yang pelayanannya ditangani oleh dokter, perawat dan tenaga ahli kesehatan lainnya. Menurut Peraturan Menteri Kesehatan Republik Indonesia Nomor 82 Tahun 2013 pasal 1:1, rumah sakita adalah institusi pelayanan kesehatan yang menyelenggarakan pelayanan kesehatan perorangan secara peripurna yang menyediakan pelayanan rawat inap, rawat jalan, dan gawat darurat. Rumah sakit sangat berperan dalam kehidupan masyarakat terutama di bidang kesehatan. Dalam sehari, rumah sakit daerah dapat menangani ratusan pasien baik yang rawat jalan atau rawat inap. Oleh karena itu, Knowledge Management System sangat dibutuhkan untuk mendukung pekerjaan tenaga medis dalam menangani pasien dan membantu manajerial dalam pengambilan keputusan, sehingga kesalahan dalam penanganan dapat dihindari. Salah satu bagian dari Knowledge Management System yaitu Sistem Informasi Manajemen Rumah Sakit (SIMRS). Peraturan Menteri Kesehatan Republik Indonesia Nomor 82 Tahun 2013 pasal 1:2, menjelaskan bahwa Sistem Informasi Manajemen Rumah Sakit yang selanjutnya disingkat SIMRS adalah suatu sistem teknologi informasi komunikasi yang memproses dan mengintegrasikan seluruh alur proses pelayanan rumah sakit dalam bentuk jaringan koordinasi, pelaporan dan prosedur administrasi untuk memperoleh informasi secara tepat dan akurat, dan merupakan bagian dari Sistem Informasi Kesehatan. SIMRS adalah program aplikasi client-server yang dibuat untuk membantu manajemen rumah sakit dalam membuat entri data, mengolah data, dan membuat laporan data pasien. SIMRS ini dirancang untuk mengelola semua proses manual dari A-Z diproses dan dikonversikan secara elektronik dan realtime dari pelayanan registrasi, rekam medis, rawat jalan, billing, farmasi, inventori, keuangan, rawat inap, dsb yang secara keseluruhan akan menghasilkan output pelayanan yang prima dan cepat. 1 2 Aplikasi SIMRS sangat dibutuhkan untuk menunjang pelayanan rumah sakit, tetapi dari data-data yang tersimpan di database SIMRS ini masih ada beberapa atribut yang masih bisa diolah untuk meningkatkan pelayanan rumah sakit. Data-data penyakit pasien rawat inap dan data alamat pasien dapat diolah lagi menggunakan teknik data mining untuk mencari tahu daerah mana saja yang membutuhkan penyuluhan dan program-program khusus. Data mining dibutuhkan untuk mendukung pengambilan keputusan ditingkat manajerial karena akses ke database dalam ukuran besar dan dimensi yang lebih kompleks membutuhkan waktu yang cukup lama dalam mengolahnya secara manual. Salah satu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasikan atribut-atribut penentu jenis penyakit pasien rawat inap dengan menggunakan aturan klasifikasi penyakit ICD. Dengan mengetahui atribut penentu jenis penyakit pasien rawat inap diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap daerah dengan penyakit-penyakit yang butuh penanganan khusus sehingga prosentase pasien dengan penyakit akut di daerah tersebut dapat di tekan dan rumah sakit juga dapat mempersiapkan peralatan bila terjadi pelonjakan penyakit tertentu. Berdasarkan latar belakang tersebut dibuatlah skripsi yang berjudul “ANALISIS DATA RAWAT INAP RUMAH SAKIT KOTA SEMARANG UNTUK MENGETAHUI DAERAH ENDEMI PENYAKIT MENGGUNAKAN ALGORITMA K-MEANS ”. 1.2 Perumusan Masalah Data rawat inap yang telah tesedia di rumah sakit namun belum dimanfaatkan secara optimal untuk menganalisis daerah endemi penyakit. Oleh karena itu, dibutuhkan sebuah metode untuk mengolah data rawat inap. Berdasarkan latar belakang di atas, analisis untuk mengetahui daerah endemi penyakit menggunakan algoritma k-means merupakan metode yang diharapkan paling tepat untuk mengetahui membantu pihak manajemen rumah sakit mengolah data. 3 1.3 Batasan Masalah Penelitian ini mempunyai ruang lingkup pengambilan data di Rumah Sakit Daerah Semarang dengan interfal waktu pengambilan data pada rekam medis pasien rawat inap di triwulan pertama pada tahun 2014. Informasi penyakit yang di cari adalah pengelompokan endemi penyakit yang diderita oleh masyarakat dengan kelompok wilayah kecamatan sekota Semarang. Data yang diambil adalah data rawat inap dengan atribut jenis kelamin, usia, alamat, dan jenis penyakit (menurut kode ICD - 10). Data tersebut diolah dengan menggunakan algoritma k-means. 1.4 Tujuan Penelitian Berdasarkan rumusan masalah tersebut di atas, tujuan penelitian ini adalah untuk mengimplementasikan algoritma k-means pada data rawat inap di Rumah Sakit Kota Semarang sehingga didapat sebuah informasi daerah endemi penyakit secara lebih cepat dan akurat. 1.5 Manfaat Penelitian Diharapkan dari pelaksanaan kerja praktek ini dapat membawa manfaat diantaranya : 1. Bagi pihak Rumah Sakit Penelitian ini diharapkan dapat membantu pihak manajemen rumah sakit dapat lebih cepat mengambil keputusan dan penanganan penyakit pada daerah endemi dapat dilakukan dengan cepat dan tepat sasaran. 2. Bagi pihak Penulis Penelitian ini bermanfaat agar penulis dapat menyelesaikan tugas akhir kuliah pendidikan sarjananya dan dapat menyumbangkan ilmu yang telah dipelajari di universitas. 3. Bagi pihak Universitas Untuk menambah bahan bacaan pustaka kampus tentang pengklasteran data mining di bidang kesehatan dan rumah sakit dengan metode k-means. BAB II Landasan Teori 2.1 Tinjauan Studi Endemi adalah penyakit yang berjangkit disuatu daerah atau pada suatu golongan masyarakat (Kamus Besar Bahasa Indonesia). Suatu penyakit dikatakan endemik ketika penyakit tersebut menyebar pada suatu wilayah dalam kurun waktu yang sangat lama [1]. Karakteristik suatu penyakit dikatakan penyakit endemi: 1. Infeksi tersebut berlangsung di dalam populasi tersebut tanpa adanya pengaruh dari luar. 2. Orang yang terinfeksi penyakit tersebut menularkan kepada tepat satu orang lain (secara rata-rata). Bila infeksi tersebut tidak lenyap dan jumlah orang yag terinfeksi tidak bertambah secara eksponsial, suatu infeksi dikatakan berada dalam keadaan tunak endemi. 3. Dalam bahasa percakapan, penyakit endemi sering diartikan sebagai suatu penyakit yang ditemukan pada daerah tertentu. Beberapa penelitian berikut merupakan acuan dalam penelitian ini yang sudah pernah dibahas sebelumnya namun berbeda dalam hal pokok permasalahannya, yakni teknik penerapan teknologi di dunia kesehatan untuk penanganan penyebaran (endemi) penyakit. 2.1.1 Aplikasi Sistem Informasi Geografis untuk Penanganan Penyebaran Penyakit Demam Berdarah [2] Pada penelitian tersebut, dijelaskan bahwa kasus DBD (Demam Berdarah Dengue) di kecamatan Tegalrejo Yogyakarta mengalami peningkatan dari tahun ke tahun hingga pernah mengalami kondisi luar biasa. Puskesmas di kecamatan ini dengan Dinas Kesehatan sangat memerlukan pertimbangan yang tepat untuk mengambil tindakan dalam mengatasi masalah penyakit pada daerah tersebut. Pengambilan tindakan 4 terhadap penanganan penyakit dilakukan dengan cara survey ke lokasi penderita sehingga memerlukan waktu yang lama, sementara penanganan penyakit harus segera dilakukkan agar penyebaran penyakit tidak meluas dengan cepat. Oleh karena itu, diperlukan tools yang dapat membantu memberikan informasi kepada pihak terkait mengenai penyebaran penyakit di wilayah tertentu berdasarkan data atribut yang mendukung. Sistem informasi geografis merupakan salah satu tools yang dapat digunakan untuk membantu menganalisa kondisi suatu daerah terhadap penyakit untuk menentukan tindakan yang harus dilakukan untuk menangani penyakit. Sistem informasi geografis ini menyampaikan informasi mengenai penyebaran penyakit di suatu wilayah. 4 5 terhadap penanganan penyakit dilakukan dengan cara survey ke lokasi penderita sehingga memerlukan waktu yang lama, sementara penanganan penyakit harus segera dilakukkan agar penyebaran penyakit tidak meluas dengan cepat. Oleh karena itu, diperlukan tools yang dapat membantu memberikan informasi kepada pihak terkait mengenai penyebaran penyakit di wilayah tertentu berdasarkan data atribut yang mendukung. Sistem informasi geografis merupakan salah satu tools yang dapat digunakan untuk membantu menganalisa kondisi suatu daerah terhadap penyakit untuk menentukan tindakan yang harus dilakukan untuk menangani penyakit. Sistem informasi geografis ini menyampaikan informasi mengenai penyebaran penyakit di suatu wilayah. Data-data yang diperlukan untuk menganalisa kondisi daerah terhadap penyakit adalah : data penderita penyakit, data daerah endemi dan data geografis seperti : kecamatan, kelurahan dan sebagainya berdasarkan data penderita per tahun. Sistem informasi geografis yang memetakan penyebaran penyakit merupakan solusi yang tepat untuk membantu menanggulangi permasalahan tentang penyakit disuatu daerah. Selain itu, dengan menggunakan data pemetaan dari sistem informasi geografis akan dapat memberikan kemudahan dalam pengambilan keputusan penanganan penyebaran penyakit. 2.1.2 Penerapan E-health untuk Penyakit Demam Berdarah Dengue (DBD) pada daerah endemi [3] Sama seperti penelitian sebelumnya yang membahas penyakit DBD, namun di penelitian ini dibahas penerapan e-health pada daerah endemi. Penelitian ini dapat juga dilihat sebagai tindak lanjut dari penelitian sebelumnya. Setelah dilakukan pemetaan penyakit di penelitian sebelumnya, lalu dilakukan penerapan e-health untuk penyakit DBD pada daerah endemi. Daerah endemi di penelitian ini adalah suatu keadaan dimana penyakit secara menetap berada dalam masyarakat pada suatu tempat atau 6 populasi tertentu. Seperti beberapa kecamatan dan kabupaten di kota Bandung, Sukabumi, Padang dan Bekasi. Oleh karena itu, penerapan e-health untuk siklus penyakit DBD sendiri ditujukan kepada daerah endemik DBD di Indonesia. Penspesifikan tujuan dimaksudkan agar bagi “calon penderita” dapat mencegah penyakit atau mempercepat proses penyembuhan serta menambah pengetahuan masyarakat akan kejelasan penyakit itu sendiri. Dari dua penelitian diatas, dapat disimpulkan bahwa teknologi di dunia kesehatan sangat berperan penting dan bermanfaat untuk pengambilan keputusan secara lebih cepat dan akurat. Sehingga tindakan yang diberikan dilakukan dengan cepat dan tepat sasaran. Pada penelitian pertama, sistem informasi geografis diatas sudah baik. Proses pengambilan keputusan tindakan apa yang dilakukan pada daerah endemi DBD di kecamatan Tegalsari sudah dapat berjalan secara lebih cepat. Tapi proses pengolahan datanya masih menggunakan metode survey langsung ke penduduk. Untuk diterapkan di rumah sakit yang memiliki Sistem Informasi Manajemen Rumah Sakit dan sudah memiliki database, penelitian ini kurang pas karena malah memperlambat proses pengambilan keputusan. Pada penelitian kedua, e-health adalah aplikasi yang bagus untuk membantu masyarakat mempelajari gejala, cara mencegah penyakit, tindakan yang harus dilakukan dan cara mempercepat proses penyembuhan penyakit. Tapi, e-health membutuhkan dana yang cukup besar untuk diterapkan di suatu wilayah/ kota. Tanpa adanya pemetaan daerah endemi penyakit, e-health tidak akan tepat sasaran dan dana yang dikeluarkan untuk aplikasi ini cukup besar. Sehingga untuk mempercepat proses pengambilan keputusan di rumah sakit yang memanfaatkan database rumah sakit dan agar tindakan/ penanganan terhadap daerah endemi penyakit lebih terarah dan tepat sasaran, dibutuhkan sebuah analisa daerah endemi penyakit yang memanfaatkan teknik data mining. Teknik data mining di dunia kesehatan bukanlah hal yang baru. Potensi data mining dalam dunia kesehatan sudah diakui secara luas dan menarik [4]. Banyak studi yang dilakukan menggunakan teknik data mining modern, seperti klasifikasi dan prediksi data mining. Data mining memiliki potensi untuk 7 mempengaruhi kesehatan masyarakat dalam berbagai cara dari pribadi, obat genetik, studi kesehatan lingkungan dan epidemiologi [5]. Tidak mengherankan, banyak analisis data mining yang dilakukan pada kesehatan masyarakat terutama prediksi data mining dalam kedokteran klinis [6]. Teknik klasifikasi decision tree J48 dalam menganalisa pola kelompok penyakit dengan memanfaatkan data rekam medis [7]. Dan K-Means Clustering adalah salah satu algoritma supervised learning yang menerima masukan berupa data tanpa label kelas. Algoritma K-Means mengelompokkan data yang menjadi masukkannya ke dalam beberapa kelompok, tanpa mengetahui terlebih dahulu target kelasnya. Pada setiap cluster, terdapat titik pusat (centroid) yang merepresentasikan cluster tersebut. 2.2 Kerangka Pemikiran Data Rekam Medis Rumah Sakit Kota Semarang dapat diolah kembali menggunakan aplikasi data mining sehingga menghasilkan aturan clustering pengelompokan penyakit dan daerah endemi. Gambar 2.1. Kerangka Pemikiran 8 Keterangan : 1. Problem Adalah masalah yang menjadi fokus penelitian yaitu ketiadaan aplikasi data mining yang dapat mengolah data rekam medis pasien masuk rawat inap di Rumah Sakit Kota Semarang 2. Opportunity Adalah kesempatan yang dapat diperoleh dari masalah yang ada dalam penelitian yaitu menemukan pola cluster yang dapat terbentuk dari data rekam medis pada tri wulan pertama tahun 2014. 3. Approach Adalah pendekatan yang digunakan untuk menyelesaikan masalah penelitian yaitu pendekatan CRISP-DM dengan permodelan algoritma KMeans untuk menyelesaikan masalah penelitian data mining. 4. Software Development Adalah metode penyusunan software yang digunakan untuk menyelesaikan penelitian yaitu model Waterfall menggunakan bahasa pemrograman Java dan library Weka untuk menyelesaikan tugas data mining. Sedangkan IDE yang digunakan adalah NetbeansIDE. 5. Result Adalah hasil dari penelitian yang menjawab poin PROBLEM yaitu software data mining yang dapat dipergunakan untuk analisis data rekam medis pasien rawat inap pada Rumah Sakit Kota Semarang. 9 2.3 Tinjauan Pustaka 2.3.1 Sistem Informasi Manajemen Rumah Sakit Menurut Peraturan Menteri Kesehatan Republik Indonesia Nomor 82 Tahun 2013 pasal 1:2, Sistem Informasi Manajemen Rumah Sakit yang selanjutnya disingkat SIMRS adalah suatu sistem teknologi informasi komunikasi yang memproses dan mengintegrasikan seluruh alur proses pelayanan rumah sakit dalam bentuk jaringan koordinasi, pelaporan dan prosedur administrasi untuk memperoleh informasi secara tepat dan akurat, dan merupakan bagian dari Sistem Informasi Kesehatan. Sistem Informasi Kesehatan menurut Peraturan Menteri Kesehatan Republik Indonesia Nomor 82 Tahun 2013 pasal 1:3, seperangkat tatanan yang meliputi data, informasi, indikator, prosedur, teknologi, perangkat dan sumber daya manusia yang saling berkaitan dan dikelola secara terpadu untuk mengarahkan tindakan atau keputusan yang berguna dalam mendukung pembangunan kesehatan. Peraturan Menteri Kesehatan RI No. 82 Tahun 2013, mewajibkan setiap rumah sakit untuk menyelenggarakan SIMRS [3:1]. Secara garis besar, ada 5 (lima) komponen yang mendasari pelaksanaan Sistem Informasi Manajemen Rumah Sakit (SIMRS) yaitu sumber daya manusia (SDM), hardware, software, data dan jaringan (Local Area Network). 2.3.2 ICD-10 ICD (International Classification Of Disease), standar pengelompokan penyakit oleh WHO (World Health Organization). ICD ini terus berkembang seiring dengan ditemukannya penyakit-penyakit baru di dunia. Saat ini teknik pengkodean ICD sudah mencapai ICD-10. ICD10 adalah acuan seluruh penyelenggara layanan kesehatan (Rumah Sakit, Balai Pengobatan, Puskesmas) untuk dijadikan pedoman dalam melakukan arsip [8]. Tujuan dari ICD adalah untuk memungkinkan analisis rekaman sistematis, interpretasi dan perbandingan mortalitas dan morbiditas data yang dikumpulkan di berbagai negara atau daerah dalam waktu berbeda 10 [9]. ICD digunakan untuk menerjemahkan masalah kesehatan dan diagnosa penyakit dari kata-kata menjadi kode alfanumberik, yang memudahkan penyimpanan, pengambilan dan analisa data. ICD dasar adalah daftar kode tunggal kategori tiga karakter, masing-masing dapat dibagi lagi menjadi 10 sub-kategori empat karakter. Gambar 2.2 Contoh kode ICD-10 2.3.3 Data Mining Data mining adalah suatu istilah yang digunakan untuk menguraikan penemuan pengetahuan di dalam database. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar [10]. Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika [11]. 11 Data mining adalah sebuah proses pencarian pola atau informasi menarik dalam suatu data terpilih dengan menggunakan teknik dan algoritma tertentu sesuai kebutuhan dan tujuan. Data mining, sering juga disebut sebagai knowledge discovery in database (KDD). KDD adalah kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar [12]. 2.3.3.1 Definisi Cross-Industry Standard Process for Data Mining (CRISP-DM) Cross-Industry Standard Process for Data Mining (CRISP-DM) yang dikembangkan tahun 1996 oleh beberapa analis dari beberapa industri (DaimlerChrysler, SPSS, dan NCR), menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian. Dalam CRISP-DM, sebuah proyek data mining memiliki siklus hidup yang terbagi menjadi enam fase. Seluruh fase saling berhubungan dan bersifat adaptif. Fase berikutnya bergantung pada keluaran dari seluruh fase sebelumnya. Enam fase CRISP-DM [11] : 1. Fase Pemahaman Bisnis 2. Fase Pemahaman Data 3. Fase Pengolahan Data 4. Fase Pemodelan 5. Fase Evaluasi 6. Fase Penyebaran 2.3.3.2 Teknik-Teknik Data Mining Data mining juga dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu [11] : a. Fungsi Deskripsi (Description) Terkadang peneliti dan analis ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. 12 Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang tidak cukup professional akan sedikit didukung dalam pemilihan presiden. b. Fungsi Klasifikasi (Classification) Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu (1) pembangunan model sebagai prototype untuk disimpan sebagai memori dan (2) penggunaan model tersebut untuk melakukan pengenalan/ klasifikasi/ prediksi pada suatu objek data lain agar diketahui di kelas mana objek data tersebut dalam model yang sudah disimpannya. c. Fungsi Estimasi (Estimation) Estimasi hampir sama dengan klasifikasi, kecuali variable target estimasi lebih kearah numberic daripada kearah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari variable target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variable target dibuat berdasarkan nilai variable prediksi. d. Fungsi Prediksi (Prediction) Model prediksi berkaitan dengan pembuatan sebuah model yang dapat melakukan pemetaan dari setiap himpunan variable ke setiap targetnya, kemudian menggunakan model tersebut untuk memberikan nilai target pada himpunan baru yang didapat. Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Sebagai contoh, prediksi nilai UN per siswa pada mata pelajaran matematika, bahasa Indonesia dan bahasa inggris. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi. 13 e. Fungsi Asosiasi (Association) Tugas asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian adalah : Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan untuk memberikan respon positif terhadap penawaran upgrade layanan yang diberikan. f. Fungsi Pengelompokan (Cluster) Pengklasteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam klaster lain. Pengklasteran berbeda dengan klasifikasi yaitu tidak adanya variable target dalam pengklasteran. Pengklasteran tidak mencoba untuk melakukan klasifikasi, mengestimasi atau memprediksi nilai dari variable target. Akan tetapi, algoritma pengklasteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogen), yang mana kemiripan dengan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. Contoh pengklasteran dalam bisnis dan penelitian adalah : mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang besar. 2.3.3.3 Konsep Pengelompokan (Cluster) Konsep pengelompokan adalah data set yang akan diolah dalam data mining belum diketahui kelas labelnya. Misalnya dalam kasus data catatan akademik, diketahui nilai IPK yang didapat dan jumlah SKS yang sudah ditempuh. Di awal sebelum proses penggunaan metode data mining, 14 belum diketahui label dari kelompok mahasiswa tersebut, seperti pada gambar 2.3 (a). Pengelompokan data dilakukan dengan menggunakan algoritma yang sudah ditentukan dan selanjutnya data akan diproses dengan algoritma untuk dikelompokkan menurut karakteristik alaminya. Tidak ada unsur pembimbingan (dengan pemberian label kelas), melainkan algoritma akan berjalan dengan sendirinya untuk mengelompokkan data tersebut. Data yang lebih dekat (mirip) dengan data lain akan berkelompok dalam satu cluster, sedangkan data yang lebih jauh (berbeda) dari data yang lain akan berpisah dalam kelompok yang berbeda. a. Data sebelum pengelompokan b. Data setelah pengelompokan Gambar 2.3. Pengelompokan prestasi mahasiswa Pada Gambar 2.3 (b), dapat diamati ada 3 kelompok mahasiswa yaitu kelompok mahasiswa dengan SKS sedikit dan IPK tinggi (simbol x), kelompok mahasiswa dengan SKS tinggi dan IPK rendah (simbol •) dan kelompok mahasiswa dengan SKS dan IPK rendah (simbol ᴼ) [13]. Untuk pengelompokan data berdasarkan kemiripan/ketidakmiripan antardata tanpa ada label kelas yang diketahui sebelumnya disebut pembelajaran tidak terbimbing atau unsupervised learning. Penanganan data pembelajaran tidak terbimbing dapat menggunakan metode clustering. Tujuan dari clustering adalah meminimalkan jarak di dalam cluster dan memaksimalkan jarak antar cluster [14]. 15 Teknik clustering banyak diterapkan dalam berbagai bidang, seperti kedokteran, kesehatan, psikologi, hukum, statistic, astronomi, klimatologi dan sebagainya. Dalam bidang kedokteran, teknik clustering dapat digunakan untuk mengelompokkan jenis-jenis penyakit berbahaya berdasarkan sifat-sifat penyakit pasien. Dalam bidang kesehatan dapat digunakan untuk mengelompokkan jenis makanan berdasarkan kandungan vitamin, kalori, dan protein. Clustering dapat dibedakan menjadi dua tujuan (Tan et al, 2006), yaitu clustering untuk pemahaman dan clustering untuk penggunaan. Contoh-contoh tujuan clustering untuk pemahaman sebagai berikut [13] : a. Biologi b. Pencarian Informasi c. Klimatologi d. Bisnis Contoh-contoh tujuan clustering untuk penggunaan sebagai beikut [13] : a. Summarization b. Kompresi c. Pencarian tetangga terdekat secara efisien Banyak metode clustering yang telah dikembangkan oleh para ahli. Menurut struktur, clustering dapat dibedakan menjadi hierarki dan partisi. Dalam pengelompokan berbasis hierarki (hierarchical clustering), satu data tunggal bisa dianggap sebuah cluster, dua atau lebih cluster kecil dapat bergabung menjadi sebuah cluster besar, begitu seterusnya hingga semua data dapat bergabung menjadi sebuah cluster. Pengelompokan berbasis partisi, membagi dataset ke dalam sejumlah cluster yang tidak bertumpang-tindih, antara satu cluster dengan cluster yang lain. Metode seperti K-Means, DBSCAN, Self-Organizing Map (SOM) merupakan metode yang masuk dalam kategori ini [13]. 16 Menurut keanggotaan data dalam cluster, clustering dapat dibagi menjadi dua yaitu eksklusif dan tumpang-tindih. Dalam kategori eksklusif, sebuah data bisa dipastikan hanya menjadi anggota satu cluster dan tidak menjadi anggota di cluster yang lain. Metode clustering yang masuk kategori ini adalah K-Means, DBSCAN, dan SOM. Sementara yang termasuk kategori tumpang-tindih adalah metode clustering yang membolehkan sebuah data menjadi anggota di lebih dari satu cluster, misalnya Fuzzy C-Means dan pengelompokan berbasis hierarki [13]. 2.3.3.4 K-Means Algorithm Algoritma K-Means merupakan algoritma pengelompokan iterative yang melakukan pengelompokan dataset ke dalam sejumlah K cluster yang sudah ditetapkan di awal. Algoritma K-Means sederhana untuk diimplementasikan dan dijalankan, relative cepat, mudah beradaptasi, umum penggunaannya dalam praktek (Wu dan Kumar, 2009). Secara historis, bentuk esensial K-Means ditemukan oleh sejumlah peneliti dari lintas disiplin ilmu. Yang paling berpengaruh adalah Lloyd (1982), Forgey (1965), Friedman dan Rudin (1967), dan McQueen (1967). Algoritma K-Means berkembang menjadi algoritma hill-climbing [13]. K-Means dapat diterapkan pada data yang dipresentasikan dalam rdimensi ruang tempat. K-Means mengelompokan dataset r-dimensi, X={xi|i=1, …, N}, dimana xi є Rd. Menggunakan pendekatan partitional clustering. Tiap cluster dihubungkan dengan sebuah centroid (titik pusat). Tiap titik ditempatkan ke dalam cluster dengan centroid terdekat. Jumlah cluster, K, harus ditentukan [14]. Kekurangan K-Means Clustering [14] : a. K-Means bermasalah ketika ada cluster berbeda. b. K-Means bermasalah ketika data mengandung outliers. Karakteristik K-Means [14] : a. K-Means merupakan metode pengelompokan yang sederhana dan dapat digunakan dengan mudah. 17 b. Pada jenis dataset tertentu, K-means tidak dapat melakukan segmenatasi data dengan baik dimana hasil segmentasinya tidak dapat memberikan pola kelompok yang mewakili karakteristik bentuk alami data. c. K-Means bisa mengalami masalah ketika mengelompokkan data yang mengandung outlier. 2.3.4 Java Java adalah suatu teknologi di dunia software komputer, yang merupakan suatu bahasa pemrograman sekaligus suatu platform. Sebagai bahasa pemrograman, Java dikenal sebagai bahasa pemrograman tingkat tinggi yang berorientasi objek. Java dirancang agar dapat dijalankan di semua platform. Java diciptakan oleh suatu tim yang dipimpin oleh Patrick Naughton dan James Gosling dalam suatu proyek dari Sun Microsystem yang memiliki kode Green dengan tujuan untuk menghasilkan bahasa komputer sederhana yang dapat dijalankan di peralatan sederhana dengan tidak terikat pada arsitektur tertentu. Program yang ditulis menggunakan Java berjalan pada suatu Virtual Machine dengan nama Java Runtime Environment (JRE). Berikut adalah tahapan pengembangan dan eksekusi program Java. 18 Gambar 2.4. Alur Pembuatan dan eksekusi program Java Pada Java, terdapat lima fase pada pembuatan dan eksekusi program. Fase pertama yaitu editing kode sumber (source code) Java menjadi file *.java pada penyimpanan sekunder (HDD). Fase kedua yaitu kompilasi source code *.java menjadi file dengan ekstensi *.class. Setelah terbentuk file dengan ekstensi *.class, dilakukan class loading pada fase ketiga kedalam memori primer (RAM) untuk dilakukan cek error sebelum dieksekusi. Setelah file *.class diload pada RAM, dilakukan bytecode verification pada fase empat. Setelah bytecode diverifikasi kemudian dieksekusi pada Java Virtual Machine (JVM) agar dapat digunakan oleh user [15]. 2.3.5 Netbeans Integrated Development Environment (IDE) Netbeans adalah sebuah Integrated Development Environment (IDE) untuk pengembangan terutama dengan java, tetapi netbeans juga support bahasa pemrograman lain seperti di php tertentu, C/C++, dan html 5. Netbeans juga merupakan aplikasi platform framework untuk aplikasi desktop Java dan lainnya [16]. Beberapa karakteristik dari Netbeans IDE : a. User Interface Framework 19 b. Data Editor c. Customization Display d. Wizard Framework e. Data Systems f. Internationalization g. Help System Fitur yang ditawarkan oleh Netbeans dapat dikostumisasi oleh pemrogram dengan mudah dan cepat dalam membangun software. Gambar 2.5. Tampilan Awal Netbeans IDE 2.3.6 Levenshtein Distance Algorithm Levenshtein distance dibuat oleh Vladimir Levenshtein pada tahun 1965. Hasil perhitungan edit jarak didapatkan dari matrik yang digunakan untuk menghitung jumlah perbedaan string antar dua string (string A dan string B) [17]. 20 Gaambar 2.6 Algoritma A L Levenshtein Distance Algoriitma ini dim mulai dari poojok kiri ataas sebuah arrray dua dim mensi yanng telah diisi d sejumlah karakterr string aw wal dan strring target yang nanntinya diberri nilai costt. Nilai cost pada ujung g kanan baw wah menjadii nilai edit distance yang y mengggambarkan jumlah j perbbedaan dua string[17]. BAB III METO ODE PENE LITIAN 3.1 3 Impllementasi Cross-Indust C try Standardd Process fo for Data Min ning (CRIS SPDM)) Padaa penelitian ini, digunak kan siklus C CRISP-DM (Cross-Induustry Standaard Process P for Data D Mining g) dengan en nam fase, yaaitu : Gambar 3.1 Enam Fasee CRISP-DM M 3.1.1. 3 Fasee Pemahama an Bisnis Fase ini adalah fase pertama dalam CRISP-DM yanng merupakkan patok kan/ tujuan dilakukanny d ya suatu peneelitian. 21 22 Penelitian ini dilakukan dengan tujuan untuk mengimplementasikan algoritma k-means pada data rawat inap di Rumah Sakit Kota Semarang, sehingga didapat informasi daerah endemi penyakit secara lebih cepat dan akurat. Pada rapat manajerial, data rekam medis biasa dibacakan dan dianalisa untuk memetakan daerah endemi penyakit. Hal ini masih dilakukan secara manual oleh petugas rekam medis di Rumah Sakit Kota Semarang, sehingga memakan waktu yang lama dan keakuratannya belum bisa dipertanggungjawabkan. Dengan menggunakan teknik data mining, proses analisa akan lebih cepat, mudah dan tingkat keakuratannya terukur. Pada kasus ini, peneliti menggunakan salah satu algoritma clustering data mining yaitu K-Means. K-Means adalah salah satu algoritma clustering data mining yang sifatnya konsisten terhadap data. Dalam pengaplikasian, k-means juga lebih cepat dan mudah. Walaupun dibeberapa kasus, k-means tidak tepat diaplikasikan. Namun dikasus analisis data rawat inap ini k-means dianggap paling cocok. 3.1.2. Fase Pemahaman Data Fase pemahaman data adalah menentukan data apa yang akan diambil dan diolah untuk mencapai tujuan yang telah ditentukan. Data yang menjadi training pada metode clustering dengan algoritma k-means ini adalah data pasien rawat inap triwulan pertama ditahun 2014 Rumah Sakit Kota Semarang. Dari survey yang dilakukan peneliti, didapatkan data bulan Januari sebanyak 4009 data, bulan Februari 4533 data, dan di bulan Maret 5255 data, sehingga total data mentah yang didapat peneliti untuk training ini sebanyak 13797 data. 23 Gambar G 3.2 D Data mentah 3.1.3. Fasee Pengolaha an Data Pada fasee ini, data mentah m yangg telah didap apat tidak seemuanya dappat digun nakan kareena masih ada data yang menngandung m missing vallue (keteerangan tidaak lengkap). Oleh karenna itu, haruss dilakukan preprocessiing yaitu u cleaning daata dan selecction data. Gambar 3..3 Sistematikka Penelitiann 24 Cleaning g data (pemb bersihan dataa) dan selecttion data meerupakan tahhap awall dari preprrocessing daata mining. Pembersihhan ini dilakkukan denggan mem mbuang dataa yang mem mpunyai infformasi tidaak lengkap, seperti tiddak masu uknya inform masi wilayah h, umur, jennis kelamin, atau kode ppenyakit. Dari 1379 97 data pasien rawat in nap triwulan awal tahunn 2014. Seteelah dilakukkan selecction, dihapu us 10 atribut yang tidak ddigunakan (nno, no cm, ttanggal masuuk, tangg gal keluar, laama dirawatt, dirawat kee, penyakit laain, operasi, status pulanng, kond disi pulang)) sehingga menyisakann 4 atribuut (umur, jenis kelam min, diagn nosa, daerah h). Gam mbar 3.4 Daata setelah diilakukan seleection 25 Dan setelah dilakukaan proses clleaning didaapat 6807 daata, 6990 daata dihilangkan kareena atribut wilayah/ w daaerahnya tidaak ada valuue (nilai), attau bukaan merupakaan wilayah keecamatan di kota Semarrang. Gam mbar 3.5 Daata setelah diilakukan cleaning 3.1.4. 3 Fasee Pemodelan n Pada fasee ini, memillih dan menngaplikasikaan teknik peemodelan yaang sesuaai dengan kaalibrasi aturaan model unttuk mengopttimalkan hassil. Perlu dip perhatikan bahwa b beberrapa teknik mungkin diigunakan paada perm masalahan daata mining yang y sama. JJika diperluukan proses dapat kembbali 26 ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. Pada permasalahan ini, teknik clustering data mining menggunakan algoritma k-means dianggap paling cocok untuk diterapkan di kasus ini. 3.1.5. Fase Evaluasi Fase evaluasi adalah fase dimana model yang telah ditentukan akan diterapkan dengan data yang diperoleh, untuk menentukan kualitas dan efektifitas sebelum disebarkan untuk digunakan. Fase ini bertujuan untuk mendapatkan hasil apakah model yang telah ditetapkan memenuhi tujuan pada fase awal, apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik, serta mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 3.1.6. Fase Implementasi Fase implementasi adalah fase akhir dari enam fase CRISP-DM. Dengan terbentuknya model tidak menandakan telah terselesaikannya proyek. Contoh sederhana implementasi adalah pembuatan laporan. Contoh kompleks dari implementasi adalah penerapan proses data mining secara paralel pada departemen lain. Gambar 3.6. Diagram Perancangan Analisa K-Means Clustering 27 Gam mbar 3.6 meenunjukkan tahapan-tahhapan dalam m proses annalisa k-meaans clustering. c Dapat D dilihatt proses anallisa dimulai dari menenttukan softwaare editor yaang akan a digunaakan untuk membuktika m an teori anallisa. Lalu m menggambarkkan flowchaard sistem, dilan njutkan prosses selection n dan cleanning data yaang akan diggunakan. Laalu dilanjutkan d ke tahap peengujian pem modelan hinngga diperolleh hasil daari perhitunggan yang y akan dievaluasi. d 3.2 3 Kebu utuhan Perangkat Lun nak Peran ngkat lunak yang dibutu uhkan sebaggai editor unttuk menerappkan algoritm ma K-Means K ad dalah : Tabel 3.1 Spesifik kasi softwaree di komputeer yang digunnakan sebaggai editor Sepeerti pada tab ble 3.1 bahw wa instalasi ppertama dilaakukan di koomputer, yaaitu sistem operaasi windows 8.1 pro, Neetbeans 6.9.11, dan library ry dari weka sebagai edittor programnya p a. Netbeans 6.9.1 yang memiliki fiitur untuk m membangun suatu aplikaasi dengan d men nggunakan bahasa b Javaa. Dan libraary weka yaang memperrmudah dalaam penerapan p algoritma K-M Means ke daalam Java. Lang gkah selanju utnya adalah h instalasi X XAMPP Appache sebagai tools banntu untuk u pemro osesan dan penyimpanan p n data. Dataa yang akan digunakan ppada penelitiian ini i adalah : tabel t rekam medis, tabel kecamatann se-kota sem marang, dan tabel penyaakit endemi. e 28 Tabel 3.2 Tabel Rekam Medis berisi kode ICD-10 Tabel 3.3 Daftar kecamatan se-kota semarang 29 Tabel 3.4 Daftar penyyakit endemii Setellah mengetaahui apa saja yang akann dikerjakann, maka prooses pengujiian siap dimulaii. 3.3 3 Flow wchard Sisteem Ini adalah tah hap mendessain sistem dengan m menggunakaan flowcharrd. Rancangan R pada flowch hard yang dibuat d nantiinya digunakkan sebagaii acuan dalaam perancangan p n sistem pem mbantu disinii. 30 Gambar 3.7. Flowchard penerapan K-Means pada kasus analisa daerah endemi penyakit Dimulai dari pengambilan data excel / data set, lalu diteruskan ke proses selanjutnya. Pengecekan apakah ada attribute daerah, usia, kode penyakit dan jenis kelamin, kalau ada lanjut ke proses selanjutnya yaitu proses selection. Kalau tidak ada, kembali ke proses awal, pembacaan data excel. Setelah selesai proses selection, lanjut ke proses selanjutnya. Proses selanjutnya adalah pengecekan apakah ada atribut kosong atau tidak memenuhi syarat, kalau tidak ada maka lanjut ke proses pemodelan 31 algoritma k-means. Kalau ada, harus melalui proses cleaning dahulu, untuk menghapus data-data yang tidak digunakan. Setelah proses cleaning selesai lanjut ke proses selanjutnya yaitu pemodelan algoritma k-means. Di tahap pemodelan ini, data akan diolah sehingga dapat menghasilkan beberapa cluster yang mewakili daerah endemi. Cluster-cluster ini yang nantinya akan diukur jaraknya dan dievaluasi apakah sudah cocok penerapan algoritma kmeans untuk data ini, jika belum maka proses akan diulang dari awal (pembacaan data excel). Jika sudah, maka semua proses sudah selesai dan algoritma k-means cocok diterapkan untuk analisis data rekam medis ini. 3.4 Tahap-Tahap Pengujian Pada tahap pengujian ada beberapa hal yang harus dilakukan yaitu : pengujian teknik cluster K-Means, analisa hasil, dan setelah diperoleh hasil kemudian evaluasi kualitas software dari hasil yang telah didapatkan. 3.4.1. Pengujian Teknik Cluster K-Means K-Means Clustering Algorithm adalah sebuah algoritma sederhana dan efektif untuk menemukan kelompok data [18]. Proses dari algoritma ini adalah: a. Langkah 1 : Menentukan berapa banyak kelompok / cluster k dari dataset yang akan bentuk. b. Langkah 2 : Mengacak tanda k dari record untuk dijadikan letak awal dari pusat cluster. c. Langkah 3 : Untuk setiap record, temukan pusat cluster terdekat. Dengan demikian, dapat diartikan, masing-masing pusat cluster “pemilik” subset dari record, sehingga mewakili setiap bagian dari dataset. Oleh karena itu, terbentuklah k cluster C1, C2, …, Ck. d. Langkah 4 : Untuk setiap k cluster, temukan cluster centroid, dan perbaharui letak setiap cluster pusat untuk nilai centroid yang baru. 32 e. Langkah 5 : Ulangi langkah 3 sampai 5 hingga konvergensi atau pemberhentian. Untuk set data dalam X dikelompokkan berdasarkan konsep kedekatan atau kemiripan. Meskipun konsep yang dimkasud untuk data-data yang berkumpul dalam satu cluster adalah data-data yang mirip, tetapi kuantitas yang digunakan untuk mengukurnya adalah ketidakmiripan (dissimilarity). Artinya, data-data dengan ketidakmiripan/jarak yang kecil/ dekat maka lebih besar kemungkinannya untuk bergabung dalam satu cluster. Metrik yang umum digunakan untuk ketidakmiripannya adalah Euclidean [13]. Kriteria terdekat pada langkah 3 biasanya jarak Euclidean, meskipun kriteria lain dapat diterapkan juga. Cluster centroid pada langkah 4 dapat ditentukan dengan cara seperti berikut. Misal ada n titik data (a1,b1,c1), (a2,b2,c2), …, (an,bn,cn), centroid dari titik-titik tersebut adalah pusat gravitasi dari titik-titik ini dan letaknya (Σai/n, Σbi/n, Σci/n) [14]. Sebagai contoh titik (1,1,1), (1,2,1), (1,3,1) dan (2,1,1) akan memiliki centroid : 1+1+1+2 1+2+3+1 1+1+1+1 = (1.25, 1.75, 1.00) , , 4 4 4 Algoritma ini berakhir, ketika centroid tidak lagi berubah. Dengan kata lain, algoritma berakhir ketika semua cluster C1, C2, …, Ck, semua record yang dimiliki oleh masing-masing pusat cluster tetap dalam cluster itu. Atau algoritma berhenti ketika beberapa kriteria konvergensi terpenuhi [15]. 3.4.2. Analisa Hasil Dari hasil pengujian, maka diperoleh informasi yang bisa dibandingkan diukur akurasinya dengan menggunakan levenshtein distance algorithm. Dengan mengukur prosentase kemiripan hasil klusterr dengan tipe penyakit endemi = 1−( [ berdasarkan ][ ( , ] ) ) ∗ 100%. rumus Maka akan terlihat apakah 33 teknik clustering ini sudah sesuai yang diharapkan untuk diterapkan di kasus ini. 3.4.3. Evaluasi Kualitas Software Tahap penilaian secara objektif yang dilakukan dengan penyerahan program dan pengisian kuisioner seputar performa program analisis data mining pada kelompok awam yang dipilih secara acak dan tidak mengetahui tentang data mining. Untuk poin-poin yang akan diuji pada tahap evaluasi kualitas software adalah : a. Portabilitas, pengujian kualitas apakah software cukup portable dalam hal instalasi. b. Kemudahan, pengujian kualitas apakah software cukup mudah untuk dioperasikan untuk pengguna awam. c. Desain, pengujian kualitas apakah desain user interface mudah untuk dipahami atau tidak. d. Kegunaan, pengujian kualitas seberapa besar manfaat yang nantinya dapat diperoleh dengan adanya modul data mining. BAB IV RANCANAGAN SISTEM DAN PEMBAHASAN 4.1 Perancangan Sistem Ada tiga poin utama yang akan dibahas pada tahap perancangan : Komunikasi dengan pengguna, Desain antarmuka (Interface), Database daerah endemi penyakit. 4.1.1 Komunikasi dengan pengguna (User Communication) Komunikasi antara user, program dan respon yang diberikan sistem yang meliputi : analisis kebutuhan user, usecase diagram, dan diagram aktifitas. 4.1.1.1 Analisa Kebutuhan User Analisa kebutuhan bertujuan untuk mendefinisikan kebutuhan yang diperlukan dalam pengembangan perangkat lunak. Suatu sistem yang akan dibangun harus memenuhi kebutuhan fungsional agar program berjalan optimal dan kebutuhan non-fungsional untuk mendukung fungsi utama dalam program agar berjalan dengan baik sesuai keinginan. a. Kebutuhan Fungsional Aplikasi analisa daerah endemi penyakit harus menyediakan fungsi untuk meng-import dataset sebagai input prosesnya. Aplikasi harus menyediakan fungsi untuk proses mining sebagai proses utama dalam sistem yang akan dibangun ini. Aplikasi harus menyediakan fungsi untuk menyimpan hasil mining sebagai laporan yang dapat dipertanggung jawabkan. 34 35 b. Kebutuhan Non-Fungsional Aplikasi menyediakan informasi pendukung yang berhubungan dengan proses mining yang dilakukan, misalnya waktu pemrosesan, jarak antar cluster, dsb. 4.1.1.2 Use Case Diagram Use case diagram yang akan disusun pada software ini memerlukan aktor sebagai pelaku yang menjalankan case-case yang ada. 1. Identifikasi Aktor / pelaku bisnis Aktor adalah pelaku bisnis atau subjek yang menjalankan case pada software. Aktor yang terlibat langsung dalam sistem analisa data rekam medis rumah sakit kota semarang (rekam medis). 2. Diagram Model Use Case Berikut adalah use case diagram untuk software analisis data mining pada rumah sakit kota semarang : Gambar 4.1 Diagram Use-Case pada perancangan sistem 36 Gambar 4.1 menggambarkan aktor dapat melakukan import dataset yang akan digunakan sebagai inputan proses mining, dataset yang telah di import di lakukan proses cleaning. Pada proses cleaning ini, dataset yang memiliki attribute value kosong/tidak sesuai akan dihapus. Jika sudah melalui proses cleaning, maka proses mining akan dapat dijalankan. Hasil dari proses mining ini, dapat disimpan sebagai file report. Selain dapat di simpan, hasil mining akan ditampilkan oleh sistem. 4.1.1.3 Activity Diagram Gambar 4.2 Activity Diagram proses mining dan pencarian daerah endemi penyakit 37 Gambar 4.2 menjelaskan bagaimana urutan proses mining setelah user melakukan proses mining. Ketika user menjalankan program, user akan masuk pada halaman home. User dapat memilih apakah masuk halaman utama atau keluar dari program. Aktifitas akan berhenti jika user memilih keluar dari program. Jika user memilih masuk, user akan masuk ke halaman utama program. Untuk melakukan proses mining user harus meng-import dataset sebagai inputan pada proses mining. User dapat membatalkan import dataset dan kembali pada halaman utama. Setelah dataset di-import oleh user dan berhasil, proses selanjutnya adalah proses cleaning. Pada proses cleaning ini, atribut yang nilainya kosong atau tidak sesuai dengan yang telah ditentukan akan dihilangkan dari dataset. Sehingga hanya dataset yang memenuhi syarat yang diolah pada proses mining. Setelah proses mining berhasil, program akan menampilkan hasil mining berupa statistik mining yang dapat disimpan pada bentuk file teks. 4.1.2 Desain Antarmuka Dalam pembuatan sebuah aplikasi, desain antarmuka sangat penting perannya. Karena desain antarmuka yang baik akan membantu user/ pengguna dalam pngoperasian sistem/aplikasi. Desain yang kurang baik akan membuat pengguna sistem kebingungan dan mengurangi fungsi sistem/aplikasi tersebut. Tujuan dibuatnya aplikasi adalah untuk membantu manusia dalam mengerjakan pekerjaan. Dalam aplikasi analisis data rawat inap rumah sakit kota Semarang ini, akan ada 2 tampilan antarmuka yaitu tampilan awal dan menu utama. 38 4.1.2 2.1 Desain Tampilan T Aw wal Gambarr 4.3. Desain n Tampilan A Awal pada raancangan proogram Gambar 4.3 menunjukkan desaiin halaman home padaa saat prograam dijalankan. Keteerangan : Head der : nama n softwaare/aplikasi m mining. Imag ge : logo l Universitas Dian N Nuswantoro. Butto on Masuk : tombol t masu uk yang berffungsi masukk ke halamaan utama. Butto on Keluar : tombol t keluaar yang berfu fungsi untuk membatalkaan masuk sistem. s 39 4.1.2 2.2 Desain Menu M Utama a Gambaar 4.4. Desaiin Menu Utaama pada ranncangan proggram Gambar 4.4 menunju ukkan desaiin menu utaama program m analisis daata minin ng clustering g untuk daerrah endemi ppada rumah sakit kota Seemarang. Paada menu u utama, seemua fungsi mining dillakukan disiini. Mulai im mport datasset, prosees mining, reefresh, dan keluar k aplikaasi. 4.1.3 4 Data abase Daera ah Endemi Penyakit P Dalam pembangun nan aplikaasi dibutuuhkan database unttuk peny yimpanan data-data, d yang y nantinnya akan ddigunakan dalam prosses peng golahan dalam m aplikasi teersebut sepeerti data userr (untuk prosses login), daata pemb belian, data penjualan ,d dll. Dalam applikasi ini adda 2 tabel, yyaitu table daata kelurrahan dan taable data kod de penyakit. 40 4.1.3.1 Class Diagram Gambar 4.5. Class Diagram Aplikasi Clustering untuk Analisa Daerah Endemi Penyakit pada Rumah Sakit Kota Semarang Gambar 4.5 menjelaskan tentang struktur database yang digunakan untuk menyimpan data analisa daerah endemi penyakit pada rumah sakit kota Semarang. Class Diagram tersebut berisi 3 tabel yang digunakan untuk membantu jalannya program aplikasi analisa ini. Tabel kecamatan (tbl_kec) digunakan untuk menyeleksi daerah pada aplikasi analisa daerah endemi penyakit pada rumah sakit kota Semarang. Database yang terbentuk mempunyai nama “db_clustering” dan mempunyai nama tabel yaitu “tbl_kecamatan” serta mempunyai tiga fields atau kolom yaitu : 1. id; int PRIMARY KEY Kolom id memiliki tipe int dengan PRIMARY KEY dan AUTO_INCREMENT sebagai kunci yang mencegah adanya duplikat 41 pada kode buku. 2. kd_kec; varchar Kolom kd_kec memiliki tipe text yang berfungsi untuk menyimpan kode kecamatan sekota Semarang. 3. nama_kec; varchar Kolom nama_kec memiliki tipe text yang berfungsi untuk menyimpan nama kecamatan sesuai kode kecamatan berdasarkan database db_clustering. Tabel penyakit ICD-10 (tbl_penyakit_icd-10) menjelaskan tentang struktur database yang digunakan untuk menyimpan data kode penyakit berdasar kode ICD-10 dari WHO. Data tersebut digunakan untuk menyeleksi penyakit pada aplikasi analisa daerah endemi penyakit pada rumah sakit kota Semarang. Database yang terbentuk mempunyai nama “db_clustering” dan mempunyai nama tabel yaitu “tbl_data_icd” serta mempunyai empat belas fields atau kolom yaitu : 1. col1; int Kolom col1 memiliki tipe int sebagai kode buku. 2. col2; varchar 3. col3; varchar 4. col4; int 5. col5; varchar Kolom col5 memiliki tipe varchar sebagai kode kepala pengelompokan kode ICD-10 6. col6; varchar Kolom col6 memiliki tipe varchar sebagai kode ICD-10 lengkap tiga digit angka disertai dengan tanda titik (.) setelah dua digit angka, sebagai ciri kode ICD-10. 7. col7; varchar Kolom col7 memiliki tipe varchar sebagai kode ICD-10 beberapa terdiri 42 dari tiga digit angka disertai dengan tanda titik (.) setelah dua digit angka, sebagai ciri kode ICD-10. 8. col8; varchar Kolom col8 memiliki tipe varchar sebagai kode ICD-10 beberapa terdiri dari tiga digit angka tanpa disertai dengan tanda titik (.) setelah dua digit angka. 9. col9; varchar Kolom col9 memiliki tipe varchar sebagai keterangan nama penyakit sesuai kode ICD-10. 10. col10; varchar 11. col11; varchar 12. col12; varchar 13. col13; varchar 14. col14; varchar Tabel penyakit endemi (tbl_penyakit_endemi) menjelaskan tentang struktur database yang digunakan untuk menyimpan data kode penyakit endemi. Data tersebut digunakan untuk menyeleksi penyakit pada aplikasi analisa daerah endemi penyakit pada rumah sakit kota Semarang. Database yang terbentuk mempunyai nama “db_clustering” dan mempunyai nama tabel yaitu “tbl_penyakit_endemi” serta mempunyai lima fields atau kolom yaitu : 1. kd_endemi; int Kolom kd_endemi memiliki tipe int sebagai kode penyakit endemi dan bersifat AUTO INCREMENT. 2. kd_kepala; varchar Kolom kd_kepala memiliki tipe varchar untuk membedakan penyakit endemi dengan meggunakan 3 susunan angka dan huruf awal (kepala) dari kode ICD-10. 3. kd_icd; varchar Kolom kd_icd memiliki tipe varchar untuk membedakan penyakit endemi 43 dengan meggunakan 4 susunan angka dan huruf dari kode ICD-10 dengan penghubung titik(.) setelah sebelum angka terakhir. 4. nm_inggris; varchar Kolom nm_inggris memiliki tipe varchar untuk penamaan penyakit endemi sesuai kode ICD-10. 5. nm_indo; varchar Kolom nm_indo memiliki tipe varchar untuk penamaan penyakit endemi sesuai dengan bahasa yang lazim digunakan di masyarakat Indonesia. 4.2 Pembahasan K-Means adalah algoritma clustering yang dipilih untuk pengelolaan data sehingga informasi yang dibutuhkan dapat terpenuhi. Pada tahap clustering dengan menggunakan K-Means ini dimulai dengan pembentukan cluster, pembagian cluster ini dipilih secara random, penulis membentuk 5 cluster dari 20 data yang diambil dari dataset sebagai contoh. Proses penghitungan centroid awal dimulai dengan pemberian nama awal cluster (dari cluster pertama sampai dengan cluster kelima) secara random pada data hasil cleaning (data M1-M20). Tabel 4.1 Pemberian nama cluster pada masing-masing data 44 Setelah pemberian nama cluster untuk masing-masing data, maka selanjutnya akan dilakukan penghitungan untuk mendapatkan nilai centroid awal dengan menghitung mean (rata-rata) pada masing-masing cluster dengan membagi jumlah data yang didapatkan untuk setiap cluster-nya. Penghitungan centroid awal dengan menggunakan mean (rata-rata) ini ditujukan agar setiap cluster memiliki anggota data pada iterasi pertama. Adapun penghitungan nilai centroid awal adalah sebagai berikut: Untuk nilai centroid awal pada cluster pertama : + 4 + = + + 4 + = + + 4 + Untuk nilai centroid awal pada cluster keempat : + Untuk nilai centroid awal pada cluster ketiga : = Untuk nilai centroid awal pada cluster kedua : = + + 4 + + 4 + Untuk nilai centroid awal pada cluster kelima : = + Adapun hasil dari centroid awal dari masing-masing cluster adalah sebagai berikut : 1. Cluster pertama (C0) = [0.25; 0.75; 0; 0; …; 0] 2. Cluster kedua (C1) = [0; 0.5; 0.5; 0; …; 0] 3. Cluster ketiga (C2) = [0.25; 0.75; 0; 0; …; 0] 4. Cluster keempat (C3) = [0.5; 0.25; 0.25; 0; …; 0] 5. Cluster kelima (C4) = [0.5; 0.25; 0.25; 0; …; 0] 45 Langkah selanjutnya adalah melakukan penghitungan untuk menentukan jarak setiap data dengan centroid awal yang telah dibentuk dengan menggunakan rumus euclidiance distance. Hasil dari perhitungan jarak dengan rumus euclidiance distance ini akan berpengaruh pada penempatan setiap data ke cluster tertentu. Berikut ini disajikan perhitungan data pertama terhadap nilai centroid masingmasing cluster. Jarak antara data pertama dengan centroid pertama (C0) = , (1 − 0.25) + (0 − 0.75) + (0 − 0) + ⋯ + (0 − 0) = 1.457737974 Jarak antara data pertama dengan centroid kedua (C1) = , (1 − 0) + (0 − 0.5) + (0 − 0.5) + ⋯ + (0 − 0) = 1.695582496 Jarak antara data pertama dengan centroid ketiga (C2) , = (1 − 0.25) + (0 − 0.75) + (0 − 0) + ⋯ + (0 − 0) = 1.620185175 Jarak antara data pertama dengan centroid keempat (C3) , = (1 − 0.5) + (0 − 0.25) + (0 − 0.25) + ⋯ + (0 − 0) = 1.274754878 Jarak antara data pertama dengan centroid kelima (C4) , = (1 − 0.5) + (0 − 0.25) + (0 − 0.25) + ⋯ + (0 − 0) = 1.369306394 Penghitungan jarak data dengan centroid tiap cluster, pada 20 record data, selanjutnya akan disajikan dalam bentuk tabel dibawah ini. 46 Tabel 4.2 Hasil penghitungan jarak setiap data untuk masing-masing cluster Pada tabel diatas dapat dilihat bahwa untuk data pertama memiliki jarak terkecil yaitu 1.274754878 (pada C3), maka data pertama akan menjadi anggota dari cluster ke-3. Untuk lebih jelasnya anggota data untuk masing-masing cluster akan disajikan dalam bentuk tabel dibawah ini. Tabel 4.3 Anggota data untuk setiap cluster 47 Pada iterasi pertama ini jumlah anggota yang didapatkan oleh masing-masing cluster adalah sebagai berikut : 1. Pada cluster pertama (C0) memiliki jumlah anggota 5 data, yaitu pada data ke M3, M6, M11, M16, M17. 2. Pada cluster kedua (C1) memiliki jumlah anggota 3 data, yaitu pada data ke M2, M7, M12. 3. Pada cluster ketiga (C2) memiliki jumlah anggota 2 data, yaitu pada data ke M8, M16. 4. Pada cluster keempat (C3) memiliki jumlah anggota 5 data, yaitu pada data ke M1, M4, M9, M13, M14. 5. Pada cluster kelima (C4) memiliki jumlah anggota 6 data, yaitu pada data ke M5, M10, M15, M18, M19, M20. Iterasi pada clustering ini akan berhenti, jika anggota data cluster pada iterasi sebelumnya sama dengan anggota data cluster pada iterasi selanjutnya atau nilai centroid pada iterasi awal sama dengan nilai centroid pada iterasi selanjutnya. Dari 20 dataset tersebut, untuk memperoleh nilai centroid yang sama terbentuklah 5 iterasi. Dari iterasi ke-5, didapatkan hasil bahwa nilai minimum 48 centroid ada di data ke-6 (M6) dan nilai maksimum centroid ada di data ke-15 (M15). Tabel 4.4 Hasil Cluster terakhir pada iterasi ke-5 Dari hasil clustering, diperoleh karakteristik masing-masing cluster. 49 Karakteristik yang diperoleh dari 20 dataset di atas adalah : Cluster pertama (C0) memiliki karakteristik tipe penyakit A01.0 (typhoid fever) dengan daerah endemic pedurungan, banyak menyerang usia anak-anak (0 – 12 tahun) dan jenis kelamin perempuan. Cluster kedua (C1) memiliki karakteristik tipe penyakit A01.0 (typhoid fever) dengan daerah endemic tembalang, banyak menyerang usia anak-anak (0 – 12 tahun) dan jenis kelamin laki-laki. Cluster ketiga (C2) memiliki karakteristik tipe penyakit A04.9 (Bacterial intestinal infection) dengan daerah endemic semarang selatan, banyak menyerang usia anak-anak (0 – 12 tahun) dan jenis kelamin laki-laki. Cluster keempat (C3) memiliki karakteristik tipe penyakit A01.0 (typhoid fever) dengan daerah endemic semarang selatan, banyak menyerang usia muda (13 – 25 tahun) dan jenis kelamin perempuan. Cluster kelima (C4) memiliki karakteristik tipe penyakit A04.9 (Bacterial intestinal infection) dengan daerah endemic tembalang, banyak menyerang usia anak-anak (0 – 12 tahun) dan jenis kelamin laki-laki. Setelah kelima cluster ini terbetuk, proses dilanjutkan pemeriksaan kemiripan penyakit dengan hasil cluster dengan penyakit endemi yang ada di database. Pemeriksaan ini digunakan untuk menyimpulkan penyakit yang sedang mewabah dan daerahnya secara lebih spesifik. Kelima cluster diatas memiliki 2 jenis penyakit sesuai kode ICD-10 yaitu A01.0 (typhoid fever) dan A04.9 (Bacterial instestinal). Untuk memeriksa penyakit mana yang merupakan penyakit endemi, akan dilakukan pemeriksaan kemiripan teks dengan menggunakan metode levenshtein distance. Metode ini membandingkan hasil string yang diperoleh dari proses cluster dengan database penyakit endemi. 50 Gam mbar 4.6 Alg goritma Leveenshtein Disstance Deng gan algoritm ma levenshttein distancce hasil perrbandingan dari bacterrial instestinal i hasil cluster dengan d typhoid-fever daari database aadalah : Gambar 4.7 4 Perhitung gan bacteriall instestinal ddengan typhhoid-fever m menggunakann levenshttein distancee algorithm 51 Dan hasil perbandingan dari typhoid-fever hasil cluster dengan typhoid-fever dari database adalah : Gambar 4.8 Perhitungan typhoid-fever dengan typhoid-fever menggunakan levenshtein distance algorithm Dari hasil perhitungan diatas, dengan rumus 1−( [ ][ ( , ] ) = ) ∗ 100% dapat diperoleh akurasi hasil levenshtein distance algorithm, yaitu 20 % untuk perbandingan bacterial instestinal hasil cluster dengan typhoid-fever dari database dan 100% untuk perbandingan typhoid-fever hasil cluster dengan typhoid-fever dari database. Karena prosentase minimal untuk hasil levenshtein distance algorithm adalah 75%, sehingga dapat ditarik kesimpulan hasil tes kemiripan string dari hasil cluster dengan database penyakit endemi, typhoid-fever adalah penyakit endemic dengan akurasi kemiripan 100% (>75%). Dan ada empat kesimpulan yang terbentuk, yang menampilkan informasi daerah endemi penyakit. Kesimpulan hasil clustering dari 20 dataset ini adalah : Kesimpulan pertama dari 20 dataset 4 data menunjukkan (C0) tipe penyakit A01.0 (typhoid fever) dengan daerah endemic pedurungan, banyak menyerang usia 52 anak-anak (0 – 12 tahun) dan jenis kelamin perempuan. Kesimpulan kedua dari 20 dataset 3 data menunjukkan (C1) tipe penyakit A01.0 (typhoid fever) dengan daerah endemic tembalang, banyak menyerang usia anak-anak (0 – 12 tahun) dan jenis kelamin laki-laki. Kesimpulan ketiga dari 20 dataset 7 data menunjukkan (C3) tipe penyakit A01.0 (typhoid fever) dengan daerah endemic semarang selatan, banyak menyerang usia muda (13 – 25 tahun) dan jenis kelamin perempuan. C2 dan C4 bukan merupakan kesimpulan daerah endemi penyakit karena penyakit yang dihasilkan kedua cluster tersebut tingkat kemiripannya >75% dengan penyakit endemi pada database penyakit endemi. Pola hasil clustering ini memberikan kemudahan dalam proses penentuan daerah endemi penyakit. Berdasarkan hasil analisa ini akan digunakan dalam penentuan tindakan selanjutnya yang akan dilakukan manajemen rumah sakit. 4.3 Hasil Data Mining Menggunakan Dataset Data Training Pada perbandingan analisis mining kali ini menggunakan data rekam medis pasien rawat inap rumah sakit kota semarang periode triwulan pertama 2014 (Januari - Maret) yang telah diolah menjadi dataset mempunyai jumlah transaksi sebanyak 13797 data. Hanya saja penelitian ini dibatasi hanya pada kelurahan sekota semarang saja. Hasil perhitungan dengan menggunakan aplikasi yang berbasis java ini menghasilkan statistic mining seperti pada gambar 4.9. 53 Gambarr 4.9 Hasil perhitungan sstatistik prosses mining Dari hasil peneliitian diatas, dapat ditarikk kesimpulann bahwa darri 6806 dataset 3019 data menunjukkan m n bahwa daerah temballang dengann penyakit T Typhoid Fevver lebih l banyak k menyerang g jenis kelam min laki-lakii dengan renntan usia anaak-anak (0--12 tahun). t Padaa gambar 4.9 9 merupakan n gambaran ppada aplikassi yang menuunjukkan haasil mining. m Jikaa hasilnya su udah dapat mengeluarka m an pola sepeerti ini, makka dataset yaang sudah di-im mport benar dan file beerekstensi .ccsv. Hasil m mining ini nnantinya dappat disimpan d deengan cara mengklik m menubar m “Filee” kemudiann pilih Savee Hasil ke … …. (location yan ng dituju). File F yang tersimpan dibuuat dalam forrmat txt agaar dapat dibuuka dimana d saja dengan mud dah tanpa haarus adanya aplikasi lainn seperti dituunjukkan paada gambar g 4.10 0. Dengan ad danya fasilittas untuk m menyimpan hhasil dari minning yang laalu dengan d yang g saat ini dapat d dilakuk kan perbanddingan dari pengembanggan data yaang 54 ada. Gambarr 4.10 Hasil Mining yangg telah disim mpan pada fille text BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan Dari penelitian yang telah dilakukan diatas, dapat ditarik kesimpulan sebagai berikut : 1. Tingkat akurasi pada Algoritma K-Means dipengaruhi oleh beberapa hal seperti kevalitan dari dataset-nya, jumlah atribut dan cluster awal yang dibentuk. 2. Aplikasi Data Mining ini dapat digunakan untuk menampilkan informasi pola daerah endemi penyakit. Informasi yang ditampilkan berupa cluster daerah endemi, endemi penyakitnya, jenis kelamin dan usia yang rentan terserang. Data rekam medis Rumah Sakit Kota Semarang yang diproses mining meliputi data alamat, kode penyakit, usia dan jenis kelamin. 3. Kesimpulan yang didapat dari 20 dataset, 14 data yang tebentuk dari 3 cluster menunjukkan penyakit endemi yang terbentuk adalah typhoid fever. Dari penelitian ini menunjukkan skala 7:10 untuk penyakit typhoid fever. 4. Algoritma Levenshtein Distance pada aplikasi ini berhasil diterapkan untuk memperoleh nilai kemiripan antara penyakit hasil cluster dengan penyakit endemi memiliki kecocokan >75%. Sehingga kesimpulan yang diambil oleh aplikasi ini adalah daerah endemi penyakit yang sesuai dengan penyakit endemi yang ada di Indonesia. 5. Hasil dari proses data mining ini dapat digunakan sebagai pertimbangan dalam mengambil keputusan lebih lanjut tentang sikap apa yang harus segera diambil untuk menangani wabah penyakit sesuai daerah endemi. 54 55 5.2 Saran Saran untuk penelitian selanjutnya adalah : 1. Dengan hasil proses mining ini bisa dikembangkan untuk dijadikan aplikasi dengan gambaran peta kota Semarang dengan memanfaatkan teknologi GIS. 2. Penelitian ini dapat dikembangkan menjadi sebuah peramalan daerah endemi menggunakan algoritma untuk prediksi maupun algoritma untuk peramalan. DAFTAR PUSTAKA [1] Fandy, S.Si , Andi Fajeriani Wyrasti, S. Pd, M. Si & Tri Widjajanti, M. Si. (2012). ANALISIS TITIK KESETIMBANGAN DAN KESTABILAN PENYEBARAN PENYAKIT MALARIA DI DISTRIK MANOKWARI BARAT BERDASARKAN MODEL EPIDEMIK SIR. Jurusan Matematika dan Statistika, FMIPA, Universitas Negeri Papua. [2] Hidayatullah, Ahmad Fathan. (2010). Aplikasi Sistem Informasi Geografis Untuk Penanganan Penyebaran Penyakit Demam Berdarah (Studi Kasus di Puskesmas Tegalrejo Yogyakarta), Skripsi, Program Studi Teknik Informatika, Yogyakarta : Universitas Kalijaga. [3] Adlina, Shafira., & Fahdy Azhar A. (2010). Penerapan E-health untuk Penyakit Demam Berdarah Dengue (DBD) pada Daerah Endemi, Jurnal, Fakultas Sains and Technology, Jakarta : Universitas Al Azhar Indonesia. [4] Kulikowski, C. A. (2002). The micro-macro spectrum of medical informatics challenges : From molecular medicine to transforming health care in a globalizing society. Methods of Information in Medicine; 41(1), 20-24. [5] Stephanie, J. Hickey. (2013). Naïve Bayes Classification of Public Health Data with Greedy Feature Selection, USA : Iona College. [6] Bellazzi, R., & Zupan B. (2008). Predictive data mining in clinical medicine: Current issues and guidelines. International Journal of Medical Informatics, 77(2), 81-97. [7] Kurniawan, Edy., I Ketut Edy Purnama, & Surya Sumpeno. (2011). Analisa Rekam Medis untuk Menentukan Pola Kelompok Penyakit Menggunakan Klasifikasi dengan Decision Tree J48, Surabaya : Institut Sepuluh Nopember. [8] ICD-10 (International Classification of Diseases) [http://www.who.int/classifications/icd/en/] diakses November 2014 56 57 [9] World Health Organization, “ICD-10 || International Statistical Clasification Of Diseases and Related Health Problems || 10th Revision || Volume 2 Instruksi Manual”, 2010 [10] Julianta, Feri., & Dominikus Juju. (2010). Data Mining – Meramalkan Bisnis Perusahaan. [11] Kusrini., & Luthfi, Emha Taufiq. (2009). Algoritma Data Mining. Andi Offset: Yogyakarta. [12] Santosa, Budi. (2007). Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Graha Ilmu: Yogyakarta. [13] Prasetyo, Eko. Data Mining “Mengolah Data Menjadi Informasi Menggunakan MATLAB”. Andi Offset : Yogyakarta. [14] Larose, Daniel T. (2005). Discovering knowledge in data an introduction to Data Mining. A John Willey & Sons, Inc: United State. [15] Feriawan, Tedy. (2014). Aplikasi Data Mining dengan Aturan Asociation Rules untuk Menampilkan Informasi Pola Kerusakan Pada Laptop Menggunakan Algoritma Apriori (Studi Kasus Di ITSC Semarang). Semarang : Universitas Dian Nuswantoro. [16] Netbeans Integrates Development Environment (IDE) [http://en.wikipedia.org/wiki/NetBeans] diakses Januari 2015 [17] Adriyani, Ni Made Muni.,dkk. Implementasi Algoritma Levenshtein Distance Dan Metode Empiris Untuk Menampilkan Saran Perbaikan Kesalahan Pengetikan Dokumen Berbahasa Indonesia. Unversitas Udayana: Fakultas Matematika dan Ilmu Pengetahuan Alam. [18] J. MacQueen, Some methods for classification and analysis of multivariate observations, Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability, Vol. 1, pp. 281-297, University of California Press, Berkeley, CA, 1967.