ana sema peny alisis da arang u yakit m ata raw untuk m menggu

advertisement
SKRIPSI
ANA
ALISIS DA
ATA RAW
WAT INA
AP RUMA
AH SAKIT
T KOTA
SEMA
ARANG UNTUK
U
M
MENGET
TAHUI DA
AERAH ENDEMI
E
PENY
YAKIT MENGGU
M
UNAKAN ALGORITMA K-M
MEANS
Laporan inni disusun sebaagai salah satuu syarat untukk menyelesaik
kan mata Kuliaah Tugas Akhhir
pada Program
m Studi Tekniik Informatikaa – S1 Fakultaas Ilmu Kompuuter
Univeersitas Dian Nuuswantoro
Oleh :
N
NAMA
P
: FITRA WAHYU PUTRI
N
NIM
: A11.2011.05977
Prrogram Studdi : Teknik Informatikaa – S1
FAKULT
TAS ILMU KOMPUTE
K
ER
UN
NIVERSITA
AS DIAN NUSWANT
N
TORO
SEMARAN
NG
TAHUN 20015
SKRIPSI
ANA
ALISIS DA
ATA RAW
WAT INA
AP RUMA
AH SAKIT
T KOTA
SEMA
ARANG UNTUK
U
M
MENGET
TAHUI DA
AERAH ENDEMI
E
PENY
YAKIT MENGGU
M
UNAKAN ALGORITMA K-M
MEANS
Laporan inni disusun sebaagai salah satuu syarat untukk menyelesaik
kan mata Kuliaah Tugas Akhhir
pada Program
m Studi Tekniik Informatikaa – S1 Fakultaas Ilmu Kompuuter
Univeersitas Dian Nuuswantoro
Oleh :
N
NAMA
P
: FITRA WAHYU PUTRI
N
NIM
: A11.2011.05977
Prrogram Studdi : Teknik Informatikaa – S1
FAKULT
TAS ILMU KOMPUTE
K
ER
UN
NIVERSITA
AS DIAN NUSWANT
N
TORO
SEMARAN
NG
TAHUN 20015
i KATA PENGANTAR
Puji syukur kepada Tuhan yang Maha Esa atas segala berkat yang telah diberikanNya, sehingga Laporan Tugas Akhir ini dapat diselesaikan.
Laporan Tugas Akhir dengan judul “ANALISIS DATA RAWAT INAP
RUMAH SAKIT KOTA SEMARANG UNTUK MENGETAHUI DAERAH
ENDEMI PENYAKIT MENGGUNAKAN ALGORITMA K-MEANS” ini
ditujukan untuk memenuhi sebagian persyaratan akademik guna menyelesaikan
studi di Program Studi Teknik Informatika Strata Satu Universitas Dian
Nuswantoro Semarang.
Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari berbagai pihak,
Laporan Tugas Akhir ini tidak akan dapat diselesaikan tepat pada waktunya. Oleh
karena itu, penulis mengucapkan terimakasih yang sebesar-besarnya kepada
semua pihak yang telah membantu dalam proses penulisan Laporan Tugas Akhir
ini, yaitu kepada :
1) Dr. Ir. Edi Noersasongko, M.Kom, selaku Rektor Universitas Dian
Nuswantoro.
2) Dr. Abdul Syukur, selaku Dekan Fakultas Ilmu Komputer.
3) Heru Agus Santoso, Ph. D, selaku Ketua Program Studi Teknik
Informatika – S1 dan Dosen Pembimbing Tugas Akhir yang telah
memberikan bimbingan dan banyak memberikan masukan kepada penulis.
4) Sutrisno, SKM. MH.Kes, selaku Wakil Direktur Umum dan Keuangan
Rumah Sakit Kota Semarang yang berkenan memberi ijin penulis untuk
melaksanakan penelitian di tempat yang bapak pimpin.
5) Ardytha Luthfiarta, M.Kom, M.CS selaku pembimbing tugas akhir yang
memberikan ide penelitian, informasi referensi yang penulis butuhkan dan
bimbingan yang berkaitan dengan penelitian penulis.
6) Dosen-dosen pengampu di Fakultas Ilmu Komputer Teknik Informatika
Universitas Dian Nuswantoro Semarang yang telah memberikan ilmu dan
pengalamannya
masing-masing,
sehingga
penulis
dapat
mengimplementasikan ilmu yang telah disampaikan.
7) Ibu, Bapak, dek Yoga, serta mas Bangkit yang telah memberikan
dukungan moril, doa dan kasih sayang.
8) Andika Rukun, Dedi, Restu, Rizky, Mas Fadly, Mas Tedy, Mas Ragil,
Maya dan teman-teman Teknik Informatika 2011 atas motivasi dan
dukungan selama ini.
9) Semua pihak yang namanya tidak dapat disebutkan satu per satu yang
terlibat dalam penyusunan Laporan Tugas Akhir ini sehingga dapat selesai
dengan baik.
10) Direksi, staf perpustakaan, dan asisten laboratorium Universitas Dian
Nuswantoro yang telah memberikan data untuk keperluan penyusunan
tugas akhir.
vi Akhir kata, penulis menyadari bahwa mungkin masih terdapat kekurangan dalam
Laporan Tugas Akhir ini. Oleh karena itu, kritik dan saran dari pembaca sangat
bermanfaat bagi penulis. Semoga Laporan Tugas Akhir ini dapat bermanfaat bagi
semua pihak yang membacanya.
Semarang, 3 Maret 2015
Penulis
vii ABSTRAK
Mencari pola informasi dan pengetahuan yang berharga dari suatu data
pada database yang sangat besar disebut dengan data mining. Salah satu algoritma
yang popular pada teknik data mining adalah algoritma K-Means. Sedangkan
dalam penemuan pola kombinasi hubungan antar itemsets digunakan Cluster
Rules (Aturan Clustering).
Data mining telah diimplementasikan keberbagai bidang, diantaranya
bidang kesehatan, bisnis atau perdagangan, pendidikan, dan telekomunikasi. Di
bidang kesehatan misalnya hasil implementasi data mining menggunakan
algoritna K-Means dapat membantu para medis dalam kebijakan pengambilan
keputusan terhadap apa yang berhubungan dengan institusi kesehatan.
ANALISIS DATA RAWAT INAP RUMAH SAKIT KOTA SEMARANG
UNTUK
MENGETAHUI
DAERAH
ENDEMI
PENYAKIT
MENGGUNAKAN ALGORITMA K-MEANS
Kata Kunci : Data Mining, Clustering, K-Means, Rekam Medis, Endemi
Penyakit, Jarak Levenshtein.
viii
ABSTRACT
Finding patterns of information and valuable knowledge of the data on a very
large database called data mining. One popular algorithm in data mining
technique is the K-Means algorithm. While the discovery of relationships between
item sets pattern combinations used Cluster Rules (Rule Clustering).
Data mining has been implemented every related fields, including health, business
or trade, education, and telecommunications. In the health sector for example the
results of the implementation of data mining using the K-Means algorithm can
help medical in policy decisions related to any health institution.
DATA ANALYSIS OF INPATIENTS IN HOSPITAL IN SEMARANG TO
KNOW
THE
DISEASE
ENDEMIC
AREA
USING
K-MEANS
ALGORITHM
Key Words : Data Mining, Clustering, K-Means, Medical Record, Endemic
Diseases, Levenshtein Distance.
ix
DAFTAR ISI
HALAMAN JUDUL
..................................................................... i
PERSETUJUAN SKRIPSI
............................................................ ii
PENGESAHAN DEWAN PENGUJI
............................................. iii
PERNYATAAN KEASLIAN SKRIPSI
................................... iv
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS....................... v
KATA PENGANTAR
ABSTRAK
....................................................................... vi
............................................................................................... viii
ABSTRACT ............................................................................................... ix
DAFTAR ISI
................................................................................... x
DAFTAR GAMBAR
DAFTAR TABEL
....................................................................... xiii
................................................................................... xiv
BAB I PENDAHULUAN
....................................................................... 1
1.1.
Latar Belakang
....................................................................... 1
1.2.
Rumusan Masalah
....................................................................... 2
1.3.
Batasan Masalah
....................................................................... 3
1.4.
Tujuan Penelitian
....................................................................... 3
1.5.
Manfaat Penelitian
....................................................................... 3
BAB II LANDASAN TEORI ....................................................................... 4
2.1.
Tinjauan Studi
....................................................................... 4
2.1.1. Aplikasi Sistem Informasi Geografis untuk
Penanganan Penyebarab Penyakit Demam Berdarah ................ 4
2.1.2. Perancangan E-health untuk Penyakit Demam
Berdarah Dengue (DBD) pada daerah endemi .......................... 5
2.2.
Kerangka Pemikiran ....................................................................... 7
2.3.
Tinjauan Pustaka
....................................................................... 9
2.3.1. Sistem Informasi Manajemen Rumah Sakit .............................. 9
x 2.3.2. ICD-10 ....................................................................................... 9
2.3.3. Data Mining ............................................................................... 10
2.3.3.1.
Definisi Cross-Industry Standard Process for
Data Mining (CRISP-DM) ........................................... 11
2.3.3.2.
Teknik-Teknik Data Mining ......................................... 11
2.3.3.3.
Konsep Pengelompokan (Cluster) ................................. 13
2.3.3.4.
K-Means Algorithm ...................................................... 16
2.3.4. Java ............................................................................................ 17
2.3.5. Netbeans Integrated Development Environment (IDE) ............. 18
2.3.6. Levenshtein Distance Algorithm ............................................... 19
BAB III METODE PENELITIAN ............................................................... 21
3.1
Implementasi Cross-Industry Standard Process for Data
Mining (CRISP-DM) ....................................................................... 21
3.1.1
Fase Pemahaman Bisnis ............................................................. 21
3.1.2
Fase Pemahaman Data ............................................................... 22
3.1.3
Fase Pengolahan Data ................................................................ 23
3.1.4
Fase Pemodelan
....................................................................... 25
3.1.5
Fasa Evaluasi
....................................................................... 26
3.1.6
Fase Implementasi ...................................................................... 26
3.2
Kebutuhan Perangkat Lunak ............................................................ 27
3.3
Flowchard Sistem
3.4
Tahap-tahap Pengujian ...................................................................... 31
....................................................................... 29
3.4.1
Pengujian Teknik Cluster K-Means ........................................... 31
3.4.2
Analisa Hasil
3.4.3
Evaluasi Kualitas Software ......................................................... 33
....................................................................... 32
BAB IV RANCANGAN SISTEM DAN PEMBAHASAN ......................... 34
4.1
Perancangan Sistem ....................................................................... 34
4.1.1
Komunikasi dengan pengguna
(User Communication)................................................................ 34
xi 4.1.1.1 Analisa Kebutuhan User ................................................. 34
4.1.1.2 Use Case Diagram........................................................... 35
4.1.1.3 Activity Diagram ............................................................ 36
4.1.2
Desain Antarmuka ..................................................................... 37
4.1.2.1 Desain Tampilan Awal ................................................. 38
4.1.2.2 Desain Menu Utama
4.1.3
................................................. 39
Database Daerah Endemi Penyakit ............................................. 39
4.1.3.1 Class Diagram ................................................................ 40
4.2
Pembahasan ...................................................................................... 43
4.3
Hasil Data Mining Menggunakan Dataset Data Training ................ 52
BAB V KESIMPULAN DAN SARAN
................................................. 54
5.1
Kesimpulan ...................................................................................... 54
5.2
Saran ................................................................................................ 55
DAFTAR PUSTAKA .................................................................................. 56
xii DAFTAR GAMBAR
Gambar 2.1
Kerangka Pemikiran ............................................................. 7
Gambar 2.2
Contoh kode ICD-10 ............................................................. 10
Gambar 2.3 a. Data sebelum pengelompokan (kiri) .................................... 14
b.Data setelah pengelompokan (kanan) .................................. 14
Gambar 2.4
Alur Pembuatan dan eksekusi program Java ....................... 17
Gambar 2.5
Tampilan Awal Netbeans IDE ............................................. 19
Gambar 2.6
Algoritma Levenshtein Distance .......................................... 19
Gambar 3.1
Enam Fase CRISP-DM ........................................................ 21
Gambar 3.2
Data Mentah ......................................................................... 23
Gambar 3.3
Sistematikan Penelitian ........................................................ 23
Gambar 3.4
Data setelah dilakukan selection .......................................... 24
Gambar 3.5
Data setelah dilakukan cleaning ........................................... 25
Gambar 3.6
Diagram Perancangan Analisa K-Means Clustering ........... 26
Gambar 3.7
Flowchard penerapan K-Means pada kasus analisa daerah
endemic penyakit ` ................................................................ 30
Gambar 4.1
Diagram Use-Case pada perancangan sistem ...................... 35
Gambar 4.2
Activity Diagram proses mining dan pencarian daerah
endemi penyakit ................................................................... 36
Gambar 4.3
Desain Tampilan Awal pada rancangan program ................ 38
Gambar 4.4
Desain Menu Utama pada rancangan program .................... 39
Gambar 4.5
Class Diagram Aplikasi Clustering untuk Analisa Daerah
Endemi Penyakit pada Rumah Sakit Kota Semarang .......... 40
Gambar 4.6
Algoritma Levenshtein Distance .......................................... 49
Gambar 4.7
Perhitungan bacterial instestinal dengan typhoid-fever
menggunakan levenshtein distance algorithm ..................... 50
Gambar 4.8
Perhitungan typhoid-fever dengan typhoid-fever
menggunakan levenshtein distance algorithm ..................... 50
Gambar 4.9
Hasil perhitungan statistik proses mining ............................ 52
Gambar 4.10 Hasil Mining yang telah disimpan pada file text ................. 53
xiii DAFTAR TABEL
Tabel 3.1. Spesifikasi software di computer yang digunakan sebagai
Editor .......................................................................................... 27
Tabel 3.2. Tabel Rekam Medis berisi kode ICD-10 ................................... 28
Tabel 3.3. Daftar kecamatan se-kota semarang .......................................... 28
Tabel 3.4. Daftar penyakit endemi .............................................................. 29
Tabel 4.1. Pemberian nama cluster pada masing-masing data .................... 43
Tabel 4.2. Hasil penghitungan jarak setiap data untuk masingmasing cluster ............................................................................ 46
Tabel 4.3. Anggota data untuk setiap cluster .............................................. 46
Tabel 4.4. Hasil Cluster terakhir pada iterasi ke-5 ....................................... 48
xiv BAB I
PENDAHULUAN
1.1
Latar Belakang
Rumah sakit adalah institusi perawatan kesehatan profesional yang
pelayanannya ditangani oleh dokter, perawat dan tenaga ahli kesehatan lainnya.
Menurut Peraturan Menteri Kesehatan Republik Indonesia Nomor 82 Tahun 2013
pasal
1:1,
rumah
sakita
adalah
institusi
pelayanan
kesehatan
yang
menyelenggarakan pelayanan kesehatan perorangan secara peripurna yang
menyediakan pelayanan rawat inap, rawat jalan, dan gawat darurat. Rumah sakit
sangat berperan dalam kehidupan masyarakat terutama di bidang kesehatan.
Dalam sehari, rumah sakit daerah dapat menangani ratusan pasien baik yang rawat
jalan atau rawat inap. Oleh karena itu, Knowledge Management System sangat
dibutuhkan untuk mendukung pekerjaan tenaga medis dalam menangani pasien
dan membantu manajerial dalam pengambilan keputusan, sehingga kesalahan
dalam penanganan dapat dihindari.
Salah satu bagian dari Knowledge Management System yaitu Sistem
Informasi Manajemen Rumah Sakit (SIMRS). Peraturan Menteri Kesehatan
Republik Indonesia Nomor 82 Tahun 2013 pasal 1:2, menjelaskan bahwa Sistem
Informasi Manajemen Rumah Sakit yang selanjutnya disingkat SIMRS adalah
suatu
sistem
teknologi
informasi
komunikasi
yang
memproses
dan
mengintegrasikan seluruh alur proses pelayanan rumah sakit dalam bentuk
jaringan koordinasi, pelaporan dan prosedur administrasi untuk memperoleh
informasi secara tepat dan akurat, dan merupakan bagian dari Sistem Informasi
Kesehatan. SIMRS adalah program aplikasi client-server yang dibuat untuk
membantu manajemen rumah sakit dalam membuat entri data, mengolah data, dan
membuat laporan data pasien. SIMRS ini dirancang untuk mengelola semua
proses manual dari A-Z diproses dan dikonversikan secara elektronik dan realtime
dari pelayanan registrasi, rekam medis, rawat jalan, billing, farmasi, inventori,
keuangan, rawat inap, dsb yang secara keseluruhan akan menghasilkan output
pelayanan yang prima dan cepat.
1
2
Aplikasi SIMRS sangat dibutuhkan untuk menunjang pelayanan rumah sakit,
tetapi dari data-data yang tersimpan di database SIMRS ini masih ada beberapa
atribut yang masih bisa diolah untuk meningkatkan pelayanan rumah sakit. Data-data
penyakit pasien rawat inap dan data alamat pasien dapat diolah lagi menggunakan
teknik data mining untuk mencari tahu daerah mana saja yang membutuhkan
penyuluhan dan program-program khusus. Data mining dibutuhkan untuk
mendukung pengambilan keputusan ditingkat manajerial karena akses ke database
dalam ukuran besar dan dimensi yang lebih kompleks membutuhkan waktu yang
cukup lama dalam mengolahnya secara manual.
Salah satu potensi yang dapat dimanfaatkan pada penerapan data mining di
rumah sakit adalah mengidentifikasikan atribut-atribut penentu jenis penyakit pasien
rawat inap dengan menggunakan aturan klasifikasi penyakit ICD.
Dengan mengetahui atribut penentu jenis penyakit pasien rawat inap
diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap daerah
dengan penyakit-penyakit yang butuh penanganan khusus sehingga prosentase pasien
dengan penyakit akut di daerah tersebut dapat di tekan dan rumah sakit juga dapat
mempersiapkan peralatan bila terjadi pelonjakan penyakit tertentu.
Berdasarkan latar belakang tersebut dibuatlah skripsi yang berjudul
“ANALISIS DATA RAWAT INAP RUMAH SAKIT KOTA SEMARANG
UNTUK MENGETAHUI DAERAH ENDEMI PENYAKIT MENGGUNAKAN
ALGORITMA K-MEANS ”.
1.2
Perumusan Masalah
Data rawat inap yang telah tesedia di rumah sakit namun belum dimanfaatkan
secara optimal untuk menganalisis daerah endemi penyakit. Oleh karena itu,
dibutuhkan sebuah metode untuk mengolah data rawat inap. Berdasarkan latar
belakang di atas, analisis untuk mengetahui daerah endemi penyakit menggunakan
algoritma k-means merupakan metode yang diharapkan paling tepat untuk
mengetahui membantu pihak manajemen rumah sakit mengolah data.
3
1.3
Batasan Masalah
Penelitian ini mempunyai ruang lingkup pengambilan data di Rumah Sakit
Daerah Semarang dengan interfal waktu pengambilan data pada rekam medis pasien
rawat inap di triwulan pertama pada tahun 2014. Informasi penyakit yang di cari
adalah pengelompokan endemi penyakit yang diderita oleh masyarakat dengan
kelompok wilayah kecamatan sekota Semarang. Data yang diambil adalah data rawat
inap dengan atribut jenis kelamin, usia, alamat, dan jenis penyakit (menurut kode
ICD - 10). Data tersebut diolah dengan menggunakan algoritma k-means.
1.4
Tujuan Penelitian
Berdasarkan rumusan masalah tersebut di atas, tujuan penelitian ini adalah
untuk mengimplementasikan algoritma k-means pada data rawat inap di Rumah Sakit
Kota Semarang sehingga didapat sebuah informasi daerah endemi penyakit secara
lebih cepat dan akurat.
1.5
Manfaat Penelitian
Diharapkan dari pelaksanaan kerja praktek ini dapat membawa manfaat
diantaranya :
1.
Bagi pihak Rumah Sakit
Penelitian ini diharapkan dapat membantu pihak manajemen rumah sakit
dapat lebih cepat mengambil keputusan dan penanganan penyakit pada daerah
endemi dapat dilakukan dengan cepat dan tepat sasaran.
2.
Bagi pihak Penulis
Penelitian ini bermanfaat agar penulis dapat menyelesaikan tugas akhir kuliah
pendidikan sarjananya dan dapat menyumbangkan ilmu yang telah dipelajari di
universitas.
3.
Bagi pihak Universitas
Untuk menambah bahan bacaan pustaka kampus tentang pengklasteran data
mining di bidang kesehatan dan rumah sakit dengan metode k-means.
BAB II
Landasan Teori
2.1
Tinjauan Studi
Endemi adalah penyakit yang berjangkit disuatu daerah atau pada suatu
golongan masyarakat (Kamus Besar Bahasa Indonesia). Suatu penyakit dikatakan
endemik ketika penyakit tersebut menyebar pada suatu wilayah dalam kurun
waktu yang sangat lama [1].
Karakteristik suatu penyakit dikatakan penyakit endemi:
1. Infeksi tersebut berlangsung di dalam populasi tersebut tanpa adanya
pengaruh dari luar.
2. Orang yang terinfeksi penyakit tersebut menularkan kepada tepat satu orang
lain (secara rata-rata). Bila infeksi tersebut tidak lenyap dan jumlah orang yag
terinfeksi tidak bertambah secara eksponsial, suatu infeksi dikatakan berada
dalam keadaan tunak endemi.
3. Dalam bahasa percakapan, penyakit endemi sering diartikan sebagai suatu
penyakit yang ditemukan pada daerah tertentu.
Beberapa penelitian berikut merupakan acuan dalam penelitian ini yang
sudah
pernah
dibahas
sebelumnya
namun
berbeda
dalam
hal
pokok
permasalahannya, yakni teknik penerapan teknologi di dunia kesehatan untuk
penanganan penyebaran (endemi) penyakit.
2.1.1 Aplikasi Sistem Informasi Geografis untuk Penanganan Penyebaran
Penyakit Demam Berdarah [2]
Pada penelitian tersebut, dijelaskan bahwa kasus DBD (Demam
Berdarah Dengue) di kecamatan Tegalrejo Yogyakarta mengalami
peningkatan dari tahun ke tahun hingga pernah mengalami kondisi luar
biasa. Puskesmas di kecamatan ini dengan Dinas Kesehatan sangat
memerlukan pertimbangan yang tepat untuk mengambil tindakan dalam
mengatasi masalah penyakit pada daerah tersebut. Pengambilan tindakan
4
terhadap penanganan penyakit dilakukan dengan cara survey ke lokasi
penderita sehingga memerlukan waktu yang lama, sementara penanganan
penyakit harus segera dilakukkan agar penyebaran penyakit tidak meluas
dengan cepat. Oleh karena itu, diperlukan tools yang dapat membantu
memberikan informasi kepada pihak terkait mengenai penyebaran
penyakit di wilayah tertentu berdasarkan data atribut yang mendukung.
Sistem informasi geografis merupakan salah satu tools yang dapat
digunakan untuk membantu menganalisa kondisi suatu daerah terhadap
penyakit untuk menentukan tindakan yang harus dilakukan untuk
menangani penyakit. Sistem informasi geografis ini menyampaikan
informasi mengenai penyebaran penyakit di suatu wilayah.
4
5
terhadap penanganan penyakit dilakukan dengan cara survey ke lokasi
penderita sehingga memerlukan waktu yang lama, sementara penanganan
penyakit harus segera dilakukkan agar penyebaran penyakit tidak meluas
dengan cepat. Oleh karena itu, diperlukan tools yang dapat membantu
memberikan informasi kepada pihak terkait mengenai penyebaran
penyakit di wilayah tertentu berdasarkan data atribut yang mendukung.
Sistem informasi geografis merupakan salah satu tools yang dapat
digunakan untuk membantu menganalisa kondisi suatu daerah terhadap
penyakit untuk menentukan tindakan yang harus dilakukan untuk
menangani penyakit. Sistem informasi geografis ini menyampaikan
informasi mengenai penyebaran penyakit di suatu wilayah.
Data-data yang diperlukan untuk menganalisa kondisi daerah
terhadap penyakit adalah : data penderita penyakit, data daerah endemi
dan data geografis seperti : kecamatan, kelurahan dan sebagainya
berdasarkan data penderita per tahun.
Sistem informasi geografis yang memetakan penyebaran penyakit
merupakan
solusi
yang
tepat
untuk
membantu
menanggulangi
permasalahan tentang penyakit disuatu daerah. Selain itu, dengan
menggunakan data pemetaan dari sistem informasi geografis akan dapat
memberikan kemudahan dalam pengambilan keputusan penanganan
penyebaran penyakit.
2.1.2 Penerapan E-health untuk Penyakit Demam Berdarah Dengue (DBD)
pada daerah endemi [3]
Sama seperti penelitian sebelumnya yang membahas penyakit
DBD, namun di penelitian ini dibahas penerapan e-health pada daerah
endemi. Penelitian ini dapat juga dilihat sebagai tindak lanjut dari
penelitian sebelumnya. Setelah dilakukan pemetaan penyakit di penelitian
sebelumnya, lalu dilakukan penerapan e-health untuk penyakit DBD pada
daerah endemi.
Daerah endemi di penelitian ini adalah suatu keadaan dimana
penyakit secara menetap berada dalam masyarakat pada suatu tempat atau
6
populasi tertentu. Seperti beberapa kecamatan dan kabupaten di kota
Bandung, Sukabumi, Padang dan Bekasi.
Oleh karena itu, penerapan e-health untuk siklus penyakit DBD
sendiri ditujukan kepada daerah endemik DBD di Indonesia. Penspesifikan
tujuan dimaksudkan agar bagi “calon penderita” dapat mencegah penyakit
atau mempercepat proses penyembuhan serta menambah pengetahuan
masyarakat akan kejelasan penyakit itu sendiri.
Dari dua penelitian diatas, dapat disimpulkan bahwa teknologi di dunia
kesehatan sangat berperan penting dan bermanfaat untuk pengambilan keputusan
secara lebih cepat dan akurat. Sehingga tindakan yang diberikan dilakukan dengan
cepat dan tepat sasaran. Pada penelitian pertama, sistem informasi geografis diatas
sudah baik. Proses pengambilan keputusan tindakan apa yang dilakukan pada
daerah endemi DBD di kecamatan Tegalsari sudah dapat berjalan secara lebih
cepat. Tapi proses pengolahan datanya masih menggunakan metode survey
langsung ke penduduk. Untuk diterapkan di rumah sakit yang memiliki Sistem
Informasi Manajemen Rumah Sakit dan sudah memiliki database, penelitian ini
kurang pas karena malah memperlambat proses pengambilan keputusan.
Pada penelitian kedua, e-health adalah aplikasi yang bagus untuk
membantu masyarakat mempelajari gejala, cara mencegah penyakit, tindakan
yang harus dilakukan dan cara mempercepat proses penyembuhan penyakit. Tapi,
e-health membutuhkan dana yang cukup besar untuk diterapkan di suatu wilayah/
kota. Tanpa adanya pemetaan daerah endemi penyakit, e-health tidak akan tepat
sasaran dan dana yang dikeluarkan untuk aplikasi ini cukup besar.
Sehingga untuk mempercepat proses pengambilan keputusan di rumah
sakit yang memanfaatkan database rumah sakit dan agar tindakan/ penanganan
terhadap daerah endemi penyakit lebih terarah dan tepat sasaran, dibutuhkan
sebuah analisa daerah endemi penyakit yang memanfaatkan teknik data mining.
Teknik data mining di dunia kesehatan bukanlah hal yang baru. Potensi
data mining dalam dunia kesehatan sudah diakui secara luas dan menarik [4].
Banyak studi yang dilakukan menggunakan teknik data mining modern, seperti
klasifikasi dan prediksi data mining. Data mining memiliki potensi untuk
7
mempengaruhi kesehatan masyarakat dalam berbagai cara dari pribadi, obat
genetik, studi kesehatan lingkungan dan epidemiologi [5].
Tidak mengherankan, banyak analisis data mining yang dilakukan pada
kesehatan masyarakat terutama prediksi data mining dalam kedokteran klinis [6].
Teknik klasifikasi decision tree J48 dalam menganalisa pola kelompok penyakit
dengan memanfaatkan data rekam medis [7]. Dan K-Means Clustering adalah
salah satu algoritma supervised learning yang menerima masukan berupa data
tanpa label kelas. Algoritma K-Means mengelompokkan data yang menjadi
masukkannya ke dalam beberapa kelompok, tanpa mengetahui terlebih dahulu
target kelasnya. Pada setiap cluster, terdapat titik pusat (centroid) yang
merepresentasikan cluster tersebut.
2.2
Kerangka Pemikiran
Data Rekam Medis Rumah Sakit Kota Semarang dapat diolah kembali
menggunakan aplikasi data mining sehingga menghasilkan aturan clustering
pengelompokan penyakit dan daerah endemi.
Gambar 2.1. Kerangka Pemikiran
8
Keterangan :
1. Problem
Adalah masalah yang menjadi fokus penelitian yaitu ketiadaan aplikasi
data mining yang dapat mengolah data rekam medis pasien masuk rawat
inap di Rumah Sakit Kota Semarang
2. Opportunity
Adalah kesempatan yang dapat diperoleh dari masalah yang ada dalam
penelitian yaitu menemukan pola cluster yang dapat terbentuk dari data
rekam medis pada tri wulan pertama tahun 2014.
3. Approach
Adalah pendekatan yang digunakan untuk menyelesaikan masalah
penelitian yaitu pendekatan CRISP-DM dengan permodelan algoritma KMeans untuk menyelesaikan masalah penelitian data mining.
4. Software Development
Adalah
metode
penyusunan
software
yang
digunakan
untuk
menyelesaikan penelitian yaitu model Waterfall menggunakan bahasa
pemrograman Java dan library Weka untuk menyelesaikan tugas data
mining. Sedangkan IDE yang digunakan adalah NetbeansIDE.
5. Result
Adalah hasil dari penelitian yang menjawab poin PROBLEM yaitu
software data mining yang dapat dipergunakan untuk analisis data rekam
medis pasien rawat inap pada Rumah Sakit Kota Semarang.
9
2.3
Tinjauan Pustaka
2.3.1 Sistem Informasi Manajemen Rumah Sakit
Menurut Peraturan Menteri Kesehatan Republik Indonesia Nomor
82 Tahun 2013 pasal 1:2, Sistem Informasi Manajemen Rumah Sakit yang
selanjutnya disingkat SIMRS adalah suatu sistem teknologi informasi
komunikasi yang memproses dan mengintegrasikan seluruh alur proses
pelayanan rumah sakit dalam bentuk jaringan koordinasi, pelaporan dan
prosedur administrasi untuk memperoleh informasi secara tepat dan
akurat, dan merupakan bagian dari Sistem Informasi Kesehatan.
Sistem Informasi Kesehatan menurut Peraturan Menteri Kesehatan
Republik Indonesia Nomor 82 Tahun 2013 pasal 1:3, seperangkat tatanan
yang meliputi data, informasi, indikator, prosedur, teknologi, perangkat
dan sumber daya manusia yang saling berkaitan dan dikelola secara
terpadu untuk mengarahkan tindakan atau keputusan yang berguna dalam
mendukung pembangunan kesehatan.
Peraturan Menteri Kesehatan RI No. 82 Tahun 2013, mewajibkan
setiap rumah sakit untuk menyelenggarakan SIMRS [3:1]. Secara garis
besar, ada 5 (lima) komponen yang mendasari pelaksanaan Sistem
Informasi Manajemen Rumah Sakit (SIMRS) yaitu sumber daya manusia
(SDM), hardware, software, data dan jaringan (Local Area Network).
2.3.2 ICD-10
ICD
(International
Classification
Of
Disease),
standar
pengelompokan penyakit oleh WHO (World Health Organization). ICD
ini terus berkembang seiring dengan ditemukannya penyakit-penyakit baru
di dunia. Saat ini teknik pengkodean ICD sudah mencapai ICD-10. ICD10 adalah acuan seluruh penyelenggara layanan kesehatan (Rumah Sakit,
Balai Pengobatan, Puskesmas) untuk dijadikan pedoman dalam melakukan
arsip [8].
Tujuan dari ICD adalah untuk memungkinkan analisis rekaman
sistematis, interpretasi dan perbandingan mortalitas dan morbiditas data
yang dikumpulkan di berbagai negara atau daerah dalam waktu berbeda
10
[9]. ICD digunakan untuk menerjemahkan masalah kesehatan dan
diagnosa penyakit dari kata-kata menjadi kode alfanumberik, yang
memudahkan penyimpanan, pengambilan dan analisa data.
ICD dasar adalah daftar kode tunggal kategori tiga karakter,
masing-masing dapat dibagi lagi menjadi 10 sub-kategori empat karakter.
Gambar 2.2 Contoh kode ICD-10
2.3.3 Data Mining
Data mining adalah suatu istilah yang digunakan untuk
menguraikan penemuan pengetahuan di dalam database. Data mining
adalah proses yang menggunakan teknik statistik, matematika, kecerdasan
buatan dan machine learning untuk mengekstraksi dan mengidentifikasi
informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai
database besar [10].
Menurut Gartner Group data mining adalah suatu proses
menemukan hubungan yang berarti, pola, dan kecenderungan dengan
memeriksa dalam sekumpulan besar data yang tersimpan dalam
penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik
statistik dan matematika [11].
11
Data mining adalah sebuah proses pencarian pola atau informasi
menarik dalam suatu data terpilih dengan menggunakan teknik dan
algoritma tertentu sesuai kebutuhan dan tujuan. Data mining, sering juga
disebut sebagai knowledge discovery in database (KDD). KDD adalah
kegiatan yang meliputi pengumpulan, pemakaian data, historis untuk
menemukan keteraturan, pola atau hubungan dalam set data berukuran
besar [12].
2.3.3.1 Definisi Cross-Industry Standard Process for Data Mining
(CRISP-DM)
Cross-Industry Standard Process for Data Mining (CRISP-DM)
yang dikembangkan tahun 1996 oleh beberapa analis dari beberapa industri
(DaimlerChrysler, SPSS, dan NCR), menyediakan standar proses data
mining sebagai strategi pemecahan masalah secara umum dari bisnis atau
unit penelitian.
Dalam CRISP-DM, sebuah proyek data mining memiliki siklus
hidup yang terbagi menjadi enam fase. Seluruh fase saling berhubungan dan
bersifat adaptif. Fase berikutnya bergantung pada keluaran dari seluruh fase
sebelumnya. Enam fase CRISP-DM [11] :
1.
Fase Pemahaman Bisnis
2.
Fase Pemahaman Data
3.
Fase Pengolahan Data
4.
Fase Pemodelan
5.
Fase Evaluasi
6.
Fase Penyebaran
2.3.3.2 Teknik-Teknik Data Mining
Data mining juga dibagi menjadi beberapa kelompok berdasarkan
tugas yang dapat dilakukan, yaitu [11] :
a. Fungsi Deskripsi (Description)
Terkadang peneliti dan analis ingin mencoba mencari cara untuk
menggambarkan pola dan kecenderungan yang terdapat dalam data.
12
Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat
menemukan keterangan atau fakta bahwa siapa yang tidak cukup
professional akan sedikit didukung dalam pemilihan presiden.
b. Fungsi Klasifikasi (Classification)
Klasifikasi merupakan suatu pekerjaan menilai objek data untuk
memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia.
Dalam klasifikasi ada dua pekerjaan utama yang dilakukan, yaitu (1)
pembangunan model sebagai prototype untuk disimpan sebagai memori
dan (2) penggunaan model tersebut untuk melakukan pengenalan/
klasifikasi/ prediksi pada suatu objek data lain agar diketahui di kelas
mana objek data tersebut dalam model yang sudah disimpannya.
c. Fungsi Estimasi (Estimation)
Estimasi hampir sama dengan klasifikasi, kecuali variable target
estimasi lebih kearah numberic daripada kearah kategori. Model dibangun
menggunakan record lengkap yang menyediakan nilai dari variable target
sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi
nilai dari variable target dibuat berdasarkan nilai variable prediksi.
d. Fungsi Prediksi (Prediction)
Model prediksi berkaitan dengan pembuatan sebuah model yang
dapat melakukan pemetaan dari setiap himpunan variable ke setiap
targetnya, kemudian menggunakan model tersebut untuk memberikan nilai
target pada himpunan baru yang didapat. Prediksi hampir sama dengan
klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan
ada di masa mendatang. Sebagai contoh, prediksi nilai UN per siswa pada
mata pelajaran matematika, bahasa Indonesia dan bahasa inggris.
Beberapa metode dan teknik yang digunakan dalam klasifikasi dan
estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
13
e. Fungsi Asosiasi (Association)
Tugas asosiasi dalam data mining adalah menemukan atribut yang
muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja.
Contoh asosiasi dalam bisnis dan penelitian adalah : Meneliti
jumlah pelanggan dari perusahaan telekomunikasi seluler yang diharapkan
untuk memberikan respon positif terhadap penawaran upgrade layanan
yang diberikan.
f. Fungsi Pengelompokan (Cluster)
Pengklasteran merupakan pengelompokan record, pengamatan,
atau memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan. Cluster adalah kumpulan record yang memiliki kemiripan satu
dengan yang lainnya dan memiliki ketidakmiripan dengan record-record
dalam klaster lain.
Pengklasteran berbeda dengan klasifikasi yaitu tidak adanya
variable target dalam pengklasteran. Pengklasteran tidak mencoba untuk
melakukan klasifikasi, mengestimasi atau memprediksi nilai dari variable
target. Akan tetapi, algoritma pengklasteran mencoba untuk melakukan
pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang
memiliki kemiripan (homogen), yang mana kemiripan dengan record
dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan
dengan record dalam kelompok lain akan bernilai minimal.
Contoh pengklasteran dalam bisnis dan penelitian adalah :
mendapatkan kelompok-kelompok konsumen untuk target pemasaran dari
suatu produk bagi perusahaan yang tidak memiliki dana pemasaran yang
besar.
2.3.3.3 Konsep Pengelompokan (Cluster)
Konsep pengelompokan adalah data set yang akan diolah dalam
data mining belum diketahui kelas labelnya. Misalnya dalam kasus data
catatan akademik, diketahui nilai IPK yang didapat dan jumlah SKS yang
sudah ditempuh. Di awal sebelum proses penggunaan metode data mining,
14
belum diketahui label dari kelompok mahasiswa tersebut, seperti pada
gambar 2.3 (a). Pengelompokan data dilakukan dengan menggunakan
algoritma yang sudah ditentukan dan selanjutnya data akan diproses
dengan algoritma untuk dikelompokkan menurut karakteristik alaminya.
Tidak ada unsur pembimbingan (dengan pemberian label kelas),
melainkan
algoritma
akan
berjalan
dengan
sendirinya
untuk
mengelompokkan data tersebut. Data yang lebih dekat (mirip) dengan data
lain akan berkelompok dalam satu cluster, sedangkan data yang lebih jauh
(berbeda) dari data yang lain akan berpisah dalam kelompok yang
berbeda.
a. Data sebelum pengelompokan
b. Data setelah pengelompokan
Gambar 2.3. Pengelompokan prestasi mahasiswa
Pada Gambar 2.3 (b), dapat diamati ada 3 kelompok mahasiswa
yaitu kelompok mahasiswa dengan SKS sedikit dan IPK tinggi (simbol
x), kelompok mahasiswa dengan SKS tinggi dan IPK rendah (simbol •)
dan kelompok mahasiswa dengan SKS dan IPK rendah (simbol ᴼ) [13].
Untuk pengelompokan data berdasarkan kemiripan/ketidakmiripan
antardata tanpa ada label kelas yang diketahui sebelumnya disebut
pembelajaran tidak terbimbing atau unsupervised learning. Penanganan
data pembelajaran tidak terbimbing dapat menggunakan metode
clustering. Tujuan dari clustering adalah meminimalkan jarak di dalam
cluster dan memaksimalkan jarak antar cluster [14].
15
Teknik clustering banyak diterapkan dalam berbagai bidang,
seperti kedokteran, kesehatan, psikologi, hukum, statistic, astronomi,
klimatologi dan sebagainya. Dalam bidang kedokteran, teknik clustering
dapat digunakan untuk mengelompokkan jenis-jenis penyakit berbahaya
berdasarkan sifat-sifat penyakit pasien. Dalam bidang kesehatan dapat
digunakan untuk mengelompokkan jenis makanan berdasarkan kandungan
vitamin, kalori, dan protein.
Clustering dapat dibedakan menjadi dua tujuan (Tan et al, 2006),
yaitu clustering untuk pemahaman dan clustering untuk penggunaan.
Contoh-contoh tujuan clustering untuk pemahaman sebagai berikut
[13] :
a.
Biologi
b.
Pencarian Informasi
c.
Klimatologi
d.
Bisnis
Contoh-contoh tujuan clustering untuk penggunaan sebagai beikut
[13] :
a. Summarization
b. Kompresi
c. Pencarian tetangga terdekat secara efisien
Banyak metode clustering yang telah dikembangkan oleh para ahli.
Menurut struktur, clustering dapat dibedakan menjadi hierarki dan
partisi. Dalam pengelompokan berbasis hierarki (hierarchical clustering),
satu data tunggal bisa dianggap sebuah cluster, dua atau lebih cluster kecil
dapat bergabung menjadi sebuah cluster besar, begitu seterusnya hingga
semua data dapat bergabung menjadi sebuah cluster. Pengelompokan
berbasis partisi, membagi dataset ke dalam sejumlah cluster yang tidak
bertumpang-tindih, antara satu cluster dengan cluster yang lain. Metode
seperti K-Means, DBSCAN, Self-Organizing Map (SOM) merupakan
metode yang masuk dalam kategori ini [13].
16
Menurut keanggotaan data dalam cluster, clustering dapat dibagi
menjadi dua yaitu eksklusif dan tumpang-tindih. Dalam kategori eksklusif,
sebuah data bisa dipastikan hanya menjadi anggota satu cluster dan tidak
menjadi anggota di cluster yang lain. Metode clustering yang masuk
kategori ini adalah K-Means, DBSCAN, dan SOM. Sementara yang
termasuk kategori tumpang-tindih adalah metode clustering yang
membolehkan sebuah data menjadi anggota di lebih dari satu cluster,
misalnya Fuzzy C-Means dan pengelompokan berbasis hierarki [13].
2.3.3.4 K-Means Algorithm
Algoritma
K-Means
merupakan
algoritma
pengelompokan
iterative yang melakukan pengelompokan dataset ke dalam sejumlah K
cluster yang sudah ditetapkan di awal. Algoritma K-Means sederhana
untuk
diimplementasikan
dan
dijalankan,
relative
cepat,
mudah
beradaptasi, umum penggunaannya dalam praktek (Wu dan Kumar, 2009).
Secara historis, bentuk esensial K-Means ditemukan oleh sejumlah
peneliti dari lintas disiplin ilmu. Yang paling berpengaruh adalah Lloyd
(1982), Forgey (1965), Friedman dan Rudin (1967), dan McQueen (1967).
Algoritma K-Means berkembang menjadi algoritma hill-climbing [13].
K-Means dapat diterapkan pada data yang dipresentasikan dalam rdimensi ruang tempat. K-Means mengelompokan dataset r-dimensi,
X={xi|i=1, …, N}, dimana xi є Rd. Menggunakan pendekatan partitional
clustering. Tiap cluster dihubungkan dengan sebuah centroid (titik pusat).
Tiap titik ditempatkan ke dalam cluster dengan centroid terdekat. Jumlah
cluster, K, harus ditentukan [14].
Kekurangan K-Means Clustering [14] :
a.
K-Means bermasalah ketika ada cluster berbeda.
b.
K-Means bermasalah ketika data mengandung outliers.
Karakteristik K-Means [14] :
a.
K-Means merupakan metode pengelompokan yang sederhana dan
dapat digunakan dengan mudah.
17
b.
Pada jenis dataset tertentu, K-means tidak dapat melakukan
segmenatasi data dengan baik dimana hasil segmentasinya tidak
dapat memberikan pola kelompok yang mewakili karakteristik
bentuk alami data.
c.
K-Means bisa mengalami masalah ketika mengelompokkan data
yang mengandung outlier.
2.3.4 Java
Java adalah suatu teknologi di dunia software komputer, yang
merupakan suatu bahasa pemrograman sekaligus suatu platform. Sebagai
bahasa pemrograman, Java dikenal sebagai bahasa pemrograman tingkat
tinggi yang berorientasi objek. Java dirancang agar dapat dijalankan di
semua platform.
Java diciptakan oleh suatu tim yang dipimpin oleh Patrick
Naughton dan James Gosling dalam suatu proyek dari Sun Microsystem
yang memiliki kode Green dengan tujuan untuk menghasilkan bahasa
komputer sederhana yang dapat dijalankan di peralatan sederhana dengan
tidak terikat pada arsitektur tertentu.
Program yang ditulis menggunakan Java berjalan pada suatu
Virtual Machine dengan nama Java Runtime Environment (JRE). Berikut
adalah tahapan pengembangan dan eksekusi program Java.
18
Gambar 2.4. Alur Pembuatan dan eksekusi program Java
Pada Java, terdapat lima fase pada pembuatan dan eksekusi
program. Fase pertama yaitu editing kode sumber (source code) Java
menjadi file *.java pada penyimpanan sekunder (HDD). Fase kedua yaitu
kompilasi source code *.java menjadi file dengan ekstensi *.class. Setelah
terbentuk file dengan ekstensi *.class, dilakukan class loading pada fase
ketiga kedalam memori primer (RAM) untuk dilakukan cek error sebelum
dieksekusi. Setelah file *.class diload pada RAM, dilakukan bytecode
verification pada fase empat. Setelah bytecode diverifikasi kemudian
dieksekusi pada Java Virtual Machine (JVM) agar dapat digunakan oleh
user [15].
2.3.5 Netbeans Integrated Development Environment (IDE)
Netbeans adalah sebuah Integrated Development Environment
(IDE) untuk pengembangan terutama dengan java, tetapi netbeans juga
support bahasa pemrograman lain seperti di php tertentu, C/C++, dan html
5. Netbeans juga merupakan aplikasi platform framework untuk aplikasi
desktop Java dan lainnya [16]. Beberapa karakteristik dari Netbeans IDE :
a. User Interface Framework
19
b. Data Editor
c. Customization Display
d. Wizard Framework
e. Data Systems
f. Internationalization
g. Help System
Fitur yang ditawarkan oleh Netbeans dapat dikostumisasi oleh
pemrogram dengan mudah dan cepat dalam membangun software.
Gambar 2.5. Tampilan Awal Netbeans IDE
2.3.6 Levenshtein Distance Algorithm
Levenshtein distance dibuat oleh Vladimir Levenshtein pada tahun
1965. Hasil perhitungan edit jarak didapatkan dari matrik yang digunakan
untuk menghitung jumlah perbedaan string antar dua string (string A dan
string B) [17].
20
Gaambar 2.6 Algoritma
A
L
Levenshtein
Distance
Algoriitma ini dim
mulai dari poojok kiri ataas sebuah arrray dua dim
mensi
yanng telah diisi
d
sejumlah karakterr string aw
wal dan strring target yang
nanntinya diberri nilai costt. Nilai cost pada ujung
g kanan baw
wah menjadii nilai
edit distance yang
y
mengggambarkan jumlah
j
perbbedaan dua string[17].
BAB III
METO
ODE PENE LITIAN
3.1
3
Impllementasi Cross-Indust
C
try Standardd Process fo
for Data Min
ning (CRIS
SPDM))
Padaa penelitian ini, digunak
kan siklus C
CRISP-DM (Cross-Induustry Standaard
Process
P
for Data
D
Mining
g) dengan en
nam fase, yaaitu :
Gambar 3.1 Enam Fasee CRISP-DM
M
3.1.1.
3
Fasee Pemahama
an Bisnis
Fase ini adalah fase pertama dalam CRISP-DM yanng merupakkan
patok
kan/ tujuan dilakukanny
d
ya suatu peneelitian.
21
22
Penelitian ini dilakukan dengan tujuan untuk mengimplementasikan
algoritma k-means pada data rawat inap di Rumah Sakit Kota Semarang,
sehingga didapat informasi daerah endemi penyakit secara lebih cepat dan
akurat.
Pada rapat manajerial, data rekam medis biasa dibacakan dan dianalisa
untuk memetakan daerah endemi penyakit. Hal ini masih dilakukan secara
manual oleh petugas rekam medis di Rumah Sakit Kota Semarang, sehingga
memakan waktu yang lama dan keakuratannya belum bisa dipertanggungjawabkan.
Dengan menggunakan teknik data mining, proses analisa akan lebih
cepat, mudah dan tingkat keakuratannya terukur. Pada kasus ini, peneliti
menggunakan salah satu algoritma clustering data mining yaitu K-Means.
K-Means adalah salah satu algoritma clustering data mining yang
sifatnya konsisten terhadap data. Dalam pengaplikasian, k-means juga lebih
cepat dan mudah. Walaupun dibeberapa kasus, k-means tidak tepat
diaplikasikan. Namun dikasus analisis data rawat inap ini k-means dianggap
paling cocok.
3.1.2. Fase Pemahaman Data
Fase pemahaman data adalah menentukan data apa yang akan diambil
dan diolah untuk mencapai tujuan yang telah ditentukan.
Data yang menjadi training pada metode clustering dengan algoritma
k-means ini adalah data pasien rawat inap triwulan pertama ditahun 2014
Rumah Sakit Kota Semarang. Dari survey yang dilakukan peneliti, didapatkan
data bulan Januari sebanyak 4009 data, bulan Februari 4533 data, dan di bulan
Maret 5255 data, sehingga total data mentah yang didapat peneliti untuk
training ini sebanyak 13797 data.
23
Gambar
G
3.2 D
Data mentah
3.1.3. Fasee Pengolaha
an Data
Pada fasee ini, data mentah
m
yangg telah didap
apat tidak seemuanya dappat
digun
nakan kareena masih ada data yang menngandung m
missing vallue
(keteerangan tidaak lengkap). Oleh karenna itu, haruss dilakukan preprocessiing
yaitu
u cleaning daata dan selecction data.
Gambar 3..3 Sistematikka Penelitiann
24
Cleaning
g data (pemb
bersihan dataa) dan selecttion data meerupakan tahhap
awall dari preprrocessing daata mining. Pembersihhan ini dilakkukan denggan
mem
mbuang dataa yang mem
mpunyai infformasi tidaak lengkap, seperti tiddak
masu
uknya inform
masi wilayah
h, umur, jennis kelamin, atau kode ppenyakit. Dari
1379
97 data pasien rawat in
nap triwulan awal tahunn 2014. Seteelah dilakukkan
selecction, dihapu
us 10 atribut yang tidak ddigunakan (nno, no cm, ttanggal masuuk,
tangg
gal keluar, laama dirawatt, dirawat kee, penyakit laain, operasi, status pulanng,
kond
disi pulang)) sehingga menyisakann 4 atribuut (umur, jenis kelam
min,
diagn
nosa, daerah
h).
Gam
mbar 3.4 Daata setelah diilakukan seleection
25
Dan setelah dilakukaan proses clleaning didaapat 6807 daata, 6990 daata
dihilangkan kareena atribut wilayah/
w
daaerahnya tidaak ada valuue (nilai), attau
bukaan merupakaan wilayah keecamatan di kota Semarrang.
Gam
mbar 3.5 Daata setelah diilakukan cleaning
3.1.4.
3
Fasee Pemodelan
n
Pada fasee ini, memillih dan menngaplikasikaan teknik peemodelan yaang
sesuaai dengan kaalibrasi aturaan model unttuk mengopttimalkan hassil.
Perlu dip
perhatikan bahwa
b
beberrapa teknik mungkin diigunakan paada
perm
masalahan daata mining yang
y
sama. JJika diperluukan proses dapat kembbali
26
ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai
dengan spesifikasi kebutuhan teknik data mining tertentu.
Pada permasalahan ini, teknik clustering data mining menggunakan
algoritma k-means dianggap paling cocok untuk diterapkan di kasus ini.
3.1.5. Fase Evaluasi
Fase evaluasi adalah fase dimana model yang telah ditentukan akan
diterapkan dengan data yang diperoleh, untuk menentukan kualitas dan
efektifitas sebelum disebarkan untuk digunakan.
Fase ini bertujuan untuk mendapatkan hasil apakah model yang telah
ditetapkan memenuhi tujuan pada fase awal, apakah terdapat permasalahan
penting dari bisnis atau penelitian yang tidak tertangani dengan baik, serta
mengambil keputusan berkaitan dengan penggunaan hasil dari data mining.
3.1.6. Fase Implementasi
Fase implementasi adalah fase akhir dari enam fase CRISP-DM.
Dengan terbentuknya model tidak menandakan telah terselesaikannya proyek.
Contoh sederhana implementasi adalah pembuatan laporan. Contoh kompleks
dari implementasi adalah penerapan proses data mining secara paralel pada
departemen lain.
Gambar 3.6. Diagram Perancangan Analisa K-Means Clustering
27
Gam
mbar 3.6 meenunjukkan tahapan-tahhapan dalam
m proses annalisa k-meaans
clustering.
c
Dapat
D
dilihatt proses anallisa dimulai dari menenttukan softwaare editor yaang
akan
a
digunaakan untuk membuktika
m
an teori anallisa. Lalu m
menggambarkkan flowchaard
sistem, dilan
njutkan prosses selection
n dan cleanning data yaang akan diggunakan. Laalu
dilanjutkan
d
ke tahap peengujian pem
modelan hinngga diperolleh hasil daari perhitunggan
yang
y
akan dievaluasi.
d
3.2
3
Kebu
utuhan Perangkat Lun
nak
Peran
ngkat lunak yang dibutu
uhkan sebaggai editor unttuk menerappkan algoritm
ma
K-Means
K
ad
dalah :
Tabel 3.1 Spesifik
kasi softwaree di komputeer yang digunnakan sebaggai editor
Sepeerti pada tab
ble 3.1 bahw
wa instalasi ppertama dilaakukan di koomputer, yaaitu
sistem operaasi windows 8.1 pro, Neetbeans 6.9.11, dan library
ry dari weka sebagai edittor
programnya
p
a. Netbeans 6.9.1 yang memiliki fiitur untuk m
membangun suatu aplikaasi
dengan
d
men
nggunakan bahasa
b
Javaa. Dan libraary weka yaang memperrmudah dalaam
penerapan
p
algoritma K-M
Means ke daalam Java.
Lang
gkah selanju
utnya adalah
h instalasi X
XAMPP Appache sebagai tools banntu
untuk
u
pemro
osesan dan penyimpanan
p
n data. Dataa yang akan digunakan ppada penelitiian
ini
i adalah : tabel
t
rekam medis, tabel kecamatann se-kota sem
marang, dan tabel penyaakit
endemi.
e
28
Tabel 3.2 Tabel Rekam Medis berisi kode ICD-10
Tabel 3.3 Daftar kecamatan se-kota semarang
29
Tabel 3.4 Daftar penyyakit endemii
Setellah mengetaahui apa saja yang akann dikerjakann, maka prooses pengujiian
siap dimulaii.
3.3
3
Flow
wchard Sisteem
Ini adalah tah
hap mendessain sistem dengan m
menggunakaan flowcharrd.
Rancangan
R
pada flowch
hard yang dibuat
d
nantiinya digunakkan sebagaii acuan dalaam
perancangan
p
n sistem pem
mbantu disinii.
30
Gambar 3.7. Flowchard penerapan K-Means pada kasus analisa daerah endemi
penyakit
Dimulai dari pengambilan data excel / data set, lalu diteruskan ke proses
selanjutnya. Pengecekan apakah ada attribute daerah, usia, kode penyakit dan jenis
kelamin, kalau ada lanjut ke proses selanjutnya yaitu proses selection. Kalau tidak
ada, kembali ke proses awal, pembacaan data excel. Setelah selesai proses selection,
lanjut ke proses selanjutnya. Proses selanjutnya adalah pengecekan apakah ada atribut
kosong atau tidak memenuhi syarat, kalau tidak ada maka lanjut ke proses pemodelan
31
algoritma k-means. Kalau ada, harus melalui proses cleaning dahulu, untuk
menghapus data-data yang tidak digunakan. Setelah proses cleaning selesai lanjut ke
proses selanjutnya yaitu pemodelan algoritma k-means.
Di tahap pemodelan ini, data akan diolah sehingga dapat menghasilkan
beberapa cluster yang mewakili daerah endemi. Cluster-cluster ini yang nantinya
akan diukur jaraknya dan dievaluasi apakah sudah cocok penerapan algoritma kmeans untuk data ini, jika belum maka proses akan diulang dari awal (pembacaan
data excel). Jika sudah, maka semua proses sudah selesai dan algoritma k-means
cocok diterapkan untuk analisis data rekam medis ini.
3.4
Tahap-Tahap Pengujian
Pada tahap pengujian ada beberapa hal yang harus dilakukan yaitu : pengujian
teknik cluster K-Means, analisa hasil, dan setelah diperoleh hasil kemudian evaluasi
kualitas software dari hasil yang telah didapatkan.
3.4.1. Pengujian Teknik Cluster K-Means
K-Means Clustering Algorithm adalah sebuah algoritma sederhana dan
efektif untuk menemukan kelompok data [18]. Proses dari algoritma ini
adalah:
a.
Langkah 1 : Menentukan berapa banyak kelompok / cluster k dari
dataset yang akan bentuk.
b.
Langkah 2 : Mengacak tanda k dari record untuk dijadikan letak awal
dari pusat cluster.
c.
Langkah 3 : Untuk setiap record, temukan pusat cluster terdekat.
Dengan demikian, dapat diartikan, masing-masing pusat cluster
“pemilik” subset dari record, sehingga mewakili setiap bagian dari
dataset. Oleh karena itu, terbentuklah k cluster C1, C2, …, Ck.
d.
Langkah 4 : Untuk setiap k cluster, temukan cluster centroid, dan
perbaharui letak setiap cluster pusat untuk nilai centroid yang baru.
32
e.
Langkah 5 : Ulangi langkah 3 sampai 5 hingga konvergensi atau
pemberhentian.
Untuk set data dalam X dikelompokkan berdasarkan konsep kedekatan
atau kemiripan. Meskipun konsep yang dimkasud untuk data-data yang
berkumpul dalam satu cluster adalah data-data yang mirip, tetapi kuantitas
yang digunakan untuk mengukurnya adalah ketidakmiripan (dissimilarity).
Artinya, data-data dengan ketidakmiripan/jarak yang kecil/ dekat maka lebih
besar kemungkinannya untuk bergabung dalam satu cluster. Metrik yang
umum digunakan untuk ketidakmiripannya adalah Euclidean [13].
Kriteria terdekat pada langkah 3 biasanya jarak Euclidean, meskipun
kriteria lain dapat diterapkan juga. Cluster centroid pada langkah 4 dapat
ditentukan dengan cara seperti berikut. Misal ada n titik data (a1,b1,c1),
(a2,b2,c2), …, (an,bn,cn), centroid dari titik-titik tersebut adalah pusat gravitasi
dari titik-titik ini dan letaknya (Σai/n, Σbi/n, Σci/n) [14]. Sebagai contoh titik
(1,1,1), (1,2,1), (1,3,1) dan (2,1,1) akan memiliki centroid :
1+1+1+2 1+2+3+1 1+1+1+1
= (1.25, 1.75, 1.00)
,
,
4
4
4
Algoritma ini berakhir, ketika centroid tidak lagi berubah. Dengan
kata lain, algoritma berakhir ketika semua cluster C1, C2, …, Ck, semua record
yang dimiliki oleh masing-masing pusat cluster tetap dalam cluster itu. Atau
algoritma berhenti ketika beberapa kriteria konvergensi terpenuhi [15].
3.4.2. Analisa Hasil
Dari
hasil
pengujian,
maka
diperoleh
informasi
yang
bisa
dibandingkan diukur akurasinya dengan menggunakan levenshtein distance
algorithm. Dengan mengukur prosentase kemiripan hasil klusterr dengan tipe
penyakit
endemi
= 1−(
[
berdasarkan
][
(
,
]
)
) ∗ 100%.
rumus
Maka akan terlihat apakah
33
teknik clustering ini sudah sesuai yang diharapkan untuk diterapkan di kasus
ini.
3.4.3. Evaluasi Kualitas Software
Tahap penilaian secara objektif yang dilakukan dengan penyerahan
program dan pengisian kuisioner seputar performa program analisis data
mining pada kelompok awam yang dipilih secara acak dan tidak mengetahui
tentang data mining. Untuk poin-poin yang akan diuji pada tahap evaluasi
kualitas software adalah :
a.
Portabilitas, pengujian kualitas apakah software cukup portable dalam
hal instalasi.
b.
Kemudahan, pengujian kualitas apakah software cukup mudah untuk
dioperasikan untuk pengguna awam.
c.
Desain, pengujian kualitas apakah desain user interface mudah untuk
dipahami atau tidak.
d.
Kegunaan, pengujian kualitas seberapa besar manfaat yang nantinya
dapat diperoleh dengan adanya modul data mining.
BAB IV
RANCANAGAN SISTEM DAN PEMBAHASAN
4.1
Perancangan Sistem
Ada tiga poin utama yang akan dibahas pada tahap perancangan : Komunikasi
dengan pengguna, Desain antarmuka (Interface), Database daerah endemi penyakit.
4.1.1
Komunikasi dengan pengguna (User Communication)
Komunikasi antara user, program dan respon yang diberikan sistem
yang meliputi : analisis kebutuhan user, usecase diagram, dan diagram
aktifitas.
4.1.1.1 Analisa Kebutuhan User
Analisa kebutuhan bertujuan untuk mendefinisikan kebutuhan yang
diperlukan dalam pengembangan perangkat lunak.
Suatu sistem yang akan dibangun harus memenuhi kebutuhan
fungsional agar program berjalan optimal dan kebutuhan non-fungsional
untuk mendukung fungsi utama dalam program agar berjalan dengan baik
sesuai keinginan.
a.
Kebutuhan Fungsional

Aplikasi analisa daerah endemi penyakit harus menyediakan
fungsi untuk meng-import dataset sebagai input prosesnya.

Aplikasi harus menyediakan fungsi untuk proses mining
sebagai proses utama dalam sistem yang akan dibangun ini.

Aplikasi harus menyediakan fungsi untuk menyimpan hasil
mining sebagai laporan yang dapat dipertanggung jawabkan.
34
35
b.
Kebutuhan Non-Fungsional

Aplikasi menyediakan informasi pendukung yang berhubungan
dengan proses mining yang dilakukan, misalnya waktu
pemrosesan, jarak antar cluster, dsb.
4.1.1.2 Use Case Diagram
Use case diagram yang akan disusun pada software ini memerlukan
aktor sebagai pelaku yang menjalankan case-case yang ada.
1.
Identifikasi Aktor / pelaku bisnis
Aktor adalah pelaku bisnis atau subjek yang menjalankan case pada
software. Aktor yang terlibat langsung dalam sistem analisa data
rekam medis rumah sakit kota semarang (rekam medis).
2.
Diagram Model Use Case
Berikut adalah use case diagram untuk software analisis data mining
pada rumah sakit kota semarang :
Gambar 4.1 Diagram Use-Case pada perancangan sistem
36
Gambar 4.1 menggambarkan aktor dapat melakukan import dataset
yang akan digunakan sebagai inputan proses mining, dataset yang telah di
import di lakukan proses cleaning. Pada proses cleaning ini, dataset yang
memiliki attribute value kosong/tidak sesuai akan dihapus. Jika sudah melalui
proses cleaning, maka proses mining akan dapat dijalankan. Hasil dari proses
mining ini, dapat disimpan sebagai file report. Selain dapat di simpan, hasil
mining akan ditampilkan oleh sistem.
4.1.1.3 Activity Diagram
Gambar 4.2 Activity Diagram proses mining dan pencarian daerah
endemi penyakit
37
Gambar 4.2 menjelaskan bagaimana urutan proses mining setelah user
melakukan proses mining. Ketika user menjalankan program, user akan
masuk pada halaman home. User dapat memilih apakah masuk halaman
utama atau keluar dari program. Aktifitas akan berhenti jika user memilih
keluar dari program. Jika user memilih masuk, user akan masuk ke halaman
utama program.
Untuk melakukan proses mining user harus meng-import dataset
sebagai inputan pada proses mining. User dapat membatalkan import dataset
dan kembali pada halaman utama. Setelah dataset di-import oleh user dan
berhasil, proses selanjutnya adalah proses cleaning. Pada proses cleaning ini,
atribut yang nilainya kosong atau tidak sesuai dengan yang telah ditentukan
akan dihilangkan dari dataset. Sehingga hanya dataset yang memenuhi syarat
yang diolah pada proses mining. Setelah proses mining berhasil, program akan
menampilkan hasil mining berupa statistik mining yang dapat disimpan pada
bentuk file teks.
4.1.2
Desain Antarmuka
Dalam pembuatan sebuah aplikasi, desain antarmuka sangat penting
perannya. Karena desain antarmuka yang baik akan membantu user/
pengguna dalam pngoperasian sistem/aplikasi. Desain yang kurang baik akan
membuat
pengguna
sistem
kebingungan
dan
mengurangi
fungsi
sistem/aplikasi tersebut. Tujuan dibuatnya aplikasi adalah untuk membantu
manusia dalam mengerjakan pekerjaan.
Dalam aplikasi analisis data rawat inap rumah sakit kota Semarang ini,
akan ada 2 tampilan antarmuka yaitu tampilan awal dan menu utama.
38
4.1.2
2.1 Desain Tampilan
T
Aw
wal
Gambarr 4.3. Desain
n Tampilan A
Awal pada raancangan proogram
Gambar 4.3 menunjukkan desaiin halaman home padaa saat prograam
dijalankan.
Keteerangan :
Head
der
: nama
n
softwaare/aplikasi m
mining.
Imag
ge
: logo
l
Universitas Dian N
Nuswantoro.
Butto
on Masuk : tombol
t
masu
uk yang berffungsi masukk ke halamaan utama.
Butto
on Keluar : tombol
t
keluaar yang berfu
fungsi untuk membatalkaan masuk
sistem.
s
39
4.1.2
2.2 Desain Menu
M
Utama
a
Gambaar 4.4. Desaiin Menu Utaama pada ranncangan proggram
Gambar 4.4 menunju
ukkan desaiin menu utaama program
m analisis daata
minin
ng clustering
g untuk daerrah endemi ppada rumah sakit kota Seemarang. Paada
menu
u utama, seemua fungsi mining dillakukan disiini. Mulai im
mport datasset,
prosees mining, reefresh, dan keluar
k
aplikaasi.
4.1.3
4
Data
abase Daera
ah Endemi Penyakit
P
Dalam
pembangun
nan
aplikaasi
dibutuuhkan
database
unttuk
peny
yimpanan data-data,
d
yang
y
nantinnya akan ddigunakan dalam prosses
peng
golahan dalam
m aplikasi teersebut sepeerti data userr (untuk prosses login), daata
pemb
belian, data penjualan ,d
dll. Dalam applikasi ini adda 2 tabel, yyaitu table daata
kelurrahan dan taable data kod
de penyakit.
40
4.1.3.1 Class Diagram
Gambar 4.5. Class Diagram Aplikasi Clustering untuk Analisa Daerah Endemi
Penyakit pada Rumah Sakit Kota Semarang
Gambar 4.5 menjelaskan tentang struktur database yang digunakan
untuk menyimpan data analisa daerah endemi penyakit pada rumah sakit kota
Semarang. Class Diagram tersebut berisi 3 tabel yang digunakan untuk
membantu jalannya program aplikasi analisa ini. Tabel kecamatan (tbl_kec)
digunakan untuk menyeleksi daerah pada aplikasi analisa daerah endemi
penyakit pada rumah sakit kota Semarang. Database yang terbentuk
mempunyai nama “db_clustering” dan mempunyai nama tabel yaitu
“tbl_kecamatan” serta mempunyai tiga fields atau kolom yaitu :
1. id; int PRIMARY KEY
Kolom
id
memiliki
tipe
int
dengan
PRIMARY
KEY
dan
AUTO_INCREMENT sebagai kunci yang mencegah adanya duplikat
41
pada kode buku.
2. kd_kec; varchar
Kolom kd_kec memiliki tipe text yang berfungsi untuk menyimpan kode
kecamatan sekota Semarang.
3. nama_kec; varchar
Kolom nama_kec memiliki tipe text yang berfungsi untuk menyimpan
nama
kecamatan
sesuai
kode
kecamatan
berdasarkan
database
db_clustering.
Tabel penyakit ICD-10 (tbl_penyakit_icd-10) menjelaskan tentang
struktur database yang digunakan untuk menyimpan data kode penyakit
berdasar kode ICD-10 dari WHO. Data tersebut digunakan untuk menyeleksi
penyakit pada aplikasi analisa daerah endemi penyakit pada rumah sakit kota
Semarang. Database yang terbentuk mempunyai nama “db_clustering” dan
mempunyai nama tabel yaitu “tbl_data_icd” serta mempunyai empat belas
fields atau kolom yaitu :
1. col1; int
Kolom col1 memiliki tipe int sebagai kode buku.
2. col2; varchar
3. col3; varchar
4. col4; int
5. col5; varchar
Kolom col5 memiliki tipe varchar sebagai kode kepala pengelompokan
kode ICD-10
6. col6; varchar
Kolom col6 memiliki tipe varchar sebagai kode ICD-10 lengkap tiga digit
angka disertai dengan tanda titik (.) setelah dua digit angka, sebagai ciri
kode ICD-10.
7. col7; varchar
Kolom col7 memiliki tipe varchar sebagai kode ICD-10 beberapa terdiri
42
dari tiga digit angka disertai dengan tanda titik (.) setelah dua digit angka,
sebagai ciri kode ICD-10.
8. col8; varchar
Kolom col8 memiliki tipe varchar sebagai kode ICD-10 beberapa terdiri
dari tiga digit angka tanpa disertai dengan tanda titik (.) setelah dua digit
angka.
9. col9; varchar
Kolom col9 memiliki tipe varchar sebagai keterangan nama penyakit
sesuai kode ICD-10.
10. col10; varchar
11. col11; varchar
12. col12; varchar
13. col13; varchar
14. col14; varchar
Tabel penyakit endemi (tbl_penyakit_endemi) menjelaskan tentang
struktur database yang digunakan untuk menyimpan data kode penyakit
endemi. Data tersebut digunakan untuk menyeleksi penyakit pada aplikasi
analisa daerah endemi penyakit pada rumah sakit kota Semarang. Database
yang terbentuk mempunyai nama “db_clustering” dan mempunyai nama tabel
yaitu “tbl_penyakit_endemi” serta mempunyai lima fields atau kolom yaitu :
1. kd_endemi; int
Kolom kd_endemi memiliki tipe int sebagai kode penyakit endemi dan
bersifat AUTO INCREMENT.
2. kd_kepala; varchar
Kolom kd_kepala memiliki tipe varchar untuk membedakan penyakit
endemi dengan meggunakan 3 susunan angka dan huruf awal (kepala) dari
kode ICD-10.
3. kd_icd; varchar
Kolom kd_icd memiliki tipe varchar untuk membedakan penyakit endemi
43
dengan meggunakan 4 susunan angka dan huruf dari kode ICD-10 dengan
penghubung titik(.) setelah sebelum angka terakhir.
4. nm_inggris; varchar
Kolom nm_inggris memiliki tipe varchar untuk penamaan penyakit
endemi sesuai kode ICD-10.
5. nm_indo; varchar
Kolom nm_indo memiliki tipe varchar untuk penamaan penyakit endemi
sesuai dengan bahasa yang lazim digunakan di masyarakat Indonesia.
4.2
Pembahasan
K-Means adalah algoritma clustering yang dipilih untuk pengelolaan data
sehingga informasi yang dibutuhkan dapat terpenuhi. Pada tahap clustering dengan
menggunakan K-Means ini dimulai dengan pembentukan cluster, pembagian cluster
ini dipilih secara random, penulis membentuk 5 cluster dari 20 data yang diambil dari
dataset sebagai contoh.
Proses penghitungan centroid awal dimulai dengan pemberian nama awal
cluster (dari cluster pertama sampai dengan cluster kelima) secara random pada data
hasil cleaning (data M1-M20).
Tabel 4.1 Pemberian nama cluster pada masing-masing data
44
Setelah pemberian nama cluster untuk masing-masing data, maka selanjutnya
akan dilakukan penghitungan untuk mendapatkan nilai centroid awal dengan
menghitung mean (rata-rata) pada masing-masing cluster dengan membagi jumlah
data yang didapatkan untuk setiap cluster-nya. Penghitungan centroid awal dengan
menggunakan mean (rata-rata) ini ditujukan agar setiap cluster memiliki anggota data
pada iterasi pertama. Adapun penghitungan nilai centroid awal adalah sebagai
berikut:

Untuk nilai centroid awal pada cluster pertama :

+
4
+
=
+
+
4
+
=
+
+
4
+
Untuk nilai centroid awal pada cluster keempat :

+
Untuk nilai centroid awal pada cluster ketiga :

=
Untuk nilai centroid awal pada cluster kedua :

=
+
+
4
+
+
4
+
Untuk nilai centroid awal pada cluster kelima :
=
+
Adapun hasil dari centroid awal dari masing-masing cluster adalah sebagai
berikut :
1. Cluster pertama (C0)
= [0.25; 0.75; 0; 0; …; 0]
2. Cluster kedua (C1)
= [0; 0.5; 0.5; 0; …; 0]
3. Cluster ketiga (C2)
= [0.25; 0.75; 0; 0; …; 0]
4. Cluster keempat (C3)
= [0.5; 0.25; 0.25; 0; …; 0]
5. Cluster kelima (C4)
= [0.5; 0.25; 0.25; 0; …; 0]
45
Langkah selanjutnya adalah melakukan penghitungan untuk menentukan jarak
setiap data dengan centroid awal yang telah dibentuk dengan menggunakan rumus
euclidiance distance. Hasil dari perhitungan jarak dengan rumus euclidiance distance
ini akan berpengaruh pada penempatan setiap data ke cluster tertentu.
Berikut ini disajikan perhitungan data pertama terhadap nilai centroid masingmasing cluster.

Jarak antara data pertama dengan centroid pertama (C0)
=
,

(1 − 0.25) + (0 − 0.75) + (0 − 0) + ⋯ + (0 − 0) = 1.457737974
Jarak antara data pertama dengan centroid kedua (C1)
=
,

(1 − 0) + (0 − 0.5) + (0 − 0.5) + ⋯ + (0 − 0) = 1.695582496
Jarak antara data pertama dengan centroid ketiga (C2)
,

=
(1 − 0.25) + (0 − 0.75) + (0 − 0) + ⋯ + (0 − 0) = 1.620185175
Jarak antara data pertama dengan centroid keempat (C3)
,

=
(1 − 0.5) + (0 − 0.25) + (0 − 0.25) + ⋯ + (0 − 0) = 1.274754878
Jarak antara data pertama dengan centroid kelima (C4)
,
=
(1 − 0.5) + (0 − 0.25) + (0 − 0.25) + ⋯ + (0 − 0) = 1.369306394
Penghitungan jarak data dengan centroid tiap cluster, pada 20 record data,
selanjutnya akan disajikan dalam bentuk tabel dibawah ini.
46
Tabel 4.2 Hasil penghitungan jarak setiap data untuk masing-masing cluster
Pada tabel diatas dapat dilihat bahwa untuk data pertama memiliki jarak
terkecil yaitu 1.274754878 (pada C3), maka data pertama akan menjadi anggota dari
cluster ke-3. Untuk lebih jelasnya anggota data untuk masing-masing cluster akan
disajikan dalam bentuk tabel dibawah ini.
Tabel 4.3 Anggota data untuk setiap cluster
47
Pada iterasi pertama ini jumlah anggota yang didapatkan oleh masing-masing
cluster adalah sebagai berikut :
1. Pada cluster pertama (C0) memiliki jumlah anggota 5 data, yaitu pada data ke M3,
M6, M11, M16, M17.
2. Pada cluster kedua (C1) memiliki jumlah anggota 3 data, yaitu pada data ke M2,
M7, M12.
3. Pada cluster ketiga (C2) memiliki jumlah anggota 2 data, yaitu pada data ke M8,
M16.
4. Pada cluster keempat (C3) memiliki jumlah anggota 5 data, yaitu pada data ke
M1, M4, M9, M13, M14.
5. Pada cluster kelima (C4) memiliki jumlah anggota 6 data, yaitu pada data ke M5,
M10, M15, M18, M19, M20.
Iterasi pada clustering ini akan berhenti, jika anggota data cluster pada iterasi
sebelumnya sama dengan anggota data cluster pada iterasi selanjutnya atau nilai
centroid pada iterasi awal sama dengan nilai centroid pada iterasi selanjutnya.
Dari 20 dataset tersebut, untuk memperoleh nilai centroid yang sama
terbentuklah 5 iterasi. Dari iterasi ke-5, didapatkan hasil bahwa nilai minimum
48
centroid ada di data ke-6 (M6) dan nilai maksimum centroid ada di data ke-15 (M15).
Tabel 4.4 Hasil Cluster terakhir pada iterasi ke-5
Dari hasil clustering, diperoleh karakteristik masing-masing cluster.
49
Karakteristik yang diperoleh dari 20 dataset di atas adalah :
 Cluster pertama (C0) memiliki karakteristik tipe penyakit A01.0 (typhoid fever)
dengan daerah endemic pedurungan, banyak menyerang usia anak-anak (0 – 12
tahun) dan jenis kelamin perempuan.
 Cluster kedua (C1) memiliki karakteristik tipe penyakit A01.0 (typhoid fever)
dengan daerah endemic tembalang, banyak menyerang usia anak-anak (0 – 12
tahun) dan jenis kelamin laki-laki.
 Cluster ketiga (C2) memiliki karakteristik tipe penyakit A04.9 (Bacterial intestinal
infection) dengan daerah endemic semarang selatan, banyak menyerang usia
anak-anak (0 – 12 tahun) dan jenis kelamin laki-laki.
 Cluster keempat (C3) memiliki karakteristik tipe penyakit A01.0 (typhoid fever)
dengan daerah endemic semarang selatan, banyak menyerang usia muda (13 – 25
tahun) dan jenis kelamin perempuan.
 Cluster kelima (C4) memiliki karakteristik tipe penyakit A04.9 (Bacterial
intestinal infection) dengan daerah endemic tembalang, banyak menyerang usia
anak-anak (0 – 12 tahun) dan jenis kelamin laki-laki.
Setelah kelima cluster ini terbetuk, proses dilanjutkan pemeriksaan kemiripan
penyakit dengan hasil cluster dengan penyakit endemi yang ada di database.
Pemeriksaan ini digunakan untuk menyimpulkan penyakit yang sedang mewabah dan
daerahnya secara lebih spesifik.
Kelima cluster diatas memiliki 2 jenis penyakit sesuai kode ICD-10 yaitu
A01.0 (typhoid fever) dan A04.9 (Bacterial instestinal). Untuk memeriksa penyakit
mana yang merupakan penyakit endemi, akan dilakukan pemeriksaan kemiripan teks
dengan menggunakan metode levenshtein distance. Metode ini membandingkan hasil
string yang diperoleh dari proses cluster dengan database penyakit endemi.
50
Gam
mbar 4.6 Alg
goritma Leveenshtein Disstance
Deng
gan algoritm
ma levenshttein distancce hasil perrbandingan dari bacterrial
instestinal
i
hasil cluster dengan
d
typhoid-fever daari database aadalah :
Gambar 4.7
4 Perhitung
gan bacteriall instestinal ddengan typhhoid-fever m
menggunakann
levenshttein distancee algorithm
51
Dan hasil perbandingan dari typhoid-fever hasil cluster dengan typhoid-fever
dari database adalah :
Gambar 4.8 Perhitungan typhoid-fever dengan typhoid-fever menggunakan
levenshtein distance algorithm
Dari hasil perhitungan diatas, dengan rumus
1−(
[
][
(
,
]
)
=
) ∗ 100% dapat diperoleh akurasi hasil levenshtein
distance algorithm, yaitu 20 % untuk perbandingan bacterial instestinal hasil cluster
dengan typhoid-fever dari database dan 100% untuk perbandingan typhoid-fever hasil
cluster dengan typhoid-fever dari database.
Karena prosentase minimal untuk hasil levenshtein distance algorithm adalah
75%, sehingga dapat ditarik kesimpulan hasil tes kemiripan string dari hasil cluster
dengan database penyakit endemi, typhoid-fever adalah penyakit endemic dengan
akurasi kemiripan 100% (>75%). Dan ada empat kesimpulan yang terbentuk, yang
menampilkan informasi daerah endemi penyakit. Kesimpulan hasil clustering dari 20
dataset ini adalah :
 Kesimpulan pertama dari 20 dataset 4 data menunjukkan (C0) tipe penyakit A01.0
(typhoid fever) dengan daerah endemic pedurungan, banyak menyerang usia
52
anak-anak (0 – 12 tahun) dan jenis kelamin perempuan.
 Kesimpulan kedua dari 20 dataset 3 data menunjukkan (C1) tipe penyakit A01.0
(typhoid fever) dengan daerah endemic tembalang, banyak menyerang usia
anak-anak (0 – 12 tahun) dan jenis kelamin laki-laki.
 Kesimpulan ketiga dari 20 dataset 7 data menunjukkan (C3) tipe penyakit A01.0
(typhoid fever) dengan daerah endemic semarang selatan, banyak menyerang
usia muda (13 – 25 tahun) dan jenis kelamin perempuan.
C2 dan C4 bukan merupakan kesimpulan daerah endemi penyakit karena
penyakit yang dihasilkan kedua cluster tersebut tingkat kemiripannya >75% dengan
penyakit endemi pada database penyakit endemi. Pola hasil clustering ini
memberikan kemudahan dalam proses penentuan daerah endemi penyakit.
Berdasarkan hasil analisa ini akan digunakan dalam penentuan tindakan selanjutnya
yang akan dilakukan manajemen rumah sakit.
4.3
Hasil Data Mining Menggunakan Dataset Data Training
Pada perbandingan analisis mining kali ini menggunakan data rekam medis
pasien rawat inap rumah sakit kota semarang periode triwulan pertama 2014 (Januari
- Maret) yang telah diolah menjadi dataset mempunyai jumlah transaksi sebanyak
13797 data. Hanya saja penelitian ini dibatasi hanya pada kelurahan sekota semarang
saja.
Hasil perhitungan dengan menggunakan aplikasi yang berbasis java ini
menghasilkan statistic mining seperti pada gambar 4.9.
53
Gambarr 4.9 Hasil perhitungan sstatistik prosses mining
Dari hasil peneliitian diatas, dapat ditarikk kesimpulann bahwa darri 6806 dataset
3019 data menunjukkan
m
n bahwa daerah temballang dengann penyakit T
Typhoid Fevver
lebih
l
banyak
k menyerang
g jenis kelam
min laki-lakii dengan renntan usia anaak-anak (0--12
tahun).
t
Padaa gambar 4.9
9 merupakan
n gambaran ppada aplikassi yang menuunjukkan haasil
mining.
m
Jikaa hasilnya su
udah dapat mengeluarka
m
an pola sepeerti ini, makka dataset yaang
sudah di-im
mport benar dan file beerekstensi .ccsv. Hasil m
mining ini nnantinya dappat
disimpan
d
deengan cara mengklik
m
menubar
m
“Filee” kemudiann pilih Savee Hasil ke …
….
(location yan
ng dituju). File
F yang tersimpan dibuuat dalam forrmat txt agaar dapat dibuuka
dimana
d
saja dengan mud
dah tanpa haarus adanya aplikasi lainn seperti dituunjukkan paada
gambar
g
4.10
0. Dengan ad
danya fasilittas untuk m
menyimpan hhasil dari minning yang laalu
dengan
d
yang
g saat ini dapat
d
dilakuk
kan perbanddingan dari pengembanggan data yaang
54
ada.
Gambarr 4.10 Hasil Mining yangg telah disim
mpan pada fille text
BAB V
KESIMPULAN DAN SARAN
5.1
Kesimpulan
Dari penelitian yang telah dilakukan diatas, dapat ditarik kesimpulan sebagai
berikut :
1.
Tingkat akurasi pada Algoritma K-Means dipengaruhi oleh beberapa hal
seperti kevalitan dari dataset-nya, jumlah atribut dan cluster awal yang
dibentuk.
2.
Aplikasi Data Mining ini dapat digunakan untuk menampilkan informasi pola
daerah endemi penyakit. Informasi yang ditampilkan berupa cluster daerah
endemi, endemi penyakitnya, jenis kelamin dan usia yang rentan terserang.
Data rekam medis Rumah Sakit Kota Semarang yang diproses mining
meliputi data alamat, kode penyakit, usia dan jenis kelamin.
3.
Kesimpulan yang didapat dari 20 dataset, 14 data yang tebentuk dari 3 cluster
menunjukkan penyakit endemi yang terbentuk adalah typhoid fever. Dari
penelitian ini menunjukkan skala 7:10 untuk penyakit typhoid fever.
4.
Algoritma Levenshtein Distance pada aplikasi ini berhasil diterapkan untuk
memperoleh nilai kemiripan antara penyakit hasil cluster dengan penyakit
endemi memiliki kecocokan >75%. Sehingga kesimpulan yang diambil oleh
aplikasi ini adalah daerah endemi penyakit yang sesuai dengan penyakit
endemi yang ada di Indonesia.
5.
Hasil dari proses data mining ini dapat digunakan sebagai pertimbangan
dalam mengambil keputusan lebih lanjut tentang sikap apa yang harus segera
diambil untuk menangani wabah penyakit sesuai daerah endemi.
54
55 5.2
Saran
Saran untuk penelitian selanjutnya adalah :
1.
Dengan hasil proses mining ini bisa dikembangkan untuk dijadikan aplikasi
dengan gambaran peta kota Semarang dengan memanfaatkan teknologi GIS.
2.
Penelitian ini dapat dikembangkan menjadi sebuah peramalan daerah endemi
menggunakan algoritma untuk prediksi maupun algoritma untuk peramalan.
DAFTAR PUSTAKA
[1]
Fandy, S.Si , Andi Fajeriani Wyrasti, S. Pd, M. Si & Tri Widjajanti, M. Si.
(2012). ANALISIS TITIK KESETIMBANGAN DAN KESTABILAN
PENYEBARAN PENYAKIT MALARIA DI DISTRIK MANOKWARI
BARAT
BERDASARKAN
MODEL
EPIDEMIK
SIR.
Jurusan
Matematika dan Statistika, FMIPA, Universitas Negeri Papua. [2]
Hidayatullah, Ahmad Fathan. (2010). Aplikasi Sistem Informasi Geografis
Untuk Penanganan Penyebaran Penyakit Demam Berdarah (Studi Kasus di
Puskesmas Tegalrejo Yogyakarta), Skripsi, Program Studi Teknik
Informatika, Yogyakarta : Universitas Kalijaga.
[3]
Adlina, Shafira., & Fahdy Azhar A. (2010). Penerapan E-health untuk
Penyakit Demam Berdarah Dengue (DBD) pada Daerah Endemi, Jurnal,
Fakultas Sains and Technology, Jakarta : Universitas Al Azhar Indonesia.
[4]
Kulikowski, C. A. (2002). The micro-macro spectrum of medical
informatics challenges : From molecular medicine to transforming health
care in a globalizing society. Methods of Information in Medicine; 41(1),
20-24.
[5]
Stephanie, J. Hickey. (2013). Naïve Bayes Classification of Public Health
Data with Greedy Feature Selection, USA : Iona College.
[6]
Bellazzi, R., & Zupan B. (2008). Predictive data mining in clinical
medicine: Current issues and guidelines. International Journal of Medical
Informatics, 77(2), 81-97.
[7]
Kurniawan, Edy., I Ketut Edy Purnama, & Surya Sumpeno. (2011).
Analisa Rekam Medis untuk Menentukan Pola Kelompok Penyakit
Menggunakan Klasifikasi dengan Decision Tree J48, Surabaya : Institut
Sepuluh Nopember.
[8]
ICD-10 (International Classification of Diseases)
[http://www.who.int/classifications/icd/en/] diakses November 2014
56
57 [9]
World Health Organization, “ICD-10 || International Statistical Clasification
Of Diseases and Related Health Problems || 10th Revision || Volume 2
Instruksi Manual”, 2010
[10]
Julianta, Feri., & Dominikus Juju. (2010). Data Mining – Meramalkan Bisnis
Perusahaan.
[11]
Kusrini., & Luthfi, Emha Taufiq. (2009). Algoritma Data Mining. Andi
Offset: Yogyakarta.
[12]
Santosa, Budi. (2007). Data Mining Teknik Pemanfaatan Data Untuk
Keperluan Bisnis. Graha Ilmu: Yogyakarta.
[13]
Prasetyo,
Eko.
Data
Mining
“Mengolah
Data
Menjadi
Informasi
Menggunakan MATLAB”. Andi Offset : Yogyakarta.
[14]
Larose, Daniel T. (2005). Discovering knowledge in data an introduction to
Data Mining. A John Willey & Sons, Inc: United State.
[15]
Feriawan, Tedy. (2014). Aplikasi Data Mining dengan Aturan Asociation
Rules untuk Menampilkan Informasi Pola Kerusakan Pada Laptop
Menggunakan Algoritma Apriori (Studi Kasus Di ITSC Semarang). Semarang
: Universitas Dian Nuswantoro.
[16]
Netbeans Integrates Development Environment (IDE)
[http://en.wikipedia.org/wiki/NetBeans] diakses Januari 2015
[17]
Adriyani, Ni Made Muni.,dkk. Implementasi Algoritma Levenshtein Distance
Dan Metode Empiris Untuk Menampilkan Saran Perbaikan Kesalahan
Pengetikan Dokumen Berbahasa Indonesia. Unversitas Udayana: Fakultas
Matematika dan Ilmu Pengetahuan Alam.
[18]
J. MacQueen, Some methods for classification and analysis of multivariate
observations, Proceedings of the 5th Berkeley Symposium on Mathematical
Statistics and Probability, Vol. 1, pp. 281-297, University of California Press,
Berkeley, CA, 1967.
Download