analisa rekam medis untuk menentukan pola kelompok - MMT-ITS

advertisement
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
ANALISA REKAM MEDIS UNTUK MENENTUKAN POLA
KELOMPOK PENYAKIT MENGGUNAKAN METODE
KLASIFIKASI DENGAN ALGORITMA DECISION TREE J48
Edy Kurniawan 1) *), I Ketut Edy Purnama2), Surya Sumpeno3)
1)
Pasca Sarjana Teknik Elektro ITS
e-mail : [email protected]
2,3)
Jurusan Teknik Elektro Institut Sepuluh Nopember, Surabaya
Telp : (031) 5922936, (031) 5947302, Fax : (031) 5931237
e-mail:{2)ketut,surya3)}@elect-eng.its.ac.id
ABSTRAK
Rekam medis merupakan informasi identitas dan riwayat berobat oleh pasien dalam
balai pengobatan (Rumah sakit, Puskesmas). Pola penyakit yang sering di derita oleh
masyarakat dalam sekelompok wilayah bisa di deteksi dari informasi yang terkandung
dalam kumpulan rekam medis. Rekam medis mempunyai infromasi penyakit oleh
pasien yang di kodekan sesuai standart WHO, dimana kode tersebut dinamakan ICD
(International Classification Of Diseases). Pengolahan data rekam medis untuk
menemukan pola kelompok penyakit yang sering terjadi di masyarakat ini mengambil
attribute alamat, jenis kelamin, jenis penyakit (dalam kode ICD-10) serta umur.
Penentuan analisa selanjutnya adalah melakukan pengelompokan dari empat attribute
tersebut yang di dasarkan menjadi kelompok wilayah, kelompok umur, kelompok
penyakit dan jenis kelamin. Pada penelitian ini digunakan metode klasifikasi dengan
algoritma decision tree J48 dengan jumlah data bersih rekam medis adalah 1628. Hasil
dari penelitian ini adalah menemukan pola dalam menganalisa kecenderungan penyakit
yang ada di sekelompok masyarakat dengan menggunakan decision tree J48. Sebagai
atribute penentu yang memiliki gain tertinggi dalam data rekam medis adalah pada
pengelompokan ICD. Dari hasil pengolahan data menggunakan cross validation 5 fold
didapat hasil yang paling optimal dengan akurasi 70%
Kata kunci : Rekam Medis, Data Mining, Decision Tree
PENDAHULUAN
Latar Belakang
Tumpukan data yang ada baik di dinas kesehatan maupun di rumah sakit saat ini hanya
sebatas memberikan grafik atau statistik jumlah pasien yang berobat dengan penyakit
yang di deritanya beserta laporan kepulangan pasien tersebut. Laporan dari data inilah
yang saat ini dijadikan oleh dinas kesehatan untuk melakukan kebijakan-kebijakan
apabila akan memberikan penyuluhan kepada masyarakat. Mengenai pola dari
kecenderungan penyakit yang di derita oleh sekelompok masyarakat masih belum digali
untuk menjadikan acuan apabila melakukan penyuluhan atau pencegahan penyakit.
Tujuan dan kegunaan rekam medis adalah menunjang terrcapainya tertib administrasi
dalam rangka upaya peningkatan pelayanan kesehatan. Tanpa di dukung suatu sistem
pengelolaan rekam medis yang baik dan benar, maka tertib admnistrasi tidak akan
berhasil. Kegunaan rekam medis antara lain adalah :
ISBN : 978-602-97491-4-4
A-10-1
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
Aspek Administrasi, rekam medis mempunyai nilai administrasi, karena isinya
menyangkut tindakan berdsarkan wewenang dan tanggung jawab sebagai tenaga
medis dan perawat dalam mencapai tujuan pelayanan kesehatan,
Aspek Medis, Catatan tersebut dipergunakan sebagai dasar untuk merencanakan
pengobatan/perawan yang harus diberikan kepada pasien. Contoh adalah, identitas
pasien, umur pasien, alamat pasien, status, dan masih ada beberapa yang menyangkut
informasi identitas pasien.
Aspek Hukum, menyangkut masalah adalanya jaminan kepastian hukum atas dasar
keadilan, dalam rangka usaha menegajjan hukum serta penyediaan bahan tanda bukti
untuk menegakkan keadilan.
Aspek penelitian, berkas rekam medis memupunyai nilai penelitian, karena isinya
menyangkut data/informasi yang dapat digunakan sebagai aspek penelitian.
Informasi di dalam rekam medis mengandung paling tidak ada 23 variabel yang
menjelaskan identitas dari pasien tersebut. Beberapa attribute yang penting tersebut
diantaranya adalah [1]
a)
b)
c)
d)
e)
Jenis Kelamin
Alamat
Umur
Diagnosa
Informasi Penyakit (ICD)
ICD (International Classification Of Diseases), standart pengelompokan penyakit yang
dilakukan oleh WHO (Word Health Organization). Kode ICD ini berkembang terus,
setiap waktu ada perubahan mendasar pada perkembangan penyakit baru yang ada di
dunia. Sampai saat ini teknik pengkodean ICD tersebut mencapai ICD-10. ICD-10
adalah acuan seluruh penyelenggara layanan kesehatan (Rumah sakit, balai pengobatan,
puskesmas) untuk dijadikan pedoman dalam melakukan arsip. [1]
Di dalam pedoman ICD-10 dilakukan pengelompokan dari penyakit menjadi 20
kelompok penyakit. Dalam ICD-10 pengelompokan ini didasarkan pada karakter dan
jenis penyakit tersebut. Hal ini difungsikan untuk memudahkan dalam administrasi
perekam medis sebab keterangan detail dari seorang pasein akan menjadi kesulitan
tersendiri dalam pengarsipan oleh penyelenggara layanan kesehatan apabila tidak
dikelompokkan.
Tujuan
Tumpukan data rekam medis yang setiap hari selalu bertambah merupakan gudang
informasi yang bisa di gali lebih jauh. Hasil penggalian informasi dari gudang data
tersebut bisa di manfaatkan oleh berbagai pihak (rumah sakit, dinas kesehatan,
masyarakat).
Penelitian ini mempunyai tujuan untuk mencari informasi yang terkandung dalam
tumpukan data rekam medis (tersandikan berdasarkan ICD-10), untuk di jadikan
pengetahuan tersendiri bagi rumah sakit, dinas kesehatan, serta masyarakat.
ISBN : 978-602-97491-4-4
A-10-2
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
Batasan Penelitian
Penelitian ini mempunyai ruang lingkup pengambilan data di Rumah sakit Aisiyah
Ponorogo dengan interfal waktu pengambilan data pada rekam medis di triwulan
pertama pada tahun 2011. Informasi penyakit yang di cari adalah pengelompokan
penyakit paling utama di derita oleh masyarakat dengan kelompok wilayah.
KAJIAN PUSTAKA
Teknik Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu
kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual.
Perlu diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit
data berharga dari sejumlah besar data dasar. Karena itu data mining sebenarnya
memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial
intelligent), machine learning, statistik dan basisdata. Beberapa teknik yang sering
disebut-sebut dalam literatur data mining antara lain yaitu association rule
mining,clustering, klasifikasi, neural network, dan lain-lain.
Preprocess
Pada proses ini data dipersiapkan agar dapat digunakan untuk digali informasinya.
Hal ini dilakukan untuk mendapatkan hasil analisis yang lebih akurat dalam
pemakaian teknik-teknik mechine learning maupun data mining. Komponen yang
terdapat dalam data itu sendiri terdiri dari : Obyek (record, point, case, sampel,
entitas, instan) dan Atribut / variabel / field yaitu karakteristik dari obyek (status
pernikahan, umur, dll)
Data cleaning terdapat proses pembersihan data yang kosong atau data-data lain
yang dapat mengakibatkan noise/error dengan memperkecil adanya data outlier.
Data Cleaning menjadi proses yang sangat penting dikarenakan data perlu
dibersihkan agar analisa menjadi lebih akurat [3].
Ada beberapa cara transformasi data yang dilakukan sebelum kita menerapkan
suatu metode tergantung pada metode apa yang kita lakukan untuk proses data
mining. Sebelum kita mempelajari teknik/metode yang digunakan dalam data
mining, ada baiknya kita bedakan dulu metode belajar (learning) secara garis
besar ke dalam dua pendekatan : supervised dan unsupervised. Dalam pendekatan
pertama, unsupervised learning, metode kita terapkan tanpa adanya latihan
(training) dan tanpa ada label dari data. Misalkan kita punya sekelompok
pengamatan atau data tanpa ada label (output) tertentu yang menandai kemana data
dikelompokkan.
Classification
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah
di definisikan.Teknik ini dapat memberikan klasifikasi pada data baru dengan
memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan
ISBN : 978-602-97491-4-4
A-10-3
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan
pada data-data baru untuk diklasifikasi. Teknik ini menggunkan supervised
induction, yang memanfaatkan kumpulan pengujian dari record yang terklasifikasi
untuk menentukan kelas-kelas tambahan. Salah satu contoh yang mudah dan
populer adalah dengan Decision tree yaitu salah satu metode klasifikasi yang
paling populer karena mudah untuk diinterpretasi.
Algorima Decision Tree J48
J48 merupakan implementasi dari algoritma C4.5 yang memproduksi Decision
Tree. Ini merupakan standar algoritma yang digunakan dalam machine learning.
Decision Tree merupakan salah satu algoritma klasifikasi dalam data mining.
Algoritma klasifikasi merupakan algoritma yang secara induktif dalam
pembelajaran dalam mengkonstruksikan sebuah model dari data set yang belum
diklasifikasikan ( pre classified data set) . Setiap data dari item berdasarkan dari
nilai dari setiap atribut. Klasifikasi dapat dilihat sebagai mapping dari sekelompok
set dari atribut dari kelas tertentu. Decision Tree mengklasifikasikan dat a yang
diberikan menggunakan nilai dari atribut . [4]
METODOLOGI
Data yang menjadi training pada metode klasifikasi dengan algoritma decision tree
J48 ini adalah 1921 data yang di dapat dalam penggalian data rekam medis di
Rumah Sakit Aisiyah Ponorogo. Data mentah yang di dapat peneliti adalah
sebanyak 1921 tersebut merupakan data laporan triwulan pertama di tahun 2011.
Untuk mencari data mentah yang bersih dari missing value (tidak bisa di olah
karena mempunyai keterangan yang tidak lengkap) diperlukan preposessing yaitu
cleaning data, dan selection data.
Struktur data
Cleaning data
Selection data
Penyiapan file
Classification
Analisa
Gambar 1. Sistematika Penelitian
Cleaning Data
Tahap awal dari preposessing data mining ini adalah cleaning data, hal ini dilakukan
untuk membuang data yang mempunyai informasi tidak lengkap. Dimungkinkan
banyak data yang mempunyai informasi tidak lengkap, seperti tidak masuknya
informasi umur, informasi wilayah, informasi jenis kelamin, informasi pengelompokan
penyakit.
ISBN : 978-602-97491-4-4
A-10-4
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
Seleksi Data
Data-data yang sudah mempunyai informasi lengkap dalam setiap attribute
selanjutnya data tersebut dilakukan seleksi. Seleksi ini dilakukan untuk
mengelompokkan attribute sesuai dengan informasi yang dibutuhkan. Dari
attribute yang di lakukan seleksi adalah pada attribute alamat, attribute umur dan
attribute ICD-10. Sedangkan attribute gender merupakan target attribute.
Pada penelitian ini seleksi data dilakukan pada data yang mempunyai informasi
wilayah diluar kabupaten ponorogo. Sebab Rumah sakit yang bersangkutan juga
menerima pasien dari luar ponorogo, data yang mengandung informasi wilayah
diluar kabupaten ponorogo akan dibuang.
Pengelompokan Umur
Proses pengelompokan umur mempunyai dua metode (1) menggunakan descrite (2)
pengelompokan umur berdasar pada aturan WHO. Pengelompokan umur secara
discrite tidak relevan apabila diterapkan pada penelitian ini, sebab penentuan
discrite pada preprosessing yang ada pada aplikasi weka 3.6.6 menggunakan
sistem interval. Jadi pengelompokan umurnya tidak mendasar pada jenjang.
Pengelompokan umur untuk kesehatan mendasar pada metode yang dilakukan oleh
WHO yaitu umur dalam tahun dikelompokkan menjadi tiga kelompok jenjang
umur (kelompok bayi dan balita, kelompok muda dan dewasa, kelompok tua).
Tabel 1. Pengelompokan umur berdasarkan jenjang menurut WHO
Umur
15 ≤
15 s/d 50
≥ 50
Jenjang
Bayi dan Anak-anak
Muda dan Dewasa
Tua
Pengelompokan wilayah
Isi pada attribute alamat pada rekam medis merupakan keterangan alamat secara
lengkap, dimana alamat yang tercantum di dalamnya memuat informasi RT/RW,
Desa/kelurahan, jalan dan nomernya, Kecamatan. Pada proses pengelompokan
wilayah ini penulis menggunakan MySql dan php untuk melakukan pengelompokan
secara otomatis. Teknik pengelompokan ini di dasar pada informasi alamat yang
mengandung kata kecamatan yang ada di ponorogo.
Ada dua tahap proses pengelompokan wilayah, (1) conversi alamat menjadi nama
kecamatan, (2) pengelompokan kecamatan menjadi wilayah seperti
dalampembagian WHO (Wilayah perkotaan, wilayah pedesaan, wilayah pesisir /
pegunungan).[6]
ISBN : 978-602-97491-4-4
A-10-5
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
HASIL DAN PEMBAHASAN
Tahapan preprosessing pada penelitian ini telah diolah sebanyak 1921 data mentah.
Pembuangan data missing value mendapatkan hasil data bersih sebanyak 1809 data
rekam medis.
Tahapan selanjutnya adalah melakukan seleksi data yang tidak masuk dalam
kategori untuk analisa. Sebagai attribute yang dilakukan seleksi ini adalah atributte
kelompok wilayah. 1809 data bersih tersebut setelah dilakukan seleksi untuk
mencari data yang sebenarnya akan digunakan untuk analisa penelitian ini, maka
peneliti mendapatkan 1628 data bersih yang sudah terseleksi.
Hasil uji data menggunakan cross validation
Untuk melakukan uji data dengan metode cross validation ini peneliti menggunakan 2
pengujian, dimana pengujian (1). menggunakan cross validation dengan 5 fold (2).
pengujian menggunakan cross validation dengan 10 fold. Dari hasil pengujian di
dapatkan hasil sebagai berikut :
(1). cross validation dengan 5 fold
Tabel 2. Hasil percobaan dengan menggunakan 5 fold
1
73,7
Data Uji
Fold
3
77,4
2
78,8
4
71
Rata-rata
5
49,1
70%
(2) cross calidation dengan 10 fold
Tabel 3. Hasil percobaan dengan menggunakan 10 fold
Data Uji
1
2
3
4
53,2
33
67,9
52,3
Fold
5
6
51,9
49,1
7
8
9
10
Ratarata
76,9
51,9
44,4
57,4
53,8%
Tabel 4. Perbandingan hasil cross validation antara 5 fold dengan 10 fold
Fold
Data Uji
5
70%
10
53,8%
Dengan melihat dari hasil percobaan yang menggunakan metode cross validation
di ketahui Correctly Classified Instances paling tinggi adalah pada percobaan
dengan menggunakan 5 fold dibandingkan dengan menggunakan 10 fold.
ISBN : 978-602-97491-4-4
A-10-6
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
Gambar 2. Decision tree hasil rekam medis
Gambar 2. memberikan informasi bahwa pada kelompok umur “TUA” tanpa
membedakan jenis kelamin, wilayah untuk kategori kelompok penyakit yangpaling
dominan adalah I00-I99 (Diseases of the circulatory system atau penyakit pada
sistemperedaran darah). Kemudian informasi dari kelompok umur Muda dan
dewasa untuk perempuan tanpa melihat lokasi tempat tinggalnya, kelompok jenis
penyakit yang mempunyai potensi adalah pada O00-O99 (Pregnancy, childbirth
and the puerperium atau berkaitan dengan kandungan). Sedangkan untuk jenis
kelamin laki-laki mempunyai dua potensi yaitu pada S00-T99 (Symptoms, signs and
abnormal clinical and laboratory findings, not elsewhere classified atau kelompok
jenis penyakit yang tidak wajar terjadi di wilayah lain) dan A00-B99 (Certain
infectious and parasitic diseases atau penyakit infeksi dan parasit). Pada kelompok
penderita anak-anak dan bayi terbagi menjadi tiga kelompok penyakit, yangpaling
dominan adalah kelompok penyakit A00-B99 (Certain infectious and parasitic
diseases atau penyakit infeksi dan parasit), kemudian dilanjutkan dengan
kelompok penytakit Z00-Z99 (Factors influencing health status and contact with
health services atau faktor yang memengaruhi dan kontak langsung dengan
layanan kesehatan) sedangkan minor dari kelompok penyakit pada anak-anak ini
adalah P00-P86 (Certain conditions originating in the perinatal period) yang
cenderung di derita oleh kelompok anak-anak di pegunungan.
KESIMPULAN DAN SARAN
Kesimpulan
Rekam medis mempunyai atributte yang berisi nilai diskrit, maka decision tree sangat
cocok digunakan pada data rekam medis. Data rekam medis mempunyai lebih dari 15
attribute, namun dalam penelitian ini untuk menentukan tingkat kecenderungan
penyakit yang diderita oleh sekelompok masyarakat dalam wilayah tertentu hanya di
butuhkan 4 atributte saja. Atributte yang mempengaruhi tingkat kecenderungan
penderita penyakit dalam sekolmpok wilayah adalah (1) jenis kelamin, (2) Wilayah, (3)
Umur, (3) kelompok ICD. Penelitian ini menggunakan metode decision tree J48.
Dari 1921 data kotor setelah dilakukan pembersihan data tidak lengkap dan melalui
proses seleksi sesuai yang dibutuhkan dalam analisa rekam medis maka didapat data
1628 data bersih. Dari data yang ada dilakukan split untuk digunakan 1/3(542) data
training dan 2/3(1082) data test. Pengujian dilakukan menggunakan metode cross
ISBN : 978-602-97491-4-4
A-10-7
Prosiding Seminar Nasional Manajemen Teknologi XV
Program Studi MMT-ITS, Surabaya 4 Pebruari 2012
validation dengan fold 5 yang mempunyai hasil paling optimal. Dengan melakukan
cross validation secara random dari empat atribute yang diujikan ini di dapat informasi
gain tertinggi pada kelompok ICD.
Pada data rekam medis ini dalam pengujian yang menggunakan pruning maupun
unpruning mempunyai hasil yang sama. Dari hasil pengujian keseluruhan data dengan
memakai cross calidation 5 fold di dapat akurasi pengujian sebesar 70 %. Dari hasil
pohon keputusan memberikan informasi bahwa untuk kelompok usia tua di dominasi
dengan kelompok penyakit I00-I99 (atau kelompok penyakit yang berhubungan dengan
pembuluh darah. Sedangkan pada kelompok umur anak-anak serta muda dan dewasa
mempunyai sebaran kelompok penyakitnya.
Saran
Penelitian ini menggunakan metode offline dalam melakukan pengolahan dari data base
rekam medis yang ada di rumah sakit. Untuk memberikan kemudahan dalam
pengambilan sampling data yang akan di olah unhtuk di cari pengetahuan yang ada
didalamnya, maka diperlukan interkoneksi database rekam medis dengan system analisa
data mining.
DAFTAR REFERENSI
ICD-10
(International
Classification
of
[http://www.who.int/classifications/icd/en/] diakses Januari 2011
Diseases)
Duen-Yian Yeh, Ching-Hsue Cheng, Yen-Wen Chen, A predictive model for
cerebrovascular disease using data mining, Expert Systems with Applications 38
(2011) 8970–8977
Jiawei Han and Micheline Kamber, “Data Mining Concepts and Techniques”, Second
Edition, 2006
Ian H. Witten and Eibe Frank, ”Data Mining Practical Machine Learning Tools and
Techniques”, Morgan Kaufmann Publishers is an imprint of Elsevier., San Francisco,
(2005)
Berkhin, Pavel. Survey of Clustering Data Mining Techniques. Accrue Software, Inc.
2002.
http://www.who.int/en/ , diakses Maret 2011
Krzysztof J. Cios, Witod Pedrycz, “Data Mining A Knowledge Discovery Approach”,
2007
Cabena, P., Hadjinian, P., Stadler, R., Verhees, J., & Zanasi, A. Discovering
datamining: From concept to implementation. New Jersey: Prentice Hall. (1997).
Remko R.B, Eibe Frank, Mark Hall., “Weka Manual for Version 3.6.6”, Oktober 2011.
Daniel T. Larose, “Discovering Knowledge in Data”, 2005
BPPS Ponorogo, “Ponorogo dalam Angka” 2010
ISBN : 978-602-97491-4-4
A-10-8
Download