Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 ANALISA REKAM MEDIS UNTUK MENENTUKAN POLA KELOMPOK PENYAKIT MENGGUNAKAN METODE KLASIFIKASI DENGAN ALGORITMA DECISION TREE J48 Edy Kurniawan 1) *), I Ketut Edy Purnama2), Surya Sumpeno3) 1) Pasca Sarjana Teknik Elektro ITS e-mail : [email protected] 2,3) Jurusan Teknik Elektro Institut Sepuluh Nopember, Surabaya Telp : (031) 5922936, (031) 5947302, Fax : (031) 5931237 e-mail:{2)ketut,surya3)}@elect-eng.its.ac.id ABSTRAK Rekam medis merupakan informasi identitas dan riwayat berobat oleh pasien dalam balai pengobatan (Rumah sakit, Puskesmas). Pola penyakit yang sering di derita oleh masyarakat dalam sekelompok wilayah bisa di deteksi dari informasi yang terkandung dalam kumpulan rekam medis. Rekam medis mempunyai infromasi penyakit oleh pasien yang di kodekan sesuai standart WHO, dimana kode tersebut dinamakan ICD (International Classification Of Diseases). Pengolahan data rekam medis untuk menemukan pola kelompok penyakit yang sering terjadi di masyarakat ini mengambil attribute alamat, jenis kelamin, jenis penyakit (dalam kode ICD-10) serta umur. Penentuan analisa selanjutnya adalah melakukan pengelompokan dari empat attribute tersebut yang di dasarkan menjadi kelompok wilayah, kelompok umur, kelompok penyakit dan jenis kelamin. Pada penelitian ini digunakan metode klasifikasi dengan algoritma decision tree J48 dengan jumlah data bersih rekam medis adalah 1628. Hasil dari penelitian ini adalah menemukan pola dalam menganalisa kecenderungan penyakit yang ada di sekelompok masyarakat dengan menggunakan decision tree J48. Sebagai atribute penentu yang memiliki gain tertinggi dalam data rekam medis adalah pada pengelompokan ICD. Dari hasil pengolahan data menggunakan cross validation 5 fold didapat hasil yang paling optimal dengan akurasi 70% Kata kunci : Rekam Medis, Data Mining, Decision Tree PENDAHULUAN Latar Belakang Tumpukan data yang ada baik di dinas kesehatan maupun di rumah sakit saat ini hanya sebatas memberikan grafik atau statistik jumlah pasien yang berobat dengan penyakit yang di deritanya beserta laporan kepulangan pasien tersebut. Laporan dari data inilah yang saat ini dijadikan oleh dinas kesehatan untuk melakukan kebijakan-kebijakan apabila akan memberikan penyuluhan kepada masyarakat. Mengenai pola dari kecenderungan penyakit yang di derita oleh sekelompok masyarakat masih belum digali untuk menjadikan acuan apabila melakukan penyuluhan atau pencegahan penyakit. Tujuan dan kegunaan rekam medis adalah menunjang terrcapainya tertib administrasi dalam rangka upaya peningkatan pelayanan kesehatan. Tanpa di dukung suatu sistem pengelolaan rekam medis yang baik dan benar, maka tertib admnistrasi tidak akan berhasil. Kegunaan rekam medis antara lain adalah : ISBN : 978-602-97491-4-4 A-10-1 Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 Aspek Administrasi, rekam medis mempunyai nilai administrasi, karena isinya menyangkut tindakan berdsarkan wewenang dan tanggung jawab sebagai tenaga medis dan perawat dalam mencapai tujuan pelayanan kesehatan, Aspek Medis, Catatan tersebut dipergunakan sebagai dasar untuk merencanakan pengobatan/perawan yang harus diberikan kepada pasien. Contoh adalah, identitas pasien, umur pasien, alamat pasien, status, dan masih ada beberapa yang menyangkut informasi identitas pasien. Aspek Hukum, menyangkut masalah adalanya jaminan kepastian hukum atas dasar keadilan, dalam rangka usaha menegajjan hukum serta penyediaan bahan tanda bukti untuk menegakkan keadilan. Aspek penelitian, berkas rekam medis memupunyai nilai penelitian, karena isinya menyangkut data/informasi yang dapat digunakan sebagai aspek penelitian. Informasi di dalam rekam medis mengandung paling tidak ada 23 variabel yang menjelaskan identitas dari pasien tersebut. Beberapa attribute yang penting tersebut diantaranya adalah [1] a) b) c) d) e) Jenis Kelamin Alamat Umur Diagnosa Informasi Penyakit (ICD) ICD (International Classification Of Diseases), standart pengelompokan penyakit yang dilakukan oleh WHO (Word Health Organization). Kode ICD ini berkembang terus, setiap waktu ada perubahan mendasar pada perkembangan penyakit baru yang ada di dunia. Sampai saat ini teknik pengkodean ICD tersebut mencapai ICD-10. ICD-10 adalah acuan seluruh penyelenggara layanan kesehatan (Rumah sakit, balai pengobatan, puskesmas) untuk dijadikan pedoman dalam melakukan arsip. [1] Di dalam pedoman ICD-10 dilakukan pengelompokan dari penyakit menjadi 20 kelompok penyakit. Dalam ICD-10 pengelompokan ini didasarkan pada karakter dan jenis penyakit tersebut. Hal ini difungsikan untuk memudahkan dalam administrasi perekam medis sebab keterangan detail dari seorang pasein akan menjadi kesulitan tersendiri dalam pengarsipan oleh penyelenggara layanan kesehatan apabila tidak dikelompokkan. Tujuan Tumpukan data rekam medis yang setiap hari selalu bertambah merupakan gudang informasi yang bisa di gali lebih jauh. Hasil penggalian informasi dari gudang data tersebut bisa di manfaatkan oleh berbagai pihak (rumah sakit, dinas kesehatan, masyarakat). Penelitian ini mempunyai tujuan untuk mencari informasi yang terkandung dalam tumpukan data rekam medis (tersandikan berdasarkan ICD-10), untuk di jadikan pengetahuan tersendiri bagi rumah sakit, dinas kesehatan, serta masyarakat. ISBN : 978-602-97491-4-4 A-10-2 Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 Batasan Penelitian Penelitian ini mempunyai ruang lingkup pengambilan data di Rumah sakit Aisiyah Ponorogo dengan interfal waktu pengambilan data pada rekam medis di triwulan pertama pada tahun 2011. Informasi penyakit yang di cari adalah pengelompokan penyakit paling utama di derita oleh masyarakat dengan kelompok wilayah. KAJIAN PUSTAKA Teknik Data Mining Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Perlu diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit data berharga dari sejumlah besar data dasar. Karena itu data mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan basisdata. Beberapa teknik yang sering disebut-sebut dalam literatur data mining antara lain yaitu association rule mining,clustering, klasifikasi, neural network, dan lain-lain. Preprocess Pada proses ini data dipersiapkan agar dapat digunakan untuk digali informasinya. Hal ini dilakukan untuk mendapatkan hasil analisis yang lebih akurat dalam pemakaian teknik-teknik mechine learning maupun data mining. Komponen yang terdapat dalam data itu sendiri terdiri dari : Obyek (record, point, case, sampel, entitas, instan) dan Atribut / variabel / field yaitu karakteristik dari obyek (status pernikahan, umur, dll) Data cleaning terdapat proses pembersihan data yang kosong atau data-data lain yang dapat mengakibatkan noise/error dengan memperkecil adanya data outlier. Data Cleaning menjadi proses yang sangat penting dikarenakan data perlu dibersihkan agar analisa menjadi lebih akurat [3]. Ada beberapa cara transformasi data yang dilakukan sebelum kita menerapkan suatu metode tergantung pada metode apa yang kita lakukan untuk proses data mining. Sebelum kita mempelajari teknik/metode yang digunakan dalam data mining, ada baiknya kita bedakan dulu metode belajar (learning) secara garis besar ke dalam dua pendekatan : supervised dan unsupervised. Dalam pendekatan pertama, unsupervised learning, metode kita terapkan tanpa adanya latihan (training) dan tanpa ada label dari data. Misalkan kita punya sekelompok pengamatan atau data tanpa ada label (output) tertentu yang menandai kemana data dikelompokkan. Classification Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah di definisikan.Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan ISBN : 978-602-97491-4-4 A-10-3 Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 hasilnya untuk memberikan sejumlah aturan. Aturan-aturan tersebut digunakan pada data-data baru untuk diklasifikasi. Teknik ini menggunkan supervised induction, yang memanfaatkan kumpulan pengujian dari record yang terklasifikasi untuk menentukan kelas-kelas tambahan. Salah satu contoh yang mudah dan populer adalah dengan Decision tree yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi. Algorima Decision Tree J48 J48 merupakan implementasi dari algoritma C4.5 yang memproduksi Decision Tree. Ini merupakan standar algoritma yang digunakan dalam machine learning. Decision Tree merupakan salah satu algoritma klasifikasi dalam data mining. Algoritma klasifikasi merupakan algoritma yang secara induktif dalam pembelajaran dalam mengkonstruksikan sebuah model dari data set yang belum diklasifikasikan ( pre classified data set) . Setiap data dari item berdasarkan dari nilai dari setiap atribut. Klasifikasi dapat dilihat sebagai mapping dari sekelompok set dari atribut dari kelas tertentu. Decision Tree mengklasifikasikan dat a yang diberikan menggunakan nilai dari atribut . [4] METODOLOGI Data yang menjadi training pada metode klasifikasi dengan algoritma decision tree J48 ini adalah 1921 data yang di dapat dalam penggalian data rekam medis di Rumah Sakit Aisiyah Ponorogo. Data mentah yang di dapat peneliti adalah sebanyak 1921 tersebut merupakan data laporan triwulan pertama di tahun 2011. Untuk mencari data mentah yang bersih dari missing value (tidak bisa di olah karena mempunyai keterangan yang tidak lengkap) diperlukan preposessing yaitu cleaning data, dan selection data. Struktur data Cleaning data Selection data Penyiapan file Classification Analisa Gambar 1. Sistematika Penelitian Cleaning Data Tahap awal dari preposessing data mining ini adalah cleaning data, hal ini dilakukan untuk membuang data yang mempunyai informasi tidak lengkap. Dimungkinkan banyak data yang mempunyai informasi tidak lengkap, seperti tidak masuknya informasi umur, informasi wilayah, informasi jenis kelamin, informasi pengelompokan penyakit. ISBN : 978-602-97491-4-4 A-10-4 Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 Seleksi Data Data-data yang sudah mempunyai informasi lengkap dalam setiap attribute selanjutnya data tersebut dilakukan seleksi. Seleksi ini dilakukan untuk mengelompokkan attribute sesuai dengan informasi yang dibutuhkan. Dari attribute yang di lakukan seleksi adalah pada attribute alamat, attribute umur dan attribute ICD-10. Sedangkan attribute gender merupakan target attribute. Pada penelitian ini seleksi data dilakukan pada data yang mempunyai informasi wilayah diluar kabupaten ponorogo. Sebab Rumah sakit yang bersangkutan juga menerima pasien dari luar ponorogo, data yang mengandung informasi wilayah diluar kabupaten ponorogo akan dibuang. Pengelompokan Umur Proses pengelompokan umur mempunyai dua metode (1) menggunakan descrite (2) pengelompokan umur berdasar pada aturan WHO. Pengelompokan umur secara discrite tidak relevan apabila diterapkan pada penelitian ini, sebab penentuan discrite pada preprosessing yang ada pada aplikasi weka 3.6.6 menggunakan sistem interval. Jadi pengelompokan umurnya tidak mendasar pada jenjang. Pengelompokan umur untuk kesehatan mendasar pada metode yang dilakukan oleh WHO yaitu umur dalam tahun dikelompokkan menjadi tiga kelompok jenjang umur (kelompok bayi dan balita, kelompok muda dan dewasa, kelompok tua). Tabel 1. Pengelompokan umur berdasarkan jenjang menurut WHO Umur 15 ≤ 15 s/d 50 ≥ 50 Jenjang Bayi dan Anak-anak Muda dan Dewasa Tua Pengelompokan wilayah Isi pada attribute alamat pada rekam medis merupakan keterangan alamat secara lengkap, dimana alamat yang tercantum di dalamnya memuat informasi RT/RW, Desa/kelurahan, jalan dan nomernya, Kecamatan. Pada proses pengelompokan wilayah ini penulis menggunakan MySql dan php untuk melakukan pengelompokan secara otomatis. Teknik pengelompokan ini di dasar pada informasi alamat yang mengandung kata kecamatan yang ada di ponorogo. Ada dua tahap proses pengelompokan wilayah, (1) conversi alamat menjadi nama kecamatan, (2) pengelompokan kecamatan menjadi wilayah seperti dalampembagian WHO (Wilayah perkotaan, wilayah pedesaan, wilayah pesisir / pegunungan).[6] ISBN : 978-602-97491-4-4 A-10-5 Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 HASIL DAN PEMBAHASAN Tahapan preprosessing pada penelitian ini telah diolah sebanyak 1921 data mentah. Pembuangan data missing value mendapatkan hasil data bersih sebanyak 1809 data rekam medis. Tahapan selanjutnya adalah melakukan seleksi data yang tidak masuk dalam kategori untuk analisa. Sebagai attribute yang dilakukan seleksi ini adalah atributte kelompok wilayah. 1809 data bersih tersebut setelah dilakukan seleksi untuk mencari data yang sebenarnya akan digunakan untuk analisa penelitian ini, maka peneliti mendapatkan 1628 data bersih yang sudah terseleksi. Hasil uji data menggunakan cross validation Untuk melakukan uji data dengan metode cross validation ini peneliti menggunakan 2 pengujian, dimana pengujian (1). menggunakan cross validation dengan 5 fold (2). pengujian menggunakan cross validation dengan 10 fold. Dari hasil pengujian di dapatkan hasil sebagai berikut : (1). cross validation dengan 5 fold Tabel 2. Hasil percobaan dengan menggunakan 5 fold 1 73,7 Data Uji Fold 3 77,4 2 78,8 4 71 Rata-rata 5 49,1 70% (2) cross calidation dengan 10 fold Tabel 3. Hasil percobaan dengan menggunakan 10 fold Data Uji 1 2 3 4 53,2 33 67,9 52,3 Fold 5 6 51,9 49,1 7 8 9 10 Ratarata 76,9 51,9 44,4 57,4 53,8% Tabel 4. Perbandingan hasil cross validation antara 5 fold dengan 10 fold Fold Data Uji 5 70% 10 53,8% Dengan melihat dari hasil percobaan yang menggunakan metode cross validation di ketahui Correctly Classified Instances paling tinggi adalah pada percobaan dengan menggunakan 5 fold dibandingkan dengan menggunakan 10 fold. ISBN : 978-602-97491-4-4 A-10-6 Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 Gambar 2. Decision tree hasil rekam medis Gambar 2. memberikan informasi bahwa pada kelompok umur “TUA” tanpa membedakan jenis kelamin, wilayah untuk kategori kelompok penyakit yangpaling dominan adalah I00-I99 (Diseases of the circulatory system atau penyakit pada sistemperedaran darah). Kemudian informasi dari kelompok umur Muda dan dewasa untuk perempuan tanpa melihat lokasi tempat tinggalnya, kelompok jenis penyakit yang mempunyai potensi adalah pada O00-O99 (Pregnancy, childbirth and the puerperium atau berkaitan dengan kandungan). Sedangkan untuk jenis kelamin laki-laki mempunyai dua potensi yaitu pada S00-T99 (Symptoms, signs and abnormal clinical and laboratory findings, not elsewhere classified atau kelompok jenis penyakit yang tidak wajar terjadi di wilayah lain) dan A00-B99 (Certain infectious and parasitic diseases atau penyakit infeksi dan parasit). Pada kelompok penderita anak-anak dan bayi terbagi menjadi tiga kelompok penyakit, yangpaling dominan adalah kelompok penyakit A00-B99 (Certain infectious and parasitic diseases atau penyakit infeksi dan parasit), kemudian dilanjutkan dengan kelompok penytakit Z00-Z99 (Factors influencing health status and contact with health services atau faktor yang memengaruhi dan kontak langsung dengan layanan kesehatan) sedangkan minor dari kelompok penyakit pada anak-anak ini adalah P00-P86 (Certain conditions originating in the perinatal period) yang cenderung di derita oleh kelompok anak-anak di pegunungan. KESIMPULAN DAN SARAN Kesimpulan Rekam medis mempunyai atributte yang berisi nilai diskrit, maka decision tree sangat cocok digunakan pada data rekam medis. Data rekam medis mempunyai lebih dari 15 attribute, namun dalam penelitian ini untuk menentukan tingkat kecenderungan penyakit yang diderita oleh sekelompok masyarakat dalam wilayah tertentu hanya di butuhkan 4 atributte saja. Atributte yang mempengaruhi tingkat kecenderungan penderita penyakit dalam sekolmpok wilayah adalah (1) jenis kelamin, (2) Wilayah, (3) Umur, (3) kelompok ICD. Penelitian ini menggunakan metode decision tree J48. Dari 1921 data kotor setelah dilakukan pembersihan data tidak lengkap dan melalui proses seleksi sesuai yang dibutuhkan dalam analisa rekam medis maka didapat data 1628 data bersih. Dari data yang ada dilakukan split untuk digunakan 1/3(542) data training dan 2/3(1082) data test. Pengujian dilakukan menggunakan metode cross ISBN : 978-602-97491-4-4 A-10-7 Prosiding Seminar Nasional Manajemen Teknologi XV Program Studi MMT-ITS, Surabaya 4 Pebruari 2012 validation dengan fold 5 yang mempunyai hasil paling optimal. Dengan melakukan cross validation secara random dari empat atribute yang diujikan ini di dapat informasi gain tertinggi pada kelompok ICD. Pada data rekam medis ini dalam pengujian yang menggunakan pruning maupun unpruning mempunyai hasil yang sama. Dari hasil pengujian keseluruhan data dengan memakai cross calidation 5 fold di dapat akurasi pengujian sebesar 70 %. Dari hasil pohon keputusan memberikan informasi bahwa untuk kelompok usia tua di dominasi dengan kelompok penyakit I00-I99 (atau kelompok penyakit yang berhubungan dengan pembuluh darah. Sedangkan pada kelompok umur anak-anak serta muda dan dewasa mempunyai sebaran kelompok penyakitnya. Saran Penelitian ini menggunakan metode offline dalam melakukan pengolahan dari data base rekam medis yang ada di rumah sakit. Untuk memberikan kemudahan dalam pengambilan sampling data yang akan di olah unhtuk di cari pengetahuan yang ada didalamnya, maka diperlukan interkoneksi database rekam medis dengan system analisa data mining. DAFTAR REFERENSI ICD-10 (International Classification of [http://www.who.int/classifications/icd/en/] diakses Januari 2011 Diseases) Duen-Yian Yeh, Ching-Hsue Cheng, Yen-Wen Chen, A predictive model for cerebrovascular disease using data mining, Expert Systems with Applications 38 (2011) 8970–8977 Jiawei Han and Micheline Kamber, “Data Mining Concepts and Techniques”, Second Edition, 2006 Ian H. Witten and Eibe Frank, ”Data Mining Practical Machine Learning Tools and Techniques”, Morgan Kaufmann Publishers is an imprint of Elsevier., San Francisco, (2005) Berkhin, Pavel. Survey of Clustering Data Mining Techniques. Accrue Software, Inc. 2002. http://www.who.int/en/ , diakses Maret 2011 Krzysztof J. Cios, Witod Pedrycz, “Data Mining A Knowledge Discovery Approach”, 2007 Cabena, P., Hadjinian, P., Stadler, R., Verhees, J., & Zanasi, A. Discovering datamining: From concept to implementation. New Jersey: Prentice Hall. (1997). Remko R.B, Eibe Frank, Mark Hall., “Weka Manual for Version 3.6.6”, Oktober 2011. Daniel T. Larose, “Discovering Knowledge in Data”, 2005 BPPS Ponorogo, “Ponorogo dalam Angka” 2010 ISBN : 978-602-97491-4-4 A-10-8