JURNAL IT : Media Informasi STMIK Handayani Makassar

advertisement
JURNAL IT
VOLUME 14, JUNI 2014
STMIK HANDAYANI
VISUALISASI BANGUNAN PADA MASJID
PENDEKATAN TEKNIK DATA MINING PADA PUSAT DATA
KESEHATAN NASIONAL MENGGUNAKAN MAP VISUALIZATION
M. Adnan Nur
Teknik Informatika STMIK Handayani Makassar
[email protected]
Abstrak
Keberadaan sistem Bank Data Kesehatan Nasional Kementrian Kesehatan RI telah memberikan
kemudahan bagi masyarakat dalam memperoleh informasi kesehatan yang mencakup hingga tingkat
Kabupaten/Kota tetapi informasi yang disajikan masih berupa informasi kuantitatif dimana seluruh data
disajikan dalam tabulasi angka dan belum disediakan penggalian informasi lebih dalam. Penelitian ini
bertujuan untuk menerapkan dan mengkombinasikan beberapa teknik data mining untuk menyajikan
penggalian informasi kualitatif secara dinamis dengan mengkategorikan sistem yang sedang berjalan
sebagai sebuah data warehouse. Metode penelitian yang dilakukan dalam penelitian ini meliputi studi lapang
untuk mengidentifikasi permasalahan dan kebutuhan informasi kesehatan , penelusuran literatur yang
menyangkut pengembangan sistem, perancangan dengan menggunakan Unified Modeling Language dan
implementasi menggunakan bahasa pemprograman PHP. Hasil penelitian berupa penerapan teknik data
mining yang meliputi klasterisasi (clustering) menggunakan algoritma k-means, klasifikasi (classification)
menggunakan algoritma naive bayes dan pola asosiasi (association rules) menggunakan algoritma FPGrowth yang bekerja secara dinamis untuk menjawab kebutuhan pengetahuan informasi kesehatan yang
lebih cepat dan mendalam secara kualitatif. Hasil dari olahan data mining selanjutnya divisualisasi dalam
sebuah Sistem Informasi Geografis (SIG) yang dalam penelitian ini disebut sebagai Map Visulisation untuk
memudahkan dalam memetakan informasi kesehatan berdasarkan provinsi dan kabupaten/kota. Dari hasil
penelitian tersebut dapat disimpulkan bahwa data yang diperoleh dari website bank data kesehatan nasional
mempunyai attribut atau indikator kuantitatif yang seragam sehingga memudahkan dalam melakukan
pengolahan data lebih lanjut.
Kata Kunci : bank data kesehatan, data warehouse, data mining, map visualization.
PENDEKATAN TEKNIK DATA MINING PADA PUSAT DATA KESEHATAN NASIONAL
MENGGUNAKAN MAP VISUALISATION
57
VOLUME 14, JUNI 2014
JURNAL IT
STMIK HANDAYANI
I. PENDAHULUAN
Keberadaan teknologi sebagai media dalam pendistribusian informasi dalam bidang
kesehatan belakangan ini semakin dibutuhkan. Jumlah data kesehatan yang terus meningkat dan
kebutuhan penyajian informasi yang cepat dan akurat mendorong penerapan teknologi diberbagai
aspek bidang kesehatan. Di Indonesia, terbitnya UU Nomor 36 Tahun 2009 Pasal 169 yang
menyatakan bahwa “Pemerintah memberikan kemudahan kepada masyarakat untuk memperoleh
akses terhadap informasi kesehatan dalam upaya meningkatkan derajat kesehatan masyarakat”
menjadi dasar dalam penerapan teknologi untuk penyajian informasi kesehatan tersebut. Penerapan
teknologi ini tentunya membutuhkan metode-metode baru dalam pengolahan dan penyajian
informasinya agar dapat dimanfaatkan oleh berbagai kalangan seperti akademisi, pemerintahan
dan masyarakat umum.
Saat ini, Departemen Kesehatan RI telah memiliki sebuah sistem yang disebut Bank Data
Kesehatan Nasional yang dapat diakses melalui websitenya http://www.bankdata.depkes.go.id.
Sistem menyediakan informasi kuantitatif berdasarkan indikator kependudukan, pendidikan,
penyakit, upaya kesehatan, kesehatan lingkungan, tenaga kesehatan dan sarana kesehatan. Dimana
setiap informasi tersebut dapat disajikan menurut wilayah provinsi dan kabupaten/kota untuk
setiap tahunnya. Dari segi ketersediaan informasi yang ada, sistem tersebut masih dikategorikan
sebagai sebuah data warehouse dan belum menyajikan fasilitas penggalian informasi tertentu
untuk kebutuhan pengambilan kebijakan sehingga membutuhkan pengolahan data lebih lanjut
yang tentunya membutuhkan waktu. (Architect Dkk, 2011). Sebelumnya, telah terdapat sebuah
penelitian yang menyangkut penggalian informasi data kesehatan. Penelitian tersebut menyajikan
sebuah survey tentang teknik dalam knowledge discovery in database (KDD). Namun, hasil
penelitian hanya fokus pada tahap analisis dan deskripsi penerapannya . Tahap perancangan dan
implementasi belum dilakukan pada penelitian tersebut. (Canlas, 2009).
Teknik data mining yang meliputi klasterisasi (clustering), klasifikasi (classification) dan
pola asosiasi antar data (association rules) dianggap perlu diterapkan secara fleksibel pada Bank
Data Kesehatan tersebut. Kedinamisan penggunaan teknik data mining memungkinkan penyajian
berbagai jenis kebutuhan informasi yang belum diprediksi sebelumnya dapat dilakukan, misalnya:
a. Pengelompokan tingkat penderita penyakit tertentu berdasarkan indikator jumlah penderita
penyakit untuk setiap wilayah provinsi maupun kota/kabupaten.
b. Mencari keterkaitan antara indikator kesehatan lingkungan dan indikator sarana kesehatan
terhadap tingkat penderita penyakit tertentu pada suatu wilayah.
c. Mencari keterkaitan antara indikator tenaga kesehatan dan indikator sarana kesehatan terhadap
data upaya kesehatan.
Dari segi visualisasi, pendekatan geografis lebih memudahkan dalam penyajian informasi
menurut penyebaran lokasi atau wilayah. Pemetaan informasi kesehatan berdasarkan provinsi
maupun kabupaten/kota secara mendalam dapat dilakukan dengan cepat melalui penyajian
peta/map yang interaktif. (Bill, 2005).
Dari
beberapa
permasalahan
tersebut,
penelitian
ini
bertujuan
untuk
mengimplementasikan beberapa teknik data mining secara fleksibel berdasarkan Bank Data
Kesehatan yang tersedia dan selanjutnya hasil olahan divisualisasikan melalui peta (map) interaktif
, grafik dan tabel yang diharapkan mampu memenuhi kebutuhan informasi kesehatan bagi semua
kalangan dan sebagai pendukung keputusan yang akurat bagi penentu kebijakan.
PENDEKATAN TEKNIK DATA MINING PADA PUSAT DATA KESEHATAN NASIONAL
MENGGUNAKAN MAP VISUALISATION
58
VOLUME 14, JUNI 2014
JURNAL IT
STMIK HANDAYANI
II. BAHAN DAN METODE
2.1. Lokasi dan Rancangan Penelitian
Penelitian dilaksanakan selama bulan Februari 2013 sampai dengan bulan Juli 2013.
Penelitian ini dilakukan di Kampus Universitas Hasanudin dan Website Pusat Data Kesehatan
Departemen Kesehatan Nasional.
Penelitian ini diawali dari ketersediaan informasi kesehatan nasional yang saat ini masih
terbatas pada penyajian data kuantitaif berupa data kontinu. Ketersediaan informasi meliputi nilai
indikator kesehatan untuk provinsi dan kabupaten setiap tahunnya yang disajikan melalui tabulasi
dan grafik. Informasi kesehatan tersebut dapat diakses melalui sebuah sistem yang disebut website
pusat data kesehatan nasional.
Melihat keterbatasan penyajian informasi saat ini, maka penelitian ini mengusulkan
sebuah pengembangan sistem dalam hal pengolahan data kuntatif melalui pendekatan teknik data
mining. Pengolahan data ini meliputi metode klasterisasi (clustering), klasifikasi (classification)
dan pola asosiasi (asosiation rule). Ketersedian data kuantitatif sebagai data masukan untuk setiap
metode tersebut tentunya membutuhkan analisis terlebih dahulu karena tidak semua metode
menerima masukan dalam bentuk data kuantitatif atau kontinu. Untuk kebutuhan data pada metode
klasterisasi (clustering) menggunakan algoritma K-mean telah sesuai dengan ketersediaan data
yaitu berupa data kontinu. Oleh karena itu, tidak dibutuhkan lagi preprocessing dan data tersebut
dapat langsung digunakan sebagai masukan/input pada sistem. Diagram analisis data untuk metode
klasterisasi dapat dilihat pada gambar 1.
Untuk metode klasifikasi (classification), data masukan yang dibutuhkan berupa
sekumpulan record (training set) dimana setiap record meliputi himpunan attributes yang salah
satu attributnya merupakan kelas/class label. Attribute kelas/class label merupakan data
kategorikal sehingga data kuntitatif yang tersedia harus melalui preprocessing terlebih dahulu.
Transformasi data kontinu ke dalam bentuk kategorikal dilakukan dengan proses
klaterisasi/clustering menggunakan algoritma K-mean. Preprocessing ini diterapkan pada data
yang ingin dijadikan sebagai data kelas/class label. Selanjutnya, estimasi terhadap hasil klasifikasi
menggunakan fungsi densitas gauss karena data yang ingin diklasifikasikan merupakan data
kontinu. Diagram analisis data untuk metode klasifikasi dapat dilihat pada gambar 2.
Metode pola asosiasi (association rules) dengan algoritma Fp-Growth memerlukan data
dengan attribut biner, sehingga diperlukan preprocessing untuk tranformasi data primer yang
berupa attribut kontinu ke bentuk attribut biner. Transformasi ini dapat dilakukan dengan
menerapkan clustering/klasterisasi dengan jumlah klaster dua. Dimana data dengan centroid
tertinggi akan bernilai 1 dan centroid terendah bernilai 0. Hasil klaster inilah yang dijadikan
masukan untuk algoritma Fp-Growth dalam penerapan metode pola asosiasi. Diagram analisis data
untuk metode pola dapat dilihat pada gambar 2.
2.2. Populasi dan Sampel
Populasi dalam penelitian ini adalah nilai indikator kesehatan untuk seluruh provinsi dan
kabupaten/kota setiap tahunnya. Sampel dilakukan terhadap nilai indikator kesehatan pada tahun
2006 hingga 2008 untuk tingkat provinsi dan kabupaten/kota karena pada tahun tersebut sebagian
besar kelengkapan data telah terpenuhi.
2.3. Metode Pengumpulan Data
Dalam penelitian ini dilakukan Metode penelusuran literatur (library research) dan studi
lapangan (field research) terhadap sistem pusat data kesehatan nasional untuk mengidentifikasi
masalah dan untuk memperoleh attribut serta nilai indikator. Untuk perancangan dan desain sistem
digunakan pendekatan Unified Modeling Language yaitu menggambarkan bagaiamana
keterlibatan pengguna dengan sistem, interaksi antarmuka sistem dan alur kerja sistem. Untuk
pengujian dan evaluasi sistem digunakan beberapa tahapan pengujian, yaitu pengujian fungsional
sistem dan menghitung waktu eksekusi proses sistem.
PENDEKATAN TEKNIK DATA MINING PADA PUSAT DATA KESEHATAN NASIONAL
MENGGUNAKAN MAP VISUALISATION
59
VOLUME 14, JUNI 2014
JURNAL IT
STMIK HANDAYANI
2.4. Analisis Data
Pada penelitian ini, analisis data dilakukan menggunakan metode Black Box dalam
pengujian data terhadap metode yang diterapkan serta menghitung waktu eksekusi proses sistem
untuk sisi server dan sisi client.
III. HASIL
Berdasarkan hasil analisis data sebelumnya, metode klasterisasi, klasifikasi dan pola
asosiasi yang diterapkan pada sistem yang dikembangkan dapat berjalan dengan baik. Untuk sisi
server, waktu eksekusi cukup cepat dibandingkan waktu eksekusi pada sisi client. Akumulasi
waktu eksekusi tersebut relatif bergantung pada instrumen penelitian yang digunakan.
3.1. Metode Pendekatan
Penelitian dimulai dengan penelusuran literatur (library research) yang terkait dengan
pengembangan sistem dan studi lapangan (field research) terhadap sistem pusat data kesehatan
nasional yang tersedia untuk mengidentifikasi masalah dan bagaimana pengembangan sistem yang
dibutuhkan. Untuk tahap perancangan dan desain sistem digunakan pendekatan Unified Modeling
Language yaitu menggambarkan bagaiamana keterlibatan pengguna dengan sistem, interaksi
antarmuka sistem dan alur kerja sistem. Untuk pengujian dan evaluasi sistem digunakan beberapa
tahapan pengujian, yaitu pengujian fungsional sistem dan menghitung waktu eksekusi proses
sistem.
3.2. Tahapan Penelitian
Studi lapangan (field research) terlebih dahulu dilakukan untuk mengidentifikasi masalah
dan kubutuhan pengembangan sistem. Selanjutnya penelusuran literatur yang terkait dengan
pengembangan sistem yang ingin dilakukan. Perancangan sistem di implementasi berdasarkan
penerapan metode pada proses kerja sistem.
Adapun tahapan penelitian adalah sebagai berikut: Tahap Analisis Masalah dan Kebutuhan, Tahap
Penelusuran Literatur, Tahap Desain dan Perancangan Sistem, Tahap Implementasi serta Tahap
Pengujian dan Evaluasi Sistem
3.3. Perancangan Sistem
Sistem yang akan dikembangkan dalam penelitian ini berbasis web dan melibatkan
pengguna dan pengelola sistem. Pengguna sistem dalam hal ini adalah pengunjung website dan
pengelola sistem adalah Administrator website. Pengembangan sistem ini juga akan melibatkan
penggunaan database yang dalam perancangan sistem dianggap sebagai sebuah sistem eksternal.
Perancangan ini menggunakan pemodelan Unified Modeling Language (UML) yang merupakan
metode pemodelan berbasis objek. Perancangan diawali dengan merancang use case Publik dan
Use Case Administrator. Use Case Publik diperuntukkan untuk pengunjung atau pengguna
sedangkan Use Case Administrator untuk pengelola.
Perancangan selanjutnya dilakukan melalui desain Class diagram yang mendeskripsikan
jenis-jenis objek dalam sistem dan berbagai hubungan statis diantara objek tersebut. Diagram ini
mendefinisikan kelas-kelas yang akan dibuat untuk membangun sistem. Mengacu pada Use Case,
pada tahap ini penelitian merancang dua jenis Class Diagram yaitu Class Diagram Publik dan
Class Diagram Administrator. Tahap berikutnya melakukan desian untuk sequence diagram dan
activity diagram yang mengambar secara detail bagaimana interaksi antaramuka sistem yang
dikembangkan.
PENDEKATAN TEKNIK DATA MINING PADA PUSAT DATA KESEHATAN NASIONAL
MENGGUNAKAN MAP VISUALISATION
60
VOLUME 14, JUNI 2014
JURNAL IT
STMIK HANDAYANI
IV. PEMBAHASAN
Penelitian ini menunjukkan bahwa impementasi dari metode data mining yang diterapkan
pada sistem digunakan untuk menggali informasi berupa pengelompokan data indikator kesehatan
tertentu yang tersedia melalui klasterisasi, melakukan klasifikasi data untuk memprediksi kategori
dari suatu data baru dan mencari tingkat keterkaitan antar indikator melalui pola asosiasi. Berikut
penjelasan dari implementasi metode-metode data mining tersebut.
4.1 Klasterisasi (Clustering) Data
Klasterisasi (Clustering) Data bertujuan untuk memisahkan nilai-nilai dari indikator
kesehatan ke dalam beberapa kelompok yang mempunyai perbedaan jarak nilai signifikan antar
kelompok yang satu dengan yang lainnya. (Wu, 2012). Nilai-nilai indikator tersebut diperoleh
berdasarkan wilayah dan tahun tertentu sesuai pilihan pengguna sistem.
Impelementasi klasterisasi pada penelitian ini menggunakan algoritma K-Mean dengan
memanfaatkan bahasa pemprograman PHP. Algoritma K-Mean dinilai cukup efisien yang
ditunjukkan dengan kompleksitasnya, dengan catatan banyaknya objek data harus jauh lebih besar
dari jumlah klaster yang dibentuk dan banyaknya iterasi.. Selain itu, algoritma ini akan terhenti
dalam kondisi optimum lokal dan bekerja pada attribut numerik. (Andayani, 2007)
Proses dari algoritma K-Mean diimplementasikan dengan membuat dua class yang
disesuaikan dengan perancangan sebelumnya. Class tersebut antara lain class Objek KMean dan
Class KMean. Class Objek KMean akan membentuk objek yang mewakili sebuah record dari
sekumpulan record yang ingin diklaster sedangkan class KMean merupakan class utama dari
proses klasterisasi.
4.2. Klasifikasi (Classification) Data
Klasifikasi ini bertujuan untuk menentukan suatu nilai indikator kesehatan kesalah satu
kategori indikator kesehatan lainnya yang telah didefinisikan. Kemudian indikator-indikator
tersebut menjadi acuan untuk memprediksi kategori indikator dari nilai indikator baru yang ingin
dimasukkan. Impementasi dari metode klasifikasi menggunakan algoritma Naive Bayes. Naive
Bayes merupakan salah satu algoritma klasifikasi pembelajaran induktif yang paling efektif dan
efisien untuk machine learning dan data mining. Performa naive bayes yang kompetitif dalam
proses klasifikasi walaupun menggunakan asumsi keindependen attribute (tidak ada kaitan antar
attribute). (Shadiq, 2009) .
Terkait dengan analisis data sebelumnya, proses klasifikasi membutuhkan preprocessing
dalam penentuan label kategori yang dalam penelitian ini disebut sebagai indikator kelas.
Implementasi dari preprocessing dan proses klasifikasi tersebut menggunakan algoritma Naïve
Bayes dan dibuat dalam sebuah class dengan nama NaiveBayes.
4.3. Pola Asosiasi (Association Rule)
Pola asosiasi (association rules) data merupakan teknik data mining untuk menemukan
aturan asosiatif antara suatu kombinasi indikator kesehatan. Penting tidaknya suatu aturan asosiatif
dapat diketahui melalui dua parameter antara lain support (nilai penunjang) yaitu persentase
kombinasi indikator dalam sekumpulan record dan confidence (nilai kepastian) yaitu kuatnya
hubungan antar indikator dalam aturan asosiatif.(Astuti, 2013).
Pola asosiasi data ini
diimplementasikan menggunakan algoritma Fp-Grotwh dengan membuat lima class antara lain
Class Fp-Growth, Class Fp-Tree, Class Node, Class Path dan Class Asosiasi Indikator.
Implementasi arsitektur sistem dari ketiga metode tersebut dapat dilihat pada gambar 4 dan
antaramuka sistem pada gambar 5.
PENDEKATAN TEKNIK DATA MINING PADA PUSAT DATA KESEHATAN NASIONAL
MENGGUNAKAN MAP VISUALISATION
61
VOLUME 14, JUNI 2014
JURNAL IT
STMIK HANDAYANI
V. KESIMPULAN DAN SARAN
Berdasarkan penelitian yang telah dilakukan, dapat ditarik beberapa kesimpulan antara
lain data yang diperoleh dari website Bank Data Kesehatan Nasional yang dalam penelitian ini
dikategorikan sebagai data warehouse mempunyai attribut atau indikator kuantitatif yang seragam
untuk setiap wilayah dan tahun sehingga memudahkan dalam melakukan pengolahan data lebih
lanjut. Adapun saran peneliti yaitu terdapatnya beberapa algoritma untuk klasterisasi, klasifikasi
dan asosiasi tentunya memberikan banyak alternatif terhadap pengembangan sistem. Namun untuk
efektifitas pengolahan data, ada baiknya untuk pengembangan sistem selanjutnya dilakukan
observasi terlebih dahulu terhadap setiap algoritma yang ada dengan menyesuaikan jenis dan
karakteristik data pada data warehouse. Menyangkut data warehouse, sebaiknya pengembangan
sistem nantinya juga menyediakan fasilitas web service untuk layanan pembaharuan data yang
diperuntukkan pada wilayah kabupaten. Sehingga pemasukan data tidak terpusat lagi.
DAFTAR PUSTAKA
[1] Andayani, Sri. (2007). Pembentukan Cluster dalam Knowledge Discovery In Database
denganAlgoritma K-Means. Yogyakarta: Jurnal Universitas Negeri Yogyakarta.
[2] Architect, Chieft; Guerra, Joseph; President Vice. (2011). Why You Need a Data Warehouse.
Chesire: Journal of Andrews Consulting Groups.
[3] Canlas Jr, Ruben D. (2009). Data Mining In Healthcare : Current Application And Issues.
Australia: Journal of Carniege Mellon University.
[4] Hermawati Fajar, Astuti. (2013). Data Mining. Yoyakarta: Andi Publiser.
[5] Kropla, Bill. (2005) .Beginning MapServer. USA: Apress.
[6] Shadiq, M.Ammar. (2009). Keoptimalan Naïve Bayes Dalam Klasifikasi. Bandung: Jurnal
Universitas Pendidikan Indonesia.
[7] Wu, Juinjie. (2012). Advances In K-Means Clustering. Beijing: Journal Of Departement
Management Science and Engineering School Of Economics And Management Tsinghua
University.
PENDEKATAN TEKNIK DATA MINING PADA PUSAT DATA KESEHATAN NASIONAL
MENGGUNAKAN MAP VISUALISATION
62
Download