5 BAB II TINJAUAN PUSTAKA 2.1. Demam Berdarah Dengue (DBD) 2.1.1. Definisi Demam Berdarah dengue (DBD) adalah demam virus akut yang ditularkan oleh nyamuk Aedes Aegypti, disertai sakit kepala, nyeri otot, sendi dan tulang, penurunan jumlah sel darah putih dan timbulnya ruam – ruam pada kulit. DBD ini sering pula disertai dengan pembesaran hati serta manifestasi pendarahan dan apabila terjadi kegagalan sirkulasi darah dan pasien terjatuh maka penderita dapat mengalami apa yang disebut dengue shock syndrome (DSS) (DINKES DKI Jakarta, Demam Berdarah Aedes Aegypti, www.dinkesdkijarta.gov). 2.1.2. Penyebab DBD DBD adalah penyakit pada daerah tropis seperti halnya Indonesia, ditularkan oleh nyamuk Aedes aegypti yang menggigit di siang dan sore hari. Nyamuk ini membawa virus yang terdiri dari 1 diantara 4 serotipe virus yang berbeda antigen. Virus ini termasuk dalam kelompok Flavivirus dan serotipenya adalah DEN-1, DEN-2, DEN-3, DEN-4. Infeksi oleh salah satu jenis serotipe ini akan memberikan kekebalan seumur hidup tetapi tidak menimbulkan kekebalan terhadap serotipe yang lainnya, sehingga seseorang yang hidup dalam daerah endemis DBD dapat mengalami infeksi sebanyak 4 kali dalam hidupnya. Masa tunas virus dengue berkisar 3 – 15 hari. Pada demam dengue (Dengue Fever) permulaan sakit biasanya mendadak. Pada umumnya ditemukan sindrom trias yaitu demam tinggi, nyeri pada anggota badan dan timbulnya ruam pada kulit. Lama demam berkisar 4 – 5 hari. Ruam berupa bercak kemerah-merahan bersifat makulopapular yang hilang pada penekanan. Penderita demam dengue mengalami pembesaran kelenjar getah bening servikal. Beberapa ahli menyebut pembesaran ini sebagai tanda Castelani dan merupakan ciri khas pada demam dengue. Pada demam dengue jarang dijumpai manifestasi perdarahan Faktor resiko penting pada DBD adalah serotipe virus dan faktor penderita seperti umur dan status imunitas. 6 2.1.3. Kasus DBD di Wilayah DKI Jakarta Untuk wilayah DKI Jakarta sejak tahun 2001 sampai dengan 2006 ini, kasus DBD merupakan kasus yang terus menerus terjadi, bahkan sudah bisa disebut sebagai suatu siklus tahunan yang terus berulang, bahkan pada tahun 2004 bulan februari dan maret, terjadi KLB DBD (7072 kasus) untuk wilayah DKI Jakarta secara umum. 8000 7000 6000 KASUS 5000 4000 3000 2000 1000 0 JAN PEB MAR APRIL MEI JUNI JULI AGST SEP OKT NOP DES 2001 919 1016 1091 625 907 651 706 511 341 244 232 194 2002 84 386 689 933 1131 879 489 328 207 192 205 227 2003 540 784 1454 2318 2745 2685 1070 474 380 473 471 677 2004 1625 7072 7052 1478 702 573 500 368 281 305 256 428 2005 1172 2484 1625 1236 1469 1347 1385 2524 1903 2147 2624 3537 2006 2470 2433 2876 2981 1310 Gambar 1. Jumlah Kasus DBD Bersumber Surveilans Aktif RS Per Bulan di DKI Jakarta, 2001 – 2006 (s.d 17 Mei 2006) Proses pengendalian nyamuk Aedes aegypti sebagai vector pembawa penyakit DBD dilakukan dengan berbagai cara, antara lain : Fogging (penyemprotan di daerah yang posistif atau negative DBD), pemberian abate sebagai cara pengendalian jentik nyamuk, program 3M berkesinambungan diseluruh wilayah DKI Jakarta. yang dilakukan secara 7 Untuk melihat keefektifitasan dan sebagai kontrol dari kegiatan tersebut pihak Dinkes DKI Jakarta mencoba untuk memetakan daerah kecamatan di wilayah DKI Jakarta menjadi 3 bagian berdasarkan laporan survailence tentang kejadian DBD, yaitu : Tabel 1. Klasifikasi Daerah Berdasarkan Kasus DBD di Suatu Kecamatan KATEGORI KETENTUAN MERAH Dalam 1 minggu terjadi lebih dari 5 kasus DBD KUNING Dalam 1 minggu terjadi 1- 5 kasus DBD HIJAU 2.2 Dalam 3 minggu berturut-turut tidak terjadi kasus DBD. Data Mining Dalam 2 dekade ini telah terjadi peningkatan data yang sangat besar dari segala sektor dalam kehidupan sehari-hari. Di estimasikan setiap bulannya terjadi peningkatan data 20x lebih cepat dari bulan sebelumnya (Fayyad, PiatetskyShapiro dan Smyth 1996). Hal ini dapat mengakibatkan terjadinya penumpukan data yang berakibat pada kemungkinan tersisihnya data – data penting yang berguna. Data mining atau Knowledge discovery in Database (KDD) mempunyai kemampuan untuk melakukan pencarian dan menemukan data penting yang tersisih tersebut. Gambar 2. Peningkatan Data Dalam 2 Dekade Terakhir (Sumber : Fayyad, Piatetsky-Shapiro dan Smyth ,1996) 8 Berbagai definisi dari data mining dari beberapa refrensi, adalah sebagai berikut ; Data mining adalah proses dalam mencari berbagai model, kesimpulan dan nilai dari kumpulan data yang diberikan (Kantardzic, 2003). Data mining adalah proses menyarikan informasi dari kumpulan – kumpulan data (Brookshear, 2003) . Dari berbagai definisi tersebut, dapat di ambil suatu kesimpulan bahwa data mining berkaitan dengan mencari pola dan relasi yang tersembunyai dalam data yang besar dengan tujuan prediksi atau deskripsi. Terdapat 2 jenis data mining, yaitu directed data mining dan undirected data mining. Directed data mining digunakan jika sudah diketahui secara pasti apa yang akan di prediksi, sehingga proses pencarian pola dan relasi dapat langsung diarahkan pada tujuan tertentu, misalnya untuk membuat prediksi tentang sesuatu yang tidak kita ketahui, model ini sering di sebut model prediksi. Model seperti ini menggunakan pengalaman untuk menentukan nilainya. Salah satu kunci dari model prediksi ini adalah data yang cukup besar dengan hasil yang sudah diketahui, sehingga dapat digunakan dalam melatih model tersebut. Undirected data mining berkaitan dengan menelusuri pola dan relasi dalam data, pada undirected data mining ini, tujuan yang ingin dicapai adalah bagaimana model yang kita buat dapat memberikan solusi atas persoalan yang kita permodelkan. Dalam prakteknya, data mining sering merupakan gabungan dari keduanya. Proses dalam data mining adalah suatu proses yang interaktif dan iterative, melibatkan beberapa langkah dengan beberapa pertimbangan yang harus di buat oleh penggunanya. Fayyad, Piatetsky-Shapiro dan Smyth (1996) memberikan beberapa langkah dasar dalam mempersiapkan data mining 1. Mempersiapkan data set : memilih data, atau memfokuskan pada sample data yang akan kita cari pola atau relasinya 2. Membersihkan data dan memproses data 3. Mengurangi data, dalam proses ini menemukan feature yang berguna untuk merepresentasikan data disesuaikan dengan tujuan 9 4. Menyesuaikan tujuan dari data mining dengan metode data mining yang ada, seperti clustering, regression, classification, fuzzy 5. Explorasi analisis, model dan hipotesis, dalam proses ini di pilih algoritma, metode yang akan digunakan dalam mencari pola dari suatu data set. 6. Proses Data mining, mencari pola dan relasi dari data set. 7. Interpretasi pola – pola yang di dapat , dalam proses ini proses dapat berulang (iteratif) dari 1 sampai 7. Pada proses ini juga dapat dilengkapi dengan visualisasi dari pola yang didapat. 8. Menggunakan hasil dari pola dan relasi yang ditemukan. Pada proses ini dilakukan pemeriksaan dan perbaikan Langkah – langkah dasar ini di ilustrasikan pada gambar 3, Gambar 3 . Pembuatan Model dalam DataMining (adaptasi dari Berry and Linoff) 10 2.2.1. Klasifikasi dan Prediksi Klasifikasi dan prediksi adalah dua bentuk analisis data yang bisa digunakan untuk mengekstrak model dari data yang berisi kelas-kelas atau untuk memprediksi trend data yang akan datang. Klasifikasi memprediksi data dalam bentuk katagori, sedangkan prediksi memodelkan fungsi-fungsi dari nilai yang kontinyu. Klasifikasi data dilakukan dengan dua tahapan. Pada tahap pertama, model dibentuk dengan menentukan kelas-kelas data. Model dibentuk dengan menganalisa database tuples yang dinyatakan dengan atribut.Dalam konteks klasifikasi, data tuples disebut juga disebut Data sample. Data sample ini membentuk training data set yang selanjutnya dianalisa untuk membangun model. Setiap sample yang membentuk training set disebut training sample dan secara acak dipilih dari sample population. Karena label kelas dari setiap training sample telah diketahui, maka tahapan ini disebut juga supervised learning. Supervised learning ini kebalikan dari unsupervised learning, dimana pada unsupervised learning label kelas dari setiap training sample tidak diketahui. Pada tahap kedua, model digunakan untuk klasifikasi. Pertama, akurasi model prediksi (atau classifier) ditentukan menggunakan data test. Sample ini secara acak dipilih, independent dengan training sample. Akurasi dari model pada test set adalah prosentase dari sample test set yang diklasifikasikan oleh model dengan benar. Untuk setiap sample test, label kelas yang telah diketehui dibandingkan dengan model kelas prediksi yang telah dilatih untuk sample tersebut. Jika akurasi dari model bisa diterima, maka model bisa digunakan untuk mengklasifikasikan data tuples dimana label kelasnya tidak diketahui. Misalnya, classification rule yang telah dihasilkan dari analisis data dari pelanggan yang ada dapat digunakan untuk memprediksi credit rating dari pelanggan baru. Prediksi bisa dipandang sebagai pembentukan dan penggunaan model untuk menguji kelas dari sample yang tidak berlabel, atau untuk menguji nilai atau rentang nilai dari suatu atribut. Dalam pandangan ini, klasifikasi dan regresi adalah dua jenis masalah prediksi, dimana klasifikasi digunakan untuk memprediksi nilai-nilai diskrit atau nominal, sedangkan regresi digunakan untuk memprediksi nilai-nilai yang kontinyu. Untuk selanjutnya penggunaan istilah prediction untuk memprediksi kelas yang berlabel disebut classification, dan 11 pengggunaan istilah prediksi untuk memprediksi nilai-nilai yang kontinyu sebagai prediction (Han & Kamber, 2001). 2.2.2 Metodologi Data mining Ada beberapa konsep yang penting pada data mining. Konsep pertama berkaitan dengan mencari pola di dalam data. Biasanya berupa kumpulan data yang sering muncul. Tetapi secara umum berupa suatu daftar atau pola data yang muncul lebih sering dari yang diharapkan saat dilakukan secara acak. Konsep yang kedua adalah sampling, yang bertujuan untuk memperoleh keterangan mengenai populasi dengan mengamati hanya sebahagian saja dari populasi itu. Hal lain yang juga penting yang berhubungan dengan data mining adalah validasi model prediksi yang muncul dari algoritma data mining. Model digunakan untuk membuat prediksi tentang suatu record yang menggambarkan keadaan nyata yang baru, dan model terbatas hanya merefleksikan basis data histori dimana model tersebut dibuat. Model adalah deskripsi dari data historis dimana model tersebut dibangun untuk bisa diterapkan ke data baru dengan tujuan membuat prediksi tentang nilai-nilai yang terputus atau untuk membuat pernyataan tentang nilai yang diharapkan, sedangkan Pola adalah suatu kejadian atau kombinasi kejadian dalam suatu basis data yang terjadi atau muncul lebih sering dari yang diharapkan (Berson et al., 2001). Gambar proses pembuatan datamining dengan menggunakan konsep Berson et al disajikan dalam gambar berikut ini Data Historis Pembuatan Model 143 Record Model Prediksi Gambar 4. Model proses pembuatan data mining Sumber: Berson, 2001. 12 2.2.3. Teknik Data mining Ada tiga hal pokok yang harus diperhatikan untuk keberhasilan penerapan data mining, yaitu; teknik data mining, data itu sendiri, dan model data. Teknik adalah pendekatan umum untuk memecahkan masalah, dan biasanya terdapat banyak cara yang bisa digunakan. Masing-masing cara mempunyai algoritma nya sendiri-sendiri. Istilah teknik digunakan untuk menunjukkan pendekatan konseptual untuk menyaring informasi dari data. Algoritma menunjukkan detil tahap demi tahap dari cara tertentu untuk mengimplementasikan suatu teknik. Data mining bisa berupa predictive atau descriptive. Perbedaan ini menunjukkan tujuan dari penggunaan data mining. Tujuan utama predictive data mining adalah mengotomatisasikan proses pembuatan keputusan dengan membuat model yang punya kemampuan untuk melakukan prediksi atau mengestimasi suatu nilai. Umumnya hasil dalam predictive data mining akan langsung ditindak lanjuti Sehingga tolok ukur yang paling penting pada model adalah akurasinya. Data mining sering juga bersifat descriptive. Tujuan utama descriptive data mining adalah untuk menggali pola yang ada di dalam data. Descriptive data mining sering menghasilkan action, tetapi bukan berupa urutan aksi yang bisa diotomatisasikan secara langsung dari hasil model (Berry & Linoff, 2000). Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari data dalam suatu basis data. Clustering, Association, dan Sequential mining adalah beberapa contoh dari teknik descriptive mining. Predictive mining, yaitu proses untuk menemukan pola dari data untuk membuat prediksi. Classification, Regression dan Deviation adalah teknik dalam predictive mining. 2.2.3.1 Association Rule Association rule merupakan salah satu teknik data mining yang paling banyak digunakan dalam penelusuran pola pada sistem pembelajaran unsupervised. Metodologi ini akan mengambil seluruh kemungkinan pola-pola yang diamati dalam basis data. Association rule menjelaskan kejadian-kejadian yang sering muncul dalam suatu kelompok. Misalnya metodologi ini bisa digunakan untuk menganalisa produk-produk mana saja yang sering dibeli oleh 13 seorang pelanggan secara bersamaan (analisa keranjang belanja). Hasil analisis tersebut bisa digunakan untuk menentukan peletakan produk di toko. Satu itemset adalah himpunan bagian A dari semua kemungkinan item I. Satu itemset yang mengandung i item disebut i-itemset. Prosentase transaksi yang mengandung itemset disebut support. Untuk suatu itemset yang akan diamati, support-nya harus lebih besar atau sama dengan nilai yang dinyatakan oleh user, sehingga itemset tersebut dikatakan sering muncul (frequent). Bentuk umum aturan asosiasi adalah A1,A2,…,An → B1,B2,…,Bm, yang berarti jika item Ai muncul, item Bj juga muncul dengan peluang tertentu. Misalkan X adalah itemset. transaksi T dikatakan mengandung X jika dan hanya jika X ⊆ T. Aturan X ⇒ Y menyatakan himpunan basis data transaksi dengan tingkat kepercayaan (confidence) C, jika C% dari transaksi dalam D yang mengandung X juga mengandung Y. Rule X ⇒ Y mempunyai support dalam transaksi set D jika S% dari transaksi dalam basis data berisi X ∪ Y. Tingkat kepercayaan menunjukkan kekuatan implikasi, dan support menunjukkan seringnya pola terjadi dalam rule. Sebagai contoh diberikan aturan : A, B ⇒ C dengan S = 0.01 dan C = 0.8. Hal ini berarti bahwa 80% dari semua pelanggan yang membeli A dan B juga membeli C, dan 1% dari semua pelanggan membeli ketiga item tersebut. Mining association rule dilakukan dalam dua tahap, yaitu 1. Mencari semua association rule yang mempunyai minimum support S min dan minimum confidence Cmin. Itemset dikatakan sering muncul (frequent) jika Support(A) ≥ Smin. 2. Menggunakan itemset yang besar untuk menentukan association rule untuk basis data yang mempunyai tingkat kepercayaan C di atas nilai minimum yang telah ditentukan (Cmin.). 2.2.3.2 Classification-Based Association Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan menerapkan konsep association rule mining dalam masalah klasifikasi. Ada beberapa metode yang bisa digunakan, antara lain association rule clustering system (ARCS) dan associative classification (Han & Kamber, 2001). Metode 14 ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan association rule mining dalam bentuk Aquant1 ∧ Aquant2 ⇒ Acat, dimana bentuk Aquant1 dan Aquant2 adalah data test yang atributnya punya rentang nilai, Acat menunjukkan label kelas untuk atribut kategori yang diberikan dari training data. Metode associative classification mining menghasilkan aturan dalam bentuk condset ⇒ y, dimana condset adalah sekumpulan item dan y adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule mempunyai support s jika s% dari sample dalam data set yang mengandung condset dan memiliki kelas y. Aturan yang sesuai dengan minimum confidence disebut accurate. Aturan mempunyai confidence c jika c% dari sample dalam data set yang mengandung condset memiliki kelas y. Jika beberapa rule mempunyai condset yang sama, maka rule dengan confidence tertinggi dipilih sebagai possible rule (PR). Metode associative classification mining menggunakan algoritma association rule, seperti algoritma Appriori untuk menghasilkan association rule, kemudian memilih sekelompok aturan yang mempunyai kualitas tinggi dan menggunakan aturan tersebut untuk memprediksi data. Associative classification masih kurang efisien karena seringkali menghasilkan aturan dalam jumlah yang besar (Yin & Han, 2003). Metode classification-based association lainnya adalah CPAR (Classification based on Predictive Association Rule). Algoritma ini mengambil ide dari FOIL (First Order Inductive Leaner) dalam menghasilkan aturan dan mengintegrasikannya dengan associative classification. 2.2.4. Algoritma Appriori Algoritma apriori menghitung seringnya itemset muncul dalam basis data melalui beberapa iterasi. Setiap iterasi mempunyai dua tahapan; menentukan kandidat dan memilih serta menghitung kandidat. Pada tahap pertama iterasi pertama, himpunan yang dihasilkan dari kandidat itemset berisi seluruh 1-itemset, yaitu seluruh item dalam basis data. Pada tahap kedua, algoritma ini menghitung support-nya mencari melalui keseluruhan basis data Pada akhirnya hanya iitemset dengan batas minimum tertentu saja yang dianggap sering muncul 15 (frequent). Sehingga setelah iterasi pertama, seluruh i-itemset yang sering muncul akan diketahui. Pada iterasi kedua, algoritma appriori mengurangi sekelompok kandidat itemset yang dihasilkan dari iterasi pertama dengan menghapus kandidat itemset yang tidak sering muncul. Penghapusan ini berdasarkan pengamatan yaitu apakah itemset tersebut sering muncul atau tidak. 1. k = 1 2. C1 = I (semua item) 3. While Ck > 0 ( a ). Sk = Ck ( b ).Ck + 1 = Semua himpunan dengan k=1 elemen yang terbentuk dengan menggabungkan dua itemset dalam sk ( c ). Ck + 1 = Ck + 1 ( d ). S = S + Sk ( e ). k + + 4. return S Tabel 2. Transaksi Penjualan Barang A B C D E Pelanggan 1 1 0 1 1 0 Pelanggan 2 0 1 1 0 1 Pelanggan 3 1 1 1 0 1 Pelanggan 4 0 1 0 0 0 Misalkan pada tabel 2, akan dicari seluruh itemset dengan minimal support Smin = 50%. Sehingga itemset dianggap sering muncul jika ia terdapat pada paling tidak di 50% transaksi. Dalam setiap iterasi, algoritma appriori membentuk kandidat set, menghitung jumlah kejadian dari setiap kandidat dan memilih itemset didasarkan pada minimum support yang telah ditentukan sebelumnya yaitu 50%. Pada tahap pertama iterasi pertama, semua item adalah kandidat. Algoritma appriori hanya menelusuri semua transaksi dalam basis data dan membuat daftar kandidat, yaitu ; C1 = [ (A), (B), (C), (D), (E) ] L1 = [ (A), (B), (C), (D), (E) ] 16 Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support Smin, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi: L1 = [(A),(B), (C), (E) ] D dikeluarkan karena nilai S = 25%, hanya ada satu transaksi dari keseluruhan empat transaksi.. Untuk menelusuri himpunan 2-itemset, karena himpunan bagian (subset) dari 2itemset juga mempunyai minimum support yang sama, algoritma appriori menggunakan L1 * L1 untuk membuat kandidat. Operasi * didefinisikan sebagai berikut ; Lk * Lk = [X U Y dimana X,Y Ε Lk, (X∩Y=K-1 ), Untuk k =1 ⇒ |L1| . |(L1)-1)/2| = 4 . 3/2 = 6 Pada iterasi kedua kandidat berisi : C2 = [ (A,B), (A,C), (A,E), (B,C), (B,E), (C,E) ]. Pada tahap berikutnya , algoritma appriori menghitung terjadinya setiap kandidat dan berdasarkan nilai minimum support Smin, kemudian menentukan itemset yang sering muncul, setelah tahap ini kandidat berisi: L2 = [ (A,C), (B,C), (B,E), (C,E) ] Himpunan 3-itemset dihasilkan dari S2 menggunakan operasi yang sudah ditentukan sebelumnya L2 * L2. Langkah praktisnya, dari L2 dengan item yang pertama sama, yaitu (B,C), (B,E),dinyatakan pertama. Kemudian algoritma appriori akan mencek apakah 2-itemset (C,E), yang berisi item kedua dari (B,C), (B,E) terdapat pada L2 atau tidak. Karena (C,E) ada dalam L2, maka ( B,C,E ) menjadi kandidat 3-itemset. Karena tidak ada kandidat 4-itemset, maka algoritma ini berakhir. 2.2.5. Membuat Association Rule berdasarkan Frequent Itemset Tahap kedua dalam penelusuran assosiation rule didasarkan pada seluruh iitemset yang sering muncul, yang didapat dari tahap pertama. Untuk rule yang mengandung X1, X2, X3 → X4, rule tersebut dianggap bermakna jika kedua itemset tersebut X1, X2, X3, X4 dan X1, X2, X3 adalah frequent. Sehingga tingkat kepercayaan C dari rule tersebut dihitung sebagai hasil bagi dari support itemset, yaitu : 17 C = S(X1, X2, X3, X4) / S(X1, X2, X3). Strong association rule adalah rule dengan tingkat kepercayaan C diatas S min. Misalkan dari tabel 1 akan dicek apakah association rule (B,C) → E adalah strong rule. Pertama harus dipilih hubungan support dari tabel L2 dan L3. S(B,C) = 2, S(B,C,E) = 2 C((B,C) → E ) = S(B,C,E)/S(B,C) = 2/2 = 1 (100%) Karena tingkat kepercayaan adalah maksimal, maka jika transaksi berisi item B dan C maka transaksi tersebut juga berisi item E. 2.2.6. Classification based on Predictive Association Rules (CPAR) Klasifikasi pada penelitian ini menggunakan association rule, menurut Yin X, Han J, 2003, algoritma yang efektif untuk digunakan dalam masalah klasifikasi adalah CPAR. Pada algoritma ini klasifikasi diimplementasikan dalam tiga tahap: rule generation, rule evaluation dan classification. Pada proses rule generation, CPAR membangun rule dengan menambahkan literal satu persatu. Pada setiap tahapan proses, CPAR menghitung Gain dari setiap perhitungan. Setelah masing-masing sampel diproses untuk mendapatkan rule, sampel ini digunakan kembali didalam perhitungan Gain tetapi dengan mengurangi bobot dengan decay factor. Bobot sampel dikurangi hingga mencapai nilai minimum yang dihitung oleh parameter w yaitu bobot seluruh sampel positif. Bobot seluruh contoh pada awal proses diset 1. Setelah proses rule generation, CPAR mengevaluasi setiap rule untuk menentukan kekuatan prediksinya. Untuk rule r = p 1 ∧ p2 ... ∧ pn → c, CPAR mendefinisikan ekspektasi akurasi sebagai sebagai berikut : L.A = (nc+1) / (ntotal + f) Dimana L.A adalah Laplace Accuracy, f adalah jumlah kelas, ntotal adalah juimlah total sampel yang memenuhi body dari aturan, nc adalah jumlah sampel yang memenuhi kelas c. Klasifikasi berupa sekumpulan rule untuk setiap class, CPAR menggunakan s rules terbaik setiap kelas, yang dipilih berdasarkan Laplace accuracy. 18 Pada algoritmna CPAR nilai gain yang dipilih adalah nilai gain yang terbaik pada setiap iterasinya, sehingga untuk atribut yang nilai gain-nya hampir sama, maka CPAR melakukan pemilihan yang terbaik. Pemilihan atribut tersebut dilakukan dengan menghitung dan menerapkan gain similarity ratio. Semua atribut dengan nilai gain lebih besar dari best Gain x gain similarity ratio akan dipilih dan diproses lebih lanjut 2.2.6.1 Membuat Rule Dalam CPAR Dalam datamining, setiap aturan di-bangun dari dataset yang tersisa, CPAR hanya memilih literal yang terbaik dan mengabaikan seluruh literal lainnya. CPAR membuat rule s dengan menambahkan literal satu per satu. Setelah CPAR menemukan literal terbaik p, literal lainnya misalnya q yang Gain-nya mirip dengan p (misalnya hanya berbeda 1%) akan dicari. Selain terus membangun rule dengan menambahkan p ke r, q juga ditambahkan ke current rule r untuk membuat rule baru r’ 2.2.7 Membangun Model Prediksi Keberhasilan dalam membangun model prediksi dalam datamining lebih banyak tergantung pada proses bukan pada teknik yang digunakan, dan proses tersebut sangat tergantung pada data yang digunakan untuk menghasilkan model .Tantangan utama dalam membangun model prediksi adalah mengumpulkan data awal yang cukup dalam membangun suatu aturan - aturan. Dalam preclassified, hasilnya sudah diketahui, dan karenanya preclassified digunakan untuk melatih model, himpunan data tersebut disebut model set. Berry & Linoff memberikan langkah-langkah dasar dalam membangun model prediksi 1. Model dilatih menggunakan preclassified data, dengan mengambil sebagian data dari dataset yang disebut training set. Pada tahap ini, algoritma data mining mencari pola-pola dari nilai yang diprediksi. 2. Model diperbaiki menggunakan himpunan bagian lain dari data yang disebut test set. Model perlu diperbaiki agar tidak hanya bisa bekerja pada training set. 19 3. Performance model diestimasi atau membandingkan performance beberapa model, dengan menggunakan himpunan data ketiga, yang didapat dari gabungan himpunan data pertama dan kedua, yang disebut evaluation set. 4. Model diterapkan ke score set. Score set bukan preclassified, dan bukan bagian dari model set. Hasil dari data tersebut tidak diketahui. Predictive score akan digunakan untuk membuat keputusan. Dataset adalah preclassified data yang digunakan untuk membangun model. Dataset perlu dipecah ke dalam tiga komponan, training set, test set dan evaluation set. Gambar 5 menggambarkan langkah-langkah dasar dalam membangun model prediksi (Berry & Linoff, 2000) Training set digunakan untuk membangun model Training Set Test set digunakan untuk memperbaiki model Model (Kasar) Model (Perbaikan) Test Set Evaluation set digunakan untuk menilai akurasi yang diharapkan dari model saat diterapkan ke data di luar model set Evaluation Set Model yang terbaik Score Set diterapkan ke score set untuk menghasilkan prediksi Model (terbaik) Prediksi Gambar 5. Langkah-langkah membangun model prediksi Sumber: Berry & Linoff, 2000 20 2.3 Sistem Fuzzy Sistem fuzzy pertama kali diperkenalkan oleh Prof. L. A. Zadeh dari Barkelay pada tahun 1965. Sistem fuzzy merupakan penduga numerik yang terstruktur dan dinamis. Sistem ini mempunyai kemampuan untuk mengembangkan sistem intelijen dalam lingkungan yang tak pasti. Sistem ini menduga suatu fungsi dengan logika fuzzy. Dalam logika fuzzy terdapat beberapa proses yaitu penentuan himpunan fuzzy, penerapan aturan IF-THEN dan proses inferensi fuzzy (Marimin, 2002). 2.3.1. Himpunan Fuzzy Ada beberapa hal yang perlu diketahui dalam memahami sistem fuzzy yaitu, [Kusumadewi] variabel fuzzy, himpunan fuzzy, semesta pembicaraan dan domain. Variabel Fuzzy merupakan variabel yang akan dibahas dalam sistem fuzzy misalnya umur, temperatur, permintaan, dsb. Himpunan Fuzzy merupakan suatu group yang mewakili suatu kondisi tertentu dalam variabel fuzzy misalnya variabel umur dibagi atas 3 himpunan fuzzy yaitu muda, parobaya dan tua. Semesta Pembicaraan adalah keseluruhan nilai yang diperbolehkan untuk dioperasikan dalam suatu variabel fuzzy misalnya semesta pembicaraan variabel umur adalah 0 sampai 100. Domain adalah keseluruhan nilai yang diijinkan dalam semesta pembicaraan dan boleh dioperasikan dalam himpunan fuzzy misalnya domain umur muda 20 – 45, domain parobaya 25 – 65 dan domain tua 45 – 70. 2.3.2. Fungsi Keanggotaan Fungsi keanggotaan (membership function) adalah kurva yang menunjukkan pemetaan titik input data ke dalam nilai keanggotaan yang mempunyai interval 0 – 1. Ada beberapa fungsi keanggotaan yang digunakan antara lain representasi kurva sigmoid, trapesoid dan triangular. Contoh representasi fungsi keanggotaan sigmoid disajikan pada gambar 6. 21 Gambar 6 : Fungsi Keanggotaan ”USIA” dengan representasi Sigmoid . 2.3.3. Operator Himpunan Fuzzy Seperti himpunan biasa, ada beberapa operasi yang didefinisikan secara khusus untuk mengkombinasikan himpunan fuzzy. Ada 3 operator dasar yang diciptakan Zadeh yaitu operator AND, OR dan NOT. Nilai keanggotaan baru sebagai hasil dari operasi 2 himpunan disebut α -predikat. Operator AND merupakan operasi interseksi pada himpunan. α -predikat yang dihasilkan diperoleh dengan mengambil nilai keanggotaan terkecil antar elemen pada himpunan bersangkutan. Misal nilai keanggotaan umur 27 pada himpunan muda adalah µ MUDA[27] = 0,6 dan nilai keanggotaan 2 juta pada himpunan penghasilan TINGGI adalah µ GAJITINGGI[2juta]= 0,8, maka α -predikat untuk usia MUDA dan berpenghasilan TINGGI adalah nilai keanggotaan minimun : µ MUDA ∩ GAJITINGGI = min( µ MUDA[27], µ GAJITINGGI[2juta]) = min (0,6 ; 0,8) = 0,6 Operator OR merupakan operasi union pada himpunan. α -predikat yang dihasilkan diperoleh dengan mengambil nilai keanggotaan terbesar antar elemen pada himpunan bersangkutan. Misal nilai keanggotaan umur 27 pada himp unan muda adalah µ MUDA[27]= 0,6 dan nilai keanggotaan 2 juta pada himpunan penghasilan TINGGI adalah µ GAJITINGGI[2juta]= 0,8, maka α -predikat untuk usia MUDA atau berpenghasilan TINGGI adalah nilai keanggotaan maksimum : µ MUDA ∩ GAJITINGGI = max( µ MUDA[27], µ GAJITINGGI[2juta]) 22 = max (0,6 ; 0,8) = 0,8 Operator NOT merupakan operasi komplemen pada himpunan. α -predikat yang dihasilkan diperoleh dengan mengurangkan nilai keanggotaan elemen pada himpunan dari 1. Misal nilai keanggotaan umur 27 pada himpunan muda adalah µ MUDA[27]= 0,6 maka α -predikat untuk usia TIDAK MUDA adalah : µ MUDA’[27] = 1 - µ MUDA[27 = 1 - 0,6 = 0,4 2.3.4. Fungsi Implikasi Tiap aturan (proposisi) pada basis pengetahuan fuzzy akan berhubungan dengan suatu relasi fuzzy. Bentuk umum aturan yang digunakan dalam fungsi implikasi adalah : IF x is A THEN y is B x dan y adalah skalar sedang A dan B adalah himpunan fuzzy. Proposisi yang mengikuti IF disebut anteseden, sedangkan proposisi yang mengikuti THEN disebut konsekuen. Secara umum ada 2 fungsi implikasi yaitu fungsi implikasi Min (minimum) dan fungsi implikasi DOT (product). Misal bentuk aturan sebagai berikut : [R1] IF Permintaan NAIK AND Stok SEDIKIT THEN Produksi TINGGI Nilai keanggotaan Permintaan 8.000 pada himpunan Permintaan NAIK adalah µ NAIK[8.000]= 0,7 dan nilai keanggotaan Stok 10.000 pada himpunan Stok SEDIKIT adalah µ SEDIKIT[10.000]= 0,9 maka fungsi implikasi untuk Produksi TINGGI adalah perpotongan nilai keanggotaan minimum sehingga nilai keanggotaan Produksi TINGGI adalah µ TINGGI=0,7. Aplikasi Fungsi implikasi Min (minimum) memotong output diilustrasikan pada gambar 7. 23 Gambar 7 : Fungsi implikasi MIN Aplikasi Fungsi implikasi DOT (product) akan menskala output disajikan pada gambar 8. Gambar 8 : Fungsi implikasi DOT 2.3.5 Sistem Inferensi Fuzzy (SIF) Ada beberapa metode untuk merepresentasikan hasil logika fuzzy yaitu metode Tsukamoto, Mamdani dan Sugeno. Pada metode Tsukamoto, setiap konsekuen direpresentasikan dengan himpunan fuzzy dengan fungsi keanggotaan monoton. Output hasil inferensi masing-masing aturan adalah z, berupa himpunan biasa (crisp) yang ditetapkan berdasarkan α predikatnya. Hasil akhir diperoleh dengan menggunakan rata-rata terbobotnya. α 1 z1 + α 2 z2 z = –––––––––––– α 2+α 2 Pada metode Mamdani, aplikasi fungsi implikasi menggunakan MIN, sedang komposisi aturan menggunakan metode MAX. Metode Mamdani dikenal juga dengan metode MAX-MIN. Inferensi output yang dihasilkan berupa bilangan fuzzy maka harus ditentukan suatu nilai crisp tertentu sebagai output. Proses ini dikenal dengan defuzzifikasi. Ada beberapa metoda yang dipakai dalam defuzzifikasi antara lain metode centroid. Pada metode ini penetapan nilai crisp dengan cara mengambil titik pusat daerah fuzzy. 24 Metode Sugeno mirip dengan metode Mamdani, hanya output (konsekuen) tidak berupa himpunan fuzzy, melainkan berupa konstanta atau persamaan liniar. Ada dua model metode Sugeno yaitu model fuzzy Sugeno orde nol dan model fuzzy Sugeno orde satu. Bentuk umum model fuzzy Sugeno orde nol adalah : IF (x1 is A 1) o (x2 is A 2) o ….. o (xn is An) THEN z = k Bentuk umum model fuzzy Sugeno orde satu adalah : IF (x1 is A 1) o (x2 is A 2) o ….. o (xn is An) THEN z = p 1* x1 + … pn* xn + q Defuzzifikasi pada metode Sugeno dilakukan dengan mencari nilai rata-ratanya. Contoh aplikasi fuzzy pada datamining adalah pada penyelesaian masalah pemilihan pakaian berikut ini ; Diasumsikan faktor utama dalam pemilihan pakaian adalah sebagai berikut f1 = style, f2 = qualitas, f3 = harga, sehingga F = {f1,f2,f3}. Tingkatan umum yang digunakan pada seleksi adalah e1 = sangat baik , e2 = baik , e3 = sedang , e4 = buruk, sehingga E = {e1,e2,e 3,e4}. Untuk tiap-tiap potong pakaian “u”, faktor penentu evaluasi adalah didapat dari hasil survey. Sebagai contoh, jika hasil survey menunjukkan “style” faktor f1 = 60% untuk sangat baik, 20% untuk baik, 10% untuk sedang, 10% untuk buruk, sehingga faktor penentu evaluasi mempunyai vektor R1(u) : R1(u) = { 0.6, 0.2, 0.1, 0.1} Secara umum, kita dapat membuat faktor penentu evaluasi untuk vektor f2 dan f3 R2(u) = { 0.1,0.5, 0.3, 0.1 } R3(u) = { 0.1, 0.3, 0.4, 0.2} Sehingga berdasar hal diatas kita dapat membuat matrix evaluasi R1(u ) R 2( u ) R 3(u ) = 0.6 0.1 0.1 0.2 0.5 0.1 0.3 0.1 0.1 0.3 0.4 0.2 25 Jika weight vector dari pembeli adalah W(u) = { 0.4, 0.4, 0.2 } Perkalian dari matrix W(u) dan R(u) adalah berdasarkan komposisi max – min fuzzy rules, dimana hasil evaluasi adalah digambarkan dalam fuzzy set D(u) = [ d1,d2,d 3,d4] : . D(u) = W(u) R(u) = [0.4 0.4 0.2] . 0.6 0.2 0.1 0.1 0.1 0.5 0.3 0.1 0.1 0.3 0.4 0.2 = [0.4 0.4 0.3 0.2] Dimana, d1 dihitung berdasarkan langkah-langkah berikut : d1 = (w1 ´ r11) V (w2 ´ r21) V (w3 ´ r31) = (0.4 ´ 0.6 ) V(0.4 ´ 0.1) V (0.2 ´ 0.1) = 0.4 V 0.1 V 0.1 = 0.4 Nilai untuk d2 , d3 , d4 hampir sama, dimana ´ dan V merepresentasikan operator min dan max. Karena komponen terbesar D(u) adalah d 1 = 0.4 dan d 2 = 0.4 di saat yang sama, sehingga analisa untuk pakaian ini berada diantara „sangat baik“ dan „baik“ 2.4. Prakiraan / Forecasting 2.4.1 Teknik Prakiraan Pemulusan Eksponensial Teknik ini pertama kali diperkenalkan pada tahun 1970 oleh George E P Box dan Gwilym M Jenkins dalam bukunya ” Time Series Analysis : Forecasting and Control”. Dasar dari teknik ini adalah , Pengamatan sekarang (Zt) tergantung pada 1 atau beberapa pengamatan sebelumnya (Zt-k) dengan kata lain, model time series dibuat karena secara statistik ada korelasi antar deret pengamatan untuk melihat adanya dependensi antar pengamatan . Kita dapat melakukan uji korelasi antar pengamatan yang dikenal sebagai auto correlation function (acf) 26 2.4.2 Metode Winters Teknik prakiraan dengan metode Winters digunakan untuk data yang mempunyai pola musiman dan kecenderungan. Sebagai contoh pola data yang bersifat musiman dan kecenderungan dapat dilihat pada tabel 3 . Data pada tabel 3 menunjukkan pola musiman kuartalan, dalam pengertian pola data antar kuartal untuk tahun yang berbeda mempunyai pola yang sama dengan periode yang tetap, yaitu selang 3 bulanan. Karena pola 3 bulanan, maka dalam 1 (satu) tahun terdapat 4 musim atau dalam hal ini dinotasikan dengan L = 4 Tabel 3. Contoh data penjualan yang bersifat musiman Tahun 1987 1988 1989 Kuartal Periode Penjualan (t) ( Xt) I 1 36 II 2 39 III 3 43 IV 4 34 I 5 38 II 6 41 III 7 50 IV 8 39 I 9 47 II 10 51 III 11 58 IV 12 47 Metode Winters didasarkan atas 3 persamaan pemulusa, yaitu untuk pola data stationer (St), kecenderungan (bt) dan indeks musiman (It). St = ? Xt / It-L + (1 – ? )(St-1 + bt -1) ………………(a) bt = ß(St - St-1 ) + (1 – ß ) bt-1 ………………………………….(b) It = d Xt / St + (1- d ) It-L ………………………....(c) Prakiraan untuk m periode mendatang dirumuskan sebagai berikut F t+m = (St + b t.m) I t -L + m ………………………..(d) Untuk melakukan prakiraan dengan metode Winters harus tersedia data histories minimal 2 tahun, hal ini karena kalau data yang tersedia hanya 1 tahun, 27 maka factor kecenderungan untuk kuartal tertentu tidak dapat diketahui. Kecenderungan pada kuartal tertentu hanya dapat diketahui apabila tersedia data, misalnya kuartal I tahun 1987 dan kuartal I tahun 1998. Insilisasi diperlukan dalam menggunakan teknik Winters ini, hal ini dapat dijelaskan sebagai berikut, misalkan untuk melakukan prakiraan pada periode ke5 (dengan m = 1), maka dari persamaan (d) diperlukan nilai S5 dari rumus (a) diperlukan nilai I0. Nilai I0 belum terdefinisi, untuk data pola musiman kuartalan seperti tabel 3 (L = 4), inisialisasi minimal diperlukan untuk menetapkan : a. Nilai indeks musiman pada setiap kuartal pada tahun pertama b. Factor kecenderungan kuartal terakhir pada tahun pertama ( b4 atau b awal), dan c. Nilai S 4 (atau S awal) Insialisasi indeks musiman pada tahun pertama ditetapkan dengan rumusan sebagai berikut : It = Xt / X ……….untuk setiap t = 1,2,3…L, dimana X=? Xi/ L Insialisasi b awal untuk data histories yang tersedia sebanyak 2L, ditetapkan dengan rumusan sebagai berikut : b awal = 1/L {(X L+1 – X1)/L + ( X L+2 – X2 )/L + …+(X L+L – XL)/L} Inisialisasi untuk S awal ditetapkan dengan menggunakan rumusan sebagai berikut : ? Xt + 3L 2 b awal – 2 b awal . ? t . I t S awal = ----------------------------------------------2L Nilai inisialisasi akan menentukan ukuran kecermatan prakiraan dan demikian juga dengan nilai parameter ?, ß, dan d. Sebagai contoh misalkan untuk data pada tabel 3, parameter pemulus yang digunakan adalah ? = 0.2, ß = 0.1 dan d = 0.05 dan sebagai himpunan periode / data uji adalah periode t = 6 s/d t = 12. Dengan menggunakan parameter m = 1, maka hasil perhitungan dapat dilihat pada tabel 4. Jika dilakukan prakiraan untuk periode ke 13 atau kuartal I tahun 1990, dengan m=1 , berarti periode dasarnya adalah t = 12, sehingga : 28 F12 + 1 = (S12 + b12).I9; dimana I9 adalah indeks musiman kuartal I pada tahun sebelumnya (1989), jika I9 belum diketahui maka dicari dengan memuluskan indeks musiman kuartal I tahun 1988 atau I8. Tabel 4. Contoh hasil penerapan metode Winters (? = 0.2, ß = 0.1 dan d = 0.05) Kuartal 1987 1988 1998 2.5. Data Pemulusan Pemulusan Pemulusan Ramalan jika Aktual Tunggal Musiman Trend m=1 1 36 0.95 2 39 1.01 3 43 1.10 4 34 45.03 0.83 1.00 5 38 44.84 0.94 0.88 6 41 44.67 1.01 0.78 46.32 7 50 45.43 1.10 0.77 50.11 8 39 46.31 0.83 0.79 38.55 9 47 47.65 0.94 0.84 44.38 10 51 48.91 1.01 0.88 48.89 11 58 50.30 1.02 1.02 48.89 12 47 49.58 1.09 0.85 56.58 Penelitian Terdahulu Penelitian di bidang kesehatan dengan menerapkan datamining dari suatu dataset yang ada, telah dilakukan oleh bebagai pihak. Pada umumnya hasil akhir yang akan mereka capai adalah didapatnya suatu pola, sehingga dari pola tersebut akan didapatkan prediksi tentang keadaaan tertentu . Beberapa penelitian yang telah dilakukan antara lain ; 1. Scales, Embrechts, Rensselaer, Polytechnic Institute, Department of Decision Science and Engineering System, New York, mereka mencoba untuk membuat suatu sistem arsitektur yang akan berfungsi sebagai alat diagnosa untuk penyakit jantung kardiovaskular. Diagnosa yang dilakukan oleh sistem mereka didasarkan pada dataset kesehatan yang ada. Tujuan akhir dari diagnosa ini adalah memisahkan antara penyakit jantung dan yang bukan penyakit jantung. Teknik mereka gunakan adalah Principle Component data mining yang Regression Analysis, 29 Partial Least Squares Regression, artificial neural network dan Neuralfuzzy Inference system. Dari hasil penelitian mereka sistem yang dibangun dengan neural-fuzzy memberikan tingkat keakurasian 92 %. 2. Breault, JL, Departement of Healt System Management, Tulane University Department of Family Practice, Alton Ochsner Medical Foundation. Breault mencoba untuk menerapakan datamining pada Pima Indian diabetic database (PIDD) yang ada di UC Irvine Machine Learning Labs. Pada dataset tersebut, Breault mencoba menerapakan datamining yang telah di implementasikan pada software ROSETTA, dimana tingkat keakurasiannya dapat ditingkat menjadi 73,8% sampai 95 % dari methode yang sebelumnya. 3. Ferren G, Merwe M, Fleming G, Murphy K ; Para peneliti ini tergabung dalam The South African council for Scientific and Industrial Research (CSIR) mencoba untuk menerapkan teori fuzzy expert system dan GIS untuk memprediksi penyebaran cholera di Afrika utara. Dimana mereka merancang sistem peringatan dini dengan menggunakan ArcGIS dan fuzzy logic serta boolean algebra sebagai tools dalam mengolah pola data yang telah ada. 4. Hirota et al (1996), mencoba menggambarkan hirarki dari data mining, fuzzy model dan turunannya Knowledge Discovery (datamining) pattern Multi Model pattern and Fuzzy Model rules rules Gambar 9. Data mining, multimodel dan fuzzy model (adaptasi dari Hirota, 1996) 30 5. Herwanto, 2006, dalam tesis Pascasarjana di fakultas Ilkom, IPB yang berjudul “Pembangunan Sistem Data mining untuk Mendiagnosa Penyakit Diabetes Menggunakan Algoritma CPAR (Classification Based on Predictive Association Rules)”, mencoba untuk menerapkan datamining pada database penyakit diabetes yang dimiliki oleh RS Pertamina untuk menemukan kaitan antar variable data. Dari data ini dibangun sebuah system yang dapat melakukan prediksi diagnosa penyakit. Hasil prediksi berupa kemungkinan diagnosa penyakit yang diderita pasien. Aturan yang digunakan untuk melakukan prediksi diagnosa penyakit diambil dari hasil proses data mining menggunakan algoritme CPAR . Dari hasil penelitian tersebut dapat ditarik suatu kesimpulan : Pemeriksaan glukosa darah 2 jam pp (Gpost), glukosa urin 2 jam pp (Upost), glukosa darah puasa (Glun) menjadi penentu utama untuk menentukan apakah pasien positif diabetes atau negatif diabetes. 2.5.1. Perbedaan dari penelitian sebelumnya Pada penelitian ini penulis mencoba menggabungkan kemampuan dari data mining dengan metode Classification based on Predictive Association Rules (CPAR) dalam mencari suatu pola variable – variable yang telah ada, kemudian dalam membangun suatu sistem arsitektur untuk memprediksi pola penyebaran demam berdarah digunakan sistem pakar dengan menggunakan sistem logika fuzzy dan sistem prakiraan dengan menggunakan metode Winters.