BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining (DM) Data mining adalah proses menambang (mining) pengetahuan dari sekumpulan data yang sangat besar (Han & Kamber 2006). Menurut Connolly dan Begg, 2005. Data mining adalah proses pengolahan informasi dari sebuah database yang besar, meliputi proses ekstraksi, pengenalan, komprehensif, dan penyajian informasi sehingga dapat digunakan dalam pengambilan keputusan bisnis yang krusial”. Sedangkan Menurut Berry dan Linoff (2004), “Data mining adalah mengeksplorasi dan menganalisis data dalam jumlah besar untuk menemukan pola dan rule yang berarti”. Data mining merupakan suatu langkah dalam knowledge discovery in database (KDD). Alasan-alasan utama dalam penggunaan data mining adalah : 1. Banyaknya jumlah data yang ada dan akan terus meningkatnya jumlah data. 2. Kebutuhan untuk menginterpretasikan data. Data mining tidak hanya berhubungan dengan masalah basis data, tetapi merupakan suatu “titik temu” dari berbagai macam ilmu pengetahuan yang dapat digunakan untuk membangun suatu informasi dalam memperoleh pengetahuan yang baru ataupun penting. Disiplin ilmu tersebut dapat meliputi basis data, statistik, probabilistik, jaringan saraf tiruan, data visual, dan sebagainya. 2.1.1. Data Cleaning Data cleaning adalah suatu teknik yang digunakan untuk menangani data yang tidak lengkap. Proses data cleaning ini juga mencakup antara lain membuang duplikasi data, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi) (Kurniawati, 2015). Universitas Sumatera Utara 6 Pada proses ini juga dilakukan proses enrichment, yaitu proses memperkaya data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. Untuk melakukan proses data cleaning dapat menggunakan teknik remove incomplete data. Pada teknik remove incomplete data, data yang tidak lengkap dihilangkan (remove) di record/baris data pada masing-masing variabel sampel data tersebut. Dalam teknik remove incomplete data dilakukan pemilahan atau penentuan data yang tidak lengkap / komplit untuk dihilangkan dalam satu record / baris data pada masing-masing variabel data yang ada, seperti pada tabel 2.1 : Tabel 2.1. Data Tidak Lengkap Pasien Gejala 001 Demam, sakit perut, muntah, sakit kepala 002 Demam, keringat malam hari, sakit kepala, muntah, sakit perut 003 - 004 Demam, sakit kepala, muntah, sakit perut 005 Demam, sakit kepala, muntah, sakit perut 006 Demam, sakit perut, sakit kepala, muntah 007 - Dari Tabel 2.1 diatas dapat dilihat bahwa terdapat data tidak lengkap yaitu pada record 3 dan 7. Untuk menjadikannya sebagai data lengkap, dengan teknik remove incomplete data maka nama peserta 003 dan 007 akan dihapus dari database. Dari hasil yang didapat maka tabel data lengkapnya adalah seperti pada tabel 2.2 Tabel 2.2. Data Lengkap Pasien Gejala 001 Demam, sakit perut, muntah, sakit kepala 002 Keringat malam hari, sakit kepala, muntah, badan lemas 004 Demam, sakit kepala, muntah, sakit perut 005 Demam, sakit kepala, muntah, sakit perut 006 Demam, sakit perut, sakit kepala, muntah Universitas Sumatera Utara 7 2.1.2. Data Transformation Data transformation adalah suatu teknik yang digunakan untuk mentransformasikan data mentah ke dalam data yang ditransformasikan. Untuk melakukan data transformasi, dapat digunakan dengan berbagai macam cara, salah satunya adalah Algoritma Fungsi Interval. Algoritma data transformation dengan cara algoritma fungsi interval ini, adalah dengan langkah-langkah seperti yang dijelaskan pada algoritma berikut ini: Algoritma Input : Data lengkap Output : Data yang ditransformasikan Berdasarkan nilai diatas, maka tabel 3.3 dapat ditransformasikan ke dalam tabel 2.3. Tabel 2.3. Data Transformasi Atribut Nilai Demam 0 = Tidak, 1 = Ya Sakit kepala 0 = Tidak, 1 = Ya Sakit perut 0 = Tidak, 1 = Ya Muntah 0 = Tidak, 1 = Ya Diagnosa 1 = Positif, 2 = Negatif Tabel 2.4. Hasil Data Transformasi Pasien Demam Sakit kepala Sakit perut Muntah 001 1 1 1 1 002 0 1 0 1 004 1 1 1 1 005 1 1 1 1 006 1 1 1 1 2.2. Teori Rough Set Teknik Rough Set merupakan sebuah teknik matematik yang dikembangkan oleh Pawlack pada tahun 1982 dan digunakan untuk analisis klasifikasi data dalam bentuk tabel (Thangavel, et al. 2006). Data yang digunakan biasanya data diskret. Tujuan dari Universitas Sumatera Utara 8 analisis Rough Set adalah untuk mendapatkan perkiraan rule yang singkat dari suatu tabel. Hasil dari analis Rough Set dapat digunakan dalam proses data mining dan knowledge discovery. Teknik ini digunakan untuk menangani masalah uncertainly, missing data, uncompleted, inconsistency data, imprecision, dan vagueness (tidak pasti, data hilang, tidak lengkap, tidak selaras, ketidaktepatan, ketidakjelasan). Teori ini memberikan pendekatan matematika baru untuk permasalahan dengan tingkat ketidakpastian yang tinggi. Teori ini menjadi dasar penting untuk kecerdasan buatan, pembelajaran mesin, perolehan informasi, analisis keputusan, data mining, sistem pakar, hingga pengenalan pola. Kelebihan teori ini adalah tidak diperlukannya preliminary dan juga informasi tambahan mengenai data dalam melakukan analisis suatu data. Tetapi teori rough set ini tidak dapat menyelesaikan permasalahan dengan atribut yang bernilai kontinu. Sedangkan yang ada dalam kasus di dunia nyata selalu mengandung variabel – variabel yang bernilai kontinu. Filosofi rough set didirikan pada asumsi bahwa dengan setiap objek wacana alam semesta kita mengasosiasikan beberapa informasi (data, pengetahuan). Sebagai contoh, jika objek adalah pasien yang menderita penyakit tertentu, gejala dari penyakit tersebut merupakan informasi tentang pasien. Objek ditandai oleh informasi yang sama yang indiscernible (similar) mengingat informasi yang tersedia pada objek tersebut. Hubungan indiscernibility yang dihasilkan dengan cara ini adalah dasar matematika teori rough set. Himpunan dari seluruh obyek indiscernible (similar) yang disebut elementary set, dan membentuk granul dasar (atom) dari pengetahuan tentang alam semesta. serikat pekerja dari beberapa elementary set dirujuk sebagai satu set crisp (tepat) dengan kata lain set tersebut rough. Setiap rough set memiliki masalah garis batas (boundary-line), yaitu objek yang tidak dapat diklasifikasikan dengan pasti, dengan menggunakan pengetahuan yang ada, karena member dari set tersebut atau objek complement. Tentunya rough set, berbeda dengan precise set, tidak dapat dicirikan dalam hal informasi tentang elemen mereka. Dengan rough set, sepasang precise set menyebutkan aproksimasi bawah dan atas dari rough set berasosiasi. Aproksimasi bawah (lower approximation) terdiri dari semua objek yang tentu saja termasuk set dan upper approximation berisi semua objek yang mungkin termasuk set. Perbedaan antara aproksimasi atas dan bawah membentuk daerah batas (boundary region) rough set. Aproksimasi adalah dua operasi dasar pada teori rough set. Universitas Sumatera Utara 9 Pendekatan rough set tampaknya menjadi dasar yang penting untuk AI dan ilmu kognitif, khususnya pada area machine learning, akuisisi pengetahuan, decision analysis, penemuan pengetahuan dari database, sistem pakar, penalaran induktif dan pengenalan pola. Teori rough set telah berhasil diterapkan dalam banyak masalah kehidupan nyata dalam kedokteran, farmakologi, teknik, perbankan, keuangan, analisis pasar, pengelolaan lingkungan dan lain-lain. Pendekatan rough set untuk analisis data memiliki banyak kelebihan utama. diantaranya adalah: 1. Menyediakan algoritma efisien untuk menemukan pola yang tersembunyi dalam data. 2. Menemukan set minimal data (reduksi data). 3. Mengevaluasi signifikansi data. 4. Menghasilkan set decision rule dari data. 5. Menawarkan interpretasi langsung dari hasil yang diperoleh. 6. Sebagian besar algoritma didasarkan pada teori rough set sangat cocok untuk pemrosesan paralel. 7. Mudah untuk dipahami. Rough Set merupakan teknik yang efisien untuk knowledge discovery in database (KDD) proses dan data mining. Secara umum teori Rough Set telah digunakan dalam banyak aplikasi seperti medicine, pharmacology, business, banking, engineering design, image processing dan decision analysis. Beberapa konsep dasar yang harus dilakukan untuk melakukan knowledge discovery in database (KDD) dengan teknik rough set, antara lain: 1. Information system dan Decision system, representasikan data atau objek. 2. Indicernibility Relation, menghubungankan antar atribut yang tidak dapat dipisahkan. 3. Equivalence Class, mengelompokkan objek-objek yang memiliki atribut kondisi yang sama. 4. Discernibility Matrix / discernibility matrix modulo, sekumpulan atribut yang berbeda antara objek. 5. Reduction, penyelesaian atribut minimal dari sekumpulan atribut kondisi dengan menggunakan prime implicant fungsi boolean. Universitas Sumatera Utara 10 6. Generating Rules, membangkitkan aturan-aturan (rules) dari pengetahuan yang didapat dalam proses ekstrak data. Dalam sebuah pengambilan keputusan, teknik Artificial Intelligence (AI) Rough Set merupakan salah satu teknik yang tepat digunakan, dengan teknik ini nantinya akan didapat suatu hasil knowledge / pattern yang dapat digunakan dalam mengambil suatu keputusan, yaitu dengan melakukan tahapan-tahapan dalam knowledge discovery in database (KDD), yang terdiri dari data cleaning, data integration, data selection, data transformation, data mining, evaluation dan knowledge presentation (Han & Kamber 2006). 2.2.1. Information System dan Decision System Rough Set menawarkan dua bentuk representasi data yaitu Information Systems (IS) dan Decision System (DS). Information System adalah sebuah Informating System (IS) yang terdiri dari : IS = {U, A}, dimana U = {e 1, e2, …, en} dan A = {a1, a2, …, an} yang merupakan sekumpulan example dan attribute kondisi secara berurutan. Definisi di atas memperlihatkan bahwa sebuah Information System terdiri dari sekumpulan example, seperti {e1, e2, …, en} dan attribute kondisi, seperti {a1, a2, …, an}. Sebuah Information System yang sederhana dapat dicontohkan seperti tabel 2.5 Tabel 2.5. Information System Pasien Demam Sakit kepala Sakit perut Muntah 001 1 1 1 1 002 0 1 0 1 004 1 1 1 1 005 1 1 1 1 006 1 1 1 1 Tabel 2.5 memperlihatkan sebuah Information System yang sederhana. Dalam Information System, tiap-tiap baris mempresentasikan objek sedangkan tiap-tiap kolom mempresentasikan atribut kondisi (A). Tabel 2.4 terdiri dari 5 objek yaitu 001, 002, 004, 005, dan 006, sedangkan atribut kondisinya terdiri dari 4 yaitu demam, sakit kepala, sakit perut, muntah. Universitas Sumatera Utara 11 Dalam banyak aplikasi, sebuah Information System (IS) juga direpresentasikan dengan sebuah Decision Attribute (atribut keputusan), C = {C1, C2, …, Cn }. Sehingga Information System (IS) menjadi IS = (U, {A,C}). Pada tabel 2.5 dapat dilihat sebuah contoh Information System (IS) yang didalamnya terdapat objek (U), atribut kondisi (A) dan atribut keputusan (C). Tabel 2.6. Information System Dengan Atribut Keputusan Pasien Demam Sakit kepala Sakit perut Muntah Keputusan 001 1 1 1 1 1 002 0 1 0 1 2 004 1 1 1 1 1 005 1 1 1 1 1 006 1 1 1 1 1 Tabel 2.6 memperlihatkan sebuah Decision System yang sederhana yang terdiri dari 5 objek yaitu, 001, 002, 004, 005, dan 006, 4 atribut kondisi yaitu demam, sakit kepala, sakit perut, muntah, serta 1 atribut keputusan. 2.2.2. Indiscernibility Relation Dalam decision system, sebuah objek dapat memiliki nilai yang sama untuk sebuah atribut kondisionalnya, hubungan tersebut disebut dengan indiscernibility (tidak dapat dipisahkan (Listiana et al, 2011). Berdasarkan tabel 2.6 maka didapatkan Indicernibility Relation sebagai berikut: IND (Demam) = {001, 004, 005, 006} IND (Sakit Kepala) = {001, 002, 004, 005, 006} IND (Sakit Perut) = {001, 004, 005, 006} IND (Muntah) = {001, 002, 004, 005, 006} Kelas-kelas yang telah dikelompokkan disebut dengan equivalence class. Universitas Sumatera Utara 12 2.2.3. Equivalence Class Equivalence Class adalah mengelompokkan objek-objek yang mempunyai nilai atribut yang sama menjadi satu bagian. Seperti dapat dilihat pada tabel 2.6 bahwa beberapa objek mempunyai atribut yang sama sehingga dapat disatukan. Setelah objek yang mempunyai atribut yang sama disatukan, maka akan menghasilkan suatu Equivalence Class (EC1-EC2), seperti digambarkan pada tabel 2.7. Tabel 2.7. Equivalence Class Equivalence Demam Sakit Sakit Muntah (D) Keputusan Class (A) kepala (B) perut (C) EC 1 1 1 1 1 1 EC 2 0 1 0 1 2 (E) 2.2.4. Discernibility Matrix Discernibility Matrix terdiri dari sekumpulan atribut yang berbeda antara object Xi (Kolom Equivalence Class) dan Xj (Baris Equivalence Class). Pada discernibility matrix ini akan dibandingkan isi sebuah atribut antara suatu objek dengan objek lainnya. Dalam proses membandingkan ini, yang diperhatikan hanya atribut kondisinya saja, jika nilai atributnya sama maka tidak akan menghasilkan suatu nilai, tetapi akan memberi suatu nilai jika nilai atribut yang dibandingkan berbeda, seperti dapat dilihat pada tabel 2.8 berikut: Tabel 2.8. Discernibility Matrix EC1 EC2 EC1 - AC EC2 - AC 2.2.5. Discernibility Matrix Modulo D Sama seperti Discernibility Matrix, pada Discernibility Matrix Modulo D juga terdiri dari sekumpulan atribut yang berbeda antara objek Xi (Kolom Equivalence Class) dan Xj (Baris Equivalence Class). Proses untuk menghasilkan Discernibility Matrix Modulo D ini juga membandingkan isi sebuah atribut suatu objek dengan objek lainnya. Perbedaannya dengan Discernibility Matrix adalah proses Universitas Sumatera Utara 13 membandingkannya, yang diperhatikan tidak hanya atribut kondisinya saja, tetapi juga atribut keputusannya. Jika nilai atributnya sama maka tidak menghasilkan suatu nilai, tetapi jika nilai atribut yang dibandingkan berbeda maka akan menghasilkan suatu nilai, seperti dapat dilihat pada tabel 2.9 yang merupakan Discernibility Matrix Modulo D. Tabel 2.9 Discernibility Matrix Modulo D EC1 EC2 EC1 - AC EC2 - AC 2.2.6. Reduct Teknik yang dapat diterapkan untuk mendapatkan representasi volume data set yang jauh lebih kecil disebut dengan Reduct, namun tetap mempertahankan integritas data asli. Artinya pertambangan data set berkurang harus lebih efisien atau sama dengan dengan hasil analisis (Han, et al. 2012) Discernibility matrix modulo D pada tabel 2.9 dapat ditulis sebagai formula CNF (Conjunctive Normal Form) seperti diperlihatkan pada tabel 2.10. Tabel 2.10. Reduct Class CNF of Boolean Function Prime Implicant Reducts EC1 A^C (A), (C) {A}, {C} EC2 A^C (A), (C) {A}, {C} 2.2.7. Generating Rule Generating Rules adalah suatu metode rough set untuk menghasilkan rules/knowledge berdasarkan equivalence class dan reduct. Generating Rules dapat juga dikatakan sebagai suatu algoritma dari Data Mining, yang nantinya dari proses Generating Rules ini akan dihasilkan suatu rules / knowledge yang dapat digunakan dalam sebuah pengambilan keputusan. Dari hasil reduct yang diperoleh maka didapatkan suatu rules / knowledge. Seperti contoh di atas, rules yang didapatnya adalah : Universitas Sumatera Utara 14 Rules : A. EC 1 Menghasilkan reduct {A}, {C}, rulenya adalah: Jika demam = 1 dan sakit perut = 1, maka diagnosa = 1 B. EC 2 Menghasilkan reduct {A}, {C}, maka rulenya adalah: Jika demam = 0 dan sakit perut = 0, maka diagnosa = 2 2.3. Algoritma Apriori Algoritma apriori menghitung seringnya itemset muncul dalam basis data melalui beberapa iterasi. Setiap iterasi mempunyai dua tahapan menentukan kandidat dan memilih serta menghitung kandidat (Ashok & Sandeep, 2014). Ide dasar dari algoritma ini adalah dengan mengembangkan frequent itemset. Dengan menggunakan satu item dan secara rekursif mengembangkan frequent itemset dengan dua item, tiga item dan seterusnya hingga frequent itemset dengan semua ukuran. Untuk mengembangkan frequent set dengan dua item, dapat menggunakan frequent set item. Alasannya adalah bila set satu item tidak melebihi support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut. Secara umum, mengembangkan set dengan frecuent – item menggunakan frequent set dengan k – 1 item yang dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan sekali pemeriksaan ke seluruh isi database. Dalam asosiasi terdapat istilah antecedent dan consequent, antecedent untuk mewakili bagian “jika” dan consequent untuk mewakili bagian “maka”. Dalam analisis ini, antecedent dan consequent adalah sekelompok item yang tidak punya hubungan secara bersama. Dari jumlah besar aturan yang mungkin dikembangkan, perlu memiliki aturan-aturan yang cukup kuat tingkat ketergantungan antar item dalam antecedent dan consequent. Untuk mengukur kekuatan aturan asosiasi ini, digunakan ukuran support dan confidence. Support adalah rasio antara jumlah transaksi yang memuat antecedent dan consequent dengan jumlah transaksi. Confidence adalah rasio antara jumlah transaksi yang meliputi semua item dalam antecedent dan consequent dengan jumlah transaksi yang meliputi semua item dalam antecedent. ππ’πππππ‘ = π½π’πππ π πππππ πππ π ππππππππ’ππ πππ‘ππ πππππ πππ π π΄ πππ π΅ X 100% .......... [2.5] Universitas Sumatera Utara 15 πΆπππππππππ = π½π’πππ π πππππ πππ π ππππππππ’ππ π΄ πππ π΅ π½π’πππ π πππππ πππ π ππππππππ’ππ π΄ X 100% ......[2.6] Langkah pertama algoritma apriori adalah, support dari setiap item dihitung dengan men-scan database. Setelah support dari setiap item didapat, item yang memiliki support lebih besar dari minimum support dipilih sebagai pola frekuensi tinggi dengan panjang 1 atau sering disingkat 1-itemset. Singkatan k-itemset berarti satu set yang terdiri dari k item. Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item. Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat 2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2. Untuk selanjutnya iterasi iterasi ke-k dapat dibagi lagi menjadi beberapa bagian : 1. Pembentukan kandidat itemset Kandidat k-itemset dibentuk dari kombinasi (k-1)-itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma apriori adalah adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak termasuk dalam pola frekuensi tinggi dengan panjang k-1. 2. Penghitungan support dari tiap kandidat k-itemset Support dari tiap kandidat k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang memuat semua item di dalam kandidat k-itemset tersebut. Ini adalah juga ciri dari algoritma apriori yaitu diperlukan penghitungan dengan scan seluruh database sebanyak k-itemset terpanjang. 3. Tetapkan pola frekuensi tinggi Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari minimum support. Kemudian dihitung confidence masing-masing kombinasi item. Iterasi berhenti ketika semua item telah dihitung sampai tidak ada kombinasi item lagi. Secara ringkas algoritma apriori sebagai berikut : Universitas Sumatera Utara 16 Create L1 = set of supported itemsets of cardinality one Set k to 2 while (Lk−1 _= ∅) { Create Ck from Lk−1 Prune all the itemsets in Ck that are not supported, to create Lk Increase k by 1 } The set of all supported itemsets is L1 ∪ L2 ∪ · · · ∪ Lk 2.3.1. Classification-Based Association Saat ini, salah satu teknik data mining telah dikembangkan adalah dengan menerapkan konsep association rule mining dalam masalah klasifikasi. Ada beberapa metode yang bisa digunakan, antara lain association rule clustering system (ARCS) dan associative classification (Han, et al. 2012). Metode ARCS melakukan association rule mining didasarkan pada clustering kemudian menggunakan aturan yang dihasilkan untuk klasifikasi. ARCS, melakukan association rule mining dalam bentuk Aquant1 ο ο¦ο© Aquant2 ο¦ο© Acat, dimana bentuk dan Aquant2 Aquant1 adalah data test yang atributnya punya rentang nilai, Acat menunjukkan label kelas untuk atribut kategori yang diberikan dari training data . Metode associative classification mining menghasilkan aturan dalam bentuk condset (y), dimana condset adalah sekumpulan item dan (y) adalah label kelas. Aturan yang sesuai dengan minimum support tertentu disebut frequent. Rule mempunyai support (s) jika (s %) dari sample dalam data set yang mengandung condset dan memiliki kelas (y). Aturan yang sesuai dengan minimum confidence disebut accurate. Aturan mempunyai confidence (c) jika (c %) dari sample dalam data set yang mengandung condset memiliki kelas (y). Jika beberapa rule mempunyai condset yang sama, maka rule dengan confidence tertinggi dipilih sebagai possible rule (PR). Metode associative classification mining menggunakan algoritma association menghasilkan rule, seperti algoritma Apriori untuk association rule, kemudian memilih sekelompok aturan yang mempunyai kualitas tinggi dan menggunakan aturan tersebut untuk memprediksi data. Associative Universitas Sumatera Utara 17 classification masih kurang efisien karena seringkali menghasilkan aturan dalam jumlah yang besar (Yin & Han 2003). 2.4. Penelitian Terdahulu Pada penelitian ini, peneliti menggunakan beberapa penelitian terdahulu yang digunakan sebagai bahan kajian selama proses penelitian, yaitu penelitian yang dilakukan (Adeyemo, et al. 2015), melakukan penelitian tentang diagnosa demam tifoid menggunakan tiga metode yaitu ID3, C45 dan Multilayer Perceptron (MLP), dari hasil penelitian tersebut MLP memiliki tinggi akurasi terbaik dibandingkan dengan kedua metode lainnya, akan tetapi dalam hal kecepatan algoritma C45 ditemukan menjadi yang terbaik dalam data training; (Oguntimilehin, et al. 2013), melakukan sebuah pendekatan untuk diagnosa demam tifoid menggunakan teknik machine learning yang dikembangkan dalam penelitian ini dan kinerja sistem diukur pada kedua set pelatihan dan pengujian; (Budiono, et al. 2014) dalam penelitiannya melakukan identifikasi dan pencarian informasi mengenai pola penyakit radang sendi dengan teknik data mining association rule menggunakan algoritma apriori, penelitian ini menampilkan informasi berupa nilai support dan confidence hubungan antara pola penyakit radang sendi dengan atribut umur, jenis kelamin, pekerjaan dan gejala; (Widiastuti & Sofi, 2014) melakukan analisis perbandingan antara algoritma apriori dan fp-growth dalam penelitian ini ditemukan kekurangan pada algoritma apriori terkait dengan kecepatan dalam pencarian frequent itemset karena harus melakukan scanning database berulang kali untuk setiap kombinasi item, selain itu juga dibutuhkan generate candidate yang besar untuk mendapatkan kombinasi item dari database sedangkan pada fp-growth menggunakan pembangunan tree dalam pencarian fruquent item hal tersebut yang menyebabkan algoritma fp-growth lebih cepat. Hasil penelitian terdahulu dapat dilihat pada tabel 2.11 berikut: Universitas Sumatera Utara 18 Tabel 2.11. Penelitian Terdahulu No. Nama Peneliti dan Tahun Adeyemo, et al. 2015 Metode yang digunakan ID3/C4.5 Decision tree and Multilayer Perceptron Algorithms 2. Oguntimilehin, et al. 2013 Machine Learning Approach 3. Widiastuti & Sofi. 2014) Algoritma Apriori 4. Budiono, et al. 2014 Algoritma Apriori 1. Hasil Penelitian Dari hasil perbandingan dua metode tersebut Multilayer Perceptron (MPL) lah yang memiliki tingkat akurasi mencapai 83.62 % dalam memprediksi demam tifoid. Dengan menggunakan pendekatan machine learning untuk diagnosa demam tifoid tingkat deteksi 95% untuk training set dan 96% untuk set pengujian, tingkat keberhasilan sistem dianggap sangat baik. Algoritma Apriori ditemukan kelemahan dalam hal kecepatan karena melakukan scanning database berulang kali. Pengujian terhadap 4 atribut umur, jenis kelamin dan gejala mendapatkan hasil yaitu umur 45, lakilaki, petani, kaku persendian dengan nilai support 21 % dan confident 3 % dari total 4824 kasus, sehingga dapat membantu Puskesmas setempat untuk dapat memperkirakan persediaan obat dan tenaga medis. Universitas Sumatera Utara 19 2.5. Perbedaan dengan Penelitian Sebelumnya Perbedaan penelitian yang peneliti lakukan pada saat ini berdasarkan penelitian yang telah dilakukan sebelumnya, peneliti melakukan Analisis kinerja metode rough set dan algoritma apriori untuk mendapatkan akurasi yang optimal dalam identifikasi pola penyakit demam tifoid. Universitas Sumatera Utara