BAB 2 TINJAUAN PUSTAKA 2.1 Data Mining Data mining adalah eksplorasi dan analisis data dalam jumlah besar untuk menemukan pola yang berarti dan beraturan. Tujuan data mining adalah untuk meningkatkan pemasaran, penjualan, dan operasi dukungan pelanggan melalui teknik data mining, Berry & Linoff (2004).Berdasarkan tugas yang dapat dilakukan Data Mining dibagi menjadi beberapa kelompok, Berry & Linoff (2004): a. Klasifikasi Merupakan salah satu proses data mining yang paling umum, untuk memahami database kita harus mengklasifikasikan, mengekategorikan, dan grading dengan tujuan untuk membangun model dari beberapa jenis yang dapat diterapkan pada data unclassified mis: Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan suatu kredit yang baik atau buruk. Mendiagnosis penyakit seorang pasien untuk mendapatkan termasuk kategori penyakit apa b. Estimasi Estimasi sama dengan klasifikasi, hanya estimasi sering digunakan untuk melakukan tugas klasifikasi nilai variabel yang bertujuan untuk membangun model untuk menyediakan nilai dari variabel target sebagai nilai prediksi. Contoh: Memperkirakan jumlah anak dalam keluarga Memperkirakan total pendapatan rumah tangga Memperkirakan nilai seumur hidup pelanggan Memperkirakan probabilitas bahwa seseorang akan menanggapi keseimbangan. c. Prediksi Prediksi adalah sama dengan klasifikasi atau estimasi, kecuali bahwa catatan diklasifikasi menurut beberapa prilaku masa depan diprediksi atau diperkirakan nilai masa depan.Tugas prediksi memeriksa akurasi klasifikasi dalam pemodelan prediktif, masalah tambahan mengenai hubungan temporal (data historis) variabel masukan atau prediktor terhadap variabel sasaran.contoh: Data historis digunakan untuk membangun sebuah model yang menjelaskan saat ini perilaku yang diamati Memprediksi ukuran keseimbangan yang akan ditransfer jika prospek kartu kredit menerima keseimbangan mentransfer menawarkan, memprediksi pelanggan yang akan meninggalkan dalam 6 bulan kedepan. d. Clustering Culstering adalah tugas segmentasi populasi yang heterogen menjadi berapa subkelompok yang lebih homogen disebut dengan cluster, yang membedakan pengelompokan dari klasifikasi. Pengelompokan tidak bergantung pada kelas yang telah ditetapkan. Inclassification, setiap record diberikan kelas yang telah ditetapkan berdasarkan model yang dikembangkan melalui preclassified.clustering sering dilakukan sebagai awal untuk bentuk dari data mining atau modeling.contoh: Membagi basis pelanggan ke cluster atau orang-orang dengan kebiasaan membeli yang sama, dan kemudian timbul pertanyaan apa jenis promosi yang terbaik untuk setiap cluster e. Profile profile adalah merupakan gambaran yang sedang terjadi di database. Contoh: Deskripsi sederhana: “perempuan mendukung demokrat dalam jumlah yang lebih besar daripada laki-laki” dapat memprovokasi sejumlah besar bunga dan studi lanjut pada bagian dari wartawan, sosiolog, ekonom, dan ilmuwan politik. Belum lagi calon untuk jabatan publik. Deskripsi dari pola ini kecendrungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecendrungan. 2.2 Algoritma Apriori Algoritma Apriori adalah salah satu algoritma pada data mining untuk mencari frequent item/itemset pada transaksional database. Algoritma apriori pertama kali diperkenalkan oleh R.Agarwal dan R Srikant untuk mencari frequent tertinggi dari suatu database, Kaur et al (2014). Penggunaan bottom-up pendekatan berulang. Untuk menentukan asosiasi rule mining sebuah transaksi database, diperlukan waktu dalam melakukan proses frequent item set, menghasilkan kombinasi data yang cukup t banyak, Abdullah (2011). Proses ini dilakukan untuk mencari minimum nilai support dan minimum nilai confidence . Algoritma apriori sangat mudah dipahami, tetapi ada beberapa kekurangan pada algortima tersebut: 1. Database Scanning: Database transaksi perlu dipindai berulang kali untuk menemukan frequent itemset. Jika ada n item dalam database, membutuhkan minimal n kali memindai database. 2. Pengaturan minimal frequent item/itemset untuk menentukan nilai support minimum. 3. Aturan Asosiasi rule mining dalam mendapatkan nilai minimum confidence Langkah-langkah algoritma apriori sebagai berikut: 1. Join(penggabungan). Pada proses ini setiap item dikombinasikan dengan item yang lainnya sampai tidak terbentuk kombinasi lagi. 2. Prune(pemangkasan). Pada proses ini, hasil dari item yang telah dikombinasikan tadi lalu dipangkas dengan menggunakan minimum support yang telah ditentukan. Dua proses utama tersebut merupakan langkah yang akan dilakukan untuk mendapat frequent itemset pada algoritma Apriori. Gambar 2.1 Proses Algoritma Apriori Gambar 2.2 Generasi proses frequent item/itemset Sumber : Kaur (2014) 2.2.1 Analisis Asosiasi Rule Mining Aturan asosiasi merupakan dalam data mining yang menemukan frequent itemset pada database. Asosiasi aturan data mining adalah mekanisme dalam data mining dalam aturan asosiasi, ekspresi implikasi dari bentuk X → Y di mana X adalah Y. Anteseden dan konsekuen ditetapkan item domain I. pendahuluan dan konsekuen adalah seperangkat item dari domain I. Dengan demikian X∩Y = Φ. Dukungan dari set item didefinisikan sebagai rasio jumlah transaksi yang mengandung item diatur pada jumlah total transaksi. Kepercayaan aturan asosiasi X → Y adalah probabilitas bahwa Y transaksi mengandung algoritma association rule mining X ,Rupinder (2014). Rumus untuk mencari nilai support dan confidence adalah : a. Support Support (A b. Jumlah Transaksi Mengandung A dan B B)= Jumlah Total Transaksi (2.1) Confidence Jumlah Transaksi Mengandung A dan B Support (A B) = (2.2) Jumlah Total Transaksi Analisis asosiasi didefenisikan suatu proses untuk menemukan semua aturan asosiasi yang memenuhi syarat minimum untuk support (minimum support) dan syarat minimum untuk confidence (minimum confidence). 2.3 FP-Growth Frequent Pattern Growth (FP-Growth) adalah salah satu algoritma alternatif untuk mengatasi Frequent Pattern pada algoritma apriori. FP-growth berfungsi untuk menentukan item/itemset yang sering muncul (frequent item/itemset) dalam sebuah database, Moriwal (2014). Mining tanpa melakukan candidate generation adalah teknik FP-Growth dengan menggunakan struktur data FP-tree, Han et al (2000). Dengan menggunakan cara ini scan database hanya dilakukan dua kali saja, tidak perlu berulang-ulang. Data akan direpresentasekan dalam bentuk FP-Tree. Setelah FP-Tree terbentuk, maka struktur data yang baik sekali untuk Frequent itemset akan diperoleh. FP-Tree merupakan struktur data yang baik sekali untuk frequent Pattern mining, Han et al (2000.) Struktur ini memberikan informasi yang lengkap untuk membentuk Frequent Pattern. Item-item yang tidak frequent (infrequent) sudah tidak ada dalam penggunaan FP-tree, Han et al (2000). Pembangunan FP-Tree dari sekumpulan data transaksi, akan diterapkan algoritma FP-Growth untuk mencari Frequent itemset yang signifikan, Han et al (2000). Algoritma FP-tree dibagi menjadi tiga langkah utama, yaitu: Tahap Pembangkitan Conditional Pattern Base Conditional Pattern Base merupakan subdatabase yang berisi prefix path (linasan e:1 prefix) dan pattern 1. (pola akhiran). Pembangkitan conditioanl pattern base didapatkan melalui FP- tree yang telah dibangun sebelumnya. 2. Tahap Pembangkitan Conditional FP-tree pada tahap ini, support count dari setiap item pada setiap conditional pattern base dijumlahkan, lalu setiap item yang memiliki jumlah support count lebih besar sama dengan minimum support count akan dibangkitkan dengan conditional FP-tree. 3. Tahap Pencarian frequent itemset apabila conditional FP-tree merupakan lintasan tunggal(single path), maka didapatkan frequent itemset dengan melakukan kombinasi item untuk setiap conditonal FP-tree. Jika bukan lintasan tunggal, maka dilakukan pembangkitan FP-growth secara rekursif. Ketiga tahap tersebut merupakan langkah yang akan dilakukan untuk mendapatkan frequent itemset. Dengan menggunakan FP-Growth, kita dapat melakukan Pettern Frequent itemset dengan tidak membutuhkan waktu yang cukup lama. Gambar 2.3 Proses FP_Growth Sumber: Han (2000) Gambar 2.4 Deskripsi FP-Growth Sumber: Han (2000) Pada gambar 2.4 proses FP-Growth untuk pembacaan TID = 1 yaitu {a,b} dimulai mengerjakan fp-tree a1,b2, dilanjutkan dengan pembacaan TID=2 yaitu {b,c,d} yang dihasilkan a1,b2,c1,d1, dilanjutkan kemudian pembacaan TID =3 yaitu {a,c,d,e} yang dihasilkan a2,b2,c2,d2,e1, dilanjutkan dengan pembacaan sampai dengan proses TID = 10 yaitu {b,c,e} yang dihasilkan a2,b7,c5,d5,e3 sehingga perolehan frequent item/itemset untuk keseluruhan TID pada gambar 2.4 diatas adalah a=8, b=7, c=6, d=5 dan e = 3 Tabel 2.1 Conditional Pattern Base Sumber: Han (2000) Pada tebel 2.1 di atas memperlihatkan jumlah setiap frequent item yang muncul untuk setiap transaksinya adalah I2, I3, dan I5 2.4 Grafik Mining Grafik Mining menjadi semakin penting dalam pemodelan rumit struktur, seperti: sirkuit, gambar, senyawa kimia, struktur protein, jaringan biologis, sosial jaringan, Web, alur kerja, dan dokumen XML, Kavi & Joshi (2014) Banyak algoritma pencarian grafik telah dikembangkan dalam informatika kimia, visi komputer, video pengindeksan, dan pengambilan teks. Dengan meningkatnya permintaan pada analisis data dalam jumlah besar dan terstruktur, graph data mining selalu digunakan, Kumar & Rukmani(2010). Di antara berbagai jenis pola grafik, grafik adalah pola yang sangat dasar yang dapat ditemukan di koleksi grafik, yang berguna untuk mengklasifikasi dan klastering grafik, membangun indeks grafik, dan memfasilitasi pencarian kesamaan dalam database grafik. Penelitian terbaru telah mengembangkan beberapa metode graph mining dan diterapkan ke penemuan pola yang menarik dalam berbagai aplikasi, Kavi & Joshi (2014) Misalnya, ada laporan tentang penemuan struktur kimia aktif dalam dataset HIV-screening oleh con-trasting dukungan sering grafik antara kelas yang berbeda. Ada pejantan-ies pada penggunaan struktur sering seperti fitur untuk mengklasifikasikan senyawa kimia, teknik pertambangan grafik sering untuk mempelajari keluarga struktural protein, pada deteksi subpathways cukup besar sering terjadi di jaringan metabolisme, dan pada penggunaan grafik, pola grafik pengindeksan dan pencarian kesamaan dalam database grafik. Penelitian yang telah dilakukan berkaitan dengan algoritma apriori tentang frequent itemset: Penelitian Kaur et al (2014) desain dan implementasi efesien pada algoritma apriori, dimana penelitian ini dilakukan penganalisaan tentang efesiensi penggunaan pada algoritma apriori, sedangkan penelitiana yang dilakukan Heena et al (2014) menganalisis frequent pattern dalam perpindahan objek pada algoritma apriori dan Penelitian Kavi & Joshi (2014) telah mencoba A Survey on Enhancing Data Processing of Positive and Negative Association Rule Mining hasil penelitian yang dilakukan dapat dilihat pada tabel 2.2 di bawah ini: Tabel 2.2 Algoritma Apriori dengan FP-Growth Kavi & Joshi (2014) ALGORITHM ADVANTAGES DISADVANTAGES APRIORI -Easy to implement -Too many scans on -New pruning tech. database high CPU -Avoids wastage of counting usage candidate which are infrequent FP GROWTH -Only two passes on database -FP Tree is difficult to -No candidate generation use in an interactive -Faster than Apriori mining system -Computation cost decreased -FP Tree is not -FP Tree construction suitable for incremental mining WEIGHTED FP -Good scalability -Extra burden of GROWTH -Generates more concise and defining proper weight important ranges weighted frequent item sets. -Reduction in memory consumption Berdasarkan penelitian diatas, maka perlu dilakukan penelitian pada algoritma apriori untuk menemukan teknik baru dalam mengatasi masalah frequent item/itemset dalam pembentukan asosiasi rule mining untuk mendapatakan nilai support dan nilai confidence dalam pada database yang cukup besar, sehingga tanpa melakukan candidate generation dapat menghasilkan asosiasi rule mining.