Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 2 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering 5 Penutup Avinanta Tarigan Data Mining Pengertian Dasar Outline 3 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering 5 Penutup Avinanta Tarigan Data Mining Pengertian Dasar Latar Belakang Banyak data yang telah direkam dan disimpan: Transaksi penjualan supermarket Transaksi perbankan dan kartu kredit Log kunjungan Web (access_log) Akuisisi data dalam penelitian-penelitian seperti astronomi, kesehatan, dll Sistem komputer lebih murah dan cepat (Moore’s Law) 4 Avinanta Tarigan Kebutuhan untuk berkompetisi dengan strategi yang tepat menjadi lebih tinggi Data Mining Pengertian Dasar Mengapa Harus Data Mining ? Data yang sedemikian besar kadang memiliki informasi yang tersembunyi Kemampuan manusia terbatas untuk “mempelototi” data-data tersebut dalam analisis 5 Avinanta Tarigan Data Mining Pengertian Dasar Definisi2 Data Mining Data Rekaman atau catatan terhadap fakta / transaksi / obyek Definisi Ekstraksi informasi yang implisit, tidak diketahui sebelumnya, dan berpotensi berguna Eksplorasi dan analisis, secara otomatis atau tidak, data yang sangat besar untuk menemukan pola-pola yang berguna dan mempunyai arti 6 Avinanta Tarigan Data Mining Pengertian Dasar Pengertian Yang Salah Bukan Data Mining Data Mining Mencari nomor telepon “Bambang Gunawan” di buku telepon Indonesia Menemukan bahwa banyak orang bernama Bambang di daerah Jawa Timur Mencari informasi mengenai “Bunga” di google.com Mengelompokkan dokumen web mengenai “Bunga” sesuai dengan konteks Bunga Bank atau Kredit (Keuangan) Bunga - Tanaman / Pertanian BCL (Artis) 7 Avinanta Tarigan Data Mining Pengertian Dasar Sistem Ekstraksi Pengetahuan KDD (Knowledge Discovery in Databases) 8 Avinanta Tarigan Data Mining Pengertian Dasar Ilmu Data Mining Gabungan dari beberapa bidang ilmu dalam Matematik dan Ilmu Komputer Diperlukan karena: Data yang s(u)angat b(u)esar Dimensi data yang besar Data Heterogen 9 Avinanta Tarigan Data Mining Pengertian Dasar Data Kumpulan obyek data dan atributnya Obyek : record, point, case, sampel, entitas, instan Atribut / variabel / field : karakteristik dari obyek (status pernikahan, umur, dll) 10 Avinanta Tarigan Data Mining Classification Mining Outline 11 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering 5 Penutup Avinanta Tarigan Data Mining Classification Mining Classification Mining Ekstraksi pola pengelompokan atau pengklasifikasian sebuah himpunan obyek / data (training-set) ke dalam kelas (class) tertentu berdasarkan atribut-atributnya Pola pengelompokan yang ditemukan akan menjadi model pengelompokan Model digunakan untuk memprediksi kelompok data / obyek baru (test-set) 12 Avinanta Tarigan Data Mining Classification Mining Ilustrasi Classification Mining 13 Avinanta Tarigan Data Mining Classification Mining Contoh Aplikasi I Pemakaian Kartu Kredit secara Ilegal Tujuan : mendeteksi adanya penggunaan kartu kredit secara ilegal Pendekatan : Data transaksi sebelumnya (lokasi & waktu transaksi, jenis barang yang dibeli, besar transaksi) Label data-data tersebut dengan Curang atau Aman DM mencari model klasifikasi Curang atau Aman berdasarkan atribut transaksi Menerapkan model tersebut jika ada transaksi baru untuk mempercepat / tepat tindakan preventif 14 Avinanta Tarigan Data Mining Classification Mining Contoh Aplikasi II Deteksi SPAM Tujuan : mendeteksi email yang tidak diharapkan secara dini Direct Marketing Tujuan : mencari pengelompokan profil pelanggan agar target marketing sesuai Sky Survey Cataloging Tujuan : mengelompokkan obyek langit hasil pemotretan teleskop ke dalam class-nya 15 Avinanta Tarigan Data Mining Classification Mining Contoh Aplikasi III 16 Avinanta Tarigan Data Mining Classification Mining Teknik / Metode Decision Tree (Pohon Keputusan) Rule-based Methods Memory based reasoning Neural Networks (Jaringan Syaraf Tiruan) Naive Bayes dan Bayesian Belief Networks Support Vector Machines 17 Avinanta Tarigan Data Mining Classification Mining Contoh Model: Pohon Keputusan I 18 Avinanta Tarigan Data Mining Classification Mining Contoh Model: Pohon Keputusan II Bagaimanakah Algoritma Pembentuk Pohon Keputusan Tersebut ? 19 Avinanta Tarigan Data Mining Association Mining Outline 20 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering 5 Penutup Avinanta Tarigan Data Mining Association Mining Association Mining Menemukan pola asosiasi dalam data Adanya kemunculan obyek tertentu berdasarkan kemunculan obyek yang lain 21 Avinanta Tarigan Data Mining Association Mining Contoh Aplikasi I Marketing & Sales Promotion Misalnya pola yang ditemukan : {Susu Anak, ...} → {Kwaci} Kwaci sebagai konsekuen : bagaimana caranya menaikkan penjualan kwaci Susu Anak sebagai anteseden : jika tidak lagi menjual susu anak, memprediksi produk lain yang ikut jatuh penjualannya Dua-duanya : membuat paket promo Susu Anak, Kwaci, dll 22 Avinanta Tarigan Data Mining Association Mining Contoh Aplikasi II Pengelolaan Rak di Supermarket Tujuan: memudahkan pelanggan berbelanja barang-barang yang sering dibeli bersama Misalnya: ada rak kecil berisi kwaci diletakkan pada bagian susu anak Sistem Rekomendasi Pintar Tujuan: memberikan rekomendasi kepada pelanggan toko buku on-line tentang buku-buku lain yang sering dibeli juga oleh pelanggan lainnya jika membeli buku tertentu 23 Avinanta Tarigan Data Mining Association Mining Metode Rule asosiasi : X → Y 1 Membangkitkan semua item-set yang kemunculannya tinggi pada data 1 2 2 Mencari pola asosiasi yang mempunyai “confidence” yang tinggi 1 2 3 24 Bentuk Lattice (struktur yang akan memunculkan semua subset yang diurutkan berdasarkan subset - superset) Menyeleksi item-set dg Support yang tinggi. Support = Jumlah Transaksi Yg Berisi X dan Y Jumlah Keseluruhan Transaksi Confidence = Mengukur seberapa sering item di Y juga muncul pada transaksi yang berisi X Gunakan pencarian Bread-First-Search atau Depth-First-Search pada Lattice tsb Seleksi akhir dengan “Interestingness Measure”. Asosiasi{Kopi} → {Gula} tentunya tidak menarik Avinanta Tarigan Data Mining Association Mining Ilustrasi I Pembentukan Lattice 25 Avinanta Tarigan Data Mining Association Mining Ilustrasi II Seleksi “Support” 26 Avinanta Tarigan Data Mining Association Mining Ilustrasi III Seleksi High “Confidence” 27 Avinanta Tarigan Data Mining Clustering Outline 28 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering 5 Penutup Avinanta Tarigan Data Mining Clustering Clustering (Penggugusan) Definition Proses mencari gugus-gugus dari sekumpulan obyek sehingga obyek-obyek di dalam sebuah gugus mirip satu dengan lainnya, dan berbeda dengan obyek di luar gugusnya. 29 Avinanta Tarigan Data Mining Clustering Contoh Aplikasi I Web-Document Clustering: Tujuan: mencari gugus dokumen-dokumen Web yang mirip berdasarkan kemunculan istilah penting Pendekatan: mengidentifikasi istilah yang sering muncul pada setiap dokumen, mengukur kemiripan berdasarkan frekwensi kemunculan istilah pada dokumen lainnya Hasil: Web search engine memunculkan dokumen-dokumen yang mirip (dalam 1 gugus) berdasarkan istilah yang dicari 30 Avinanta Tarigan Data Mining Clustering Contoh Aplikasi II Segmentasi Pasar: Tujuan: mencari gugus segmentasi pasar berdasarkan data transaksi untuk keperluan marketing Pendekatan: mempersiapkan data beserta atribut data pelanggan berdasarkan geografi dan data pribadi lainnya mencari gugus pelanggan yang mirip berdasarkan atribut2 tsb melakukan observasi perilaku pasar berdasarkan gugus-gugus pelanggan yang ditemukan Hasil: strategi marketing yang tepat sasaran 31 Avinanta Tarigan Data Mining Clustering Mengukur Kemiripan Atribut Data I Kemiripan (Similarity): ukuran dalam numerik [0,1] yang merepresentasikan kemiripan antara 2 obyek 0 (tidak mirip) < range-kemiripan < 1(sama/mirip sekali) Ketidakmiripan (Disimilarity) vs Kemiripan p dan q adalah nilai atribut dari 2 obyek Tipe Atribut Ketidakmiripan Kemiripan ( ( 0 if p = q 0 if p 6= q Nominal d= s= 1 if p 6= q 1 if p = q Ordinal Interval / Ratio 32 d = |p−q| n d = |p − q| Avinanta Tarigan Data Mining s = 1 − |p−q| n s = −d atau s = 1 1+d Clustering Mengukur Kemiripan Atribut Data II Pengukuran kemiripan variabel kontinyu: Euclidean q Distance: dist = ∑ni=1 (pi − qi )2 Minkowski Distance: 1 dist = ∑ni=1 |pi − qi |r r 33 Avinanta Tarigan Data Mining Clustering Mengukur Kemiripan Atribut Data III Contoh Euclidean Distance 34 Avinanta Tarigan Data Mining Clustering Contoh Algoritma Pencari Gugus K -Means Clustering, Konsep: Centroid → titik tengah gugus Algoritma (asumsi: sudah dilakukan pengukuran kemiripan) 1 2 3 4 5 35 Tentukan K points sebagai awal centroids Repeat Buat K buah gugus dengan memasukkan point-point yang dekat dengan centroid Cari centroid baru dari gugus-gugus tersebut Until Centroid tidak berubah Avinanta Tarigan Data Mining Clustering Ilustrasi K-Means 36 Avinanta Tarigan Data Mining Penutup Outline 37 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering 5 Penutup Avinanta Tarigan Data Mining Penutup OnLine Analytical Processing I Diusulkan oleh E.F. Codd (Bapak Relational Database) Data tidak diolah dari database, melainkan dibentuk dalam array multidimensi Data dapat direpresentasikan sebagai titik / point dalam ruang multi-dimensi jika atribut2 nya adalah numerik Matriks m × n dapat merepresentasikan model data tsb, dimana terdapat m obyek dan n atribut (Data Cube) Keuntungan: explorasi, operasi, dan transformasi data dapat lebih mudah dilakukan dan (hampir) real-time 38 Avinanta Tarigan Data Mining Penutup OnLine Analytical Processing II Banyak analisis terhadap transaksi bisnis dengan volume besar dapat dilakukan dengan menggunakan OLAP OLAP menjadi Jargon banyak Vendor 39 Avinanta Tarigan Data Mining Penutup Informasi Mengenai Data Mining Tan, Steinbach, Kumar, “Introduction to Data Mining” http://en.wikipedia.org/wiki/Data_mining 40 Avinanta Tarigan Data Mining Penutup Selesai TERIMAKASIH presentasi ini sendiri dapat didownload dari http://avinanta.staff.gunadarma.ac.id 41 Avinanta Tarigan Data Mining