Data Mining

advertisement
Data Mining
Pengenalan Sistem & Teknik, Serta Contoh Aplikasi
Avinanta Tarigan
22 Nov 2008
1
Avinanta Tarigan
Data Mining
Outline
2
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Pengertian Dasar
Outline
3
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Pengertian Dasar
Latar Belakang
Banyak data yang telah
direkam dan disimpan:
Transaksi penjualan
supermarket
Transaksi perbankan dan
kartu kredit
Log kunjungan Web
(access_log)
Akuisisi data dalam
penelitian-penelitian seperti
astronomi, kesehatan, dll
Sistem komputer lebih murah
dan cepat (Moore’s Law)
4
Avinanta Tarigan
Kebutuhan untuk berkompetisi
dengan strategi yang tepat
menjadi lebih tinggi
Data Mining
Pengertian Dasar
Mengapa Harus Data Mining ?
Data yang sedemikian besar kadang memiliki informasi
yang tersembunyi
Kemampuan manusia terbatas untuk “mempelototi”
data-data tersebut dalam analisis
5
Avinanta Tarigan
Data Mining
Pengertian Dasar
Definisi2 Data Mining
Data
Rekaman atau catatan terhadap fakta / transaksi / obyek
Definisi
Ekstraksi informasi yang implisit, tidak diketahui
sebelumnya, dan berpotensi berguna
Eksplorasi dan analisis, secara otomatis atau tidak, data
yang sangat besar untuk menemukan pola-pola yang
berguna dan mempunyai arti
6
Avinanta Tarigan
Data Mining
Pengertian Dasar
Pengertian Yang Salah
Bukan Data Mining
Data Mining
Mencari nomor telepon
“Bambang Gunawan” di
buku telepon Indonesia
Menemukan bahwa banyak
orang bernama Bambang
di daerah Jawa Timur
Mencari informasi
mengenai “Bunga” di
google.com
Mengelompokkan dokumen
web mengenai “Bunga”
sesuai dengan konteks
Bunga Bank atau Kredit
(Keuangan)
Bunga - Tanaman /
Pertanian
BCL (Artis)
7
Avinanta Tarigan
Data Mining
Pengertian Dasar
Sistem Ekstraksi Pengetahuan
KDD (Knowledge Discovery in Databases)
8
Avinanta Tarigan
Data Mining
Pengertian Dasar
Ilmu Data Mining
Gabungan dari
beberapa bidang ilmu dalam
Matematik dan Ilmu Komputer
Diperlukan karena:
Data yang s(u)angat b(u)esar
Dimensi data yang besar
Data Heterogen
9
Avinanta Tarigan
Data Mining
Pengertian Dasar
Data
Kumpulan obyek data dan
atributnya
Obyek : record, point, case,
sampel, entitas, instan
Atribut / variabel / field :
karakteristik dari obyek (status
pernikahan, umur, dll)
10
Avinanta Tarigan
Data Mining
Classification Mining
Outline
11
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Classification Mining
Classification Mining
Ekstraksi pola pengelompokan atau pengklasifikasian
sebuah himpunan obyek / data (training-set) ke dalam
kelas (class) tertentu berdasarkan atribut-atributnya
Pola pengelompokan yang ditemukan akan menjadi model
pengelompokan
Model digunakan untuk memprediksi kelompok data /
obyek baru (test-set)
12
Avinanta Tarigan
Data Mining
Classification Mining
Ilustrasi Classification Mining
13
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Aplikasi I
Pemakaian Kartu Kredit secara Ilegal
Tujuan : mendeteksi adanya penggunaan kartu kredit
secara ilegal
Pendekatan :
Data transaksi sebelumnya (lokasi & waktu transaksi, jenis
barang yang dibeli, besar transaksi)
Label data-data tersebut dengan Curang atau Aman
DM mencari model klasifikasi Curang atau Aman
berdasarkan atribut transaksi
Menerapkan model tersebut jika ada transaksi baru untuk
mempercepat / tepat tindakan preventif
14
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Aplikasi II
Deteksi SPAM
Tujuan : mendeteksi email yang tidak diharapkan secara
dini
Direct Marketing
Tujuan : mencari pengelompokan profil pelanggan agar
target marketing sesuai
Sky Survey Cataloging
Tujuan : mengelompokkan obyek langit hasil pemotretan
teleskop ke dalam class-nya
15
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Aplikasi III
16
Avinanta Tarigan
Data Mining
Classification Mining
Teknik / Metode
Decision Tree (Pohon Keputusan)
Rule-based Methods
Memory based reasoning
Neural Networks (Jaringan Syaraf Tiruan)
Naive Bayes dan Bayesian Belief Networks
Support Vector Machines
17
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Model: Pohon Keputusan I
18
Avinanta Tarigan
Data Mining
Classification Mining
Contoh Model: Pohon Keputusan II
Bagaimanakah Algoritma Pembentuk Pohon Keputusan
Tersebut ?
19
Avinanta Tarigan
Data Mining
Association Mining
Outline
20
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Association Mining
Association Mining
Menemukan pola asosiasi dalam data
Adanya kemunculan obyek tertentu berdasarkan
kemunculan obyek yang lain
21
Avinanta Tarigan
Data Mining
Association Mining
Contoh Aplikasi I
Marketing & Sales Promotion
Misalnya pola yang ditemukan :
{Susu Anak, ...} → {Kwaci}
Kwaci sebagai konsekuen : bagaimana caranya menaikkan
penjualan kwaci
Susu Anak sebagai anteseden : jika tidak lagi menjual susu
anak, memprediksi produk lain yang ikut jatuh penjualannya
Dua-duanya : membuat paket promo Susu Anak, Kwaci, dll
22
Avinanta Tarigan
Data Mining
Association Mining
Contoh Aplikasi II
Pengelolaan Rak di Supermarket
Tujuan: memudahkan pelanggan berbelanja barang-barang
yang sering dibeli bersama
Misalnya: ada rak kecil berisi kwaci diletakkan pada bagian
susu anak
Sistem Rekomendasi Pintar
Tujuan: memberikan rekomendasi kepada pelanggan toko
buku on-line tentang buku-buku lain yang sering dibeli juga
oleh pelanggan lainnya jika membeli buku tertentu
23
Avinanta Tarigan
Data Mining
Association Mining
Metode
Rule asosiasi : X → Y
1
Membangkitkan semua item-set yang kemunculannya
tinggi pada data
1
2
2
Mencari pola asosiasi yang mempunyai “confidence” yang
tinggi
1
2
3
24
Bentuk Lattice (struktur yang akan memunculkan semua
subset yang diurutkan berdasarkan subset - superset)
Menyeleksi item-set dg Support yang tinggi. Support =
Jumlah Transaksi Yg Berisi X dan Y
Jumlah Keseluruhan Transaksi
Confidence = Mengukur seberapa sering item di Y juga
muncul pada transaksi yang berisi X
Gunakan pencarian Bread-First-Search atau
Depth-First-Search pada Lattice tsb
Seleksi akhir dengan “Interestingness Measure”.
Asosiasi{Kopi} → {Gula} tentunya tidak menarik
Avinanta Tarigan
Data Mining
Association Mining
Ilustrasi I
Pembentukan Lattice
25
Avinanta Tarigan
Data Mining
Association Mining
Ilustrasi II
Seleksi “Support”
26
Avinanta Tarigan
Data Mining
Association Mining
Ilustrasi III
Seleksi High “Confidence”
27
Avinanta Tarigan
Data Mining
Clustering
Outline
28
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Clustering
Clustering (Penggugusan)
Definition
Proses mencari gugus-gugus dari sekumpulan obyek sehingga
obyek-obyek di dalam sebuah gugus mirip satu dengan lainnya,
dan berbeda dengan obyek di luar gugusnya.
29
Avinanta Tarigan
Data Mining
Clustering
Contoh Aplikasi I
Web-Document Clustering:
Tujuan: mencari gugus dokumen-dokumen Web yang mirip
berdasarkan kemunculan istilah penting
Pendekatan: mengidentifikasi istilah yang sering muncul
pada setiap dokumen, mengukur kemiripan berdasarkan
frekwensi kemunculan istilah pada dokumen lainnya
Hasil: Web search engine memunculkan
dokumen-dokumen yang mirip (dalam 1 gugus)
berdasarkan istilah yang dicari
30
Avinanta Tarigan
Data Mining
Clustering
Contoh Aplikasi II
Segmentasi Pasar:
Tujuan: mencari gugus segmentasi pasar berdasarkan data
transaksi untuk keperluan marketing
Pendekatan:
mempersiapkan data beserta atribut data pelanggan
berdasarkan geografi dan data pribadi lainnya
mencari gugus pelanggan yang mirip berdasarkan atribut2
tsb
melakukan observasi perilaku pasar berdasarkan
gugus-gugus pelanggan yang ditemukan
Hasil: strategi marketing yang tepat sasaran
31
Avinanta Tarigan
Data Mining
Clustering
Mengukur Kemiripan Atribut Data I
Kemiripan (Similarity):
ukuran dalam numerik [0,1] yang merepresentasikan
kemiripan antara 2 obyek
0 (tidak mirip) < range-kemiripan < 1(sama/mirip sekali)
Ketidakmiripan (Disimilarity) vs Kemiripan
p dan q adalah nilai atribut dari 2 obyek
Tipe Atribut
Ketidakmiripan
Kemiripan
(
(
0 if p = q
0 if p 6= q
Nominal
d=
s=
1 if p 6= q
1 if p = q
Ordinal
Interval / Ratio
32
d = |p−q|
n
d = |p − q|
Avinanta Tarigan
Data Mining
s = 1 − |p−q|
n
s = −d atau s =
1
1+d
Clustering
Mengukur Kemiripan Atribut Data II
Pengukuran kemiripan variabel kontinyu:
Euclidean
q Distance:
dist = ∑ni=1 (pi − qi )2
Minkowski Distance:
1
dist = ∑ni=1 |pi − qi |r r
33
Avinanta Tarigan
Data Mining
Clustering
Mengukur Kemiripan Atribut Data III
Contoh Euclidean Distance
34
Avinanta Tarigan
Data Mining
Clustering
Contoh Algoritma Pencari Gugus
K -Means Clustering, Konsep: Centroid → titik tengah
gugus
Algoritma (asumsi: sudah dilakukan pengukuran
kemiripan)
1
2
3
4
5
35
Tentukan K points sebagai awal centroids
Repeat
Buat K buah gugus dengan memasukkan point-point
yang dekat dengan centroid
Cari centroid baru dari gugus-gugus tersebut
Until Centroid tidak berubah
Avinanta Tarigan
Data Mining
Clustering
Ilustrasi K-Means
36
Avinanta Tarigan
Data Mining
Penutup
Outline
37
1
Pengertian Dasar
2
Classification Mining
3
Association Mining
4
Clustering
5
Penutup
Avinanta Tarigan
Data Mining
Penutup
OnLine Analytical Processing I
Diusulkan oleh E.F. Codd (Bapak Relational Database)
Data tidak diolah dari database, melainkan dibentuk dalam
array multidimensi
Data dapat direpresentasikan sebagai titik / point dalam
ruang multi-dimensi jika atribut2 nya adalah numerik
Matriks m × n dapat merepresentasikan model data tsb,
dimana terdapat m obyek dan n atribut (Data Cube)
Keuntungan: explorasi, operasi, dan transformasi data
dapat lebih mudah dilakukan dan (hampir) real-time
38
Avinanta Tarigan
Data Mining
Penutup
OnLine Analytical Processing II
Banyak analisis terhadap transaksi bisnis dengan volume
besar dapat dilakukan dengan menggunakan OLAP
OLAP menjadi Jargon banyak Vendor
39
Avinanta Tarigan
Data Mining
Penutup
Informasi Mengenai Data Mining
Tan, Steinbach, Kumar, “Introduction to Data Mining”
http://en.wikipedia.org/wiki/Data_mining
40
Avinanta Tarigan
Data Mining
Penutup
Selesai
TERIMAKASIH
presentasi ini sendiri dapat didownload dari
http://avinanta.staff.gunadarma.ac.id
41
Avinanta Tarigan
Data Mining
Download