Konsep dan Teknik Data Mining - elista:.

advertisement
Konsep dan Teknik Data Mining
Edward Purba
Pengantar DM
1/52
Pengantar Data Mining (DM)
Motivasi
Mengapa? Apa?
Aplikasi
Proses KDD
Tinjauan DM
Isu Utama
Edward Purba
Pengantar DM
2/52
Motivasi: “Kebutuhan
Merupakan
p
Sumber Penemuan”
• Problem ledakan data
– Tool koleksi data otomatis dan
perkembangan teknologi database
menyebabkan banyak sekali data yang bisa
dikumpulkan di dalam database, data
warehouse, dan alat peyimpanan informasi
a ya, untuk
u tu dianalisa
d a a sa
lainnya,
• Kita berkubang data tetapi kelaparan
pengetahuan!
t h !
Edward Purba
Pengantar DM
3/52
Motivasi: “Kebutuhan
Merupakan
p
Sumber Penemuan”
• Solusi: Penggudangan data dan
penambangan data (Data warehousing and
data mining)
– Data warehousing dan on-line analytical
processing (OLAP)
– Penyaringan pengetahuan yang menarik
(k id h keberaturan,
(kaidah,
k b t
pola,
l kendala)
k d l ) dari
d i data
d t
dalam database yang besar
Edward Purba
Pengantar DM
4/52
Komputer Tahun 19401940-an
(ENIAC)
Edward Purba
Pengantar DM
5/52
Personal Home Network Tahun
2000--an
2000
File E dit
L ocate
View
Storage
H elp
500
E
D
C
B
A
400
300
200
100
0
1
2
3
4
5
6
Network
Traffic
7
Mount
431
7437 1950
79%
/
02 631963
47358
Help
93%
/us
Storage
Storage
Storage
Storage
Storage
Storage
Internet
Storage
Edward Purba
Pengantar DM
6/52
Evolusi atau Perkembangan
Teknologi Database
• 1960an: Koleksi data, pembuatan data, IMS dan
network
t
k DBMS
• 1970an: Model data relasional dan implementasi
DBMS relasional
l i l
• 1980an: RDBMS, model data lanjut (extendedrelational OO,
relational,
OO deduktif,
deduktif dsb
dsb.)) DBMS berorientasi
aplikasi(spasial, saintifik, teknik, dsb.)
• 1990an –2000an: Data mining dan data
warehousing, database multimedia, teknologi
Web
Edward Purba
Pengantar DM
7/52
Apa Itu Data Mining?
• Pada dasarnya: Perolehan pengetahuan dari
data
– “Ekstraksi informasi atau pola yang menarik
((tidak sepele,
p
implisit,
p
tak-diketahui
sebelumnya, mungkin bermanfaat) dari data
didalam database yang besar"
• Seringkali
S i k li hanya:
h
– “Memberitahu sesuatu yang menarik dari
data ini"
ini , “Menguraikan
Menguraikan data ini
ini"
Ö Penyelidikan: analisa data semisemi-otomatis
atas sekumpulan data yang besar
Edward Purba
Pengantar DM
8/52
Apa Itu Data Mining?
• Istilah yang rada baku:
–D
Data mining
i i
• Biasanya DM adalah salah satu proses KDD
– Knowledge discovery in databases (KDD)
• Istilah umum yang meliputi, preprocessing
data, DM, dan postprocessing
• Istilah yang tidak terlalu sering digunakan:
– Ekstraksi pengetahuan, arkeologi data,
pengerukan
p
g
data,, ppenuaian informasi,, analisa
data/pola
• Publisitas terbaru:
– Kecerdasan bisnis, manajemen pengetahuan
Edward Purba
Pengantar DM
9/52
Mengapa Data Mining?
• Ketersediaan data dalam jumlah
yang sangatt b
besar:
– Tool koleksi data otomatis dan
perkembangan teknologi database
menyebabkan banyak sekali data
yang bisa dikumpulkan di dalam
database, data warehouse, dan alat
ppeyimpanan
y p
informasi lainnya
y
– Pemeriksaan data manual adalah
membosankan dan terkadang tidak
masuk akal
Edward Purba
Pengantar DM
10/52
Apa Manfaat Dari DM?
Meningkatkan pengetahuan agar
bisa membuat keputusan
berdasarkan:
Marketing
Misal, pengaruh pada marketing
P
Peran
dan
d pengaruh
h DM yang
bertumbuh pesat dan masih
bertumbuh!
Tetapi DM tidaklah sekedar
marketing
marketing...
Edward Purba
Pengantar DM
Database
D
t b
Marketing
Data
Warehousing
KDD &
Data Mining
11/52
Potensi Aplikasi?
• Analisis database dan dukungan
keputusan:
– Analisis dan manajemen pasar
• Target pasar,
pasar manajemen relasi
customer (CRM), analisis keranjang
pasar, penjualan silang, segmentasi
pasar
– Analisis dan manajemen resiko
• Peramalan,
Peramalan tindakan mempertahankan
customer, peningkatan asuransi,
kontrol kualitas, analisis kompetitif
– Deteksi dan manajemen kecurangan
Edward Purba
Pengantar DM
12/52
Potensi Aplikasi?
• Aplikasi lain:
– Text mining (news group, email,
dokumen) dan Web mining
– Stream data mining
– Analisis
A li i DNA ddan bi
bio data
d t
Edward Purba
Pengantar DM
13/52
Analisis dan Manajemen Pasar
• Dari mana data berasal?
– T
Transaksi
k i kartu
k t kredit,
k dit loyalty
l lt cards,
d kupon
k
discount,
di
t keluhan
k l h
customer, kajian lifestyle publik
• Target Pasar
– Mendapatkan kelompok model customer yang berbagi
karakteristik yang sama: minat, tingkat pendapatan, kebiasaan
b l j dsb.
belanja,
db
– Menentukan pola pembelian customer berdasarkan waktu
• Analisis lintas pasar
– Asosiasi/korelasi antara penjualan produk & taksiran berdasarkan
asosiasi demikian
Edward Purba
Pengantar DM
14/52
Analisis dan Manajemen Pasar
• Profil customer
– Ti
Tipe customer
t
apa membeli
b li produk
d k apa
(pengelompokan atau klasifikasi)
• Analisa
A li kebutuhan
k b t h customer
t
– Mengenali produk terbaik untuk customer berbeda
– Meramalkan
M
lk ffaktor
kt apa yang akan
k memikat
ik t customer
t
baru
• Penyediaan
P
di
rangkuman
k
informasi
i f
i
– Rangkuman laporan multidimensi
– Rangkuman
R k
informasi
i f
i statistik
t ti tik (kecenderungan
(k
d
data
d t
terpusat dan variasi)
Edward Purba
Pengantar DM
15/52
Analisis dan Manajemen Resiko
Perusahaan
• Perencanaan keuangan dan evaluasi aset
– Analisis dan peramalan cash flow
– Analisis gganti rugi
g yang
y g mungkin
g
untuk
mengevaluasi aset
– Analisis cross-sectional dan time series (financial(
ratio, analisa trend, dsb.)
• Perencanaan sumberdaya
– Merangkum dan membandingkan sumberdaya dan
pengeluaran
Edward Purba
Pengantar DM
16/52
Analisis dan Manajemen Resiko
Perusahaan
• Kompetisi
– Memantau pesaing dan arah pasar
– Mengelompokkan customer kedalam kelas
dan prosedur harga berbasis kelas
– Menetapkan strategi harga dalam suatu pasar
dengan kompetitif tinggi
Edward Purba
Pengantar DM
17/52
Aplikasi Lain
• Olah raga
– IBM Advanced Scout menganalisa statistik (shots blocked,
blocked
assists, dan fouls) pertandingan NBA untuk mendapatkan
keuntungan kompetitif bagi New York Knicks dan Miami
Heats
eats
• Astronomi
– Observatoryy JPL dan Palomar menemukan 22 quasars
q
dengan bantuan data mining
• Internet Web SurfSurf-Aid
– IBM Surf-Aid menerapkan algoritma data mining untuk
akses logs halaman Web yang terkait dengan pasar dalam
upaya mendapatkan kesukaan dan perilaku customer,
mengenalisa efektifitas pemasaran Web,
Web perbaikan situs Web
organisasi, dsb.
Edward Purba
Pengantar DM
18/52
Contoh (1)
• Anda seorang manajer marketing untuk
perusahaan
h
ttelepon
l
cellular:
ll l
– Pelanggan menerima sebuah telepon gratis (nilai
1 5 juta) dengan kontrak satu tahun; anda
1.5
memberikan suatu komisi penjualan sebesar 2.5
juta per kontrak
– Problem: Turnover (setelah kontrak berakhir)
adalah 25%
– Memberikan suatu telepon baru ke setiap orang
yang kontraknya habis sangatlah mahal
Edward Purba
– Membawa kembali customer setelah keluar
adalah juga sukar dan mahal
Pengantar DM
19/52
Contoh (1)
Yippee!
I won't leave!
Edward Purba
• Tiga bulan sebelum suatu
k t kb
kontrak
berakhir,
khi carii ttahu
h
customer mana yang akan
keluar:
e ua :
– Jika anda ingin
mempertahankan
p
customer yang diduga akan
keluar, tawarkan customer
t
tersebut
b t suatu
t telepon
t l
baru
b
Pengantar DM
20/52
Contoh (2)
Oh, yes!
I love my
Ferrari!
Edward Purba
• Anda seorang petugas
asuransi dan anda harus
mendefinisikan suatu
pembayaran bulanan yang
pantas
t untuk
t k seorang pemuda
d
berusia 18 tahun yang
membeli sebuah Ferrari …
apa yang anda akan lakukan?
Pengantar DM
21/52
Contoh (2)
• Kaji seluruh data customer dan data
k
kompensasi
i pembayaran
b
sebelumnya
b l
• Kaji peluang penyebab kecelakaan paling
banyak berdasarkan dugaan…
dugaan
– Kelamin pengendara (pria/wanita) dan
usia
– Model dan usia mobil, tempat tinggal
– dsb.
db
• Jika peluang kecelakaan lebih besar dari
rata--rata,
rata
rata aturlah pembayaran bulanan
yang sesuai!
Edward Purba
Pengantar DM
22/52
Contoh (3)
• Anda berada diluar negeri dan seseorang
mencuri atau menggandakan kartu kredit
atau telepon mobile anda …
• Perusahaan kartu kredit …
– Menggunakan data histori untuk
membangun model prilaku penipuan dan
gunakan data mining untuk membantu
didalam mengenali kejadian yang mirip
• Perusahaan
P
h
telepon
t l
…
– Menganalisis pola yang menyimpang dari
suatu kebiasaan yang diharapkan (tujuan,
(tujuan
durasi, dsb.)
Edward Purba
Pengantar DM
23/52
Contoh (4)
• Log pengaksesan Web bisa
dianalisis untuk …
Excellent surfing
experience!
– Mendapatkan
p
apa
p kesukaan customer
– Memperbaiki situs Web organisasi
• Demikian pula …
– Seluruh jenis analisis log informasi
– Adaptasi antarmuka/layanan user
Edward Purba
Pengantar DM
24/52
Data Mining: Suatu Proses KDD
– Data mining—inti dari
proses penemuan
pengetahuan
Evaluasi Pola
Data Mining
Task-relevant Data
Data Warehouse
Pemilihan
Pembersihan Data
Integrasi Data
Databases
Edward Purba
Pengantar DM
25/52
Langkah--Langkah dari Proses
Langkah
KDD (1)
Pemahaman domain
Pembuatan suatu data set target
Pembersihan/preprocessing data
Reduksi/proyeksi
p y
data
Pemilihan tugas DM
Edward Purba
Pengantar DM
26/52
Langkah--Langkah dari Proses
Langkah
KDD (2)
Pemilihan Algoritma DM
Data mining: Pencarian
Evaluasi pola
Penyajian
y j
p
pengetahuan
g
Penggunaan pengetahuan yang diperoleh
Edward Purba
Pengantar DM
27/52
Ciri Khas Proses KDD
Seleksi
Berdasarkan
waktu
Raw
data
Database
Operasional
Eval. of
interes
interestingness
Input data
1
Preprocessing
Data mining
Bersih
Benar
Fokus
2
Utilisasi
Edward Purba
Pengantar DM
Postprocessing
Hasil--Hasil
Hasil
3
Pola
berguna
yg
terpilih
28/52
Utilisasi
Peningkatan
P
i k
potensii
untuk mendukung
keputusan bisnis
Pembuatan
keputusan
Penyajian Data
Teknik Visualisasi
Data
D
t Mi
Mining
i
Penemuan informasi
Eksplorasi data
Analisa statistik
statistik, query,
query dan pelaporan
Data Warehouses / Data Marts
OLAP, MDA
Sumber data
Kertas, Files, Penyedia informasi, Sistem database, OLTP
Edward Purba
Pengantar DM
End User
Business
Analyst
Data
Analyst
DBA
29/52
Arsitektur:
Sistem Data Mining
Antarmuka user g
grafis (GUI)
(
)
Evaluasi Pola
Mesin data mining
Database atau data
warehouse server
Penyaringan
Pembersihan & integrasi data
Databases
Edward Purba
Basis
pengetahuan
Data
Warehouse
Pengantar DM
30/52
Rantai Nilai
Keputusan
Promosikan p
produk A di Z.
• Kirim iklan ke keluarga dengan
profil P
• Jual silang layanan B ke klien C
•
Pengetahuan
• Sebanyak Y produk A digunakan
di Z
• Customer dari kelas Y
menggunakan x% dari C
selama periode D
Informasi
•X
Data
tinggal di Z
• S berumur Y tahun
• X dan S pindah
• W punya uang di Z
• Data
customer
• Simpanan data
• Data grafis
• Data geografis
Edward Purba
Pengantar DM
31/52
Fungsionalitas Data Mining
• Konsep deskripsi: karakterisasi &
diskriminasi
– Generalisasi,
Generalisasi rangkuman,
rangkuman dan
karakteristik data kontras
• Daerah
D
h kkering
i vs. Daerah
D
h bbasah
h
• Asosiasi (korelasi dan hubungan
sebab akibat)
Edward Purba
Pengantar DM
32/52
Fungsionalitas Data Mining
• Klasifikasi dan prediksi
– Membangun model (fungsi) yang
menguraikan dan membedakan kelas atau
konsepp untuk peramalan
p
kedepan
p
• Misal, mengklasifikasikan negara
berdasarkan iklim, atau
mengklasifikasikan
kl ifik ik mobil
bil berdasarkan
b d
k
gas mileage
– Presentasi: pohon-keputusan,
pohon keputusan kaidah
klasifikasi, neural network
– Menaksir beberapa nilai numerik yang
tidak diketahui atau hilang
Edward Purba
Pengantar DM
33/52
Fungsionalitas Data Mining
• Analisis cluster (analisis pengelompokan)
– Label kelas tidak diketahui: kelompokkan
data untuk membentuk kelas baru, misal
mengelompokkan rumah untuk mendapatkan
pola
l distribusi
di t ib i
– Memaksimalkan kemiripan antar kelas dan
meminimumkan kemiripan
p didalam kelas
• Analisis outlier
– Outlier: suatu objek data yang tidak
mengikuti perilaku umum dari data
– Gangguan atau pengecualian? Tidak!
Berg na dalam deteksi kecurangan,
Berguna
kec rangan analisis
peristiwa yang jarang terjadi
Edward Purba
Pengantar DM
34/52
Fungsionalitas Data Mining
• Analisis trend dan evolusi
– Trend dan deviasi: analisis regresi
– Penggalian pola sekuensial,
analisis periodisitas
• Analisis arah pola lain atau
s s
statistik
Edward Purba
Pengantar DM
35/52
Adakah Seluruh Pola Yang
Ditemukan Menarik?
• Penambangan data bisa membuat ribuan pola:
tidak semua pola tersebut menarik
– Pendekatan yang disarankan: berpusatkan kepada
manusia, berbasis query, penggalian terfokus
• Ukuran ketertarikan
– Suatu pola adalah menarik jika pola tersebut mudah
dipahami
p
oleh manusia,, valid (berlaku)
(
) pada
p
data
baru atau uji dengan suatu derajat kepastian,
potensial berguna, baru atau membenarkan suatu
hipotesa yang dicari user untuk konfirmasi
Edward Purba
Pengantar DM
36/52
Adakah Seluruh Pola Yang
Ditemukan Menarik?
• Ukuran ketertarikan objektif vs. subjektif
– Objektif: berdasarkan statistik dan struktur
pola misal,
pola,
misal dukungan,
dukungan kepercayaan,
kepercayaan dsb.
dsb
– Subjektif: berdasarkan keyakinan user
terhadap data, misal, ketakterdugaan,
pengalaman baru, tindakan yang bisa
diperkarakan, dsb.
Edward Purba
Pengantar DM
37/52
Bisakah Memperoleh Seluruh Atau
Hanya
y Pola Yang
g Menarik?
• Dapatkan seluruh pola yang menarik:
Kelengkapan
– Bisakah suatu sistem data mining
mendapatkan seluruh pola yang menarik?
– Pencarian heuristik vs. exhaustive
(melelahkan)
– Asosiasi vs. klasifikasi vs. clustering
Edward Purba
Pengantar DM
38/52
Bisakah Memperoleh Seluruh Atau
Hanya
y Pola Yang
g Menarik?
• Cari hanya pola yang menarik: suatu
problem optimasi
– Bisakah suatu sistem data mining
mendapatkan hanya pola yang menarik?
– Pendekatan
• Pertama dapatkan
p
seluruh ppola lalu saring
g atau
keluarkan yang tidak diminati
y pola
p yang
y g diminati—optimisasi
p
• Buatlah hanya
query penggalian
Edward Purba
Pengantar DM
39/52
Data Mining: Tempat Pertemuan
Banyak
y Disiplin
p
Sistem
Database
Mesin
Pembelajaran
Statistik
Data Mining
Disiplin
Lainnya
Algoritma
Edward Purba
Visualisasi
Pengantar DM
40/52
Tinjauan Data Mining: Skema
Klasifikasi
• Fungsionalitas umum:
– Uraian data mining:
• Uraikan hal menarik apa yang bisa
ditemukan dalam data ini!
• Terangkan data ini ke saya!
– Peramalan data mining:
• Berdasarkan data ini dan sebelumnya,
y ,
beritahu saya apa yang akan terjadi
kemudian!
• Tunjukkan ke saya trend kedepan!
Edward Purba
Pengantar DM
41/52
Tinjauan Data Mining: Skema
Klasifikasi
• Tinjauan multimulti-dimensi …
– Databases yang akan digali
– Pengetahuan
g
yyang
g akan dicari
– Teknik-teknik yang digunakan
– Aplikasi yang disesuaikan
• Mari kita lihat lebih dekat pada
tinjauan ini ...
Edward Purba
Pengantar DM
42/52
Tinjauan Data Mining
Databases yang akan digali
Databases
Edward Purba
•
•
•
•
•
Relasional
Data warehouse
Transaksional
Object-oriented
Objectrelational
• Aktif
• Spasial
• Time-series
Pengantar DM
•
•
•
•
•
•
•
Teks, XML
Teks
Multi-media
Heterogen
g
Warisan
Induktif
WWW
dsb.
43/52
Tinjauan
j
Data Miningg
Aplikasi yang disesuaikan
Applic.
Edward Purba
• Retail
(supermarkets
etc.))
• Telecom
• Bankingg
• Fraud analysis
• DNA mining
Pengantar DM
• Analisa stock
market
• Web mining
• Analisa data
log
• dsb.
44/52
OLAP Mining: Integrasi Dari Data
Mining dan Data Warehouse
• Sistem data mining,
g, DBMS,, Data warehouse
systems coupling
– No coupling, loose-coupling, semi-tight-coupling,
tight-coupling
• Data on-line analytical mining (OLAM)
– Integrasi
I
i dari
d i penggalian
li ddan teknologi
k l i OLAP
Edward Purba
Pengantar DM
45/52
OLAP Mining: Integrasi Dari Data
Mining dan Data Warehouse
• Penggalian
gg
p
pengetahuan
g
multi-level secara
interaktif
– Kebutuhan penggalian pengetahuan dan pola pada
suatu level berbeda dari abstraksi dengan
drilling/rolling, pivoting, slicing/dicing, dsb.
• Integrasi dari banyak fungsi penggalian
– Klasifikasi berkarakter, pertama clustering dan
kemudian asosiasi
Edward Purba
Pengantar DM
46/52
Isu Utama dalam Data Mining
• Metodologi dan interaksi penambangan
– Penambangan
P
b
bberbagai
b i jjenis
i pengetahuan
h
– Penambangan pengetahuan secara interaktif
– Penggabungan latar belakang pengetahuan
– Bahasa query DM dan DM khusus
– Visualisasi hasil DM
– Penanganan gangguan dan data tak lengkap
– Ketertarikan problem
• Kinerja dan skalabilitas:
g
DM
– Efisiensi dan skalabilitas dari algoritma
– Metoda penambangan paralel, tersebar dan bertumbuh
Edward Purba
Pengantar DM
47/52
Isu Utama dalam Data Miningg
• Aneka ragam tipe data:
– Penanganan tipe data kompleks
– Penambangan informasi dari database heterogen (Web
misalnya)
• Aplikasi
A lik i dan
d integrasi
i t
i pengetahuan
t h
yang didapat:
did
t
– Tool DM khusus domain
– Jawaban query cerdas dan pembuatan keputusan
– Integrasi dari pengetahuan yang didapat dengan
pengetahuan yang ada
• Proteksi
P t k i data
d t …
– Keamanan
– Integritas
g
– Kerahasiaan
Edward Purba
Pengantar DM
48/52
Historis Aktivitas Data Miningg
•
•
•
•
•
•
1989 IJCAI Workshop
1991--1994 KDD Workshops
1991
1995--1998 KDD Conferences
1995
1998 ACM SIGKDD
1999-- SIGKDD Conferences
1999
dan banyak lagi konferensi kecil / baru dari
DM …
– PAKDD, PKDD
– SIAM-Data Mining,
g, (IEEE)
(
) ICDM
– dsb.
Edward Purba
Pengantar DM
49/52
Rujukan Yang Berguna untuk
Data Mining
“Standards”
• DM:
Conferences:
C
f
Journals:
KDD, PKDD,
KDD
PKDD PAKDD,
PAKDD ...
Data Mining and Knowledge
Discovery, CACM
• DM/DB:
Conferences:
ACM-SIGMOD/PODS, VLDB, ...
Journals:
ACM-TODS, J. ACM,
IEEE-TKDE
IEEE
TKDE, JIIS
JIIS, ...
Conferences:
Journals:
Machine Learning, AAAI, IJCAI, ...
Machine Learning, Artific. Intell., ...
• AI/ML:
Edward Purba
Pengantar DM
50/52
Kesimpulan
• Data mining: penemuan pola menarik dari data set yang
besar secara semi
semi--otomatis
• Knowledge discovery adalah suatu proses:
– Preprocessing
– Data mining
– Postprocessing
• Untuk digali, digunakan atau dimanfaatkan …
– Databases (relasional, object-oriented, spasial, WWW,
…))
– Pengetahuan (karakterisasi, pengumpulan, asosiasi, …)
– Teknik (mesin pembelajaran,
pembelajaran statistik,
statistik visualisasi,
visualisasi …))
– Aplikasi (retail, telecom, Web mining, analisa log, …)
Edward Purba
Pengantar DM
51/52
Pengantar
g
Data Mining
g
Edward Purba
Pengantar DM
52/52
Download