pengenalan data mining

advertisement
PENGENALAN DATA MINING
Pertemuan 1
Pendahuluan
• Data Mining : proses penemuan pola dalam data.
• Menurut Daryl Pregibons “Data mining adalah perpaduan dari
ilmu statistik, kecerdasan buatan, dan penelitian bidang
database ”.
• Istilah lain dari data mining yaitu knowledge mining from
databases, knowledge extraction, data/pattern analysis, data
archeology, dan data dredging.
• Banyak yang menggunakan data mining sebagai istilah
popular dari KDD.
• Data mining merupakan inti dari proses Knowledge Discovery
in Database (KDD).
• KDD adalah proses terorganisir untuk mengidentifikasi
pola yang valid, baru, berguna, dan dapat dimengerti dari
sebuah data set yang besar dan kompleks.
• Tahapan KDD:
1.
2.
3.
4.
5.
6.
7.
8.
9.
Pembentukan pemahaman domain aplikasi
Memilih dan membuat data set dimana proses penemuan
pengetahuan (knowledge) akan dilakukan
Preprocessing dan cleansing
Transformasi data
Memilih tugas data mining yang cocok
Memilih algoritma data mining
Penggunaan algoritma data mining
Evaluasi
Penggunaan pengetahuan yang didapat
Tugas Data Mining
• Enam Tugas (task) Data Mining:
– Deskripsi
– Estimasi
– Prediksi
– Klasifikasi
– Pengelompokan (Clustering)
– Asosiasi
Deskripsi
• Tugas
ini
menuntut
DM
untuk
mengungkapkan pola atau kecenderungan
pada data
• Dengan tugas deskripsi maka DM mampu
menunjukkan
field-field
mana
yang
perlu/tidak perlu dipertimbangkan
Estimasi dan Prediksi
• Estimasi memiliki persamaan yaitu dalam hal
memperkirakan sesuatu hal
• Bila yang diperkirakan berbentuk numerik,
misalnya berat badan seseorang, jumlah hutang
seseorang, luas sebuah lahan, maka disebut
Estimasi
• Bila yang diperkirakan berbentuk kategorial,
misalnya pangkat seseorang, status perkawinan
seseorang, asal-usul kota kelahiran seseorang
maka disebut Prediksi
Klasifikasi
– klasifikasi juga hal memperkirakan
– Perbedaannya dengan prediksi variabel peramal
(variabel independen)nya seluruhnya bersifat
numerik
– Pada klasifikasi variabel peramal (variabel
independen)nya dapat berupa kombinasi numerik
dan kategori
Pengelompokan(clustering)
Pengelompokan (clustering) merupakan tugas
deskripsi yang banyak digunakan dalam
mengidentifikasi sebuah himpunan terbatas
pada
kategori
atau
cluster
untuk
mendeskripsikan data yang ditelaah.
Asosiasi
– Asosiasi didasarkan pada Affinity Analysis, yaitu
studi terhadap karakteristik atau atribut yang
sering muncul bersama-sama
– Affinity Analysis sering juga disebut Market Basket
Analysis
– Analisis ini akan menghasilkan aturan (Rules) yang
diharapkan dapat mengungkap relasi antara dua
atau lebih atribut
CONTOH PENELITIAN
Download