PENGENALAN DATA MINING Pertemuan 1 Pendahuluan • Data Mining : proses penemuan pola dalam data. • Menurut Daryl Pregibons “Data mining adalah perpaduan dari ilmu statistik, kecerdasan buatan, dan penelitian bidang database ”. • Istilah lain dari data mining yaitu knowledge mining from databases, knowledge extraction, data/pattern analysis, data archeology, dan data dredging. • Banyak yang menggunakan data mining sebagai istilah popular dari KDD. • Data mining merupakan inti dari proses Knowledge Discovery in Database (KDD). • KDD adalah proses terorganisir untuk mengidentifikasi pola yang valid, baru, berguna, dan dapat dimengerti dari sebuah data set yang besar dan kompleks. • Tahapan KDD: 1. 2. 3. 4. 5. 6. 7. 8. 9. Pembentukan pemahaman domain aplikasi Memilih dan membuat data set dimana proses penemuan pengetahuan (knowledge) akan dilakukan Preprocessing dan cleansing Transformasi data Memilih tugas data mining yang cocok Memilih algoritma data mining Penggunaan algoritma data mining Evaluasi Penggunaan pengetahuan yang didapat Tugas Data Mining • Enam Tugas (task) Data Mining: – Deskripsi – Estimasi – Prediksi – Klasifikasi – Pengelompokan (Clustering) – Asosiasi Deskripsi • Tugas ini menuntut DM untuk mengungkapkan pola atau kecenderungan pada data • Dengan tugas deskripsi maka DM mampu menunjukkan field-field mana yang perlu/tidak perlu dipertimbangkan Estimasi dan Prediksi • Estimasi memiliki persamaan yaitu dalam hal memperkirakan sesuatu hal • Bila yang diperkirakan berbentuk numerik, misalnya berat badan seseorang, jumlah hutang seseorang, luas sebuah lahan, maka disebut Estimasi • Bila yang diperkirakan berbentuk kategorial, misalnya pangkat seseorang, status perkawinan seseorang, asal-usul kota kelahiran seseorang maka disebut Prediksi Klasifikasi – klasifikasi juga hal memperkirakan – Perbedaannya dengan prediksi variabel peramal (variabel independen)nya seluruhnya bersifat numerik – Pada klasifikasi variabel peramal (variabel independen)nya dapat berupa kombinasi numerik dan kategori Pengelompokan(clustering) Pengelompokan (clustering) merupakan tugas deskripsi yang banyak digunakan dalam mengidentifikasi sebuah himpunan terbatas pada kategori atau cluster untuk mendeskripsikan data yang ditelaah. Asosiasi – Asosiasi didasarkan pada Affinity Analysis, yaitu studi terhadap karakteristik atau atribut yang sering muncul bersama-sama – Affinity Analysis sering juga disebut Market Basket Analysis – Analisis ini akan menghasilkan aturan (Rules) yang diharapkan dapat mengungkap relasi antara dua atau lebih atribut CONTOH PENELITIAN