Data Mining adalah serangkaian proses untuk menggali nilai

advertisement
1. what is data mining?
- Data Mining adalah serangkaian proses untuk menggali nilai
tambah dari suatu kumpulan data berupa pengetahuan yang
selama ini tidak diketahui secara manual.
- Penggalian data (bahasa Inggris: data mining) adalah ekstraksi
pola yang menarik dari data dalam jumlah besar [1]. Suatu pola
dikatakan menarik apabila pola tersebut tidak sepele, implisit,
tidak diketahui sebelumnya, dan berguna. Pola yang disajikan
haruslah mudah dipahami, berlaku untuk data yang akan
diprediksi dengan derajat kepastian tertentu, berguna, dan baru.
Penggalian data memiliki beberapa nama alternatif, meskipun
definisi eksaknya berbeda, seperti KDD (knowledge discovery in
database), analisis pola, arkeologi data, pemanenan informasi,
dan intelegensia bisnis. Penggalian data diperlukan saat data
yang tersedia terlalu banyak (misalnya data yang diperoleh dari
sistem basis data perusahaan, e-commerce, data saham, dan
data bioinformatika), tapi tidak tahu pola apa yang bisa
didapatkan.
2. What are the task in data mining? associations, sequences,
classifications, clusters and forecasting.
3. Why do we need to preprocess data.
4. Why is data dirty : Data kotor tidak akurat, tidak lengkap atau
salah data yang , terutama dalam sistem komputer atau basis
data,Dalam referensi untuk database, ini adalah data yang
mengandung kesalahan. Data haram dapat berisi kesalahan seperti
ejaan atau tanda baca kesalahan, data yang tidak benar terkait
dengan lapangan, data yang tidak lengkap atau ketinggalan jaman,
atau bahkan data yang telah digandakan dalam database.
5. Why is preprocess data is important
: Data prapengolahan merupakan
langkah
penting
dalam data
mining proses. Ungkapan "sampah, keluar sampah" ini terutama
berlaku untuk data mining dan machine learningproyek. Metode
pengumpulan data sering longgar dikendalikan, sehingga out-ofrange nilai (misalnya, Pendapatan: -100), kombinasi data yang
mungkin (misalnya, Jenis Kelamin: Laki-laki, Hamil: Ya), nilai-nilai
yang hilang , dll Menganalisis data yang memiliki tidak hati-hati
diperiksa untuk masalah tersebut dapat menghasilkan hasil yang
menyesatkan. Dengan
demikian,
representasi
dan kualitas
data yang pertama dan terutama sebelum menjalankan analisis.
6. What are the task in data Preprocessing : Data pra-pengolahan
meliputi pembersihan , normalisasi , transformasi, ekstraksi ciri dan
seleksi, dll Produk data pra-pengolahan adalah akhir training set.
7. What are the task in data cleaning :
 Data cleaning tasks
 Fill in missing values
 Identify outliers and smooth out noisy data
 Correct inconsistent data
8. How do you handle missing data :
 Abaikan tupel: biasanya dilakukan ketika label kelas hilang (dengan
asumsi tugas dalam klasifikasi-tidak efektif bila persentase nilai
yang hilang per atribut bervariasi)
 Isi nilai yang hilang secara manual: membosankan + tidak layak?
 Gunakan konstan global untuk mengisi nilai yang hilang: misalnya,
"tidak diketahui", kelas baru ?!
 Gunakan atribut berarti untuk mengisi nilai yang hilang
 Menggunakan nilai yang paling mungkin untuk mengisi nilai yang
hilang: inferensi berbasis seperti rumus Bayesian atau pohon
keputusan
9. What is noisy data : Data bising adalah data tidak berarti. Istilah ini
sering digunakan sebagai sinonim untuk data korup. Namun,
maknanya telah diperluas untuk mencakup data yang tidak dapat
dipahami dan diinterpretasikan dengan benar oleh mesin, seperti
teks yang tidak terstruktur. Setiap data yang telah diterima,
disimpan, atau diubah sedemikian rupa sehingga tidak dapat dibaca
atau digunakan oleh program yang awalnya dibuat itu dapat
digambarkan sebagai berisik
Kebisingan: kesalahan acak atau varians dalam variabel yang diukur
10.
How to handle noisy data :
 Binning method:
o first sort data and partition into (equi-depth) bins
o then smooth by bin means, smooth by bin median, smooth by
bin boundaries, etc.
 Clustering
o detect and remove outliers
 Combined computer and human inspection
o detect suspicious values and check by human
 Regression
o smooth by fitting the data into regression functions
Learn how to do bining :
* Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26,
28, 29, 34
* Partition into (equi-depth) bins:
- Bin 1: 4, 8, 9, 15
- Bin 2: 21, 21, 24, 25
- Bin 3: 26, 28, 29, 34
* Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
* Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
11.
What is data intergration :
Integrasi data: menggabungkan data dari berbagai sumber ke
dalam store masuk akal integrasi skema
 mengintegrasikan metadata dari berbagai sumber
 Entitas identifikasi masalah: mengidentifikasi entitas dunia nyata
dari berbagai sumber data,
12.
What are the 5 things that need to be done in
data
transformation :
 Smoothing: remove noise from data
 Aggregation: summarization, data cube construction
 Generalization: concept hierarchy climbing
 Normalization: scaled to fall within a small, specified range
 min-max normalization
 z-score normalization
 normalization by decimal scaling
13.
What is clustering?
Mengorganisasi data ke dalam clustersehingga ada
• tinggi kesamaan intra-kluster
• kesamaan antar cluster rendah
• Secara informal, menemukan alami pengelompokan antara objekobjek.
14.
What is the main problem in clustering data :
Ada beberapa masalah dengan clustering. Diantaranya:
 teknik pengelompokan saat ini tidak mengatasi semua persyaratan
memadai (merangkap);
 berurusan dengan sejumlah besar dimensi dan sejumlah besar item
data dapat menjadi masalah karena kompleksitas waktu;
 efektivitas metode tergantung pada definisi "jarak" (untuk clustering
berbasis jarak);
 jika ukuran jarak yang jelas tidak ada kita harus "mendefinisikan"
itu, yang tidak selalu mudah, terutama di ruang multi-dimensi;
 hasil dari algoritma pengelompokan (yang dalam banyak kasus bisa
sewenang-wenang itu sendiri) dapat ditafsirkan dengan cara yang
berbeda.
15.
Explain how k-means clustering algoritma woks:
 meminta pengguna berapa banyak cluster, mereka ingin.
 acak menebak k lokasi pusat cluster
 setiap datapoint mencari tahu yang pusat itu paling dekat dengan.
 setiap pusat menemukan centroid poin yang dimilikinya
 dan melompat sana
 ulangi sampai dihentikan
16.
What is clasfication and how is it done :
Konstruksi model: menggambarkan satu set kelas yang telah
ditentukan
 Setiap tuple / sampel diasumsikan termasuk kelas yang telah
ditetapkan,sebagaimana ditentukan oleh atribut label kelas
 Himpunan tupel digunakan untuk konstruksi model: training set
 Model ini direpresentasikan sebagai aturan klasifikasi, pohon
keputusan, atau rumus matematika
Penggunaan Model: untuk mengklasifikasikan benda-benda di masa depan
atau tidak diketahui akurasi Perkiraan model
 Label diketahui sampel uji dibandingkan dengan Hasil rahasia dari
model
 Tingkat Akurasi adalah persentase sampel uji set yang
diklasifikasikan dengan benar oleh model
 Uji set independen dari training set, jika tidak over-pas akan terjadi
Menggunakan decision tree.
Download