1. what is data mining? - Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. - Penggalian data (bahasa Inggris: data mining) adalah ekstraksi pola yang menarik dari data dalam jumlah besar [1]. Suatu pola dikatakan menarik apabila pola tersebut tidak sepele, implisit, tidak diketahui sebelumnya, dan berguna. Pola yang disajikan haruslah mudah dipahami, berlaku untuk data yang akan diprediksi dengan derajat kepastian tertentu, berguna, dan baru. Penggalian data memiliki beberapa nama alternatif, meskipun definisi eksaknya berbeda, seperti KDD (knowledge discovery in database), analisis pola, arkeologi data, pemanenan informasi, dan intelegensia bisnis. Penggalian data diperlukan saat data yang tersedia terlalu banyak (misalnya data yang diperoleh dari sistem basis data perusahaan, e-commerce, data saham, dan data bioinformatika), tapi tidak tahu pola apa yang bisa didapatkan. 2. What are the task in data mining? associations, sequences, classifications, clusters and forecasting. 3. Why do we need to preprocess data. 4. Why is data dirty : Data kotor tidak akurat, tidak lengkap atau salah data yang , terutama dalam sistem komputer atau basis data,Dalam referensi untuk database, ini adalah data yang mengandung kesalahan. Data haram dapat berisi kesalahan seperti ejaan atau tanda baca kesalahan, data yang tidak benar terkait dengan lapangan, data yang tidak lengkap atau ketinggalan jaman, atau bahkan data yang telah digandakan dalam database. 5. Why is preprocess data is important : Data prapengolahan merupakan langkah penting dalam data mining proses. Ungkapan "sampah, keluar sampah" ini terutama berlaku untuk data mining dan machine learningproyek. Metode pengumpulan data sering longgar dikendalikan, sehingga out-ofrange nilai (misalnya, Pendapatan: -100), kombinasi data yang mungkin (misalnya, Jenis Kelamin: Laki-laki, Hamil: Ya), nilai-nilai yang hilang , dll Menganalisis data yang memiliki tidak hati-hati diperiksa untuk masalah tersebut dapat menghasilkan hasil yang menyesatkan. Dengan demikian, representasi dan kualitas data yang pertama dan terutama sebelum menjalankan analisis. 6. What are the task in data Preprocessing : Data pra-pengolahan meliputi pembersihan , normalisasi , transformasi, ekstraksi ciri dan seleksi, dll Produk data pra-pengolahan adalah akhir training set. 7. What are the task in data cleaning : Data cleaning tasks Fill in missing values Identify outliers and smooth out noisy data Correct inconsistent data 8. How do you handle missing data : Abaikan tupel: biasanya dilakukan ketika label kelas hilang (dengan asumsi tugas dalam klasifikasi-tidak efektif bila persentase nilai yang hilang per atribut bervariasi) Isi nilai yang hilang secara manual: membosankan + tidak layak? Gunakan konstan global untuk mengisi nilai yang hilang: misalnya, "tidak diketahui", kelas baru ?! Gunakan atribut berarti untuk mengisi nilai yang hilang Menggunakan nilai yang paling mungkin untuk mengisi nilai yang hilang: inferensi berbasis seperti rumus Bayesian atau pohon keputusan 9. What is noisy data : Data bising adalah data tidak berarti. Istilah ini sering digunakan sebagai sinonim untuk data korup. Namun, maknanya telah diperluas untuk mencakup data yang tidak dapat dipahami dan diinterpretasikan dengan benar oleh mesin, seperti teks yang tidak terstruktur. Setiap data yang telah diterima, disimpan, atau diubah sedemikian rupa sehingga tidak dapat dibaca atau digunakan oleh program yang awalnya dibuat itu dapat digambarkan sebagai berisik Kebisingan: kesalahan acak atau varians dalam variabel yang diukur 10. How to handle noisy data : Binning method: o first sort data and partition into (equi-depth) bins o then smooth by bin means, smooth by bin median, smooth by bin boundaries, etc. Clustering o detect and remove outliers Combined computer and human inspection o detect suspicious values and check by human Regression o smooth by fitting the data into regression functions Learn how to do bining : * Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partition into (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34 * Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29 * Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 11. What is data intergration : Integrasi data: menggabungkan data dari berbagai sumber ke dalam store masuk akal integrasi skema mengintegrasikan metadata dari berbagai sumber Entitas identifikasi masalah: mengidentifikasi entitas dunia nyata dari berbagai sumber data, 12. What are the 5 things that need to be done in data transformation : Smoothing: remove noise from data Aggregation: summarization, data cube construction Generalization: concept hierarchy climbing Normalization: scaled to fall within a small, specified range min-max normalization z-score normalization normalization by decimal scaling 13. What is clustering? Mengorganisasi data ke dalam clustersehingga ada • tinggi kesamaan intra-kluster • kesamaan antar cluster rendah • Secara informal, menemukan alami pengelompokan antara objekobjek. 14. What is the main problem in clustering data : Ada beberapa masalah dengan clustering. Diantaranya: teknik pengelompokan saat ini tidak mengatasi semua persyaratan memadai (merangkap); berurusan dengan sejumlah besar dimensi dan sejumlah besar item data dapat menjadi masalah karena kompleksitas waktu; efektivitas metode tergantung pada definisi "jarak" (untuk clustering berbasis jarak); jika ukuran jarak yang jelas tidak ada kita harus "mendefinisikan" itu, yang tidak selalu mudah, terutama di ruang multi-dimensi; hasil dari algoritma pengelompokan (yang dalam banyak kasus bisa sewenang-wenang itu sendiri) dapat ditafsirkan dengan cara yang berbeda. 15. Explain how k-means clustering algoritma woks: meminta pengguna berapa banyak cluster, mereka ingin. acak menebak k lokasi pusat cluster setiap datapoint mencari tahu yang pusat itu paling dekat dengan. setiap pusat menemukan centroid poin yang dimilikinya dan melompat sana ulangi sampai dihentikan 16. What is clasfication and how is it done : Konstruksi model: menggambarkan satu set kelas yang telah ditentukan Setiap tuple / sampel diasumsikan termasuk kelas yang telah ditetapkan,sebagaimana ditentukan oleh atribut label kelas Himpunan tupel digunakan untuk konstruksi model: training set Model ini direpresentasikan sebagai aturan klasifikasi, pohon keputusan, atau rumus matematika Penggunaan Model: untuk mengklasifikasikan benda-benda di masa depan atau tidak diketahui akurasi Perkiraan model Label diketahui sampel uji dibandingkan dengan Hasil rahasia dari model Tingkat Akurasi adalah persentase sampel uji set yang diklasifikasikan dengan benar oleh model Uji set independen dari training set, jika tidak over-pas akan terjadi Menggunakan decision tree.