4/1/13 Data Preprocessing - Budi Susanto - FTI UKDW DATA PREPROCESSING Budi Susanto (versi 1.2) Kenali Data Anda ¨ Atribut Data ¤ Memahami ¤ Membantu ¨ tipe atribut membetulkan data saat integrasi data Deskripsi Statistik Data ¤ Memudahkan untuk mengisi nilai yang kosong, noise data, ¤ mengetahui outlier selama pemrosesan data ¤ memperhalus ¨ Mengukur Kesamaan dan ketidaksamaan ¤ Dapat berguna juga untuk mendeteksi outlier melakukan klasifikasi ¤ Pada umumnya untuk mengukur “kedekatan”. ¤ Untuk Data Preprocessing - Budi Susanto - FTI UKDW 1 4/1/13 Data ¨ Data yang ada pada umumnya: ¤ Banyak noise ¤ Ukuran yang besar ¤ Dapat merupakan campuran dari berbagai macam sumber ¨ Memahami data sangat penting untuk tahap preprosesing. Data Preprocessing - Budi Susanto - FTI UKDW Atribut Data Mencerminkan karakteristik objek data. ¨ Tipe atribut menentukan himpunan nilai yang diperbolehkan. ¨ ¤ Nominal ¤ Binary (Binomial) ¤ Ordinal ¤ Numerik n Interval-scale n Ratio-scale ¤ Diskret atau Continue Data Preprocessing - Budi Susanto - FTI UKDW 2 4/1/13 Deskripsi Statistik ¨ Mengukur lokasi pusat/tengah dari distribusi data ¤ Mean ¤ Median ¤ Mode ¤ Midrange Data Preprocessing - Budi Susanto - FTI UKDW Data Mining: Concepts and Techniques, 3th ed., p. 47 Deskripsi Statistik ¨ Mengukur penyebaran data ¤ Rentang dan Kuartil ¤ Variasi dan Standard Deviasi Data Preprocessing - Budi Susanto - FTI UKDW Data Mining: Concepts and Techniques, 3th ed., p. 48 3 4/1/13 BoxPlot ¨ Interquartil Range (IQR) ¤ Q3 ¨ – Q1 Outlier data ¤ 1.5 x IQR Data Preprocessing - Budi Susanto - FTI UKDW Mengukur Kesamaan ¨ Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. ¤ Minkwoski n Euclidean distance dan Manhattan ¤ Cosine Data Preprocessing - Budi Susanto - FTI UKDW 4 4/1/13 Mengukur Kesamaan Data Preprocessing - Budi Susanto - FTI UKDW Mengapa Perlu Data Preprocessing? ¨ Data mentah yang ada sebagian besar kotor ¤ Tidak komplet n Berisi data yang hilang/kosong n Kekurangan atribut yang sesuai n Hanya berisi data aggregate ¤ Banyak “noise” n Berisi data yang Outlier n Berisi error ¤ Tidak konsisten n Berisi nilai yang berbeda dalam suatu kode atau nama Data Preprocessing - Budi Susanto - FTI UKDW 5 4/1/13 Mengapa Data Preprocessing Penting? Data yang tidak berkualitas, akan menghasilkan kualitas mining yang tidak baik pula. ¨ Data Preprocessing, cleaning, dan transformasi merupakan pekerjaan mayoritas dalam aplikasi data mining (90%). ¨ Data Preprocessing - Budi Susanto - FTI UKDW Ukuran Kualitas Data Accuracy ¨ Completeness ¨ Consistency ¨ Timeliness ¨ Believability ¨ Value added ¨ Interpretability ¨ Accessibility ¨ Data Preprocessing - Budi Susanto - FTI UKDW 6 4/1/13 Teknik Data Preprocessing Data Cleaning ¨ Data integration ¨ Data Reduction ¨ Data Transformation ¨ Data Preprocessing - Budi Susanto - FTI UKDW Data Cleaning ¨ Proses untuk membersihkan data dengan beberapa teknik ¤ Memperkecil noise ¤ membetulkan data yang tidak konsisten. ¤ Mengisi missing value ¤ Mengidentifikasi atau membuang outlier Data Preprocessing - Budi Susanto - FTI UKDW 7 4/1/13 Data Cleaning: Missing Values ¨ Mengabaikan record ¤ Biasanya ¨ ¨ untuk label klasifikasi yang kosong Mengisikan secara manual Menggunakan mean/median dari atribut yang mengandung missing value ¤ Mean dapat dipakai jika distribusi data normal ¤ Median digunakan jika distribusi data tidak normal (condong) ¨ ¨ Menggunakan nilai global Menggunakan nilai termungkin ¤ Menerapkan regresi Data Preprocessing - Budi Susanto - FTI UKDW Data Cleaning: Missing Values Angkatan IPK Pekerjaan Kelamin 2004 3.45 Programmer L 2005 ? Ibu RT P 2003 2.81 ? P Contoh untuk missing value IPK diisi dengan ratarata IPK atau diisi dengan nilai IPK yang paling mungkin untuk angkatan 2005 dan Perempuan serta menjadi ibu rumah tangga. ¨ Contoh untuk missing value Pekerjaan, dapat diisi dengan pekerjaan yang paling banyak muncul. ¨ Data Preprocessing - Budi Susanto - FTI UKDW 8 4/1/13 Data Cleaning: Noisy Data Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. ¨ Teknik-teknik ¨ ¤ Binning n Smoothing by bin means n Smoothing by bin medians n Smoothing by bin boundaries ¤ Regression ¤ Outlier Analysis Data Preprocessing - Budi Susanto - FTI UKDW Metode Binning ¨ ¨ ¨ Metode ini akan melakukan pengelompokan terhadap kumpulan data. Metode binning merupakan salah satu pendekatan dicretization. Urutan proses: ¤ Urutkan data secara ascending ¤ Lakukan partisi ke dalam bins n Dapat dengan equal-width (jarak) atau equal-depth (frekuensi) ¤ Kemudian dapat di-smoothing: smooth by means, smooth by median, smooth by boundaries, dsb. Data Preprocessing - Budi Susanto - FTI UKDW 9 4/1/13 Partisi dalam Metode Binning ¨ Partisi Equal-Width ¤ Algoritma membagi data ke dalam k interval ukuran yang sama. Lebar interval adalah n w = (max-min)/k ¤ Batasan n min+w, ¨ interval adalah min+2w, …, min+(k-1)w Partisi Equal-depth ¤ Membagi data ke dalam k kelompok dimana tiap kelompok berisi jumlah yang sama Data Preprocessing - Budi Susanto - FTI UKDW Contoh Partisi Binning Data: 0, 4, 12, 16, 16, 18, 24, 26, 28 ¨ Equal Width ¨ ¤ BIN1 = 0, 4 ¤ BIN2 = 12, 16, 16, 18 ¤ BIN3 = 24, 26, 28 ¨ [-, 10] [10, 20] [20, +] Equal Depth ¤ BIN1 = 0, 4, 12 ¤ BIN2 = 16, 16, 18 ¤ BIN3 = 24, 26, 28 Data Preprocessing - Budi Susanto - FTI UKDW 10 4/1/13 Smoothing pada Partisi Binning ¨ Smoothing berdasar rata-rata ¤ Semua nilai di tiap bin diganti dengan rata-rata nilai tiap bin ¨ Smoothing berdasar batasan ¤ Setiap nilai bin diganti dengan nilai yang paling dekat dari batasan nilai ¤ Batasan nilai terbentuk dari [min, max] tiap bin Data Preprocessing - Budi Susanto - FTI UKDW Data Cleaning: Outliers salary cluster outlier Data Preprocessing - Budi Susanto - FTI UKDW age 11 4/1/13 Data Cleaning: Regresi y (salary) y=x+1 Y1 X1 x (age) Data Preprocessing - Budi Susanto - FTI UKDW Percobaan Data Cleaning ¨ Dataset ¤ Labor-Negotiations Data Preprocessing - Budi Susanto - FTI UKDW 12 4/1/13 Workflow #1 Data Preprocessing - Budi Susanto - FTI UKDW reglin Data Integration Data dapat bersumber dari beberapa sumber ¨ Teknik ¨ ¤ Analisis korelasi ¤ Atribut redudan ¤ duplikasi Data Preprocessing - Budi Susanto - FTI UKDW 13 4/1/13 Covariance Correlation Data Preprocessing - Budi Susanto - FTI UKDW integration Data Transformation Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami. ¨ Strategi: ¨ ¤ Smoothing ¤ Attribute (feature) construction ¤ Aggregation ¤ Normalization ¤ Discretization Data Preprocessing - Budi Susanto - FTI UKDW 14 4/1/13 Data Transformation: Aggregation dan Smoothing Data Preprocessing - Budi Susanto - FTI UKDW coba1 Data Transformation: Normalization ¨ ¨ Unit ukuran dapat mempengaruhi analisis data. Unit yang lebih kecil akan menghasilkan rentang nilai yang besar ¤ Atribut lain ¨ Sehingga ¤ Data ¨ ¨ akan memiliki “bobot” yang lebih besar dari atribut perlu dinormalisasi atau dibakukan. Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering. Data Preprocessing - Budi Susanto - FTI UKDW 15 4/1/13 Data Transformation: Metode Normalization Min-max ¨ Z-score ¨ Decimal scaling ¨ Data Preprocessing - Budi Susanto - FTI UKDW normalization Data Preprocessing - Budi Susanto - FTI UKDW 16 4/1/13 Data Transformation: Discretization ¨ Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas) Data Preprocessing - Budi Susanto - FTI UKDW discretization Data Preprocessing - Budi Susanto - FTI UKDW discret 17 4/1/13 Data Transformation: Data Reduction ¨ Teknik ¤ Dimensionality reduction n Wavelet transform n Principal Component Analysis n Attribute Subset Selection ¤ Numerosity reduction n sampling ¤ Data compression Data Preprocessing - Budi Susanto - FTI UKDW Data Preprocessing - Budi Susanto - FTI UKDW TERIMA KASIH! Budi Susanto 18