Data Preprocessing dengan RapidMiner Budi Susanto RapidMiner - Budi Susanto Kenali Data Anda • Atribut Data o Memahami tipe atribut o Membantu membetulkan data saat integrasi data • Deskripsi Statistik Data o Memudahkan untuk mengisi nilai yang kosong, o memperhalus noise data, o mengetahui outlier selama pemrosesan data • Mengukur Kesamaan dan ketidaksamaan o Dapat berguna juga untuk mendeteksi outlier o Untuk melakukan klasifikasi o Pada umumnya untuk mengukur “kedekatan”. RapidMiner - Budi Susanto Data • Data yang ada pada umumnya: o Banyak noise o Ukuran yang besar o Dapat merupakan campuran dari berbagai macam sumber • Memahami data sangat penting untuk tahap preprosesing. RapidMiner - Budi Susanto Atribut Data • Mencerminkan karakteristik objek data. • Tipe atribut menentukan himpunan nilai yang diperbolehkan. Nominal Binary (Binomial) Ordinal Numerik • Interval-scale • Ratio-scale o Diskret atau Continue o o o o RapidMiner - Budi Susanto Deskripsi Statistik • Mengukur lokasi pusat/tengah dari distribusi data o o o o Mean Median Mode Midrange Data Mining: RapidMiner - BudiConcepts Susanto and Techniques, 3th ed., p. 47 Deskripsi Statistik • Mengukur penyebaran data o Rentang dan Kuartil o Variasi dan Standard Deviasi Data Mining: RapidMiner - BudiConcepts Susanto and Techniques, 3th ed., p. 48 BoxPlot • Interquartil Range (IQR) o Q3 – Q1 • Outlier data o 1.5 x IQR RapidMiner - Budi Susanto Mengukur Kesamaan • Dalam aplikasi data mining, seperti clustering, analisis outlier, klasifikasi nearest-neighbor, membutuhkan cara untuk menilai dua objek data serupa atau tidak. o Minkwoski distance • Euclidean dan Manhattan o Cosine RapidMiner - Budi Susanto Mengukur Kesamaan RapidMiner - Budi Susanto Data Preprocessing • Teknik-teknik: o o o o Data Cleaning Data integration Data Reduction Data Transformation • Mengapa penting? o Untuk memenuhi data quality • Accuracy • Completeness • Consistency o Disamping terdapat faktor data quality lain: • Timeliness • Believability • interpretability RapidMiner - Budi Susanto Data Cleaning • Proses untuk membersihkan data dengan beberapa teknik o o o o Memperkecil noise membetulkan data yang tidak konsisten. Mengisi missing value Mengidentifikasi atau membuang outlier RapidMiner - Budi Susanto Data Cleaning: Missing Values • Mengabaikan record o Biasanya untuk label klasifikasi yang kosong • Mengisikan secara manual • Menggunakan mean/median dari atribut yang mengandung missing value o Mean dapat dipakai jika distribusi data normal o Median digunakan jika distribusi data tidak normal (condong) • Menggunakan nilai global • Menggunakan nilai termungkin o Menerapkan regresi RapidMiner - Budi Susanto Data Cleaning: Noisy Data • Noise data adalah suatu kesalahan acak atau variasi dalam variabel terukur. • Teknik-teknik o Binning • Smoothing by bin means • Smoothing by bin medians • Smoothing by bin boundaries o Regression o Outlier Analysis RapidMiner - Budi Susanto Percobaan Data Cleaning • Dataset o Labor-Negotiations RapidMiner - Budi Susanto Workflow #1 RapidMiner - Budi Susanto Data Integration • Data dapat bersumber dari beberapa sumber • Teknik o Analisis korelasi o Atribut redundan o duplikasi RapidMiner - Budi Susanto Covariance Correlation RapidMiner - Budi Susanto Data Transformation • Tujuannya: diharapkan lebih efisien dalam proses data mining dan mungkin juga agar pola yang dihasilkan lebih mudah dipahami. • Strategi: o o o o o Smoothing Attribute (feature) construction Aggregation Normalization Discretization RapidMiner - Budi Susanto Data Transformation: Aggregation dan Smoothing RapidMiner - Budi Susanto Data Transformation: Normalization • Unit ukuran dapat mempengaruhi analisis data. • Unit yang lebih kecil akan menghasilkan rentang nilai yang besar o Atribut akan memiliki “bobot” yang lebih besar dari atribut lain • Sehingga o Data perlu dinormalisasi atau dibakukan. • Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0] • Diperlukan dalam klasifikasi (termasuk neural network dan nearest network) dan clustering. RapidMiner - Budi Susanto Data Transformation: Metode Normalization • Min-max • Z-score • Decimal scaling RapidMiner - Budi Susanto normalization RapidMiner - Budi Susanto Data Transformation: Discretization • Melakukan pergantian atribut numerik menjadi interval label (misalnya: 0-10,11-20, dst.) atau konseptual label (misalnya: bawah, tengah, atas) RapidMiner - Budi Susanto discretization RapidMiner - Budi Susanto Data Transformation: Data Reduction • Teknik o Dimensionality reduction • Wavelet transform • Principal Component Analysis • Attribute Subset Selection o Numerosity reduction • sampling o Data compression RapidMiner - Budi Susanto