Data Preprocessing

advertisement
Data Preprocessing
dengan RapidMiner
Budi Susanto
RapidMiner - Budi Susanto
Kenali Data Anda
• Atribut Data
o Memahami tipe atribut
o Membantu membetulkan data saat integrasi data
• Deskripsi Statistik Data
o Memudahkan untuk mengisi nilai yang kosong,
o memperhalus noise data,
o mengetahui outlier selama pemrosesan data
• Mengukur Kesamaan dan ketidaksamaan
o Dapat berguna juga untuk mendeteksi outlier
o Untuk melakukan klasifikasi
o Pada umumnya untuk mengukur “kedekatan”.
RapidMiner - Budi Susanto
Data
• Data yang ada pada umumnya:
o Banyak noise
o Ukuran yang besar
o Dapat merupakan campuran dari berbagai macam sumber
• Memahami data sangat penting untuk tahap
preprosesing.
RapidMiner - Budi Susanto
Atribut Data
• Mencerminkan karakteristik objek data.
• Tipe atribut menentukan himpunan nilai yang
diperbolehkan.
Nominal
Binary (Binomial)
Ordinal
Numerik
• Interval-scale
• Ratio-scale
o Diskret atau Continue
o
o
o
o
RapidMiner - Budi Susanto
Deskripsi Statistik
• Mengukur lokasi pusat/tengah dari distribusi data
o
o
o
o
Mean
Median
Mode
Midrange
Data Mining:
RapidMiner
- BudiConcepts
Susanto and Techniques, 3th ed., p. 47
Deskripsi Statistik
• Mengukur penyebaran data
o Rentang dan Kuartil
o Variasi dan Standard Deviasi
Data Mining:
RapidMiner
- BudiConcepts
Susanto and Techniques, 3th ed., p. 48
BoxPlot
• Interquartil Range (IQR)
o Q3 – Q1
• Outlier data
o 1.5 x IQR
RapidMiner - Budi Susanto
Mengukur Kesamaan
• Dalam aplikasi data mining, seperti clustering,
analisis outlier, klasifikasi nearest-neighbor,
membutuhkan cara untuk menilai dua objek data
serupa atau tidak.
o Minkwoski distance
• Euclidean dan Manhattan
o Cosine
RapidMiner - Budi Susanto
Mengukur Kesamaan
RapidMiner - Budi Susanto
Data Preprocessing
• Teknik-teknik:
o
o
o
o
Data Cleaning
Data integration
Data Reduction
Data Transformation
• Mengapa penting?
o Untuk memenuhi data quality
• Accuracy
• Completeness
• Consistency
o Disamping terdapat faktor data quality lain:
• Timeliness
• Believability
• interpretability
RapidMiner - Budi Susanto
Data Cleaning
• Proses untuk membersihkan data dengan
beberapa teknik
o
o
o
o
Memperkecil noise
membetulkan data yang tidak konsisten.
Mengisi missing value
Mengidentifikasi atau membuang outlier
RapidMiner - Budi Susanto
Data Cleaning: Missing Values
• Mengabaikan record
o Biasanya untuk label klasifikasi yang kosong
• Mengisikan secara manual
• Menggunakan mean/median dari atribut yang
mengandung missing value
o Mean dapat dipakai jika distribusi data normal
o Median digunakan jika distribusi data tidak normal (condong)
• Menggunakan nilai global
• Menggunakan nilai termungkin
o Menerapkan regresi
RapidMiner - Budi Susanto
Data Cleaning: Noisy Data
• Noise data adalah suatu kesalahan acak atau
variasi dalam variabel terukur.
• Teknik-teknik
o Binning
• Smoothing by bin means
• Smoothing by bin medians
• Smoothing by bin boundaries
o Regression
o Outlier Analysis
RapidMiner - Budi Susanto
Percobaan Data Cleaning
• Dataset
o Labor-Negotiations
RapidMiner - Budi Susanto
Workflow #1
RapidMiner - Budi Susanto
Data Integration
• Data dapat bersumber dari beberapa sumber
• Teknik
o Analisis korelasi
o Atribut redundan
o duplikasi
RapidMiner - Budi Susanto
Covariance Correlation
RapidMiner - Budi Susanto
Data Transformation
• Tujuannya: diharapkan lebih efisien dalam proses
data mining dan mungkin juga agar pola yang
dihasilkan lebih mudah dipahami.
• Strategi:
o
o
o
o
o
Smoothing
Attribute (feature) construction
Aggregation
Normalization
Discretization
RapidMiner - Budi Susanto
Data Transformation: Aggregation
dan Smoothing
RapidMiner - Budi Susanto
Data Transformation:
Normalization
• Unit ukuran dapat mempengaruhi analisis data.
• Unit yang lebih kecil akan menghasilkan rentang
nilai yang besar
o Atribut akan memiliki “bobot” yang lebih besar dari atribut lain
• Sehingga
o Data perlu dinormalisasi atau dibakukan.
• Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]
• Diperlukan dalam klasifikasi (termasuk neural
network dan nearest network) dan clustering.
RapidMiner - Budi Susanto
Data Transformation: Metode
Normalization
• Min-max
• Z-score
• Decimal scaling
RapidMiner - Budi Susanto
normalization
RapidMiner - Budi Susanto
Data Transformation:
Discretization
• Melakukan pergantian atribut numerik menjadi
interval label (misalnya: 0-10,11-20, dst.) atau
konseptual label (misalnya: bawah, tengah, atas)
RapidMiner - Budi Susanto
discretization
RapidMiner - Budi Susanto
Data Transformation: Data
Reduction
• Teknik
o Dimensionality reduction
• Wavelet transform
• Principal Component Analysis
• Attribute Subset Selection
o Numerosity reduction
• sampling
o Data compression
RapidMiner - Budi Susanto
Download