Data Preprocessing

advertisement
4/1/13 Data Preprocessing - Budi Susanto - FTI UKDW
DATA
PREPROCESSING
Budi Susanto (versi 1.2)
Kenali Data Anda
¨ 
Atribut Data
¤  Memahami
¤  Membantu
¨ 
tipe atribut
membetulkan data saat integrasi data
Deskripsi Statistik Data
¤  Memudahkan
untuk mengisi nilai yang kosong,
noise data,
¤  mengetahui outlier selama pemrosesan data
¤  memperhalus
¨ 
Mengukur Kesamaan dan ketidaksamaan
¤  Dapat
berguna juga untuk mendeteksi outlier
melakukan klasifikasi
¤  Pada umumnya untuk mengukur “kedekatan”.
¤  Untuk
Data Preprocessing - Budi Susanto - FTI UKDW
1 4/1/13 Data
¨ 
Data yang ada pada umumnya:
¤  Banyak
noise
¤  Ukuran yang besar
¤  Dapat merupakan campuran dari berbagai macam
sumber
¨ 
Memahami data sangat penting untuk tahap
preprosesing.
Data Preprocessing - Budi Susanto - FTI UKDW
Atribut Data
Mencerminkan karakteristik objek data.
¨  Tipe atribut menentukan himpunan nilai yang
diperbolehkan.
¨ 
¤  Nominal
¤  Binary
(Binomial)
¤  Ordinal
¤  Numerik
n  Interval-scale
n  Ratio-scale
¤  Diskret
atau Continue
Data Preprocessing - Budi Susanto - FTI UKDW
2 4/1/13 Deskripsi Statistik
¨ 
Mengukur lokasi pusat/tengah dari distribusi data
¤  Mean
¤  Median
¤  Mode
¤  Midrange
Data
Preprocessing
- Budi
Susanto - FTI UKDW
Data Mining: Concepts and
Techniques,
3th ed.,
p. 47
Deskripsi Statistik
¨ 
Mengukur penyebaran data
¤  Rentang
dan Kuartil
¤  Variasi dan Standard Deviasi
Data
Preprocessing
- Budi
Susanto - FTI UKDW
Data Mining: Concepts and
Techniques,
3th ed.,
p. 48
3 4/1/13 BoxPlot
¨ 
Interquartil Range
(IQR)
¤  Q3
¨ 
– Q1
Outlier data
¤  1.5
x IQR
Data Preprocessing - Budi Susanto - FTI UKDW
Mengukur Kesamaan
¨ 
Dalam aplikasi data mining, seperti clustering,
analisis outlier, klasifikasi nearest-neighbor,
membutuhkan cara untuk menilai dua objek data
serupa atau tidak.
¤  Minkwoski
n  Euclidean
distance
dan Manhattan
¤  Cosine
Data Preprocessing - Budi Susanto - FTI UKDW
4 4/1/13 Mengukur Kesamaan
Data Preprocessing - Budi Susanto - FTI UKDW
Mengapa Perlu Data Preprocessing?
¨ 
Data mentah yang ada sebagian besar kotor
¤  Tidak
komplet
n  Berisi
data yang hilang/kosong
n  Kekurangan atribut yang sesuai
n  Hanya berisi data aggregate
¤  Banyak
“noise”
n  Berisi
data yang Outlier
n  Berisi error
¤  Tidak
konsisten
n  Berisi
nilai yang berbeda dalam suatu kode atau nama
Data Preprocessing - Budi Susanto - FTI UKDW
5 4/1/13 Mengapa Data Preprocessing Penting?
Data yang tidak berkualitas, akan menghasilkan
kualitas mining yang tidak baik pula.
¨  Data Preprocessing, cleaning, dan transformasi
merupakan pekerjaan mayoritas dalam aplikasi
data mining (90%).
¨ 
Data Preprocessing - Budi Susanto - FTI UKDW
Ukuran Kualitas Data
Accuracy
¨  Completeness
¨  Consistency
¨  Timeliness
¨  Believability
¨  Value added
¨  Interpretability
¨  Accessibility
¨ 
Data Preprocessing - Budi Susanto - FTI UKDW
6 4/1/13 Teknik Data Preprocessing
Data Cleaning
¨  Data integration
¨  Data Reduction
¨  Data Transformation
¨ 
Data Preprocessing - Budi Susanto - FTI UKDW
Data Cleaning
¨ 
Proses untuk membersihkan data dengan beberapa
teknik
¤  Memperkecil
noise
¤  membetulkan data yang tidak konsisten.
¤  Mengisi missing value
¤  Mengidentifikasi atau membuang outlier
Data Preprocessing - Budi Susanto - FTI UKDW
7 4/1/13 Data Cleaning: Missing Values
¨ 
Mengabaikan record
¤  Biasanya
¨ 
¨ 
untuk label klasifikasi yang kosong
Mengisikan secara manual
Menggunakan mean/median dari atribut yang
mengandung missing value
¤  Mean
dapat dipakai jika distribusi data normal
¤  Median digunakan jika distribusi data tidak normal
(condong)
¨ 
¨ 
Menggunakan nilai global
Menggunakan nilai termungkin
¤  Menerapkan
regresi
Data Preprocessing - Budi Susanto - FTI UKDW
Data Cleaning: Missing Values
Angkatan IPK
Pekerjaan
Kelamin
2004
3.45
Programmer
L
2005
?
Ibu RT
P
2003
2.81
?
P
Contoh untuk missing value IPK diisi dengan ratarata IPK atau diisi dengan nilai IPK yang paling
mungkin untuk angkatan 2005 dan Perempuan
serta menjadi ibu rumah tangga.
¨  Contoh untuk missing value Pekerjaan, dapat diisi
dengan pekerjaan yang paling banyak muncul.
¨ 
Data Preprocessing - Budi Susanto - FTI UKDW
8 4/1/13 Data Cleaning: Noisy Data
Noise data adalah suatu kesalahan acak atau
variasi dalam variabel terukur.
¨  Teknik-teknik
¨ 
¤  Binning
n  Smoothing
by bin means
n  Smoothing by bin medians
n  Smoothing by bin boundaries
¤  Regression
¤  Outlier
Analysis
Data Preprocessing - Budi Susanto - FTI UKDW
Metode Binning
¨ 
¨ 
¨ 
Metode ini akan melakukan pengelompokan terhadap
kumpulan data.
Metode binning merupakan salah satu pendekatan
dicretization.
Urutan proses:
¤  Urutkan
data secara ascending
¤  Lakukan partisi ke dalam bins
n  Dapat
dengan equal-width (jarak) atau equal-depth (frekuensi)
¤  Kemudian
dapat di-smoothing: smooth by means, smooth by
median, smooth by boundaries, dsb.
Data Preprocessing - Budi Susanto - FTI UKDW
9 4/1/13 Partisi dalam Metode Binning
¨ 
Partisi Equal-Width
¤  Algoritma
membagi data ke dalam k interval ukuran
yang sama. Lebar interval adalah
n  w
= (max-min)/k
¤  Batasan
n  min+w,
¨ 
interval adalah
min+2w, …, min+(k-1)w
Partisi Equal-depth
¤  Membagi
data ke dalam k kelompok dimana tiap
kelompok berisi jumlah yang sama
Data Preprocessing - Budi Susanto - FTI UKDW
Contoh Partisi Binning
Data: 0, 4, 12, 16, 16, 18, 24, 26, 28
¨  Equal Width
¨ 
¤  BIN1
= 0, 4
¤  BIN2 = 12, 16, 16, 18
¤  BIN3 = 24, 26, 28
¨ 
[-, 10]
[10, 20]
[20, +]
Equal Depth
¤  BIN1
= 0, 4, 12
¤  BIN2 = 16, 16, 18
¤  BIN3 = 24, 26, 28
Data Preprocessing - Budi Susanto - FTI UKDW
10 4/1/13 Smoothing pada Partisi Binning
¨ 
Smoothing berdasar rata-rata
¤  Semua
nilai di tiap bin diganti dengan rata-rata nilai
tiap bin
¨ 
Smoothing berdasar batasan
¤  Setiap
nilai bin diganti dengan nilai yang paling dekat
dari batasan nilai
¤  Batasan nilai terbentuk dari [min, max] tiap bin
Data Preprocessing - Budi Susanto - FTI UKDW
Data Cleaning: Outliers
salary
cluster
outlier
Data Preprocessing - Budi Susanto - FTI UKDW
age
11 4/1/13 Data Cleaning: Regresi
y (salary)
y=x+1
Y1
X1
x (age)
Data Preprocessing - Budi Susanto - FTI UKDW
Percobaan Data Cleaning
¨ 
Dataset
¤  Labor-Negotiations
Data Preprocessing - Budi Susanto - FTI UKDW
12 4/1/13 Workflow #1
Data Preprocessing - Budi Susanto - FTI UKDW
reglin
Data Integration
Data dapat bersumber dari beberapa sumber
¨  Teknik
¨ 
¤  Analisis
korelasi
¤  Atribut redudan
¤  duplikasi
Data Preprocessing - Budi Susanto - FTI UKDW
13 4/1/13 Covariance Correlation
Data Preprocessing - Budi Susanto - FTI UKDW
integration
Data Transformation
Tujuannya: diharapkan lebih efisien dalam proses
data mining dan mungkin juga agar pola yang
dihasilkan lebih mudah dipahami.
¨  Strategi:
¨ 
¤  Smoothing
¤  Attribute
(feature) construction
¤  Aggregation
¤  Normalization
¤  Discretization
Data Preprocessing - Budi Susanto - FTI UKDW
14 4/1/13 Data Transformation: Aggregation dan
Smoothing
Data Preprocessing - Budi Susanto - FTI UKDW
coba1
Data Transformation: Normalization
¨ 
¨ 
Unit ukuran dapat mempengaruhi analisis data.
Unit yang lebih kecil akan menghasilkan rentang nilai
yang besar
¤  Atribut
lain
¨ 
Sehingga
¤  Data
¨ 
¨ 
akan memiliki “bobot” yang lebih besar dari atribut
perlu dinormalisasi atau dibakukan.
Hasil suatu normalisasi adalah [-1, 1] atau [0.0, 1.0]
Diperlukan dalam klasifikasi (termasuk neural network
dan nearest network) dan clustering.
Data Preprocessing - Budi Susanto - FTI UKDW
15 4/1/13 Data Transformation: Metode
Normalization
Min-max
¨  Z-score
¨  Decimal scaling
¨ 
Data Preprocessing - Budi Susanto - FTI UKDW
normalization
Data Preprocessing - Budi Susanto - FTI UKDW
16 4/1/13 Data Transformation: Discretization
¨ 
Melakukan pergantian atribut numerik menjadi
interval label (misalnya: 0-10,11-20, dst.) atau
konseptual label (misalnya: bawah, tengah, atas)
Data Preprocessing - Budi Susanto - FTI UKDW
discretization
Data Preprocessing - Budi Susanto - FTI UKDW
discret
17 4/1/13 Data Transformation: Data Reduction
¨ 
Teknik
¤  Dimensionality
reduction
n  Wavelet
transform
n  Principal Component Analysis
n  Attribute Subset Selection
¤  Numerosity
reduction
n  sampling
¤  Data
compression
Data Preprocessing - Budi Susanto - FTI UKDW
Data Preprocessing - Budi Susanto - FTI UKDW
TERIMA KASIH!
Budi Susanto
18 
Download