Pertemuan 2 - WordPress.com

advertisement
DATA
Pertemuan 2
Terminologi
•
•
•
•
OLTP
Data Warehouse
ETL
OLAP
Data berlabel dan tidak berlabel
• Data set yang
variable/atribut.
• Ada dua tipe data
akan
digali
berisi
sejumlah
– Data berlabel (labelled data) yaitu atribut yang memiliki
nilai tertentu dan ditujukan untuk memprediksi data baru
yang belum terlihat kelasnya. Data mining yang
menggunakan data berlabel dikenal dengan supervised
learning.
– Data tidak berlabel (unlabelled data) yaitu atribut yang
tidak tidak memiliki nilai tertentu. Tujuannya adalah untuk
mengekstrak informasi dari data yang ada. Data mining
yang menggunakan data tidak berlabel dikenal dengan
unsupervised learning.
Data untuk Data Mining
Data untuk data mining disebut dengan data set/data
training. Type data set antara lain dapat berbentuk
(Gorunescu, 2011):
• Rekaman (records), berbentuk table dua dimensi
• Graf
• Data set terurut (ordered data set)
• Pada data yang berupa rekaman, terdiri dari baris dan kolom. Baris
dalam table disebut dengan record, atau examples, kasus, instances,
atau objek. Sedangkan kolom disebut dengan atribut, variable,
karakteristik, atau feature.
• Tipe atribut yang terdapat dalam data set bisa dikategorikan
sebagai (Vercellis, 2009):
–
–
–
–
–
–
–
•
Kategorikal
Numerik
Count
Nominal
Ordinal
Diskrit
Continuous
Masalah utama pada data adalah (Gorunescu, 2011):
– Noise atau outliers
– Missing value
– Data duplikat
Untuk mendapatkan data yang berkualitas, beberapa teknik preprocessing
digunakan, yaitu (Vercellis, 2009):
1. Validasi data
Dilakukan untuk mengidentifikasi dan menghapus data yang ganjil
(outlier/noise), data yang tidak konsisten, dan data yang kosong atau tidak
lengkap
2. Integrasi dan transformasi data
Integrasi dan transformasi data dilakukan untuk meningkatkan akurasi dan
efisiensi algoritma. Transformasi data bisa dilakukan metode standarisasi
(normalisasi) atau ekstraksi fitur.
3. Reduksi dan diskretisasi data
Dilakukan untuk memperoleh data set dengan jumlah atribut dan record
yang lebih sedikit tetapi bersifat informatif.
Tugas
A. Carilah jurnal data mining lalu tentukan:
1.
2.
3.
4.
5.
6.
7.
8.
Permasalahan
Jika menghasilkan aplikasi sebutkan basisnya
(web/android/desktop atau lainnya)
Metode pengembangan sistemnya
(waterfall/rapid/spiral/agile/prototype, atau lainnya)
Data yang digunakan
Metode/algoritma yang digunakan
Metode pengujian yang digunakan
Software yang digunakan baik untuk modeling ataupun
pengujian (ms-excel/spss/matlab/weka/rapidmine/atau
lainnya)
Kesimpulan
B. Berikan contoh data sekunder untuk penelitian
Download