DATA Pertemuan 2 Terminologi • • • • OLTP Data Warehouse ETL OLAP Data berlabel dan tidak berlabel • Data set yang variable/atribut. • Ada dua tipe data akan digali berisi sejumlah – Data berlabel (labelled data) yaitu atribut yang memiliki nilai tertentu dan ditujukan untuk memprediksi data baru yang belum terlihat kelasnya. Data mining yang menggunakan data berlabel dikenal dengan supervised learning. – Data tidak berlabel (unlabelled data) yaitu atribut yang tidak tidak memiliki nilai tertentu. Tujuannya adalah untuk mengekstrak informasi dari data yang ada. Data mining yang menggunakan data tidak berlabel dikenal dengan unsupervised learning. Data untuk Data Mining Data untuk data mining disebut dengan data set/data training. Type data set antara lain dapat berbentuk (Gorunescu, 2011): • Rekaman (records), berbentuk table dua dimensi • Graf • Data set terurut (ordered data set) • Pada data yang berupa rekaman, terdiri dari baris dan kolom. Baris dalam table disebut dengan record, atau examples, kasus, instances, atau objek. Sedangkan kolom disebut dengan atribut, variable, karakteristik, atau feature. • Tipe atribut yang terdapat dalam data set bisa dikategorikan sebagai (Vercellis, 2009): – – – – – – – • Kategorikal Numerik Count Nominal Ordinal Diskrit Continuous Masalah utama pada data adalah (Gorunescu, 2011): – Noise atau outliers – Missing value – Data duplikat Untuk mendapatkan data yang berkualitas, beberapa teknik preprocessing digunakan, yaitu (Vercellis, 2009): 1. Validasi data Dilakukan untuk mengidentifikasi dan menghapus data yang ganjil (outlier/noise), data yang tidak konsisten, dan data yang kosong atau tidak lengkap 2. Integrasi dan transformasi data Integrasi dan transformasi data dilakukan untuk meningkatkan akurasi dan efisiensi algoritma. Transformasi data bisa dilakukan metode standarisasi (normalisasi) atau ekstraksi fitur. 3. Reduksi dan diskretisasi data Dilakukan untuk memperoleh data set dengan jumlah atribut dan record yang lebih sedikit tetapi bersifat informatif. Tugas A. Carilah jurnal data mining lalu tentukan: 1. 2. 3. 4. 5. 6. 7. 8. Permasalahan Jika menghasilkan aplikasi sebutkan basisnya (web/android/desktop atau lainnya) Metode pengembangan sistemnya (waterfall/rapid/spiral/agile/prototype, atau lainnya) Data yang digunakan Metode/algoritma yang digunakan Metode pengujian yang digunakan Software yang digunakan baik untuk modeling ataupun pengujian (ms-excel/spss/matlab/weka/rapidmine/atau lainnya) Kesimpulan B. Berikan contoh data sekunder untuk penelitian