IN086 - Temu Pengetahuan 1. Pengenalan Temu Pengetahuan 1 Materi Perkuliahan • Review Basis Data • Data Warehouse • Data Mining 2 1 Apa itu Data Warehouse? • • Didefinisikan dalam berbagai bentuk, namun belum ada definisi yang pasti • Sebuah basis data pendukung keputusan yang dipelihara terpisah dari basis data operasional dari sebuah organisasi • Mendukung pengolahan informasi dengan menyediakan platform yang solid untuk analisis dari data historis yang terkonsolidasi. Sebuah Data Warehouse adalah sebuah koleksi data yang berorientasi subyek, terintegrasi, bervariasi waktu, dan tidak berubah untuk mendukung proses pengambilan keputusan dari manajemen – W.H.Inmon 3 Contoh • Toko JC Penney : Seorang manajer senior (Tuan X) ingin mengetahui tipe apa saja (gaya, bahan baju, warna, dan ukuran) dari baju wanita yang terjual cepat selama bulan Oktober sampai Desember di wilayah Utara? Type Casual Formal Party Total Oktober 1.500.000 2.300.000 1.500.000 5.300.000 November Desember Total 1.700.000 3.500.000 6.700.000 2.500.000 2.200.000 7.000.000 2.000.000 5.000.000 8.500.000 6.200.000 10.700.000 22.200.000 4 2 Tiada akhir…. – Setelah dua hari – Tuan X meminta data didetilkan untuk setiap minggu selama Oktober – Desember – Hari berikutnya Tuan X ingin didetilkan lagi berdasarkan kota di wilayah Utara • Tuan X kembali lagi – Apa mungkin untuk didetilkan di setiap toko di setiap kota? • • • • Berdasarkan kelompok umur, apabila mungkin Berdasarkan kelompok pendapatan, jika data tersedia Berdasarkan metode pembayaran (cek, tunai, kartu kredit, dll) Manager IS jadi capek .... 5 Arsitektur Data Warehouse DM-MA/S1IF/FTI/UKM/2012 6 3 Mengapa Data Mining? • Pertumbuhan data yang ekslosif: dari terabita ke petabita • • Koleksi data dan ketersediaan data: perangkat pengumpul data otomatis, sistem basis data, Web, masyarakat yang terkomputerisasi Banyak sumber – sumber data yang berlimpah • Bisnis: Web, E-Commerce, transaksi, bursa, .... • Ilmu Pengetahuan: penginderaan jarak jauh, bio informatika, simulasi ilmiah ... • Komunitas dan semua orang: berita, kamera digital .... • Kita kebanjiran data, tapi kelaparan pengetahuan! • “Kebutuhan adalah ibu dari penemuan” – Data mining – analisa otomatis dari data set yang masif 7 Sumber Data yang Masif • Data Astronomi tentang obyek luar angkasa: 106 – 1012 • Data dengan atribut yang sangat banyak (fitur, pengukuran, kolom) • Ratusan variabel untuk rekam medis pasien yang berhubungan dengan hasil eksaminasi medis DM-MA/S1IF/FTI/UKM/2012 8 4 Evolution dari Teknologi Basisdata • 1960-an: Koleksi data, kreasi data, IMS dan jaringan DBMS • 1970-an: Model data relasional, implementasi DBMS relasional • 1980-an: • • RDBMS, model data yang lebih majur (extended-relational, OO, deductive, dll) DBMS berorientasi aplikasi (spasial, ilmu pengetahuan, teknik, dll) • 1990-an: Dataminng, Data Warehousing, Basis data multimedia, dan basis data web • 2000-an Manajemen aliran data (stream data) dan mining Data mining dan aplikasinya • Teknologi Web (XML, data integrasi) dan sistem informasi global • • • 2010-an: No SQL, komputasi awan DM-MA/S1IF/FTI/UKM/2012 9 Evolusi Ilmu Pengetahuan • Sebelum 1600, ilmu empiris • 1600 – 1950-an, ilmu teoritis: setiap disiplin ilmu mengembangkan komponen teori. Model teori sering memotivasi eksperimen dan menggeneralisasi pemahaman kita • 1950-an – 1960-an, ilmu komputasi: simulasi komputasi, terjadi karena ketidakmampuan menemukan solusi tertutup dari model matematika yang kompleks • 1990-an – sekarang, ilmu data • • Banjir data dari perangkat dan simulasi ilmu pengetahuan yang baru • Kemampuan untuk menyimpan dan mengelola data online dalam petabita dengan harga terjangkau • Internet dan komputasi grid membuat semua arsip ini dapat diakses secara universal • Tugas – tugas manajemen informasi ilmiah, akuisisi, organisasi, kueri, dan visualisasi memilik skala liner terhadap volume data. Datamining menjadi tantangan terbesar! Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002 10 5 Proses Temu Pengetahuan (KDD) • Datamining – inti dari proses temu pengetahuan Pattern Evaluation Data Mining Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases 11 Apa itu Data Mining? • • Data mining (temu pengetahuan dari data) • Ekstraksi dari pola – pola atau pengetahuan yang menarik (nontrivial, implisit, tidak diketahui sebelumnya, dan secara potensial berguna). • Data Mining : sebuah kesalahan istilah? Nama – nama alternatif • • Temu pengetahuan (mining) di basis data (KDD), ekstraksi pengetahuan, analisi data / pola, arkeologi data, data dredging, pemanenan data, business intelligence, dll Hati – hati: apakah semuanya “Data Mining”? • Pencarian sederhana atau proses kueri • Sistem pakar (deduktif) 12 6 Data Mining DATA DATA MINING DM-MA/S1IF/FTI/UKM/2012 POLA - POLA 13 Data Mining dan Business Intelligence Potensi yang meningkat Dari dukungan keputusan bisnis Pengguna Akhir Pengambilan Keputusan Analis Bisnis Presentasi Data Teknik – teknik visualisasi Data Mining Penemuan Informasi Analis Data Eksplorasi Data Ringkasan Statistik, Proses kueri, dan Pelaporan Preprocessing Data/Integrasi, Data Warehouses DBA Sumber – sumber Data Paper, Berkas, Dokumen Web, Eksperimen Ilmu Pengetahuan, Sistem Basisdata 14 7 Proses KDD Process: Pandangan Umum dari Machine Learning dan Statistika Data integration Normalization Feature selection Dimension reduction • Data Mining Data PreProcessing Input Data PostProcessing Pattern discovery Association & correlation Classification Clustering Outlier analysis ………… Pattern evaluation Pattern selection Pattern interpretation Pattern visualization Ini adalah pandangan umum dari komunitas machine learning dan statistika 15 Aplikasi Data mining • Ilmu Pengetahuan: • Bisnis • • • Mesin pencari, bot, dll Negara • • Periklanan, CRM (Customer Relationship Management), investasi, manufakturing, olah raga / entertainment, telekomunikasi, e-commerce, target marketing, jaminan kesehatan, dll Web • • astronomi, bioinformatika, penemuan obat, dll Penegakan hukum, profil pengemplang pajak, anti teror, dll Contoh: Amazon.com menggunakan data mining untuk menyediakan saran pembelian kepada konsumen Customers who bought this book also bought: • • • • • Seven Methods for Transforming Corporate Data Into Business Intelligence by Vasant Dhar, Roger Stein Building Data Mining Applications for CRM by Alex Berson, et al Data Preparation for Data Mining by Dorian Pyle Kellogg on Integrated Marketing by Dawn Iacobucci (Editor), et al Multivariate Data Analysis (5th Edition) by Joseph F. Hair (Editor), et al Explore similar items 16 8 Aplikasi DM: Ritel • Melakukan analis keranjang (basket analysis) • • • Sales forecasting • • • Barang – barang apa yang akan dibeli bersamaan oleh konsumen Pengetahuan ini dapat meningkatkan penyetokan, strategi layout toko, dan promosi Meneliti pola – pola pembelian berdasarkan waktu dapat membantu riteler untuk membuat keputusan stok yang tepat Jika seorang konsumen membeli sebuah item hari ini, kapan kira – kira dia akan membeli item komplementer? Database marketing • • Riteler dapat membangun profil konsumen dengan perilaku tertentu, contohnya, siapa saja yang membeli produk bermerek dan siapa saja yang datang saat promosi diskon Informasi ini dapat digunakan untuk promosi yang terfokus sehingga efektif secara biaya DM-MA/S1IF/FTI/UKM/2012 17 DM dalam CRM: Siklus Hidup Komsumen • Siklus Hidup Konsumen: tahapan hubungan antara seorang konsumen dengan sebuah bisnis • Tahapan penting dari Siklus Hidup Konsumen • Prospects: • • Responders: • • Prospektus yang menunjukkan ketertarikan pada sebuah produk atau layanan Active Customers: • • Orang yang belum menjadi konsumen tapi menjadi target pasar Orang yang sekarang ini menggunakan produk atau layanan Former Customers: • Mungkin konsumen yang “tidak baik” yang tidak membayar tagihan atau menyebabkan biaya tinggi 18 9 DM-MA/S1IF/FTI/UKM/2012 19 10