27/08/2014 IN086 – Temu Pengetahuan 2. Overview Data Warehouse 1 Pengenalan Data Warehouse • Introduksi • Definisi data warehouse • Data warehouse vs Operasional DB DM-MA/S1IF/FTI/UKM/2012 2 1 27/08/2014 Data Warehouse • Sebuah gudang data • Data berasal dari berbagai sumber • Hasil analisis datanya dapat digunakan untuk mendukung pengambilan keputusan bisnis : • • • Analisis kebiasaan belanja customer Pengelolaan & reposisi produk Pengelolaan customer relationship DM-MA/S1IF/FTI/UKM/2012 3 Apa itu Data Warehouse? (Jiawei Han) • Didefinisikan dalam berbagai cara, namun tidak secara definitif • Sebuah basis data pendukung keputusan yang dipelihara terpisah dari basis data operasional dari organisasi • Mendukung pemrosesan informasi dengan menyediakan platform yang solid untuk analisis data yang terkonsolidasi dan historis. • Definisi: Sebuah Data Warehouse adalah koleksi data yang berorientasi subyek, terintegrasi, bervariasi terhadap waktu, dan tidak berubah (non-volatile) dalam mendukung pembuatan keputusan dari manajemen – W.H. Inmon 4 2 27/08/2014 Apa itu Data Warehouse? (Efraim Turban) • Data warehouse Sebuah repositori fisik dimana data relasional diorganisir secara khusus untuk menyediakan data yang bersih dan berformat standar di skala enterprise • Karakteristik Berorientasi subyek, terintegrasi, bervariasi terhadap waktu, tidak berubah • Berbasis web, relasional / multidimensional, klien/server, real-time • Termasuk metadata • • Data warehousing • • Proses konstruksi dan penggunaan dari data warehouse Membutuhkan integrasi data, pembersihan data, dan konsolidasi data 5 Data Warehouse : Berorientasi Subyek • Diorganisasikan menurut subyek, misalnya konsumen, produk, sales • Difokuskan pada • • pemodelan dan analisis data untuk pembuat keputusan, • bukan pada operasi harian atau pemrosesan transaksi Menyediakan wawasan yang sederhana dan jelas mengenai subyek dengan memisahkan data yg tidak relevan dalam proses pendukung keputusan 6 3 27/08/2014 Data Warehouse : Terintegrasi • Dibangun dengan mengintegrasikan sumber data yang beragam • • relational databases, flat files, on-line transaction records Penerapan pembersihan data dan integrasi data • Memastikan konsistensi dalam konvensi penamaan, struktur encoding, ukuran atribut, mis. di antara sumber data yang berbeda • Bila data dipindahkan ke warehouse, data tsb akan dikonversi • Mis. Hotel price: currency, tax, breakfast covered, dll. DM-MA/S1IF/FTI/UKM/2012 7 Data Warehouse : Bervariasi terhadap Waktu • • Perubahan data dalam DB tercatat & terlacak sehingga laporan yg dihasilkan menunjukkan perubahan secara berkala • Operational database: nilai data sekarang • Data warehouse data: informasi dari perspektif historis (mis. data 5-10 tahun terakhir) Setiap struktur key dalam data warehouse • Mengandung elemen waktu, eksplisit atau implisit • key dari data operational tidak selalu mengandung elemen waktu 8 4 27/08/2014 Data Warehouse : Tidak Berubah • Penyimpanan data transformasi terpisah secara fisik dari lingkungan operational. • Update data operasional tidak terjadi pada lingkungan data warehouse • Tidak perlu transaction processing, recovery, dan concurrency control • Hanya perlu dua operasi dlm akses data • initial loading of data dan access of data 9 Data Warehouse vs. Operational Data Base • OLTP (on-line transaction processing) • Tugas utama dalam DBMS relasional tradisional • Operasi sehari – hari: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, dll. • OLAP (on-line analytical processing) • Tugas utama dalam sistem data warehouse • Analisis data dan pembuatan keputusan • Fitur pembeda (OLTP vs. OLAP): • Orientasi user dan sistem: konsumen vs. Market • Konten data: sekarang, detil vs. historis, terkonsolidasi • Desain basisdata: ER + aplikasi vs. Star + subyek • View: sekarang, lokal vs. terevolusi, terintegrasi • Pola akses: update vs. read-only tetapi kueri kompleks 10 5 27/08/2014 OLTP vs. OLAP OLTP OLAP Pekerja pekerja, profesional IT Pekerja pengetahuan Fungsi Operasi sehari - hari Pendukung keputusan Desain Basisdata Berorientasi aplikasi Berorientasi subyek Data Terbaru, up-to-date detil, relasi datar, terisolasi Penggunaan Berulang - ulang Historis, terangkum, multidimensi terintegrasi, terkonsolidasi Ad-hoc Akses Unit pekerjaan read/write Banyak scan index/hash pada primary key Pendek, transaksi sederhana Query kompleks # Rekaman diakses Puluhan Jutaan #Pengguna Ribuan Ratusan Ukuran Basisdata 100MB-GB 100GB-TB Metriks ukuran Throughput transaksi Throughput query, respon 11 Mengapa sebuah Data Warehouse perlu terpisah? • Berkinerja tinggi di kedua sistem: • DBMS – dioptimalkan untuk OLTP: access methods, indexing, concurrency control, recovery • Warehouse – dioptimalkan untuk OLAP: complex OLAP queries, multidimensional view, consolidation • Pemrosesan kueri OLAP dalam basis data operasional akan menurunkan kinerja dari tugas – tugas operasional. • Dalam Basisdata Operasional, concurrency control dan mekanisme recovery (locking, logging) dibutuhkan untuk menjamin konsistensi dan kehandalan dalam transaksi • OLAP -> akses Read Only, tidak memerlukan concurrency 12 6 27/08/2014 Mengapa sebuah Data Warehouse perlu terpisah? • Fungsi dan data yang berbeda • Data hilang: Pendukung keputusan membutuhkan data historis yang dalam basis data operasional biasanya tidak dipelihara • Konsolidasi data: Pendukung keputusan membutuhkan konsolidasi (aggregation, summarization) dari sumber – sumber data yang beragam • Kualitas data: sumber data yang berbeda biasanya menggunakan representasi data ,kode dan format yang tidak konsisten yang harus direkonsiliasi DM-MA/S1IF/FTI/UKM/2012 13 Contoh Data Warehouse • Contoh data dalam DW • • • • Seluruh transaksi yang pernah dilakukan di supermarket Histori transaksi klien di perusahaan asuransi Seluruh data akademik di suatu universitas Informasi finansial dan portfolio di bursa saham → dalam beberapa tahun DM-MA/S1IF/FTI/UKM/2012 14 7 27/08/2014 Data Warehouse: A MultiMulti-Tiered Architecture Basisdata Operasional Monitor & Integrator Metadata Sumbersumber lain Extract Transform Load Refresh Data Warehouse OLAP Server Analysis Query Reports Data mining Serve Data Marts Data Sources Data Storage OLAP Engine Front-End Tools 15 Model – model Data Warehouse • Warehouse Enterprise • • • Mengumpulkan semua informasi tentang subyek – subyek yang ada pada seluruh organisasi Data Mart • Sebuah bagian (subset) dari data korporat yang berguna untuk kelompok pengguna spesifik. Ruang lingkupnya dibatasi untuk kelompok spesifik dan terpilih, seperti Data Mart untuk marketing • Independent vs. dependent (langsung dari warehouse) data mart Virtual warehouse • • Sebuah set views dari basis data operasional Hanya beberapa dari view rangkuman yang dapat diwujudkan 16 8 27/08/2014 Data Warehouse : Extraction Transformation Loading (ETL) • Ekstraksi Data: mendapatkan data dari sumber – sumber yang banyak, beragam, dan eksternal. • Pembersihan data: mendeteksi kesalahan data dan memperbaikinya apabila dimungkinkan • Transformasi data: mengkonversi data dari format atau legasi dari host ke format warehouse • Load: menyortir, merangkum, mengkonsolidasi, menghitung tampilan (view), dan membangun indeks dan partisi • Penyegaran: mempropagasi pembaharuan dari sumber data ke warehouse. 17 Aplikasi Data Warehouse • Tiga jenis aplikasi data warehouse • Information processing • • • mendukung querying, basic statistical analysis, dan reporting menggunakan crosstabs, tables, charts dan graphs Analytical processing • Analisis data multidimensi dari data warehouse • mendukung basic OLAP operations, slice-dice, drilling, pivoting Data mining • Temu pengetahuan dari pola – pola tersembunyi • Mendukung asosiasi, konstruksi model analisis, menjalankan klasifikasi dan prediksi, dan menyajikan hasil – hasil DM menggunakan perangkat visualisasi. 18 9 27/08/2014 Contoh Data Karyawan Nama Hani Kiki Lina Mari Rima Mira Koko Komar Mario Anisa Kikan Nani Jodi Didi Dani Divisi HRD HRD Finance Finance Finance Produksi Produksi Produksi Produksi R&D R&D R&D R&D Finance Produksi Gender L L P P P P L L L P P P L L L DOB 24-Nov-1972 22-Mar-1955 13-Nov-1941 29-Sep-1965 21-Apr-1945 27-Jun-1955 13-Nov-1947 28-Jun-1968 16-Nov-1938 16-Mar-1933 9-Oct-1945 13-Oct-1951 28-Apr-1956 8-Jul-1969 16-Apr-1930 DOH 11-Feb-1991 4-Mar-1985 4-Feb-1991 21-Mar-1994 1-Nov-1994 9-Apr-1990 1-May-1978 30-Jul-1990 6-Aug-1992 24-Jul-1991 1-Apr-1977 19-Jun-1989 29-Apr-1991 6-May-1991 28-Dec-1990 DOX 1-Jul-2005 1-Jul-2003 2-Oct-2007 1-Jul-2010 1-Jul-1999 1-Jul-2005 1-Jul-2003 2-Oct-2007 1-Jul-2010 8-May-1999 1-Jul-1999 1-Jul-2003 2-Oct-2007 1-Jul-2010 8-May-1999 19 Multidimensi & Visualisasi 35 Divisi Lama Kerja HRD L P Produksi Finance 30 L L 25 P P 5 - 10 20 10 - 20 15 20 - 30 10 > 30 5 Total 0 L P Total HRD PRODUKSI FINANCE 20 10