Data Warehousing Sistem Basis Data Lanjut Prepared by: MT. Wilson Sumber: Fundamentals of Database Systems, Third Edition ch.26, Elmasri Pendahuluan • Data warehouse memberikan storage, fungsionalitas yang lebih dan lebih responsif terhadap query dibandingkan kemampuan database yang bersifat transaksi • Banyak orang hanya butuh data read-access tapi butuh akses yang cepat pada data yang sangat bear dan bisa diunduh ke desktop, seringkali data itu datangnya dari lebih dari 1 database. DW, DM dan OLAP menyediakan fungsi ini. Konsep Data Warehous • Subject-oriented, integrated, nonvolatile, time-variant collection of data in support of management’s decisions (Inmon, 1992) • Dibanding database tradisional, DW umumnya terdiri dari data yang berukuran sangat besar dari banyak sumber dan mungkin terdiri dari database dari model data yang berbeda dan kadang file dari sistem dan platform yang independen Konsep Data Warehouse (2) • Tidak seperti database transaksional, DW biasanya mendukung analisa tren dan timeseries, di mana keduanya membutuhkan data historik • DW itu nonvolatile. Artinya informasi dalam DW jarang diubah dan bisa dianggap non-real-time • DW bisa digambarkan sebagai “kumpulan teknologi pendukung keputusan, dimaksudkan untuk memungkinkan pekerja yang berhubungan dengan informasi (eksekutif, manajer dan analis) untuk membuat keputusan lebih baik dan lebih cepat” Ciri-ciri Data Warehouse • • • • • • • • • • • • Konsep multidimensi Deminsi generic Tingkat agregasi dan dimensi tak terbatas Operasi lintas dimensi tak terbatas Penanganan matriks dinamis Arsitektur client-server Dukungan multi-user aksesibilitas Transparansi Manipulasi data yang intuitif Performa reporting yang konsisten Reporting yang fleksibel Model Data untuk Data Warehouse • Contoh dimensi dalam DW adalah periode fiskal, produk dan region perusahaan • Spreadsheet standar biasanya matrix 2 dimensi. Contohnya spreadsheet sales regional berdimensi produk untuk satu jangka waktu tertentu. Produk ditampilkan per baris dengan pendapatan sales untuk masing-masing region ditampilkan per kolom. • Menambah dimensi waktu seperti kuartal fiskal perusahaan menjadikannya matrix 3 dimensi yang ditampilkan sebagai kubus data • Menambah dimensi tambahan, bisa menghasilkan hypercube, tapi sulit untuk divisualisasikan Model Data untuk Data Warehouse (2) • Mengubah dari satu (orientasi) hirarki dimensi ke hirarki lain bisa dikerjakan dalam satu kubus data dengan teknik pivoting (juga disebut rotasi) • Model multidimensi memiliki view hirarki yang dikenal dengan roll-up display dan drill-down. • Roll-up display memindahkan ke atas secara hirarki, mengelompokkan ke unit yang lebih besar • Drill-down display lebih mendetailkan Model Data untuk Data Warehouse (3) • Model storage multidimensi melibatkan 2 tipe tabel: tabel dimensi dan tabel fakta • Tabel dimensi terdiri dari tupel atribut tuples dari diemsni • Tabel fakta bisa digambarkan memiliki banyak tupel. Satu tupel untuk satu fakta yang tercatat. Fakta ini berisikan data dan dimensi mengidentifikasikan masingmasing tupel dalam data tersebut Model Data untuk Data Warehouse (4) • Skema multidimensi yang umum adalah skema bintang dan skema snowflake. • Skema bintang terdiri dari sebuah tabel fakta dengan satu tabel untuk masingmasing dimensi • Skema snowflake adalah variasi skema bintang di mana di dalamnya tabel dimensi dari skema bintang diorganisir menjadi hirarki dengan normalisasi. Membangun Data Warehouse • Perlu pandangan luas untuk antisipasi penggunaan warehouse • Design harus mendukung ad-hoc querying, yaitu mengakses data dengan kombinasi nilai apa saja untuk atribut dalam tabel dimensi atau tabel fakta. Akuisisi data untuk warehouse • Data diekstrak dari sumber yang banyak dan heterogen • Data harus diformat untuk konsistensi dalam warehouse • Data harus bersih untuk memastikan validitas • Data harus bisa masuk dalam model data warehouse • Data harus dimuat dalam warehouse Akuisisi data untuk warehouse (2) • Seberapa up-to-date datanya? • Bisakah warehouse ini off-line, dan berapa lama? • Apa saja independensi datanya? • Berapa kapasitas storage? • Apa saja persyaratan distribusi (seperti replikasi dan partitioning)? • Berapa waktu loadingnya (termasuk pembersihan, formatting, copying, transmitting dan overhead seperti pembangunan index) Fungsi Umum Data Warehouse • Data warehouse ada untuk memfasilitasi queri ad hoc yang terjadi sering dan kompleks. Untuk itu, data warehouse harus menyediakan dukungan query yang lebih efisien • Roll-up: data dirangkum dengan generalisasi • Dril-down: meningkatkan tingkat detail • Pivot: lintas tabulasi (juga disebut rotasi) • Potong dan iris: melakukan operasi proyeksi terhadap dimensi • Sorting: data diurut berdasarkan nilai ordinal • Selection: data tersedia dalam nilai atau range • Derived attributes: atribut dihitung oleh operasi dalam nilai yang disimpan atau turunan