02-DataWarehousing

advertisement
Data Warehousing
Sistem Basis Data Lanjut
Prepared by: MT. Wilson
Sumber: Fundamentals of Database
Systems, Third Edition ch.26, Elmasri
Pendahuluan
• Data warehouse memberikan storage,
fungsionalitas yang lebih dan lebih responsif
terhadap query dibandingkan kemampuan
database yang bersifat transaksi
• Banyak orang hanya butuh data read-access
tapi butuh akses yang cepat pada data yang
sangat bear dan bisa diunduh ke desktop,
seringkali data itu datangnya dari lebih dari 1
database. DW, DM dan OLAP menyediakan
fungsi ini.
Konsep Data Warehous
• Subject-oriented, integrated, nonvolatile,
time-variant collection of data in support of
management’s decisions (Inmon, 1992)
• Dibanding database tradisional, DW
umumnya terdiri dari data yang berukuran
sangat besar dari banyak sumber dan
mungkin terdiri dari database dari model
data yang berbeda dan kadang file dari
sistem dan platform yang independen
Konsep Data Warehouse (2)
• Tidak seperti database transaksional, DW
biasanya mendukung analisa tren dan timeseries, di mana keduanya membutuhkan data
historik
• DW itu nonvolatile. Artinya informasi dalam DW
jarang diubah dan bisa dianggap non-real-time
• DW bisa digambarkan sebagai “kumpulan
teknologi pendukung keputusan, dimaksudkan
untuk memungkinkan pekerja yang
berhubungan dengan informasi (eksekutif,
manajer dan analis) untuk membuat keputusan
lebih baik dan lebih cepat”
Ciri-ciri Data Warehouse
•
•
•
•
•
•
•
•
•
•
•
•
Konsep multidimensi
Deminsi generic
Tingkat agregasi dan dimensi tak terbatas
Operasi lintas dimensi tak terbatas
Penanganan matriks dinamis
Arsitektur client-server
Dukungan multi-user
aksesibilitas
Transparansi
Manipulasi data yang intuitif
Performa reporting yang konsisten
Reporting yang fleksibel
Model Data untuk
Data Warehouse
• Contoh dimensi dalam DW adalah periode fiskal, produk
dan region perusahaan
• Spreadsheet standar biasanya matrix 2 dimensi.
Contohnya spreadsheet sales regional berdimensi
produk untuk satu jangka waktu tertentu. Produk
ditampilkan per baris dengan pendapatan sales untuk
masing-masing region ditampilkan per kolom.
• Menambah dimensi waktu seperti kuartal fiskal
perusahaan menjadikannya matrix 3 dimensi yang
ditampilkan sebagai kubus data
• Menambah dimensi tambahan, bisa menghasilkan
hypercube, tapi sulit untuk divisualisasikan
Model Data untuk
Data Warehouse (2)
• Mengubah dari satu (orientasi) hirarki dimensi
ke hirarki lain bisa dikerjakan dalam satu kubus
data dengan teknik pivoting (juga disebut
rotasi)
• Model multidimensi memiliki view hirarki yang
dikenal dengan roll-up display dan drill-down.
• Roll-up display memindahkan ke atas secara
hirarki, mengelompokkan ke unit yang lebih
besar
• Drill-down display lebih mendetailkan
Model Data untuk
Data Warehouse (3)
• Model storage multidimensi melibatkan 2
tipe tabel: tabel dimensi dan tabel fakta
• Tabel dimensi terdiri dari tupel atribut
tuples dari diemsni
• Tabel fakta bisa digambarkan memiliki
banyak tupel. Satu tupel untuk satu fakta
yang tercatat. Fakta ini berisikan data dan
dimensi mengidentifikasikan masingmasing tupel dalam data tersebut
Model Data untuk
Data Warehouse (4)
• Skema multidimensi yang umum adalah
skema bintang dan skema snowflake.
• Skema bintang terdiri dari sebuah tabel
fakta dengan satu tabel untuk masingmasing dimensi
• Skema snowflake adalah variasi skema
bintang di mana di dalamnya tabel dimensi
dari skema bintang diorganisir menjadi
hirarki dengan normalisasi.
Membangun Data Warehouse
• Perlu pandangan luas untuk antisipasi
penggunaan warehouse
• Design harus mendukung ad-hoc
querying, yaitu mengakses data dengan
kombinasi nilai apa saja untuk atribut
dalam tabel dimensi atau tabel fakta.
Akuisisi data untuk warehouse
• Data diekstrak dari sumber yang banyak
dan heterogen
• Data harus diformat untuk konsistensi
dalam warehouse
• Data harus bersih untuk memastikan
validitas
• Data harus bisa masuk dalam model data
warehouse
• Data harus dimuat dalam warehouse
Akuisisi data untuk warehouse (2)
• Seberapa up-to-date datanya?
• Bisakah warehouse ini off-line, dan berapa
lama?
• Apa saja independensi datanya?
• Berapa kapasitas storage?
• Apa saja persyaratan distribusi (seperti replikasi
dan partitioning)?
• Berapa waktu loadingnya (termasuk
pembersihan, formatting, copying, transmitting
dan overhead seperti pembangunan index)
Fungsi Umum Data Warehouse
• Data warehouse ada untuk memfasilitasi queri ad hoc
yang terjadi sering dan kompleks. Untuk itu, data
warehouse harus menyediakan dukungan query yang
lebih efisien
• Roll-up: data dirangkum dengan generalisasi
• Dril-down: meningkatkan tingkat detail
• Pivot: lintas tabulasi (juga disebut rotasi)
• Potong dan iris: melakukan operasi proyeksi terhadap
dimensi
• Sorting: data diurut berdasarkan nilai ordinal
• Selection: data tersedia dalam nilai atau range
• Derived attributes: atribut dihitung oleh operasi dalam
nilai yang disimpan atau turunan
Download