IN086 – Temu Pengetahuan

advertisement
27/08/2014
IN086 – Temu Pengetahuan
2. Overview Data Warehouse
1
Pengenalan Data Warehouse
•
Introduksi
•
Definisi data warehouse
•
Data warehouse vs Operasional DB
DM-MA/S1IF/FTI/UKM/2012
2
1
27/08/2014
Data
Warehouse
•
Sebuah gudang data
•
Data berasal dari berbagai sumber
•
Hasil analisis datanya dapat digunakan untuk
mendukung pengambilan keputusan bisnis :
•
•
•
Analisis kebiasaan belanja customer
Pengelolaan & reposisi produk
Pengelolaan customer relationship
DM-MA/S1IF/FTI/UKM/2012
3
Apa itu Data Warehouse? (Jiawei Han)
•
Didefinisikan dalam berbagai cara, namun tidak secara definitif
•
Sebuah basis data pendukung keputusan yang dipelihara terpisah dari basis data
operasional dari organisasi
•
Mendukung pemrosesan informasi dengan menyediakan platform yang solid untuk
analisis data yang terkonsolidasi dan historis.
•
Definisi:
Sebuah Data Warehouse adalah koleksi data yang berorientasi subyek, terintegrasi,
bervariasi terhadap waktu, dan tidak berubah (non-volatile) dalam mendukung
pembuatan keputusan dari manajemen – W.H. Inmon
4
2
27/08/2014
Apa itu Data Warehouse? (Efraim Turban)
•
Data warehouse
Sebuah repositori fisik dimana data relasional diorganisir secara
khusus untuk menyediakan data yang bersih dan berformat standar
di skala enterprise
•
Karakteristik
Berorientasi subyek, terintegrasi, bervariasi terhadap waktu, tidak
berubah
• Berbasis web, relasional / multidimensional, klien/server, real-time
• Termasuk metadata
•
•
Data warehousing
•
•
Proses konstruksi dan penggunaan dari data warehouse
Membutuhkan integrasi data, pembersihan data, dan konsolidasi data
5
Data Warehouse : Berorientasi Subyek
•
Diorganisasikan menurut subyek, misalnya konsumen,
produk, sales
•
Difokuskan pada
•
•
pemodelan dan analisis data untuk pembuat keputusan,
•
bukan pada operasi harian atau pemrosesan transaksi
Menyediakan wawasan yang sederhana dan jelas mengenai
subyek dengan memisahkan data yg tidak relevan dalam
proses pendukung keputusan
6
3
27/08/2014
Data Warehouse : Terintegrasi
•
Dibangun dengan mengintegrasikan sumber data yang
beragam
•
•
relational databases, flat files, on-line transaction records
Penerapan pembersihan data dan integrasi data
•
Memastikan konsistensi dalam konvensi penamaan, struktur
encoding, ukuran atribut, mis. di antara sumber data yang
berbeda
•
Bila data dipindahkan ke warehouse, data tsb akan dikonversi
•
Mis. Hotel price: currency, tax, breakfast covered, dll.
DM-MA/S1IF/FTI/UKM/2012
7
Data Warehouse : Bervariasi terhadap
Waktu
•
•
Perubahan data dalam DB tercatat & terlacak sehingga
laporan yg dihasilkan menunjukkan perubahan secara
berkala
•
Operational database: nilai data sekarang
•
Data warehouse data: informasi dari perspektif historis (mis.
data 5-10 tahun terakhir)
Setiap struktur key dalam data warehouse
•
Mengandung elemen waktu, eksplisit atau implisit
•
key dari data operational tidak selalu mengandung elemen
waktu
8
4
27/08/2014
Data Warehouse : Tidak Berubah
•
Penyimpanan data transformasi terpisah secara fisik
dari lingkungan operational.
•
Update data operasional tidak terjadi pada
lingkungan data warehouse
•
Tidak perlu transaction processing, recovery, dan
concurrency control
•
Hanya perlu dua operasi dlm akses data
•
initial loading of data dan access of data
9
Data Warehouse vs. Operational Data Base
•
OLTP (on-line transaction processing)
• Tugas utama dalam DBMS relasional tradisional
• Operasi sehari – hari: purchasing, inventory, banking, manufacturing,
payroll, registration, accounting, dll.
•
OLAP (on-line analytical processing)
• Tugas utama dalam sistem data warehouse
• Analisis data dan pembuatan keputusan
•
Fitur pembeda (OLTP vs. OLAP):
• Orientasi user dan sistem: konsumen vs. Market
• Konten data: sekarang, detil vs. historis, terkonsolidasi
• Desain basisdata: ER + aplikasi vs. Star + subyek
• View: sekarang, lokal vs. terevolusi, terintegrasi
• Pola akses: update vs. read-only tetapi kueri kompleks
10
5
27/08/2014
OLTP vs. OLAP
OLTP
OLAP
Pekerja
pekerja, profesional IT
Pekerja pengetahuan
Fungsi
Operasi sehari - hari
Pendukung keputusan
Desain Basisdata
Berorientasi aplikasi
Berorientasi subyek
Data
Terbaru, up-to-date
detil, relasi datar, terisolasi
Penggunaan
Berulang - ulang
Historis,
terangkum, multidimensi
terintegrasi, terkonsolidasi
Ad-hoc
Akses
Unit pekerjaan
read/write
Banyak scan
index/hash pada primary key
Pendek, transaksi sederhana Query kompleks
# Rekaman diakses
Puluhan
Jutaan
#Pengguna
Ribuan
Ratusan
Ukuran Basisdata
100MB-GB
100GB-TB
Metriks ukuran
Throughput transaksi
Throughput query, respon
11
Mengapa sebuah Data Warehouse perlu terpisah?
•
Berkinerja tinggi di kedua sistem:
•
DBMS – dioptimalkan untuk OLTP: access methods, indexing, concurrency
control, recovery
•
Warehouse – dioptimalkan untuk OLAP: complex OLAP queries,
multidimensional view, consolidation
•
Pemrosesan kueri OLAP dalam basis data operasional akan menurunkan
kinerja dari tugas – tugas operasional.
•
Dalam Basisdata Operasional, concurrency control dan mekanisme recovery
(locking, logging) dibutuhkan untuk menjamin konsistensi dan kehandalan
dalam transaksi
•
OLAP -> akses Read Only, tidak memerlukan concurrency
12
6
27/08/2014
Mengapa sebuah Data Warehouse perlu terpisah?
•
Fungsi dan data yang berbeda
•
Data hilang: Pendukung keputusan membutuhkan data historis yang dalam
basis data operasional biasanya tidak dipelihara
•
Konsolidasi data: Pendukung keputusan membutuhkan konsolidasi
(aggregation, summarization) dari sumber – sumber data yang beragam
•
Kualitas data: sumber data yang berbeda biasanya menggunakan
representasi data ,kode dan format yang tidak konsisten yang harus
direkonsiliasi
DM-MA/S1IF/FTI/UKM/2012
13
Contoh Data Warehouse
•
Contoh data dalam DW
•
•
•
•
Seluruh transaksi yang pernah dilakukan di
supermarket
Histori transaksi klien di perusahaan asuransi
Seluruh data akademik di suatu universitas
Informasi finansial dan portfolio di bursa saham
→ dalam beberapa tahun
DM-MA/S1IF/FTI/UKM/2012
14
7
27/08/2014
Data Warehouse: A MultiMulti-Tiered Architecture
Basisdata
Operasional
Monitor
&
Integrator
Metadata
Sumbersumber lain
Extract
Transform
Load
Refresh
Data
Warehouse
OLAP Server
Analysis
Query
Reports
Data mining
Serve
Data Marts
Data Sources
Data Storage
OLAP Engine Front-End Tools
15
Model – model Data Warehouse
•
Warehouse Enterprise
•
•
•
Mengumpulkan semua informasi tentang subyek – subyek yang
ada pada seluruh organisasi
Data Mart
•
Sebuah bagian (subset) dari data korporat yang berguna untuk
kelompok pengguna spesifik. Ruang lingkupnya dibatasi untuk
kelompok spesifik dan terpilih, seperti Data Mart untuk marketing
•
Independent vs. dependent (langsung dari warehouse) data
mart
Virtual warehouse
•
•
Sebuah set views dari basis data operasional
Hanya beberapa dari view rangkuman yang dapat diwujudkan
16
8
27/08/2014
Data Warehouse :
Extraction Transformation Loading (ETL)
•
Ekstraksi Data: mendapatkan data dari sumber –
sumber yang banyak, beragam, dan eksternal.
•
Pembersihan data: mendeteksi kesalahan data dan
memperbaikinya apabila dimungkinkan
•
Transformasi data: mengkonversi data dari format atau
legasi dari host ke format warehouse
•
Load: menyortir, merangkum, mengkonsolidasi,
menghitung tampilan (view), dan membangun indeks
dan partisi
•
Penyegaran: mempropagasi pembaharuan dari sumber
data ke warehouse.
17
Aplikasi Data Warehouse
•
Tiga jenis aplikasi data warehouse
•
Information processing
•
•
•
mendukung querying, basic statistical analysis, dan reporting
menggunakan crosstabs, tables, charts dan graphs
Analytical processing
•
Analisis data multidimensi dari data warehouse
•
mendukung basic OLAP operations, slice-dice, drilling, pivoting
Data mining
•
Temu pengetahuan dari pola – pola tersembunyi
•
Mendukung asosiasi, konstruksi model analisis, menjalankan
klasifikasi dan prediksi, dan menyajikan hasil – hasil DM
menggunakan perangkat visualisasi.
18
9
27/08/2014
Contoh Data Karyawan
Nama
Hani
Kiki
Lina
Mari
Rima
Mira
Koko
Komar
Mario
Anisa
Kikan
Nani
Jodi
Didi
Dani
Divisi
HRD
HRD
Finance
Finance
Finance
Produksi
Produksi
Produksi
Produksi
R&D
R&D
R&D
R&D
Finance
Produksi
Gender
L
L
P
P
P
P
L
L
L
P
P
P
L
L
L
DOB
24-Nov-1972
22-Mar-1955
13-Nov-1941
29-Sep-1965
21-Apr-1945
27-Jun-1955
13-Nov-1947
28-Jun-1968
16-Nov-1938
16-Mar-1933
9-Oct-1945
13-Oct-1951
28-Apr-1956
8-Jul-1969
16-Apr-1930
DOH
11-Feb-1991
4-Mar-1985
4-Feb-1991
21-Mar-1994
1-Nov-1994
9-Apr-1990
1-May-1978
30-Jul-1990
6-Aug-1992
24-Jul-1991
1-Apr-1977
19-Jun-1989
29-Apr-1991
6-May-1991
28-Dec-1990
DOX
1-Jul-2005
1-Jul-2003
2-Oct-2007
1-Jul-2010
1-Jul-1999
1-Jul-2005
1-Jul-2003
2-Oct-2007
1-Jul-2010
8-May-1999
1-Jul-1999
1-Jul-2003
2-Oct-2007
1-Jul-2010
8-May-1999
19
Multidimensi & Visualisasi
35
Divisi
Lama Kerja
HRD
L
P
Produksi
Finance
30
L
L
25
P
P
5 - 10
20
10 - 20
15
20 - 30
10
> 30
5
Total
0
L
P
Total
HRD
PRODUKSI
FINANCE
20
10
Download