Data WareHouse

advertisement
DATA WAREHOUSE
Pertemuan ke-3
Intelligence Enterprise
Pengertian Data Warehouse
Sebuah tempat penyimpanan data yang lengkap dan konsisten yang
berasal dari sumber-sumber yang berbeda dibuat untuk
penggunanya agar mereka dapat mengerti dan menggunakannya
dalam konteks bisnis.
[Barry Davlin]
Pengertian Data Warehouse (cont’d)
Sebuah proses transformasi data ke dalam sebuah informasi dan
membuat informasi ini dapat diakses oleh penggunanya tepat
waktu untuk membuat perubahan-perubahan (strategi bisnis).
[Forrester Research, 1996]
Pengertian Data Warehouse (cont’d)
1. Berorientasi subjek,
2. Diintegrasikan,
3. Time-variant,
4. Nonvolatile,
Koleksi data untuk medukung proses pembuatan manajemen
pengambilan keputusan.
[Bill Inmon]
Pengertian Data Warehouse (cont’d)
Sean Kelly :
The data in the data warehouse is:
 Separate
 Available
 Integrated
 Time stamped
 Subject oriented
 Nonvolatile
 Accessible
Pengertian Data Warehouse (cont’d)
• Data warehouse adalah basis data yang menyimpan
data sekarang dan data masa lalu yang berasal dari
berbagai sistem operasional dan sumber yang lain
(sumber eksternal) yang menjadi perhatian penting
bagi manajemen dalam organisasi dan ditujukan
untuk keperluan analisis dan pelaporan manajemen
dalam rangka pengambilan keputusan
• Data warehouse digunakan untuk mendukung
pengambilan keputusan, bukan untuk
melaksanakan pemrosesan transaksi
• Data warehouse hanya berisi informasi-informasi
yang relevan bagi kebutuhan pemakai yang dipakai
untuk pengambilan keputusan
Pengertian Data Warehouse (cont’d)
• Data Warehouse adalah Pusat
repositori informasi yang mampu
memberikan database berorientasi
subyek untuk informasi yang
bersifat historis yang mendukung
DSS (Decision Suport System)
dan EIS (Executive Information
System).
Pengertian Data Warehouse (cont’d)
• Salinan dari transaksi data
yang terstruktur secara spesifik
pada query dan analisa.
Tujuan :
Meningkatkan kualitas dan akurasi
informasi bisnis danmengirimkan
informasi ke pemakai dalam
bentuk yang dimengerti dan dapat
diakses dengan mudah.
Perbedaan DW dan OLTP
OLTP
Data Warehouse








Menangani data saat ini
Data bisa saja disimpan pada beberapa
platform
Data diorganisasikan berdasarkan
fungsi atau operasi seperti penjualan,
produksi, dan pemrosesan pesanan
Pemrosesan bersifat berulang
Untuk mendukung keputusan harian
(operasional)
Melayani banyak pemakai operasional
Berorientasi pada transaksi






Lebih cenderung menangani data
masa lalu
Data disimpan dalam satu
platform
Data diorganisasikan menutut
subjek seperti pelkanggan atau
produk
Pemrosesan sewaktu-waktu, tak
terstruktur, dan bersifat heuristik
Untuk mendukung keputusan yang
strategis
Untuk mendukung pemakai
manajerial yang berjumlah relatif
sedikit
Berorientasi pada analisis
Sumber Data untuk DW
1. Data operasional dalam organisasi, misalnya basis
data pelanggan dan produk, dan
2. Sumber eksternal yang diperoleh misalnya melalui
Internet, basis data komersial, basis data pemasok
atau pelanggan
•
•
Berbagai data yang berasal dari sumber
digabungkan dan diproses lebih lanjut oleh manajer
data warehouse dan disimpan dalam basis data
tersendiri.
Selanjutnya, perangkat lunak seperti OLAP dan
data mining dapat digunakan oleh pemakai untuk
mengakses data warehouse
4 Karakteristik Data Warehouse
•
•
•
•
Subject oriented
Integrated
Time variant
Non-volatile
Subject Oriented
1. Data warehouse diorganisasikan dalam lingkup subjek, sebagai
contoh: Penjualan, Produk, dan Pelanggan.
2. Berfokus ke dalam pemodelan dan analisis data untuk pihak-
pihak pembuat keputusan.
3. Memisahkan data yang tidak berguna di dalam proses
pendukung keputusan.
Subject Oriented (cont’d )
• Subjek
• Aplikasi
Integrated
1. Data warehouse dikonstruksikan dengan cara mengintegrasikan
sejumlah sumber data yang berbeda.
2. Data preprocessing diaplikasikan untuk meyakinkan
kekonsistensian data.
Integrated (cont’d)
Savings
Same data
different name
Loans
Different data
Same name
Trust
Data found here
nowhere else
Credit card
Different keys
same data
Integrated (cont’d)
Encoding
Structures
Measurement
of attributes
Multiple
Sources
Data Type
Formats
Integrated (cont’d)
Data Warehouse
appl
appl
appl
appl
A - m,f
B - 1,0
C - x,y
D - male, female
appl
appl
appl
appl
A - pipeline - cm
B - pipeline - in
C - pipeline - feet
D - pipeline - yds
appl
appl
appl
appl
A - balance
B - bal
C - currbal
D - balcurr
Integrated (cont’d)
Integrated (cont’d)
Data perlu distandarkan :
Sales
Format
Description
Unit
Encoding
Key
Text
Nama pelanggan
U.N.I.J.O.Y.O
Tinggi
centimeter
Sex
Yes = Laki-laki
No = Perempuan
Inventori
Key
Integer
Nama pelanggan
UNIPAHIT
Tinggi
meter
Sex
L = laki-laki
P = Perempuan
Transaksi Penjualan
Key
Yes/No
Nama pelanggan
Universitas majapahit
Tinggi
inch
Sex
1 = Laki-laki
0 = Perempuan
Time-Variant
1. Menghasilkan informasi dari sudut pandang historical (misal:
5-10 tahun yang lalu).
2. Setiap struktur kunci mengandung elemen waktu.
Time-Variant (cont’d)
Time-Variant (cont’d)
Time-Variant (cont’d)
Operasional :
– Data pada saat ini (current value)
Datawarehouse :
– Analisa data pada masa lampau
– Informasi pada saat ini
– Forecast untuk masa yang akan datang
Nonvolatile
1. Sekali data direkam maka data tidak bisa diupdate.
2. Data warehouse membutuhkan dua operasi pengaksesan data,
yaitu:
a. Initial loading of data
b. Akses data
Nonvolatile (cont’d)
Nonvolatile (cont’d)
Operasional :
 Add, change, delete data pada sistem operasional
secara real time setiap transaksi terjadi
Datawarehouse
 Update ketika kita perlukan saja, bisa secara
periodik
Data pada DW dikhususkan untuk query
dan analisa data
Nonvolatile (cont’d)
Prinsip Data Warehouse
Sumber Data Internal
Sumber
Data
Operasional
1
Sumber
Data
Operasional
2



Manajer
Data Warehouse
Perangkat EIS
Perangkat pelaporan
Perangkat
pengembangan
aplikasi
OLAP
Sumber
Data
Eksternal
Data
Warehouse
Data Mining
Sifat Data Warehouse
•
•
Multidimensional yang berarti
bahwa terdapat banyak
lapisan kolom dan baris (Ini
berbeda dengan tabel pada
model relasional yang hanya
berdimensi dua)
Berdasarkan susunan data
seperti itu, amatlah mudah
untuk memperoleh jawaban
atas pertanyaan seperti:
“Berapakah jumlah produk 1
terjual di Jawa Tengah pada
tahun n-3?”
Tahun n-4
Tahun n-3
Tahun n-2
Tahun n-1
Jawa Tengah
Jawa Barat
Produk 3
Produk 2
Produk 1
Petunjuk Membangun DW
•
•
•
•
•
•
Menentukan misi dan sasaran bisnis bagi pembentukan data
warehouse
Mengidentifikasi data dari basis data operasional dan
sumber lain yang diperlukan bagi data warehouse
Menentukan item-item data dalam perusahaan dengan
melakukan standarisasi penamaan data dan maknanya
Merancang basis data untuk data warehouse
Membangun kebijakan dalam mengarsipkan data lama
sehingga ruang penyimpanan tak menjadi terlalu besar dan
agar pengambilan keputusan tidak menjadi terlalu lamban.
Menarik data produksi (operasional) dan meletakkan ke
basis data milik data warehouse
Data Mart
• Bagian dari data warehouse yang mendukung kebutuhan
pada tingkat departemen atau fungsi bisnis tertentu dalam
perusahaan. Karakteristik yang membedakan data mart dan
data warehouse adalah sebagai berikut (Connolly, Begg,
Strachan 1999).
– Data mart memfokuskan hanya pada kebutuhan-kebutuhan
pemakai yang terkait dalam sebuah departemen atau fungsi
bisnis.
– Data mart biasanya tidak mengandung data operasional yang
rinci seperti pada data warehouse.
– Data mart hanya mengandung sedikit informasi dibandingkan
dengan data warehouse. Data mart lebih mudah dipahami dan
dinavigasi.



Data mart = subset of DW for
community users, e.g. accounting
department
Sometimes exist as Multidimensional
Database
Info mart = summarized data + report
for community users
DATAWAREHOUSE vs DATAMART
DATAWAREHOUSE
• Perusahaan, melingkupi
semua proses
• Gabungan datamart
• Data didapat dari proses
Staging
• Merepresentasikan data
dari perusahaan atau
organisasi
• Diorganisasi dlm E-R
Model
DATAMART
 Departemen
 Satu bisnis proses
 Start-Join (fakta dan dimensi)
 Teknologinya optimal untuk
pengaksesan dan analisis
data
 Cocok untuk
merepresentasikan data
departemen
DATAWAREHOUSE vs DATAMART
• Datawarehouse = gabungan dari beberapa
datamart yang levelnya berada pada
perusahaan atau organisasi.
• Datamart = bagian dari datawarehouse
yang berada level departemen pada
perusahaan atau organisasi tersebut. Data
mart menangani sebuah business proses,
misalkan penjualan.
Data Warehousing Architecture
Monitoring & Administration
OLAP
servers
Metadata
Repository
External
Sources
Operational
dbs
Analysis
Query/
Reporting
Extract
Transform
Load
Refresh
Serv
e
Data Marts
Data
Mining
Three-Tier Architecture
 Warehouse database server
– Almost always a relational DBMS; rarely flat files
 OLAP servers
– Relational OLAP (ROLAP): extended relational DBMS
that maps operations on multidimensional data to
standard relational operations.
– Multidimensional OLAP (MOLAP): special purpose
server that directly implements multidimensional data
and operations.
 Clients
– Query and reporting tools.
– Analysis tools
– Data mining tools (e.g., trend analysis, prediction)
Two Worlds -> Two Systems
Data warehouse Component
6 Functional Components






Extract, Transform, Load (ETL) tools
DW databases & DBMS tools
Data marts
Meta data
DW administration & management
tools
Information delivery system



Data about data
Field description, business rules (e.g.
profit=? formula), log of file updates
Help users understand content &
locate data
Source data :
 Production Data  data operasional
persh.
 Internal Data  spreadsheets, dokumen, Profil
pelanggan, dan database departemen persh.
 Archived Data  data operasional yang telah
disimpan
 External Data  data statistik, penelitian
dari agenci luar, market share competitor,
indikator financial standar, dll
Data staging component
dari berbagai SO + eksternal data disimpan pd
DW yg hrs dirubah/disamakan formatnya
shg dpt disimpan u/ query & analisa
ada 3 komponen :
1. Ekstraksi data
2. Transformasi data,
3. Loading data (ETL)
Data Storage Component
Repository data warehouse terpisah dengan
repositori sistem operasional
Sistem Operasional
mendukung “day-to-day operation” (OLTP)
Data warehouse
data histori yang besar untuk kebutuhan
analisa data.
KOMPONEN METADATA
Metadata dalam Data WareHouse
=
Kamus Data/ Data Katalog dalam DBMS
(Database Management System)
Metadata
–
–
–
–
Informasi tentang logical struktur data
Informasi file dan alamatnya
Informasi index
Dll
Intinya
– Meta data = data mengenai data pada data
warehouse
Pengenalan Metadata
TIPE-TIPE METADATA
 OPERASI METADATA
 EKSTRAKSI DAN TRANSFORMASI
METADATA
 END – USER METADATA
Pengenalan Metadata
OPERASI METADATA
Terdiri dari semua informasi tentang data
sumber
Proses:
Pilih data dari sistem sumber untuk data
warehouse, pisah recordnya, gabungkan
bagian record dengan file sumber lainnya,
dan berhasil dengan skema multiple coding
dan panjang field
Pengenalan Metadata
EXTRAKSI DAN INFORMASI METADATA
Terdiri dari data dari data extraksi data dari
sistem sumber, yaitu:
 Extraction frequencies
 Extraction method
 Business rules untuk data extraction
Pengenalan Metadata
END-USER METADATA
Adalah Peta
warehouse
Navigasi pada data
Pengenalan Metadata
FUNGSI METADATA
Menggabungkan semua bagian pada data
warehouse
Menyediakan informasi tentang isi dan
struktur pada pengembang
Membuka pintu bagi end - user dan
membuat isi yang dapat dikenal oleh
mereka.
Contoh Software Data Mart
• SmartMart (IBM)
• Visual Warehouse (IBM)
• PowerMart (Informatica)
Download