data warehousing and data mining

advertisement
DATA WAREHOUSE (2nd)
Presented by HANIM M.A.
[email protected],
[email protected]
1
Acknowledgments
Abdul Kadir
S. Sudarshan (Comp. Science and Engineering
Dept, IIT, Bombay)
Anindya Datta (Georgia Institute of Technology)
DR. R. Seshadri
2
Overview
Part 1 :
Part 2 :
Part 3 :
Part 4 :
Review data, informasi
Pengenalan Data Warehouse
Karakteristik Data Warehouse
Task 1
3
Part 1: Overview
4
Data Warehouse
Data warehouse adalah basis data yang menyimpan data
sekarang dan data masa lalu yang berasal dari berbagai
sistem operasional dan sumber yang lain (sumber
eksternal) yang menjadi perhatian penting bagi manajemen
dalam organisasi dan ditujukan untuk keperluan analisis
dan pelaporan manajemen dalam rangka pengambilan
keputusan
Data warehouse digunakan untuk mendukung pengambilan
keputusan, bukan untuk melaksanakan pemrosesan
transaksi
Data warehouse hanya berisi informasi-informasi yang
relevan bagi kebutuhan pemakai yang dipakai untuk
pengambilan keputusan
5
Perbedaan DW dan OLTP
OLTP
Data Warehouse








Menangani data saat ini
Data bisa saja disimpan pada beberapa
platform
Data diorganisasikan berdasarkan
fungsi atau operasi seperti penjualan,
produksi, dan pemrosesan pesanan
Pemrosesan bersifat berulang
Untuk mendukung keputusan harian
(operasional)
Melayani banyak pemakai operasional
Berorientasi pada transaksi






Lebih cenderung menangani data
masa lalu
Data disimpan dalam satu
platform
Data diorganisasikan menutut
subjek seperti pelkanggan atau
produk
Pemrosesan sewaktu-waktu, tak
terstruktur, dan bersifat heuristik
Untuk mendukung keputusan yang
strategis
Untuk mendukung pemakai
manajerial yang berjumlah relatif
sedikit
Berorientasi pada analisis
6
Sumber Data untuk DW
1. Data operasional dalam organisasi, misalnya basis data
pelanggan dan produk, dan
2. Sumber eksternal yang diperoleh misalnya melalui
Internet, basis data komersial, basis data pemasok atau
pelanggan
Berbagai data yang berasal dari sumber digabungkan
dan diproses lebih lanjut oleh manajer data warehouse
dan disimpan dalam basis data tersendiri.
Selanjutnya, perangkat lunak seperti OLAP dan data
mining dapat digunakan oleh pemakai untuk
mengakses data warehouse
7
Prinsip Data Warehouse
Sumber Data Internal
Sumber
Data
Operasional
1
Sumber
Data
Operasional
2



Manajer
Data Warehouse
Perangkat EIS
Perangkat pelaporan
Perangkat
pengembangan
aplikasi
OLAP
Sumber
Data
Eksternal
Data
Warehouse
Data Mining
8
Part 2: Data Warehouse Architecture
9
Data Warehouse Architecture
10
Part 3: Multidimensional Data Model
11
DW and OLAP as Multidimensional
Data Model
Data warehouse dan OLAP didasarkan
pada multidimensional data model.
Model ini merepresentasikan data dalam
bentuk data cube, data dimodelkan dan
ditampilkan sebagai multiple dimension.
Data cube ini didasarkan pada dimensions
table dan facts table.
12
Multidimensional Data Model
Multidimensional yang
berarti bahwa terdapat
banyak lapisan kolom
dan baris (Ini berbeda
dengan tabel pada
model relasional yang
hanya berdimensi dua)
Berdasarkan susunan
data seperti itu, amatlah
mudah untuk
memperoleh jawaban
atas pertanyaan seperti:
“Berapakah jumlah
produk 1 terjual di Jawa
Tengah pada tahun n-3?”
Tahun n-4
Tahun n-3
Tahun n-2
Tahun n-1
Jawa Tengah
Jawa Barat
Produk 3
Produk 2
Produk 1
13
Fact Table
Merepresentasikan proses bisnis, yaitu model
proses bisnis sebagai bentuk (artifact) pada
data model.
Mengandung elemen ‘pengukuran’ atau metrik
atau fakta pada bisnis proses.


“jumlah penjualan bulanan” pada proses bisnis
Penjualan.
dll
Terdapat foreign key untuk tabel dimensi.
Berisi ribuan kolom
14
Dimension Tables
Merepresentasikan who, what, where, when and
how of sebuah pengukuran/artifact.
Merepresentasikan entities yang real, bukan
proses bisnis.
Memberikan konteks pengukuran (subject)
Sebagai contoh :
Pada tabel fakta Penjualan. Karakteristik dari
pengukuran ‘jumlah penjualan bulanan’ bisa
terdiri dari lokasi (Where), waktu (When), produk
yang terjual (What).
15
Dimension Tables
Atribut pada tabel dimensi merupakan kolom-kolom yang
ada pada tabel dimensi.
Pada tabel dimensi lokasi, atribut bisa merupakan Kode
Pos, kota, kode negara, negara, dll. Secara umum, atribut
pada tabel dimensi digunakan untuk pelaporan dengan
menggunakan batasan kueri, contoh where Country='USA'.
Atribut pada tabel dimensi juga mengandung satu atau
beberapa hierarchical relationships.
Sebelum mendesain data warehouse, harus ditentukan dulu
mengandung elemen apa saja data warehouse yang akan
dibuat. Misalkan jika ingin membuat data warehouse yang
mengandung “jumlah penjualan bulanan” yang melibatkan
semua lokasi, waktu, dan produk, maka dimensinya adalah :
Lokasi
Waktu
Product
16
3D data cube, according to the
dimension time, location, item
17
Warehouse Database Schema
Bukan ER Diagram
Design harus mencerminkan
multidimensional view



Star Schema
Snowflake Schema
Fact Constellation Schema
18
Example of a Star Schema
Order
Product
Order No
ProductNO
Order Date
ProdName
Customer
Customer No
Customer Name
Customer
Address
City
Salesperson
SalespersonID
SalespersonName
City
Quota
Fact Table
ProdDescr
OrderNO
Category
SalespersonID
CategoryDescription
CustomerNO
UnitPrice
ProdNo
Date
DateKey
DateKey
CityName
Date
Quantity
Total Price
City
CityName
State
Country
19
20
Star Schema
Model dimana data warehouse terdiri dari
satu tabel pusat yang besar (tabel fakta).
Ada satu table untuk tiap dimensi
Pada star schema, satu dimensi diwakili
oleh satu tabel dan masing-masing tabel
diwakili oleh beberapa atribut.
21
Example of a Snowflake
Schema
Order
Order No
Product
ProductNO
Order Date
ProdName
CategoryName
ProdDescr
CategoryDescr
Fact Table
Customer
Customer No
Customer Name
Customer
Address
City
Salesperson
OrderNO
SalespersonID
CustomerNO
Category
Category
UnitPrice
ProdNo
Date
DateKey
DateKey
CityName
Date
SalespersonID
Quantity
Month
City
SalespersonName
Total Price
CityName
City
Quota
Category
State
Country
Month
Month
Year
Year
Year
State
StateName
Country
22
Snowflake Schema
23
Snowflake Schema
Ada mekanisme normalisasi tabel dimensi
Mudah untuk dimaintain
Butuh kapasitas penyimpanan yang relatif
lebih kecil
Efektifitas browsing/select data berkurang
karena harus melibatkan banyak kueri dari
berbagai macam tabel
24
Fact Constellation
25
Fact Constellation
Fact Constellation


Ada beberapa tabel fakta yang digunakan
bersama-sama (share) beberapa tabel
dimensi.
Dapat berupa kumpulan skema star
26
Data Warehouse
Data warehouse dapat dibangun sendiri dengan
menggunakan perangkat pengembangan
aplikasi ataupun dengan menggunakan
perangkat lunak khusus yang ditujukan untuk
menangani hal ini
Beberapa contoh perangkat lunak yang
digunakan untuk administrasi dan manajemen
data warehouse:
 HP Intelligent Warehouse (Hewlett Packard)
 FlowMark (IBM)
 SourcePoint (Software AG)
27
Petunjuk Membangun DW
Menentukan misi dan sasaran bisnis bagi
pembentukan data warehouse
Mengidentifikasi data dari basis data operasional dan
sumber lain yang diperlukan bagi data warehouse
Menentukan item-item data dalam perusahaan
dengan melakukan standarisasi penamaan data dan
maknanya
Merancang basis data untuk data warehouse
Membangun kebijakan dalam mengarsipkan data
lama sehingga ruang penyimpanan tak menjadi terlalu
besar dan agar pengambilan keputusan tidak menjadi
terlalu lamban.
Menarik data produksi (operasional) dan meletakkan
ke basis data milik data warehouse
28
Data Mart
Bagian dari data warehouse yang mendukung kebutuhan
pada tingkat departemen atau fungsi bisnis tertentu dalam
perusahaan. Karakteristik yang membedakan data mart
dan data warehouse adalah sebagai berikut (Connolly,
Begg, Strachan 1999).



Data mart memfokuskan hanya pada kebutuhan-kebutuhan
pemakai yang terkait dalam sebuah departemen atau fungsi bisnis.
Data mart biasanya tidak mengandung data operasional yang rinci
seperti pada data warehouse.
Data mart hanya mengandung sedikit informasi dibandingkan
dengan data warehouse. Data mart lebih mudah dipahami dan
dinavigasi.
29
Contoh Software Data Mart
SmartMart (IBM)
Visual Warehouse (IBM)
PowerMart (Informatica)
30
OLAP
OnLine Analytical Processing
Suatu jenis pemrosesan yang
memanipulasi dan menganalisa data
bervolume besar dari berbagai perspektif
(multidimensi). OLAP seringkali disebut
analisis data multidimensi.
31
OLAP (Lanjutan…)
Data multidimensi adalah data yang dapat
dimodelkan sebagai atribut dimensi dan
atribut ukuran
Contoh atribut dimensi adalah nama
barang dan warna barang, sedangkan
contoh atribut ukuran adalah jumlah
barang
32
OLAP : Contoh Data 2 Dimensi
Kota à
Triwulan â
1
2
3
4
…
Kudus
Magelang Semarang
6.000.000
4.500.000
7.600.000
5.400.000
8.500.000 12.500.000 …
3.500.000 14.000.000 …
5.500.000 13.700.000 …
7.200.000 12.800.00 …
33
Kemampuan OLAP
Konsolidasi (roll up) melibatkan pengelompokan data.
Sebagai contoh kantor-kantor cabang dapat
dikelompokkan menurut kota atau bahkan propinsi.
Transaksi penjualan dapat ditinjau menurut tahun,
triwulan, bulan, dan sebagainya. Kadangkala istilah
rollup digunakan untuk menyatakan konsolidasi
Drill-down adalah suatu bentuk yang merupakan
kebalikan dari konsolidasi, yang memungkinkan data
yang ringkas dijabarkan menjadi data yang lebih detail
Slicing and dicing (atau dikenal dengan istilah pivoting)
menjabarkan pada kemampuan untuk melihat data dari
berbagai sudut pandang
34
Contoh Tabel Pivoting
Rasa
Sirup
Biasa
Rendah
Kalori
Total
Strawberry Mangga
Nanas
Total
3.500.000 1.750.000
500.000 5.750.000
2.300.000 1.500.000
5.800.000 3.250.000
250.000 4.050.000
750.000 9.800.000
Sirup
Biasa
Biasa
Biasa
Rendah Kalori
Rendah Kalori
Rendah Kalori
Rasa
Strawberry
Mangga
Nanas
Strawberry
Mangga
Nanas
Pendapatan
3.500.000
1.750.000
500.000
2.300.000
1.500.000
250.000
35
Hierarki Dimensi untuk Drill-down
Nama Hari
Tahun
Wilayah
Triwulan
Negara
Bulan
Provinsi
Kota
Tanggal
Kecamatan
(a) Hierarki Waktu
(b) Hierarki Lokasi
36
Software OLAP
Express Server (Oracle)
PowerPlay (Cognos Software)
Metacube (Informix/Stanford Technology
Group)
HighGate Project (Sybase)
37
Download