data warehousing and data mining - E

advertisement
ND
DATA WAREHOUSE (2 )
Presented by HANIM M.A – M. IRWAN
AFANDI.
[email protected],
[email protected]
[email protected]
1
ACKNOWLEDGMENTS
Abdul Kadir
 S. Sudarshan (Comp. Science and Engineering Dept,
IIT, Bombay)
 Anindya Datta (Georgia Institute of Technology)
 DR. R. Seshadri

2
OVERVIEW
Part 1 :
 Part 2 :
 Part 3 :
 Part 4 :

Review data, informasi
Pengenalan Data Warehouse
Karakteristik Data Warehouse
Task 1
3
PART 1: OVERVIEW
4
DATA WAREHOUSE



Data warehouse adalah basis data yang menyimpan
data sekarang dan data masa lalu yang berasal dari
berbagai sistem operasional dan sumber yang lain
(sumber eksternal) yang menjadi perhatian penting
bagi manajemen dalam organisasi dan ditujukan untuk
keperluan analisis dan pelaporan manajemen dalam
rangka pengambilan keputusan
Data warehouse digunakan untuk mendukung
pengambilan keputusan, bukan untuk melaksanakan
pemrosesan transaksi
Data warehouse hanya berisi informasi-informasi yang
relevan bagi kebutuhan pemakai yang dipakai untuk
pengambilan keputusan
5
PERBEDAAN DW (OLAP) DAN DB(OLTP)
Database (OLTP)
Data Warehouse (OLAP)








Menangani data saat ini
Data bisa saja disimpan pada beberapa
platform
Data diorganisasikan berdasarkan
fungsi atau operasi seperti penjualan,
produksi, dan pemrosesan pesanan
Pemrosesan bersifat berulang
Untuk mendukung keputusan harian
(operasional)
Melayani banyak pemakai operasional
Berorientasi pada transaksi






Lebih cenderung menangani data
masa lalu
Data disimpan dalam satu
platform
Data diorganisasikan menutut
subjek seperti pelkanggan atau
produk
Pemrosesan sewaktu-waktu, tak
terstruktur, dan bersifat heuristik
Untuk mendukung keputusan yang
strategis
Untuk mendukung pemakai
manajerial yang berjumlah relatif
sedikit
Berorientasi pada analisis
6
SUMBER DATA UNTUK DW
1.
2.


Data operasional dalam organisasi, misalnya
basis data pelanggan dan produk, dan
Sumber eksternal yang diperoleh misalnya melalui
Internet, basis data komersial, basis data
pemasok atau pelanggan
Berbagai data yang berasal dari sumber
digabungkan dan diproses lebih lanjut oleh
manajer data warehouse dan disimpan dalam
basis data tersendiri.
Selanjutnya, perangkat lunak seperti OLAP dan
data mining dapat digunakan oleh pemakai untuk
mengakses data warehouse
7
PRINSIP DATA WAREHOUSE
8
PART 2: DATA WAREHOUSE ARCHITECTURE
9
DATA WAREHOUSE ARCHITECTURE
10
Data Warehouse: A Multi-Tiered Architecture
Other
sources
Operational
DBs
Metadata
Extract
Transform
Load
Refresh
Monitor
&
Integrator
Data
Warehouse
OLAP Server
Serve
Analysis
Query
Reports
Data mining
Data Marts
Data Sources
Data Storage
OLAP Engine Front-End Tools
11
PART 3: MULTIDIMENSIONAL DATA MODEL
12
DW AND OLAP AS
MULTIDIMENSIONAL DATA MODEL
Data warehouse dan OLAP didasarkan
pada multidimensional data model.
 Model ini merepresentasikan data dalam
bentuk data cube, data dimodelkan dan
ditampilkan sebagai multiple dimension.
 Data cube ini didasarkan pada
dimensions table dan facts table.

13
MULTIDIMENSIONAL DATA MODEL


Multidimensional yang
berarti bahwa terdapat
banyak lapisan kolom dan
baris (Ini berbeda dengan
tabel pada model
relasional yang hanya
berdimensi dua)
Berdasarkan susunan
data seperti itu, amatlah
mudah untuk memperoleh
jawaban atas pertanyaan
seperti: “Berapakah
jumlah produk 1 terjual di
Jawa Tengah pada tahun
n-3?”
Tahun n-4
Tahun n-3
Tahun n-2
Tahun n-1
Jawa Tengah
Jawa Barat
Produk 3
Produk 2
Produk 1
14
Slice locid=1
is shown:
pid
11 12 13
Kumpulan dari measures numerik, yang
bergantung pada sekumpulah
dimensions.
 Cnth: measure Sales, dimensions
Product (key: pid), Location (locid),
and Time (timeid).
locid
sales
pid
timeid
Multidimensional Data Model
11 1 1 25
11 2 1 8
11 3 1 15
12 1 1 30
12 2 1 20
12 3 1 50
8
10
10
13 1 1 8
30
20
50
13 2 1 10
25
8
15
13 3 1 10
1
2
3
timeid
locid
11 1 2 35
15
FACT TABLE


Merepresentasikan proses bisnis, yaitu model
proses bisnis sebagai bentuk (artifact) pada data
model.
Mengandung elemen ‘pengukuran’ atau metrik
atau fakta pada proses bisnis.
“jumlah penjualan bulanan” pada proses bisnis
Penjualan.
 dll



Terdapat foreign key untuk tabel dimensi.
Berisi ribuan kolom
16
DIMENSION TABLES




Merepresentasikan who, what, where, when and
how of sebuah pengukuran/artifact.
Merepresentasikan entities yang real, bukan
proses bisnis.
Memberikan konteks pengukuran (subject)
Sebagai contoh :
Pada tabel fakta Penjualan. Karakteristik dari
pengukuran ‘jumlah penjualan bulanan’ bisa terdiri
dari lokasi (Where), waktu (When), produk yang
terjual (What).
17
DIMENSION TABLES



Atribut pada tabel dimensi merupakan kolom-kolom yang ada
pada tabel dimensi.
Pada tabel dimensi lokasi, atribut bisa merupakan Kode Pos,
kota, kode negara, negara, dll. Secara umum, atribut pada
tabel dimensi digunakan untuk pelaporan dengan
menggunakan batasan kueri, contoh where Country='USA'.
Atribut pada tabel dimensi juga mengandung satu atau
beberapa hierarchical relationships.
Sebelum mendesain data warehouse, harus ditentukan dulu
mengandung elemen apa saja data warehouse yang akan
dibuat. Misalkan jika ingin membuat data warehouse yang
mengandung “jumlah penjualan bulanan” yang melibatkan
semua lokasi, waktu, dan produk, maka dimensinya adalah :
Lokasi
Waktu
Product
18
3D DATA CUBE, ACCORDING TO THE
DIMENSION TIME, LOCATION, ITEM
19
WAREHOUSE DATABASE SCHEMA
Bukan ER Diagram
 Design harus mencerminkan multidimensional
view

 Star
Schema
 Snowflake Schema
 Fact Constellation Schema
20
EXAMPLE OF A STAR SCHEMA
Order
Product
Order No
ProductNO
Order Date
ProdName
Customer
Customer No
Customer Name
Customer
Address
City
Salesperson
SalespersonID
SalespersonName
City
Quota
Fact Table
ProdDescr
OrderNO
Category
SalespersonID
CategoryDescription
CustomerNO
UnitPrice
ProdNo
Date
DateKey
DateKey
CityName
Date
Quantity
Total Price
City
CityName
State
Country
21
22
STAR SCHEMA
Model dimana data warehouse terdiri dari satu
tabel pusat yang besar (tabel fakta).
 Ada satu table untuk tiap dimensi
 Pada star schema, satu dimensi diwakili oleh
satu tabel dan masing-masing tabel diwakili
oleh beberapa atribut.

23
Example of a Snowflake
Schema
Order
Order No
Product
ProductNO
Order Date
ProdName
CategoryName
ProdDescr
CategoryDescr
Fact Table
Customer
Customer No
Customer Name
Customer
Address
City
Salesperson
OrderNO
SalespersonID
CustomerNO
Category
Category
UnitPrice
ProdNo
Date
DateKey
DateKey
CityName
Date
SalespersonID
Quantity
Month
City
SalespersonName
Total Price
CityName
City
Quota
Category
State
Country
Month
Month
Year
Year
Year
State
StateName
Country
24
SNOWFLAKE SCHEMA
25
SNOWFLAKE SCHEMA
Ada mekanisme normalisasi tabel dimensi
 Mudah untuk dimaintain
 Butuh kapasitas penyimpanan yang relatif lebih
kecil
 Efektifitas browsing/select data berkurang
karena harus melibatkan banyak kueri dari
berbagai macam tabel

26
FACT CONSTELLATION
27
FACT CONSTELLATION

Fact Constellation
 Ada
beberapa tabel fakta yang digunakan bersamasama (share) beberapa tabel dimensi.
 Dapat berupa kumpulan skema star
28
GUIDELINE PERTEMUAN 3

Lanjutan model multidimensi
 Hirarki
 Ulasan


tentang hirarki waktu
OLAP dan kemampuan OLAP
Latihan Modeling
 Membuat
model untuk OLTP
 Membuat model untuk OLAP
29
Hirarki Dimensi
Untuk setiap dimensi, kumpulan nilai-nilai
bisa diatur dalam hirarki:
PRODUCT
TIME
LOCATION
year
quarter
category
pname
week
month
date
country
state
city
30
DATA WAREHOUSE


Data warehouse dapat dibangun sendiri dengan
menggunakan perangkat pengembangan aplikasi
ataupun dengan menggunakan perangkat lunak
khusus yang ditujukan untuk menangani hal ini
Beberapa contoh perangkat lunak yang digunakan
untuk administrasi dan manajemen data
warehouse:
 HP Intelligent Warehouse (Hewlett Packard)
 FlowMark (IBM)
 SourcePoint (Software AG)
31
PETUNJUK MEMBANGUN DW






Menentukan misi dan sasaran bisnis bagi pembentukan
data warehouse
Mengidentifikasi data dari basis data operasional dan
sumber lain yang diperlukan bagi data warehouse
Menentukan item-item data dalam perusahaan dengan
melakukan standarisasi penamaan data dan maknanya
Merancang basis data untuk data warehouse
Membangun kebijakan dalam mengarsipkan data lama
sehingga ruang penyimpanan tak menjadi terlalu besar
dan agar pengambilan keputusan tidak menjadi terlalu
lamban.
Menarik data produksi (operasional) dan meletakkan ke
basis data milik data warehouse
32
DATA MART

Bagian dari data warehouse yang mendukung kebutuhan
pada tingkat departemen atau fungsi bisnis tertentu dalam
perusahaan. Karakteristik yang membedakan data mart dan
data warehouse adalah sebagai berikut (Connolly, Begg,
Strachan 1999).



Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai
yang terkait dalam sebuah departemen atau fungsi bisnis.
Data mart biasanya tidak mengandung data operasional yang rinci
seperti pada data warehouse.
Data mart hanya mengandung sedikit informasi dibandingkan dengan
data warehouse. Data mart lebih mudah dipahami dan dinavigasi.
33
CONTOH SOFTWARE DATA MART
SmartMart (IBM)
 Visual Warehouse (IBM)
 PowerMart (Informatica)

34
OLAP
OnLine Analytical Processing
 Suatu jenis pemrosesan yang memanipulasi
dan menganalisa data bervolume besar dari
berbagai perspektif (multidimensi). OLAP
seringkali disebut analisis data multidimensi.

35
OLAP (LANJUTAN…)
Data multidimensi adalah data yang dapat
dimodelkan sebagai atribut dimensi dan atribut
ukuran
 Contoh atribut dimensi adalah nama barang
dan warna barang, sedangkan contoh atribut
ukuran adalah jumlah barang

36
OLAP : CONTOH DATA 2 DIMENSI
Kota а
Triwulan в
1
2
3
4
…
Kudus
Magelang Semarang
6.000.000
4.500.000
7.600.000
5.400.000
8.500.000 12.500.000 …
3.500.000 14.000.000 …
5.500.000 13.700.000 …
7.200.000 12.800.00 …
37
KEMAMPUAN OLAP



Konsolidasi (roll up) melibatkan pengelompokan data. Sebagai
contoh kantor-kantor cabang dapat dikelompokkan menurut
kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau
menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala
istilah rollup digunakan untuk menyatakan konsolidasi
Drill-down adalah suatu bentuk yang merupakan kebalikan dari
konsolidasi, yang memungkinkan data yang ringkas dijabarkan
menjadi data yang lebih detail
Slicing and dicing (atau dikenal dengan istilah pivoting)
menjabarkan pada kemampuan untuk melihat data dari
berbagai sudut pandang
38
CONTOH TABEL PIVOTING
Rasa
Sirup
Biasa
Rendah
Kalori
Total
Strawberry Mangga
Nanas
Total
3.500.000 1.750.000
500.000 5.750.000
2.300.000 1.500.000
5.800.000 3.250.000
250.000 4.050.000
750.000 9.800.000
Sirup
Biasa
Biasa
Biasa
Rendah Kalori
Rendah Kalori
Rendah Kalori
Rasa
Strawberry
Mangga
Nanas
Strawberry
Mangga
Nanas
Pendapatan
3.500.000
1.750.000
500.000
2.300.000
1.500.000
250.000
39
HIERARKI DIMENSI UNTUK DRILL-DOWN
Nama Hari
Tahun
Wilayah
Triwulan
Negara
Bulan
Provinsi
Kota
Tanggal
Kecamatan
(a) Hierarki Waktu
(b) Hierarki Lokasi
40
SOFTWARE OLAP
Express Server (Oracle)
 PowerPlay (Cognos Software)
 Metacube (Informix/Stanford Technology
Group)
 HighGate Project (Sybase)
 MondrianOLAP – now part of Pentaho Project

41
LATIHAN DI KELAS
Latihan Membuat model untuk OLTP
 Latihan Membuat model untuk OLAP

42
CASE STUDY




The Monash Main Bookshop adalah mitra pemasok buku pelajaran
kepada mahasiswa untuk kelas-kelas yang diselenggarakan di lima
kampus milik universitas. The Monash Main Bookshop memiliki toko
cabang yang terletak di setiap kampus.
Beberapa minggu sebelum awal semester setiap departemen
akademik mengirimkan informasi kepada Monash Main Bookshop
tentang mata kuliah yang akan ditawarkan di kampus masing-masing
pada semester berikutnya. Untuk setiap mata pelajaran Monash Main
Bookshop membutuhkan rincian pendaftaran mahasiswa yang
diproyeksikan di setiap kampus, buku-buku teks yang dibutuhkan, dan
semua dosen untuk setiap mata pelajaran.
Staf Main Bookshop kemudian mempersiapkan pesanan pembelian
(PO) yang dikirim ke berbagai penerbit yang memasok buku-buku
pelajaran. Departemen akademik akan diberikan informasi mengenai
buku yang tidak tersedia, sehingga buku teks alternatif dapat dipesan.
Pesanan buku tiba di toko buku kampus cabang yang tepat disertai
dengan slip pengepakan. Slip pengepakan tersebut kemudian
diverifikasi oleh staf toko buku. Jika pesanan yang disampaikan sudah
benar, departemen akademik yang terkait ditagih oleh toko buku untuk
buku-buku pelajaran yang mereka telah pesan.
43
TUGAS KELOMPOK 1

Cari studi kasus (case study) untuk ERD Modeling. Tulis
alamat webnya dalam file doc(x) dan beri nama
“kelompokxx-kelas-tugas1.doc(x)” dan kirimkan ke FB
saya (mohamad afandi) melalui pesan maksimal :
Selasa, 18 maret 2014, sebelum jam 09.30 (Kelas B),
 Kamis, 20 Maret 2014 sebelum jam 13.00 (Kelas A)
untuk saya setujui/tidak setujui.


Pantau reply saya melalui pesan FB maksimal sampai:



Selasa,18/3/2014, 10.30. (Kelas B)
Kamis, 20/3/2014, 14.00 (Kelas A)
Jika sudah disetujui, lanjutkan dengan membuat ERDnya untuk dikumpulkan maksimal senin, 24 maret
2014, 09.30 melalui Dropbox. Format penamaan file
sama dengan di atas.
44
TUGAS KELOMPOK 2
45
Download