data warehousing and data mining - E

advertisement
INTRODUCTION OF DATA WAREHOUSE
1
Presented by HANIM M.A – M. IRWAN AFANDI.
[email protected], [email protected],
[email protected]
2
Acknowledgments
S. Sudarshan (Comp. Science and Engineering Dept,
IIT, Bombay)
 Anindya Datta (Georgia Institute of Technology)

3
Overview
Part 1 :
 Part 2 :
 Part 3 :
 Part 4 :

Review data, informasi
Pengenalan Data Warehouse
Karakteristik Data Warehouse
Task 1
Part 1: Review Data, Informasi
4
5
Data vs Information
 Data
terdiri dari fakta dan angka yang relatif
tidak mempunyai arti bagi pemakai
 Informasi adalah data yang telah diolah
sehingga mempunyai arti yang lebih bagi
pemakai
Part 2: Pengenalan Data Warehouse
6
Data is everywhere
yet ...

Saya tidak bisa menemukan data yang saya
cari
◦
◦

Tidak bisa mendapatkan data yang
diperlukan
◦

perlu orang yang expert untuk mendapatkan data
tersebut
Data sudah ditemukan, tapi tidak mengerti
maksud data tersebut
◦

data tersebar dimana-mana (lintas jaringan)
menggunakan versi yang berbeda
dokumentasi data yang kacau
Data sudah ditemukan, tapi saya tidak bisa
menggunakannya
◦
◦
hasil data yang tidak terduga
7
data perlu ditransformasi dari bentuk satu ke bentuk
What is a Data Warehouse?
basis data yang menyimpan data
sekarang dan data masa lalu yang
berasal dari berbagai sistem
operasional dan sumber yang lain
(sumber eksternal) yang menjadi
perhatian penting bagi manajemen
dalam organisasi dan ditujukan untuk
keperluan analisis dan pelaporan
manajemen
dalam
rangka
pengambilan keputusan
8
Why Data Warehousing?
9
Konsumen mana
yg memiliki
margin tinggi/rendah?
Siapa saja konsumen saya
dan produk apa saja yang
mereka beli?
Jalur distribusi apa
yang paling
efektif?
Promosi produk apa
yang paling berpengaruh
terhadap penghasilan
perusahaan?
Konsumen mana yang
senang mengikuti
berbagai kompetisi
perusahaan?
Apa dampak/pengaruh
produk/layanan baru
terhadap penghasilan
perusahaan dan margin?
10
It’s all related with “Decision Support”
Untuk mengatur dan mengontrol bisnis
 Datanya bersifat historical (past-now)
 Mengoptimalkan penyelidikan/analisa dari pada update
 Digunakan oleh manager dan end-users untuk memahami bisnisnya
dan membuat keputusan/keputusan
 On-Line Analytical Processing (OLAP) merupakan elemen dari
Decision Support System (DSS)

What are the users saying...




Data yang tersebar di
perusahaan harus diintegrasikan
Summary data memiliki nilai yang
nyata bagi perusahaan
Data histori memegang peranan
penting dalam memahami data
Memerlukan kemampuan What-If
11
Data Warehousing -It is a process to
 Teknik untuk mengumpulkan dan
memanage data dari berbagai sumber
dengan tujuan untuk menjawab
permasalahan bisnis. Shg perusahaan
mampu membuat keputusan yang
sebelumnya tidak mungkin dilakukan.
 Database pengambilan keputusan ini
didapatkan dari database operasional
perusahaan dari berbagai lokasi yang
terpisah-pisah.
12
13
Traditional RDBMS used for OLTP
 Sistem
database yang digunakan untuk OLTP
proses yang berhubungan dengan clerical data
 detail, datanya up to date
 read/update sedikit record
 Pemisahan, recovery, dan integritas data

 Disebut
juga transaksi operasional
14
OLTP: roda penggerak organisasi
OLAP: mengawasi gerak roda
OLTP vs OLAP
users
function
DB design
OLTP
clerk, IT professional
day to day operations
application-oriented (E-R
based)
data
current, up-to-date
detailed, flat relational
isolated
usage
repetitive
access
read/write
index/hash on prim. key
unit of work
short, simple transaction
# records accessed tens
#users
thousands
DB size
100MB-GB
metric
transaction throughput
OLAP
knowledge worker
decision support
subject-oriented (star,
snowflake)
historical,
summarized, multidimensional
integrated, consolidated
ad-hoc
lots of scans/read mostly
complex query
millions
hundreds
100GB-TB
query throughput, response
15
Increasing potential
to support
business decisions
Making
Decisions
Data Presentation
End User
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
Business
Analyst
Data
Analyst
DBA
16
Characteristics of Data Warehouse
Data warehouse merupakan
kumpulan data yang subject-oriented,
integrated, time-variant, dan
nonvolatile yang menunjang
manajemen dalam proses
pengambilan keputusan.
17
Data Warehouse-Subject Oriented
 Fokusnya pada subjek utama dalam proses bisnis perusahaan,
seperti customer, product, dan sales (penjualan).
 Fokus pada memodelkan dan
menganalisa data yang akan
digunakan oleh para pengambil keputusan, bukan pada operasi
harian atau proses transaksional (transaction processing)
 Provide view yang simple dan
ringkas atas persoalan dengan
subjek tertentu dengan membuang data yang tidak berguna untuk
proses pengambilan keputusan.
18
Data Warehouse-Integrated
 Didapatkan dengan mengintegrasikan multiple data,
dari sumber data yang berbeda-beda
(heterogeneous data source)

relational databases, flat files, on-line transaction records
 Menggunakan teknik Data cleaning and data
integration

Memastikan konsistensi pada struktur encoding,
pengukuran atribut, dll diantara data source yang berbeda.


E.g., Hotel price: currency, tax, breakfast covered, etc.
Ketika data dipindah ke data warehouse, data sudah
berubah sesuai keinginan.
19
Data Warehouse-Time Variant
 Dari segi waktu, data warehouse memiliki waktu
yang lebih lama dari pada operational system
(transaksi operasional)


Operational database: current value data (sekarang)
Data warehouse data: historical data (5-10 tahun)
 Tiap struktur di data warehouse :


Mengandung elemen waktu
Sedangkan data operasional bisa mengandung elemen
‘time’ atau tidak.
20
Data Warehouse-Non Volatile
 Sekali
masuk kedalam data warehouse, data-data,
terutama data tipe transaksi, tidak akan pernah di
update atau dihapus (delete)
21
Tugas Individu 1
Cari, baca dan pahami materi terkait DW dan OLAP
Buat tulisan 1 halaman yg intinya menjawab
pertanyaan berikut:


◦
◦


DW: apa, kenapa ada, buat siapa, digunakan untuk
apa, bagaimana bisa digunakan?
DW: apa beda OLTP dan OLAP, jelaskan dengan
bahasa sendiri
Tugas diketik dalam word dan disimpan dengan
format: npm-kelas-tugas-individu-1.docx , kemudian
disubmit melalui DropBox Elearning – Data Warehouse
2013/2014… paling lambat Senin, 17/03/2014, sebelum
jam 09.30 (jam sistem e-learning).
Keterlambatan maksimum 24 jam dan mendapat
penalti 50 % dari nilai total
22
Tugas Baca pertemuan
berikutnya(2) – untuk diskusi
 Cari,

baca materi terkait dengan :
Arsitektur data warehouse
 Sumber
data dari data warehouse
 Manajemen data warehouse
 Aplikasi pengguna data warehouse

Pemodelan data multidimensi
Download