BASIS DATA LANJUTAN Distributed Database Why A

advertisement
12/23/2010
Distributed Database
BASIS DATA LANJUTAN


Why A Distributed Database?

Basis data terdistribusi adalah kumpulan
database yang disimpan di banyak komputer
pada lokasi yang berbedaberbeda-beda dan
menampilkan ke user sebagai single database
Komputer--komputer tersebut terhubung dengan
Komputer
jaringan dan user dapat mengkases,
mengupdate dan memodifikasi data pada
database melalui jaringan
Homogenous Distributed Database
Distribution and autonomy of business units
divisi dan departemen dari suatu organisasi tersebar
secara geografis

Data sharing
proses sharing data harus dilakukan secara mudah dan
tepat

Data communications costs and reliability
proses pertukaran data dalam jumlah yang besar
melalui jaringan membutuhkan biaya yang besar dan
berpengaruh pada performance jaringan
Homogenous Distributed Database
(2)



Menggambarkan sistem terdistribusi yang
mengkoneksikan 3 database hq, mfg, dan sales
User dapat mengakses atau memodifikasi data
pada beberapa database pada suatu lingkungan
terdistribusi
Misalnya manufacturing melakukan join antara
tabel yang ada di local database mfg dengan
tabel yang berada di database hq (remote
access)
Heterogeneous Distributed
Database

Oracle Database server mengakses
non--Oracle Database system
non
menggunakan Oracle Heterogeneous
Services:
- Oracle Transparent Gateway
- Generic Connectivity (ODBC,OLEDB)
1
12/23/2010
Data Warehouse


Data warehouse adalah relasional database yang
didesain untuk proses query dan analisa
Meliputi: extraction, transportation,
transformation, loading solution, online
analytical processing (OLAP),client analysis tool,
dan aplikasi lain yang mengatur proses
pengumpulan data dan mengirimkan ke
business user
Data Warehouse


Data warehouse didesain untuk proses
analisa data
Contoh: data penjualan pada suatu
perusahaan. Dengan data warehouse
maka dapat menjawab pertanyaan
“siapakah customer terbesar pada akhir
pada akhir tahun?”
Data warehouve vs OLTP
(Online Transaction Processing)
Data warehouve vs OLTP

Workload



Data modification


Salah satu perbedaan utama data warehouse dengan OLTP adalah
data warehouse tidak selalu dalam bentuk normal ketiga (3NF),
sedangkan OLTP biasanya dalam bentuk normal ketiga (3NF)
Data warehouve vs OLTP

Data warehouse diupdate data secara regular (setiap
minggu atau setiap hari) menggunakan teknik modifikasi
data sehingga user tidak secara langsung mengupdate
data warehouse
Pada OLTP, user melakukan proses update data secara
rutin dan langsung
Schema Design


Data warehouse biasanya ternormalisai secara sebagian
bahkan dalam keadaan tidak ternormalisasi
OLTP ternormalisasi penuh untuk meningkatkan proses
update/insert/delete dan meningkatkan konsistensi data
Arsitektur data warehouse
Typical operation




Data warehouse didesain untuk menampung query dalam
jumlah yang besar
OLTP hanya mendukung operasi tertentu
Data warehouse menjalankan query yang memproses
banyak baris (ratusan atau milyaran), contoh :total
penjualan semua customer pada akhir bulan
OLTP hanya mengkases record tertentu, contoh :mencari
data order untuk customer tertentu
Historical data


Data warehouse menyimpan data selama beberapa bulan
atau tahun. Hal ini mendukung proses historical analysis
OLTP menyimpan data hanya beberapa minggu atau bulan
End user secara langsung mengakses data dari beberapa sistem
melalui data warehouse
2
12/23/2010
Data Mining



Suatu metode yang digunakan untuk mengekstrak
pola dari suatu data
Nama lain: Knowledge Discovery in Database (KDD)
Proses KDD:
Application Data Mining

Data analysis and decision support

Managemen dan analisa pasar


Managemen dan analisa resiko





Identifikasi masalah
Menyiapkan data
Membangun model data (data mining)
Menggunakan dan memonitoring model








Association, menemukan hubungan dan korelasi antara berbagai
data item
Classification, menganalisa data percobaan dan membangun
model berdasarkan fitur dari data
Prediction, memprediksi nilainilai-nilai yang mungkin terjadi dari data
yang hilang atau distribusi nilai dari atribut tertentu dalam
kumpulan obyek
Clustering,, mengidentifikasi cluster yang tersimpan dalam data,
Clustering
dimana cluster tersebut merupakan kumpulan data yang memiliki
kesamaan dengan yang lain
Time--series analysis,
Time
analysis, mencari urutan kesamaan, pola (pattern),
periode dan deviasi
Rules

Decision Trees




Product F
Product A
Web
Classification and regression
classification menghasilkan data categorical dan
regression menghasilkan data numeric
Clustering
menggunakan algoritma kk-mean, kk-median
Association
menemukan pola pada data transaksional.
Berhubungan dengan market basket analysis
Keunggulan


Text mining (news group, email, documents) and
Web mining
Stream data mining
DNA and biobio-data analysis
Data Mining Method’s
What Kind of Output?

Forecasting, improved underwriting, quality control,
competitive analysis
Other Applications

Data Mining Task’s
Target marketing, customer relationship management (CRM),
market basket analysis, cross selling, market segmentation

penyimpanan database besar, dalam
hitungan megabyte, gigabyte, terabyte
Relationship yang komplek antar field.
Gabungan antara data numerical dan
categorical
Skalabilitas tinggi.
Product C
Product E
Product B
Product G
Product D
3
Download