INTRODUCTION OF DATA WAREHOUSE 1 Presented by HANIM M.A – M. IRWAN AFANDI. [email protected], [email protected], [email protected] 2 Acknowledgments S. Sudarshan (Comp. Science and Engineering Dept, IIT, Bombay) Anindya Datta (Georgia Institute of Technology) 3 Overview Part 1 : Part 2 : Part 3 : Part 4 : Review data, informasi Pengenalan Data Warehouse Karakteristik Data Warehouse Task 1 Part 1: Review Data, Informasi 4 5 Data vs Information Data terdiri dari fakta dan angka yang relatif tidak mempunyai arti bagi pemakai Informasi adalah data yang telah diolah sehingga mempunyai arti yang lebih bagi pemakai Part 2: Pengenalan Data Warehouse 6 Data is everywhere yet ... Saya tidak bisa menemukan data yang saya cari ◦ ◦ Tidak bisa mendapatkan data yang diperlukan ◦ perlu orang yang expert untuk mendapatkan data tersebut Data sudah ditemukan, tapi tidak mengerti maksud data tersebut ◦ data tersebar dimana-mana (lintas jaringan) menggunakan versi yang berbeda dokumentasi data yang kacau Data sudah ditemukan, tapi saya tidak bisa menggunakannya ◦ ◦ hasil data yang tidak terduga 7 data perlu ditransformasi dari bentuk satu ke bentuk What is a Data Warehouse? basis data yang menyimpan data sekarang dan data masa lalu yang berasal dari berbagai sistem operasional dan sumber yang lain (sumber eksternal) yang menjadi perhatian penting bagi manajemen dalam organisasi dan ditujukan untuk keperluan analisis dan pelaporan manajemen dalam rangka pengambilan keputusan 8 Why Data Warehousing? 9 Konsumen mana yg memiliki margin tinggi/rendah? Siapa saja konsumen saya dan produk apa saja yang mereka beli? Jalur distribusi apa yang paling efektif? Promosi produk apa yang paling berpengaruh terhadap penghasilan perusahaan? Konsumen mana yang senang mengikuti berbagai kompetisi perusahaan? Apa dampak/pengaruh produk/layanan baru terhadap penghasilan perusahaan dan margin? 10 It’s all related with “Decision Support” Untuk mengatur dan mengontrol bisnis Datanya bersifat historical (past-now) Mengoptimalkan penyelidikan/analisa dari pada update Digunakan oleh manager dan end-users untuk memahami bisnisnya dan membuat keputusan/keputusan On-Line Analytical Processing (OLAP) merupakan elemen dari Decision Support System (DSS) What are the users saying... Data yang tersebar di perusahaan harus diintegrasikan Summary data memiliki nilai yang nyata bagi perusahaan Data histori memegang peranan penting dalam memahami data Memerlukan kemampuan What-If 11 Data Warehousing -It is a process to Teknik untuk mengumpulkan dan memanage data dari berbagai sumber dengan tujuan untuk menjawab permasalahan bisnis. Shg perusahaan mampu membuat keputusan yang sebelumnya tidak mungkin dilakukan. Database pengambilan keputusan ini didapatkan dari database operasional perusahaan dari berbagai lokasi yang terpisah-pisah. 12 13 Traditional RDBMS used for OLTP Sistem database yang digunakan untuk OLTP proses yang berhubungan dengan clerical data detail, datanya up to date read/update sedikit record Pemisahan, recovery, dan integritas data Disebut juga transaksi operasional 14 OLTP: roda penggerak organisasi OLAP: mengawasi gerak roda OLTP vs OLAP users function DB design OLTP clerk, IT professional day to day operations application-oriented (E-R based) data current, up-to-date detailed, flat relational isolated usage repetitive access read/write index/hash on prim. key unit of work short, simple transaction # records accessed tens #users thousands DB size 100MB-GB metric transaction throughput OLAP knowledge worker decision support subject-oriented (star, snowflake) historical, summarized, multidimensional integrated, consolidated ad-hoc lots of scans/read mostly complex query millions hundreds 100GB-TB query throughput, response 15 Increasing potential to support business decisions Making Decisions Data Presentation End User Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP Business Analyst Data Analyst DBA 16 Characteristics of Data Warehouse Data warehouse merupakan kumpulan data yang subject-oriented, integrated, time-variant, dan nonvolatile yang menunjang manajemen dalam proses pengambilan keputusan. 17 Data Warehouse-Subject Oriented Fokusnya pada subjek utama dalam proses bisnis perusahaan, seperti customer, product, dan sales (penjualan). Fokus pada memodelkan dan menganalisa data yang akan digunakan oleh para pengambil keputusan, bukan pada operasi harian atau proses transaksional (transaction processing) Provide view yang simple dan ringkas atas persoalan dengan subjek tertentu dengan membuang data yang tidak berguna untuk proses pengambilan keputusan. 18 Data Warehouse-Integrated Didapatkan dengan mengintegrasikan multiple data, dari sumber data yang berbeda-beda (heterogeneous data source) relational databases, flat files, on-line transaction records Menggunakan teknik Data cleaning and data integration Memastikan konsistensi pada struktur encoding, pengukuran atribut, dll diantara data source yang berbeda. E.g., Hotel price: currency, tax, breakfast covered, etc. Ketika data dipindah ke data warehouse, data sudah berubah sesuai keinginan. 19 Data Warehouse-Time Variant Dari segi waktu, data warehouse memiliki waktu yang lebih lama dari pada operational system (transaksi operasional) Operational database: current value data (sekarang) Data warehouse data: historical data (5-10 tahun) Tiap struktur di data warehouse : Mengandung elemen waktu Sedangkan data operasional bisa mengandung elemen ‘time’ atau tidak. 20 Data Warehouse-Non Volatile Sekali masuk kedalam data warehouse, data-data, terutama data tipe transaksi, tidak akan pernah di update atau dihapus (delete) 21 Tugas Individu 1 Cari, baca dan pahami materi terkait DW dan OLAP Buat tulisan 1 halaman yg intinya menjawab pertanyaan berikut: ◦ ◦ DW: apa, kenapa ada, buat siapa, digunakan untuk apa, bagaimana bisa digunakan? DW: apa beda OLTP dan OLAP, jelaskan dengan bahasa sendiri Tugas diketik dalam word dan disimpan dengan format: npm-kelas-tugas-individu-1.docx , kemudian disubmit melalui DropBox Elearning – Data Warehouse 2013/2014… paling lambat Senin, 17/03/2014, sebelum jam 09.30 (jam sistem e-learning). Keterlambatan maksimum 24 jam dan mendapat penalti 50 % dari nilai total 22 Tugas Baca pertemuan berikutnya(2) – untuk diskusi Cari, baca materi terkait dengan : Arsitektur data warehouse Sumber data dari data warehouse Manajemen data warehouse Aplikasi pengguna data warehouse Pemodelan data multidimensi