DATA WAREHOUSE KONSEP Konsep dasar data

advertisement
DATA WAREHOUSE KONSEP
Konsep dasar data warehouse adalah perbedaan antara data dan informasi. Data
terdiri dari fakta-fakta yang dapat diamati dan direkam yang sering ditemukan dalam sistem
operasional atau transaksional.
Di Rutgers, sistem ini mencakup data pendaftar pada siswa (dikenal luas sebagai SRDB), manusia
sumber daya dan penggajian database, data kursus penjadwalan, dan data pada bantuan keuangan.
Dalam data warehouse
lingkungan, data hanya datang untuk memiliki nilai bagi pengguna akhir ketika ia diorganisir dan
disajikan sebagai
informasi. Informasi adalah sebuah koleksi terintegrasi dari fakta dan digunakan sebagai dasar untuk
pengambilan keputusan.
Sebagai contoh, unit akademis perlu memiliki informasi diakronis tentang luasnya dari
keluaran instruksional anggota fakultas yang berbeda untuk mengukur apakah hal ini menjadi lebih
atau kurang tergantung pada
paruh waktu fakultas.
DATA WAREHOUSE DEFINISI
Data warehouse adalah bagian dari sebuah Data Lingkungan keseluruhan architected yang berfungsi
sebagai single
terpadu sumber data untuk pengolahan informasi. Data warehouse memiliki karakteristik tertentu
yang
meliputi:
Subyek Berorientasi: Informasi disajikan berdasarkan subyek tertentu atau bidang yang diminati,
tidak
hanya sebagai file komputer. Data dimanipulasi untuk memberikan informasi tentang topik tertentu.
Untuk
Misalnya, SRDB tidak hanya diakses oleh pengguna-akhir, namun disediakan struktur dan
terorganisir
sesuai dengan kebutuhan tertentu.
Terintegrasi: Sebuah sumber tunggal informasi untuk dan tentang memahami beberapa daerah
kepentingan. Itu
data warehouse menyediakan one-stop shopping dan berisi informasi tentang berbagai mata
pelajaran. Demikian
gudang OIRAP data yang memiliki informasi tentang mahasiswa, staf pengajar dan staf, beban kerja
instruksional, dan
mahasiswa hasil.
Non-Volatile: informasi Stabil yang tidak berubah setiap kali proses operasional dijalankan.
Informasi konsisten terlepas dari kapan gudang diakses.
Time-variant: Mengandung sejarah subjek, serta informasi saat ini. Historis
informasi merupakan komponen penting dari gudang data.
Diakses: Tujuan utama dari data warehouse adalah untuk memberikan informasi mudah diakses
pengguna akhir.
Proses Berorientasi: Penting untuk melihat data pergudangan sebagai proses untuk pengiriman
informasi.
Pengurusan suatu gudang data sedang berlangsung dan berulang di alam.
Definisi lain
Data Warehouse: Sebuah struktur data yang dioptimalkan untuk distribusi. Ini mengumpulkan dan
menyimpan terintegrasi
set data historis dari sistem operasional ganda dan feed mereka untuk satu atau lebih data mart. Itu
juga dapat memberikan pengguna akhir akses untuk mendukung pandangan perusahaan dari data.
Data Mart: Sebuah struktur data yang dioptimalkan untuk akses. Hal ini dirancang untuk
memudahkan pengguna akhir analisis
data. Ini biasanya mendukung aplikasi tunggal analitik digunakan oleh satu set yang berbeda dari
pekerja.
Staging Area: Setiap toko data yang dirancang terutama untuk menerima data ke dalam lingkungan
pergudangan.
Operational Data Store: Kumpulan data yang memenuhi kebutuhan operasional operasional
berbagai
unit. Ini bukan komponen dari arsitektur data warehouse, tapi solusi untuk kebutuhan operasional.
OLAP (On-Line Analytical Processing): Sebuah metode yang analisis multidimensi terjadi.
Multidimensional Analisis: Kemampuan untuk memanipulasi informasi dengan berbagai kategori
yang relevan
atau "dimensi" untuk memfasilitasi analisis dan pemahaman tentang data yang mendasarinya. Hal
ini juga kadang-kadang
disebut sebagai "pengeboran-down", "pengeboran-di" dan "mengiris dan dicing"
Hypercube: Sebuah cara visual mewakili data multidimensi.
Bintang Schema: Sebuah cara untuk menggabungkan data berdasarkan satu set dimensi yang
dikenal. Itu menyimpan data
multidimensional dalam Sistem Manajemen Database dua dimensi relasional (RDBMS), seperti
Oracle.
Snowflake Schema: Sebuah perpanjangan dari skema bintang dengan cara menerapkan dimensi
tambahan untuk
dimensi skema bintang dalam lingkungan relasional.
Database multidimensi: Juga dikenal sebagai MDDB atau MDDBS. Sebuah kelas eksklusif, nonrelasional
alat manajemen database yang menyimpan dan mengelola data secara multidimensi, yang
bertentangan dengan
dua dimensi yang terkait dengan tradisional sistem manajemen database relasional.
OLAP Tools: Satu set produk perangkat lunak yang mencoba untuk memudahkan analisis
multidimensi. Bisa
menggabungkan akuisisi data, akses data, manipulasi data, atau kombinasi dari semuanya.
PERBANDINGAN DATA WAREHOUSE DAN DATA OPERASIONAL
BAGAIMANA GUDANG PERBEDAAN?
Data warehouse adalah jelas berbeda dari data operasional digunakan dan dikelola oleh hari-hari
operasional sistem. Data pergudangan adalah tidak hanya sebuah "akses wrapper" untuk data
operasional, di mana
data hanya "dibuang" ke dalam tabel untuk akses langsung. Di antara perbedaan:
OPERASIONAL DATA DATA DW
aplikasi berorientasi subjek berorientasi
rinci diringkas, jika tidak disempurnakan
akurat, pada saat akses tersebut merupakan nilai dari waktu ke waktu, foto
melayani komunitas ulama melayani masyarakat manajerial
dapat diperbarui tidak diperbarui
berjalan berulang-ulang dan nonreflectively menjalankan heuristik
persyaratan untuk diproses dipahami sebelum
awal pengembangan
persyaratan untuk memproses tidak sepenuhnya
dipahami sebelum pengembangan
kompatibel dengan Hidup Pengembangan Perangkat Lunak
Siklus
sekali berbeda siklus hidup
kinerja sensitif (langsung respon
diperlukan ketika memasuki transaksi)
kinerja santai (kedekatan tidak diperlukan)
diakses unit pada suatu waktu (jumlah data yang terbatas
elemen untuk data tunggal)
diakses set per satu (banyak catatan data banyak
elemen)
transaksi berbasis analisis didorong
kontrol memperbarui perhatian utama dalam hal
kepemilikan
kontrol memperbarui masalah tidak
ketersediaan ketersediaan tinggi santai
dikelola secara keseluruhan dikelola oleh himpunan bagian
nonredundancy redundansi adalah fakta kehidupan
statis struktur; isi variabel struktur yang fleksibel
kecil jumlah data yang digunakan dalam sejumlah proses besar data yang digunakan dalam proses
Para Data Warehousing Proses - Bagian 1
Tentukan Persyaratan Informational
• Mengidentifikasi dan menganalisis kemampuan informasi yang ada.
• Identifikasi dari pengguna kunci pertanyaan-pertanyaan bisnis yang signifikan dan metrik kunci
yang target pengguna.
kelompok menganggap sebagai kebutuhan mereka yang paling penting untuk informasi.
• membusuk metrik ini menjadi bagian-bagian komponennya dengan definisi tertentu.
• Peta bagian komponen dengan model informasi dan sistem rekaman.
Para Data Warehousing Proses - Bagian 2
Evolusi dan Iteratif Proses Pengembangan
Ketika Anda mulai mengembangkan kenaikan pertama gudang data, arsitektur yang baru dan segar.
Dengan
kelipatannya kedua dan selanjutnya, berikut ini adalah benar:
• Mulailah dengan satu mata pelajaran (atau subset atau superset) dan satu kelompok sasaran
pengguna.
• Melanjutkan dan menambahkan bidang studi, kelompok pengguna dan kemampuan informasi
untuk arsitektur
berdasarkan kebutuhan organisasi untuk informasi, bukan teknologi.
• Perbaikan terbuat dari apa yang telah dipelajari dari kenaikan sebelumnya.
• Perbaikan terbuat dari apa yang telah dipelajari tentang operasi gudang dan dukungan.
• Lingkungan teknis mungkin telah berubah.
• Hasil terlihat sangat cepat setelah setiap iterasi.
• persyaratan akhir Pengguna diperhalus setelah setiap iterasi.
Data Warehousing merupakan suatu proses evolusi / iteratif yang mengikuti pola spiral
• Arsitektur gudang awalnya dikembangkan di awal.
• Selisih pertama dikembangkan berdasarkan arsitektur.
• Membangun kenaikan pertama menyebabkan perubahan arsitektur.
• Pengoperasian gudang membawa perubahan arsitektur.
• Setiap kenaikan tambahan meluas gudang.
• Setiap kenaikan baru dapat menyebabkan penyesuaian arsitektur.
• Operasi Lanjutan dapat menyebabkan penyesuaian arsitektur.
Memperluas Ruang Lingkup
Mulai dari proyek
Arus
Status
Mengenali
Perlu
Rencana
fase berikutnya
Membangun
Disain
Pelajari dan
memodifikasi awal
persyaratan
Menyebarkan, dan
Menggunakan
Uji
Sumber Data Metode Akses
(Lihat terlampir)
Sistem Anggaran
Personil
MOBIL
CAS
FAMS
NJAS
Kursus
Penjadwalan
SRDB
Fakultas Survei
Lulus
Sekolah
Program
PASTI
Finansial
Akuntansi
Sistem
Sistem Penggajian
Referensi
Data
Laporan / Cube Server Distribusi
Database OLAP Services Jasa
Data Mart:
SRDB
Tentu saja analisis yang digunakan Sistem
Sumber Daya Manusia
Kursus Penjadwalan
PASTI
OLAP Pengguna: Akses
yang telah ditetapkan pemandangan
Data kubus
Dipersiapkan oleh Michael J. Cullinan, Application Developer, OIRAP
Kantor Penelitian Kelembagaan dan Perencanaan Akademik
Gudang Data Teknis Arsitektur Desain
OLAP Alat Pengguna
ODBC
Power Users - mengembangkan ad-hoc
query dan laporan. menggunakan Access
Laporan Pengguna
Dan Buat Data File
Eksplorasi Data Warehouse
Multi-dimensi kubus
dibuat meliputi:
Pendaftaran
Gelar Wisuda
Waktu untuk tingkat
Retensi Tarif
Wisuda Tarif
Instruksional Beban Kerja
Fakultas Analisis
ETL Layanan
OLAP Pengembang: membangun
OLAP pandangan kubus Data
OLAP Alat Pengguna
Cubes dibangun dari
data mart
Web Browser
Web Browser
Laporan dibangun dari
data mart
Laporan dibuat meliputi:
Fakta Buku
Instruksional Beban Kerja
GUDANG ATAS mengisi PROSES
Sebuah gudang data dihuni melalui serangkaian langkah-langkah yang
1) Hapus data dari lingkungan sumber (ekstrak).
2) Mengubah data untuk karakteristik yang diinginkan telah gudang seperti subjek-orientasi dan
waktu-varians
(Transform).
3) Tempatkan data ke dalam lingkungan target (beban).
Proses ini diwakili oleh ETL singkatan dari Extract, Transform dan Load.
Kompleksitas Transformasi dan Integrasi
• Ekstraksi data dari lingkungan operasional ke lingkungan gudang data membutuhkan
perubahan teknologi.
• Pemilihan data dari lingkungan operasional mungkin sangat kompleks.
• Data diformat ulang.
• Data adalah dibersihkan.
• Beberapa sumber input data ada.
• nilai-nilai default harus disediakan.
• Summarization data yang sering perlu dilakukan.
• catatan masukan yang harus dibaca memiliki format "eksotis" atau tidak standar.
• Data konversi format harus dilakukan.
• volume besar-besaran input harus dipertanggungjawabkan.
• Mungkin yang terburuk dari semua: hubungan Data yang telah dibangun ke dalam logika program
warisan lama harus
dipahami dan terurai sebelum file tersebut dapat digunakan sebagai masukan.
Gudang Data Tools / Software
Komponen Produk yang digunakan oleh
Penelitian Kelembagaan Komponen Keterangan
Crystal Reports Pelaporan Membuat laporan gaya presentasi dengan grafik dan grafik.
Dapat digunakan untuk mengakses semua jenis sumber data.
Query Access 2000
Buat kompleks ad-hoc query terhadap berbagai
sumber data menggunakan akses ODBC untuk database DW.
Mampu ekspor ke jenis lain format seperti teks
file,
OLAP Kristal Analisis
Profesional
Akses data batu untuk merancang pandangan untuk poros, filter
dan agregat pada fakta yang telah ditetapkan dimensi untuk
khusus subjek bidang seperti pendaftaran, derajat
diberikan, dll
Data
Pertambangan / statistik
Analisa
SAS Analisis statistik menggunakan akses ODBC untuk IR DW
database.
Direkomendasikan Persyaratan Sistem Untuk Web Access
Internet Explorer untuk menggunakan OLAP kontrol berbasis web ActiveX
Perbanyak video untuk 1024 X 768 untuk ruang pandang yang lebih
Download