Sebuah Diagram dari sistem data warehouse

advertisement
NAMA
: MUCHAMAD PARTA SUWANDHA
NBI
: 451103363
KELAS
:B
Data Warehouse Sebuah( gudang data)adalah sistem yang mengambil
dan
mengkonsolidasikan data yang secara periodik dari sistem sumber ke dalam
dimensi atau dinormalisasi menyimpan data. Biasanya Setiap tahun ada pertanyaan
untuk para pelaku intelijen bisnis atau aktifitas analitis lainnya. Hal ini biasanya
diperbaharui dalam beberapa kelompok. tidak setiap kali transaksi terjadi di sistem
sumber.
Sebuah Diagram dari sistem data warehouse
Pengertian maksud diagram diatas seperti Sistem sumber adalah sistem OLTP yang
berisi data yang ingin Anda load ke data gudang
Pengolahan Transaksi online (OLTP) adalah sistem yang tujuan utamanya adalah
untuk menangkap dan menyimpan transaksi bisnis. Data Sumber sistem 'diperiksa
menggunakan data profiler untuk memahami karakteristik data. S
ebuah profiler data adalah alat yang memiliki kemampuan untuk menganalisis data,
seperti mencari tahu berapa banyak baris dalam setiap tabel, berapa banyak baris
mengandung nilai NULL, dan sebagainya.
ETL (extract, transform, and load) maksudnya membawa data dari berbagai sumber
sistem ke area staging. ETL adalah sistem yang memiliki kemampuan untuk
terhubung ke sumber sistem, membaca data, mengubah data, dan beban ke sistem
target
(sistem
target
tidak
harus
menjadi
gudang
data).
Sistem ETL kemudian mengintegrasikan, mengubah, dan load data ke dalam
menyimpan data dimensi (DDS). Sebuah DDS adalah database yang menyimpan
data. data warehouse dalam format yang berbeda dari OLTP.
Meta Data yang berisi informasi tentang struktur data, arti data, penggunaan data,
data aturan kualitas, dan informasi lainnya tentang data Sistem audit log operasi
sistem dan penggunaan ke database metadata.
sistem audit merupakan bagian dari sistem ETL yang memonitor kegiatan
operasional ETL proses dan log statistik operasional mereka. Hal ini digunakan
untuk memahami apa yang terjadi selama proses ETL.
Pengguna menggunakan berbagai alat seperti spreadsheet, tabel pivot, alat
pelaporan, dan Alat query SQL untuk mengambil dan menganalisis data dalam DDS
Beberapa aplikasi beroperasi pada format database multidimensi. Untuk aplikasi ini,
data di DDS dimuat ke database multidimensi (MDB),
yang juga dikenal sebagai kubus, Database Multidimensi adalah suatu bentuk
database di mana data disimpan dalam sel dan posisi masing-masing sel ditentukan
oleh sejumlah variabel yang disebut sel dimension. Masing-masing merupakan
event dan nilai-nilai dimensi menunjukkan kkapan dan dimana peristiwa ini terjadi.
Ada pendekatan alternative lain untuk ETL. Dalam pendekatan ini, data dimuat ke
dalam gudang data pertama dalam format baku. itu transformasi, pencarian, dan
sebagainya, yang dilakukan di dalam data warehouse. Berbeda dengan pendekatan
ETL, pendekatan ELT tidak perlu server ETL. pendekatan ini biasanya
diimplementasikan untuk mengambil keuntungan dari mesin database data
warehouse yang kuat seperti processing asmassively paralel (MPP) sistem. Saya
akan membahas lebih lanjut tentang ELT
Consolidates Data
menurut laporan dapat memiliki banyak sistem transaksional. Sebagai contoh, bank
dapat menggunakan 15 berbeda aplikasi untuk layanan, satu untuk, satu untuk
layanan pelanggan pemrosesan pinjaman, satu untuk teller dan lain-lain. Sebuah
Data Warehouse mengkosolidasikan banyak system transaksional
Konsepnya :
Data Availability
:
Ketika mengkonsolidasikan data dari sistem sumber yang berbeda, adalah mungkin
bahwa masing-masing data tersedia dalam satu sistem, tetapi tidak dalam sistem
lainnya. Misalnya, system Mungkin memiliki tujuh bidang alamat (address1,
address2, address3, kota, kabupaten, ZIP, dan negara), tetapi sistem B tidak
memiliki lapangan address3 dan bidang negara. Dalam sistem A, Agar dapat
memiliki dua tingkat-order header dan baris pesanan. Namun, dalam sistem B,
perintah memiliki empat tingkat-order header, agar bundel, item baris pesanan, dan
komponen keuangan.
Time Ranges :
bagian yang sama dari data yang ada dalam sistem yang berbeda, tetapi mereka
memiliki berbeda periode waktu. Anda perlu berhati-hati ketika mengkonsolidasikan
mereka. Anda selalu perlu untuk memeriksa apa jangka waktu berlaku yang data
sebelum Anda mengkonsolidasikan data. Jika tidak, Anda berisiko memiliki data
yang tidak akurat di gudang karena Anda dicampur periode waktu yang berbeda.
Misalnya, dalam sistem A rata-rata pemasok biaya overhead dihitung mingguan,
tetapi dalam sistem B itu dihitung bulanan hal ini tidak bisa hanya
mengkonsolidasikan mereka. Dalam contoh ini,
Definisi:
Kadang-kadang data yang sama mungkin berisi hal yang berbeda. Dalam sistem A,
kolom yang disebut "Jumlah Pesanan Nilai" mungkin berisi pajak, diskon, tagihan
kartu kredit, dan biaya pengiriman, sedangkan dalam sistem B tidak mengandung
biaya pengiriman. Dalam sistem A, lalu lintas jangka mingguan bisa merujuk kepada
pengunjung situs web yang unik, sedangkan dalam sistem B itu berarti nonunique
pengunjung situs web.
Convertion
:
Konversi: Ketika mengkonsolidasikan data di sistem sumber yang berbeda, kadangkadang Anda perlu melakukan konversi karena data dalam sistem sumber dalam
unit yang berbeda ukuran. Jika Anda menambahkan mereka tanpa mengubahnya
terlebih dahulu, maka Anda akan memiliki data yang salah dalam gudang. Dalam
beberapa kasus, tingkat konversi tetap (selalu nilai yang sama), tetapi dalam kasus
lain perubahan tingkat konversi dari waktu ke waktu. Jika perubahan dari waktu ke
waktu, Anda perlu tahu apa waktu periode untuk digunakan saat mengkonversi.
Misalnya, konversi antara waktu di satu negara ke negara lain dipengaruhi oleh
daylight savings time, sehingga Anda perlu tahu tanggal untuk dapat melakukan
konversi
Matching:
Pencocokan adalah proses penentuan apakah bagian data dalam satu sistem sama
dengan data dalam sistem lain. Pencocokan ini penting karena jika Anda cocok
dengan data yang salah, Anda akan memiliki data akurat dalam data warehouse.
Periodically.
Pengambilan data dan konsolidasi tidak terjadi hanya sekali, mereka terjadi
berkali-kali dan biasanya secara berkala, misalnya setiap hari atau beberapa
kali sehari. Jika pengambilan data terjadi hanya sekali, maka data akan
menjadi usang, dan setelah beberapa waktu tidak akan berguna.
Dimensional Data Store
Sebuah Data Warehouse adalah sistem yang mengambil data dari sistem
sumber dan meletakkannya ke dalam dimensi menyimpan data atau
menyimpan data dinormalisasi. beberapa Data Warehouse dalam format
dimensi , tetapi beberapa Data Warehouse dalam format normal. format dan
perbedaan antara mereka .ADDS adalah satu atau beberapa database yang
berisi kumpulan data mart dimensi . A Data mart dimensi adalah sekelompok
tabel fakta terkait dan dimensi yang berhubungan tabel yang berisi
pengukuran dari kegiatan bisnis dikategorikan oleh dimensi mereka .Data
Adimensional storeis denormalized , dan dimensi yang sesuai . Dimensi
sesuai berarti baik mereka persis tabel dimensi yang sama atau satu adalah
subset dari yang lain .
Normalized Data Store
Jenis lain dari data warehouse adalah menempatkan data tidak dalam
menyimpan data dimensi tetapi dalam menyimpan data dinormalisasi.
Maksud dari menyimpan data dinormalisasi adalah satu atau lebih database
relasional dengan sedikit atau tanpa redundansi data. Sebuah database
relasional adalah database yang terdiri dari tabel entitas dengan hubungan
parent child antara mereka. Normalizationis suatu proses menghilangkan
redundansi data dengan menerapkan normalisasiaturan.
Sebuah Dimensi penyimpanan data adalah format yang lebih baik untuk
menyimpan data dalam gudang untuk tujuan query dan menganalisa data
dari Penyimpanan data normal. Hal ini karena lebih sederhana (satu tingkat
jauh di semua arah dalam skema bintang) dan memberikan kinerja query
yang lebih baik. Normalisasi penyimpanan data adalah format yang lebih
baik untuk mengintegrasikan data dari berbagai sistem sumber, terutama di
ketiga bentuk normal dan lebih tinggi. Hal ini karena hanya ada satu tempat
untuk memperbarui tanpa redundansi data seperti dalam menyimpan data
dimensi.
Beberapa aplikasi dijalankan pada DDS, yaitu, database relasional yang terdiri dari
tabel dengan baris dan kolom
History
Salah satu perbedaan utama antara sistem transaksional dan sistem data
warehouse adalah kemampuan dan kapasitas untuk menyimpan History.
Kebanyakan sistem transaksional menyimpan beberapa History,
Query
Query adalah proses mendapatkan data dari data store, yang memenuhi kriteria
tertentu. di sini adalah contoh queri sederhana: "Berapa banyak pelanggan yang
Anda miliki sekarang" Salah satu Berikut adalah contoh query yang kompleks:
"Tunjukkan nama dan pendapatan dari semua lini produk yang memiliki 10 kerugian
persen atau lebih di Q3 TA 2006, dikategorikan oleh stopkontak. " Sebuah data
warehouse dibangun untuk bertanya. Itu adalah nomor satu tujuan keberadaannya.
Pengguna tidak diperbolehkan untuk memperbarui data warehouse. Pengguna
hanya bisa query data warehouse. Hanya sistem ETL diperbolehkan untuk
memperbarui data warehouse. Ini adalah salah satu kunci perbedaan antara data
warehouse dan sistem transaksi.
Bussiness Inteliegence
merupakan kumpulan kegiatan untuk memahami situasi bisnis dengan melakukan
berbagai jenis analisis data perusahaan serta data eksternal dari ketiga pihak untuk
membantu membuat keputusan bisnis strategis, taktis, dan operasional dan
mengambil tindakan yang diperlukan untuk meningkatkan kinerja bisnis. Hal ini
mencakup mengumpulkan, menganalisis, pemahaman, dan pengelolaan data
tentang kinerja operasi, pelanggan dan pemasok kegiatan, kinerja keuangan,
pergerakan pasar, persaingan, kepatuhan terhadap peraturan, dan kontrol kualitas
Contoh-contohnya :
Business performance management, termasuk menghasilkan indikator
kinerja utama seperti penjualan sehari-hari, pemanfaatan sumber daya, dan
biaya operasional utama untuk masing-masing daerah, lini produk, dan
jangka waktu, serta agregat mereka, untuk memungkinkan orang untuk
mengambil tindakan taktis untuk mendapatkan kinerja operasional pada trek
yang diinginkan.
Customer profitability analysis, yaitu, untuk memahami mana pelanggan
yang menguntungkan dan layak disimpan dan yang kehilangan uang dan
karena itu perlu ditindaklanjuti. Kunci untuk latihan ini mengalokasikan biaya
seakurat mungkin sampai yang terkecil unit transaksi bisnis, yang mirip
dengan kegiatan berbasis biaya.
Statistical analysis seperti pembelian kemungkinan atau analisis
keranjang. Analisis keranjang adalah Proses analisis data penjualan untuk
menentukan produk mana yang kemungkinan akan dibeli atau
memerintahkan bersama-sama. Kemungkinan ini dinyatakan dalam ukuran
statistik seperti tingkat kepercayaan supportand. Itis terutama berlaku untuk
ritel dan manufaktur industri tetapi juga untuk tingkat tertentu untuk industri
jasa keuangan.
analisis prediktif seperti peramalan penjualan, pendapatan, dan angka
biaya
untuk
tujuan
perencanaan
anggaran
tahun
depan
dan
mempertimbangkan faktor-faktor lain seperti pertumbuhan organik, situasi
ekonomi, dan arah masa depan perusahaan
Report
Dalam konteks data warehousing , sebuah reportis program yang mengambil data
dari data warehouse dan menyajikan kepada pengguna di layar atau di atas kertas .
Pengguna juga dapat berlangganan ini laporan sehingga mereka dapat dikirim ke
pengguna secara otomatis melalui e-mail pada waktu tertentu ( harian atau
mingguan , misalnya) atau dalam menanggapi peristiwa .Laporan yang dibangun
sesuai dengan spesifikasi fungsional . Mereka menampilkan DDS data yang
dibutuhkan oleh pengguna bisnis untuk menganalisis dan memahami situasi bisnis .
yang paling bentuk umum dari laporan adalah bentuk tabel yang berisi kolom
sederhana . Ada bentuk lain dari Laporan yang dikenal sebagai laporan lintas tabor
matrix.These seperti Excel pivot tabel , di mana satu data yang atribut menjadi
baris , data atribut lain menjadi kolom , dan setiap sel pada Laporan berisi nilai yang
sesuai dengan atribut baris dan kolom Laporan data warehouse digunakan untuk
menyajikan data bisnis kepada pengguna , tetapi mereka juga
digunakan untuk keperluan administrasi data warehouse . Mereka digunakan untuk
memantau kualitas data, untuk memantau penggunaan aplikasi data warehouse ,
dan untuk memantau kegiatan ETL
Online Analytical Processing ( OLAP )
OLAP adalah kegiatan interaktif menganalisis data transaksi bisnis yang disimpan
dalam gudang data dimensi untuk membuat keputusan bisnis yang taktis dan
strategis . Orang biasa yang melakukan pekerjaan OLAP adalah analis bisnis ,
manajer bisnis , dan eksekutif . fungsi khas di OLAP termasuk menggabungkan
( total ) , pengeboran bawah ( mendapatkan rincian ) , dan mengiris dan dicing
( memotong kubus dan menjumlahkan nilai-nilai dalam sel ) . Fungsi OLAP dapat
disampaikan dengan menggunakan database relasional atau menggunakan
database multidimensi . OLAP yang menggunakan database relasional dikenal
sebagai relasional pengolahan analisis online ( ROLAP ) . OLAP yang menggunakan
database multidimensi dikenal sebagai multidimensi pengolahan analisis
online( MOLAP ) .Contoh dari OLAP adalah menganalisis efektivitas dari inisiatif
kampanye pemasaran pada produk tertentu dengan mengukur pertumbuhan
penjualan selama periode tertentu . Contoh lain adalah untuk menganalisis dampak
kenaikan harga terhadap penjualan produk di berbagai daerah dan kelompok
produk pada periode waktu yang sama
Data Mining
Data mining adalah proses untuk mengeksplorasi data untuk menemukan pola dan
hubungan yang menggambarkan data dan untuk memprediksi nilai-nilai yang tidak
diketahui atau masa depan data. Nilai kunci dalam data mining adalah kemampuan
untuk memahami mengapa beberapa hal terjadi di masa lalu dan untuk
memprediksi apa akan terjadi di masa depan. Ketika data mining digunakan untuk
menjelaskan situasi saat ini atau masa lalu, itu disebut analytics.When deskriptif
data mining digunakan untuk memprediksi masa depan, hal itu disebut analisis
prediktif.
Other Analytical Activities
Selain untuk intelijen bisnis, data warehouse juga digunakan untuk kegiatan analisis
di tujuan non-bisnis, seperti kantor penelitian ilmiah, departemen pemerintah
(statistik, kantor cuaca, analisis ekonomi, dan prediksi), intelijen militer, darurat dan
penanggulangan bencana, organisasi amal, monitoring kinerja server, dan jaringan
analisis lalu lintas. Data warehouse juga digunakan untuk manajemen hubungan
pelanggan (CRM). CRM adalah serangkaian kegiatan yang dilakukan oleh organisasi
(bisnis dan non-bisnis) untuk mengelola dan melakukan analisis tentang pelanggan
mereka, untuk tetap berhubungan dan berkomunikasi dengan pelanggan mereka,
untuk menarik dan memenangkan pelanggan baru, produk dan jasa kepada
pelanggan mereka, untuk melakukan transaksi dengan pelanggan mereka (kedua
transaksi non-bisnis bisnis dan), untuk layanan dan dukungan pelanggan mereka,
dan menciptakan ide-ide baru dan produk atau jasa baru bagi para pelanggan
mereka.
Data warehouse juga digunakan dalam analisis analytics.Web web adalah kegiatan
memahami perilaku dan karakteristik lalu lintas situs web. Ini termasuk mengetahui
jumlah kunjungan, pengunjung, dan pengunjung unik pada setiap halaman untuk
setiap hari / minggu / bulan; pengarah situs, rute khas yang mengambil pengunjung
dalam situs; karakteristik teknis dari pengunjung 'browser, domain dan analisis
geografis, jenis robot mengunjungi, tingkat keluar setiap halaman, dan tingkat
konversi pada proses checkout. Web analytics terutama penting untuk bisnis online
Updated in Batches
Sebuah gudang data biasanya read-only system , yaitu , pengguna tidak dapat
memperbarui ataumenghapus data di gudang data. Data warehouse data
diperbarui menggunakan mekanisme standar yang disebut ETL pada waktu tertentu
dengan membawa data dari sistem sumber operasional . ini berbeda dari sistem
transaksional atau OLTP di mana pengguna dapat memperbarui system setiap saat .
Alasan untuk tidak memungkinkan pengguna untuk memperbarui atau menghapus
data di gudang data adalah untuk menjaga konsistensi data sehingga Anda dapat
menjamin bahwa data dalam data warehouse akan konsisten dengan sistem
sumber operasional , seperti jika data warehouse adalah mengambil data yang dari
dua sistem sumber , A dan B. Sistem A berisi 11 juta nasabah , sistem B
berisi8million pelanggan , dan ada 2 juta pelanggan yang ada di kedua sistem .
Data gudang akan berisi 17 juta pelanggan . Jika pengguna meng-update data di
gudang data ( misalnya , menghapus 1 juta pelanggan ) , maka tidak akan
konsisten dengan sistem sumber . Juga, ketika update berikutnya datang dari ETL ,
Alasan kedua untuk memperbarui data warehouse dalam batch daripada secara real
time adalah kinerja sistem sumber. Memperbarui data warehouse secara real time
berarti bahwa saat ada pembaruan dalam sistem sumber, Anda memperbarui data
warehouse segera, yaitu, dalam beberapa detik. Untuk melakukan ini, Anda perlu :
• menginstal database memicu pada setiap meja dalam sistem sumber atau
• memodifikasi aplikasi sistem sumber untuk menulis ke dalam gudang data segera
setelah menulis ke database sistem sumber
Master Data Management (MDM)
data master adalah pertama. Dalam sistem OLTP, ada dua kategori data: data
transaksi dan data master. Data Transaksi terdiri dari badan usaha dalam sistem
OLTP bahwa transaksi bisnis rekaman terdiri dari identitas,
nilai, dan kolom atribut. Data master terdiri dari badan usaha dalam sistem OLTP
yang menggambarkan transaksi bisnis yang terdiri dari identitas dan atribut kolom.
Data transaksi terkait dengan master data sehingga data master menggambarkan
transaksi bisnis.
Untuk memahami mana entitas adalah data transaksi dan yang entitas adalah data
master, Anda perlu model proses bisnis. Acara bisnis adalah data transaksi. Dalam
online contoh toko musik, acara bisnis adalah bahwa pelanggan membeli lagu.
Masterdata terdiri dari entitas yang menggambarkan acara bisnis. Guru data terdiri
dari jawaban dari siapa, apa, dan di mana pertanyaan tentang transaksi bisnis.
Dalam contoh sebelumnya, data master pelanggan, produk, dan merek.
Contoh data master adalah pemasok, cabang, kantor, karyawan, warga negara,
wajib pajak, aset, persediaan, toko, tenaga penjualan, properti, peralatan, waktu,
produk, peralatan, jalan, pelanggan, Server, switch, akun, kode layanan, tujuan ,
kontrak, tanaman (seperti di bidang manufaktur atau minyak kilang), mesin,
kendaraan, dan sebagainya.
Ada dua jenis data master yang Anda mungkin tidak ingin menyertakan ketika
menerapkan sistem MDM:
1. Anda mungkin ingin mengecualikan tanggal dan waktu. Sebuah tanggal
menjelaskan acara bisnis, sehingga menurut definisi adalah data master.
Tanggal A memiliki atribut seperti nama bulan, tetapi atribut yang statis.
Nama bulan 01/11/2007 adalah November dan akan selalu November. Hal ini
statis. Tidak perlu dipertahankan, diperbarui, dan diterbitkan. Atribut
acustomer seperti alamat, di sisi lain, terus berubah dan perlu dipertahankan.
Tapi atribut tanggal yang statis.
2. Anda mungkin ingin mengecualikan data master dengan sejumlah kecil
anggota. Misalnya, jika bisnis Anda adalah e-commerce dan Anda hanya
memiliki satu toko online, maka mungkin tidak layak untuk mempertahankan
menyimpan data menggunakan MDM. Pertimbangan apakah akan
mengecualikan atau menyertakan badan usaha kecil sebagai data master
atau tidak adalah jumlah anggota dan frekuensi perubahan. Jika jumlah
anggota kurang dari sepuluh dan frekuensi perubahan kurang dari sekali
setahun, Anda ingin mempertimbangkan termasuk dari sistem MDM Anda.
Sebuah sistem MDM mengambil data dari berbagai sistem OLTP dan mendapatkan
data produk . Jika ada duplikat produk , sistem MDM mengintegrasikan dua catatan .
Sistem MDM mengintegrasikan dua catatan dengan membandingkan atribut umum
untuk mengidentifikasi apakah kedua catatan yang cocok . Jika mereka cocok ,
aturan ketahanan hidup mendikte yang merekam menang dan yang merekam
kehilangan . The rekor kemenangan disimpan , dan rekor kalah dibuang dan
diarsipkan .
Sistem MDM memiliki fasilitas pelaporan yang menampilkan struktur data, aturan
kesintasan, aturan pencocokan, dan duplikat catatan dari sistem OLTP bersama
dengan yang aturan diaplikasikan dan yang merekam disimpan sebagai data
master. Fasilitas pelaporan juga menunjukkan aturan yang dieksekusi dan ketika
mereka dieksekusi.
Customer Data Integration
Pelanggan integrasi data (CDI) adalah MDM untuk data pelanggan. CDI adalah
proses mengambil, membersihkan, menyimpan, memelihara, dan mendistribusikan
data pelanggan. Sebuah sistem CDI mengambil data pelanggan dari sistem OLTP,
membersihkannya, menyimpannya dalam customer store data master, memelihara
data pelanggan, terus up-to-date, dan mendistribusikan data pelanggan ke sistem
lain.
Sebuah sistem CDI memungkinkan Anda untuk memiliki lebih bersih, tunggal, versi
handal dari data pelanggan aplikasi lain dalam perusahaan dapat menggunakan.
Hal ini pada gilirannya dapat memberikan manfaat bisnis seperti meningkatkan
kepuasan pelanggan dan analisis bisnis yang lebih baik, dan mengurangi
kompleksitas proses yang menggunakan data pelanggan. Dari semua berbagai jenis
manajemen data master, CDI adalah yang paling banyak digunakan karena setiap
organisasi memiliki pelanggan. CDI menyediakan data terpadu yang bersih untuk
manajemen hubungan pelanggan.
Future Trends in Data Warehousing
Beberapa tren masa depan dalam data warehousing saat ini adalah data yang tidak
terstruktur,
pencarian, arsitektur serviceoriented, dan real-time data warehousing.
Unstructured Data
Data yang ada di database yang terstruktur, melainkan diatur dalam baris dan
kolom. Saya telah berbicara panjang besar di bagian sebelumnya tentang data
warehousing menggunakan data terstruktur, yaitu, sistem sumber database. Hal ini
dapat menjadi database relasional (tabel, baris, dan kolom), dan mungkin database
berorientasi objek (kelas dan jenis) atau database hirarki (struktur seperti pohon).
Namun, mereka semua memiliki struktur data.
Data tidak terstruktur, di sisi lain, tidak memiliki struktur data seperti baris dan
kolom, struktur seperti pohon, atau kelas dan jenis. Contoh data terstruktur adalah
dokumen, gambar (foto, diagram, dan gambar), audio (lagu, pidato, dan suara),
video (film, animasi), streaming data, teks, e-mail, dan situs web internet.
Diperdebatkan, beberapa orang mengatakan semacam ini adalah data
semiterstruktur, dengan argumen bahwa ada beberapa struktur, sehingga memiliki
atribut. Sebagai contoh, sebuah e-mail memiliki atribut seperti dari, untuk, tanggal
dikirim, tanggal dibuat, tanggal penerimaan, subyek, dan tubuh; dokumen memiliki
atribut seperti judul, subjek, penulis, jumlah halaman, jumlah kata, tanggal
pembuatan, dan tanggal modifikasi terakhir.
Setiap jenis data terstruktur memiliki atribut fisik dan isi yang berbeda. Atribut ini
dapat disimpan dalam database relasional atau multidimensional untuk
memungkinkan pengguna untuk dengan mudahmenemukan bagian tertentu dari
data tidak terstruktur. Isi dari data tidak terstruktur itu sendiri dapat dianalisis,
diekstrak, dikategorikan, dan disimpan untuk membantu pencarian informasi.
Sebagai contoh, katakanlah Anda memiliki 1 juta e-mail sebagai data terstruktur
Anda. Mereka memiliki atribut, seperti dari, untuk, cc, bcc, subjek, tanggal dibuat,
tanggal dikirim, lampiran, jumlah kata-kata dalam tubuh, alamat host, alamat
originator, alamat penerima, dan sebagainya. Anda kemudian menyimpan atributatribut ini dalam tabel arelational, dan e-mail akan disimpan sebagai file dengan
nama file dan lokasi yang disimpan dalam tabel.
Search
Bagian ini menjawab pertanyaan kedua, bagaimana Anda mendapatkan informasi
keluar? Jawabannya adalah dengan mencari. Untuk mendapatkan informasi dari
data terstruktur, asalkan Anda tahu struktur, Anda dapat melakukan query pilih,
apakah menggunakan laporan statis atau interaktif query pengguna ad hoc. Jika
Anda menggunakan aplikasi BI, aplikasi dapat pergi melalui metadata dan
menampilkan struktur data dan kemudian membantu Anda dalam menavigasi
melalui data untuk mengambil informasi yang Anda butuhkan.
Untuk mendapatkan informasi dari data yang tidak terstruktur, terutama data teks
seperti dokumen, e-mail, dan halaman web, Anda melakukan pencarian. Seperti di
Internet, mesin pencari telah merangkak data warehouse dan diindeks data tidak
terstruktur. Mesin pencari telah dikategorikan terstruktur
data berdasarkan jenis dan sifat mereka dan, dalam kasus halaman web, link
mereka.
Service-Oriented Architecture (SOA)
SOA adalah sebuah metode membangun aplikasi yang menggunakan sejumlah
kecil, komponen independen yang berbicara satu sama lain dengan menawarkan
dan memakan layanan mereka. Komponen-komponen ini dapat didistribusikan,
bahkan, mereka dapat berada di sisi yang berbeda dari dunia.
Hampir setiap aplikasi besar bisa mendapatkan keuntungan dari pendekatan SOA.
Anda tidak membangun satu aplikasi raksasa lagi. Sebaliknya, Anda membangun
banyak potongan-potongan kecil yang berbicara satu sama lain. itu adalah sifat dari
industri TI bahwa aplikasi akan perlu diganti setiap beberapa tahun (saya akan
mengatakan setiap 4-8 tahun). Bisa jadi karena teknologi usang atau karena fungsi
tersebut. Kepailitan, merger, dan pengambilalihan juga pembalap lain untuk ini.
Real-Time Data Warehouse
Sebuah gudang data, beberapa tahun yang lalu, biasanya diperbarui setiap hari
atau setiap minggu. Dalam dua sampai tiga tahun terakhir, telah terjadi lebih
banyak dan lebih banyak permintaan untuk meningkatkan frekuensi update. Para
pengguna ingin melihat data dalam gudang data diperbarui setiap dua menit atau
bahkan secara real time. Sebuah data warehouse real-time adalah gudang data
yang diperbarui (dengan ETL) yang saat transaksi terjadi dalam sistem sumber.
Summary
Bab ini memperkenalkan data warehousing. Saya menunjukkan banyak contoh,
dengan harapan bahwa mereka akan membuat konsep lebih mudah dipahami dan
akan memperkaya pengalaman Anda. Saya membahas sedikit situasi saat ini
sehingga Anda tahu bagaimana sekarang, dan sedikit tren masa depan sehingga
Anda tahu apa yang akan terjadi. Dalam bab berikutnya, saya akan membahas
arsitektur
Download