etl (ekstrack, tranformation and loading)

advertisement
EKSTRACK, TRANFORMATION AND
LOADING (ETL)
1. Pengertian
DW &
BI
OLTP
ET
L
OLAP
ETL (Extraction, Transformation, Loading)
Proses ETL (Extraction, Transformation, Loading) merupakan
proses yang harus dilalui dalam pembentukan data warehouse .
Tujuan ETL : Mengumpulkan, menyaring, mengolah dan
menghubungkan data-data yang relevan dari berbagai sumber
untuk disimpan di data warehouse.
2. Proses-Proses ETL
Extract
Langkah pertama dari proses ETL adalah proses penarikan data dari satu
atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem
OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan
proyek data warehouse menggabungkan data dari sumber-sumber yang
berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan
pembersihan data yang diekstrak untuk mendapatkan suatu pola atau
struktur data yang diinginkan.
2. Proses-Proses ETL
Transform
Proses membersihkan data yang telah diambil pada proses extract sehingga data itu sesuai dengan
struktur data warehouse atau data mart. Hal-hal yang dapat dilakukan dalam tahap transformasi :
a)
Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse.
b)
Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai 1 untuk pria dan
2 untuk wanita, tetapi data warehouse menyimpan M untuk pria dan F untuk wanita). Proses
yang dilakukan disebut automated data cleansing, tidak ada pembersihan secara manual
selama proses ETL.
c)
Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”, dan ”Mr ke
dalam ”M”).
d)
Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price).
e)
Menggabungkan data dari berbagai sumeber bersama-sama.
f)
Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk setiap bagian).
2. Proses-Proses ETL
Load
Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke
dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan
untuk mengganti atau menambah data tergantung pada perancangan data
warehouse pada waktu menganalisa keperluan informasi. Fase load
berinteraksi dengan suatu database, constraint didefinisikan dalam
skema databasesebagai suatu trigger yang diaktifkan pada waktu
melakukan load data (contohnya : uniqueness,referential, integrity, mandatory
fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data
dari proses ETL.
3. TOOLS ETL
ETL Tools yang berbayar:
 IBM Infosphere DataStage
 Informatica PowerCenter
 Oracle Warehouse Builder (OWB)
 Oracle Data Integrator (ODI)
 SAS ETL Studio
 Business Objects Data Integrator(BODI)
 Microsoft SQL Server Integration
Services(SSIS)
 Ab Initio
ETL tools yang gratis (open
source):
Pentaho Data Integration (Kettle)
Talend Integrator Suite
Apatar
CloverETL
Data Integration
Jasper ETL
4. Masalah yang terjadi dalam
ETL
1. Platform mesin dan system operasi yang berlainan
2. Mungkin melibatkan system kuno dengan teknologi basis
data yang sudah ketinggalan zaman
3. Kualitas data yang berbeda-beda
4. Aplikasi sumber data mungkin menggunakan nilai data
(refresentasi) internal yang sulit dimengerti
REFERENSI
http://www.cloveretl.com
http://www.apatar.com
http://www.talend.com
http://kettle.pentaho.com
http://datawarehouse4u.info/ETL-tools.html
http://datawarehouse4u.info/ETL-process.html
http://stti.i-tech.ac.id/component/phocadownload/category/63-d
ata-warehouse-datamining
kk.mercubuana.ac.id/elearning
/files.../18030-4-127829474663.doc
http://kundang.weblog.esaunggul.ac.id/2013/09/17/extract-transf
Download