EKSTRACK, TRANFORMATION AND LOADING (ETL) 1. Pengertian DW & BI OLTP ET L OLAP ETL (Extraction, Transformation, Loading) Proses ETL (Extraction, Transformation, Loading) merupakan proses yang harus dilalui dalam pembentukan data warehouse . Tujuan ETL : Mengumpulkan, menyaring, mengolah dan menghubungkan data-data yang relevan dari berbagai sumber untuk disimpan di data warehouse. 2. Proses-Proses ETL Extract Langkah pertama dari proses ETL adalah proses penarikan data dari satu atau lebih sistem operasional sebagai sumber data (bisa diambil dari sistem OLTP, tapi bisa juga dari sumber data di luar system database). Kebanyakan proyek data warehouse menggabungkan data dari sumber-sumber yang berbeda. Pada hakekatnya, proses ekstraksi adalah proses penguraian dan pembersihan data yang diekstrak untuk mendapatkan suatu pola atau struktur data yang diinginkan. 2. Proses-Proses ETL Transform Proses membersihkan data yang telah diambil pada proses extract sehingga data itu sesuai dengan struktur data warehouse atau data mart. Hal-hal yang dapat dilakukan dalam tahap transformasi : a) Hanya memilih kolom tertentu saja untuk dimasukkan ke dalam data warehouse. b) Menerjemahkan nilai berupa kode (misal, database sumber menyimpan nilai 1 untuk pria dan 2 untuk wanita, tetapi data warehouse menyimpan M untuk pria dan F untuk wanita). Proses yang dilakukan disebut automated data cleansing, tidak ada pembersihan secara manual selama proses ETL. c) Mengkodekan nilai-nilai ke dalam bentuk bebas ( missal memetakan ”male” ,”I”, dan ”Mr ke dalam ”M”). d) Melakukan perhitungan nilai-nilai baru (misal sale_amount = qty*unit_price). e) Menggabungkan data dari berbagai sumeber bersama-sama. f) Membuat ringkasan dari sekumpulan baris data (misal, total penjualan untuk setiap bagian). 2. Proses-Proses ETL Load Fase load merupakan tahapan yang berfungsi untuk memasukkan data ke dalam target akhir, yaitu ke dalam suatu data warehouse. Waktu dan jangkauan untuk mengganti atau menambah data tergantung pada perancangan data warehouse pada waktu menganalisa keperluan informasi. Fase load berinteraksi dengan suatu database, constraint didefinisikan dalam skema databasesebagai suatu trigger yang diaktifkan pada waktu melakukan load data (contohnya : uniqueness,referential, integrity, mandatory fields), yang juga berkontribusi untuk keseluruhan tampilan dan kualitas data dari proses ETL. 3. TOOLS ETL ETL Tools yang berbayar: IBM Infosphere DataStage Informatica PowerCenter Oracle Warehouse Builder (OWB) Oracle Data Integrator (ODI) SAS ETL Studio Business Objects Data Integrator(BODI) Microsoft SQL Server Integration Services(SSIS) Ab Initio ETL tools yang gratis (open source): Pentaho Data Integration (Kettle) Talend Integrator Suite Apatar CloverETL Data Integration Jasper ETL 4. Masalah yang terjadi dalam ETL 1. Platform mesin dan system operasi yang berlainan 2. Mungkin melibatkan system kuno dengan teknologi basis data yang sudah ketinggalan zaman 3. Kualitas data yang berbeda-beda 4. Aplikasi sumber data mungkin menggunakan nilai data (refresentasi) internal yang sulit dimengerti REFERENSI http://www.cloveretl.com http://www.apatar.com http://www.talend.com http://kettle.pentaho.com http://datawarehouse4u.info/ETL-tools.html http://datawarehouse4u.info/ETL-process.html http://stti.i-tech.ac.id/component/phocadownload/category/63-d ata-warehouse-datamining kk.mercubuana.ac.id/elearning /files.../18030-4-127829474663.doc http://kundang.weblog.esaunggul.ac.id/2013/09/17/extract-transf