BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI A. Tinjauan Pustaka Berdasarkan Penelitian dan studi kasus yang pernah. Sistem business intelligence terbukti dapat mempermudah end user dalam mendapatakan informasi yang dibutuhkan, dan dapat mempercepat proses pengolahan data. Sistem business intelligence dalam konteks perusahaan finance memiliki fungsi yang luas tentang kinerja penjualan, credit, collection, serta pelaporan untuk pengawasan. Sistem business intelligence sebagai pembuat keputusan pada perusahaan finance mebutuhkan data warehouse untuk menyediakansumber data yang terpusat, sehingga dapat mempermudah penyediaan informasi dengancepat serta dapat pula menganalisa permasalahannya dandengan cepat. Sistem business intelligence mengolah data sumber menjadi data ringkasan pada data warehouse dan menggunakan OLAP untuk menyajikan informasi yang diperlukan. Dalam penelitian mengenai performance dashboard pada beberapa perusahaan. Telah terbukti bahwa sebuah kinerja dashboard yang memungkinkan eksekutif untuk mengukur, memonitor dan mengelola organisasi kinerja yang lebih efektif.Dalam penelitian ini juga dijelaskan bagaimana dashboard mendukung pengambilan keputusan yang lebih baik, dimana dan bagaimana mereka digunakan. Dalam penelitian mengenai model sistem business intelligence dalam pengambilan keputusan pada perusahaan multifinance, yakni membuat rancang bangun model berbasiskan suatu sistem business intelligence untuk proses pengambilan keputusan dalam menghadapi persaingan dibidang teknologi informasi perbankan. Data dan informasi berbasis pengetahuan pakar, kondisi persaingan internal eksternal, perubahan kebutuhan 4 bisnis yang cepat, digunakan untuk menghasilkan suatu keputusan yang cepat, tepat, dan efektif. B. 2.1 LANDASAN TEORI Pengertian Data Menurut Haag et al (2005, p6), data adalah fakta mentah yang menggambarkan suatu fenomena tertentu pada dunia nyata. Menurut Inmon (2005, p493), “a recording of facts, concepts, or instructions on a storage medium for communication, retrieval, and processing by automatic means and presentation as information that is understandable by human beings.” Yang berarti data adalah catatan dari fakta-fakta, konsep, atau instruksi dalam suatu tempat penyimpanan tertentu untuk keperluan komunikasi, pengambilan, dan pemrosesan secara otomatis untuk kemudian merepresentasikan informasi yang dapat dimengerti oleh manusia Menurut Stair and Reynolds (2005, p5), “Data is raw facts, such as employee’s name and number of hours worked in a week, inventory part numbers, or sales order”, yang memiliki arti bahwa data adalah fakta mentah, seperti nama karyawan dan jam kerja karyawan dalam seminggu, nomor persediaan, atau sales order. Jadi dapat disimpulkan bahwa data adalah catatan fakta mentah yang disimpan, dimana nantinya akan diolah untuk ditampilkan sebagai informasi yang berguna. 2.2 Pengertian Informasi Menurut Inmon (2005, p498), “data that human beings assimilate and evaluate to solve a problem or make a decision.” Yaitu informasi merupakan data 5 yang telah diasimilasi dan dievaluasi oleh manusia untuk dapat memecahkan suatu permasalahan atau pengambilan keputusan tertentu. 2.3 Pengertian Database Menurut Date (2000, p10), database adalah suatu koleksi/kumpulan dari data yang persistent, yaitu ada yang berbeda satu dengan yang lainnya dan biasanya merupakan data yang bersifat sementara dimana kumpulan data tersebut dapat digunakan oleh sistem-sistem aplikasi dari suatu perusahaan. Menurut Connolly and Begg (2005, p15), ‘database is a shared collection of logically related data, designed to meet an information needs of an organization’. Yang diartikan sebagai sekumpulan data yang terkait secara logis, yang dirancang untuk memenuhi kebutuhan informasi dalam suatu organisasi. Menurut O’Brien (2005, p141), ”Database is an integrated collection of logically related data elements”, yang artinya bahwa database merupakan suatu koleksi yang terintegrasi dari elemen data yang saling terhubung secara logika. Jadi dapat disimpulkan bahwa database merupakan kumpulan atau koleksi dari data yang saling terhubung secara logis. 2.4 Pengertian On-Line Transaction Processing (OLTP) Menurut Connolly and Begg (2005, p1149), “system have been designed to handle high transaction throughput, with transactions typically making small changes to the organisation’s operational data, that is the organisations requires to handle its day to day operations”, yang berarti OLTP adalah sebuah sistem yang dirancang untuk menangani hasil proses transaksi dengan performa yang tinggi dengan transaksi yang secara umum membuat perubahan kecil terhadap data operasi organisasi, yang dibutuhkan untuk menangangi operasi sehari-hari pada perusahaan. 6 Menurut Inmon (2005, p500), “the high-performance transaction processing environment”, yang berarti lingkungan dimana terjadi proses transaksi dengan performa yang tinggi. Pada OLTP, setiap transaksi yang masuk ke dalam sistem harus dapat diakses. Jadi dapat disimpulkan bahwa OLTP adalah sistem untuk menangani transaksi operasional sehari-hari dengan performa yang tinggi. 2.5 Pengertian On-Line Analytical Processing (OLAP) Menurut Connolly and Begg (2005, p1205), “OLAP is a term that describe a technology that users a multi-dimensional views of aggregate data to provide quick access to strategic information to the purpose of advance analysis”. OLAP adalah istilah yang mendeskripsikan suatu teknologi yang menggunakan multi – dimensional view dari aggregate data untuk menyediakan akses yang cepat bagi informasi strategis dengan tujuan dari advanced analysis. 2.6 Entity Relationship (ER) Modeling Menurut Connolly and Begg (2005, p345), Entity Relationship (ER) Modeling adalah pendekatan top-down untuk mendesain database yang diawali dengan mengidentifikasikan data penting yang disebut dengan entities dan relationships di antara data-data yang harus direpresentasikan dalam model. Kemudian ditambahkan detil-detil seperti informasi yang ingin ditambahkan tentang entities dan relationships yang disebut attributes dan berbagai constraints pada entities, relationships dan attributes. 7 2.7 Konsep Data Warehouse 2.7.1 Pengertian Data Warehouse Menurut Inmon (2005, p29), “A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions” atau data warehouse adalah koleksi data yang mempunyai sifat subject-oriented, integrated, nonvolatile, dan time variant untuk mendukung proses pengambilan keputusan dalam manajemen Menurut McLeod (2004, p406), “Data warehouse, warehousing a data storage capacity is very large-scale, the data is accumulated by adding new records rather than kept current by updating existing records with new information, the data is very easily retrievable, and the data is used for decision making and is not used with the firm’s daily operations. ” yang berarti data warehouse adalah sebuah sistem penyimpanan data yang berkapasitas besar, dimana data dikumpulkan dengan menambahkan record baru daripada mengupdate record baru yang sudah ada dengan informasi baru. Data jenis ini digunakan hanya untuk proses pengambilan keputusan dan bukan kegiatan operasional perusahaan sehari-hari. Jadi dapat disimpulkan bahwa data warehouse adalah kumpulan data yang telah diringkas dan terintegrasi dari data operasional maupun data external, yang memiliki karakteristik subject-oriented, integrated, nonvolatile, dan time variant yang berguna dalam proses pengambilan keputusan . 2.7.2 Pengertian Data Mart Menurut Connolly and Begg (2005, p1171), “Data Mart is a subset of a Data warehouse that support the requirement of a particular department of 8 business function”, yang berarti Data Mart adalah bagian dari data warehouse yang mendukung kebutuhan informasi dari suatu departemen atau fungsi bisnis tertentu. Menurut Inmon (2005, p494), “Data Mart is a departmentalizes structure of data feeding from the data warehouse where data is denormalized based on the department’s need for information ”, yang dapat diartikan bahwa Data Mart adalah struktur bagian dari data warehouse dimana data tersebut tidak dinormalkan berdasarkan kebutuhan informasi tiap departemen. Jadi dapat disimpulkan bahwa data mart adalah bagian dari data warehouse yang hanya menangani kebutuhan informasi suatu departemen. 2.7.3 Karakteristik Data Warehouse Menurut Inmon (2005, p29-p33), sebuah data warehouse memiliki karakteristik sebagai berikut : 2.7.3.1 Subject-Oriented Data warehouse bersifat subject oriented berarti bahwa data warehouse bukan berorientasikan pada proses atau fungsi aplikasi tertentu, melainkan pada subyek-subyek tertentu dalam perusahaan, yang memiliki subyek-subyek yang unik untuk tiap perusahaannya. Misalnya: untuk perusahaan asuransi subyeknya adalah pelanggan, kebijakan, premi, dan keluhan; dalam pabrik subyeknya adalah produk, pesanan, vendor, tagihan material, bahan baku; dan sebagainya 2.7.3.2 Integrated Karakteristik integrasi ini dapat dikatakan merupakan aspek terpenting dari data warehouse. Integrasi disini dimaksudkan bahwa data dalam data warehouse memiliki satu bentuk tunggal fisikal yang sama dan konsisten walau berasal dari sumber yang berbeda-beda. Syarat integrasi sumber data dapat dipenuhi dengan 9 berbagai cara seperti konsisten dalam penamaan dan ukuran variabel, konsisten dalam struktur pengkodean, dan konsisten dalam atribut fisik dari data. 2.7.3.3 Time-Variant Maksud dari time variant dalam data warehouse adalah bahwa data dalam data warehouse merupakan data yang bersifat akurat dalam jangka waktu tertentu. Waktu merupakan tipe atau bagian data yang sangat penting di dalam data warehouse karena data warehouse menyimpan data historis. 2.7.3.4 Non volatile Data warehouse bersifat non-volatile, artinya data warehouse tidak dapat diubah. User tidak dapat mengubah data warehouse yang sudah ada karena data warehouse hanya memiliki dua kegiatan yaitu loading dan access data. Berbeda dengan database operasional yang memiliki tiga kegiatan operasi yaitu insert, update, dan delete. 2.7.4 Perbandingan antara OLTP dengan Data Warehouse Berikut ini adalah tabel perbandingan antara OLTP dan data warehouse (Connolly and Begg, 2005, p1153) : Sistem OLTP Sistem Data Warehouse Menyimpan data sekarang Menyimpan data histories Menyimpan data detil Menyimpan detailed, lightly, highly summarized data Data bersifat dinamis Data bersifat statis Proses yang dilakukan secara Ad hoc, tidak terstruktur, heuristic berulang processing High level dari transaction Medium ke low level dari throughput transaction throughput Pemakaian dari pola yang dapat Pemakaian dari pola yang tidak 10 diprediksi dapat diprediksi Mengarah pada transaksi Mengarah pada analisis Berorientasi pada aplikasi Berorientasi pada subyek Mendukung keputusan sehari-hari Mendukung keputusan strategi Operational user dalam jumlah Manajerial user dalam tingkat yang yang besar relatif rendah Tabel 2.1 Perbandingan Sistem OLTP dengan Sistem Data Warehouse (Connolly and Begg, 2005, p1153) 2.7.5 Struktur Data Warehouse Dalam struktur data warehouse terdapat older level of detail, current level of detail, level of summarized data (level data mart), dan level of highly summarized data. Data yang berada pada data warehouse berasal dari lingkungan operasional. Biasanya transformasi signifikan terjadi dari data yang ada di level operasional menuju ke level data warehouse. (Inmon, 2005, p33). Gambar 2.7.5 Struktur Data Dalam Data Warehouse (Inmon, 2005, p34) 2.7.5.1 Older Detail Data Older detail data merupakan data back-up (cadangan) yang jarang diakses. Data back-up seperti ini biasanya disimpan pada media penyimpanan yang 11 berbeda. Penyusunan direktori dilakukan berdasarkan urutan umur data, sehingga data dapat tersusun rapi dan mempermudah dalam melakukan akses selanjutnya 2.7.5.2 Current Detail Data Current detail data menggambarkan data detil yang aktif pada saat ini dan keadaan yang sedang berjalan. Data jenis ini memerlukan media penyimpanan yang besar dan merupakan data yang sering diakses. Current detail data ini cepat diakses, tetapi mahal dan kompleks dalam pemeliharaannya. 2.7.5.3 Lightly Summarized Data Lightly summarized data merupakan data ringkasan dari current detail data. Di dalam tahap ini, data masih belum bersifat total summary. Akses terhadap data jenis ini biasanya digunakan untuk memantau kondisi yang sedang dan sudah berjalan. 2.7.5.4 Highly Summarized Data Highly summarized data merupakan data yang bersifat total summary. Pada level ini, data sangat mudah diakses terutama untuk melakukan analisis perbandingan data berdasarkan urutan waktu dan analisis yang menggunakan data multidimensi. Data multidimensi adalah suatu teknologi software komputer yang dirancang untuk meningkatkan efisiensi dalam query data sehingga menjadi media penyimpanan yang lebih baik, serta memudahkan pengambilan data dalam volume besar. 12 2.7.5.5 Metadata Menurut Inmon (2005, p500), ”metadata is data about data. Or the description of the structure, content, key, indexes, and so forth, of data ” atau metadata merupakan data tentang data. Metadata merupakan gambaran tentang struktur, isi, kunci, indeks dari data. 2.7.6 Arsitektur Data Warehouse Menurut Inmon (2005, p193-p194), arsitektur data warehouse terdiri dari 2 bagian, yaitu : 2.7.6.1 Data Warehouse Terpusat Pembentukan dan pemeliharaan data warehouse terpusat adalah pengelolaan yang terbaik. Hal ini dilakukan karena beberapa alasan, yaitu : 1. Data dalam data warehouse terpusat terintegrasi antar perusahaan dan gambaran terintegrasi hanya digunakan di kantor pusat. 2. Perusahaan mengoperasikan sebuah model bisnis terpusat. 3. Volume dari data di dalam data warehouse terpusat seperti sebuah penyimpanan tunggal yang terpusat dari data yang pasti. 4. Sekalipun data dapat diintegrasikan, jika data diedarkan melalui banyak local sites, maka akan mempersulit dalam pengaksesan. 2.7.6.2 Data Warehouse Terdistribusi Bisnis yang tersebar secara geografis atau kebanyak tempat, membedakan produk yang dihasilkannya. Dalam hal ini, ada yang dapat disebut sebagai lokal data warehouse dan global data warehouse. Lokal data warehouse menampilkan data dan prosesnya pada bagian yang dikendalikan, dan global data warehouse menampilkan bagian dari bisnis yang terintegrasi diantara keseluruhan bisnis. 13 Data warehouse berisi banyak data, dan isi dari data akan didistribusikan ke banyak prosesor. Secara logis terdapat data warehouse tunggal, tetapi secara fisik terdapat banyak data warehouse yang berhubungan erat tetapi pada prosesor yang berbeda. Konfigurasi ini dapat disebut teknologi data warehouse terdistribusi Data warehouse terdistribusi berkembang pada kondisi yang tidak terkoordinasi. Kurangnya koordinasi pada perkembangan data warehouse yang berbeda biasanya merupakan hasil dari perbedaan politik dan organisasi. Dalam kasus ini dapat disebut sebagai perkembangan yang mandiri dari data warehouse terditribusi. 2.7.7 Keuntungan Data Warehouse Menurut Connolly and Begg (2005, p1152), data warehouse yang telah diimplementasikan dengan baik dapat memberikan keuntungan bagi organisasi, yaitu : • Nilai kembali investasi yang berpotensi tinggi. Sebuah organisasi harus mengeluarkan sumber daya dalam jumlah yang cukup besar untuk memastikan bahwa data warehouse telah diimplementasikan dengan baik. • Keuntungan kompetitif Pengembalian investasi yang besar untuk perusahaan yang sukses mengimplementasikan data warehouse menjadi bukti besarnya keuntungan kompetitif yang menyertai teknologi ini. Keuntungan kompetitif akan didapatkan jika pengambil keputusan mengakses data yang dapat mengungkapkan informasi yang sebelumnya tidak diketahui atau tidak tersedia, misal informasi mengenai tren, konsumen dan permintaan. 14 • Meningkatkan produktivitas dari para pengambil keputusan perusahaan Data warehouse meningkatkan produktivitas para pengambil keputusan perusahaan dengan menciptakan sebuah database yang terintegrasi secara konsisten, berorientasi subjek, dan data historis. Data warehouse mengintegrasikan data dari beberapa sistem yang tidak kompatibel ke dalam bentuk yang menyediakan satu pandangan yang konsisten dari organisasi. Dengan mengubah data menjadi informasi yang berguna, maka seorang manajer bisnis dapat membuat analisa yang lebih akurat dan konsisten. 2.7.8 Pemodelan Dimensional Menurut Connolly and Begg ( 2005, p1183), ”Dimensionality modelling is a logical design technique that aims to present the data in a standard, intuitive form that allows for high performance access ”, yang berarti pemodelan dimensional adalah teknik desain logika yang bertujuan untuk menyajikan data dalam standar bentuk intuitif yang mempunyai akses performa tinggi. 2.7.8.1 Star Schema Menurut Connolly and Begg ( 2005, p1183 ), ‘star scema is a logical structur that has a fact table containing factual data in the center surrounded by dimension tables containing reference data (which can be denormalized)’, yang berarti skema bintang merupakan struktur logikal yang mempunyai tabel fakta yang mengandung data faktual di pusat, dikelilingi dengan tabel dimensi yang memiliki reference data (yang dapat didenormalisasi). “A star schema is a simple database design in which dimensional data are 15 saparated from fact or event data (describing individual bussiness transaction)”. Yang berarti skema bintang adalah desain database yang sederhana dimana data dimensional dipisahkan dari fakta atau event data (menjelaskan transaksi bisnis individu). (Hoffer et al, 2005, p467) Jadi dapat disimpulkan bahwa star schema adalah struktur logika yang berisi tabel fakta dan tabel dimensi. 2.7.8.1.1 Tabel Fakta Menurut Connolly and Begg (2005,p1183), “every dimentioanl model is composed of oe table with composite primary key, called the fact table”, yang berarti table fakta adalah satu table pada dimensional model yang isinya composite primary key. Jadi key pada table fakta merupakan foreign key. Menurut Hoffer et al (2005, p467), “tables contain factual or quantitative data about a bussiness such as unit sold, orders booked and so on ”. Yaitu tabel fakta berisi data faktual atau data kuantitatif tentang bisnis, seperti penjualan barang, pemesanan dan lain-lain. Key dari tabel fakta adalah composite key yang berisi gabungan dari semua foreign key ditambah dengan komponen lain. Jadi dapat disimpulkan bahwa tabel fakta berisikan data faktual atau kuantitatif yang memiliki composite key. 2.7.8.1.2 Tabel Dimensi Menurut Connolly and Begg (2005,p1183), “a set of smaller tables called dimension tables”, yang berarti table dimensi adalah sekumpulan table-tabel yang lebih kecil dari table fakta pada dimensional model. 16 Menurut Hoffer et al (2005, p467), “dimension tables hold descriptive data about the subjects of the bussiness”. Yaitu tabel dimensi berisi data deskriptif mengenai subjek dari bisnis. Tabel dimensi biasanya berisi atribut yang digunakan untuk mengkualifikasi, mengkategorikan atau merangkum data didalam query, record, atau grafik. Setiap tabel dimensi mempunyai hubungan one-to-many ke tabel fakta. Setiap tabel dimensi pada umumnya berisi sebuah primary key yang sederhana dan juga atribut lainnya. Primary key pada tabel dimensi menjadi foreign key pada tabel fakta Jadi dapat disimpulkan bahwa tabel dimensi merupakan tabel yang lebih kecil dari tabel fakta yang berisi data deskriptif mengenai subjek dari bisnis. 2.7.8.2 Snowflake Schema Skema snowflake menurut Connolly and Begg (2005,p1184), “A variant of the star schema where the dimension table do not contain denormalized data ” yang artinya adalah sebuah variasi dari skema bintang dimana tabel dimensi sudah ternormalisasi. Skema ini dapat melibatkan lebih dari satu lapis penggabungan tabel dimensi sebelum bergabung dengan tabel fakta. Dalam skema snowflake suatu tabel dimensi dapat terhubung dengan tabel dimensi yang lain. 2.7.8.3 Starflake Schema Skema starflake menurut Connolly and Begg (2005, p1185), “a hybrid structure that contains a mixture of star and snowflake schemas.” Yang dapat diartikan bahwa skema starflake merupakan struktur gabungan dari skema bintang dan snowflake. 17 2.7.9 Metodologi Perancangan Data Warehouse Menurut Connolly and Begg (2005, p1187–p1193), terdapat metodologi perancangan data warehouse, dengan terlebih dahulu merancang data mart kemudian menyatukannya. Metode tersebut terdiri dari sembilan langkah, yaitu: 2.7.9.1 Penentuan Proses (Choosing the process) Pada tahap ini ditentukan, pada proses bisnis apa data warehouse (data mart) akan dirancang 2.7.9.2 Penentuan Grain (Choosing the grain) Menentukan secara tepat apa yang akan dipresentasikan oleh record tabel fakta. Apabila tahap ini telah selesai barulah dapat diidentifikasikan tabel-tabel dimensi yang diperlukan untuk tiap tabel fakta. 2.7.9.3 Mengidentifikasi dan Penyesuaian Dimensi ( Identifying and conforming the dimension) Pada tahapan ini, akan diidentifikasikan tabel-tabel dimensi yang diperlukan. Tabel dimensi berisi data yang menggambarkan dimensi dari bisnis. Dimension atribut adalah kolom dalam tabel dimensi. Pada dimensi karyawan misalnya, atributnya dapat berupa kode karyawan, jabatan, jenis staf. Apabila suatu tabel dimensi muncul atau digunakan pada lebih dari satu tabel fakta maka tabel dimensi itu disebut sebagai ‘conformed’dan tabel dimensi tersebut haruslah merupakan tabel dimensi yang sama. Dengan demikian , tiap tabel fakta dapat ‘berbagi’ tabel dimensi yang sama. Contoh dari tabel dimensi seperti ini misalnya tabel dimensi waktu, karyawan, dan sebagainya. 2.7.9.4 Penentuan Fakta (Choosing the facts) 18 Pada tahap ini akan diidentifikasi apa sajakah data (atribut) yang diperlukan dalam tabel fakta yang telah dipilih pada tahapan ke-2. Data-data tersebut berupa key dan data kuantitatif. 2.7.9.5 Menyimpan Pre-calculations pada Tabel Fakta (Storing pre-calculation in the fact table) Pada tahap ini, tabel fakta yang telah dipilih akan diperiksa apakah terdapat pre-calculations (data hasil kalkulasi). Dan pada tahap ini akan disimpan proses kalkulasinya. Sebagai contoh yang umum terjadi adalah pada fakta penjualan, akan disimpan total biaya atau total harga yang didapat dari jumlah jual dikali harga jual. 2.7.9.6 Melengkapi Tabel Dimensi (Rounding out the dimension table) Pada tahap ini dilakukan pemeriksaan ulang pada tabel dimensi dan menambahkan deskripsi teks terhadap dimensi untuk mempermudah proses analisis. Gambaran dari teks harus mudah digunakan dan dimengerti oleh user. 2.7.9.7 Penentuan Durasi Database (Choosing the duration of the database) Pada tahapan ini akan dipilih durasi database, yaitu ukuran seberapa jauh periode waktu (tiga tahun, lima tahun atau lebih) untuk data-data yang akan disimpan dalam database pada data warehouse. 2.7.9.8 Melacak Perubahan Dimensi Secara Perlahan (Tracking slowly changing dimension) Pada tahapan ini akan dilacak permasalahan yang berkaitan dengan dimensi yang mengalami perubahan sedikit demi sedikit karena perbedaan periode waktu. Ada tiga cara mengatasi perubahan tersebut yaitu perubahan atribut dimensi ditulis ulang, menyebabkan pembentukan record dimensi baru, dan menyebabkan pembentukan atribut pengganti, sehingga nilai lama dan nilai baru dapat diakses 19 secara bersamaan pada record dimensi yang sama. 2.7.9.9 Memutuskan prioritas dan mode query (Deciding the query priorities and the query modes) Pada tahapan ini perlu diperhatikan masalah rancangan fisikal dan menentukan masalah-masalah yang mungkin ada pada perancangan fisik seperti transformasi, backup, dan security. 2.7.10 Proses Transfer Data Dari Lingkungan Operasional ke Data warehouse Menurut Dyche (2000, p157), ada tiga proses pemindahan data dari lingkungan operasional ke data warehouse, yaitu : 1. Extraction Data ditemukan dan dipindahkan dari sistem operasional ke data warehouse atau platform transformasi. 2. Transformation Suatu program spesial atau software tool yang membersihkan data operasional agar sesuai dengan definisi awal aturan transformasi untuk data warehouse. 3. Loading Suatu program atau tool-tool seringkali yang sama yang digunakan untuk transformasi memindahkan data ke dalam tabel data warehouse. 2.7.11 Transformasi Data Menurut Hoffer et al (2005, p461-p463), “the component of data reconciliation that converts data from the format of the source operational systems 20 to the format of the enterprise data warehouse”. Yang berarti transformasi data adalah komponen rekonsiliasi data yang meng-convert data dari format sumber sistem operasional ke dalam format data warehouse perusahaan. Fungsi transformasi data terbagi ke dalam dua kategori, yaitu : • Record – Level Functions Operasi pada sebuah set record (seperti file atau tabel) adalah record level functions yang paling penting : selection, joining, dan aggregation. • Field- Level Functions Field- level functions meng – convert data dari format sumber record ke format target record yang berbeda. 2.7.12 Agregasi Menurut Inmon ( 2005, p114 ), terdapat banyak kasus dimana data dalam data warehouse, jumlah datanya menjadi terlalu banyak. Dalam kasus seperti demikian, dapat dilakukan agregasi yang mengelompokkan beberapa data detil operasional yang berbeda ke dalam satu record tunggal. Record tunggal itu disebut sebagai profile record atau aggregate record. 2.7.13 Denormalisasi Menurut Inmon ( 2005, p495 ), “the technique of placing normalized data in a physical location that optimizes the performance of the system.” Yaitu denormalisasi merupakan suatu teknik untuk menempatkan data hasil normalisasi ke dalam lokasi fisikal yang dapat mengoptimisasi kinerja sistem. Tujuan dari denormalisasi ini adalah untuk meningkatkan kinerja semaksimal mungkin dengan menghemat penggunaan sumber daya I/O yang diperlukan. 21 2.7.14 Cube Menurut Mannino (2001, p462), “A Multidimensional format in which cells contain numeric data called measures organized by subjects called dimension”. Yang berarti cube adalah format multidimensional dimana kolom-kolomnya mengandung data numeric yang disebut measure yang disusun berdasarkan subjek yang disebut dimensi. 2.7.15 Fact Finding Menurut Connolly and Begg (2005, p315), “the formal process of using techniques such as interviews and questionair to collects facts about systems, requirements and preferences”, yang diartikan sebagai proses formal yang menggunakan teknik seperti interview dan kuisioner untuk mengumpulkan fakta tentang sistem, kebutuhan serta pilihan-pilihannya. Ada lima teknik pencarian fakta yang digunakan yaitu menguji dokumentasi, wawancara, observasi operasi perusahaan, riset, kuisioner. 2.8 Microsoft SQL Server Microsoft SQL Server merupakan produk RDBMS (Relational Database Management System) yang dibuat oleh Microsoft. Orang sering menyebutnya dengan SQL Server saja. Microsoft SQL Server juga mendukung SQL sebagai bahasa untuk memproses query ke dalam database. Microsoft SQL Server Mirosoft SQL Server banyak digunakan pada dunia bisnis, pendidikan atau juga pemerintahan sebagai solusi database atau penyimpanan data. Pada tahun 2008 Microsoft mengeluarkan SQL Server 2008 yang merupakan versi yang banyak 22 digunakan. Berikut ini adalah beberapa fitur yang dari sekian banyak fitur yang ada pada SQL Server 2008: a. XML Support. Dengan fitur ini, Anda bisa menyimpan dokumen XML dalam suatu tabel, meng-query data ke dalam format XML melalui Transact-SQL dan lain sebagainya. b. Multi-Instance Support. Fitur ini memungkinkan Anda untuk menjalankan beberapa database engine SQL Server pada mesin yang sama. c. Data Warehousing and Business Intelligence (BI) Improvements. SQL Server dilengkapi dengan fungsi-fungsi untuk keperluan Business Intelligence melalui Analysis Services. Selain itu, SQL Server 2008 juga memiliki tools untuk keperluan data mining. d. Performance and Scalability Improvements. SQL Server menerapkan distributed partitioned views yang memungkinkan untuk membagi workload ke beberapa server sekaligus. Peningkatan lainnya juga dicapai di sisi DBCC, indexed view, table partitioning, dan index reorganization. e. Query Analyzer Improvements. Fitur yang dihadirkan antara lain: integrated debugger, object browser, dan fasilitas object search. f. SSIS Enhancement. Fasilitas ini sekarang sudah mampu untuk memperhatikan primary key dan foreign key constraints. Ini berguna pada saat migrasi tabel dari RDBMS lain. g. Transact-SQL Enhancements. Salah satu peningkatan disini adalah T-SQL sudah mendukung UDF (User-Definable Function). Ini memungkinkan Anda untuk menyimpan rutin-rutin ke dalam database engine. 23 2.8.1 Daftar Tabel Tipe Data Dalam SQL Server 2008 Data dalam Microsoft SQL Server sangat berfariasi, dan setiap kolom dalam satu table harus memiliki data sesuai dengan jenis dan tipenya. Karena jika data yang dimasukan kedalam table tidak sesuai dan tipenya Microsoft Server akan memperlambat waktu pengolahan data. Integer Keterangan Bit Integer dengan nilai 0 atau 1 Int Nilai Integer dengan nilai antara -2^-3 (2.147.483.648) sampai 2^31-1 (2.147.384.647) Decimal atau Numeric Angka antara -10^38-1 sampai 10^38-1 Money Nilai yang terhubung dengan mata uang dari 2^63 (-922.377.203.685.477,5808 sampai 2^63-1 (-922.377.203.685.477,5807) Float -214.748,3648 sampai 1.79E+308 Real -3.40E+308 sampai 3.04E+38 Datetime 1 Januari 1973 sampai 31 Desember 9999 Smalldatetime 1 Januari 1900 sampai 6 Juni 2079, dengan ketelitian hingga1 menit String Keterangan Char Field tetap dengan ukuran maksimal 8000 byte Varchar Field tetap dengan ukuran maksimal 8000 byte 24 Text Variabel dengan ukuran hingga 2^31-1 (2.147.488.647) byte Unicode String Keterangan Nchar Karakter Unicode dengan ukuran tetap hingga 4000 byte Ncarchar Karakter Unicode dengan ukuran bervariasi hingga 4000 byte Ntext Variabel dengan ukuran sampai 2^31-1 (2.147.483.647) byte Binary String Keterangan Binary Ukuran tetap hingga 8000 byte Varbinary Ukuran bervariasi hingga 8000 byte Image Ukuran bervariasi hingga 2^31-1 (2.147.483.647) byte Tabel 2.2 Daftar tipe data dalam SQL Server 2008 2.9 Bussines Intelegence 2.9.1 Definisi Terdapat beberapa pendapat mengenai definisi dari Business Intelligence, diantaranya : 1. Secara umum Business Intelligence (BI) merupakan sebuah proses untuk melakukan ekstraksi data-data operasional perusahaan dan mengumpulkannya dalam sebuah data warehouse yang selanjutnya diproses menggunakan 25 berbagai analisis statistik dalam proses data mining, sehingga didapat berbagai kecenderungan atau pattern dari data. 2. Business Intelligence adalah rangkaian aplikasi dan teknologi untuk mengumpulkan, menyimpan, menganalisis, dan menyuguhkan akses data untuk membantu petinggi perusahaan dalam pengambilan keputusan. 3. Business Intelligence (BI) merupakan representasi dari aplikasi dan teknologi untuk mengumpulkan, menyimpan, menganalisa dan menyediakan akses terhadap data untuk membantu user dalam suatu perusahaan untuk mengambil keputusan yang lebih baik. 2.9.2 Karakteristik Business Intelligence Sistem Business Intelligence yang baik mempunyai berbagai karakteristik. diantaranya : 1. Tujuan utama Seluruh sistem komputer mempunyai tujuan utama bagi seluruh pengguna sesuai dengan kebutuhan penguna masing-masing. 2. Ketersediaan data yang relevan Masalah ketersediaan data merupakan poin yang paling penting dalam sistem business intelligence yang efektif. Dalam proses pembuat keputusan sering terjadi penyampaian informasi yang tidak lengkap atau bahkan yang tidak sebenarnya. Namun dengan dukungan BI, ketersediaan data yang relevan dapat diatasis ehingga dapat menyuguhkan data-data yang relevan. 3. Kemampuan Dalam hal ini terdapat kemampuan BI yang paling utama yaitu dapat memberikan kemudahan akses untuk informasi terbaru dari bisnis yang berjalan 26 serta peluang yang diproyeksikan, selain itu Bi dapat memenuhi kapabilitas untuk melakukan analisis dan memenuhi permintaan pengguna 4. Struktur Pendukung Dalam BI, sistem pendukung didalamnya tidak hanya terdiri dari hardware dan software, namun juga terdiri dari suatu proses yang dibuat untuk pengambilan keputusan yang lebih baik serta untuk menentukan strategi untuk misi dan tujuan kedepan. 2.9.3 Tools Business Intelligence Tools dalam business intelligence merupakan jenis dari software aplikasi yang di desain untuk membantu proses analisa dan representasi data dalam business intelligence. yang terdiri dari : i. Digital Dashboard, juga dikenal sebagai Business Intelligence Dashboard, Enterprise Dashboard, atau Executive Dashboard, merupakan summary dalam bentuk visual dari suatu data bisnis yang menampilkan kondisi bisnis melalui metrics dan Key Performance Indicators (KPIs). ii. Online Analytical Processing, dikenal sebagai OLAP (termasuk juga HOLAP, ROLAP dan MOLAP), kemampuan managemen, pengambil keputusan dan sistem informasi eksekutif yang memberikan support untuk menganalisa data yang interaktif dari data yang besar dalam berbagai perspektif. iii. Perangkat Lunak Reporting mengenerate view agregasi dari data untuk menjaga agar pihak managemen selalu mendapatkan informasi tentang kondisi perusahaan mereka. iv. Data Mining, ekstraksi dari informasi pemakai dari database dengan mengutilisasi software yang dapat mengisolasi dan mengidentifikasikan pattern 27 yang sebelumnya tidak terdeteksi atau trend dari suatu data dari keseluruhan data yang berjumlah besar. 2.10 Data Mining Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data. Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar. Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika . Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Berawal dari beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki teknik tradisional sehingga bisa menangani: - Jumlah data yang sangat besar - Dimensi data yang tinggi - Data yang heterogen dan berbeda bersifat 28 Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk pemilik data. Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara lain : 1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak konsiten. 2. Data integration, mengkombinasikan atau mengintegrasikan beberapa sumber data. 3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis. 4. Data transformation, mentransformasikan data summary ataupun operasi agregasi. 5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk mengekstrak pola data yang tersembunyi. 6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan pengetahuan berdasarkan nilai-nilai yang menarik 7. Knowledge presentation, dimana teknik representasi dan visualisasi data digunakan untuk mempresentasikan pengetahuan yang didadapat kepada user. 29 Gambar 2.10 Tahap-tahap Data Mining 2.10.1 Teknik Data mining Ada banyak jenis teknik analisa yang dapat digolongkan dalam data mining. Namun ada tiga teknik data mining yang popular, yaitu : 1. Association Rule Mining Association rule mining adalah teknik mining untuk menemukan aturan asosiatif antara suatu kombinasi atribut. Contoh dari aturan asosiatif dari analisa pembelian di suatu pasar swalayan diketahui berapa besar kemungkinan seorang pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang 30 strategi pemasaran dengan memakai kupon diskon untuk kombinasi barang tertentu. 2. Klasifikasi Klasifikasi adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa pohon keputusan, formula matematis atau neural network. Proses klasifikasi biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. 3. Clustering Berbeda dengan association rule mining dan klasifikasi dimana kelas data telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar cluster. Clustering dapat dilakukan pada data yang memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi. 31 4. Forecasting Forecasting mining adalah teknik mining yang mirip dengan klasifikasi. Kecuali dalam prediksi, data yang diprediksi biasanya adalah time series data. Time series data merupakan sekuens data yang nilainya berubah setiap interval waktu tertentu. Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu. Grafik yang dibangun dapat dimanfaatkan untuk menganalisis trend atau pola pada time-series data. 2.11 Confusion Matrix Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi. Tabel ini diperlukan untuk menentukan kinerja suatu model klasifikasi. Gambar 2.11 contoh table Confusion Matrix. 32