4 BAB 2 TINJAUAN PUSTAKA DAN DASAR TEORI A. Tinjauan

advertisement
BAB 2
TINJAUAN PUSTAKA DAN DASAR TEORI
A. Tinjauan Pustaka
Berdasarkan Penelitian dan studi kasus yang pernah. Sistem business intelligence
terbukti dapat mempermudah end user dalam mendapatakan informasi yang dibutuhkan,
dan dapat mempercepat proses pengolahan data. Sistem business intelligence dalam
konteks perusahaan finance memiliki fungsi yang luas tentang kinerja penjualan, credit,
collection, serta pelaporan untuk pengawasan. Sistem business intelligence sebagai
pembuat keputusan pada perusahaan finance mebutuhkan data warehouse untuk
menyediakansumber data yang terpusat, sehingga dapat mempermudah penyediaan
informasi dengancepat serta dapat pula menganalisa permasalahannya dandengan cepat.
Sistem business intelligence mengolah data sumber menjadi data ringkasan pada data
warehouse dan menggunakan OLAP untuk menyajikan informasi yang diperlukan.
Dalam penelitian mengenai performance dashboard pada beberapa perusahaan.
Telah terbukti bahwa sebuah kinerja dashboard yang memungkinkan eksekutif untuk
mengukur, memonitor dan mengelola organisasi kinerja yang lebih efektif.Dalam
penelitian ini juga dijelaskan bagaimana dashboard mendukung pengambilan keputusan
yang lebih baik, dimana dan bagaimana mereka digunakan.
Dalam penelitian mengenai model sistem business intelligence dalam pengambilan
keputusan pada perusahaan multifinance, yakni membuat rancang bangun model
berbasiskan suatu sistem business intelligence untuk proses pengambilan keputusan dalam
menghadapi persaingan dibidang teknologi informasi perbankan. Data dan informasi
berbasis pengetahuan pakar, kondisi persaingan internal eksternal, perubahan kebutuhan
4
bisnis yang cepat, digunakan untuk menghasilkan suatu keputusan yang cepat, tepat, dan
efektif.
B.
2.1
LANDASAN TEORI
Pengertian Data
Menurut Haag et al (2005, p6), data adalah fakta mentah yang menggambarkan
suatu fenomena tertentu pada dunia nyata.
Menurut Inmon (2005, p493), “a recording of facts, concepts, or instructions
on a storage medium for communication, retrieval, and processing by automatic
means and presentation as information that is understandable by human beings.”
Yang berarti data adalah catatan dari fakta-fakta, konsep, atau instruksi dalam
suatu tempat penyimpanan tertentu untuk keperluan komunikasi, pengambilan, dan
pemrosesan secara otomatis untuk kemudian merepresentasikan informasi yang
dapat dimengerti oleh manusia
Menurut Stair and Reynolds (2005, p5), “Data is raw facts, such as
employee’s name and number of hours worked in a week, inventory part numbers,
or sales order”, yang memiliki arti bahwa data adalah fakta mentah, seperti nama
karyawan dan jam kerja karyawan dalam seminggu, nomor persediaan, atau sales
order.
Jadi dapat disimpulkan bahwa data adalah catatan fakta mentah yang
disimpan, dimana nantinya akan diolah untuk ditampilkan sebagai informasi yang
berguna.
2.2
Pengertian Informasi
Menurut Inmon (2005, p498), “data that human beings assimilate and
evaluate to solve a problem or make a decision.” Yaitu informasi merupakan data
5
yang telah diasimilasi dan dievaluasi oleh manusia untuk dapat memecahkan suatu
permasalahan atau pengambilan keputusan tertentu.
2.3
Pengertian Database
Menurut Date (2000, p10), database adalah suatu koleksi/kumpulan dari data
yang persistent, yaitu ada yang berbeda satu dengan yang lainnya dan biasanya
merupakan data yang bersifat sementara dimana kumpulan data tersebut dapat
digunakan oleh sistem-sistem aplikasi dari suatu perusahaan.
Menurut Connolly and Begg (2005, p15), ‘database is a shared collection of
logically related data, designed to meet an information needs of an organization’.
Yang diartikan sebagai sekumpulan data yang terkait secara logis, yang dirancang
untuk memenuhi kebutuhan informasi dalam suatu organisasi.
Menurut O’Brien (2005, p141), ”Database is an integrated collection of
logically related data elements”, yang artinya bahwa database merupakan suatu
koleksi yang terintegrasi dari elemen data yang saling terhubung secara logika.
Jadi dapat disimpulkan bahwa database merupakan kumpulan atau koleksi
dari data yang saling terhubung secara logis.
2.4
Pengertian On-Line Transaction Processing (OLTP)
Menurut Connolly and Begg (2005, p1149), “system have been designed to
handle high transaction throughput, with transactions typically making small
changes to the organisation’s operational data, that is the organisations requires
to handle its day to day operations”, yang berarti OLTP adalah sebuah sistem
yang dirancang untuk menangani hasil proses transaksi dengan performa yang
tinggi dengan transaksi yang secara umum membuat perubahan kecil terhadap data
operasi organisasi, yang dibutuhkan untuk menangangi operasi sehari-hari pada
perusahaan.
6
Menurut Inmon (2005, p500), “the high-performance transaction processing
environment”, yang berarti lingkungan dimana terjadi proses transaksi dengan
performa yang tinggi. Pada OLTP, setiap transaksi yang masuk ke dalam sistem
harus dapat diakses.
Jadi dapat disimpulkan bahwa OLTP adalah sistem untuk menangani
transaksi operasional sehari-hari dengan performa yang tinggi.
2.5
Pengertian On-Line Analytical Processing (OLAP)
Menurut Connolly and Begg (2005, p1205), “OLAP is a term that describe a
technology that users a multi-dimensional views of aggregate data to provide
quick access to strategic information to the purpose of advance analysis”. OLAP
adalah istilah yang mendeskripsikan suatu teknologi yang menggunakan multi –
dimensional view dari aggregate data untuk menyediakan akses yang cepat bagi
informasi strategis dengan tujuan dari advanced analysis.
2.6
Entity Relationship (ER) Modeling
Menurut Connolly and Begg (2005, p345), Entity Relationship (ER)
Modeling adalah pendekatan top-down untuk mendesain database yang diawali
dengan mengidentifikasikan data penting yang disebut dengan entities dan
relationships di antara data-data yang harus direpresentasikan dalam model.
Kemudian ditambahkan detil-detil seperti informasi yang ingin ditambahkan
tentang entities dan relationships yang disebut attributes dan berbagai constraints
pada entities, relationships dan attributes.
7
2.7
Konsep Data Warehouse
2.7.1 Pengertian Data Warehouse
Menurut Inmon (2005, p29),
“A data warehouse is a subject-oriented,
integrated, nonvolatile, and time-variant collection of data in support of
management’s decisions” atau data warehouse adalah koleksi data yang
mempunyai sifat subject-oriented, integrated, nonvolatile, dan time variant untuk
mendukung proses pengambilan keputusan dalam manajemen
Menurut McLeod (2004, p406), “Data warehouse, warehousing a data
storage capacity is very large-scale, the data is accumulated by adding new
records rather than kept current by updating existing records with new
information, the data is very easily retrievable, and the data is used for decision
making and is not used with the firm’s daily operations. ” yang berarti data
warehouse adalah sebuah sistem penyimpanan data yang berkapasitas besar,
dimana data dikumpulkan dengan menambahkan record baru daripada
mengupdate record baru yang sudah ada dengan informasi baru. Data jenis ini
digunakan hanya untuk proses pengambilan keputusan dan bukan kegiatan
operasional perusahaan sehari-hari.
Jadi dapat disimpulkan bahwa data warehouse adalah kumpulan data yang
telah diringkas dan terintegrasi dari data operasional maupun data external, yang
memiliki karakteristik subject-oriented, integrated, nonvolatile, dan time variant
yang berguna dalam proses pengambilan keputusan .
2.7.2 Pengertian Data Mart
Menurut Connolly and Begg (2005, p1171), “Data Mart is a subset of a
Data warehouse that support the requirement of a particular department of
8
business function”, yang berarti Data Mart adalah bagian dari data warehouse
yang mendukung kebutuhan informasi dari suatu departemen atau fungsi bisnis
tertentu.
Menurut Inmon (2005, p494), “Data Mart is a departmentalizes structure of
data feeding from the data warehouse where data is denormalized based on the
department’s need for information ”, yang dapat diartikan bahwa Data Mart
adalah struktur bagian dari data warehouse dimana data tersebut tidak
dinormalkan berdasarkan kebutuhan informasi tiap departemen.
Jadi dapat disimpulkan bahwa data mart adalah bagian dari data warehouse
yang hanya menangani kebutuhan informasi suatu departemen.
2.7.3 Karakteristik Data Warehouse
Menurut Inmon (2005, p29-p33), sebuah data warehouse memiliki
karakteristik sebagai berikut :
2.7.3.1 Subject-Oriented
Data warehouse bersifat subject oriented berarti bahwa data warehouse
bukan berorientasikan pada proses atau fungsi aplikasi tertentu, melainkan pada
subyek-subyek tertentu dalam perusahaan, yang memiliki subyek-subyek yang
unik untuk tiap perusahaannya. Misalnya: untuk perusahaan asuransi subyeknya
adalah pelanggan, kebijakan, premi, dan keluhan; dalam pabrik subyeknya adalah
produk, pesanan, vendor, tagihan material, bahan baku; dan sebagainya
2.7.3.2 Integrated
Karakteristik integrasi ini dapat dikatakan merupakan aspek terpenting dari
data warehouse. Integrasi disini dimaksudkan bahwa data dalam data warehouse
memiliki satu bentuk tunggal fisikal yang sama dan konsisten walau berasal dari
sumber yang berbeda-beda. Syarat integrasi sumber data dapat dipenuhi dengan
9
berbagai cara seperti konsisten dalam penamaan dan ukuran variabel, konsisten
dalam struktur pengkodean, dan konsisten dalam atribut fisik dari data.
2.7.3.3 Time-Variant
Maksud dari time variant dalam data warehouse adalah bahwa data dalam
data warehouse merupakan data yang bersifat akurat dalam jangka waktu tertentu.
Waktu merupakan tipe atau bagian data yang sangat penting di dalam data
warehouse karena data warehouse menyimpan data historis.
2.7.3.4 Non volatile
Data warehouse bersifat non-volatile, artinya data warehouse tidak dapat
diubah. User tidak dapat mengubah data warehouse yang sudah ada karena data
warehouse hanya memiliki dua kegiatan yaitu loading dan access data. Berbeda
dengan database operasional yang memiliki tiga kegiatan operasi yaitu insert,
update, dan delete.
2.7.4 Perbandingan antara OLTP dengan Data Warehouse
Berikut ini adalah tabel perbandingan antara OLTP dan data warehouse
(Connolly and Begg, 2005, p1153) :
Sistem OLTP
Sistem Data Warehouse
Menyimpan data sekarang
Menyimpan data histories
Menyimpan data detil
Menyimpan detailed, lightly,
highly summarized data
Data bersifat dinamis
Data bersifat statis
Proses yang dilakukan secara
Ad hoc, tidak terstruktur, heuristic
berulang
processing
High level dari transaction
Medium ke low level dari
throughput
transaction throughput
Pemakaian dari pola yang dapat
Pemakaian dari pola yang tidak
10
diprediksi
dapat diprediksi
Mengarah pada transaksi
Mengarah pada analisis
Berorientasi pada aplikasi
Berorientasi pada subyek
Mendukung keputusan sehari-hari
Mendukung keputusan strategi
Operational user dalam jumlah
Manajerial user dalam tingkat yang
yang besar
relatif rendah
Tabel 2.1 Perbandingan Sistem OLTP dengan Sistem
Data Warehouse (Connolly and Begg, 2005, p1153)
2.7.5 Struktur Data Warehouse
Dalam struktur data warehouse terdapat older level of detail, current level
of detail, level of summarized data (level data mart), dan level of highly
summarized data. Data yang berada pada data warehouse berasal dari lingkungan
operasional. Biasanya transformasi signifikan terjadi dari data yang ada di level
operasional menuju ke level data warehouse. (Inmon, 2005, p33).
Gambar 2.7.5 Struktur Data Dalam Data Warehouse (Inmon, 2005, p34)
2.7.5.1 Older Detail Data
Older detail data merupakan data back-up (cadangan) yang jarang diakses.
Data back-up seperti ini biasanya disimpan pada media penyimpanan yang
11
berbeda. Penyusunan direktori dilakukan berdasarkan urutan umur data, sehingga
data dapat tersusun rapi dan mempermudah dalam melakukan akses selanjutnya
2.7.5.2 Current Detail Data
Current detail data menggambarkan data detil yang aktif pada saat ini dan
keadaan yang sedang berjalan. Data jenis ini memerlukan media penyimpanan
yang besar dan merupakan data yang sering diakses. Current detail data ini cepat
diakses, tetapi mahal dan kompleks dalam pemeliharaannya.
2.7.5.3 Lightly Summarized Data
Lightly summarized data merupakan data ringkasan dari current detail data.
Di dalam tahap ini, data masih belum bersifat total summary. Akses terhadap data
jenis ini biasanya digunakan untuk memantau kondisi yang sedang dan sudah
berjalan.
2.7.5.4 Highly Summarized Data
Highly summarized data merupakan data yang bersifat total summary. Pada
level ini, data sangat mudah diakses terutama untuk melakukan analisis
perbandingan data berdasarkan urutan waktu dan analisis yang menggunakan data
multidimensi. Data multidimensi adalah suatu teknologi software komputer yang
dirancang untuk meningkatkan efisiensi dalam query data sehingga menjadi media
penyimpanan yang lebih baik, serta memudahkan pengambilan data dalam volume
besar.
12
2.7.5.5 Metadata
Menurut Inmon (2005, p500), ”metadata is data about data. Or the
description of the structure, content, key, indexes, and so forth, of data ” atau
metadata merupakan data tentang data. Metadata merupakan gambaran tentang
struktur, isi, kunci, indeks dari data.
2.7.6 Arsitektur Data Warehouse
Menurut Inmon (2005, p193-p194), arsitektur data warehouse terdiri dari 2
bagian, yaitu :
2.7.6.1 Data Warehouse Terpusat
Pembentukan dan pemeliharaan data warehouse terpusat adalah pengelolaan
yang terbaik. Hal ini dilakukan karena beberapa alasan, yaitu :
1. Data dalam data warehouse terpusat terintegrasi antar perusahaan dan
gambaran terintegrasi hanya digunakan di kantor pusat.
2. Perusahaan mengoperasikan sebuah model bisnis terpusat.
3. Volume dari data di dalam data warehouse terpusat seperti sebuah
penyimpanan tunggal yang terpusat dari data yang pasti.
4. Sekalipun data dapat diintegrasikan, jika data diedarkan melalui banyak local
sites, maka akan mempersulit dalam pengaksesan.
2.7.6.2 Data Warehouse Terdistribusi
Bisnis yang tersebar secara geografis atau kebanyak tempat, membedakan
produk yang dihasilkannya. Dalam hal ini, ada yang dapat disebut sebagai lokal
data warehouse dan global data warehouse. Lokal data warehouse menampilkan
data dan prosesnya pada bagian yang dikendalikan, dan global data warehouse
menampilkan bagian dari bisnis yang terintegrasi diantara keseluruhan bisnis.
13
Data warehouse berisi banyak data, dan isi dari data akan didistribusikan ke
banyak prosesor. Secara logis terdapat data warehouse tunggal, tetapi secara fisik
terdapat banyak data warehouse yang berhubungan erat tetapi pada prosesor yang
berbeda. Konfigurasi ini dapat disebut teknologi data warehouse terdistribusi
Data warehouse terdistribusi berkembang pada kondisi yang tidak
terkoordinasi. Kurangnya koordinasi pada perkembangan data warehouse yang
berbeda biasanya merupakan hasil dari perbedaan politik dan organisasi. Dalam
kasus ini dapat disebut sebagai perkembangan yang mandiri dari data warehouse
terditribusi.
2.7.7
Keuntungan Data Warehouse
Menurut Connolly and Begg (2005, p1152), data warehouse yang telah
diimplementasikan dengan baik dapat memberikan keuntungan bagi organisasi,
yaitu :
•
Nilai kembali investasi yang berpotensi tinggi.
Sebuah organisasi harus mengeluarkan sumber daya dalam jumlah yang
cukup
besar
untuk
memastikan
bahwa
data
warehouse
telah
diimplementasikan dengan baik.
•
Keuntungan kompetitif
Pengembalian investasi yang besar untuk perusahaan yang sukses
mengimplementasikan data warehouse menjadi bukti besarnya keuntungan
kompetitif yang menyertai teknologi ini. Keuntungan kompetitif akan
didapatkan
jika
pengambil
keputusan
mengakses
data
yang
dapat
mengungkapkan informasi yang sebelumnya tidak diketahui atau tidak
tersedia, misal informasi mengenai tren, konsumen dan permintaan.
14
•
Meningkatkan produktivitas dari para pengambil keputusan perusahaan
Data warehouse meningkatkan produktivitas para pengambil keputusan
perusahaan dengan menciptakan sebuah database yang terintegrasi secara
konsisten,
berorientasi
subjek,
dan
data
historis.
Data
warehouse
mengintegrasikan data dari beberapa sistem yang tidak kompatibel ke dalam
bentuk yang menyediakan satu pandangan yang konsisten dari organisasi.
Dengan
mengubah data menjadi informasi yang berguna, maka seorang
manajer bisnis dapat membuat analisa yang lebih akurat dan konsisten.
2.7.8 Pemodelan Dimensional
Menurut Connolly and Begg ( 2005, p1183), ”Dimensionality modelling is a
logical design technique that aims to present the data in a standard, intuitive form
that allows for high performance access ”, yang berarti pemodelan dimensional
adalah teknik desain logika yang bertujuan untuk menyajikan data dalam standar
bentuk intuitif yang mempunyai akses performa tinggi.
2.7.8.1 Star Schema
Menurut Connolly and Begg ( 2005, p1183 ), ‘star scema is a logical
structur that has a fact table containing factual data in the center surrounded by
dimension tables containing reference data (which can be denormalized)’, yang
berarti skema bintang merupakan struktur logikal yang mempunyai tabel fakta
yang mengandung data faktual di pusat, dikelilingi dengan tabel dimensi yang
memiliki reference data (yang dapat didenormalisasi).
“A star schema is a simple database design in which dimensional data are
15
saparated from fact or event data (describing individual bussiness transaction)”.
Yang berarti skema bintang adalah desain database yang sederhana dimana data
dimensional dipisahkan dari fakta atau event data (menjelaskan transaksi bisnis
individu). (Hoffer et al, 2005, p467)
Jadi dapat disimpulkan bahwa star schema adalah struktur logika yang berisi
tabel fakta dan tabel dimensi.
2.7.8.1.1 Tabel Fakta
Menurut Connolly and Begg (2005,p1183), “every dimentioanl model is
composed of oe table with composite primary key, called the fact table”, yang
berarti table fakta adalah satu table pada dimensional model yang isinya composite
primary key. Jadi key pada table fakta merupakan foreign key.
Menurut Hoffer et al (2005, p467), “tables contain factual or quantitative
data about a bussiness such as unit sold, orders booked and so on ”. Yaitu tabel
fakta berisi data faktual atau data kuantitatif tentang bisnis, seperti penjualan
barang, pemesanan dan lain-lain. Key dari tabel fakta adalah composite key yang
berisi gabungan dari semua foreign key ditambah dengan komponen lain.
Jadi dapat disimpulkan bahwa tabel fakta berisikan data faktual atau
kuantitatif yang memiliki composite key.
2.7.8.1.2 Tabel Dimensi
Menurut Connolly and Begg (2005,p1183), “a set of smaller tables called
dimension tables”, yang berarti table dimensi adalah sekumpulan table-tabel yang
lebih kecil dari table fakta pada dimensional model.
16
Menurut Hoffer et al (2005, p467), “dimension tables hold descriptive data
about the subjects of the bussiness”. Yaitu tabel dimensi berisi data deskriptif
mengenai subjek dari bisnis. Tabel dimensi biasanya berisi atribut yang digunakan
untuk mengkualifikasi, mengkategorikan atau merangkum data didalam query,
record, atau grafik. Setiap tabel dimensi mempunyai hubungan one-to-many ke
tabel fakta. Setiap tabel dimensi pada umumnya berisi sebuah primary key yang
sederhana dan juga atribut lainnya. Primary key pada tabel dimensi menjadi
foreign key pada tabel fakta
Jadi dapat disimpulkan bahwa tabel dimensi merupakan tabel yang lebih
kecil dari tabel fakta yang berisi data deskriptif mengenai subjek dari bisnis.
2.7.8.2 Snowflake Schema
Skema snowflake menurut Connolly and Begg (2005,p1184), “A variant of
the star schema where the dimension table do not contain denormalized data ”
yang artinya adalah sebuah variasi dari skema bintang dimana tabel dimensi sudah
ternormalisasi. Skema ini dapat melibatkan lebih dari satu lapis penggabungan
tabel dimensi sebelum bergabung dengan tabel fakta. Dalam skema snowflake
suatu tabel dimensi dapat terhubung dengan tabel dimensi yang lain.
2.7.8.3 Starflake Schema
Skema starflake menurut Connolly and Begg (2005, p1185), “a hybrid
structure that contains a mixture of star and snowflake schemas.” Yang dapat
diartikan bahwa skema starflake merupakan struktur gabungan dari skema bintang
dan snowflake.
17
2.7.9 Metodologi Perancangan Data Warehouse
Menurut Connolly and Begg (2005, p1187–p1193), terdapat metodologi
perancangan data warehouse, dengan terlebih dahulu merancang data mart
kemudian menyatukannya. Metode tersebut terdiri dari sembilan langkah, yaitu:
2.7.9.1 Penentuan Proses (Choosing the process)
Pada tahap ini ditentukan, pada proses bisnis apa data warehouse (data
mart) akan dirancang
2.7.9.2 Penentuan Grain (Choosing the grain)
Menentukan secara tepat apa yang akan dipresentasikan oleh record tabel
fakta. Apabila tahap ini telah selesai barulah dapat diidentifikasikan tabel-tabel
dimensi yang diperlukan untuk tiap tabel fakta.
2.7.9.3 Mengidentifikasi dan Penyesuaian Dimensi ( Identifying and conforming the
dimension)
Pada tahapan ini, akan diidentifikasikan tabel-tabel dimensi yang diperlukan.
Tabel dimensi berisi data yang menggambarkan dimensi dari bisnis. Dimension
atribut adalah kolom dalam tabel dimensi. Pada dimensi karyawan misalnya,
atributnya dapat berupa kode karyawan, jabatan, jenis staf.
Apabila suatu tabel dimensi muncul atau digunakan pada lebih dari satu
tabel fakta maka tabel dimensi itu disebut sebagai ‘conformed’dan tabel dimensi
tersebut haruslah merupakan tabel dimensi yang sama. Dengan demikian , tiap
tabel fakta dapat ‘berbagi’ tabel dimensi yang sama. Contoh dari tabel dimensi
seperti ini misalnya tabel dimensi waktu, karyawan, dan sebagainya.
2.7.9.4 Penentuan Fakta (Choosing the facts)
18
Pada tahap ini akan diidentifikasi apa sajakah data (atribut) yang diperlukan
dalam tabel fakta yang telah dipilih pada tahapan ke-2. Data-data tersebut berupa
key dan data kuantitatif.
2.7.9.5 Menyimpan Pre-calculations pada Tabel Fakta (Storing pre-calculation in the
fact table)
Pada tahap ini, tabel fakta yang telah dipilih akan diperiksa apakah terdapat
pre-calculations (data hasil kalkulasi). Dan pada tahap ini akan disimpan proses
kalkulasinya. Sebagai contoh yang umum terjadi adalah pada fakta penjualan,
akan disimpan total biaya atau total harga yang didapat dari jumlah jual dikali
harga jual.
2.7.9.6 Melengkapi Tabel Dimensi (Rounding out the dimension table)
Pada tahap ini dilakukan pemeriksaan ulang pada tabel dimensi dan
menambahkan deskripsi teks terhadap dimensi untuk mempermudah proses
analisis. Gambaran dari teks harus mudah digunakan dan dimengerti oleh user.
2.7.9.7 Penentuan Durasi Database (Choosing the duration of the database)
Pada tahapan ini akan dipilih durasi database, yaitu ukuran seberapa jauh
periode waktu (tiga tahun, lima tahun atau lebih) untuk data-data yang akan
disimpan dalam database pada data warehouse.
2.7.9.8 Melacak Perubahan Dimensi Secara Perlahan (Tracking slowly changing
dimension)
Pada tahapan ini akan dilacak permasalahan yang berkaitan dengan dimensi
yang mengalami perubahan sedikit demi sedikit karena perbedaan periode waktu.
Ada tiga cara mengatasi perubahan tersebut yaitu perubahan atribut dimensi ditulis
ulang, menyebabkan pembentukan record dimensi baru, dan menyebabkan
pembentukan atribut pengganti, sehingga nilai lama dan nilai baru dapat diakses
19
secara bersamaan pada record dimensi yang sama.
2.7.9.9 Memutuskan prioritas dan mode query (Deciding the query priorities and the
query modes)
Pada tahapan ini perlu diperhatikan masalah rancangan fisikal dan
menentukan masalah-masalah yang mungkin ada pada perancangan fisik seperti
transformasi, backup, dan security.
2.7.10 Proses Transfer Data Dari Lingkungan Operasional ke Data warehouse
Menurut Dyche (2000, p157), ada tiga proses pemindahan data dari
lingkungan operasional ke data warehouse, yaitu :
1. Extraction
Data ditemukan dan dipindahkan dari sistem operasional ke data warehouse
atau platform transformasi.
2. Transformation
Suatu program spesial atau software tool yang membersihkan data
operasional agar sesuai dengan definisi awal aturan transformasi untuk data
warehouse.
3. Loading
Suatu program atau tool-tool seringkali yang sama yang digunakan untuk
transformasi memindahkan data ke dalam tabel data warehouse.
2.7.11 Transformasi Data
Menurut Hoffer et al (2005, p461-p463), “the component of data
reconciliation that converts data from the format of the source operational systems
20
to the format of the enterprise data warehouse”. Yang berarti transformasi data
adalah komponen rekonsiliasi data yang meng-convert data dari format sumber
sistem operasional ke dalam format data warehouse perusahaan.
Fungsi transformasi data terbagi ke dalam dua kategori, yaitu :
• Record – Level Functions
Operasi pada sebuah set record (seperti file atau tabel) adalah record
level functions yang paling penting : selection, joining, dan aggregation.
• Field- Level Functions
Field- level functions meng – convert data dari format sumber record
ke format target record yang berbeda.
2.7.12 Agregasi
Menurut Inmon ( 2005, p114 ), terdapat banyak kasus dimana data dalam
data warehouse, jumlah datanya menjadi terlalu banyak. Dalam kasus seperti
demikian, dapat dilakukan agregasi yang mengelompokkan beberapa data detil
operasional yang berbeda ke dalam satu record tunggal. Record tunggal itu disebut
sebagai profile record atau aggregate record.
2.7.13 Denormalisasi
Menurut Inmon ( 2005, p495 ), “the technique of placing normalized data in
a physical location that optimizes the performance of the system.” Yaitu
denormalisasi merupakan suatu teknik untuk menempatkan data hasil normalisasi
ke dalam lokasi fisikal yang dapat mengoptimisasi kinerja sistem. Tujuan dari
denormalisasi ini adalah untuk meningkatkan kinerja semaksimal mungkin dengan
menghemat penggunaan sumber daya I/O yang diperlukan.
21
2.7.14 Cube
Menurut Mannino (2001, p462), “A Multidimensional format in which cells
contain numeric data called measures organized by subjects called dimension”.
Yang berarti cube adalah format multidimensional dimana kolom-kolomnya
mengandung data numeric yang disebut measure yang disusun berdasarkan subjek
yang disebut dimensi.
2.7.15 Fact Finding
Menurut Connolly and Begg (2005, p315), “the formal process of using
techniques such as interviews and questionair to collects facts about systems,
requirements and preferences”, yang diartikan sebagai proses formal yang
menggunakan teknik seperti interview dan kuisioner untuk mengumpulkan fakta
tentang sistem, kebutuhan serta pilihan-pilihannya. Ada lima teknik pencarian
fakta yang digunakan yaitu menguji dokumentasi, wawancara, observasi operasi
perusahaan, riset, kuisioner.
2.8
Microsoft SQL Server
Microsoft SQL Server merupakan produk RDBMS (Relational Database
Management System) yang dibuat oleh Microsoft. Orang sering menyebutnya
dengan SQL Server saja. Microsoft SQL Server juga mendukung SQL sebagai
bahasa untuk memproses query ke dalam database. Microsoft SQL Server
Mirosoft SQL Server banyak digunakan pada dunia bisnis, pendidikan atau juga
pemerintahan sebagai solusi database atau penyimpanan data. Pada tahun 2008
Microsoft mengeluarkan SQL Server 2008 yang merupakan versi yang banyak
22
digunakan. Berikut ini adalah beberapa fitur yang dari sekian banyak fitur yang
ada pada SQL Server 2008:
a.
XML Support. Dengan fitur ini, Anda bisa menyimpan dokumen XML dalam
suatu tabel, meng-query data ke dalam format XML melalui Transact-SQL
dan lain sebagainya.
b.
Multi-Instance Support. Fitur ini memungkinkan Anda untuk menjalankan
beberapa database engine SQL Server pada mesin yang sama.
c.
Data Warehousing and Business Intelligence (BI) Improvements. SQL
Server
dilengkapi
dengan
fungsi-fungsi
untuk
keperluan
Business
Intelligence melalui Analysis Services. Selain itu, SQL Server 2008 juga
memiliki tools untuk keperluan data mining.
d.
Performance and Scalability Improvements. SQL Server menerapkan
distributed partitioned views yang memungkinkan untuk membagi workload
ke beberapa server sekaligus. Peningkatan lainnya juga dicapai di sisi
DBCC, indexed view, table partitioning, dan index reorganization.
e.
Query Analyzer Improvements. Fitur yang dihadirkan antara lain: integrated
debugger, object browser, dan fasilitas object search.
f.
SSIS
Enhancement.
Fasilitas
ini
sekarang
sudah
mampu
untuk
memperhatikan primary key dan foreign key constraints. Ini berguna pada
saat migrasi tabel dari RDBMS lain.
g.
Transact-SQL Enhancements. Salah satu peningkatan disini adalah T-SQL
sudah mendukung UDF (User-Definable Function). Ini memungkinkan
Anda untuk menyimpan rutin-rutin ke dalam database engine.
23
2.8.1
Daftar Tabel Tipe Data Dalam SQL Server 2008
Data dalam Microsoft SQL Server sangat berfariasi, dan setiap kolom dalam satu
table harus memiliki data sesuai dengan jenis dan tipenya. Karena jika data yang
dimasukan kedalam table tidak sesuai dan tipenya Microsoft Server akan memperlambat
waktu pengolahan data.
Integer
Keterangan
Bit
Integer dengan nilai 0 atau 1
Int
Nilai Integer dengan nilai antara -2^-3
(2.147.483.648) sampai 2^31-1 (2.147.384.647)
Decimal atau
Numeric
Angka antara -10^38-1 sampai 10^38-1
Money
Nilai yang terhubung dengan mata uang dari 2^63 (-922.377.203.685.477,5808 sampai 2^63-1
(-922.377.203.685.477,5807)
Float
-214.748,3648 sampai 1.79E+308
Real
-3.40E+308 sampai 3.04E+38
Datetime
1 Januari 1973 sampai 31 Desember 9999
Smalldatetime
1 Januari 1900 sampai 6 Juni 2079, dengan
ketelitian hingga1 menit
String
Keterangan
Char
Field tetap dengan ukuran maksimal 8000 byte
Varchar
Field tetap dengan ukuran maksimal 8000 byte
24
Text
Variabel dengan ukuran hingga 2^31-1
(2.147.488.647) byte
Unicode String
Keterangan
Nchar
Karakter Unicode dengan ukuran tetap hingga
4000 byte
Ncarchar
Karakter Unicode dengan ukuran bervariasi
hingga 4000 byte
Ntext
Variabel dengan ukuran sampai 2^31-1
(2.147.483.647) byte
Binary String
Keterangan
Binary
Ukuran tetap hingga 8000 byte
Varbinary
Ukuran bervariasi hingga 8000 byte
Image
Ukuran bervariasi hingga 2^31-1
(2.147.483.647) byte
Tabel 2.2 Daftar tipe data dalam SQL Server 2008
2.9
Bussines Intelegence
2.9.1 Definisi
Terdapat beberapa pendapat mengenai definisi dari Business Intelligence,
diantaranya :
1. Secara umum Business Intelligence (BI) merupakan sebuah proses untuk
melakukan ekstraksi data-data operasional perusahaan dan mengumpulkannya
dalam sebuah data warehouse yang selanjutnya diproses menggunakan
25
berbagai analisis statistik dalam proses data mining, sehingga didapat berbagai
kecenderungan atau pattern dari data.
2. Business Intelligence adalah rangkaian aplikasi dan teknologi untuk
mengumpulkan, menyimpan, menganalisis, dan menyuguhkan akses data
untuk membantu petinggi perusahaan dalam pengambilan keputusan.
3. Business Intelligence (BI) merupakan representasi dari aplikasi dan teknologi
untuk mengumpulkan, menyimpan, menganalisa dan menyediakan akses
terhadap data untuk membantu user dalam suatu perusahaan untuk mengambil
keputusan yang lebih baik.
2.9.2 Karakteristik Business Intelligence
Sistem Business Intelligence yang baik mempunyai berbagai karakteristik.
diantaranya :
1.
Tujuan utama
Seluruh sistem komputer mempunyai tujuan utama bagi seluruh pengguna
sesuai dengan kebutuhan penguna masing-masing.
2.
Ketersediaan data yang relevan
Masalah ketersediaan data merupakan poin yang paling penting dalam sistem
business intelligence yang efektif. Dalam proses pembuat keputusan sering
terjadi penyampaian informasi yang tidak lengkap atau bahkan yang tidak
sebenarnya. Namun dengan dukungan BI, ketersediaan data yang relevan dapat
diatasis ehingga dapat menyuguhkan data-data yang relevan.
3.
Kemampuan
Dalam hal ini terdapat kemampuan BI yang paling utama yaitu dapat
memberikan kemudahan akses untuk informasi terbaru dari bisnis yang berjalan
26
serta peluang yang diproyeksikan, selain itu Bi dapat memenuhi kapabilitas
untuk melakukan analisis dan memenuhi permintaan pengguna
4.
Struktur Pendukung
Dalam BI, sistem pendukung didalamnya tidak hanya terdiri dari hardware dan
software, namun juga terdiri dari suatu proses yang dibuat untuk pengambilan
keputusan yang lebih baik serta untuk menentukan strategi untuk misi dan
tujuan kedepan.
2.9.3 Tools Business Intelligence
Tools dalam business intelligence merupakan jenis dari software aplikasi
yang di desain untuk membantu proses analisa dan representasi data dalam
business intelligence. yang terdiri dari :
i.
Digital Dashboard, juga dikenal sebagai Business Intelligence Dashboard,
Enterprise Dashboard, atau Executive Dashboard, merupakan summary dalam
bentuk visual dari suatu data bisnis yang menampilkan kondisi bisnis melalui
metrics dan Key Performance Indicators (KPIs).
ii.
Online Analytical Processing, dikenal sebagai OLAP (termasuk juga HOLAP,
ROLAP dan MOLAP), kemampuan managemen, pengambil keputusan dan
sistem informasi eksekutif yang memberikan support untuk menganalisa data
yang interaktif dari data yang besar dalam berbagai perspektif.
iii.
Perangkat Lunak Reporting mengenerate view agregasi dari data untuk
menjaga agar pihak managemen selalu mendapatkan informasi tentang kondisi
perusahaan mereka.
iv.
Data Mining, ekstraksi dari informasi pemakai dari database dengan
mengutilisasi software yang dapat mengisolasi dan mengidentifikasikan pattern
27
yang sebelumnya tidak terdeteksi atau trend dari suatu data dari keseluruhan
data yang berjumlah besar.
2.10
Data Mining
Data mining adalah serangkaian proses untuk menggali nilai tambah berupa
informasi yang selama ini tidak diketahui secara manual dari suatu basis data.
Informasi yang dihasilkan diperoleh dengan cara mengekstraksi dan mengenali pola
yang penting atau menarik dari data yang terdapat dalam basis data. Data mining
adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan,
dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang
bermanfaat dan pengetahuan yang terkait dari berbagai database besar.
Menurut Gartner Group data mining adalah suatu proses menemukan hubungan
yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar
data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan
pola seperti teknik statistik dan matematika .
Data mining bukanlah suatu bidang yang sama sekali baru. Salah satu kesulitan untuk
mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak
aspek dan teknik dari bidang-bidang ilmu yang sudah mapan terlebih dulu. Berawal
dari beberapa disiplin ilmu, data mining bertujuan untuk memperbaiki teknik
tradisional sehingga bisa menangani:
-
Jumlah data yang sangat besar
-
Dimensi data yang tinggi
-
Data yang heterogen dan berbeda bersifat
28
Menurut para ahli, data mining merupakan sebuah analisa dari observasi data dalam
jumlah besar untuk menemukan hubungan yang tidak diketahui sebelumnya dan
metode baru untuk meringkas data agar mudah dipahami serta kegunaannya untuk
pemilik data.
Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data
mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang
diperoleh dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses
persiapan data ini sendiri dapat mencapai 60 % dari keseluruhan proses dalam data
mining. Adapun tahapan-tahapan yang harus dilalui dalam proses data mining antara
lain :
1. Data cleaning, untuk membersihkan data dari noise data dan data yang tidak
konsiten.
2. Data integration, mengkombinasikan atau mengintegrasikan beberapa sumber
data.
3. Data selection, mengambil data-data yang relevan dari database untuk dianalisis.
4. Data transformation, mentransformasikan data summary ataupun operasi
agregasi.
5. Data mining, merupakan proses yang esensial dimana metode digunakan untuk
mengekstrak pola data yang tersembunyi.
6. Pattern evaluation, untuk mengidentifikasi pola sehingga mereperesentasikan
pengetahuan berdasarkan nilai-nilai yang menarik
7. Knowledge presentation, dimana teknik representasi dan visualisasi data digunakan
untuk mempresentasikan pengetahuan yang didadapat kepada user.
29
Gambar 2.10 Tahap-tahap Data Mining
2.10.1 Teknik Data mining
Ada banyak jenis teknik analisa yang dapat digolongkan dalam data mining.
Namun ada tiga teknik data mining yang popular, yaitu :
1. Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan
asosiatif antara suatu kombinasi atribut. Contoh dari aturan asosiatif dari analisa
pembelian di suatu pasar swalayan diketahui berapa besar kemungkinan seorang
pelanggan membeli roti bersamaan dengan susu. Dengan pengetahuan tersebut
pemilik pasar swalayan dapat mengatur penempatan barangnya atau merancang
30
strategi pemasaran dengan memakai kupon diskon untuk kombinasi barang
tertentu.
2. Klasifikasi
Klasifikasi adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat
memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu
sendiri bisa berupa aturan “jika-maka”, berupa pohon keputusan, formula
matematis atau neural network.
Proses klasifikasi biasanya dibagi menjadi dua fase : learning dan test. Pada
fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk
membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk
diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila
akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang
belum diketahui.
3. Clustering
Berbeda dengan association rule mining dan klasifikasi dimana kelas data
telah ditentukan sebelumnya, clustering melakukan pengelompokan data tanpa
berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk
memberikan label pada kelas data yang belum diketahui. Karena itu clustering
sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering
adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan
kesamaan antar cluster. Clustering dapat dilakukan pada data yang memiliki
beberapa atribut yang dipetakan sebagai ruang multidimensi.
31
4. Forecasting
Forecasting mining adalah teknik mining yang mirip dengan
klasifikasi. Kecuali dalam prediksi, data yang diprediksi biasanya adalah
time series data. Time series data merupakan sekuens data yang nilainya
berubah setiap interval waktu tertentu. Time series data dapat dipresentasikan
dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data
terhadap satuan waktu. Grafik yang dibangun dapat dimanfaatkan untuk
menganalisis trend atau pola pada time-series data.
2.11
Confusion Matrix
Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji
yang diprediksi benar dan tidak benar oleh model klasifikasi. Tabel ini diperlukan untuk
menentukan kinerja suatu model klasifikasi.
Gambar 2.11 contoh table Confusion Matrix.
32
Download