Data Warehouse dan Aplikasi Olap Data Akademik

advertisement
PENDAHULUAN
Latar Belakang
Saat ini persaingan antar Departemen di IPB
semakin ketat. Setiap Departemen berlombalomba untuk memperbaiki kualitas dari
mahasiswanya baik dalam nilai akademik
maupun sikap. Dalam hal ini, Departemen
berusaha meningkatkan jumlah lulusan yang
terbaik baik dari segi kuantitas maupun kualitas.
Kualitas mahasiswa dapat dilihat dari kondisi
akademik
mahasiswa
tersebut
selama
menempuh kuliah, yaitu melalui nilai tiap mata
kuliah yang diambilnya. Semakin tinggi nilai
yang diperoleh maka predikat kelulusan juga
akan semakin bagus.
Informasi tentang nilai mata kuliah dan
perkembangan nilai indeks prestasi pada
mahasiswa diperlukan Bagian Akademik Ilmu
Komputer
untuk
meningkatkan
mutu
pengajaran di mata kuliah tersebut. Proses
analisis data nilai akademik masih dilakukan
secara manual dengan melihat tabel data yang
saling berhubungan. Hal itu membutuhkan
waktu lama karena dari data tersebut masih
dilakukan query manual pada tiap tabel data.
Untuk menganalisis dan mengetahui
perkembangan IP maupun IPK tiap angkatan
mahasiswa serta kecenderungan nilai mata
kuliah tertentu yang diambil mahasiswa pada
tiap tahunnya dapat dilakukan dengan
membangun aplikasi OLAP yang diintegrasikan
dengan data warehouse. Proses pembuatan data
warehouse dilakukan dengan mengambil,
mengumpulkan, mempersiapkan, menyimpan,
dan menyediakan data untuk aplikasi yang
bersifat query atau reporting. Saat ini telah
tersedia beberapa teknologi data warehouse
yang menggunakan OLAP server sebagai tool
pembantu untuk analisis data, salah satu yang
berbasis
open
source
adalah
Palo
(www.jedox.com). Diharapkan tool dan metode
OLAP membantu pengguna menganalisis data
pada sebuah data warehouse dengan
menyediakan berbagai tampilan data dan
didukung dengan representasi data grafik yang
dinamis.
Tujuan
Penelitian ini bertujuan untuk membangun
sebuah data warehouse dan sebuah aplikasi
OLAP berbasis web untuk data akademik
Program Studi Ilmu Komputer IPB dengan
menggunakan Palo 2.0 sebagai OLAP server.
Ruang Lingkup
Ruang lingkup penelitian dibatasi pada
pembuatan data warehouse dan aplikasi OLAP
berbasis web. Tahapan yang akan dilakukan
meliputi proses persiapan data, pembersihan
data, integrasi data dan transformasi data,
dilanjutkan dengan implementasi operasi
OLAP. Data yang digunakan adalah data
akademik Program Studi Ilmu Komputer IPB
tahun masuk 2001 sampai 2004 (Passing Out).
Manfaat
Penelitian ini diharapkan dapat memberikan
manfaat bagi pihak-pihak terkait di Departemen
Ilmu Komputer dalam memberikan informasi
konklusif, cepat, dan menarik. Selain itu juga
dapat mempermudah analisis data dan
membantu
dalam
proses
pengambilan
keputusan.
TINJAUAN PUSTAKA
Praproses Data
Praproses data merupakan proses yang harus
dilakukan sebelum memasuki tahap pemrosesan
membuat data warehouse. Data yang digunakan
seringkali bersifat noisy (data tidak jelas atau
rusak), inclomplete (data kekurangan nilai
atributnya atau hanya berisi data agregasi), dan
inconsistent (data tidak konsisten). Berikut
adalah tahapan praproses data menurut Han dan
Kamber (2006) :
1 Pembersihan Data
Proses
ini
merupakan
tahapan
pembersihan data, yaitu mengisi data yang
hilang, mengatasi data yang kotor dan rusak,
mengidentifikasi atau membuang data
pencilan, memperbaiki data yang tidak
konsisten. Permasalahan data kotor dan cara
membersihkannya yaitu :
 Nilai yang kosong (null)
Untuk mengisi nilai yang kosong
dalam data dapat dilakukan dengan tidak
menghiraukan data nilainya yang hilang,
mengganti nilainya secara manual,
mengisi dengan konstanta “tidak
diketahui” untuk data kategori dan
konstanta
“0” untuk data numerik,
menggunakan nilai rataan dari atribut
yang kosong, dan mengisinya dengan
nilai rataan dari kelas yang sama.
2
 Nilai yang mengandung noise
Data dengan nilai yang mengandung
noise dapat diganti menggunakan nilai
hasil perhitungan dengan teknik binning
(melakukan pengisian dengan nilai
sekitar), regresi, atau dengan cara
clustering.
 Data tidak konsisten
Data tidak konsisten dapat diperbaiki
secara manual dengan menyeragamkan
data.
2 Integrasi data
Integrasi data adalah penggabungan data
dari berbagai sumber penyimpanan data
untuk menjadi satu kesatuan data yang
koheren (Han & Kamber 2006). Menurut
Kantardzic (2003), integrasi data merupakan
proses mengambil data operasional dari satu
sumber atau lebih dan memetakannya field
demi field ke dalam struktur data yang baru
pada data warehouse.
Dalam proses mengintegrasikan data dari
berbagai sumber terdapat beberapa masalah
yang dihadapi, yaitu redudansi (terdapat
lebih dari satu tuple untuk satu data unik),
dan duplikasi suatu data.
3 Transformasi data
Transformasi
data
yaitu
proses
pengubahan data menjadi bentuk yang tepat.
Proses ini dilakukan agar kondisi data tetap
konsisten dan dapat digunakan untuk proses
selanjutnya (Han & Kamber 2006).
Menurut Han dan Kamber (2006),
tranformasi data mencakup hal-hal berikut :
 Smoothing
Hal yang berhubungan dengan noise
pada data. Beberapa teknik yang
dilakukan termasuk binning, regresi, dan
clustering.
 Agregasi
Operasi agregat atau peringkasan
yang diterapkan pada data.
 Generalisasi data
Penggantian data berlevel rendah
dengan
data berlevel tinggi menggunakan konsep hirarki.
 Normalisasi
Pembuatan skala atribut data dengan
range nilai yang kecil.
 Konstruksi atribut
Pembuatan konstruksi atribut-atribut
baru dan memasukkannya ke suatu set
atribut.
4 Reduksi data
Teknik reduksi data diterapkan untuk
memperoleh representasi tereduksi dari
sejumlah data yang berimplikasi pada
volume yang jauh lebih kecil.
Data Warehouse
Data warehouse dibangun untuk mengatasi
masalah teknis dan bisnis, yang berkaitan
dengan penggunaan data dan informasi untuk
mengambil keputusan. Secara rinci dijelaskan
oleh Han dan Kamber (2006) bahwa data
warehouse mempunyai empat karateristik yaitu:
 Berorientasi subjek, terorganisasi pada
subjek utama sesuai topik bisnis atau
berdasarkan subjek dari organisasi.
 Terintegrasi,
data
dibangun
dengan
mengintegrasikan berbagai sumber data.
 Time-variant, dimensi waktu secara eksplisit
termasuk dalam data, jadi model dan
perubahannya dapat diketahui setiap saat.
 Non-volatile, data terpisah dari basis data
operasional sehingga hanya memerlukan
pemuatan dan akses data. Data tidak dapat
berubah atau tetap.
Model Data Multidimensi
Model data multidimensi terdiri dari satu
atau lebih tabel dimensi dan tabel fakta.
Dimensi adalah perspektif atau entitas yang
digunakan sebagai tempat menyimpan beberapa
record yang saling berhubungan. Sedangkan
fakta adalah suatu pengukuran data numerik dan
data historis yang terdiri dari facts, measures
dan keys dari tabel dimensi yang bersangkutan
(Han & Kamber 2006).
Model tersebut dapat menampilkan data
dalam bentuk kubus yang merupakan inti dari
model ini dan dapat digambarkan dalam bentuk
skema bintang, skema snowflake, dan skema
galaksi (Han & Kamber 2006).
Skema galaksi merupakan kumpulan dari
skema bintang. Skema ini terdiri dari berbagai
tabel fakta yang berbagi beberapa tabel dimensi,
sehingga membentuk seperti galaksi bintang.
Bentuk skema galaksi dapat dilihat pada
Gambar 1. Keuntungan menggunakan skema
ini adalah menghemat memory dan mengurangi
kesalahan yang mungkin terjadi.
3
Gambar 1 Skema galaksi (Han & Kamber
2006).
Operasi-operasi pada
Processing (OLAP)
Online
Analytical
Online analitycal Processing (OLAP) terdiri
dari seperangkat tool untuk membantu proses
analisis dan perbandingan data dalam basis
data. Tool dan metode OLAP membantu
pengguna menganalisis data pada sebuah data
warehouse dengan menyediakan berbagai
tampilan data, dan didukung dengan
representasi data grafik yang dinamis.
Beberapa operasi OLAP menurut Han dan
Kamber (2006) yaitu :
 Roll up (drill-up): ringkasan data, yaitu
dengan menaikkan konsep hirarki atau
mereduksi dimensi.
 Drill down (roll down): kebalikan dari rollup, yaitu melihat data secara lebih detail
atau spesifik dari level tinggi ke level
rendah.
 Slice and dice: slice adalah pemilihan pada
satu dimensi dari kubus data
yang
bersangkutan dan dice mendefinisikan
subcube dengan memilih dua dimensi atau
lebih.
 Pivot (rotate): memvisualisasikan operasi
yang merotasikan sumbu data dalam view
sebagai alternatif presentasi data.
 Operasi lain: drill across yaitu operasi yang
melibatkan lebih dari satu tabel fakta, drill
through yaitu operasi yang mengijinkan
pengguna untuk dapat melihat tabel data
yang menampilkan nilai-nilai pada suatu sel
data.
Arsitektur Three-Tier
Data
warehouse
pada
umumnya
mengadopsi arsitektur three-tier, seperti
digambarkan pada Gambar 2.
Gambar 2 Arsitektur
three-tier
data
warehousing (Han & Kamber
2006).
Menurut Han dan Kamber (2006), lapisanlapisan arsitektur data warehousing tersebut
adalah :
1 Lapisan bawah (bottom tier)
Lapisan bawah adalah server data
warehouse yang biasanya sebuah sistem
basis data relasional. Pada lapisan ini data
diambil dari basis data operasional dan
sumber eksternal lainnya, diekstrak,
dibersihkan, dan ditransformasi. Data
disimpan sebagai data warehouse.
2 Lapisan tengah (middle tier)
Lapisan tengah OLAP server yang
biasanya diimplementasikan dengan OLAP
Rasional
(ROLAP)
atau
OLAP
Multidimensional (MOLAP).
3 Lapisan Atas (top tier)
Lapisan atas adalah lapisan front-end
client, berisi query dan perangkat analisis,
dan atau perangkat data mining (seperti:
analisis tren, prediksi, dan lainnya).
METODE PENELITIAN
Analisis
Dari segi kebutuhan sistem, pengguna
aplikasi OLAP berbasis web ini adalah dosen
sebagai pengguna biasa dan komisi akademik
sebagai administrator. Untuk mengelola aplikasi
ini, administrator memiliki akses langsung ke
sistem manajemen basis data SQL Server
dimana data akademik ditempatkan serta ke
modul Palo dimana data warehouse tersebut
dikelola.
Download