PENDAHULUAN Latar Belakang Saat ini persaingan antar Departemen di IPB semakin ketat. Setiap Departemen berlombalomba untuk memperbaiki kualitas dari mahasiswanya baik dalam nilai akademik maupun sikap. Dalam hal ini, Departemen berusaha meningkatkan jumlah lulusan yang terbaik baik dari segi kuantitas maupun kualitas. Kualitas mahasiswa dapat dilihat dari kondisi akademik mahasiswa tersebut selama menempuh kuliah, yaitu melalui nilai tiap mata kuliah yang diambilnya. Semakin tinggi nilai yang diperoleh maka predikat kelulusan juga akan semakin bagus. Informasi tentang nilai mata kuliah dan perkembangan nilai indeks prestasi pada mahasiswa diperlukan Bagian Akademik Ilmu Komputer untuk meningkatkan mutu pengajaran di mata kuliah tersebut. Proses analisis data nilai akademik masih dilakukan secara manual dengan melihat tabel data yang saling berhubungan. Hal itu membutuhkan waktu lama karena dari data tersebut masih dilakukan query manual pada tiap tabel data. Untuk menganalisis dan mengetahui perkembangan IP maupun IPK tiap angkatan mahasiswa serta kecenderungan nilai mata kuliah tertentu yang diambil mahasiswa pada tiap tahunnya dapat dilakukan dengan membangun aplikasi OLAP yang diintegrasikan dengan data warehouse. Proses pembuatan data warehouse dilakukan dengan mengambil, mengumpulkan, mempersiapkan, menyimpan, dan menyediakan data untuk aplikasi yang bersifat query atau reporting. Saat ini telah tersedia beberapa teknologi data warehouse yang menggunakan OLAP server sebagai tool pembantu untuk analisis data, salah satu yang berbasis open source adalah Palo (www.jedox.com). Diharapkan tool dan metode OLAP membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data dan didukung dengan representasi data grafik yang dinamis. Tujuan Penelitian ini bertujuan untuk membangun sebuah data warehouse dan sebuah aplikasi OLAP berbasis web untuk data akademik Program Studi Ilmu Komputer IPB dengan menggunakan Palo 2.0 sebagai OLAP server. Ruang Lingkup Ruang lingkup penelitian dibatasi pada pembuatan data warehouse dan aplikasi OLAP berbasis web. Tahapan yang akan dilakukan meliputi proses persiapan data, pembersihan data, integrasi data dan transformasi data, dilanjutkan dengan implementasi operasi OLAP. Data yang digunakan adalah data akademik Program Studi Ilmu Komputer IPB tahun masuk 2001 sampai 2004 (Passing Out). Manfaat Penelitian ini diharapkan dapat memberikan manfaat bagi pihak-pihak terkait di Departemen Ilmu Komputer dalam memberikan informasi konklusif, cepat, dan menarik. Selain itu juga dapat mempermudah analisis data dan membantu dalam proses pengambilan keputusan. TINJAUAN PUSTAKA Praproses Data Praproses data merupakan proses yang harus dilakukan sebelum memasuki tahap pemrosesan membuat data warehouse. Data yang digunakan seringkali bersifat noisy (data tidak jelas atau rusak), inclomplete (data kekurangan nilai atributnya atau hanya berisi data agregasi), dan inconsistent (data tidak konsisten). Berikut adalah tahapan praproses data menurut Han dan Kamber (2006) : 1 Pembersihan Data Proses ini merupakan tahapan pembersihan data, yaitu mengisi data yang hilang, mengatasi data yang kotor dan rusak, mengidentifikasi atau membuang data pencilan, memperbaiki data yang tidak konsisten. Permasalahan data kotor dan cara membersihkannya yaitu : Nilai yang kosong (null) Untuk mengisi nilai yang kosong dalam data dapat dilakukan dengan tidak menghiraukan data nilainya yang hilang, mengganti nilainya secara manual, mengisi dengan konstanta “tidak diketahui” untuk data kategori dan konstanta “0” untuk data numerik, menggunakan nilai rataan dari atribut yang kosong, dan mengisinya dengan nilai rataan dari kelas yang sama. 2 Nilai yang mengandung noise Data dengan nilai yang mengandung noise dapat diganti menggunakan nilai hasil perhitungan dengan teknik binning (melakukan pengisian dengan nilai sekitar), regresi, atau dengan cara clustering. Data tidak konsisten Data tidak konsisten dapat diperbaiki secara manual dengan menyeragamkan data. 2 Integrasi data Integrasi data adalah penggabungan data dari berbagai sumber penyimpanan data untuk menjadi satu kesatuan data yang koheren (Han & Kamber 2006). Menurut Kantardzic (2003), integrasi data merupakan proses mengambil data operasional dari satu sumber atau lebih dan memetakannya field demi field ke dalam struktur data yang baru pada data warehouse. Dalam proses mengintegrasikan data dari berbagai sumber terdapat beberapa masalah yang dihadapi, yaitu redudansi (terdapat lebih dari satu tuple untuk satu data unik), dan duplikasi suatu data. 3 Transformasi data Transformasi data yaitu proses pengubahan data menjadi bentuk yang tepat. Proses ini dilakukan agar kondisi data tetap konsisten dan dapat digunakan untuk proses selanjutnya (Han & Kamber 2006). Menurut Han dan Kamber (2006), tranformasi data mencakup hal-hal berikut : Smoothing Hal yang berhubungan dengan noise pada data. Beberapa teknik yang dilakukan termasuk binning, regresi, dan clustering. Agregasi Operasi agregat atau peringkasan yang diterapkan pada data. Generalisasi data Penggantian data berlevel rendah dengan data berlevel tinggi menggunakan konsep hirarki. Normalisasi Pembuatan skala atribut data dengan range nilai yang kecil. Konstruksi atribut Pembuatan konstruksi atribut-atribut baru dan memasukkannya ke suatu set atribut. 4 Reduksi data Teknik reduksi data diterapkan untuk memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil. Data Warehouse Data warehouse dibangun untuk mengatasi masalah teknis dan bisnis, yang berkaitan dengan penggunaan data dan informasi untuk mengambil keputusan. Secara rinci dijelaskan oleh Han dan Kamber (2006) bahwa data warehouse mempunyai empat karateristik yaitu: Berorientasi subjek, terorganisasi pada subjek utama sesuai topik bisnis atau berdasarkan subjek dari organisasi. Terintegrasi, data dibangun dengan mengintegrasikan berbagai sumber data. Time-variant, dimensi waktu secara eksplisit termasuk dalam data, jadi model dan perubahannya dapat diketahui setiap saat. Non-volatile, data terpisah dari basis data operasional sehingga hanya memerlukan pemuatan dan akses data. Data tidak dapat berubah atau tetap. Model Data Multidimensi Model data multidimensi terdiri dari satu atau lebih tabel dimensi dan tabel fakta. Dimensi adalah perspektif atau entitas yang digunakan sebagai tempat menyimpan beberapa record yang saling berhubungan. Sedangkan fakta adalah suatu pengukuran data numerik dan data historis yang terdiri dari facts, measures dan keys dari tabel dimensi yang bersangkutan (Han & Kamber 2006). Model tersebut dapat menampilkan data dalam bentuk kubus yang merupakan inti dari model ini dan dapat digambarkan dalam bentuk skema bintang, skema snowflake, dan skema galaksi (Han & Kamber 2006). Skema galaksi merupakan kumpulan dari skema bintang. Skema ini terdiri dari berbagai tabel fakta yang berbagi beberapa tabel dimensi, sehingga membentuk seperti galaksi bintang. Bentuk skema galaksi dapat dilihat pada Gambar 1. Keuntungan menggunakan skema ini adalah menghemat memory dan mengurangi kesalahan yang mungkin terjadi. 3 Gambar 1 Skema galaksi (Han & Kamber 2006). Operasi-operasi pada Processing (OLAP) Online Analytical Online analitycal Processing (OLAP) terdiri dari seperangkat tool untuk membantu proses analisis dan perbandingan data dalam basis data. Tool dan metode OLAP membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data, dan didukung dengan representasi data grafik yang dinamis. Beberapa operasi OLAP menurut Han dan Kamber (2006) yaitu : Roll up (drill-up): ringkasan data, yaitu dengan menaikkan konsep hirarki atau mereduksi dimensi. Drill down (roll down): kebalikan dari rollup, yaitu melihat data secara lebih detail atau spesifik dari level tinggi ke level rendah. Slice and dice: slice adalah pemilihan pada satu dimensi dari kubus data yang bersangkutan dan dice mendefinisikan subcube dengan memilih dua dimensi atau lebih. Pivot (rotate): memvisualisasikan operasi yang merotasikan sumbu data dalam view sebagai alternatif presentasi data. Operasi lain: drill across yaitu operasi yang melibatkan lebih dari satu tabel fakta, drill through yaitu operasi yang mengijinkan pengguna untuk dapat melihat tabel data yang menampilkan nilai-nilai pada suatu sel data. Arsitektur Three-Tier Data warehouse pada umumnya mengadopsi arsitektur three-tier, seperti digambarkan pada Gambar 2. Gambar 2 Arsitektur three-tier data warehousing (Han & Kamber 2006). Menurut Han dan Kamber (2006), lapisanlapisan arsitektur data warehousing tersebut adalah : 1 Lapisan bawah (bottom tier) Lapisan bawah adalah server data warehouse yang biasanya sebuah sistem basis data relasional. Pada lapisan ini data diambil dari basis data operasional dan sumber eksternal lainnya, diekstrak, dibersihkan, dan ditransformasi. Data disimpan sebagai data warehouse. 2 Lapisan tengah (middle tier) Lapisan tengah OLAP server yang biasanya diimplementasikan dengan OLAP Rasional (ROLAP) atau OLAP Multidimensional (MOLAP). 3 Lapisan Atas (top tier) Lapisan atas adalah lapisan front-end client, berisi query dan perangkat analisis, dan atau perangkat data mining (seperti: analisis tren, prediksi, dan lainnya). METODE PENELITIAN Analisis Dari segi kebutuhan sistem, pengguna aplikasi OLAP berbasis web ini adalah dosen sebagai pengguna biasa dan komisi akademik sebagai administrator. Untuk mengelola aplikasi ini, administrator memiliki akses langsung ke sistem manajemen basis data SQL Server dimana data akademik ditempatkan serta ke modul Palo dimana data warehouse tersebut dikelola.