Pembangunan Data Warehouse dan Aplikasi OLAP untuk Data PPMB IPB Menggunakan Palo Abi Herlambang G64101047 Latar Belakang Penyimpanan data secara rutin dan terakumulasi dari waktu ke waktu akan menyebabkan terjadinya penumpukan data Masalah dalam menyajikan informasi yang konklusif, cepat, dan menarik Informasi tersembunyi yang terkandung dalam data PPMB IPB perlu dieksplorasi dan divisualisasikan ke dalam bentuk yang menarik Ruang Lingkup & Manfaat Ruang lingkup penelitian dibatasi pada pembuatan data warehouse, implementasi operasi OLAP (On-Line Analytical Processing), dan presentasi informasi untuk data PPMB IPB tahun masuk 2000 sampai 2004 Diharapkan bermanfaat bagi pihak-pihak yang memerlukan informasi konklusif, cepat, dan menarik sehingga dapat membantu dalam proses pengambilan keputusan Tujuan Membangun data warehouse dan operasi- operasi OLAP untuk data PPMB IPB dan data IPK mahasiswa TPB IPB Membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP Tinjauan Pustaka Data Preprocessing teknik pemrosesan data yang dapat memperbaiki kualitas data sehingga membantu memperbaiki akurasi dan efisiensi proses pengolahan data selanjutnya (Han & Kamber 2001) Tahapan: Pembersihan: mengisi nilai yang kosong, mengurangi noise dan memperbaiki ketidakkonsistenan dalam data Integrasi: penggabungan data dari berbagai sumber penyimpanan data Transformasi: mengubah ke dalam bentuk yang tepat agar data tetap konsisten Reduksi: memperoleh representasi tereduksi dari sejumlah data yang berimplikasi pada volume yang jauh lebih kecil Tinjauan Pustaka (lanjutan) Data Warehouse sekumpulan data berorientasi subyek, terintegrasi, time-variant, dan non-volatile yang mendukung manajemen dalam proses pembuatan keputusan (Inmon 1996) Penjelasan rinci (Han & Kamber 2001): Berorientasi subyek: disusun berdasarkan subyek yang utama Terintegrasi: dibangun dengan mengintegrasikan berbagai sumber data Time-variant: menyediakan informasi berdasarkan perspektif waktu Non-volatile: penyimpanan data yang terpisah dari basis data operasional hanya memerlukan pemuatan dan akses data Tinjauan Pustaka (lanjutan) Data warehousing infrastruktur perangkat lunak yang mendukung aplikasi OLAP dengan menyediakan sebuah koleksi alat bantu yang (Bouzeghoub & Kedad 2000): mengumpulkan data dari sekumpulan sumber-sumber heterogen terdistribusi membersihkan dan mengintegrasikan data tersebut ke dalam representasi yang seragam mengagregasi dan mengorganisasi data tersebut ke dalam struktur multidimensional yang tepat untuk pengambilan keputusan, dan memperbaharuinya secara periodik untuk menjaga agar data mutakhir dan akurat Tinjauan Pustaka (lanjutan) Model Data Multidimensi Pembuatan data warehouse didasarkan pada model data multidimensi. Model ini menampilkan data dalam bentuk kubus. Model data multidimensi terdiri dari dimensi (dimensions) dan fakta (facts) (Han & Kamber 2001) Dimensi perspektif atau entiti penting yang dimiliki oleh organisasi Fakta ukuran-ukuran numerik, merupakan kuantitas yang akan dianalisis hubungan antar dimensinya, berisi nama-nama fakta (ukuran) dan key dari tabeltabel dimensi yang berelasi dengan tabel fakta Tinjauan Pustaka (lanjutan) Data warehouse memerlukan skema yang ringkas dan berorientasi subyek yang dapat digunakan dalam analisis data on-line (Han & Kamber 2001) Tipe-tipe skema model data multidimensi: Skema bintang (star schema) hubungan antara tabel dimensi dan tabel fakta menyerupai bintang, dimana satu tabel fakta dihubungkan dengan beberapa tabel dimensi Skema snowflake (snowflake schema) variasi dari skema bintang dimana beberapa tabel dimensi dinormalisasi, jadi dihasilkan beberapa tabel tambahan Skema galaksi (fact constellation) beberapa tabel fakta berbagi tabel dimensi Tinjauan Pustaka (lanjutan) On-Line Analytical Processing (OLAP) seperangkat tool untuk membantu proses analisis dan perbandingan data. Kemampuan interaktif untuk melihat data dari berbagai perspektif (Post 2005) membantu pengguna menganalisis data pada sebuah data warehouse dengan menyediakan berbagai tampilan data, dan didukung dengan representasi grafik yang dinamis (Kantardzic 2003) Operasi-operasi OLAP (Han & Kamber 2001): Roll-up agregasi pada kubus data dengan cara menaikan tingkat suatu hirarki konsep atau mengurangi dimensi Drill-down kebalikan dari roll-up Slice pemilihan satu dimensi dari kubus data Dice pemilihan dua atau lebih dimensi Pivot memutar koordinat data Tinjauan Pustaka (lanjutan) Web-based OLAP (WOLAP) diterapkan pengguna web browser dalam internet atau intranet mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna Arsitektur Three-Tier Data Warehouse Data warehousing mengadopsi arsitektur three-tier Lapis bawah: server basis data warehouse, data diambil dari basis data operasional dan sumber eksternal lainnya, diekstrak, dibersihkan, dan ditransformasi Lapis tengah: OLAP server Lapis atas: front-end client, berisi query dan perangkat pelaporan, perangkat analisis, dan/atau perangkat data mining Metode Penelitian Analisis data PPMB IPB Pemrosesan data dengan teknik data preprocessing Integrasi dan reduksi data Pembersihan data Transformasi data Pembangunan aplikasi OLAP menggunakan Palo sebagai OLAP server OLAP server Palo menyediakan fungsi agregasi dan menyimpan data dalam kubus data multidimensi Hasil dan Pembahasan Analisis data sumber fakta dan dimensi skema data warehouse Data preprocessing Integrasi & reduksi data menyeragamkan format basis data dan menyusutkan volume melalui konversi basis data, menggabung data, dan membuang atributatribut yang tidak terpilih Pembersihan data mengidentifikasi dan memperbaiki data kosong (null), mengandung noise, dan data tidak konsisten Transformasi data penyeragaman nama atribut, generalisasi, agregasi, dan konstruksi atribut/dimensi Penyimpanan data warehouse (MsSQL Server 2000) Hasil dan Pembahasan (lanjutan) Skema galaksi data warehouse PPMB Asal PK Waktu id_asal PK propinsi pulau id_waktu Jalur PK tahun_masuk Pelamar Mahasiswa id_jalur jalur Listrik PK id_listrik listrik BiayaHidup PK id_biaya biaya_hidup FK1 FK2 FK3 FK4 FK5 FK6 FK7 FK8 FK9 id_waktu id_asal id_kel studi_pilihan1 studi_pilihan2 studi_putusan id_listrik id_biaya id_kategori jumlah_pelamar_usmi JenisKelamin PK id_kel lelaki_perempuan Studi PK id_studi KategoriSLA PK id_kategori kategori_sla program_studi departemen fakultas FK1 FK2 FK3 FK4 FK5 FK6 FK7 id_waktu id_jalur id_kel pendidikan_ayah pendidikan_ibu id_pek id_studi rataan_pendapatan_ayah rataan_ipk_tpb jumlah_mhs Pendidikan PK id_pend pendidikan PekerjaanAyah PK id_pek pekerjaan_ayah Hasil dan Pembahasan (lanjutan) Pembuatan struktur kubus data Palo Kubus data Pelamar berisi nilai-nilai agregasi siswa/siswi SMU yang melamar ke IPB melalui jalur USMI Kubus data Mahasiswa berisi nilai-nilai agregasi mahasiswa IPB Dimensi: waktu, asal, jenis kelamin, studi pilihan1, studi pilihan2, studi putusan, listrik, biaya hidup, dan kategori sla Ukuran: jumlah pelamar USMI Dimensi: waktu, jalur, jenis kelamin, pendidikan ayah, pendidikan ibu, pekerjaan ayah, dan program studi Ukuran: rataan pendapatan ayah, rataan IPK TPB, dan jumlah mahasiswa Pemuatan data data warehouse ke OLAP server kubus data Hasil dan Pembahasan (lanjutan) Implementasi PHP Palo PHP API JpGraph (pembangkit grafik) Fitur Aplikasi: Menu OLAP menentukan kubus data, ukuran, dan dimensi-dimensi Filter dimensi menentukan elemen-elemen dari dimensi yang akan dioperasikan Crosstab dan Grafik visualisasi hasil operasi OLAP Disain cetakan aplikasi mengeliminasi tampilan yang tidak perlu pada hasil cetakan Hasil dan Pembahasan (lanjutan) Arsitektur data warehousing Laptop XLS DBF Extract Transform Load Refresh Apache web server Presentasi OLAP tool Data Warehouse MSSQLServer Line Plot Workstation DBF Grafik Analisa DBF Sumber Data Palo OLAP server Crosstab Bottom tier : Data warehouse DBMS Middle tier : Web server OLAP server Top tier: Web Browser Hasil dan Pembahasan (lanjutan) Kelebihan sistem: Aplikasi berbasis web mengeliminasi kebutuhan akan instalasi paket perangkat lunak pada komputer pengguna Aplikasi dilengkapi versi portable tidak memerlukan instalasi dan konfigurasi web server dan OLAP server Aplikasi dan perangkat lunak bantu yang digunakan berbasis open source dan freeware memudahkan pengembangan selanjutnya Aplikasi dapat menggunakan bermacam data warehouse Hasil dan Pembahasan (lanjutan) Kekurangan sistem: Tidak ada fasilitas untuk memodelkan struktur kubus data dan memuat data baru ke dalam kubus data Crosstab hanya dapat menampilkan satu dimensi untuk setiap axis-nya Tidak ada fungsi untuk melakukan operasi pivot Visualisasi grafik hanya menampilkan tipe bar plot dan line plot. Tidak ada tipe grafik pie, radar, polar, dan lainnya Hasil dan Pembahasan (lanjutan) Contoh penerapan: Analisis pola sebaran pelamar jalur USMI berdasarkan asal pulau menunjukan pelamar asal pulau tertentu mendominasi dan fakultas-fakultas yang menjadi pilihan Analisis tren pilihan siswa/siswi SMU terhadap fakultas-fakultas di IPB menunjukan kecenderungan siswa/siswi SMU terhadap pilihan fakultas di IPB Analisis tren perkembangan rataan IPK TPB untuk program studi Ilmu Komputer menunjukan perkembangan IPK TPB dan faktor/dimensi apa yang mempengaruhinya Hasil dan Pembahasan (lanjutan) Contoh operasi-operasi OLAP dalam aplikasi Drill-down: dimensi studi pilihan1, jumlah pelamar dari tingkat IPB jumlah pelamar tiap fakultas (FMIPA, FAPERTA, dsb) Roll-up: dimensi asal, jumlah pelamar dari tingkat asal propinsi (DKI Jakarta, Jawa Barat, Banten, dsb) jumlah pelamar tingkat pulau: Jawa Slice: keseluruhan jumlah pelamar USMI jumlah pelamar USMI untuk fakultas FMIPA saja Dice: jumlah pelamar USMI asal pulau Irian untuk fakultas FMIPA pada tahun 2000 sampai 2004 Kesimpulan Penelitian menghasilkan data warehouse PPMB IPB yang terdiri dari dua kubus data: Pelamar dan Mahasiswa Hasil operasi OLAP divisualisasikan dalam bentuk crosstab dan grafik yang dinamis Aplikasi OLAP memudah pengguna untuk mengekplorasi data PPMB cukup dengan memilih kubus data, ukuran, dimensi, dan elemen yang diinginkan tanpa harus memasukan query-query SQL yang rumit Hasil ekplorasi data disajikan dalam bentuk informasi yang konklusif, cepat, dan menarik Kesimpulan (lanjutan) Dari contoh penerapan dapat disimpulkan: Pola sebaran pelamar jalur USMI berdasarkan asal pulau pelamar dari pulau Jawa dan Sumatera paling dominan, dan mayoritas pelamar memilih fakultas FAPERTA, FATETA, dan FMIPA Tren pilihan siswa/siswi SMU terhadap fakultas-fakultas di IPB fakultas FMIPA menjadi fakultas di IPB yang favorit berdasarkan pilihan siswa/siswi SMU, selain itu juga FMIPA mengalami perkembangan yang baik dengan jumlah pelamar terbanyak di tahun 2003 dan 2004 melebihi FAPERTA, dan jauh meninggalkan FATETA dan fakultas-fakultas lainnya Tren perkembangan rataan IPK TPB terjadi penurunan rataan IPK TPB Ilmu Komputer tahun masuk 2003 yang dipengaruhi oleh mahasiswa dari jalur UMPTN/SPMB dan jenis kelamin laki-laki Saran Fasilitas aplikasi dikembangkan untuk Pemrosesan data melalui teknik data preprocessing Pemodelan struktur kubus data Pemasukan data baru Operasi-operasi OLAP dikembangkan untuk Slice dan dice menampung 2 atau lebih dimensi tiap axis dalam crosstab Pivot pada crosstab dibuatkan shortcut Visualisasi hasil operasi OLAP dikembangkan untuk Fungsi pengurutan pada crosstab Tipe grafik selain bar plot dan line plot pada grafik Dikembangkan aplikasi dengan menggunakan Palo versi terbaru Daftar Pustaka Bouzeghoub M & Kedad Z. 2000. A Quality-Based Framework for Physical Data Warehouse Design. Laboratoire PRiSM, Université de Versailles. Versailles Cedex, France. Connolly T & Begg C. 2002. Database Systems: A Practical Approach to Design, Implementation, and Management. USA: Addison Wesley. Han J & Kamber M. 2001. Data Mining Concepts & Techniques. Simon Fraser University. USA: Morgan Kaufman. Inmon WH. 1996. Building the Data warehouse. New York, USA: John Wiley & Sons. Kantardzic M. 2003. Data Mining Concept, Models, Methods, dan Algorithms. New Jersey, USA: A John Wiley & Sons. Mallach EG. 2000. Decision Support and Data Warehouse Systems, International Edition. Singapore: McGraw-Hill. Post GV. 2005. Database Management Systems: Designing and Building Business Applications, Third Edition. New York, USA: McGraw Hill. Silberschatz A, Korth HF, & Sudarshan S. 2006. Database System Concepts, Fifth Edition. Singapore: McGraw-Hill. TERIMA KASIH