Tujuan Penelitian

advertisement
Pembangunan Data Warehouse dan Aplikasi OLAP
untuk Data PPMB IPB Menggunakan Palo
Abi Herlambang
G64101047
Latar Belakang
 Penyimpanan data secara rutin dan
terakumulasi dari waktu ke waktu akan
menyebabkan terjadinya penumpukan data
 Masalah dalam menyajikan informasi yang
konklusif, cepat, dan menarik
 Informasi tersembunyi yang terkandung
dalam data PPMB IPB perlu dieksplorasi dan
divisualisasikan ke dalam bentuk yang
menarik
Ruang Lingkup & Manfaat
 Ruang lingkup penelitian dibatasi pada
pembuatan data warehouse, implementasi
operasi OLAP (On-Line Analytical
Processing), dan presentasi informasi untuk
data PPMB IPB tahun masuk 2000 sampai
2004
 Diharapkan bermanfaat bagi pihak-pihak
yang memerlukan informasi konklusif, cepat,
dan menarik sehingga dapat membantu
dalam proses pengambilan keputusan
Tujuan
 Membangun data warehouse dan operasi-
operasi OLAP untuk data PPMB IPB dan data
IPK mahasiswa TPB IPB
 Membangun aplikasi untuk memvisualisasikan hasil operasi-operasi OLAP
Tinjauan Pustaka
 Data Preprocessing  teknik pemrosesan data
yang dapat memperbaiki kualitas data sehingga
membantu memperbaiki akurasi dan efisiensi proses
pengolahan data selanjutnya (Han & Kamber 2001)
Tahapan:




Pembersihan: mengisi nilai yang kosong, mengurangi
noise dan memperbaiki ketidakkonsistenan dalam data
Integrasi: penggabungan data dari berbagai sumber
penyimpanan data
Transformasi: mengubah ke dalam bentuk yang tepat
agar data tetap konsisten
Reduksi: memperoleh representasi tereduksi dari
sejumlah data yang berimplikasi pada volume yang
jauh lebih kecil
Tinjauan Pustaka (lanjutan)
 Data Warehouse  sekumpulan data berorientasi
subyek, terintegrasi, time-variant, dan non-volatile
yang mendukung manajemen dalam proses
pembuatan keputusan (Inmon 1996)
Penjelasan rinci (Han & Kamber 2001):




Berorientasi subyek: disusun berdasarkan subyek
yang utama
Terintegrasi: dibangun dengan mengintegrasikan
berbagai sumber data
Time-variant: menyediakan informasi berdasarkan
perspektif waktu
Non-volatile: penyimpanan data yang terpisah dari
basis data operasional  hanya memerlukan
pemuatan dan akses data
Tinjauan Pustaka (lanjutan)
Data warehousing  infrastruktur perangkat lunak
yang mendukung aplikasi OLAP dengan
menyediakan sebuah koleksi alat bantu yang
(Bouzeghoub & Kedad 2000):




mengumpulkan data dari sekumpulan sumber-sumber
heterogen terdistribusi
membersihkan dan mengintegrasikan data tersebut ke
dalam representasi yang seragam
mengagregasi dan mengorganisasi data tersebut ke
dalam struktur multidimensional yang tepat untuk
pengambilan keputusan, dan
memperbaharuinya secara periodik untuk menjaga
agar data mutakhir dan akurat
Tinjauan Pustaka (lanjutan)
 Model Data Multidimensi  Pembuatan data
warehouse didasarkan pada model data
multidimensi. Model ini menampilkan data dalam
bentuk kubus. Model data multidimensi terdiri dari
dimensi (dimensions) dan fakta (facts) (Han &
Kamber 2001)


Dimensi  perspektif atau entiti penting yang dimiliki
oleh organisasi
Fakta  ukuran-ukuran numerik, merupakan kuantitas
yang akan dianalisis hubungan antar dimensinya,
berisi nama-nama fakta (ukuran) dan key dari tabeltabel dimensi yang berelasi dengan tabel fakta
Tinjauan Pustaka (lanjutan)
Data warehouse memerlukan skema yang ringkas
dan berorientasi subyek yang dapat digunakan dalam
analisis data on-line (Han & Kamber 2001)
Tipe-tipe skema model data multidimensi:



Skema bintang (star schema)  hubungan antara
tabel dimensi dan tabel fakta menyerupai bintang,
dimana satu tabel fakta dihubungkan dengan beberapa
tabel dimensi
Skema snowflake (snowflake schema)  variasi
dari skema bintang dimana beberapa tabel dimensi
dinormalisasi, jadi dihasilkan beberapa tabel tambahan
Skema galaksi (fact constellation)  beberapa tabel
fakta berbagi tabel dimensi
Tinjauan Pustaka (lanjutan)
 On-Line Analytical Processing (OLAP)
 seperangkat tool untuk membantu proses analisis dan
perbandingan data. Kemampuan interaktif untuk melihat data
dari berbagai perspektif (Post 2005)
 membantu pengguna menganalisis data pada sebuah data
warehouse dengan menyediakan berbagai tampilan data, dan
didukung dengan representasi grafik yang dinamis (Kantardzic
2003)
Operasi-operasi OLAP (Han & Kamber 2001):
 Roll-up  agregasi pada kubus data dengan cara menaikan
tingkat suatu hirarki konsep atau mengurangi dimensi
 Drill-down  kebalikan dari roll-up
 Slice  pemilihan satu dimensi dari kubus data
 Dice  pemilihan dua atau lebih dimensi
 Pivot  memutar koordinat data
Tinjauan Pustaka (lanjutan)
Web-based OLAP (WOLAP)
 diterapkan pengguna web browser dalam internet atau
intranet
 mengeliminasi kebutuhan akan instalasi paket perangkat
lunak pada komputer pengguna

Arsitektur Three-Tier Data Warehouse
 Data warehousing mengadopsi arsitektur three-tier

Lapis bawah: server basis data warehouse, data diambil
dari basis data operasional dan sumber eksternal lainnya,
diekstrak, dibersihkan, dan ditransformasi

Lapis tengah: OLAP server

Lapis atas: front-end client, berisi query dan perangkat
pelaporan, perangkat analisis, dan/atau perangkat data
mining
Metode Penelitian


Analisis data PPMB IPB
Pemrosesan data dengan teknik data preprocessing




Integrasi dan reduksi data
Pembersihan data
Transformasi data
Pembangunan aplikasi OLAP menggunakan Palo
sebagai OLAP server
OLAP server Palo  menyediakan fungsi agregasi
dan menyimpan data dalam kubus data
multidimensi
Hasil dan Pembahasan
 Analisis data sumber  fakta dan dimensi  skema
data warehouse
 Data preprocessing



Integrasi & reduksi data  menyeragamkan format
basis data dan menyusutkan volume melalui konversi
basis data, menggabung data, dan membuang atributatribut yang tidak terpilih
Pembersihan data  mengidentifikasi dan
memperbaiki data kosong (null), mengandung noise,
dan data tidak konsisten
Transformasi data  penyeragaman nama atribut,
generalisasi, agregasi, dan konstruksi atribut/dimensi
 Penyimpanan data warehouse
(MsSQL Server 2000)
Hasil dan Pembahasan (lanjutan)
 Skema galaksi data warehouse PPMB
Asal
PK
Waktu
id_asal
PK
propinsi
pulau
id_waktu
Jalur
PK
tahun_masuk
Pelamar
Mahasiswa
id_jalur
jalur
Listrik
PK
id_listrik
listrik
BiayaHidup
PK
id_biaya
biaya_hidup
FK1
FK2
FK3
FK4
FK5
FK6
FK7
FK8
FK9
id_waktu
id_asal
id_kel
studi_pilihan1
studi_pilihan2
studi_putusan
id_listrik
id_biaya
id_kategori
jumlah_pelamar_usmi
JenisKelamin
PK
id_kel
lelaki_perempuan
Studi
PK
id_studi
KategoriSLA
PK
id_kategori
kategori_sla
program_studi
departemen
fakultas
FK1
FK2
FK3
FK4
FK5
FK6
FK7
id_waktu
id_jalur
id_kel
pendidikan_ayah
pendidikan_ibu
id_pek
id_studi
rataan_pendapatan_ayah
rataan_ipk_tpb
jumlah_mhs
Pendidikan
PK
id_pend
pendidikan
PekerjaanAyah
PK
id_pek
pekerjaan_ayah
Hasil dan Pembahasan (lanjutan)

Pembuatan struktur kubus data Palo

Kubus data Pelamar  berisi nilai-nilai agregasi
siswa/siswi SMU yang melamar ke IPB melalui jalur USMI



Kubus data Mahasiswa  berisi nilai-nilai agregasi
mahasiswa IPB



Dimensi: waktu, asal, jenis kelamin, studi pilihan1, studi
pilihan2, studi putusan, listrik, biaya hidup, dan kategori sla
Ukuran: jumlah pelamar USMI
Dimensi: waktu, jalur, jenis kelamin, pendidikan ayah,
pendidikan ibu, pekerjaan ayah, dan program studi
Ukuran: rataan pendapatan ayah, rataan IPK TPB, dan
jumlah mahasiswa
Pemuatan data
 data warehouse ke OLAP server  kubus data
Hasil dan Pembahasan (lanjutan)
 Implementasi
 PHP
 Palo PHP API
 JpGraph (pembangkit grafik)
 Fitur Aplikasi:
 Menu OLAP  menentukan kubus data, ukuran, dan
dimensi-dimensi
 Filter dimensi  menentukan elemen-elemen dari
dimensi yang akan dioperasikan
 Crosstab dan Grafik  visualisasi hasil operasi OLAP
 Disain cetakan  aplikasi mengeliminasi tampilan
yang tidak perlu pada hasil cetakan
Hasil dan Pembahasan (lanjutan)
 Arsitektur data warehousing
Laptop
XLS
DBF
Extract
Transform
Load
Refresh
Apache web server
Presentasi
OLAP tool
Data
Warehouse
MSSQLServer
Line Plot
Workstation
DBF
Grafik Analisa
DBF
Sumber Data
Palo OLAP
server
Crosstab
Bottom tier :
Data warehouse
DBMS
Middle tier :
Web server
OLAP server
Top tier:
Web Browser
Hasil dan Pembahasan (lanjutan)
 Kelebihan sistem:
 Aplikasi berbasis web  mengeliminasi kebutuhan
akan instalasi paket perangkat lunak pada komputer
pengguna
 Aplikasi dilengkapi versi portable  tidak memerlukan
instalasi dan konfigurasi web server dan OLAP server
 Aplikasi dan perangkat lunak bantu yang digunakan
berbasis open source dan freeware  memudahkan
pengembangan selanjutnya
 Aplikasi dapat menggunakan bermacam data
warehouse
Hasil dan Pembahasan (lanjutan)
 Kekurangan sistem:
 Tidak ada fasilitas untuk memodelkan struktur
kubus data dan memuat data baru ke dalam
kubus data
 Crosstab hanya dapat menampilkan satu
dimensi untuk setiap axis-nya
 Tidak ada fungsi untuk melakukan operasi
pivot
 Visualisasi grafik hanya menampilkan tipe bar
plot dan line plot. Tidak ada tipe grafik pie,
radar, polar, dan lainnya
Hasil dan Pembahasan (lanjutan)
 Contoh penerapan:
 Analisis pola sebaran pelamar jalur USMI berdasarkan
asal pulau  menunjukan pelamar asal pulau tertentu
mendominasi dan fakultas-fakultas yang menjadi
pilihan
 Analisis tren pilihan siswa/siswi SMU terhadap
fakultas-fakultas di IPB  menunjukan kecenderungan
siswa/siswi SMU terhadap pilihan fakultas di IPB
 Analisis tren perkembangan rataan IPK TPB untuk
program studi Ilmu Komputer  menunjukan
perkembangan IPK TPB dan faktor/dimensi apa yang
mempengaruhinya
Hasil dan Pembahasan (lanjutan)
 Contoh operasi-operasi OLAP dalam aplikasi
 Drill-down: dimensi studi pilihan1, jumlah pelamar dari
tingkat IPB  jumlah pelamar tiap fakultas (FMIPA,
FAPERTA, dsb)
 Roll-up: dimensi asal, jumlah pelamar dari tingkat asal
propinsi (DKI Jakarta, Jawa Barat, Banten, dsb) 
jumlah pelamar tingkat pulau: Jawa
 Slice: keseluruhan jumlah pelamar USMI  jumlah
pelamar USMI untuk fakultas FMIPA saja
 Dice: jumlah pelamar USMI asal pulau Irian untuk
fakultas FMIPA pada tahun 2000 sampai 2004
Kesimpulan
 Penelitian menghasilkan data warehouse PPMB IPB
yang terdiri dari dua kubus data: Pelamar dan
Mahasiswa
 Hasil operasi OLAP divisualisasikan dalam bentuk
crosstab dan grafik yang dinamis
 Aplikasi OLAP memudah pengguna untuk
mengekplorasi data PPMB  cukup dengan memilih
kubus data, ukuran, dimensi, dan elemen yang
diinginkan tanpa harus memasukan query-query SQL
yang rumit
 Hasil ekplorasi data disajikan dalam bentuk informasi
yang konklusif, cepat, dan menarik
Kesimpulan (lanjutan)
Dari contoh penerapan dapat disimpulkan:
 Pola sebaran pelamar jalur USMI berdasarkan asal pulau 
pelamar dari pulau Jawa dan Sumatera paling dominan, dan
mayoritas pelamar memilih fakultas FAPERTA, FATETA, dan
FMIPA
 Tren pilihan siswa/siswi SMU terhadap fakultas-fakultas di IPB
 fakultas FMIPA menjadi fakultas di IPB yang favorit
berdasarkan pilihan siswa/siswi SMU, selain itu juga FMIPA
mengalami perkembangan yang baik dengan jumlah pelamar
terbanyak di tahun 2003 dan 2004 melebihi FAPERTA, dan jauh
meninggalkan FATETA dan fakultas-fakultas lainnya
 Tren perkembangan rataan IPK TPB  terjadi penurunan
rataan IPK TPB Ilmu Komputer tahun masuk 2003 yang
dipengaruhi oleh mahasiswa dari jalur UMPTN/SPMB dan jenis
kelamin laki-laki
Saran
 Fasilitas aplikasi dikembangkan untuk
 Pemrosesan data melalui teknik data preprocessing
 Pemodelan struktur kubus data
 Pemasukan data baru
 Operasi-operasi OLAP dikembangkan untuk
 Slice dan dice  menampung 2 atau lebih dimensi tiap
axis dalam crosstab
 Pivot pada crosstab  dibuatkan shortcut
 Visualisasi hasil operasi OLAP dikembangkan untuk
 Fungsi pengurutan pada crosstab
 Tipe grafik selain bar plot dan line plot pada grafik
 Dikembangkan aplikasi dengan menggunakan Palo
versi terbaru
Daftar Pustaka
 Bouzeghoub M & Kedad Z. 2000. A Quality-Based Framework for







Physical Data Warehouse Design. Laboratoire PRiSM, Université de
Versailles. Versailles Cedex, France.
Connolly T & Begg C. 2002. Database Systems: A Practical Approach
to Design, Implementation, and Management. USA: Addison Wesley.
Han J & Kamber M. 2001. Data Mining Concepts & Techniques. Simon
Fraser University. USA: Morgan Kaufman.
Inmon WH. 1996. Building the Data warehouse. New York, USA: John
Wiley & Sons.
Kantardzic M. 2003. Data Mining Concept, Models, Methods, dan
Algorithms. New Jersey, USA: A John Wiley & Sons.
Mallach EG. 2000. Decision Support and Data Warehouse Systems,
International Edition. Singapore: McGraw-Hill.
Post GV. 2005. Database Management Systems: Designing and
Building Business Applications, Third Edition. New York, USA: McGraw
Hill.
Silberschatz A, Korth HF, & Sudarshan S. 2006. Database System
Concepts, Fifth Edition. Singapore: McGraw-Hill.
TERIMA KASIH
Download