Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Pada penelitian data warehouse terdahulu dengan judul Perancangan dan Pembangunan OLAP pada Data Warehose Menggunakan Pendekatan Multidimensional (Studi Kasus Tingkat Kelulusan di Salatiga), data warehouse digunakan untuk membantu penyediaan data yang dibutuhkan dalam pengukuran kinerja proses belajar mengajar. Informasi yang dihasilkan pada data warehouse adalah perbandingan hasil lulus dan tidak lulus, tingkat kelulusan mata pelajaran dan summary dari nilai tiap pelajaran. Proses multidimensional query dilakukan dengan menggunakan pivoting table dan chart. Pengguna dapat memanipulasi data yang tampil pada setiap sumbunya seperti yang dapat dilakukan pada pivot table (Pinem, 2009). Penelitian yang lain dengan judul “Pembangunan Online Analytical Processing System untuk Representasi Informasi Pertanian Padi dan Palawija Provinsi Jawa Tengah” pernah dilakukan sebelumya. Pada penelitian tersebut dibahas tentang pembuatan sistem yang berfungsi untuk merepresentasikan secara visual informasi hasil pertanian dan palawija pada daerah-daerah yang ada di Jawa Tengah yaitu berupa tabel, grafik, serta diagram (pie, batang ataupun garis) (Meganita, 2009). Dalam penelitian ini data yang digunakan adalah data hasil panen padi dan palawija. Yang membedakan penelitian ini dengan penelitian diatas adalah jenis data yang digunakan dan terdapat menu tambahan yaitu menu input data yang hanya bisa dilakukan oleh admin selain itu juga terdapat menu proyeksi penduduk. 2.2 Landasan Teori 2.2.1 Definisi Demografi Pengertian Demografi : 1. Ilmu yang mempelajari penduduk suatu wilayah dari segi jumlah, struktur (perubahannya), (komposisi) Multilingual dan perkembangannya Demographic Dictionary (IUSSP, 1982). 2. Ilmu yg mempelajari jumlah, persebaran, teritorial, komposisi penduduk, dan perubahan serta sebab-sebabnya yg biasa timbul karena natalitas, mortalitas, migrasi, dan mobilitas sosial. (Hauser dan Duncan, 1959). 3. Studi matematik dan statistik terhadap jumlah, komposisi, distribusi spasial dari penduduk manusia, dan perubahanperubahan dari aspek tersebut selalu terjadi akibat proses fertilitas, mortalitas, perkawinan, migrasi dan mobilitas sosial. (Bogue, 1969). 2.2.2 Proyeksi Penduduk Proyeksi penduduk (population projections) dan peramalan penduduk (population forecast) sering dipergunakan sebagai dua istilah yang sering dipertukarkan. Meskipun demikian, kedua istilah ini sebenarnya memiliki perbedaan yang sangat mendasar. Berbagai literature menyatakan proyeksi penduduk sebagai prediksi (ramalan) yang didasarkan pada asumsi rational tertentu yang dibangun untuk kecenderungan masa yang akan datang dengan menggunakan peralatan statistik atau perhitungan matematik. Disisi lain peramalan (forecast) penduduk bisa saja dengan atau tanpa asumsi dan atau kalkulasi. Tanpa kondisi/syarat tertentu atau pendekatan tertentu. (Smith, 2001) Dari berbagai literature, terdapat banyak metode dalam proyeksi penduduk. Masing-masingnya memiliki asumsi sendiri, kekuatan dan kelemahan. Model-model yang umum yang biasanya digunakan untuk proyeksi penduduk diantaranya adalah: 1. Model ekstrapolasi trend, yang diantaranya terdiri dari: o Model Linear (Aritmethic) o Model Geometric o Model Parabolic 2. Model Komponen Kohor 3. Model Ratio o Model “Constant Share” o Model “Shift Share” o Model “Share of Growth” 2.2.2.1 Model Ektrapolasi Trend Model ekstrapolasi trend secara sederhana menggunakan trend penduduk masa yang lalu untuk memperkirakan jumlah penduduk masa yang akan datang. Metode ini adalah metode yang digunakan dalam rangka proyeksi penduduk. Selain itu, metode ini juga digunakan untuk menghitung tingkat dan ratio pada masa yang akan datang berdasarkan tingkat dan ratio pada masa yang lalu. Model ekstrapolasi trend yang banyak digunakan adalah model linear, geometric dan parabolic. Asumsi dasar dari model ini adalah pertumbuhan atau penurunan akan berlanjut tanpa batas. Namun demikian, asumsi tersebut tidak mungkin diberlakukan jika proyeksi yang disusun adalah proyeksi jangka panjang. Misalnya jika populasi di suatu daerah berkurang, dalam jangka panjang model ini akan memproyeksikan penduduk menjadi nol, dan bahkan menjadi negatif. Demikian juga, jika jumlah penduduk di suatu daerah yang meningkat, tidak mungkin akan meningkat pada jumlah yang tanpa batas. Dalam kenyataannya, penduduk hanya akan meningkat sampai suatu tingkat dengan kapasitas yang maksimum dan kemudian akan kembali turun atau stabil dalam kaitannya dengan kepadatan penduduk, biaya hidup dan kualitas hidup. Oleh karenanya, penggunaan model ekstrapolasi trend membutuhkan pemahaman yang baik tentang kecenderungan pertumbuhan masa lalu untuk membuat estimasi dengan batasan yang masuk akal (reasonable). a. Model Linear (Aritmethic) Model linear adalah teknik proyeksi yang paling sederhana dari seluruh model trend. Model ini menggunakan persamaan derajat pertama (first degree equation). Berdasarkan hal tersebut, penduduk diproyeksikan sebagai fungsi dari waktu, dengan persamaan (Klosterman, 1990): Pt =α + βT Dimana : Pt = penduduk pada tahun proyeksi t α = intercept = penduduk pada tahun dasar β = koefisien = rata-rata pertambahan penduduk T = periode waktu proyeksi = selisih tahun proyeksi dengan tahun dasar Hasil proyeksi akan berbentuk suatu garis lurus. Model ini berasumsi bahwa penduduk akan bertambah/berkurang sebesar jumlah absolute yang sama/tetap (β) pada masa yang akan datang sesuai dengan kecenderungan yang terjadi pada masa lalu. Ini berarti bahwa, jika Pt+1 dan Pt adalah jumlah populasi dalam tahun yang berurutan, Pt+1 – Pt yang adalah perbedaan pertama yang selalu tetap (konstan). Mengacu pada (Pittengar, 1976), mengemukakan bahwa model ini hanya digunakan jika data yang tersedia relatif terbatas, sehingga tidak memungkinkan untuk menggunakan model lain. Model ini hanya dapat diaplikasikan untuk wilayah kecil dengan pertumbuhan yang lambat, dan tidak tepat untuk proyeksi pada wilayah-wilayah yang lebih luas dengan pertumbuhan penduduk yang tinggi (Isserman, 1977). b. Model Geometric. Asumsi dalam bertambah/berkurang model pada ini adalah penduduk akan suatu tingkat pertumbuhan (persentase) yang tetap. Misalnya, jika Pt+1 dan Pt adalah jumlah penduduk dalam tahun yang berurutan, maka penduduk akan bertambah atau berkurang pada tingkat pertumbuhan yang tetap (yaitu sebesar Pt+1/Pt ) dari waktu ke waktu. Proyeksi dengan tingkat pertumbuhan yang tetap ini umumnya dapat diterapkan pada wilayah, dimana pada tahun-tahun awal observasi pertambahan absolut penduduknya sedikit dan menjadi semakin banyak pada tahun-tahun akhir. Model geometric memiliki persamaan umum (Klosterman, 1990): Pn= Po(1+r)t (2.1) Persamaan diatas dapat ditransformasi kedalam bentuk linear melalui aplikasi logaritma, menjadi sebagai berikut: Log ( 1+r) = log Pn – Log Po t Dimana : Pn = jumlah penduduk pada akhir periode (orang ), Po = jumlah penduduk pada awal periode ( orang ), r = tingkat pertumbuhan penduduk (%), t = jangka waktu (Tahun). (2.2) c. Model Parabolic. Model parabolic seperti model geometric berasumsi bahwa penduduk suatu daerah tidak tumbuh dalam bentuk linear. Namun demikian, tidak seperti model geometrik (yang berasumsi tingkat pertumbuhan konstan dari waktu ke waktu), pada model parabolic tingkat pertumbuhan penduduk dimungkinkan untuk meningkat atau menurun. Model ini menggunakan persamaan derajat kedua yang ditunjukkan sebagai berikut: Pt =α + β1T + β2T2 Model parabolic memiliki dua koefisien yaitu β1 dan β2. β1 adalah koefisien linear (T) yang menunjukkan pertumbuhan konstan, dan β2 adalah koefisien non-linear yang (T2) yang menyebabkan perubahan tingkat pertumbuhan. Tanda positif atau negatif pada β1 dan β2 bervariasi tergantung pada apakah tingkat pertumbuhan tersebut akan meningkat atau menurun. Berdasarkan variasi pada tanda β1 dan β2, model akan menghasilkan empat skenario sebagai berikut: Tabel 2.1 Skenario dalam Model Parabolik β1 β2 Efek terhadap pertumbuhan penduduk Pertambahan yang semakin meningkat + + Penduduk bertambah Kurva cekung ke atas (Concave upward) + - Pertambahan yang semakin berkurang Penduduk berkurang Kurva cekung ke bawah (concave downward) Pertambahan yang semakin berkurang - + Penduduk bertambah Kurva cekung ke atas (Concave upward) Pertambahan yang semakin meningkat - - Penduduk berkurang Kurva cekung ke bawah (concave downward) Disarankan demographer untuk terlebih dahulu mencermati (menguji coba) model ini ketika akan diaplikasikan pada suatu daerah. Menurutnya, meskipun model ini baik untuk daerah dengan pertumbuhan atau penurunan yang cepat, namun demikian proyeksi jangka panjang akan menghasilkan angka yang sangat besar atau sangat kecil (Klosterman, 1990). 2.2.3 Online Analytical Processing (OLAP) Online Analytical Processing (OLAP) adalah salah satu tools yang digunakan untuk mengakses informasi dalam data warehouse. Teknologi OLAP memungkinkan data warehouse digunakan secara efektif untuk proses online analysis, serta memberikan respon yang cepat terhadap analytical query yang kompleks (Amo, 2000). Dengan kemampuannya OLAP dapat menaikkan atau menurunkan dimensi data sehingga dapat menggali data sampai pada level yang sangat detail dan memperoleh pandangan yang lebih luas mengenai objek yang sedang dianalisis. OLAP digunakan untuk menemukan hubungan antara suatu item yang belum ditemukan. Pada basis data OLAP tidak perlu memiliki ukuran besar seperti data warehouse, karena tidak semua transaksi membutuhkan analisis tren. Dengan menggunakan open database connectivity (ODS), data dapat diimpor dari basis data relasional menjadi suatu basis data multidimensi untuk OLAP. OLAP adalah suatu teknologi yang menawarkan high performance akses pada data untuk dapat dianalisis secara multidimensional. OLAP dapat digunakan untuk melaksanakan perbandingan volume data yang besar. Berdasarkan struktur basis datanya OLAP dibedakan menjadi 3 kategori utama: a. Relational Online Analytical Processing (ROLAP) Secara umum OLAP dibangun diatas relational database sistem yang dikenal dengan relational OLAP (ROLAP). ROLAP menggunakan relational database (RDBMS) untuk menyimpan data dengan menggunakan star schema atau snowflake schema yang menghasilkan query analisis didalam SQL. Relational Online Analytical Processing (ROLAP) adalah suatu format pengolahan OLAP yang melakukan analisis data secara dinamis yang disimpan dalam basis data relational bukan pada basis data multidimensi. ROLAP cenderung digunakan untuk menganalisis query dimensi data dalam volume data yang besar.ROLAP merupakan bentuk teknologi OLAP yang paling berkembang. Karakteristik ROLAP meliputi : 1. Skala data yang digunakan besar. 2. Menggunakan teknologi yang terbaru. 3. Lambat dalam menjalankan query. 4. Desain dan perawatan yang tinggi. b. Multidimensional Online Analytical Processing (MOLAP) Multidimensional Online Analytical Processing (MOLAP) adalah OLAP yang secara langsung mengarah pada basis data multidimensi. MOLAP memproses data yang telah disimpan dalam array multidimensional dimana semua kombinasi data yang mungkin dicerminkan, masing-masing di dalam suatu sel yang dapat diakses secara langsung. Database menyajikan model geometrik objek (point, line, polygon dll) di dalam ruang multidimensional. MOLAP dapat digunakan sebagai poin pada ruang multidimensional sebagai atribut dan manfaat dari teknik database. Walaupun berbeda dengan operasi pada database yang overlap (tumpang tindih), MOLAP bermanfaat untuk mengembangkan ruang lingkup yang ada pada database. (Guting, 1994) MOLAP dibangun secara rinci untuk menangani multidimensional query secara cepat dan efisien pada multidimensional data yang didalamnya terdapat agregasi data.Karakteristik MOLAP meliputi : 1. Memiliki respon yang tinggi pada saat query dilakukan. 2. Multidimensional query. 3. Mudah dalam perawatan. 4. Skala dan volume data rendah. Pada tugas akhir ini sistem yang dibangun akan menggunakan MOLAP, karena pertimbangan karakteristik MOLAP yang bersifat multidimensional query. c. Hybrid Online Analytical Processing (HOLAP) Hybrid Online Analytical Processing (HOLAP) merupakan kombinasi antara ROLAP dengan MOLAP. HOLAP dikembangkan untuk mengkombinasikan antara kapasitas data pada ROLAP yang besar dengan kemampuan proses pada MOLAP. (Weinberger, 1999) OLAP (On-Line Analytical Processing) adalah suatu pernyataan yang bertolak belakang atau kontras dengan OLTP (On-Line Transaction Processing). OLAP menggambarkan sebuah kelas teknologi yang dirancang untuk analisis dan akses data secara khusus. Apalabila pada proses transaksi pada umumnya semata-mata adalah pada relational database, OLAP muncul dengan sebuah cara pandang multidimensi data. Cara pandang multidimensi ini didukung oleh teknologi multidimensi database. Cara ini memberikan teknik dasar untuk kalkulasi dan analisis oleh sebuah aplikasi bisnis. Konsep dasar OLAP bersumber dari kebutuhan untuk efisiensi. Rangkuman atau agregasi data, penjumlahan, rerata, nilai maksimum dan minimum dikalkulasi dan disimpan dalam data cube yang bersifat multidimensional (Song dan Brown, 2002). Sistem yang memungkinkan para manajer untuk memperoleh penjelasan tentang pencapaian perusahaan melalui suatu pandangan data yang bervariasi, luas, dan terorganisir untuk mencerminkan multidimensional data menyangkut data dari perusahaan (Codd, 1993). OLAP memberikan pengertian yang mendalam tentang data dengan cepat, konsisten, akses variasi data yang luas pada informasi data yang dihasilkan. Kontras dengan database, OLAP menjawab pertanyaan seperti “jika?” dan “mengapa?” sebagai tambahan “untuk siapa?” dan “apa?”. OLAP digunakan untuk membangun sistem pengambilan keputusan yang membantu penjabaran data.(Goil, 1997) 2.2.4 Data Warehouse Data Warehouse merupakan sekumpulan informasi yang disimpan dalam basisdata yang digunakan untuk mendukung pengambilan keputusan dalam sebuah organisasi. Data dikumpulkan dari berbagai aplikasi yang telah ada. Data yang telah dikumpulkan tersebut kemudian difalidasi dan direstrukturisasi lagi, untuk selanjutnya disimpan dalam data warehouse. Pengumpulan data ini memungkinkan para pengambil keputusan untuk pergi hanya ke satu tempat untuk mengakses seluruh data yang ada tentang organisasinya (Freeze, 2000). Kebutuhan pemanfaatan Data Warehouse disejumlah organisasi didasarkan pada dua pertimbangan, pertama kebutuhan operasional, yang mendukung fungsional kegiatan transaksi bisnis setiap hari, optimasi dengan respon yang cepat pada proses transaksi dan representasi bersifat waktu nyata pada identifikasi status bisnis. Kedua kebutuhan informasi, digunakan untuk pengelolaan dan pengendalian bisnis dalam bentuk analisis data untuk pengambilan keputusan status organisasi dimasa sekarang dan masa mendatang (Gatziu dan Athanasios, 1999). Beberapa karakteristik Data Warehouse sebagai berikut : 1. Subject oriented Aplikasi untuk operasi perusahaan berorientasi pada proses (mengotomasi fungsi-fungsi dari proses bersangkutan atau function oriented). Misalnya di bank, aplikasi kredit mengotomasi fungsi-fungsi: verifikasi lamaran dan credit checking, pemeriksaan kolateral, approval, pendanaan, tagihan, dan seterusnya. Didalam data warehouse data-data yang dihasilkan dari proses kredit ini, diatur kembali dan diintegrasikan dengan data-data dari fungsi-fungsi lain, agar berorientasi pada misalnya nasabah dan produk. 2. Integrated Data dari macam-macam aplikasi transaksi (untuk bank misalnya: tabungan, kredit, rekening koran) semua mengandung data nasabah, ada yang sama ada yang spesifik (yang sama misalnya: nama dan alamat, yang spesifik misalnya: untuk kredit ada kolateral, untuk rekening koran ada overdraft) di dalam data warehouse data-data yang sama harus diintegrasikan disatu database, termasuk misalnya diseragamkan formatnya (sederhana tetapi paling sering terjadi aplikasi-aplikasi sering dibeli vendor berbeda, dibuat dengan atau dijalankan di teknologi berbedabeda). 3. Time variant Data warehouse menyimpan sejarah (historical data). Waktu merupakan tipe atau bagian data yang sangat penting didalam data warehouse. Di dalam data warehouse sering disimpan macam-macam waktu, seperti waktu suatu transaksi terjadi atau dirubah atau dibatalkan, kapan data dibutuhkan, kapan masuk ke komputer, kapan masuk ke data warehouse; juga hampir selalu disimpan versi, misalnya terjadi perubahan definisi kode pos, maka yang lama dan yang baru ada semua didalam data warehouse kita. 4. Non-volatile Sekali masuk kedalam data warehouse, data-data, terutama data tipe transaksi, tidak akan pernah di update atau dihapus. (Inmon, 2003) Gambar 2.1 Arsitektur Data Warehouse (Bimonte, 2006) Gambar 2.1 dijelaskan mengenai arsitektur data warehouse. Data warehouse didesain untuk bisa melakukan query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up data untuk dijadikan ringkasan (summaries), dilakukan operasi drilling down untuk mendapatkan informasi yang lebih detail atau melihat pola yang menarik atau melihat trend (kecenderungan). Konsep dan teknologi data warehouse diterapkan dalam satu langkah, terdapat fundamental yang disarankan diikuti tidak dapat langkah-langkah demi tercapainya keberhasilan penerapan tanpa mengganggu sistem aplikasi yang sudah ada. 1. Melakukan penyalinan dan konversi data dari aplikasi atau suatu sistem yang sudah ada menjadi satu jenis basis data. Langkah ini dikenal dengan Offline Operasional Database. 2. Melakukan penyalinan dan konversi data secara regular dalam jangka waktu yang telah ditentukan dari aplikasi atau system yang sudah ada menjaadi satu jenis basis data. Mekanisme ini dilakukan dalam interval waktu tertentu dengan dukungan otomatisasi yang dimiliki oleh aplikasi teknologi data warehouse. Langkah ini dikenal dengan Offline Data Warehouse. 3. Melakukan penyalinan dan konversi data secara “real time” atau dengan kata lain otomatisasi dilakukan setiap kali terjadi perubahan pada data dari aplikasi atau system yang sudah ada. Langkah ini dikenal dengan Real Time Data Warehouse. 4. Setiap tejadi perubahan data baik pada data warehouse maupun pada data opersional aplikasi keduanya saling mensinkronisasi. Langkah ini dikenal dengan Integrated Data Warehouse. (Ferdiana, 2008) 2.2.5 Data Mining Banyak sekali definisi mengenai apa itu data mining. Secara garis besar data mining merupakan suatu alat yang memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah yang besar. Pengertian yang lebih khusus lagi dari data mining yaitu suatu alat dan aplikasi dengan menggunakan analisis statistik pada data. Data mining juga dikenal sebagai KDD (Knowledge Data Discovery) di dalam basis data. Data mining adalah suatu proses ekstraksi atau penggalian data dan informasi yang besar, yang belum diketahui sebelumnya, namun dapat dipahami dan berguna dari database yang besar serta digunakan untuk membuat suatu keputusan bisnis yang sangat penting. (Connolly dan Begg, 2005). Data mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk menemukan pola-pola yang tidak diketahui pada data yang telah dikumpulkan. Data mining memungkinkan pemakai "menemukan pengetahuan" dalam database yang tidak mungkin diketahui keberadaannya oleh pemakai. (Berson dan Smith, 2001) Data mining kesimpulan-kesimpulan mengidentifikasikan yang fakta-fakta disarankan atau berdasarkan penyaringan melalui data untuk menjelajahi pola-pola atau anomali-anomali data. Data mining mempunyai lima fungsi yaitu: 1. Classification Classification yaitu menyimpulkan definisi-definisi karakteristik dari sebuah grup. Contoh: pelanggan-pelanggan perusahaan yang telah berpindah ke saingan perusahaan yang lain. 2. Clustering Clustering yaitu mengidentifikasikan kelompok-kelompok dari barang-barang atau produk-produk yang berbagi karakteristik yang khusus (clustering berbeda dengan classification dimana pada clustering tidak terdapat definisi-definisi karakteristik awal yang diberikan pada waktu classification). 3. Association Association yaitu mengidentifikasikan hubungan antara kejadiankejadian yang terjadi pada suatu waktu seperti isi-isi dari keranjang belanja. 4. Sequencing Hampir sama dengan association, sequencing mengidentifikasikan hubungan-hubungan yang berada pada suatu periode waktu tertentu seperti pelanggan-pelanggan yang mengunjungi supermarket secara berulang-ulang. 5. Forecasting Forecasting memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan sekumpulan data yang besar seperti peramalan permintaan pasar. (Turban,Rainer, dan Potter, 2005) Tujuan dari data mining antara lain : 1. Explanatory Untuk menjelaskan beberapa kondisi penelitian, seperti mengapa penjualan truk pick-up meningkat di Colorado. 2. Confirmatory Untuk mempertegas hipotesis, seperti halnya 2 kali pendapatan keluarga lebih suka dipakai untuk membeli peralatan keluarga dibandingkan dengan 1 kali pendapatan keluarga. 3. Exploratory Untuk menganalisis data untuk hubungan yang baru dan tidak diharapkan, seperti halnya pola apa yang cocok untuk kasus penggelapan kartu kredit. (Hoffer, Prescott, dan McFadden, 2004) Banyak perusahaan-perusahaan menggunakan data mining untuk : - Correct data Pada saat proses menggabungkan basis data secara besar-besaran, banyak perusahaan menemukan data yang digabungkan tersebut tidak lengkap, dan terdiri dari informasi yang salah dan bertentangan. Dengan menggunakan teknik data mining, dapat membantu untuk mengidentifikasi dan membetulkan kesalahan dengan cara yang konsisten. - Discover Knowledge Proses mencari pengetahuan bertujuan untuk menentukan dengan jelas relationship, pattern, atau correlations yang tersembunyi dari berbagai tempat penyimpanan data di dalam basis data. - Visualize Data Seorang analis harus bisa merasakan sebuah informasi yang besar yang disimpan di dalam basis data. Tujuannya untuk “mempermanusiakan” data yang banyak dan menemukan cara yang terbaik untuk menampilkan data. (Berson dan Smith, 2001) Sebagai salah satu bagian dari sistem informasi, data mining menyediakan perencanaan dari ide hingga implementasi akhir. Komponen-komponen dari rencana data mining adalah sebagai berikut : 1. Analisis Masalah (Analyzing the Problem) Data asal atau data sumber harus bisa ditaksir untuk dilihat apakah data tersebut memenuhi kriteria data mining. Kualitas kelimpahan data adalah faktor utama untuk memutuskan apakah data tersebut cocok dan tersedia sebagai tambahan. Hasil yang diharapkan dari dampak data mining harus dengan hati-hati dimengerti dan dipastikan bahwa data yang diperlukan membawa informasi yang bisa diekstrak. 2. Mengekstrak dan Membersihkan data (Extracting and Cleansing The Data) Data pertama kali diekstrak dari data aslinya, seperti dari OLTP basis data, text file, Microsoft Access Database, dan bahkan dari spreadsheet, kemudian data tersebut diletakkan dalam data warehouse yang mempunyai struktur yang sesuai dengan data model secara khas. Data Transformation Services (DTS) dipakai untuk mengekstrak dan membersihkan data dari tidak konsistennya dan tidak kompatibelnya dengan format yang sesuai. 3. Validitas Data (Validating The Data) Sekali data telah diekstrak dan dibersihkan, ini adalah latihan yang bagus untuk menelusuri model yang telah kita ciptakan untuk memastikan bahwa semua data yang ada adalah data sekarang dan tetap. 4. Membuat dan melatih model (Creating and Training The Model) Ketika algoritma diterapkan pada model, struktur telah dibangun. Hal ini sangatlah penting pada saat ini untuk melihat data yang telah dibangun untuk memastikan bahwa data tersebut menyerupai fakta di dalam data sumber. 5. Query data dari model data mining (Querying the Model Data) Ketika model yang cocok telah diciptakan dan dibangun, data yang telah dibuat tersedia untuk mendukung keputusan. Hal ini biasanya melibatkan penulisan front end query aplikasi dengan program aplikasi / suatu program basis data. 6. Evaluasi validitas dari mining model (Maintaining The Validity of The Data Mining Model) Setelah model data mining terkumpul, lewat beberapa waktu karakteristik data awal seperti granularitas dan validitas mungkin berubah. Karena model data mining dapat terus berubah seiring perkembangan waktu. (Seidman, 2001) 2.2.6 Data Cube Basisdata OLAP dibutuhkan untuk meringkas data pada berbagai tingkatan dan berbagai rekombinasi atribut. Data cube dalam OLAP merupakan basisdata multidimensional yang dibangun dari subset berbagai atribut dalam basisdata. Dengan demikian atribut digunakan untuk menentukan atribut lainnya. Beberapa atribut diseleksi dan dipilih dan ditetapkan sebagai atribut dimensi atau fungsional. (Ivanova dan Rachev, 2004). Sebagai contoh adalah atribut dalam bentuk multidimensional dalam data cube produksi panen padi dan palawija di wilayah Jawa Tengah, (a) dan klasifikasi hierarkikal dimensi waktu dan tempat dari data cube (b) Operator data cube berfungsi untuk mendukung berbagai agregat. Data cube menggunakan agregat untuk menghitung semua kemungkinan kombinasi yang dapat dicapai dari keseluruhan dimensi yang ada. Operasional ini digunakan untuk menjawab query OLAP yang menggunakan agregasi dalam berbagai kombinasi atribut. Data dapat diorganisir ke dalam data cube oleh kalkulasi semua kemungkinan kombinasi menggunakan group-by. Jadi, jika suatu himpunan data dengan atribut k maka besarnya kalkulasi kombinasi yang mungkin pada agregat adalah 2k group-by. (Gray, 1996) Operator data cube dapat digeneralisasi pada histogram, cross tabulation, roll-up, drill down dan subtotal yang dibutuhkan dalam analisis financial (Handojo, 2004). Hal ini dapat ditempuh dengan cara : 1. Pivoting, rotasi pada cube untuk merubah orientasi dimensional pada laporan, misalkan pada cube 2D terdapat baris dan kolom. 2. Slicing-dicing, melakukan proses seleksi subset pada cube. Memberikan nilai yang tepat pada atribut dalam dimensi, melakukan visualisasi dalam bentuk 3D-cube. 3. Roll-up, beberapa dimensi memiliki hirarkikal yang ditentukan sebelumnya. Agregasi dapat menentukan tingkatan hirarkikal data. Sebagai contoh adalah penentuan hierarkikal waktu hari → minggu→ bulan → tahun . 4. Drill-down, Operasional kebalikannya, dari hierarkikal rendah menuju hierarkikal lebih tinggi secara detail. 5. Analisis trend melalui urutan periode waktu tertentu. 2.2.7 Star schema dan Snowflake Schema Star schema adalah struktur logikal yang mempunyai sebuah tabel fakta berisi data faktual ditempatkan di tengah, dikelilingi oleh tabel dimensi berisi data referensi (yang dapat didenormalisasi). Skema bintang mengeksploitasi karakteristik dari data faktual di mana fakta dibuat dari peristiwa yang muncul di masa lalu dan mustahil untuk berubah, dengan mengabaikan bagaimana mereka dianalisis. Kebanyakan fakta yang digunakan dalam tabel fakta adalah angka dan additive karena aplikasi data warehouse tidak pernah diakses sebagai sebuah record tunggal, tetapi mereka diakses ratusan, ribuan bahkan jutaan record pada suatu waktu dan hal yang paling berguna untuk dilakukan dengan record yang begitu banyak tersebut adalah dengan mengagregasikan mereka. Tabel dimensi, berisi deksripsi informasi berupa teks. Skema bintang dapat digunakan untuk mempercepat kinerja query dengan denormalisasi informasi ke dalam sebuah tabel dimensi. Denormalisasi tepat ketika terdapat sejumlah entity yang berhubungan dengan tabel dimensi yang sering diakses, menghindari overhead dari penggabungan tabel tambahan untuk mengakses atribut. Denormalisasi tidak tepat di mana data tambahan tidak sering diakses, karena overhead table dimensi yang diperluas tidak mungkin offset oleh berbagi perolehan dalam query. (Connolly dan Begg, 2005) Gambar 2.2 Contoh Skema Star (Connolly dan Begg, 2005) Terdapat variasi dari skema bintang yang disebut snowflake schema, yang memungkinkan dimensi untuk mempunyai dimensi. Snowflake schema adalah variasi dari skema bintang di mana tabel dimensi tidak berisi data yang dinormalisasi. Gambar 2.3 Contoh Skema Snowflake (Connolly dan Begg, 2005) Dalam mendesain data warehouse perlu diperhatikan skema yang akan digunakan. Snowflake schema mempunyai hirarki dimension table jamak sehingga informasi yang didapat dari setiap dimension table bisa lebih detail sesuai dengan kebutuhan (Handoyo, 2008).