BAB 2 LANDASAN TEORI 2.1 Data Warehouse 2.1.1 Definisi Data Warehouse Sebuah analytical database biasanya didesain sebagai read-only database. Basis data untuk proses analisis pengguna hanya dapat melakukan view terhadap data, dan tidak dapat melakukan pengubahan terhadap data, seperti update, delete dan insert. Yang menjadi perbedaan antara basis data operasional dan analisis adalah desain dari basis datanya. Sebuah basis data operasional dibangun untuk capturing atau mendapatkan data, mengubah data, rekonsiliasi jumlahnya, tetap menjaga track transaksi, membangun laporan, menjaga integrasi data dan memaintain transaksi sesegera mungkin. Sebuah basis data analisis dibangun dalam volume yang besar yang bersifat read-only, menyediakan informasi yang akan digunakan dalam pembuatan keputusan. Data warehouse adalah suatu basis data analitikal yang bersifat read-only yang digunakan sebagai pondasi dari Sistem Penunjang Keputusan (SPK). Basis data analitikal dan data warehouse menjadi sesuatu yang dapat bertukar dan hampir sama (Poe, 2000, pp60-75). 2.1.2 Karakteristik Data Warehouse Data Warehouse dapat dipandang sebagai sebuah sistem informasi dengan karakteristik sebagai berikut ( Berson, Smith dan Thearling,2000, p26) : • data warehouse merupakan sebuah database yang dirancang dengan menggunakan data dari berbagai aplikasi di perusahaan untuk keperluan analisis. 7 • data warehouse digunakan hanya untuk sedikit user saja dengan interaksi yang lama. • biasanya digunakan untuk menganalisa data secara intensif. • isi dari data warehouse biasanya di-update secara berkala. • berisi data yang sekarang dan data historis yang memberikan pandangan informasi secara historis. • data warehouse berisi sedikit table tetapi merupakan tabel yang besar. • setiap query biasanya menghasilkan jumlah data yang besar dan melibatkan banyak tabel yang direlasikan. 2.1.3 Hal-hal yang berkaitan dengan Data Warehouse Beberapa hal yang berkaitan dengan data warehouse ( Berson, Smith dan Thearling, 2000, pp 26-28) antara lain adalah : 1. Current detail data Data yang diperoleh secara langsung dari database operasional yang bertujuan untuk memberikan gambaran dari keseluruhan perusahaan. Data ini diperoleh dari berbagai sumber seperti data profil pelanggan, data transaksi penjualan, data persediaan, dan lain-lain. 2. Old detail data Menggambarkan data historis secara rinci yang digunakan untuk menganalisa suatu tren. 3. Data Mart Merupakan sebuah implementasi dari data warehouse, dimana cakupan data terbatas dibandingkan dengan data warehouse. Sebuah data mart mungkin berisi ringkasan 8 data dari suatu departemen pada suatu perusahaan dan dapat disesuaikan dengan kebutuhan departemen tertentu yang memiliki data. Pada perusahaan yang besar, data mart dimaksudkan sebagai jalan untuk membangun data warehouse. 4. Summarized data Suatu kelompok data yang dikelompokkan berdasarkan suatu hubungan tertentu dari data yang besar, sehingga menjadi data yang lebih kecil, yang dapat digunakan untuk pembuatan laporan di tingkat eksekutif, analisa tren dan pembuatan keputusan. 5. Drill-down Kemampuan seorang user untuk melakukan analisa data dengan cara top-down, dengan melewati berbagai tingkatan data dari data dengan tingkat yang umum ke tingkat yang lebih rinci, sebagai contoh jika penjualan secara geografis pada Amerika Utara mengalami penurunan, maka seseorang yang menganalisa dapat membuat ’drill-down’ untuk negara, negara bagian, kota atau mungkin sampai alamat kantor penjualan yang mempunyai catatan penjualan terburuk. 6. Metadata Metadata merupakan salah satu aspek yang penting dalam sebuah data warehouse. Metadata merupakan data yang menjelaskan data lainnya. Metadata ini berisi lokasi dan deskripsi dari komponen sistem warehouse mengenai nama, definisi, struktur, dan isi dari data warehouse dan view untuk end user. Selain itu, metadata berisi identifikasi sumber data yang berwenang, aturan integrasi dan transformasi yang digunakan untuk data warehouse, historis dari perubahan data warehouse, matriks yang digunakan untuk menganalisa kinerja warehouse, otorisasi keamanan serta masih banyak lagi lainnya. 9 2.1.4 Arsitektur Data Warehouse Pada gambar 2.1 diperlihatkan Data Warehouse Architecture berdasarkan sebuah Relational Database Management System (RDBMS), server berfungsi sebagai pusat penyimpanan secara terpusat basis data perusahaan. Dalam arsitektur ini, dapat terlihat bahwa data operasional dan proses terpisah dari proses data warehouse. Penyimpanan terpusat ini dikelilingi oleh sejumlah komponen kunci untuk kepentingan fungsi lainnya, pengaturan dan pengaksesan bersama baik oleh sistem operasional yang merupakan sumber data dari data warehouse dan oleh end-user query serta analysis tools. Data warehouse berasal dari data operasional yang terdiri dari data history sampai kepada data operasional sampai dengan periode tertentu (contoh : sampai dengan minggu terakhir bulan kemarin). Data warehouse mentransformasinya ke dalam bentuk dan struktur yang terintegrasi. Proses transformasinya meliputi conversion, summarization, filtering of data. 6 Operational & Eksternal Data 7 Information Delivery System Management Platform Metadata Report, Query, EIS Tools MRDB Data Extract Data CleanUp Data Load Data Warehouse DBMS 1 OLAP Tools 3 MDDB Data Mining Tools Data Marts Admin Platform 4 2 5 Repository Gambar 2.1. Data Warehouse Architecture (Sumber : Berson , 1999, p57) 10 Application & Tools 2.1.5 Skema Data Warehouse 2.1.5.1 Skema Bintang Skema bintang ( Poe, 1996, p33) merupakan suatu jenis khusus dari perancangan database yang digunakan untuk mendukung proses analytical. Skema ini terdiri dari sekumpulan tabel yang dinormalisasi. Skema bintang terdiri dari dua jenis tabel, yaitu : 1. Tabel fakta (fact tabel) Tabel fakta atau disebut juga tabel utama (major table) terdiri dari data fakta atau kuantitatif tentang informasi bisnis yang akan di–query. Informasi ini biasanya berupa ukuran numerik dan dapat terdiri dari banyak kolom dan jutaan baris. 2. Tabel dimensi (dimension table) Tabel dimensi atau disebut juga dengan tabel kecil (minor tabel) umumnya lebih kecil dibandingkan tabel fakta dan menyimpan data deskriptif yang menggambarkan dimensi suatu bisnis. SQL query menggunakan relasi yang telah didefinisikan sebelumnya dan didefinisikan user antara tabel fakta dan tabel dimensi, dengan batasan pada data untuk mengembalikan informasi yang dipilih. 2.1.5.2 Skema Snowflake Skema snowflake (Poe,1996, p28) merupakan variasi dari skema bintang dimana semua informasi dimensi disimpan dalam bentuk normal ketiga. Ada dua alasan yang menjadi pertimbangan untuk menggunakan skema ini antara lain : 1. Munculnya alat bantu pendukung keputusan yang dapat memanfaatkan struktur jenis ini sepenuhnya. 2. Banyak organisasi yang merasa lebih nyaman dengan perancangan database dalam bentuk normal ketiga. 11 2.1.6 Keuntungan Penggunaan Data Warehouse Kesuksesan penerapan sebuah data warehouse dapat membawa keuntungan besar bagi perusahaan ( Connoly dan Begg, 2002, p1048), meliputi : 1. Potensi ROI ( Return On Invesment ) yang tinggi Organisasi harus mengeluarkan sumber daya yang sangat besar untuk memastikan penerapan data warehouse yang sukses. Studi yang dilakukan IDC ( International Data Corporation ) pada tahun 1996 menghasilkan bahwa data warehouse mencapai rata–rata ROI dalam 3 tahun sebesar 401%, dengan lebih dari 90% perusahaan yang disurvei mencapai lebih dari 40% ROI, separuh perusahaan mencapai lebih dari 160% ROI, dan seperempat perusahaan dengan lebih dari 600% ROI. 2. Keuntungan bersaing (Competitive advantage) ROI yang besar untuk perusahaan yang telah sukses mengimplementasikan data warehouse merupakan bukti keuntungan bersaing yang sangat besar. Keuntungan bersaing tersebut didapatkan dengan memberikan pembuat keputusan akses ke data sehingga dapat menemukan informasi yang sebelumnya tidak tersedia, tidak diketahui, dan tidak ditemukan seperti pelanggan, tren dan permintaan. 3. Meningkatkan produktivitas dari pembuat keputusan perusahaan Data warehouse meningkatkan produktivitas pembuat keputusan pada perusahaan dengan membuat database terintegrasi yang konsisten, berorientasi subjek, dan historis. Data warehouse mengintegrasikan data dari berbagai sistem yang berbedabeda ke suatu bentuk yang memberikan sebuah pandangan yang konsisten tentang organisasi. Data diubah menjadi informasi yang berguna sehingga data warehouse dapat membuat manajer bisnis melakukan analisis lebih benar, akurat dan konsisten. 12 2.2 Data Mining 2.2.1 Definisi Data Mining Data mining adalah eksplorasi dan analisis dari gudang data yang besar (data warehouse) untuk menemukan rules dan pattern yang berarti. Data mining biasa digunakan untuk mensinergi data yang akan dijadikan sebagai data analisis. Data mining mengotomatisasi pencarian sesuatu yang baru dan yang berguna, dan menghasilkan pengetahuan yang tersembunyi dari data-data (Linoff ,1997, p5). Data mining digunakan untuk melakukan prediksi trend dan behaviours di masa yang akan datang, sehingga mendorong perusahaan melakukan tindakan proaktif berdasarkan informasi yang mendorong dilakukannya sebuah tindakan/aksi dari perusahaan. (Turban, 2000, p162). Data mining meyediakan teknologi yang pintar dan kemampuan untuk menjelajahi kemungkinan pengetahuan atau informasi yang tersimpan di sebuah data (Berson, 2000, p33). Data mining adalah proses untuk menemukan pattern yang bernilai dan relationship yang tersembunyi dalam database yang sangat besar (Seidman 2000). Definisi umum dari data mining adalah serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data (Pramudiono, 2003, p1). Data mining adalah beberapa cara pengembangan dari ilmu statistik dengan sedikit Artificial Inteligent dan seperti sebuah mesin yang mempelajari data untuk mengatasi masalah dengan menghasilkan informasi yang tidak kelihatan atau tidak disadari oleh pengguna teknologi informasi tersebut (Thearling, 1995). 13 Data mining merupakan otomatisasi pola-pola yang relevan dari basis data. Data mining dibangun dengan teknik statistik dan analisa yang baik untuk membangun sebuah model dan memprediksikan customer behaviour (perilaku pelanggan). Penggunaan data mining selalu diintegrasikan dengan penggunaan data warehouse sebagai sumber datanya (Kurt Thearling, 1999). 2.2.2 Data Mining sebagai proses penemuan pengetahuan (Knowledge Discovery) Data Mining tidak digunakan untuk industri tertentu saja tetapi hampir di semua bidang. Data Mining memerlukan kemampuan teknologi intelijen untuk menelusuri pengetahuan yang tersembunyi di dalam data. Sebagian besar organisasi/perusahaan menerapkan teknologi data mining untuk melakukan hal-hal berikut ini : 1. Menemukan Pengetahuan Baru (Knowledge Discovery) Tujuan dari Knowledge Discovery adalah untuk menemukan hubungan, pola, dan korelasi yang tersembunyi di dalam data-data perusahaan. 2. Menampilkan Data (Visualize Data) Analis harus bisa peka terhadap informasi-informasi yang sangat banyak yang tersimpan di dalam basis data perusahaan. Sebelum membuat analisa yang harus dilakukan adalah menampilkan informasi dari data tersebut dalam bentuk yang sesuai yang dapat dimengerti dengan mudah. 3. Memperbaiki Data (Correct Data) Banyak perusahaan yang memiliki data-data yang tidak lengkap, beberapa diantaranya bahkan ada data yang salah atau data yang kontradiktif. Teknik data mining dapat membantu mengenali dan memperbaiki data-data tersebut dengan cara yang konsisten dan sebaik mungkin. 14 Proses Knowledge Discovery meliputi data-data operasional yang ada di dalam basis data dibentuk ke dalam data warehouse. Proses pembentukan ini dinamakan Data Cleaning. Data Cleaning menghasilkan ringkasan data (summary) di dalam data warehouse. Data di dalam data warehouse sangatlah besar sehingga sulit bagi seorang analis untuk menganalisa secara langsung. Kemudian analis akan melakukan proses data selection (seleksi data) untuk menentukan data manakah yang relevan mana yang tidak. Data-data yang relevan disebut dengan Task Relevant Data. Sampai dengan tahap ini belum dilakukan proses data mining sekalipun. Bila Task Relevan Data sudah tersedia barulah dilakukan proses data mining terhadap data-data tersebut. Hasil dari proses data mining adalah sebuah pattern (pola) hasil evaluasi. Bila pola tersebut tidak sesuai harapan maka proses ini bisa diulang dari proses sebelumnya. Kemudian proses ini diterapkan pada basis data perusahaan. Gambar 2.2. Gaining Knowledge Discovery with Data Mining 15 2.2.3 Ruang lingkup Data Mining Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari lahan sumbernya. Tersedianya basis data dalam kualitas dan ukuran yang memadai, teknologi data mining memiliki kemampuan–kemampuan sebagai berikut : • Mengotomatisasi prediksi tren dan sifat–sifat bisnis. Data mining mengotomatisasi proses pencarian informasi, memprediksi di dalam database yang besar. Pertanyaan– pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari data yang tersedia. Contoh dari masalah prediksi ini misalnya target pemasaran, peramalan kebangkrutan ,dan bentuk–bentuk kerugian lainnya. • Mengotomatisasi penemuan pola–pola yang tidak diketahui sebelumya. Tugas data mining ’menyapu’ database, kemudian mengidentifikasi pola-pola yang sebelumya tersembunyi dalam satu sapuan. 2.2.4 Metodologi Data Mining Sebagai salah satu bagian sistem informasi, data mining menyediakan perencanaan dari ide hingga implementasi akhir. Komponen-komponen perancangan data mining (Seidman, 2000, pp9-11) adalah sebagai berikut : 1. Analisis masalah Data asal atau data sumber harus ditaksir untuk dilihat apakah data tersebut memenuhi kriteria untuk data mining. Kualitas dan kelimpahan data adalah faktor untuk memutuskan apakah data tersebut cocok dan tersedia sebagai tambahan. Hasil 16 yang diharapkan dari dampak data mining harus dengan hati–hati dimengerti dan dipastikan bahwa data yang dibutuhkan membawa informasi yang bisa diekstrak. 2. Mengekstrak dan membersihkan data Data pertama kali diekstrak dari aslinya seperti OLTP database, textile, Microsoft Access Database dan spreadsheet, kemudian data diletakkan dalam data warehouse yang mempunyai struktur yang disesuaikan dengan data model. Secara khusus, Data Transformation Service (DTS) dipakai untuk mengekstrak dan membersihkan data dari tidak konsistensinya dan tidak kompatibelnya dengan format yang sesuai. 3. Menvalidasi data Sekali data telah diekstrak dan dibersihkan, ini adalah latihan yang bagus untuk menelusuri model yang telah kita ciptakan untuk memastikan bahwa semua data yang ada adalah data sekarang dan lengkap. 4. Membuat dan melatih model Ketika algoritma diterapkan pada modul, struktur telah dibangun. Hal ini sangatlah penting pada saat ini untuk melihat data yang telah dibangun untuk memastikan bahwa data tersebut menyerupai fakta di dalam data sumber. Hal ini bisa dibuat dengan berbagai cara. 5. Query data Sekali modul yang pantas dan cocok telah diciptakan dan dibangun, data yang telah tersedia mendukung keputusan. Hal ini biasanya melibatkan penulisan front and query aplikasi dalam suatu program aplikasi atau suatu program database seperti SQL Server melalui OLEDB melalui data mining. 17 6. Pemeliharaan Model Data Mining Karakteristik data mining yang telah terisi harus terjaga validitasnya, seperti persediaan ikan di toko ikan, dimana apabila terjadi perubahan pada persediaan ikan tersebut harus dicat, jadi data mining yang terbentuk akan lebih efektif. Analisis masalah Mengekstrak dan Membersihkan Data Memvalidasi data Membuat dan Melatih model Query data Pemeliharaan Model Data Mining Gambar 2.3 Digram Alir Komponen-Komponen Perancangan Data Mining 18 2.2.5 Teknik Pembelajaran dalam Data Mining Teknik yang digunakan dalam data mining erat kaitannya dengan “penemuan” (discovery) dan “pembelajaran” (learning) yang terbagi dalam tiga metode utama pembelajaran yaitu : 1 Supervised Learning Supervised Learning adalah teknik yang paling banyak digunakan. Teknik ini sama dengan “programming by example”. Teknik ini melibatkan fase pelatihan dimana data pelatihan historis yang karakter–karakternya dipetakan ke hasil-hasil yang telah diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma untuk mengenali variable–variable dan nilai–nilai kunci yang nantinya akan digunakan sebagai dasar dalam membuat perkiraan–perkiraan ketika diberikan data baru. 2 Unsupervised Learning Teknik pembelajaran ini tidak melibatkan fase pelatihan seperti yang terdapat pada supervised learning. Teknik ini bergantung pada penggunaan algoritma yang mendeteksi semua pola, seperti associations dan sequences, yang muncul dari kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada pembuatan banyak aturan (rules) yang mengkarakterisasikan penemuan associations, clusters, dan segments. Aturan–aturan ini kemudian dianalisis untuk menemukan hal–hal yang penting. 19 3 Reinforcement Learning Teknik pembelajaran ini jarang digunakan dibandingkan dengan dua teknik lainnya, namun memiliki penerapan–penerapan yang terus dioptimalkan dari waktu ke waktu dan memiliki kontrol adaptif. Teknik ini sangat menyerupai kehidupan nyata yaitu seperti “on-job-training”, dimana seorang pekerja diberikan sekumpulan tugas yang membutuhkan keputusan–keputusan. Pada beberapa titik waktu kelak diberikan penilaian atas performance pekerja tersebut kemudian pekerja diminta mengevaluasi keputusan–keputusan yang telah dibuatnya sehubungan dengan hasil performance pekerja tersebut. Reinforcement learning sangat tepat digunakan untuk menyelesaikan masalah–masalah yang sulit yang bergantung pada waktu. 2.2.6 Teknik Data Mining Berson (2000) dalam bukunya mengelompokkan teknik data mining menjadi dua kelompok utama yaitu teknik klasik dan teknik generasi berikutnya. 2.2.6.1 Teknik Klasik Teknik Klasik terbagi atas : 1 Statistik Pada dasarnya teknik ini bukanlah data mining. Teknik ini telah banyak digunakan pada banyak aplikasi bisnis lama sebelum data mining muncul. Bagaimanapun teknik ini dipacu oleh data dan digunakan untuk menemukan pola dan membangun model prediksi. Namun pemakaian teknik ini telah banyak ditinggalkan karena teknik data mining lainnya seperti CART, neural networks dan nearest neighbor 20 cenderung lebih powerfull bagi data-data bisnis yang kompleks dan mendukung untuk digunakan oleh user yang kurang ahli dalam statistik. 2. Neighborhoods / Nearest Neighbor Teknik clustering dan nearest neighbor merupakan teknik pertama yang digunakan dalam data mining. Nearest neighbor adalah suatu teknik untuk prediksi yang mirip dengan clustering yaitu melakukan pengelompokkan record yang sejenis dalam memprediksikan nilai prediksi dalam sebuah record, melihat record-record lain yang memiliki kemiripan dengan nilai yang dijadikan nilai prediksi (predictor) dalam basis data history dan menggunakan nilai prediksi dari record yang “paling mendekati” record yang tidak sejenis. Contoh penggunaannya adalah dalam text retrieval, yang masalahnya adalah dalam pencarian dokumen yang mirip atau sejenis dengan suatu dokumen atau jurnal tertentu. Teknik ini akan mencari dokumen lain yang memiliki kemiripan karakteristik penting yang ditentukan sebagai karakteristik yang paling menarik dan sangat penting untuk ditemukan. 3. Clustering Clustering adalah metode seperti halnya pengelompokkan record secara bersama-sama, yang dapat memberikan suatu high-level view untuk mengetahui sesuatu yang telah terjadi dalam basis data. Biasanya teknik ini digunakan untuk melakukan segmentasi. Contoh penerapan teknik ini adalah dalam melakukan segmentasi pelanggan dari transaksi yang dilakukan pelanggan pada sebuah bank, pelanggan yang menghasilkan profitabilitas yang tinggi, dan pelanggan profit yang rendah, keduanya memiliki subsegment demografi keluarga muda, pendapatan profesional yang tinggi. 21 Bila muncul pertanyaan : “Mengapa dari sumber demograpik yang sama menghasilkan perbedaan? Bagaimana caranya menaikkan kelompok profit rendah ke kelompok yang mengkontribusikan profit tinggi ?” Data mining dapat membantu menjawab pertanyaan tersebut dengan melacak pola produknya. Ditemukan bahwa kelompok dengan tingkat profit tinggi memiliki perbedaan tajam dalam produknya, yaitu mortgages, mutual funds, dan credit cards, sedangkan kelompok berprofit rendah memiliki pola produk mutual funds dan credit cards, maka bank akan memfokuskan pemasaran mortages untuk meningkatkan profitabilitas dari pelanggan yang berprofit rendah tersebut. Contoh sederhana clustering : ID Name Prediction Age Balance Income 1 Ami No 62 $0 2 Betty No 53 3 Brandon No 4 Jamie 5 Eyes Gender Medium Brown F 1800 Medium Green F 47 16543 High Brown M Yes 32 45 Medium Green F Carla Yes 21 2300 High Blue M 6 Carl No 27 5400 High Brown F 7 Donna Yes 50 165 Low Blue M 8 Don Yes 46 0 High Blue F 9 Edna Yes 27 500 Low Blue F 10 Ed No 68 1200 Low Blue M 22 Bila akan dilakukan clustering berdasarkan pendapatan mereka, maka akan dihasilkan 3 kelompok besar , yaitu kelompok high, medium dan low. ID Name Prediction Age Balance Income Eyes Gender 3 Brandon No 47 16543 High Brown M 5 Carla Yes 21 2300 High Blue M 6 Carl No 27 5400 High Brown F 8 Don Yes 46 0 High Blue F 1 Ami No 62 $0 2 Betty No 53 4 Jamie Yes 7 Donna 9 10 Medium Brown F 1800 Medium Green F 32 45 Medium Green F Yes 50 165 Low Blue M Edna Yes 27 500 Low Blue F Ed No 68 1200 Low Blue M 2.2.6.2 Teknik Generasi Berikutnya Teknik Generasi berikutnya terbagi atas : 1 Decission Tree Seperti namanya decision tree adalah model prediksi yang dapat dilihat sebagai pohon. Setiap cabang merupakan hasil klasifikasi dari pertanyaan dan daunnya merupakan hasil partisi dari kumpulan data sesuai dengan klasifikasinya. Jika dilihat dari sudut pandang bisnis, pohon keputusan dapat dilihat sebagai segmentasi dari data, dimana setiap segmen merupakan data yang mempunyai sifat yang sama, sehingga 23 memudahkan pengguna bisnis dalam memahami informasi yang terkandung didalamnya. Pohon keputusan dapat digunakan dalam menangani berbagai masalah bisnis yaitu eksplorasi, preproses data dan prediksi. Teknik ini lebih banyak digunakan untuk eksplorasi dan preproses data. Eksplorasi dilakukan dengan melihat predictor dan nilai yang dipilih pada setiap segmen dari pohon. Preproses data yaitu dimana pohon keputusan digunakan untuk mencari predictor pada tahap pertama proses data mining. 2 Rules Bentuk teknik ini sering dipakai untuk menemukan pengetahuan dalam sistem yang sifatnya tidak melakukan pengawasan. Penemuan pengetahuan ini dapat berbentuk “peraturan” dan korelasi yang menarik yang tidak terlihat dan mungkin tidak pernah diduga sebelumnya dapat ditemukan dalam basis data yang dimiliki. 3 Neural Networks Neural Network ( jaringan syaraf ) yang sebenarnya merupakan sistem biologis yang mencari pola, membuat prediksi dan dapat belajar ,sedangkan jaringan syaraf tiruan merupakan program komputer yang dapat mencari pola, dan membangun model prediksi dari database historis yang besar dengan cara menerapkan algoritma yang dapat membuat komputer belajar. Kekurangan neural network adalah sulit digunakan,tetapi neural network memiliki kelebihan yang berarti yaitu memiliki akurasi yang tinggi, yang dapat diterapkan pada berbagai jenis permasalahan. Proses klasifikasi biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpamakan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut, bila 24 akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. 2.2.7 Radial Basis Function ( RBF ) Radial Basis Function (RBF) ini pertama kali diteliti oleh Powell (1985) yang dikenalkan sebagai solusi dari masalah ‘ real multivariate interpolation sistem’. Konstruksi bentuk dasar dari Radial Basis Function ( RBF ) mempunyai 3 layer dengan aturan yang berbeda. Layer pertama disebut input layer yang disusun sebagai source nodes ( sensory unit ). Layer kedua hanya berisi hidden layer pada jaringan, melakukan perpindahan dari input space ke hiden space. Pada kebanyakan aplikasi ,hidden space mempunyai dimensi yang tinggi. Layer ketiga adalah output layer yang merupakan linear layer, untuk lebih jelas dapat dilihat gambar dari Radial Basis Function Network pada gambar dibawah ini. Gambar 2.4 Radial Basis Function 25 Pada Radial Basis Function yang tradisional, setiap komponen(n) input dari vektor x akan dilakukan feed forward ke m basis function (hidden layer), lalu akan diteruskan ke output yang merupakan linear dan hasil kombinasi dari hasil h dan weights . Persamaan umum Radial Basis Function adalah sebagai berikut : Y= m ∑W j =1 ϕ jm. Persamaan 2.1 Persamaan Radial Basis Function. Keterangan : y / F(x) = nilai output. ϕ /h = basis atau nilai hidden layer. w = nilai bobot.( 0 - 1 ) Tiga macam metoda perhitungan nilai basis ( ϕ / h ) 1. Multiquadrics n ϕ =∑ (Xi− μ)2 + c2 i=1 μ= ∑ Persamaan 2.2 Persamaan Multiquadric. 26 n Xi 2 Inverse Multiquadrics n 1 i =1 ( Xi − μ ) 2 + c 2 ϕ =∑ Persamaan 2.3 Persamaan Inverse Multiquadric. 3. Gaussian function ( Xi − μ ) 2 ϕ = exp(− ) 2σ 2 Persamaan 2.4 Persamaan Gaussian function. Keterangan : Xi = nilai input. μ = rata-rata nilai input. n = jumlah node input layer. c = nilai bias. Hasil perhitungan RBF ini ketelitiannya sangat tinggi karena nilai weight harus dikoreksi untuk mencari weight baru, selain itu nilai error juga diperhitungkan agar hasil predisksi lebih akurat. Persamaan koreksi weight adalah sebagai berikut : Δ w jm = α .δ .ϕ δ = T −Y Persamaan 2.5 Persamaan koreksi weight. 27 Persamaan weight baru adalah sebagai berikut : w jm baru= w jm lama + Δ w jm Persamaan 2.6 Persamaan weight baru. Persamaan nilai Error adalah : T − Ybaru E = 0.5 x Persamaan 2.7 Persamaan nilai Error. Ketererangan : w jm baru 2.2.8 = nilai bobot baru w jm lama = nilai bobot lama Δ w jm = koreksi weight E = error α = alpha ( 0 - 1) T = nilai target Ukuran Kesuksesan Data Mining Menurut Berson, Smith dan Thearling (2000, p222), ada tiga ukuran yang merupakan aturan emas untuk pengembangan data mining yaitu : 1 Ketelitian (accuracy) Sistem data mining harus menghasilkan sebuah model yang seteliti mungkin, tetapi perlu diketahui bahwa penambahan ketelitian yang dirasa kecil antara teknikteknik yang berbeda mungkin memberikan efek yang besar atau mungkin efek yang buruk, yang disebabkan karena contoh acak yang berubah–berubah dalam lingkungan pasar yang berubah – ubah. 28 2 Kejelasan (explanation) Sistem data mining harus mampu menjelaskan bagaimana model bekerja bagi end user dengan cara yang jelas sehingga membangun intusisi, dan memungkinkan intuisi-intuisi dan pemahaman umum untuk diuji dan ditegaskan secara mudah. Sistem tersebut sebaiknya juga memungkinkan adanya suatu kejelasan tentang keuntungan atau ROI (Return On Investment) yang dapat diperoleh dengan diimplementasikannya sistem data mining. 3 Integrasi ( integration) Sistem data mining harus terintegrasi dengan proses bisnis yang ada, dan aliran data dan informasi pada perusahaan. Sistem ini membutuhkan penggandaan data dan pemrosesan data secara keseluruhan sehingga membuat banyak proses dimana kesalahan dapat muncul. Dengan integrasi yang kuat, beberapa kesalahan yang mungkin terjadi dapat diperkecil. 2.3 OLAP Online Analytical Processing (OLAP) merupakan basisdata dan interface tools yang memungkinkan end user untuk menavigasi data–data mereka secara cepat. OLAP memungkinkan penggunaan peralatan analisis data secara online untuk mengeksplorasi basisdata–basisdata yang besar dari data transaksi. 29 2.3.1 Keuntungan OLAP Dibawah ini merupakan beberapa keuntungan OLAP : • Menggunakan teknik analisis data secara multi-dimensional • Menyediakan dukungan basisdata lanjutan • Menyediakan user interface yang mudah digunakan • Memproses basisdata besar yang mengandung data-data kompleks tanpa mengorbankan response time 2.3.2 OLAP Tools OLAP tools dikategorikan berdasarkan arsitektur basisdata. Ada tiga kategori dari OLAP tools : 1 Multi-Dimensional OLAP ( MOLAP ) MOLAP digunakan khusus untuk struktur data dan sistem manajemen basisdata yang multi-dimensi yang dapat mengatur dan menganalisa data. Struktur data MOLAP menggunakan teknologi array dan teknik penyimpanan yang efisien sehingga meminimalkan kebutuhan tempat penyimpanan melalui manajemen data yang renggang. MOLAP tools menyediakan kinerja yang baik jika data digunakan sesuai dengan perancangan dan terfokus pada data untuk aplikasi pengambilan keputusan yang spesifik. 30 2 Relational OLAP ( ROLAP ) ROLAP merupakan teknologi OLAP yang pertumbuhannya tercepat. ROLAP mendukung produk RDBMS melalui penggunaan layer metadata, dengan menghindari kebutuhan untuk membuat struktur data yang statis dan multi-dimensi. 3. Managed Query Environment ( MQE ) MQE menyediakan kemampuan analisis yang terbatas, walaupun menggunakan produk RDBMS langsung maupun menggunakan server MOLAP intermediate. MQE tool mengantarkan data yang dipilih langsung dari DBMS atau server MOLAP menuju local server dalam bentuk datacube, dimana data tersebut tersimpan, teranalisa, dan dipelihara secara lokal. 2.4 OLAP vs Data Mining Data mining dan OLAP merupakan komponen – komponen dari Microsoft Analysis Service. Keduanya merupakan tools pendukung pengambilan keputusan, tetapi data mining dan OLAP dirancang untuk pengguna yang berbeda. OLAP dibuat khusus untuk menyimpan data dalam bentuk tabel singkat untuk menyediakan pemanggilan dan navigasi data tersebut oleh end user. Banyak pemakai yang mengganggap bahwa ini adalah sebuah solusi data mining karena pemakai dapat menemukan informasi tentang data dengan mencari informasi–informasi singkat, yang kemudian dianalisa untuk menemukan hubungan kasual yang lebih, bagaimanapun juga dari banyaknya kasus, banyak pemakai yang mencari melalui dimensi–dimensi yang berisi arti dan hubungan yang telah dikenal dengan baik. 31 OLAP dapat digunakan untuk mencoba menemukan data baru, tetapi karena penemuan data telah diselesaikan oleh end users, dengan bantuan sebuah tool OLAP, penemuan data akan menjadi tidak teratur dan tidak lengkap. Data mining tidak terlalu mementingkan untuk memperbolehkan end user dengan mudah melihat data – data yang telah terangkum, namun lebih pada menemukan pola dan rule baru yang dapat digunakan sebagai hasil untuk masa mendatang. Kesimpulan dari perbedaan yang ada adalah OLAP merupakan suatu mekanisme penyimpanan dan retrieval yang efisien dan data mining adalah alat untuk knowledge discovery. (Seidman, Claude,2000,p11 ) 2.5 Database dan Structure Query Language (SQL) 2.5.1 Database Pengertian umum database adalah sebagai gabungan dari elemen–elemen data yang berhubungan dan terorganisir. Database terbagi dalam beberapa kategori umum, yaitu : 1. Paper Based. Database yang paling sederhana yang disimpan dalam bentuk kumpulan kertas dokumen yang terorganisasi. 2. Legacy Mainframe. Nama lainnya adalah Virtual Storage Access Method (VSAM). Legacy Mainframe menggunakan kemampuan mainframe untuk melakukan proses penyimpanan dan pengaksesan data. 3. Dbase. Dbase mengandung Index Sequential Access Method (ISAM) yang merupakan metode pengaksesan data secara berurutan yang memiliki index. Pada umumnya menggunakan file yang terpisah untuk setiap tabelnya. Contoh dari database yang menggunakan system ini adalah Dbase, Foxpro, Microsoft Access, Paradox. 32 4. Relational Database Management System (RDBMS). RDBMS merupakan sistem database untuk jumlah user yang besar dengan integritas data yang lebih baik. Struktur perintahnya disebut dengan Structure Query Language (SQL). 5. Object-oriented Database. Database ini menggunakan sistem objek dalam penyimpanan data. Data disimpan bukan dalam bentuk tabel melainkan dalam bentuk objek-objek yang terpisah. 2.5.2 Structured Query Language (SQL) SQL merupakan bahasa standart untuk pengolahan database, sering disebut dengan sequel saja. SQL mulai dikembangkan pada akhir tahun 70-an di Laboratorium IBM, San Jose, California ( Kurniawan, 2001, p85). SQL adalah bahasa generasi ke-4 yang relative lebih mudah untuk dipelajari dan dipahami karena perintah-perintahnya dinyatakan dalam bahasa yang sederhana dan mempunyai struktur linier dalam baris yang berurutan (Gaos, 2001, p57). SQL terbagi menjadi dua komponen yaitu : Data Definition Language (DDL) dan Data Manipulation Language (DML). DDL adalah perintah-perintah untuk mendefinisikan data. DDL mencakup perintah-perintah create, alter dan drop, sedangkan DML mencakup perintah-perintah untuk memanipulasi data yang telah didefinisikan sebelumnya. DML mencakup perintah-perintah select, insert, update dan delete. 2.6 Persediaan 33 2.6.1 Pengertian Persediaan Niswonger dan Fees yang diterjemahkan oleh Alfonsus Sirait (1994) mendefinisikan, “ Persediaan mengindikasikan barang dagang yang disimpan untuk kemudian dijual dalam operasi normal perusahaan dan bahan yang terdapat dalam proses produksi atau disimpan untuk tujuan itu ( p 354 ). Skousen dan Stice(2000) mendefinisikan, “ Inventory designates goods held for sale in the normal course of business and, in the case of manufactured, goods in production or to be placed in production ( p45 ). Assauri (2004) menyatakan, “persediaan adalah sebagai suatu aktiva yang meliputi barang–barang miliki perusahaan dengan maksud untuk dijual dalam suatu periode usaha yang normal, atau persediaan barang–barang yang masih dalam penggerjaan/proses produksi ataupun persediaan bahan baku yang menunggu penggunaannya dalam suatu proses produksi.” Render dan Heinzer (2001) menyatakan, “persediaan merupakan salah satu asset yang paling mahal di banyak perusahaan, mencerminkan sebanyak 40% dari total modal yang diinvestasikan.” (p.314). Yamit (1999) mendefiniskan, “istilah persediaan dapat digunakan dalam beberapa perbedaan antara lain persediaan bahan baku di tangan, daftar persediaan secara fisik, jumlah item di tangan dan nilai persediaan barang.” (p.3). 2.6.2 Jenis – Jenis Persediaan Assuari (1999) menyatakan, “Persediaan dapat dibedakan menurut jenis dan posisi barang tersebut didalam urutan pengerjaan produk yaitu : “ 1. Persediaan Bahan Baku (Raw Material Stock) 34 yaitu persediaan dari barang–barang berwujud yang digunakan dalam proses produksi, barang dapat diperoleh dari sumber alam ataupun dibeli dari supplier atau pemasok 2 Persediaan bagian produk atau parts yang dibeli( Purchased Parts) yaitu persediaan barang–barang yang diterima dari perusahaan lain, yang dapat diassemling dengan parts lain, tanpa melalui proses produksi sebelumnya. 3. Persediaan bahan- bahan pembantu ( Supplies Stock) yaitu persediaan barang– barang atau bahan–bahan yang diperlukan dalam proses produksi, tetapi tidak merupakan bagian dari barang jadi. 4. Persediaan barang dalam proses( Work in Process) yaitu persediaan barang yang perlu diproses kembali untuk menjadi barang jadi. 5. Persediaan barang jadi( Finished Good Stock) yaitu persediaan barang–barang yang telah selesai diproses atau diolah dalam pabrik dan siap untuk dijual. 2.6.3 Metode pencatatan persediaan Dalam mencatat persediaan terdapat dua metode yang secara umum : Metode Fisik (Physical Inventory System) Dengan metode fisik, pembelian dan penjualan persediaan tidak mempengaruhi saldo perkiraan persediaan di buku besar. Pencatatannya sederhana karena tidak mengikuti mutasi persediaan saat pembelian atau penjualan. Hal yang dilakukan agar mengetahui jumlah persediaan yang ada harus dihitung dulu secara fisik digudang (Stock Opname). Metode Perpetual (Perpetual Inventory System) 35 Pembelian dan penjualan persediaan langsung mempengaruhi saldo persediaan. Setiap transaksi yang mempengaruhi besarnya jumlah persediaan langsung dicatat kedalam perkiraan persediaan. 2.6.4 Pengawasan persediaan Assauri (2004) menyatakan “...sistem pengawasan persediaan harus memenuhi persyaratan – persyaratan sebagai berikut : a) Terdapat gudang yang cukup luas dan teratur dengan pengaturan tempat bahan atau barang yang tetap dan identifikasi bahan/barang yang tertentu. b) Sentralisasi kekuasaan dan tanggung jawab pada satu orang yang dapat dipercaya, terutama penjaga gudang. c) Suatu sistem pencatatan dan pemeriksaan atas penerimaan bahan atau barang. d) Pengawasan mutlak atas pengeluaran bahan atau barang. e) Pencatatan yang cukup teliti yang menunjukan jumlah yang dipesan, yang dibagikan atau dikeluarkan dan yang tersedia dalam gudang. f) Pemeriksaan fisik barang atau bahan yang ada dalam persediaan secara langsung. g) Perencanaan untuk menggantikan barang – barang yang telah dikeluarkan, barang – barang yang terlalu lama dalam gudang, dan barang – barang yang sudah usang dan ketinggalan zaman. h) Pengecekan untuk menjamin dapat efektifnya kegiatan rutin.“ (p.176). 36 2.6.5 Permintaan Dependen dan Permintaan Independen Render dan Heizer (2001, p318) menyatakan “ model pengendalian persediaan mengasumsikan bahwa permintaan untuk suatu barang bersifat independen atau dependen terhadap barang lainnya, misalnya: permintaan untuk kulkas bersifat independen terhadap permintaan untuk oven pemanggangan roti, meskipun demikian permintaan untuk oven pemanggangan roti bersifat dependen terhadap kebutuhan dari oven pemanggangan roti “. Penjelasan diatas dapat disimpulkan bahwa permintaan independen dapat dikatakan sebagai suatu permintaan yang antara satu entitas dengan permintaan entitas lainnya berbeda jenis atau fungsinya, sedangkan untuk permintaan dependen, untuk permintaan satu entitas dengan permintaan entitas lainnya memiliki keterkaitan yang erat, misalnya urutan produksi atau sama jenisnya. 37