7 BAB 2 LANDASAN TEORI 2.1 Data Warehouse 2.1.1 Definisi Data

advertisement
BAB 2
LANDASAN TEORI
2.1
Data Warehouse
2.1.1
Definisi Data Warehouse
Sebuah analytical database biasanya didesain sebagai read-only database. Basis
data untuk proses analisis pengguna hanya dapat melakukan view terhadap data, dan
tidak dapat melakukan pengubahan terhadap data, seperti update, delete dan insert.
Yang menjadi perbedaan antara basis data operasional dan analisis adalah desain dari
basis datanya. Sebuah basis data operasional dibangun untuk capturing atau
mendapatkan data, mengubah data, rekonsiliasi jumlahnya, tetap menjaga track
transaksi, membangun laporan, menjaga integrasi data dan memaintain transaksi
sesegera mungkin. Sebuah basis data analisis dibangun dalam volume yang besar yang
bersifat read-only, menyediakan informasi yang akan digunakan dalam pembuatan
keputusan. Data warehouse adalah suatu basis data analitikal yang bersifat read-only
yang digunakan sebagai pondasi dari Sistem Penunjang Keputusan (SPK). Basis data
analitikal dan data warehouse menjadi sesuatu yang dapat bertukar dan hampir sama
(Poe, 2000, pp60-75).
2.1.2
Karakteristik Data Warehouse
Data Warehouse dapat dipandang sebagai sebuah sistem informasi dengan
karakteristik sebagai berikut ( Berson, Smith dan Thearling,2000, p26) :
•
data warehouse merupakan sebuah database yang dirancang dengan menggunakan
data dari berbagai aplikasi di perusahaan untuk keperluan analisis.
7
•
data warehouse digunakan hanya untuk sedikit user saja dengan interaksi yang lama.
•
biasanya digunakan untuk menganalisa data secara intensif.
•
isi dari data warehouse biasanya di-update secara berkala.
•
berisi data yang sekarang dan data historis yang memberikan pandangan informasi
secara historis.
•
data warehouse berisi sedikit table tetapi merupakan tabel yang besar.
•
setiap query biasanya menghasilkan jumlah data yang besar dan melibatkan banyak
tabel yang direlasikan.
2.1.3
Hal-hal yang berkaitan dengan Data Warehouse
Beberapa hal yang berkaitan dengan data warehouse ( Berson, Smith dan
Thearling, 2000, pp 26-28) antara lain adalah :
1. Current detail data
Data yang diperoleh secara langsung dari database operasional yang bertujuan untuk
memberikan gambaran dari keseluruhan perusahaan. Data ini diperoleh dari berbagai
sumber seperti data profil pelanggan, data transaksi penjualan, data persediaan, dan
lain-lain.
2. Old detail data
Menggambarkan data historis secara rinci yang digunakan untuk menganalisa suatu
tren.
3. Data Mart
Merupakan sebuah implementasi dari data warehouse, dimana cakupan data terbatas
dibandingkan dengan data warehouse. Sebuah data mart mungkin berisi ringkasan
8
data dari suatu departemen pada suatu perusahaan dan dapat disesuaikan dengan
kebutuhan departemen tertentu yang memiliki data. Pada perusahaan yang besar,
data mart dimaksudkan sebagai jalan untuk membangun data warehouse.
4. Summarized data
Suatu kelompok data yang dikelompokkan berdasarkan suatu hubungan tertentu dari
data yang besar, sehingga menjadi data yang lebih kecil, yang dapat digunakan untuk
pembuatan laporan di tingkat eksekutif, analisa tren dan pembuatan keputusan.
5. Drill-down
Kemampuan seorang user untuk melakukan analisa data dengan cara top-down,
dengan melewati berbagai tingkatan data dari data dengan tingkat yang umum ke
tingkat yang lebih rinci, sebagai contoh jika penjualan secara geografis pada
Amerika Utara mengalami penurunan, maka seseorang yang menganalisa dapat
membuat ’drill-down’ untuk negara, negara bagian, kota atau mungkin sampai
alamat kantor penjualan yang mempunyai catatan penjualan terburuk.
6. Metadata
Metadata merupakan salah satu aspek yang penting dalam sebuah data
warehouse. Metadata merupakan data yang menjelaskan data lainnya. Metadata ini
berisi lokasi dan deskripsi dari komponen sistem warehouse mengenai nama,
definisi, struktur, dan isi dari data warehouse dan view untuk end user. Selain itu,
metadata berisi identifikasi sumber data yang berwenang, aturan integrasi dan
transformasi yang digunakan untuk data warehouse, historis dari perubahan data
warehouse, matriks yang digunakan untuk menganalisa kinerja warehouse, otorisasi
keamanan serta masih banyak lagi lainnya.
9
2.1.4
Arsitektur Data Warehouse
Pada gambar 2.1 diperlihatkan Data Warehouse Architecture berdasarkan sebuah
Relational Database Management System (RDBMS), server berfungsi sebagai pusat
penyimpanan secara terpusat basis data perusahaan. Dalam arsitektur ini, dapat terlihat
bahwa data operasional dan proses terpisah dari proses data warehouse. Penyimpanan
terpusat ini dikelilingi oleh sejumlah komponen kunci untuk kepentingan fungsi lainnya,
pengaturan dan pengaksesan bersama baik oleh sistem operasional yang merupakan
sumber data dari data warehouse dan oleh end-user query serta analysis tools.
Data warehouse berasal dari data operasional yang terdiri dari data history
sampai kepada data operasional sampai dengan periode tertentu (contoh : sampai dengan
minggu terakhir bulan kemarin). Data warehouse mentransformasinya ke dalam bentuk
dan
struktur
yang
terintegrasi.
Proses
transformasinya
meliputi
conversion,
summarization, filtering of data.
6
Operational &
Eksternal Data
7
Information
Delivery
System
Management Platform
Metadata
Report,
Query,
EIS
Tools
MRDB
Data Extract
Data CleanUp
Data Load
Data Warehouse
DBMS
1
OLAP
Tools
3
MDDB
Data
Mining
Tools
Data Marts
Admin
Platform
4
2
5
Repository
Gambar 2.1. Data Warehouse Architecture
(Sumber : Berson , 1999, p57)
10
Application
& Tools
2.1.5
Skema Data Warehouse
2.1.5.1 Skema Bintang
Skema bintang ( Poe, 1996, p33) merupakan suatu jenis khusus dari perancangan
database yang digunakan untuk mendukung proses analytical. Skema ini terdiri dari
sekumpulan tabel yang dinormalisasi. Skema bintang terdiri dari dua jenis tabel, yaitu :
1. Tabel fakta (fact tabel)
Tabel fakta atau disebut juga tabel utama (major table) terdiri dari data fakta atau
kuantitatif tentang informasi bisnis yang akan di–query. Informasi ini biasanya
berupa ukuran numerik dan dapat terdiri dari banyak kolom dan jutaan baris.
2. Tabel dimensi (dimension table)
Tabel dimensi atau disebut juga dengan tabel kecil (minor tabel) umumnya lebih
kecil dibandingkan tabel fakta dan menyimpan data deskriptif yang menggambarkan
dimensi suatu bisnis. SQL query menggunakan relasi yang telah didefinisikan
sebelumnya dan didefinisikan user antara tabel fakta dan tabel dimensi, dengan
batasan pada data untuk mengembalikan informasi yang dipilih.
2.1.5.2 Skema Snowflake
Skema snowflake (Poe,1996, p28) merupakan variasi dari skema bintang dimana
semua informasi dimensi disimpan dalam bentuk normal ketiga. Ada dua alasan yang
menjadi pertimbangan untuk menggunakan skema ini antara lain :
1. Munculnya alat bantu pendukung keputusan yang dapat memanfaatkan struktur jenis
ini sepenuhnya.
2. Banyak organisasi yang merasa lebih nyaman dengan perancangan database dalam
bentuk normal ketiga.
11
2.1.6
Keuntungan Penggunaan Data Warehouse
Kesuksesan penerapan sebuah data warehouse dapat membawa keuntungan
besar bagi perusahaan ( Connoly dan Begg, 2002, p1048), meliputi :
1. Potensi ROI ( Return On Invesment ) yang tinggi
Organisasi harus mengeluarkan sumber daya yang sangat besar untuk memastikan
penerapan data warehouse yang sukses. Studi yang dilakukan IDC ( International
Data Corporation ) pada tahun 1996 menghasilkan
bahwa data warehouse
mencapai rata–rata ROI dalam 3 tahun sebesar 401%, dengan lebih dari 90%
perusahaan yang disurvei mencapai lebih dari 40% ROI, separuh perusahaan
mencapai lebih dari 160% ROI, dan seperempat perusahaan dengan lebih dari 600%
ROI.
2. Keuntungan bersaing (Competitive advantage)
ROI yang besar untuk perusahaan yang telah sukses mengimplementasikan data
warehouse merupakan bukti keuntungan bersaing yang sangat besar. Keuntungan
bersaing tersebut didapatkan dengan memberikan pembuat keputusan akses ke data
sehingga dapat menemukan informasi yang sebelumnya tidak tersedia, tidak
diketahui, dan tidak ditemukan seperti pelanggan, tren dan permintaan.
3. Meningkatkan produktivitas dari pembuat keputusan perusahaan
Data warehouse meningkatkan produktivitas pembuat keputusan pada perusahaan
dengan membuat database terintegrasi yang konsisten, berorientasi subjek, dan
historis. Data warehouse mengintegrasikan data dari berbagai sistem yang berbedabeda ke suatu bentuk yang memberikan sebuah pandangan yang konsisten tentang
organisasi. Data diubah menjadi informasi yang berguna sehingga data warehouse
dapat membuat manajer bisnis melakukan analisis lebih benar, akurat dan konsisten.
12
2.2
Data Mining
2.2.1
Definisi Data Mining
Data mining adalah eksplorasi dan analisis dari gudang data yang besar (data
warehouse) untuk menemukan rules dan pattern yang berarti. Data mining biasa
digunakan untuk mensinergi data yang akan dijadikan sebagai data analisis. Data mining
mengotomatisasi pencarian sesuatu yang baru dan yang berguna, dan menghasilkan
pengetahuan yang tersembunyi dari data-data (Linoff ,1997, p5).
Data mining digunakan untuk melakukan prediksi trend dan behaviours di masa
yang akan datang,
sehingga mendorong perusahaan melakukan tindakan proaktif
berdasarkan informasi yang mendorong dilakukannya sebuah tindakan/aksi dari
perusahaan. (Turban, 2000, p162).
Data mining meyediakan teknologi yang pintar dan kemampuan untuk
menjelajahi kemungkinan pengetahuan atau informasi yang tersimpan di sebuah data
(Berson, 2000, p33).
Data mining adalah proses untuk menemukan pattern yang bernilai dan
relationship yang tersembunyi dalam database yang sangat besar (Seidman 2000).
Definisi umum dari data mining adalah serangkaian proses untuk menggali nilai
tambah berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu
kumpulan data (Pramudiono, 2003, p1).
Data mining adalah beberapa cara pengembangan dari ilmu statistik dengan
sedikit Artificial Inteligent dan seperti sebuah mesin yang mempelajari data untuk
mengatasi masalah dengan menghasilkan informasi yang tidak kelihatan atau tidak
disadari oleh pengguna teknologi informasi tersebut (Thearling, 1995).
13
Data mining merupakan otomatisasi pola-pola yang relevan dari basis data. Data
mining dibangun dengan teknik statistik dan analisa yang baik untuk membangun sebuah
model dan memprediksikan customer behaviour (perilaku pelanggan). Penggunaan data
mining selalu diintegrasikan dengan penggunaan data warehouse sebagai sumber
datanya (Kurt Thearling, 1999).
2.2.2
Data Mining sebagai proses penemuan pengetahuan (Knowledge Discovery)
Data Mining tidak digunakan untuk industri tertentu saja tetapi hampir di semua
bidang. Data Mining memerlukan kemampuan teknologi intelijen untuk menelusuri
pengetahuan yang tersembunyi di dalam data. Sebagian besar organisasi/perusahaan
menerapkan teknologi data mining untuk melakukan hal-hal berikut ini :
1. Menemukan Pengetahuan Baru (Knowledge Discovery)
Tujuan dari Knowledge Discovery adalah untuk menemukan hubungan, pola, dan
korelasi yang tersembunyi di dalam data-data perusahaan.
2. Menampilkan Data (Visualize Data)
Analis harus bisa peka terhadap informasi-informasi yang sangat banyak yang
tersimpan di dalam basis data perusahaan. Sebelum membuat analisa yang harus
dilakukan adalah menampilkan informasi dari data tersebut dalam bentuk yang
sesuai yang dapat dimengerti dengan mudah.
3. Memperbaiki Data (Correct Data)
Banyak perusahaan yang memiliki data-data yang tidak lengkap, beberapa
diantaranya bahkan ada data yang salah atau data yang kontradiktif. Teknik data
mining dapat membantu mengenali dan memperbaiki data-data tersebut dengan cara
yang konsisten dan sebaik mungkin.
14
Proses Knowledge Discovery meliputi data-data operasional yang ada di dalam
basis data dibentuk ke dalam data warehouse. Proses pembentukan ini dinamakan Data
Cleaning. Data Cleaning menghasilkan ringkasan data (summary) di dalam data
warehouse. Data di dalam data warehouse sangatlah besar sehingga sulit bagi seorang
analis untuk menganalisa secara langsung.
Kemudian analis akan melakukan proses data selection (seleksi data) untuk
menentukan data manakah yang relevan mana yang tidak. Data-data yang relevan
disebut dengan Task Relevant Data. Sampai dengan tahap ini belum dilakukan proses
data mining sekalipun. Bila Task Relevan Data sudah tersedia barulah dilakukan proses
data mining terhadap data-data tersebut. Hasil dari proses data mining adalah sebuah
pattern (pola) hasil evaluasi. Bila pola tersebut tidak sesuai harapan maka proses ini bisa
diulang dari proses sebelumnya. Kemudian proses ini diterapkan pada basis data
perusahaan.
Gambar 2.2. Gaining Knowledge Discovery with Data Mining
15
2.2.3
Ruang lingkup Data Mining
Data mining (penambangan data), sesuai dengan namanya, berkonotasi sebagai
pencarian informasi bisnis yang berharga dari basis data yang sangat besar. Usaha
pencarian yang dilakukan dapat dianalogikan dengan penambangan logam mulia dari
lahan sumbernya. Tersedianya basis data dalam kualitas dan ukuran yang memadai,
teknologi data mining memiliki kemampuan–kemampuan sebagai berikut :
•
Mengotomatisasi prediksi tren dan sifat–sifat bisnis. Data mining mengotomatisasi
proses pencarian informasi, memprediksi di dalam database yang besar. Pertanyaan–
pertanyaan yang berkaitan dengan prediksi ini dapat cepat dijawab langsung dari
data yang tersedia. Contoh dari masalah prediksi ini misalnya target pemasaran,
peramalan kebangkrutan ,dan bentuk–bentuk kerugian lainnya.
•
Mengotomatisasi penemuan pola–pola yang tidak diketahui sebelumya. Tugas data
mining ’menyapu’ database, kemudian mengidentifikasi pola-pola yang sebelumya
tersembunyi dalam satu sapuan.
2.2.4
Metodologi Data Mining
Sebagai salah satu bagian sistem informasi, data mining menyediakan
perencanaan dari ide hingga implementasi akhir. Komponen-komponen perancangan
data mining (Seidman, 2000, pp9-11) adalah sebagai berikut :
1. Analisis masalah
Data asal atau data sumber harus ditaksir untuk dilihat apakah data tersebut
memenuhi kriteria untuk data mining. Kualitas dan kelimpahan data adalah faktor
untuk memutuskan apakah data tersebut cocok dan tersedia sebagai tambahan. Hasil
16
yang diharapkan dari dampak data mining harus dengan hati–hati dimengerti dan
dipastikan bahwa data yang dibutuhkan membawa informasi yang bisa diekstrak.
2. Mengekstrak dan membersihkan data
Data pertama kali diekstrak dari aslinya seperti OLTP database, textile, Microsoft
Access Database dan spreadsheet, kemudian data diletakkan dalam data warehouse
yang mempunyai struktur yang disesuaikan dengan data model. Secara khusus, Data
Transformation Service (DTS) dipakai untuk mengekstrak dan membersihkan data
dari tidak konsistensinya dan tidak kompatibelnya dengan format yang sesuai.
3. Menvalidasi data
Sekali data telah diekstrak dan dibersihkan, ini adalah latihan yang bagus untuk
menelusuri model yang telah kita ciptakan untuk memastikan bahwa semua data
yang ada adalah data sekarang dan lengkap.
4. Membuat dan melatih model
Ketika algoritma diterapkan pada modul, struktur telah dibangun. Hal ini sangatlah
penting pada saat ini untuk melihat data yang telah dibangun untuk memastikan
bahwa data tersebut menyerupai fakta di dalam data sumber. Hal ini bisa dibuat
dengan berbagai cara.
5. Query data
Sekali modul yang pantas dan cocok telah diciptakan dan dibangun, data yang telah
tersedia mendukung keputusan. Hal ini biasanya melibatkan penulisan front and
query aplikasi dalam suatu program aplikasi atau suatu program database seperti
SQL Server melalui OLEDB melalui data mining.
17
6. Pemeliharaan Model Data Mining
Karakteristik data mining yang telah terisi harus terjaga validitasnya, seperti
persediaan ikan di toko ikan, dimana apabila terjadi perubahan pada persediaan ikan
tersebut harus dicat, jadi data mining yang terbentuk akan lebih efektif.
Analisis masalah
Mengekstrak dan
Membersihkan Data
Memvalidasi data
Membuat dan
Melatih model
Query data
Pemeliharaan Model
Data Mining
Gambar 2.3 Digram Alir Komponen-Komponen Perancangan Data Mining
18
2.2.5 Teknik Pembelajaran dalam Data Mining
Teknik yang digunakan dalam data mining erat kaitannya dengan “penemuan”
(discovery) dan “pembelajaran” (learning) yang terbagi dalam tiga metode utama
pembelajaran yaitu :
1 Supervised Learning
Supervised Learning adalah teknik yang paling banyak digunakan. Teknik ini
sama dengan “programming by example”. Teknik ini melibatkan fase pelatihan dimana
data pelatihan historis yang karakter–karakternya dipetakan ke hasil-hasil yang telah
diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma untuk
mengenali variable–variable dan nilai–nilai kunci yang nantinya akan digunakan sebagai
dasar dalam membuat perkiraan–perkiraan ketika diberikan data baru.
2 Unsupervised Learning
Teknik pembelajaran ini tidak melibatkan fase pelatihan seperti yang terdapat
pada supervised learning. Teknik ini bergantung pada penggunaan algoritma yang
mendeteksi semua pola, seperti associations dan sequences, yang muncul dari kriteria
penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada pembuatan
banyak aturan (rules) yang mengkarakterisasikan penemuan associations, clusters, dan
segments. Aturan–aturan ini kemudian dianalisis untuk menemukan hal–hal yang
penting.
19
3 Reinforcement Learning
Teknik pembelajaran ini jarang digunakan dibandingkan dengan dua teknik
lainnya, namun memiliki penerapan–penerapan yang terus dioptimalkan dari waktu ke
waktu dan memiliki kontrol adaptif. Teknik ini sangat menyerupai kehidupan nyata
yaitu seperti “on-job-training”, dimana seorang pekerja diberikan sekumpulan tugas
yang membutuhkan keputusan–keputusan. Pada beberapa titik waktu kelak diberikan
penilaian atas performance pekerja tersebut kemudian pekerja diminta mengevaluasi
keputusan–keputusan yang telah dibuatnya sehubungan dengan hasil performance
pekerja tersebut. Reinforcement learning sangat tepat digunakan untuk menyelesaikan
masalah–masalah yang sulit yang bergantung pada waktu.
2.2.6
Teknik Data Mining
Berson (2000) dalam bukunya mengelompokkan teknik data mining menjadi dua
kelompok utama yaitu teknik klasik dan teknik generasi berikutnya.
2.2.6.1 Teknik Klasik
Teknik Klasik terbagi atas :
1 Statistik
Pada dasarnya teknik ini bukanlah data mining. Teknik ini telah banyak
digunakan pada banyak aplikasi bisnis lama sebelum data mining muncul.
Bagaimanapun teknik ini dipacu oleh data dan digunakan untuk menemukan pola dan
membangun model prediksi. Namun pemakaian teknik ini telah banyak ditinggalkan
karena teknik data mining lainnya seperti CART, neural networks dan nearest neighbor
20
cenderung lebih powerfull bagi data-data bisnis yang kompleks dan mendukung untuk
digunakan oleh user yang kurang ahli dalam statistik.
2. Neighborhoods / Nearest Neighbor
Teknik clustering dan nearest neighbor merupakan
teknik pertama yang
digunakan dalam data mining. Nearest neighbor adalah suatu teknik untuk prediksi yang
mirip dengan clustering yaitu melakukan pengelompokkan record yang sejenis dalam
memprediksikan nilai prediksi dalam sebuah record, melihat record-record lain yang
memiliki kemiripan dengan nilai yang dijadikan nilai prediksi (predictor) dalam basis
data history dan menggunakan nilai prediksi dari record yang “paling mendekati” record
yang tidak sejenis. Contoh penggunaannya adalah dalam text retrieval, yang masalahnya
adalah dalam pencarian dokumen yang mirip atau sejenis dengan suatu dokumen atau
jurnal tertentu. Teknik ini akan mencari dokumen lain yang memiliki kemiripan
karakteristik penting yang ditentukan sebagai karakteristik yang paling menarik dan
sangat penting untuk ditemukan.
3. Clustering
Clustering adalah metode seperti halnya pengelompokkan record secara
bersama-sama, yang dapat memberikan suatu high-level view untuk mengetahui sesuatu
yang telah terjadi dalam basis data. Biasanya teknik ini digunakan untuk melakukan
segmentasi. Contoh penerapan teknik ini adalah dalam melakukan segmentasi pelanggan
dari transaksi yang dilakukan pelanggan pada sebuah bank, pelanggan yang
menghasilkan profitabilitas yang tinggi, dan pelanggan profit yang rendah, keduanya
memiliki subsegment demografi keluarga muda, pendapatan profesional yang tinggi.
21
Bila muncul pertanyaan : “Mengapa dari sumber demograpik yang sama menghasilkan
perbedaan? Bagaimana caranya menaikkan kelompok profit rendah ke kelompok yang
mengkontribusikan profit tinggi ?” Data mining dapat membantu menjawab pertanyaan
tersebut dengan melacak pola produknya. Ditemukan bahwa kelompok dengan tingkat
profit tinggi memiliki perbedaan tajam dalam produknya, yaitu mortgages, mutual funds,
dan credit cards, sedangkan kelompok berprofit rendah memiliki pola produk mutual
funds dan credit cards, maka bank akan memfokuskan pemasaran mortages untuk
meningkatkan profitabilitas dari pelanggan yang berprofit rendah tersebut. Contoh
sederhana clustering :
ID
Name Prediction
Age
Balance Income
1
Ami
No
62
$0
2
Betty
No
53
3
Brandon
No
4
Jamie
5
Eyes
Gender
Medium Brown
F
1800
Medium
Green
F
47
16543
High
Brown
M
Yes
32
45
Medium
Green
F
Carla
Yes
21
2300
High
Blue
M
6
Carl
No
27
5400
High
Brown
F
7
Donna
Yes
50
165
Low
Blue
M
8
Don
Yes
46
0
High
Blue
F
9
Edna
Yes
27
500
Low
Blue
F
10
Ed
No
68
1200
Low
Blue
M
22
Bila akan dilakukan clustering berdasarkan pendapatan mereka, maka akan dihasilkan 3
kelompok besar , yaitu kelompok high, medium dan low.
ID
Name Prediction
Age
Balance Income
Eyes
Gender
3
Brandon
No
47
16543
High
Brown
M
5
Carla
Yes
21
2300
High
Blue
M
6
Carl
No
27
5400
High
Brown
F
8
Don
Yes
46
0
High
Blue
F
1
Ami
No
62
$0
2
Betty
No
53
4
Jamie
Yes
7
Donna
9
10
Medium Brown
F
1800
Medium
Green
F
32
45
Medium
Green
F
Yes
50
165
Low
Blue
M
Edna
Yes
27
500
Low
Blue
F
Ed
No
68
1200
Low
Blue
M
2.2.6.2 Teknik Generasi Berikutnya
Teknik Generasi berikutnya terbagi atas :
1 Decission Tree
Seperti namanya decision tree adalah model prediksi yang dapat dilihat sebagai
pohon. Setiap cabang merupakan hasil klasifikasi dari pertanyaan dan daunnya
merupakan hasil partisi dari kumpulan data sesuai dengan klasifikasinya. Jika dilihat
dari sudut pandang bisnis, pohon keputusan dapat dilihat sebagai segmentasi dari data,
dimana setiap segmen merupakan data yang mempunyai sifat yang sama, sehingga
23
memudahkan pengguna bisnis dalam memahami informasi yang terkandung
didalamnya. Pohon keputusan dapat digunakan dalam menangani berbagai masalah
bisnis yaitu eksplorasi, preproses data dan prediksi. Teknik ini lebih banyak digunakan
untuk eksplorasi dan preproses data. Eksplorasi dilakukan dengan melihat predictor dan
nilai yang dipilih pada setiap segmen dari pohon. Preproses data yaitu dimana pohon
keputusan digunakan untuk mencari predictor pada tahap pertama proses data mining.
2 Rules
Bentuk teknik ini sering dipakai untuk menemukan pengetahuan dalam sistem
yang sifatnya tidak melakukan pengawasan. Penemuan pengetahuan ini dapat berbentuk
“peraturan” dan korelasi yang menarik yang tidak terlihat dan mungkin tidak pernah
diduga sebelumnya dapat ditemukan dalam basis data yang dimiliki.
3 Neural Networks
Neural Network ( jaringan syaraf ) yang sebenarnya merupakan sistem biologis
yang mencari pola, membuat prediksi dan dapat belajar ,sedangkan jaringan syaraf
tiruan merupakan program komputer yang dapat mencari pola, dan membangun model
prediksi dari database historis yang besar dengan cara menerapkan algoritma yang dapat
membuat komputer belajar. Kekurangan neural network adalah sulit digunakan,tetapi
neural network memiliki kelebihan yang berarti yaitu memiliki akurasi yang tinggi, yang
dapat diterapkan pada berbagai jenis permasalahan.
Proses klasifikasi biasanya dibagi menjadi dua fase : learning dan test. Pada fase
learning, sebagian data yang telah diketahui kelas datanya diumpamakan untuk
membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji
dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut, bila
24
akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum
diketahui.
2.2.7 Radial Basis Function ( RBF )
Radial Basis Function (RBF) ini pertama kali diteliti oleh Powell (1985) yang
dikenalkan sebagai solusi dari masalah ‘ real multivariate interpolation sistem’.
Konstruksi bentuk dasar dari Radial Basis Function ( RBF ) mempunyai 3 layer dengan
aturan yang berbeda. Layer pertama disebut input layer yang disusun sebagai source
nodes ( sensory unit ). Layer kedua hanya berisi hidden layer pada jaringan, melakukan
perpindahan dari input space ke hiden space. Pada kebanyakan aplikasi ,hidden space
mempunyai dimensi yang tinggi. Layer ketiga adalah output layer yang merupakan
linear layer, untuk lebih jelas dapat dilihat gambar dari Radial Basis Function Network
pada gambar dibawah ini.
Gambar 2.4 Radial Basis Function
25
Pada Radial Basis Function yang tradisional, setiap komponen(n) input dari
vektor x akan dilakukan feed forward ke m basis function (hidden layer), lalu akan
diteruskan ke output
yang merupakan linear dan hasil kombinasi dari hasil h dan
weights . Persamaan umum Radial Basis Function adalah sebagai berikut :
Y=
m
∑W
j =1
ϕ
jm.
Persamaan 2.1 Persamaan Radial Basis Function.
Keterangan :
y / F(x)
= nilai output.
ϕ /h
= basis atau nilai hidden layer.
w
= nilai bobot.( 0 - 1 )
Tiga macam metoda perhitungan nilai basis ( ϕ / h )
1.
Multiquadrics
n
ϕ =∑ (Xi− μ)2 + c2
i=1
μ=
∑
Persamaan 2.2 Persamaan Multiquadric.
26
n
Xi
2
Inverse Multiquadrics
n
1
i =1
( Xi − μ ) 2 + c 2
ϕ =∑
Persamaan 2.3 Persamaan Inverse Multiquadric.
3.
Gaussian function
( Xi − μ ) 2
ϕ = exp(−
)
2σ 2
Persamaan 2.4 Persamaan Gaussian function.
Keterangan :
Xi = nilai input.
μ = rata-rata nilai input.
n = jumlah node input layer.
c = nilai bias.
Hasil perhitungan RBF ini ketelitiannya sangat tinggi karena nilai weight harus
dikoreksi untuk mencari weight baru, selain itu nilai error juga diperhitungkan agar hasil
predisksi lebih akurat. Persamaan koreksi weight adalah sebagai berikut :
Δ w jm = α .δ .ϕ
δ = T −Y
Persamaan 2.5 Persamaan koreksi weight.
27
Persamaan weight baru adalah sebagai berikut :
w jm baru= w jm lama + Δ w jm
Persamaan 2.6 Persamaan weight baru.
Persamaan nilai Error adalah :
T − Ybaru
E = 0.5 x
Persamaan 2.7 Persamaan nilai Error.
Ketererangan : w jm baru
2.2.8
= nilai bobot baru
w jm lama
= nilai bobot lama
Δ w jm
= koreksi weight
E
= error
α
= alpha ( 0 - 1)
T
= nilai target
Ukuran Kesuksesan Data Mining
Menurut Berson, Smith dan Thearling (2000, p222), ada tiga ukuran yang
merupakan aturan emas untuk pengembangan data mining yaitu :
1
Ketelitian (accuracy)
Sistem data mining harus menghasilkan sebuah model yang seteliti mungkin,
tetapi perlu diketahui bahwa penambahan ketelitian yang dirasa kecil antara teknikteknik yang berbeda mungkin memberikan efek yang besar atau mungkin efek yang
buruk, yang disebabkan karena contoh acak yang berubah–berubah dalam lingkungan
pasar yang berubah – ubah.
28
2
Kejelasan (explanation)
Sistem data mining harus mampu menjelaskan bagaimana model bekerja bagi
end user dengan cara yang jelas sehingga membangun intusisi, dan memungkinkan
intuisi-intuisi dan pemahaman umum untuk diuji dan ditegaskan secara mudah. Sistem
tersebut sebaiknya juga memungkinkan adanya suatu kejelasan tentang keuntungan atau
ROI (Return On Investment) yang dapat diperoleh dengan diimplementasikannya sistem
data mining.
3
Integrasi ( integration)
Sistem data mining harus terintegrasi dengan proses bisnis yang ada, dan aliran
data dan informasi pada perusahaan. Sistem ini membutuhkan penggandaan data dan
pemrosesan data secara keseluruhan sehingga membuat banyak proses dimana kesalahan
dapat muncul. Dengan integrasi yang kuat, beberapa kesalahan yang mungkin terjadi
dapat diperkecil.
2.3
OLAP
Online Analytical Processing (OLAP) merupakan basisdata dan interface tools
yang memungkinkan end user untuk menavigasi data–data mereka secara cepat. OLAP
memungkinkan penggunaan peralatan analisis data secara online untuk mengeksplorasi
basisdata–basisdata yang besar dari data transaksi.
29
2.3.1
Keuntungan OLAP
Dibawah ini merupakan beberapa keuntungan OLAP :
•
Menggunakan teknik analisis data secara multi-dimensional
•
Menyediakan dukungan basisdata lanjutan
•
Menyediakan user interface yang mudah digunakan
•
Memproses basisdata besar yang mengandung data-data kompleks tanpa
mengorbankan response time
2.3.2
OLAP Tools
OLAP tools dikategorikan berdasarkan arsitektur basisdata. Ada tiga kategori
dari OLAP tools :
1 Multi-Dimensional OLAP ( MOLAP )
MOLAP digunakan khusus untuk struktur data dan sistem manajemen basisdata
yang multi-dimensi yang dapat mengatur dan menganalisa data. Struktur data MOLAP
menggunakan teknologi array dan teknik penyimpanan yang efisien sehingga
meminimalkan kebutuhan tempat penyimpanan melalui manajemen data yang renggang.
MOLAP tools menyediakan kinerja yang baik jika data digunakan sesuai dengan
perancangan dan terfokus pada data untuk aplikasi pengambilan keputusan yang
spesifik.
30
2 Relational OLAP ( ROLAP )
ROLAP merupakan teknologi OLAP yang pertumbuhannya tercepat. ROLAP
mendukung produk RDBMS melalui penggunaan layer metadata, dengan menghindari
kebutuhan untuk membuat struktur data yang statis dan multi-dimensi.
3.
Managed Query Environment ( MQE )
MQE menyediakan kemampuan analisis yang terbatas, walaupun menggunakan
produk RDBMS langsung maupun menggunakan server MOLAP intermediate. MQE
tool mengantarkan data yang dipilih langsung dari DBMS atau server MOLAP menuju
local server dalam bentuk datacube, dimana data tersebut tersimpan, teranalisa, dan
dipelihara secara lokal.
2.4
OLAP vs Data Mining
Data mining dan OLAP merupakan komponen – komponen dari Microsoft
Analysis Service. Keduanya merupakan tools pendukung pengambilan keputusan, tetapi
data mining dan OLAP dirancang untuk pengguna yang berbeda. OLAP dibuat khusus
untuk menyimpan data dalam bentuk tabel singkat untuk menyediakan pemanggilan dan
navigasi data tersebut oleh end user. Banyak pemakai yang mengganggap bahwa ini
adalah sebuah solusi data mining karena pemakai dapat menemukan informasi tentang
data dengan mencari informasi–informasi singkat, yang kemudian dianalisa untuk
menemukan hubungan kasual yang lebih, bagaimanapun juga dari banyaknya kasus,
banyak pemakai yang mencari melalui dimensi–dimensi yang berisi arti dan hubungan
yang telah dikenal dengan baik.
31
OLAP dapat digunakan untuk mencoba menemukan data baru, tetapi karena
penemuan data telah diselesaikan oleh end users, dengan bantuan sebuah tool OLAP,
penemuan data akan menjadi tidak teratur dan tidak lengkap. Data mining tidak terlalu
mementingkan untuk memperbolehkan end user dengan mudah melihat data – data yang
telah terangkum, namun lebih pada menemukan pola dan rule baru yang dapat
digunakan sebagai hasil untuk masa mendatang. Kesimpulan dari perbedaan yang ada
adalah OLAP merupakan suatu mekanisme penyimpanan dan retrieval yang efisien dan
data mining adalah alat untuk knowledge discovery. (Seidman, Claude,2000,p11 )
2.5
Database dan Structure Query Language (SQL)
2.5.1
Database
Pengertian umum database adalah sebagai gabungan dari elemen–elemen data
yang berhubungan dan terorganisir. Database terbagi dalam beberapa kategori umum,
yaitu :
1. Paper Based.
Database yang paling sederhana yang disimpan dalam bentuk
kumpulan kertas dokumen yang terorganisasi.
2. Legacy Mainframe. Nama lainnya adalah Virtual Storage Access Method (VSAM).
Legacy Mainframe menggunakan kemampuan mainframe untuk melakukan proses
penyimpanan dan pengaksesan data.
3. Dbase.
Dbase mengandung Index Sequential Access Method (ISAM) yang
merupakan metode pengaksesan data secara berurutan yang memiliki index. Pada
umumnya menggunakan file yang terpisah untuk setiap tabelnya. Contoh dari
database yang
menggunakan system ini adalah Dbase, Foxpro, Microsoft
Access, Paradox.
32
4. Relational Database Management System (RDBMS). RDBMS merupakan sistem
database untuk jumlah user yang besar dengan integritas data yang lebih baik.
Struktur
perintahnya disebut dengan Structure Query Language (SQL).
5. Object-oriented Database. Database ini menggunakan sistem objek dalam
penyimpanan data. Data disimpan bukan dalam bentuk tabel melainkan dalam
bentuk objek-objek yang terpisah.
2.5.2
Structured Query Language (SQL)
SQL merupakan bahasa standart untuk pengolahan database, sering disebut
dengan sequel saja. SQL mulai dikembangkan pada akhir tahun 70-an di Laboratorium
IBM, San Jose, California ( Kurniawan, 2001, p85).
SQL adalah bahasa generasi ke-4 yang relative lebih mudah untuk dipelajari dan
dipahami karena perintah-perintahnya dinyatakan dalam bahasa yang sederhana dan
mempunyai struktur linier dalam baris yang berurutan (Gaos, 2001, p57).
SQL terbagi menjadi dua komponen yaitu : Data Definition Language (DDL)
dan Data Manipulation Language (DML). DDL adalah perintah-perintah untuk
mendefinisikan data. DDL mencakup perintah-perintah create, alter dan drop,
sedangkan DML mencakup perintah-perintah untuk memanipulasi data yang telah
didefinisikan sebelumnya. DML mencakup perintah-perintah select, insert, update dan
delete.
2.6
Persediaan
33
2.6.1
Pengertian Persediaan
Niswonger dan Fees yang diterjemahkan oleh Alfonsus Sirait (1994)
mendefinisikan, “ Persediaan mengindikasikan barang dagang yang disimpan untuk
kemudian dijual dalam operasi normal perusahaan dan bahan yang terdapat dalam proses
produksi atau disimpan untuk tujuan itu ( p 354 ).
Skousen dan Stice(2000) mendefinisikan, “ Inventory designates goods held for
sale in the normal course of business and, in the case of manufactured, goods in
production or to be placed in production ( p45 ).
Assauri (2004) menyatakan, “persediaan adalah sebagai suatu aktiva yang
meliputi barang–barang miliki perusahaan dengan maksud untuk dijual dalam suatu
periode usaha yang normal, atau persediaan barang–barang yang masih dalam
penggerjaan/proses produksi ataupun persediaan bahan baku yang menunggu
penggunaannya dalam suatu proses produksi.”
Render dan Heinzer (2001) menyatakan, “persediaan merupakan salah satu asset
yang paling mahal di banyak perusahaan, mencerminkan sebanyak 40% dari total modal
yang diinvestasikan.” (p.314).
Yamit (1999) mendefiniskan, “istilah persediaan dapat digunakan dalam
beberapa perbedaan antara lain persediaan bahan baku di tangan, daftar persediaan
secara fisik, jumlah item di tangan dan nilai persediaan barang.” (p.3).
2.6.2
Jenis – Jenis Persediaan
Assuari (1999) menyatakan, “Persediaan dapat dibedakan menurut jenis dan
posisi barang tersebut didalam urutan pengerjaan produk yaitu : “
1. Persediaan Bahan Baku (Raw Material Stock)
34
yaitu persediaan dari barang–barang berwujud yang digunakan dalam proses
produksi, barang dapat diperoleh dari sumber alam ataupun dibeli dari supplier atau
pemasok
2 Persediaan bagian produk atau parts yang dibeli( Purchased Parts)
yaitu persediaan barang–barang yang diterima dari perusahaan lain, yang dapat
diassemling dengan parts lain, tanpa melalui proses produksi sebelumnya.
3. Persediaan bahan- bahan pembantu ( Supplies Stock)
yaitu persediaan barang– barang atau bahan–bahan yang diperlukan dalam proses
produksi, tetapi tidak merupakan bagian dari barang jadi.
4. Persediaan barang dalam proses( Work in Process)
yaitu persediaan barang yang perlu diproses kembali untuk menjadi barang jadi.
5. Persediaan barang jadi( Finished Good Stock)
yaitu persediaan barang–barang yang telah selesai diproses atau diolah dalam pabrik
dan siap untuk dijual.
2.6.3
Metode pencatatan persediaan
Dalam mencatat persediaan terdapat dua metode yang secara umum :
ƒ
Metode Fisik (Physical Inventory System)
Dengan metode fisik, pembelian dan penjualan persediaan tidak mempengaruhi
saldo perkiraan persediaan di buku besar. Pencatatannya sederhana karena tidak
mengikuti mutasi persediaan saat pembelian atau penjualan. Hal yang dilakukan agar
mengetahui jumlah persediaan yang ada harus dihitung dulu secara fisik digudang
(Stock Opname).
ƒ
Metode Perpetual (Perpetual Inventory System)
35
Pembelian dan penjualan persediaan langsung mempengaruhi saldo persediaan.
Setiap transaksi yang mempengaruhi besarnya jumlah persediaan langsung dicatat
kedalam perkiraan persediaan.
2.6.4
Pengawasan persediaan
Assauri (2004) menyatakan “...sistem pengawasan persediaan harus memenuhi
persyaratan – persyaratan sebagai berikut :
a) Terdapat gudang yang cukup luas dan teratur dengan pengaturan tempat bahan atau
barang yang tetap dan identifikasi bahan/barang yang tertentu.
b) Sentralisasi kekuasaan dan tanggung jawab pada satu orang yang dapat dipercaya,
terutama penjaga gudang.
c) Suatu sistem pencatatan dan pemeriksaan atas penerimaan bahan atau barang.
d) Pengawasan mutlak atas pengeluaran bahan atau barang.
e) Pencatatan yang cukup teliti yang menunjukan jumlah yang dipesan, yang dibagikan
atau dikeluarkan dan yang tersedia dalam gudang.
f) Pemeriksaan fisik barang atau bahan yang ada dalam persediaan secara langsung.
g) Perencanaan untuk menggantikan barang – barang yang telah dikeluarkan, barang –
barang yang terlalu lama dalam gudang, dan barang – barang yang sudah usang dan
ketinggalan zaman.
h) Pengecekan untuk menjamin dapat efektifnya kegiatan rutin.“ (p.176).
36
2.6.5
Permintaan Dependen dan Permintaan Independen
Render dan Heizer (2001, p318) menyatakan “ model pengendalian persediaan
mengasumsikan bahwa permintaan untuk suatu barang bersifat independen atau
dependen terhadap barang lainnya, misalnya: permintaan untuk kulkas bersifat
independen terhadap permintaan untuk oven pemanggangan roti, meskipun demikian
permintaan untuk oven pemanggangan roti bersifat dependen terhadap kebutuhan dari
oven pemanggangan roti “.
Penjelasan diatas dapat disimpulkan bahwa permintaan independen dapat
dikatakan sebagai suatu permintaan yang antara satu entitas dengan permintaan entitas
lainnya berbeda jenis atau fungsinya, sedangkan untuk permintaan dependen, untuk
permintaan satu entitas dengan permintaan entitas lainnya memiliki keterkaitan yang
erat, misalnya urutan produksi atau sama jenisnya.
37
Download