Database Management System

advertisement
Bab 2
Landasan Teori
2.1
Data, Database, dan DBMS (Database Management System)
2.1.1
Pengertian Data
Menurut Prescott (2005, p5), data adalah sebuah fakta mengenai
objek yang dapat disimpan dalam media komputer. Data memiliki banyak
bentuk, salah satu contoh data adalah nama, alamat, dan nomor telepon
dari pelanggan.
Dalam perkembangan selanjutnya, data akan diolah menjadi
bentuk yang lebih kompleks yang disebut dengan informasi. Informasi
adalah data yang sudah diproses dengan cara tertentu untuk
meningkatkan pengetahuan dari orang yang menggunakannya (Prescott,
2005, p5).
Informasi dapat digunakan untuk membantu dalam meningkatkan
pengetahuan yang dimiliki oleh perusahaan. Oleh karena itu penting bagi
perusahaan untuk selalu memperbaharui informasi yang dimilikinya.
2.1.2
Pengertian Database dan DBMS
Istilah Database atau "basis data" berawal dari ilmu computer.
Catatan yang mirip dengan basis data sebenarnya sudah ada sebelum
revolusi industri yaitu dalam bentuk buku besar, kuitansi dan kumpulan
data yang berhubungan dengan bisnis. Istilah basis data mengacu pada
7 8 koleksi dari data-data yang saling berhubungan, dan perangkat lunaknya
seharusnya mengacu sebagai sistem manajemen basis data (database
management system/DBMS). Menurut Connoly dan Begg (2002, p16),
DBMS
adalah sebuah piranti lunak, yang memungkinkan pengguna
untuk mendefinisikan, membuat, mengelola dan mengontrol akses
terhadap sebuah database.
Jika
konteksnya
sudah
jelas,
banyak
administrator
dan
programmer menggunakan istilah basis data untuk kedua arti tersebut.
Berikut ini pengertian database menurut para ahli :
-
Connolly (2002,p14-p15), database adalah kumpulan data yang
berelasi secara logikal dan sebuah deskripsi dari data tersebut
yang di desain untuk memenuhi kebutuhan organisasi. Database
adalah sebuah tempat penyimpanan besar dari data yang dapat
digunakan secara terus menerus oleh banyak departemen dan user.
-
Syahrial (2006, p45), Database adalah sekumpulan obyek seperti
tabel, view, indeks, trigger, prosedur, dan obyek-obyek lain yang
disimpan dalam database file dengan nama perluasan MDF dan
LDF.
-
O’Brien (2005,p141), database adalah kumpulan elemen data
terintegrasi yang berhubungan secara logikal.
-
Turban et al (2005,p446), database adalah kumpulan dari file-file
yang menyimpan data yang saling berelasi dan berasosiasi satu
dengan yang lainnya. Dimana letak data tersebut disimpan dapat
9 mempengaruhi kecepatan user untuk mengakses, query response
times, data entry, security, dan biaya.
Berdasarkan definisi diatas, dapat disimpulkan bahwa database
adalah tempat penyimpanan dari data. Dan database sendiri adalah
kumpulan dari elemen, relasi atau file-file yang saling terintegrasi untuk
digunakan bersama dan dapat digunakan untuk memperoleh informasi
yang dibutuhkan oleh perusahaan.
2.1.3
Komponen DMBS
Sebagai sebuah sistem, DBMS juga memiliki komponen yang
saling berinteraksi satu sama lain. Menurut Connoly dan Begg (2002,
pp18-20), ada beberapa komponen utama yang harus dimiliki oleh sebuah
DBMS yaitu :
2.1.4
1.
Perangkat Keras (Hardware)
2.
Piranti Lunak (Software)
3.
Data
4.
Prosedur
5.
Orang (pengguna)
Kelebihan DBMS
Menurut Connoly dan Begg (2002, pp26-29), ada beberapa
kelebihan yang dimiliki oleh DBMS dibandingkan dengan sistem
10 pengelolaan data tradisional (menggunakan file). Beberapa kelebihan itu
antara lain :
1.
Berkurangnya redundansi.
Redudansi data merupakan kerangkapan data yang terjadi
dalam basis data, bukan pada tabel. Dengan penggunaan DBMS,
terjadi
pengurangan
redundansi
data,
sehingga
terjadi
penghematan dalam penggunaan piranti penyimpanan.
2.
Konsistensi data
Dengan menghilangkan redundansi, resiko data yang tidak
konsisten dapat dikurangi.
Dengan penggunaan DBMS, suatu
data item hanya disimpan sekali dalam database, sehingga proses
update terhadap data item tersebut juga hanya dilakukan sekali
dan nilai baru hasil proses update tersebut juga akan langsung
tersedia bagi semua pengguna.
3.
Lebih banyak informasi
Dengan terintegrasinya data operasional, organisasi akan
mampu untuk memperoleh lebih banyak informasi dari sejumlah
data yang sama.
4.
Penyebaran data
Database dimiliki oleh seluruh bagian organisasi dan
dapat diakses oleh pengguna-pengguna yang diberikan otorisasi
untuk mengakses data tersebut.
Dengan demikian, setiap
11 pengguna akan memiliki bagian yang lebih banyak dari data yang
ada.
5.
Meningkatnya integritas data
Dengan adanya integrasi yang dilakukan oleh DBMS,
database administrator dapat memaksa agar dilakukan validasi
terhadap batasan-batasan integritas data yang dihasilkan oleh
suatu proses pada sistem.
6.
Peningkatan keamanan
Dengan adanya integrasi data dalam database, database
administrator dapat memaksa dilaksanakannya batasan-batasan
keamanan tertentu terhadap penggunaan database oleh penggunapengguna tertentu pula.
7.
Standarisasi
Sama seperti pada keamanan, adanya integrasi data juga
memungkinkan dilakukannya standarisasi data antara setiap
bagian dari organisasi.
8.
Penghematan biaya
Dengan mengkombinasikan seluruh data operasional
organisasi ke dalam satu database dan membuat sekumpulan
aplikasi yang dapat mengolah satu sumber data ini, organisasi
dapat melakukan penghematan biaya.
12 9.
Meminimalisasi konflik antara pengguna
Setiap
pengguna
dalam
suatu
organisasi
memiliki
kebutuhan yang mungkin dapat mengakibatkan konflik dengan
pengguna lain.
Karena database berada di bawah kontrol
database administrator, database administrator dapat membuat
keputusan tentang bagaimana rancangan dan penggunaan
operasional dari database, yang memungkinkan digunakannya
sumber daya sebaik mungkin bagi keseluruhan perusahaan.
10.
Meningkatkan aksesibilitas data dan mengurangi waktu respon
Dengan adanya DBMS, data-data yang dimiliki oleh suatu
departemen dapat diakses secara langsung oleh pengguna pada
departemen lainnya. Hal ini akan mengakibatkan sistem memiliki
fungsionalitas-fungsionalitas tambahan yang dapat berguna bagi
perkembangan organisasi.
11.
Peningkatan produktivitas
Banyak DBMS yang menyediakan tool-tool yang dapat
memudahkan proses pengembangan aplikasi database. Tool-tool
ini
dapat
meningkatkan
produktivitas
programmer
dan
mengurangi waktu pengembangan aplikasi.
12.
Peningkatan konkurensi
Dengan adanya DBMS, adalah mungkin bagi database
untuk diakses lebih dari satu pengguna pada waktu yang
bersamaan, tanpa saling menganggu.
13 13.
Peningkatan pelayanan backup dan recovery
Kebanyakan DBMS modern telah menyertakan fasilitas
untuk meminimalisasi proses yang hilang apabila terjadi
kesalahan pada sistem, sehingga mempermudah dalam proses
recovery dan backup terhadap database.
2.1.5
Kekurangan DBMS
Selain kelebihan yang dimilikinya, DBMS juga memiliki
beberapa kekurangan. Menurut Connoly dan Begg (2002, pp29-30),
kekurangan dari DBMS antara lain :
1.
Kompleksitas
Perancang dan pengembang database, database dan data
administrator dan pengguna harus mengerti fungsi-fungsi yang
terdapat dalam suatu DBMS (yang biasanya cukup kompleks)
untuk dapat menggunakan DBMS tersebut dengan baik.
Ketidakmampuan untuk mengerti sistem tersebut dengan baik
dapat mengakibatkan dilakukannya perancangan yang buruk,
yang dapat mengakibatkan konsekuensi yang serius terhadap
perusahaan.
2. Ukuran
Kompleksitas dan banyaknya fungsionalitas dari sebuah
DBMS membuat DBMS menjadi sebuah piranti lunak yang
berukuran besar, yang membutuhkan ruang penyimpanan yang
14 cukup besar dan membutuhkan memori yang besar untuk dapat
bekerja.
3. Biaya
Dengan digunakannya DBMS, dibutuhkan biaya ekstra
untuk membeli DBMS itu sendiri dan melakukan perawatan
terhadap DBMS tersebut.
4. Biaya tambahan untuk kebutuhan perangkat keras
Kebutuhan ruang penyimpanan dari DBMS dan database
mungkin akan mengakibatkan dibutuhkannya perangkat keras
tambahan. Selain itu, untuk mencapai kinerja yang baik, mungkin
organisasi harus membeli sebuah komputer yang lebih besar, atau
bahkan sebuah komputer yang khusus didedikasikan untuk
menjalankan DBMS tersebut.
5. Biaya konversi
Pada beberapa kasus biaya pembelian DBMS dan
perangkat keras tambahan dapat menjadi jauh lebih kecil
dibandingkan biaya untuk mengkonversi aplikasi yang sudah ada
agar dapat berjalan pada DBMS dan perangkat keras baru. Biaya
konversi ini juga termasuk biaya untuk melatih pegawai agar
dapat menggunakan sistem baru dan biaya untuk memperkerjakan
spesialis
untuk
membantu
implementasi sistem baru.
dalam
proses
konversi
dan
15 6. Kinerja
Karena DBMS dibuat sebagai solusi umum untuk lebih
dari satu masalah, ada beberapa aplikasi yang berjalan lebih
lambat dari biasanya.
7. Dampak kesalahan yang lebih besar
Karena seluruh kegiatan operasi perusahaan tergantung
pada keberadaan DBMS, adanya kesalahan pada komponen dari
DBMS dapat mengakibatkan terhentinya operasi perusahaan.
2.2
Data Warehouse
2.2.1
Pengertian Data Warehouse
Definisi dari data warehouse telah berevolusi sejak pertama kali
diperkenalkan pada awal tahun 1980. Menurut Connolly dan Begg
(2002,p1047), data warehouse adalah suatu kumpulan data yang bersifat
subject oriented, integrated, time-variant, dan non-volatile dalam
mendukung proses pengambilan keputusan. Data warehouse bertujuan
agar perusahaan dapat menggunakan arsip datanya untuk mendapatkan
keunggulan bisnis.
Sedangkan menurut Inmon (2002,p31), data warehouse adalah
koleksi data
yang berorientasi subjek, terintegrasi, tidak mengalami
perubahan, dan berdasarkan variasi waktu untuk mendukung keputusan
manajemen. Namun secara singkat data warehouse dapat diartikan
16 sebagai tempat penyimpanan dari data yang didapat dari sistem
perusahaan dan dapat diakses oleh user.
Data warehouse adalah database yang dirancang khusus untuk
mengerjakan proses query, membuat laporan dan analisa. Data yang
disimpan adalah data business history dari sebuah organisasi atau
perusahaan, dimana data tersebut tidak tersimpan secara rinci atau detil.
Sehingga data dapat bertahan lebih lama berbeda dengan data OLTP
(Online Transactional Processing) yang tersimpan sampai prosesnya
berlangsung secara lengkap.
Sumber data pada data warehouse berasal dari berbagai macam
format, software, platform dan jaringan yang beda. Data tersebut adalah
hasil dari proses transaksi perusahan atau organisasi sehari-hari. Karena
berasal dari sumber yang berbeda-beda tadi, maka data pada data
warehouse harus tersimpan dalam sebuah format yang baku.
2.2.2
Karakteristik Data Warehouse
Data warehouse juga merupakan salah satu sistem pendukung
keputusan, yaitu dengan menyimpan data dari berbagai sumber,
mengorganisasikannya dan dianalisa oleh para pengambil kebijakan.
Akan tetapi data warehouse tidak dapat memberikan keputusan secara
langsung. Namun ia dapat memberikan informasi yang dapat membuat
user menjadi lebih paham dalam membuat kebijakan strategis. Adapun
17 karakteristik data warehouse menurut Imnon (2002,p31) adalah sebagai
berikut:
1.
Subject oriented
Data warehouse dirancang melakukan analisis data
berdasarkan subjek-subjek tertentu yang ada dalam organisasi,
tidak berorientasi kepada proses atau aplikasi fungsional tertentu.
2.
Integrated
Karakteristik kedua dan terpenting dari data warehouse
adalah integrasi. Data diambil dari banyak sumber terpisah ke
dalam data warehouse. Data yang diambil itu akan diubah,
diformat, disusun kembali, diringkas, dan seterusnya. Data yang
masuk kedalam data warehouse dengan berbagai cara dan
mempunyai ketidak-konsistenan pada tingkat aplikasi tidak akan
dimasukkan. Contoh konsistensi data antara lain adalah
penamaan, struktur kunci, ukuran atribut, dan karakteristik data
secara spesifik. Hasilnya adalah data dalam data warehouse yang
memiliki satu bentuk.
3.
Non-volatile
Non-volatile dapat diartikan bahwa data tersebut tidak
mengalami perubahan. Data dilingkungan oprasional dapat
dilakukan perubahan (update), dihapus (delete), dan dimasukkan
data baru (insert) tetapi data dalam data warehouse hanya
18 melakukan loading dan accessing. Dengan ini maka data yang
lama tetap tersimpan dalam data warehouse.
4.
Time-variant
Karakteristik ini mengimplikasikan bahwa tiap data dalam
data warehouse itu selalu akurat dalam periode tertentu. Dalam
satu sisi, sebuah record dalam database memiliki waktu yang
telah ditetapkan secara langsung. Disisi lain, sebuah record
mempunyai waktu transaksi.
Dalam setiap lingkungan baik oprasional maupun data
warehouse lingkungan tersebut memiliki time horizon. Time
horizon adalah sebuah parameter waktu yang dipertunjukkan
dalam lingkungan tersebut.
Batas waktu pada data warehouse lebih lama daripada
system operasional, karena perbedaan batas waktu tersebut, maka
data warehouse mempunyai lebih banyak history daripada
lingkungan lainnya.
2.2.3
Tujuan Data Warehouse
Tujuan pembuatan data warehouse sendiri sebenarnya beragam.
Namun secara umum data warehouse digunakan untuk menyediakan data
yang lebih mudah diakses oleh pada top level management sehingga
dapat memberikan sudut pandang tersendiri. Berdasarkan pandangan
diatas maka kami merumuskan tujuan data warehouse sebagai berikut:
19 1.
Data warehouse menyediakan suatu pandangan (view) umum,
sehingga data warehouse akan memiliki keleluasaan untuk
mengakomodasi bagaimana data akan ditafsirkan atau dianalisis
selanjutnya.
2.
Data warehouse merupakan tempat penyimpanan seluruh data
historis. Data warehouse akan bertumbuh menjadi sangat besar
sehingga harus dirancang untuk mengakomodasi pertumbuhan
data.
3.
Data warehouse dirancang untuk menyediakan data bagi berbagai
teknologi analisis dalam komunitas bisnis.
Secara umum ada beberapa hal yang harus diperhatikan dalam
membuat sebuah rancangan datawarehouse. Beberapa pertanyaan umum
seperti tipe apa yang akan dimodelkan? Lalu apa dasar data dan level
atom data yang akan disajikan? Dimensi apa yang dipakai untuk masingmasing record tabel fakta? Pertanyaan-pertanyaan tersebut nantinya akan
membantu dalam menyusun sebuah arsitektur data warehouse. Arsitektur
data warehouse menyediakan perangkat dengan mengidentifikasi dan
memahami data akan pindah melalui sistem dan digunakan dalam
perusahaan. Arsitektur data warehouse mempunyai komponen utama
yaitu database yang hanya dapat dibaca.
20 Gambar 2.1 Arsitektur Data Warehouse
Sumber : Connoly,2005, p1053
Berikut ini beberapa karakteristik arsitektur data warehouse :
1.
Data diambil dari sistem asal atau sistem informasi yang ada,
database dan file.
2.
Data dari sistem akan diintegrasikan dan ditransformasikan
sebelum disimpan kedalam data warehouse.
3.
Datawahouse adalah jenis database read only yang diciptakan
untuk mengambil keputusan
4.
User mengakses data warehouse via front – end atau aplikasi.
21 2.2.4
Komponen Data Warehouse
Untuk menjalankan fungsinya, data warehouse memerlukan data
operasional yang selanjutnya akan melalui beberapa tahapan agar data
tersebut layak dipakai. Berdasarkan gambar 2.1, komponen utama dalam
data warehouse menurut Connoly 2005, p1052, yaitu :
1.
Operasional Data
Data Operasional adalah data yang digunakan untuk
mendukung proses bisnis sehari – hari nya. Data operasional
masih berupa data mentah yang kotor. Disebut kotor karena
didalamnya masih ada data yang duplikat, atau tidak sesuai
dengan nilai data yang ditentukan.
2.
Operational Data Store
Operational Data Store adalah tempat penyimpanan data
operational yang bersifat current dan terintegrasi yang digunakan
untuk analisis. Dengan kata lain, operational data store
mendukung proses transaksi operational maupun proses analisis.
Dengan adanya operational data store, maka pembangunan data
warehouse menjadi lebih mudah karena operational data store
dapat menyediakan data yang telah diekstrak dari sumber dan
telah
dibersihkan
sehingga
proses
pengintegrasian
restrukturisasi data warehouse menjadi lebih sederhana.
dan
22 3.
Load Manager
Load manager, disebut juga dengan komponen front –
end, melakukan semua operasi yang berhubungan dengan
ekstraksi dan load data kedalam data warehouse. Data dapat
diekstrak langsung dari sumber data atau lebih biasa dari
operational data store.
Operasi yang dilakukan oleh load manager dapat meliputi
transformasi sederhana dari data untuk mempersiapkan data untuk
dimasukan ke dalam data warehouse. Ukuran dan kompleksitas
dari komponen ini akan bervariasi diantara data warehouse dan
dapat dibangun dengan menggunakan kombinasi dari tool
loading data dari vendor dan program yang custom built
4.
Warehouse manager
Warehouse manager melakukan semua operasi yang
berhubungan dengan manajemen dari data didalam data
warehouse komponen ini dibangun menggunakan alat manajemen
data vendor dan program custom built.
Operasi yang dilakukan oleh warehouse manager meliputi :
‐
Analisis data untuk memastikan konsistensi data
‐
Transformasi dan menggabungkan sumber data dari
tempat penyimpanan sementara ke dalam table data
warehose
‐
Pembuatan index dan view berdasarkan table dasar
23 ‐
Melakukan denormalisasi (jika diperlukan)
‐
Melakukan agregasi (jika diperlukan)
‐
Melakukan back up data
Dalam beberapa kasus, warehouse manager juga menghasilkan
profile query untuk menentukan index dan agregasi manakah yang
sesuai. Sebuah profile query dapat dihasilkan untuk tiap user,
sekelompok user, atau data warehouse dan didasarkan pada
informasi yang menggambarkan karakteristik dari query seperti
frekuensi, target table, ukuran set hasil.
5.
Query Manager
Query manager, disebut juga dengan komponen back end
melakukan semua operasi yang berhubungan dengan manajement
dari query user. Komponen ini biasanya dibangun menggunakan
tool akses data end user vendor, tool pengawasan data warehouse,
fasilitas database dan program custom built.
Kompleksitas dari query manager ditentukan oleh fasilitas
yang disediakan oleh tool akses end user dan database. Operasi
yang dilakukan oleh komponen ini meliputi mengarahkan query
ke tabel yang sesuai dan menjadwalkan pengeksekusian query.
Dalam beberapa kasus, query manager juga menghasilkan profile
query untuk mengizinkan warehouse manager menentukan index
dan agregasi mana yang tepat.
24 6.
Metadata
Area dari data warehouse ini menyimpan definisi dari semua data
yang digunakan oleh semua proses dalam data warehouse.
Metadata digunakan untuk berbagai tujuan yang meliputi :
•
Ekstraksi dan load process – metadata digunakan untuk
memetakan sumber kedalam view biasa dari data didalam
warehouse.
•
Proses manajemen warehouse – metadata digunakan
untuk mengotomatisasi produksi dari tabel ringkasan.
•
Sebagai bagian dari management query – metadata
digunakan untuk mengarahkan lansung sebuah query ke
sumber data yang paling tepat. Sehingga proses dalam
processing query menjadi lebih cepat
Sruktur dari metadata berbeda diantara setiap proses,
karena tujuannya berbeda. Hal ini berarti copy dari metadata yang
bergambarkan item data yang sama disimpan dalam data
warehouse. Sebagai tambahan, kebanyakan tool vendor untuk
management copy dan akses untuk data end user menggunakan
metadata versi mereka sendiri.
Secara spesifik, tool manajemen menggunakan metadata
untuk mengerti aturan pemetaan untuk menerapkan dengan tujuan
untuk mengkonversi sumber data ke dalam bentuk yang umum.
Tool akses end user menggunakan metadata untuk mengerti
25 bagaimana membangun sebuah query. Manajemen dari metadata
merupakan tugas yang sangat kompleks yang tidak boleh
diremehkan.
7.
End User Access Tool
Tujuan utama dari data warehouse adalah menyediakan
informasi kepada user bisnis untuk membuat keputusan strategis.
User ini berinteraksi dengan data warehouse menggunakan tool
akses end user. Data warehouse mendukung secara efektif
analisis adhoc dan analisis rutin. Performa yang tinggi dapat
dicapai dengan merencanakan terlebih dulu kebutuhan untuk join,
summation, dan laporan periodic oleh end user. Ada lima
kelompok utama dari tool ini:
o
Reporting and query tools
Reporting tools meliputi tool produksi laporan dan
penulis laporan. Tool produksi laporan digunakan untuk
menghasilkan laporan operasional regular atau mendukung
tugas batch berkapasitas tinggi, seperti pesanan pelanggan
atau faktur dan cek pegawai. Penulis laporan, merupakan
tool desktop yang murah yang didesign untuk end user
tool query untuk data warehouse relational di desain
untuk menerima SQL atau menghasilkan pernyataan SQL
untuk meng-query data yang disimpan di dalam data
warehouse. Tool ini melindungi user dari kompleksitas
26 dari SQL dan struktur database dengan mengikutsertakan
sebuah layer meta diantara user dan database. Layer meta
adalah perangkat lunak yang menyediakan view subject
oriented dari database dan mendukung pembuatan ‘point
and click’ dari SQL. Sebuah contoh dari tool query adalah
query by example (QBE). Tool query dikenal dengan user
dari aplikasi bisnis seperti analisis demographic dan daftar
mailing pelanggan.
o
Application development tools
Kebutuhan dari end user seperti kapabilitas built in
dari reporting tool dan tool query tidak sesuai baik karena
analisis yang dibutuhkan tidak dapat dilakukan atau karena
interaksi user membutuhkan expertise tingkat tinggi pada
user. Dalam situasi ini, akses user mungkin membutuhkan
pengembangan aplikasi in-house yang menggunakan tool
akses data grafikal yang didesain untuk lingkungan client
server. Beberapa dari tool pengembangan aplikasi ini
berintergrasi dengan tool OLAP, dan dapat mengakses
semua system database, termasuk Oracle, Sybase, dan
Informix.
o
Executive Information System (EIS) Tools
EIS, sering disebut dengan ‘sistem informasi
semua orang’, awalnya di desain untuk mendukung
27 pembuatan keputusan strategis. Namun, fokus dari sistem
ini diperluas untuk mendukung semua tingkat dari
manajemen. Tool EIS awalnya berhubungan dengan
mainframe yang memungkinkan user untuk membangun
aplikasi pembuat keputusan grafikal untuk menyediakan
sebuah overview dari data organisasi dan mengakses
sumber data eksternal.
o
Online Analytical Processing (OLAP) Tools
Tool OLAP didasarkan pada konsep database
multidimensi dan memungkinkan user untuk menganalisis
data menggunakan view multidimensi yang kompleks.
Aplikasi bisnis untuk tool ini meliputi mempertinggi
efektifitas dari kampanye pemasaran, peramalan penjualan
produk
dan
perencanaan
mengasumsikan
multidimensi
data
yang
kapasistas.
Tool
diorganisir
dalam
didukung
oleh
ini
model
MDDB
(Multidimentional Database) atau oleh relational database
yang dirancang memungkinkan query multidimensi
o
Data mining tools
Data mining adalah sebuah proses menemukan
korelasi, pola, dan tren baru dengan menggali sejumlah
besar data menggunakan teknik statistik, matematis,
intellegensia buatan. Data mining memiliki potensial
28 untuk memperluas kapabilitas dari tool OLAP karena
tujuan utama dari data mining adalah untuk membangun
model predictive dari pada model retroprective.
2.2.5
Skema Data Warehouse
Komponen database dari sebuah data warehouse dideskripsikan
dengan
sebuah
teknik
yang
disebut
dimensionality
modeling.
Dimensionality modeling merupakan suatu teknik desain logikal yang
bertujuan untuk menampilkan data dalam bentuk standar dan intuitive,
yang memungkinkan akses dengan kecepatan yang tinggi (Connolly dan
Begg, 2005, p1079). Dimentionality modeling untuk desain data
warehouse adalah sebagai berikut :
1.
Star Schema
Menurut Connolly dan Begg (2005, p1079), star schema
adalah struktur logikal yang mempunyai sebuah tabel fakta berisi
data faktual yang ditempatkan ditengah, dikelilingi oleh tabel
dimensi berisi data acuan (yang dapat didenormalisasi). Star
schema mengeksploitasi karakteristik dari data faktual dimana
fakta dibuat dari peristiwa yang muncul di masa lalu dan mustahil
untuk diubah, dengan mengabaikan bagaimana mereka dianalisis.
Kebanyakan fakta yang digunakan dalam tabel fakta
adalah angka dan additive karena aplikasi data warehouse tidak
pernah diakses sebagai sebuah record tunggal, tetapi mereka
29 diakses ratusan, ribuan bahkan jutaan record pada suatu waktu
dan hal yang paling berguna untuk dilakukan dengan record yang
begitu banyak tersebut adalah mengagregasikan mereka. Tabel
dimensi, berisi deskripsi informasi berupa teks yang dapat
digunakan
untuk
mempercepat
kinerja
query
dengan
denormalisasi informasi kedalam sebuah tabel dimensi.
Denormalisasi tepat ketika terdapat sejumlah entity yang
berhubungan dengan tabel dimensi yang sering diakses,
menghindari overheat dari penggabungan tabel tambahan untuk
mengakses attribute. Denormalisasi tidak tepat dimana data
tambahan tidak sering diakses, karena overheat tabel dimensi
yang diperluas tidak mungkin offset oleh berbagai perolehan
dalam query.
Gambar 2.2 Contoh Star Schema
Sumber : Connolly, 2005, p1080
30 Keuntungan dari star schema yaitu :
ƒ
Mudah dipahami pengguna
Star
schema
menggambarkan
dengan
jelas
bagaimana pengguna berfikir dan memerlukan data untuk
query
dan
analisis.
Star
schema
menggambarkan
hubungan antar tabel sama seperti cara pengguna melihat
hubungan tersebut secara normal
ƒ
Mengoptimalkan navigasi
Star
melewati
schema
database
mengoptimalisasikan
sehingga
lebih
mudah
navigasi
dilihat.
Meskipun hasil query terlihat kompleks, tetapi navigasi itu
memudahkan pengguna.
ƒ
Paling cocok untuk pemsrosesan query
Star schema paling cocok untuk pemrosesan query
karena schema ini berpusat pada query. Tanpa bergantung
pada banyak dimensi dan kompleksitas query, setiap query
akan dengan mudah dijalankan pertama dengan memilih
baris dari tabel dimensi dan kemudian menemukan baris
yang sama di tabel fakta.
31 2.
Snowflake schema
Snowflake schema merupakan variasi dari star schema,
namun tabel dimensi pada schema ini tidak mengandung
denormalisasi yang memungkinkan sebuah dimensi untuk
mempunyai dimensi lagi.
Gambar 2.3 Contoh Snowflake schema
Sumber : Connolly, 2005, p1081
Suatu schema disebut snowflake schema jika satu atau
lebih tabel dimensi tidak berhubungan langsung dengan fact table,
melainkan pada tabel dimensi.
32 2.2.6
Arsitektur Data Warehouse
1.
Arsitektur two-tier
Arsitektur ini memiliki kekurangan yaitu pada skalabilitas
dan fleksibilitas yang dapat diperbaiki dengan menggunakan
arsitektur multi-tier.
Gambar 2.4 Arsitektur Data Warehouse Two-Tier (Berson, Smith,
dan Thearling, 2000, p32)
2.
Arsitektur multi-tier
Arsitektur ini memperbaiki kelemahan skalabilitas dan
fleksibilitas pada arsitektur two-tier. Server aplikasi melakukan
penyaringan data, pengumpulan, dan akses data, mendukung
metadata, dan memberikan view multidimensi.
33 Gambar 2.5 Arsitektur Data Warehouse Multi-Tier (Berson,
Smith dan Thearling, 2000, p33)
2.2.7
Keuntungan Penggunaan Data Warehouse
Menurut Connoly dan Begg (2002, p1048), kesuksesan penerapan
sebuah data warehouse dapat membawa keuntungan besar bagi
perusahaan meliputi :
1.
Potensi ROI (Return On Investment) yang tinggi
Organisasi harus mengeluarkan sumber daya dan biaya
dengan jumlah yang sangat besar untuk memastikan penerapan
data warehouse yang sukses. Studi yang dilakukan IDC
(International Data Corporation) pada tahun 1996 menghasilkan
bahwa data warehouse mencapai rata-rata ROI dalam 3 tahun
sebesar 401%, dengan lebih dari 90% perusahaan yang disurvei
mencapai lebih dari 40% ROI, separuh perusahaan mencapai lebih
34 dari 160% ROI dan seperempat perusahaan dengan lebih dari
600% ROI.
2.
Keuntungan bersaing (competitive advantage)
ROI yang besar untuk perusahaan yang telah sukses
mengimplementasikan
data
warehouse
merupakan
bukti
keuntungan bersaing yang sangat besar. Keuntungan bersaing
tersebut didapatkan dengan memberikan pembuat keputusan akses
ke data sehingga dapat menemukan informasi yang sebelumnya
tidak tersedia, tidak diketahui, dan tidak ditemukan seperti
pelanggan, tren, dan permintaan.
3.
Meningkatkan produktivitas dari pembuat keputusan perusahaan
Data warehouse meningkatkan produktivitas pembuat
keputusan
pada
perusahaan
dengan
membuat
database
terintegrasi yang konsisten, berorientasi subyek, dan historis.
Data warehouse mengintegrasikan data dari berbagai sistem yang
berbeda-beda ke suatu bentuk yang memberikan sebuah
pandangan yang konsisten tentang organisasi. Dengan mengubah
data menjadi informasi yang berguna, data warehouse dapat
membuat manajer bisnis untuk melakukan analisis secara lebih
benar, akurat, dan konsisten.
35 2.2.8
Data mart
Data yang terdapat dalam data warehouse dapat dibagi perbagian
sesuai dengan kebutuhan dalam informasi. Inilah yang dsebut dengan
data mart. Data mart memiliki karakteristik yang sama dengan data
warehouse, perbedaannya hanya terdapat pada jumlah data yang dimiliki.
Dalam data mart, data yang ada hanya berasal dari satu bagian atau satu
departemen saja, sedangkan pada data warehouse, data yang ada berasal
dari seluruh bagian dalam perusahaan tersebut. Menurut Vercellis, Carlo
(2009, p49) data mart adalah sebuah sistem yang menarik semua data
yang diperlukan oleh sebuah departemen dalam perusahaan. Data di
dalam data mart biasanya disesuaikan untuk melakukan fungsi tertentu,
misalnya digunakan untuk product profitability analysis, KPI analysis,
customer demographic analysis, dan sebagainya.
Gambar 2.6 Arsitektur Umum Data Warehouse dan Data Mart
Sumber : Connolly, 2005, p1068
36 Ada beberapa karakteristik yang membedakan antara data mart
dengan data warehouse, yaitu (Connolly and Begg, 2005, p1067):
•
Data mart lebih berfokus kepada ketentuan maupun permintaan
dari pengguna yang berkaitan dengan sebuah departemen ataupun
fungsi-fungsi bisnis organisasi.
•
Secara normal data mart tidak mencakup data operasional yang
mendalam tidak seperti halnya dengan data warehouse.
•
Karena data mart memiliki jumlah data yang lebih sedikit
dibandingkan dengan data warehouse, data mart lebih mudah
dimengerti dan diaplikasikan.
Ada beberapa alasan untuk membangun sebuah data mart
(Connolly dan Begg, 2005, p1069), diantaranya :
•
Member akses kepada user akan data yang diperlukan untuk
melakukan analisis.
•
Menyediakan data dalam bentuk yang disesuaikan dengan
berbagai sudut pandang atas data oleh sekelompok pemakai dalam
sebuah departemen atau fungsi bisnis.
•
Mengurangi waktu respon dari end-user, sehubungan dengan
berkurangnya volume data yang diakses.
•
Menyediakan struktur data yang sesuai dengan kebutuhan tools
milik end-user, seperti OLAP maupun data mining. Tools tersebut
mungkin membutuhkan struktur basis data internal sendiri. Pada
37 praktiknya, tools tersebut biasanya membentuk desain data mart
sendiri untuk mendukung fungsionalitas tertentu secara spesifik
•
Data mart umumnya menggunakan data lebih sedikit sehingga
berbagai proses seperti cleaning, loading, transformasi dan
integrasi menjadi jauh lebih mudah. Oleh karena itu pembuatan
serta implementasi data mart menjadi lebih sederhana bila
dibandingkan dengan data warehouse.
•
Biaya implementasi data mart yang dibutuhkan umumnya jauh
lebih kecil daripada biaya implementasi sebuah data warehouse.
•
Para pengguna data mart yang ditetapkan sebagai sasaran untuk
memperoleh dukungan terhadap sebuah proyek data mart
daripada sebuah proyek data warehouse perusahaan.
2.3
Data Mining
2.3.1
Pengertian Data mining
Menurut Han, Jiawei(2006,p5) data mining merupakan pemilihan
atau “menambang” pengetahuan dari jumlah data yang banyak.
Sedangkan menurut Berry (2004, p7), data mining adalah kegiatan
mengeksplorasi dan menganalisis data dalam jumlah yang besar untuk
menemukan pattern dan rule yang berarti. Data mining digunakan untuk
mencari informasi bisnis yang berharga dari basis data yang sangat besar,
yang dipakai untuk memprediksi tren dan sifat-sifat bisnis serta
menemukan pola-pola yang tidak diketahui sebelumnya.
38 Menurut Prescott, Hoffer dan McFadden (2005, p482), data
mining adalah penemuan pengetahuan dengan menggunakan teknikteknik yang tergabung dari statistik, tradisional, artificial intelligence dan
grafik komputer. Berdasarkan beberapa pengertian diatas, dapat ditarik
kesimpulan bahwa data mining adalah suatu proses analisis untuk
menggali
informasi
yang
berharga
yang
tersembunyi
dengan
menggunakan statistik dan artificial intelligence di dalam suatu koleksi
data (database) dengan ukuran sangat besar sehingga ditemukan suatu
pola dari data yang sebelumnya tidak diketahui dan pola tersebut
direpresentasikan dengan grafik komputer agar mudah dimengerti.
2.3.2
Fungsi Data Mining
Menurut JiaweiHan (2006,p21) Fungsi data mining digunakan
untuk menentukan jenis pola yang terdapat dalam database. Secara
umum fungsi data mining dapat dikelompokan menjadi dua kategori
yaitu deskriptif dan prediktif. Deskriptif berfungsi untuk merincikan sifat
umum dari data yang terdapat dalam database. Prediktif berfungsi untuk
menyediakan referensi yang dapat digunakan untuk merancang rangkaian
prediksi.
Dalam beberapa kasus, mungkin beberapa pengguna tidak tahu
bahwa pola – pola menarik yang terdapat dalam data mereka, dan karena
hal itu mereka ingin mencari beberapa jenis pola data secara paralel.
Karenanya data mining sistem memiliki peranan penting dalam
39 menghasilkan jenis – jenis pola yang berbeda untuk mengakomodasi
keinginan pengguna akan pola yang beragam. Selanjutnya, sistem data
mining harus dapat menemukan bermacam – macam pola dari berbagai
macam sumber. Sistem data mining juga harus membantu pengguna
untuk menemukan petunjuk yang tepat dan spesifik. Karena beberapa
pola dalam data mining tidak menyimpan seluruh datanya dalam
database, ukuran kepastian atau kepercayaan biasanya terkait dengan
setiap pola yang ditemukan. Menurut Berson, Smith dan Thearling (2000,
pp37-38) pada dasarnya aplikasi data mining digunakan untuk melakukan
empat macam fungsi, yaitu :
1. Fungsi Klasifikasi (Classification)
Data mining dapat digunakan untuk mengelompokkan
data-data yang jumlahnya besar menjadi data-data yang lebih
kecil.
2. Fungsi Segmentasi (Segmentation)
Disini data mining juga digunakan untuk melakukan
segmentasi (pembagian) terhadap data berdasarkan karakteristik
tertentu.
3. Fungsi Asosiasi (Association)
Pada fungsi asosiasi ini, data mining digunakan untuk
mencari hubungan antara karakteristik tertentu.
40 4. Fungsi Pengurutan (Sequencing)
Pada
fungsi
ini,
data
mining
digunakan
untuk
mengidentifikasikan perubahan pola yang terjadi dalam jangka
waktu tertentu.
2.3.3
Proses Dalam Data Mining
Data mining adalah sebuah langkah dalam proses mencari pola – pola
yang terdapat dalam setiap informasi. Langkah – langkah tersebut akan di
jelaskan pada gambar 2.7 (Han, 2006, p6).
Gambar 2.7 Proses Menghasilkan Pengetahuan Melalui Data Mining
Sumber : Han, Jiawei (2006, p6)
41 Gambar 2.7 menggambarkan proses data mining dalam
menghasilkan pengetahuan dan terdiri dari beberapa urutan :
1.
Data Cleaning, untuk menghapus data yang tidak dipakai dan
data yang tidak konsisten
2.
Data
Integration,
dimana
berbagai
sumber
data
dapat
digabungkan
3.
Data Selection, data yang bersangkutan pada tugas analisis
diseleksi dan diambil kembali dari database
4.
Data Transformation, dimana data diubah atau diperkuat menjadi
bentuk yang seharusnya untuk diolah dengan menganalisis
ringkasan atau jumlah total agregasi
5.
Data mining, sebuah proses penting dimana metode intelijen
diterapkan dengan tujuan untuk mengolah pola – pola data.
6.
Pattern evaluation, untuk mengidentifikasi pola – pola menarik
yang menjelaskan mengenai ukuran dasar pengetahuan yang ada.
7.
Knowledge
representasi
presentation,
pengetahuan
dimana
visualisasi
digunakan
untuk
pengetahuan yang telah diolah untuk pengguna.
dan
teknik
menyajikan
42 2.3.4
Arsitektur Data Mining
Gambar 2.8 Arsitektur Tipikal Data Mining
Menurut Han, Jiawei (2006,p8) Arsitektur tikipal data mining
memiliki beberapa komponen, diantaranya adalah :
‐
Knowledge base : Bidang pengetahuan yang digunakan untuk
memandu pencarian atau mengevaluasi pola – pola yang buruk.
‐
Data mining engine : Hal ini penting untuk sistem data mining
dan idealnya terdiri dari sekumpulan fungsionalitas modul seperti
analisi karaktersisasi, asosiasi dan korelasi, klasifikasi, prediksi,
analisis cluster, analisis outlier dan analisis evolusi.
‐
Pattern
evaluation
module
:
Biasanya
komponen
ini
menggunakan langkah – langkah ketertarikan dan berinteraksi
43 dengan modul data mining agar fokus terhadap pola – pola yang
jelas.
‐
Data mining : Modul ini menghubungkan antara pengguna dan
sistem data mining, yang memungkinkan pengguna
untuk
berinteraksi pada sistem dengan cara menentukan query,
menyediakan informasi agar proses pencarian menjadi lebih
fokus, dan melakukan explorasi informasi berdasarkan hasil dari
data mining.
2.3.5 Penerapan Data Mining
Sebagai ilmu yang relatif baru, belum banyak perusahaan yang
menerapkan data mining. Menurut Sucahyo Yudho Giri (2003, pp1-3)
ada beberapa bidang dimana proses data mining dapat diterapkan antara
lain :
1.
Analisa Pasar dan Manajemen
Dengan
menggunakan
data
mining,
ada
beberapa
permasalahan yang dapat diselesaikan, diantaranya :
a.
Menembak target pasar
Data mining dapat melakukan pengelompokkan
dari model-model pembeli dan mengklasifikasikannya
berdasarkan
karakteristik
yang
diinginkan,
seperti
kebiasaan membeli dan tingkat penghasilan yang sama.
b.
Melihat pola beli pemakai dari waktu ke waktu
44 c.
Cross-market analysis
Data mining dapat dimanfaatkan untuk melihat
hubungan antara penjualan satu produk dengan produk
lainnya. Sebagai contoh, dengan data mining dapat
diketahui pola penjualan indomie sedemikian rupa
sehingga dapat diketahui barang apa saja yang juga dibeli
oleh pembeli indomie.
d.
Profil pelanggan
Data mining dapat membantu menganalisa profil
pelanggan/pembeli/nasabah
sehingga
dapat
diketahui
kelompok pelanggan tertentu suka membeli produk apa
saja.
e.
Identifikasi kebutuhan pelanggan
Dengan data mining, dapat diidentifikasikan
produk-produk apa saja yang terbaik untuk tiap kelompok
pelanggan, sehingga dapat disimpulkan faktor-faktor apa
saja yang kira-kira dapat menarik pelanggan baru untuk
bergabung/membeli.
f.
Menilai loyalitas pelanggan
VISA International Spanyol menggunakan data
mining untuk melihat kesuksesan program-program
pelanggan loyalty mereka.
45 g.
Informasi Summary
Data mining dapat dimanfaatkan untuk membuat
laporan summary (kesimpulan) yang bersifat multidimensi dan dilengkapi dengan informasi statistik lainnya
2.
Analisa Perusahaan dan Manajemen Resiko
a.
Perencanaan Keuangan dan Evaluasi Aset.
Data Mining dapat membantu pengguna untuk
melakukan analisis dan prediksi cash flow (aliran dana
atau aliran uang) serta melakukan contingent claim
analysis untuk mengevaluasi aset.
b.
Perencanaan Sumber Daya (Resource Planning)
Resource
planning
dapat
dilakukan
dengan
memanfaatkan informasi ringkas (summary) serta pola
pembelanjaan
dan
pemasukan
dari
masing-masing
resource yang didapatkan dari proses data mining.
c.
Persaingan (Competition)
Data
Mining
dapat
membantu
perusahaan-
perusahaan itu untuk memonitor pesaing-pesaingnya dan
melihat market direction perusahaan lawan tersebut.
Selain itu, dengan data mining, perusahaan juga
dapat menyusun strategi penetapan harga di pasar yang
sangat kompetitif.
46 d.
Keuangan
Dalam bidang keuangan, data mining dapat
digunakan untuk mendeteksi transaksi-transaksi keuangan
yang mencurigakan (seperti money laundry). Hal ini akan
sulit dilakukan jika menggunakan analisis standar.
e.
Asuransi
Data
Mining
dapat
digunakan
untuk
mengidentifikasi layanan kesehatan yang sebenarnya tidak
perlu tetapi tetap dilakukan oleh peserta asuransi. Selain
itu,
data
mining
juga
dapat
digunakan
untuk
mengklasifikasikan pengguna-pengguna asuransi dengan
tingkat resiko tertentu.
2.3.6
Ukuran Kesuksesan Data Mining
Ukuran kesuksesan penerapan data mining cukup beragam.
Menurut Berson, Smith, dan Thearling (2000, p222), ada tiga ukuran
yang merupakan aturan emas untuk pengembangan data mining yaitu:
1. Ketelitian (accuracy)
Sistem data mining harus menghasilkan sebuah model
yang seteliti mungkin, tetapi perlu diketahui bahwa penambahan
ketelitian yang dirasa kecil antara teknik-teknik yang berbeda
mungkin memberikan efek yang besar atau mungkin efek yang
47 buruk, yang disebabkan karena contoh acak yang berubah-ubah
dalam lingkungan pasar yang berubah-ubah.
2. Kejelasan (explanation)
Sistem data mining harus mampu menjelaskan bagaimana
model bekerja bagi end user dengan cara yang jelas sehingga
membangun intuisi, dan memungkinkan intuisi-intuisi dan
pemahaman umum untuk diuji dan ditegaskan secara mudah.
Sistem tersebut sebaiknya juga memungkinkan adanya suatu
kejelasan tentang keuntungan atau ROI (Return On Investment)
yang dapat diperoleh dengan diimplementasikannya sistem data
mining.
3. Integrasi (integration)
Sistem data mining harus terintegrasi dengan proses bisnis
yang ada, dan aliran data dan informasi pada perusahaan. Sistem
ini membutuhkan penggandaan data dan pemrosesan data secara
keseluruhan sehingga membuat banyak proses dimana kesalahan
dapat muncul. Dengan integrasi yang kuat, beberapa kesalahan
yang mungkin terjadi dapat diperkecil.
Jika ketiga ukuran tersebut terpenuhi maka sistem data mining
yang dibangun akan menghasilkan model yang sangat menguntungkan
yang cenderung tetap stabil selama jangka waktu yang lama.
48 2. 4
Teknik Data Mining
Ada banyak teknik dalam data mining. Teknik analisa tersebut umumnya
terbagi menjadi teknik generasi lama dan teknik generasi baru. Adapun beberapa
teknik yang dapat digunakan untuk melakukan data mining, diantaranya :
2.4.1
Teknik Decision Tree
Menurut Berson, Smith, dan Thearling (2000, pp156-162), seperti
namanya, algoritma decision tree adalah model perkiraan yang dapat
dilihat sebagai sebuah pohon. Secara spesifik, setiap cabang (branch)
dari pohon ini adalah pertanyaan klasifikasi, dan daun (leaf) dari pohon
ini adalah bagian dari kumpulan data dengan klasifikasi tertentu. Sebagai
contoh, untuk membagi-bagi pelanggan yang melakukan churning
(memperbaharui kontrak telepon mereka) dalam industri telepon seluler,
dapat dibuat decision tree seperti yang terlihat pada gambar 2.10.
Gambar 2.9 Contoh decision tree (Berson, Smith, dan Thearling,
2000, p157)
49 Karena decision tree termasuk teknik generasi baru, belum
banyak orang menggunakannya. Namun secara garis besar ada beberapa
cara dalam menggunakan decision tree, yaitu :
1.
Untuk eksplorasi.
Algoritma
decision
tree
dapat
digunakan
untuk
mengeksplorasi data dan masalah-masalah dalam bisnis. Hal ini
sering dilakukan dengan melihat perkiraan-perkiraan yang
dihasilkan dan nilai-nilai yang terdapat dalam setiap percabangan
pohon.
2.
Untuk melakukan pemrosesan awal terhadap data.
Disini algoritma decision tree digunakan untuk melakukan
pemrosesan awal terhadap data (tahap cleaning and extracting
data) yang akan diprediksi dengan algoritma lain (misalnya :
neural network).
3.
Untuk melakukan prediksi.
Decision tree juga telah digunakan untuk melakukan
prediksi terhadap kemungkinan-kemungkinan keadaan atau
kondisi di masa yang akan datang.
Untuk membuat model data mining dengan menggunakan
decision tree, kita perlu membuat pohon pertanyaan. Pohon pertanyaan
ini nantinya akan digunakan untuk membagi-bagi data menjadi kelompok
yang lebih spesifik atau lebih kecil. Hal ini akan terus dilakukan sampai
50 bagian paling terkecil atau sampai data tersebut sudah tidak dapat dipecah
menurut karakteristiknya lagi.
Untuk menentukan pertanyaan seperti apa yang akan digunakan
untuk memecah pohon, perlu diketahui terlebih dahulu mengenai konsep
pertanyaan yang baik dan yang buruk. Pertanyaan yang baik dan pantas
digunakan untuk memecah pohon menjadi bagian-bagian yang lebih kecil
adalah pertanyaan-pertanyaan yang mampu membagi record-record di
dalam pohon menjadi bagian-bagian yang seimbang besarnya, sehingga
membuat record menjadi lebih terorganisir ke dalam cabang-cabang di
dalam pohon. Menurut Berry dan Linoff (1997, pp282-284) kelebihan
dari teknik decision tree adalah sebagai berikut :
1.
Decision tree mampu menghasilkan aturan-aturan yang dapat
dimengerti.
Maksudnya disini adalah bahwa aturan-aturan yang
dihasilkan dari algoritma decision tree ini dapat diterjemahkan ke
dalam bahasa Inggris atau bahasa SQL yang dapat dimengerti.
Bahkan walaupun apabila decision tree yang dihasilkan sangat
kompleks dan besar, secara umum sangatlah mudah untuk
mengikuti salah satu jalur di dalam pohon yang dihasilkan.
2.
Decision tree mampu melakukan klasifikasi tanpa membutuhkan
banyak komputasi.
Walaupun decision tree dapat mengambil berbagai macam
bentuk, pada kenyataannya, algoritma yang digunakan untuk
51 menghasilkan decision tree umumnya menghasilkan pohon
dengan faktor pencabangan yang kecil dan proses pengujian yang
mudah pada setiap node-nya. Pengujian-pengujian yang umum
meliputi perbandingan numerik, keanggotaan himpunan, dan
perintah-perintah
konjungsi
sederhana.
Pada
saat
diimplementasikan ke dalam komputer, pengujian-pengujian ini
diterjemahkan menjadi suatu operasi boolean dan integer yang
cepat dan murah. Hal ini sangat penting karena pada lingkungan
komersial, model-model prediktif seperti ini biasanya digunakan
untuk mengklasifikasikan sejumlah besar record (jutaan bahkan
miliaran record).
3.
Kemampuan untuk menangani data dalam bentuk kontinyu atau
kategoris
Metode decision tree dapat menangani variabel kontinyu
atau kategoris dengan baik. Variabel kategoris, yang menjadi
masalah pada teknik neural network dan teknik statistik, dapat
dipisahkan dengan baik pada teknik ini (masing-masing kategori
menjadi 1 cabang pohon). Variabel kontinyu dapat dipisahkan
dengan sama mudahnya, yaitu dengan memilih salah satu angka
diantara jangkauan angkanya.
52 4.
Kemampuan untuk dengan jelas melihat field yang paling baik
Algoritma pembuatan decision tree mengambil field
dengan kemampuan memisahkan data yang paling baik dan
meletakkannya di node akar dari pohon tersebut.
Selain kelebihannya, ternyata decision tree juga memiliki
beberapa kekurangan. Menurut Berry dan Linoff (1997, pp284-285)
kekurangan dari teknik decision tree ini adalah sebagai berikut :
1.
Kemungkinan kesalahan semakin besar seiring dengan banyaknya
kelas
Beberapa algoritma decision tree hanya dapat menangani
kelas-kelas dengan nilai biner (ya/tidak, terima/tolak). Beberapa
algoritma
lainnya
dapat
membagi
record-record
menjadi
beberapa kelas, tetapi pada algoritma ini, kemungkinan kesalahan
membesar saat jumlah contoh pada setiap kelas menjadi semakin
kecil.
Hal ini dapat terjadi dengan cepat pada pohon yang
memiliki banyak tingkatan atau banyak cabang di setiap nodenya.
2.
Sulit dan mahal untuk dilatih
Proses pembuatan decision tree sangat mahal. Pada setiap
node, setiap kandidat field yang akan dipecah harus diurutkan
terlebih dahulu sebelum pecahan terbaiknya dapat ditemukan.
Pada beberapa algoritma, digunakan kombinasi dari field-field
53 tersebut, dan berat kombinasi optimal dari pohon harus dicari
terlebih dahulu. Algoritma penyederhanaan (prunning) juga dapat
menjadi sangat mahal, karena banyak kandidat sub-pohon yang
harus dibentuk dan dibandingkan.
3.
Adanya masalah dengan daerah-daerah yang tidak berbentuk segi
empat
Kebanyakan algoritma decision tree hanya memeriksa satu
field pada satu waktu. Hal ini mengakibatkan terciptanya kotakkotak klasifikasi yang berbentuk segi empat, yang mungkin tidak
secara
baik
merepresentasikan
distribusi
record
yang
sesungguhnya dalam ruang keputusan.
2.4.2
Teknik Nearest Neighbor
Gambar 2.10 Ilustrasi Teknik Memory Based Reasoning atau Nearest
Neighbor (Berson, Smith, dan Thearling, 2000, p138)
54 Menurut Berson, Smith dan Thearling (2000, p136), algoritma
nearest neighbor adalah objek-objek yang “dekat” satu sama lain, juga
akan memiliki nilai prediksi yang hampir sama. Dengan demikian, jika
nilai prediksi dari salah satu objek diketahui, maka dapat diketahui nilai
prediksi dari nearest neighbor-nya.
Pada gambar 2.10, apabila nilai prediksi dari titik A, pada
algoritma ini, dilakukan dengan melihat titik-titik lainnya yang
berdekatan dengan titik A. Hal yang sama berlaku untuk titik B dan C).
Menurut Berry dan Linoff (1997, pp184-185), ada beberapa kelebihan
yang dapat diperoleh dari penggunaan algoritma nearest neighbor ini,
yaitu:
1.
Hasil mudah dimengerti.
2.
Dapat diterapkan pada tipe data yang berubah-ubah, bahkan dapat
diterapkan juga pada data non relasional.
3.
Dapat bekerja secara efisien pada jumlah field yang banyak.
4.
Dapat mengelola training set dengan jumlah effort yang minimal.
Selain kelebihannya, ada juga kekurangan dari nearest neighbor.
Menurut Berry dan Linoff (1997, pp185-186) kekurangan dari nearest
neighbor yaitu :
1.
Mahal dari segi komputasional saat melakukan klasifikasi dan
prediksi.
2.
Membutuhkan jumlah penyimpanan yang besar untuk training
set.
55 3.
Hasil dapat tergantung pada pemilihan fungsi jarak, fungsi
kombinasi, dan jumlah neighbor.
2.4.3
Teknik Clustering
Algoritma cluster, tidak seperti decision tree, tidak membagi data
ke dalam garis-garis, tetapi menempatkan data dalam cluster-cluster,
seperti yang terlihat pada gambar 2.11 di halaman berikut ini :
Gambar 2.11 Salah Satu Contoh Bentuk Visualisasi Teknik
Clustering (Seidman, 2001, p13)
Teknik clustering ini umumnya berguna untuk representasi secara
visual, karena data dikelompokkan berdasarkan kriteria-kriteria umum.
Banyak piranti lunak yang menampilkan kelompok-kelompok ini sebagai
sebuah lubang peluru pada sebuah target.
Dari representasi target
tersebut, dapat dilihat adanya kecenderungan lebih tingginya jumlah
lubang pada bagian-bagian atau kelompok-kelompok tertentu dari target
56 tersebut.
Menurut Berson, Smith, dan Thearling (2000, p148),
kelemahan utama dari teknik ini adalah :
1.
Hasil yang diperoleh sulit dimengerti
Tidak seperti pada teknik decision tree, pada teknik ini
tidak ada node-node yang dapat ditelusuri, dan tidak ada aturan
yang bisa diikuti. Pada kenyataannya, tidak ada prediksi nyata
yang dihasilkan (oleh karena itu, teknik ini lebih condong
dilakukan untuk kebutuhan eksplorasi terhadap data dan
visualisasi terhadap data yang dihasilkan teknik lain). Akibatnya
hasil yang diperoleh dari penggunaan teknik ini akan sulit
dimengerti.
2.
Karakteristik data sangat sulit dibandingkan
Karena teknik ini mengandalkan data-data numerik untuk
menentukan titik-titik yang akan dibuat pada sumbu koordinat,
membandingkan angka-angka yang digunakan untuk mengukur
data-data yang berbeda dapat menjadi sangat sulit.
2.4.4
Teknik Neural Network
Neural network (jaringan syaraf) yang sebenarnya merupakan
sistem biologis yang mencari pola, membuat prediksi dan dapat belajar.
Sedangkan jaringan syarat tiruan merupakan program komputer yang
dapat mencari pola, dan membangun model prediksi dari database
historis yang besar dengan cara menerapkan algoritma yang dapat
57 membuat komputer belajar. Kekurangan neural network yaitu sulit
digunakan dan dikembangkan. Tetapi neural network memiliki kelebihan
yang berarti yaitu memiliki akurasi yang tinggi, yang dapat diterapkan
pada berbagai jenis permasalahan (Berson, Smith dan Thearling, 2000,
p173).
2.4.5
Teknik Association Rules
Association rules merupakan salah satu bentuk utama dari data
mining dan merupakan bentuk paling umum mengenai proses penemuan
pengetahuan dalam sistem unsupervised learning. Teknik ini juga
merupakan bentuk data mining yang paling mendekati apa yang
dipikirkan orang mengenai data mining, yaitu menambang emas dari
sebuah data yang besar. Yang menjadi emas adalah sebuah aturan yang
menarik, dan dapat memberikan suatu gambaran tentang data yang
mungkin tidak diketahui dan dapat dengan mudah dikemukakan. Teknik
association rules melibatkan pemrosesan data secara besar-besaran,
dimana semua pola yang memungkinkan secara sistematis akan diambil
dari data, kemudian dilakukan pengukuran terhadap pola tersebut untuk
mengetahui kemungkinan pola tersebut muncul kembali.
Download