By HendraNet - Hendra Jatnika

advertisement
http://www.hendra-jatnika.web.id
MATA KULIAH
BASIS DATA LANJUT
POLITEKNIK PIKSI GANESHA
MATERI
1. Review Database 1 ( ER-Model,Normalisasi, SQL dan Relasional )
2. Design Basis Data
3. Query Lanjut
4. Optimasi Query
5. Database Trigger
6. Basis data Client Server
7. Basis Data Terdistribusi
8. Basis Data Internet
9. Basis Data Warehousing & Decision Support
10.Data Mining
t
e
N
a
r
d
By
n
e
H
“Pendalaman Materi dan Latihan diberikan pada waktu kuliah”
By
Hendra Jatnika, S.Kom
http://www.hendra-jatnika.web.id
Bab 1
Review Database 1
POKOK BAHASAN:
Pendahuluan
ER-Model
Model Relasional
Structured Query Language
Normalisasi
TUJUAN BELAJAR:
t
e
N
a
r
d
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami Database Management System dan komponen utamanya
Memahami ER-Model dan dapat menggunakannya sebagai desain awal dari
database
Memahami SQL dan apa saja yang tercakup dalam bahasa SQL
Memahami konsep normalisasi dan dapat melakukan normalisasi data
By
1.1.
n
e
H
PENDAHULUAN
Pada saat sekarang ini, kesuksesan suatu organisasi bergantung pada
kemampuannya menangkap data secara akurat dan tepat waktu, dalam hal
pengoperasian, pengaturan data secara efektif, maupun penggunaan data untuk
keperluan analisis.
Kemampuan untuk mengatur atau mengolah sejumlah data, dan kecepatan untuk
mencari informasi yang relevan, adalah aset yang sangat penting bagi suatu organisasi.
Untuk mendapatkan himpunan data yang besar dan kompleks, user harus memiliki alat
1
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
2
bantu (tools) yang akan menyederhanakan tugas manajemen data dan mengekstrak
informasi yang berguna secara tepat waktu.
Basis data adalah kumpulan data, yang dapat digambarkan sebagai aktifitas dari satu
atau lebih organisasi yang berelasi.
Sebagai contoh, basis data universitas berisi
informasi mengenai :
Entiti , semisal mahasiswa, fakultas, mata kuliah, dan ruang kelas
Relasi diantara entitas, seperti pengambilan kuliah yang dilakukan oleh
mahasiswa, staf pengajar di fakultas, dan penggunaan ruang perkuliahan.
Manajemen Sistem Basis Data (Database Management System – DBMS) adalah
perangkat lunak yang didesain untuk membantu dalam hal pemeliharaan dan utilitas
kumpulan data dalam jumlah besar. DBMS dapat menjadi alternatif penggunaan secara
khusus untuk aplikasi, semisal penyimpanan data dalam file dan menulis kode aplikasi
yang spesifik untuk pengaturannya.
t
e
N
Tujuan dari pengajaran mata kuliah basis data adalah untuk memberikan suatu
pendahuluan mengenai sistem manajemen basis data, dengan penekanan pada
a
r
d
baagimana cara mengorganisasi suatu informasi dalam DBMS, untuk memelihara
n
e
H
informasi tersebut dan melakukan pengambilan informasi secara efektif, dan bagaimana
By
cara mendesain suatu basis data dan menggunakan suatu DBMS secara efektif pula.
Penggunaan DBMS untuk suatu aplikasi tergantung pada kemampuan dan dukungan
DBMS yang beroperasi secara efisien.
Sehingga agar bisa menggunakan DBMS
dengan baik, perlu diketahui cara kerja dari DBMS tersebut.
Pendekatan yang
dilakukan untuk menggunakan DMBS secara baik, meliputi implementasi DBMS dan
arsitektur secara mendetail untuk dapat memahami desain dari suatu basis data.
1.2.
ER-MODEL
Pada ER Model, gambaran dunia nyata diistilahkan dalam obyek dan relasinya.
ER model biasa digunakan untuk mengembangkan inisial dari desain basis data. ER
model menyediakan suatu konsep yang bermanfaat yang dapat mengubah deskripsi
informal dari apa yang diinginkan oleh user menjadi hal yang lebih detail, presisi, dan
deskripsi detail tersebut dapat diimplementasikan ke dalam DBMS.
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
3
Pada konteks yang lebih luas, ER model digunakan dalam fase desain basis data
konseptual.
1.2.1. ENTITI, ATRIBUT, DAN HIMPUNAN ENTITI
Entiti adalah obyek dunia nyata yang dapat dibedakan dari obyek yang lain. Entiti
digambarkan (dalam basis data) dengan menggunakan himpunan atribut. Himpunan
entiti yang sejenis disimpan dalam himpunan entiti.
Himpunan entity : Kumpulan entity yang sejenis.
t
e
N
Gambar 1-1: Entiti Pegawai (Employee)
Misal : himpunan data pegawai
a
r
d
n
e
H
o Semua entity dalam himpunan entity memiliki himpunan atribut yang
sama
By
o Tiap himpunan entity memiliki kunci (key)
o Tiap atribut memiliki domain.
1.2.2. RELASI DAN HIMPUNAN RELASI
Relasi adalah asosiasi diantara dua atau lebih entity
Misal : Ani bekerja di Departemen Farmasi
Gambar 1-2: Relasi antar Entiti
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
4
Himpunan Relasi : Himpunan dari relasi-relasi yang sejenis
Himpunan relasi n-ary R berelasi dengan sejumlah himpunan entity n E1 … En
Himpunan entity yang sama dapat berpartisipasi dalam himpunan relasi yang berbeda,
atau mempunyai peran yang berbeda dalam suatu himpunan yang sama.
Gambar 1-3: Self Relationship
t
e
N
a
r
d
1.2.3. FITUR TAMBAHAN UNTUK ER-MODEL
n
e
H
Berikut ini dibahas beberapa fitur tambahan untuk ER-Model :
By
Batasan Kunci (Key Constraints)
•
Pada suatu contoh kasus, seorang pegawai dapat bekerja pada beberapa
departments; sebuah departement memiliki banyak pegawai
•
Sebaliknya, tiap departement hanya memiliki seorang manager, yang
berhubungan dengan key constraint pada Manages.
Gambar 1-4: Contoh Key Constraint antar Entiti
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
5
Gambar 1-5: Macam-macam Key Constraint
Batasan Partisipasi (Participation Constraints)
•
Apakah setiap departemen mempunyai seorang manager ?
o Jika semua departemen pasti mempunyai manager maka partisipasi
Departements dalam Manages dapat dikatakan total. Sebaliknya jika
tidak semua departement memiliki manager maka partisipasinya adalah
t
e
N
partial.
a
r
d
By
n
e
H
Gambar 1-6: Contoh Participation Constraint
Entiti Lemah (Weak Entity)
•
Entiti lemah dapat diidentifikasi secara unik jika terdapat peran kunci utama
(primary key) yang berasal dari atau dimiliki oleh entity yang lain (owner).
o Himpunan entity owner dan entity lemah harus berartisipasi dalam
himpunan relasi one-to-many (satu owner, banyak entity lemah).
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
6
Gambar 1-7: Contoh Weak Entity
1.2.4. HIRARKI KLAS
Seperti pada C++, dan bahasa pemrograman yang lain, suatu atribut dapat diturunkan.
Jika kita deklarasikan A ISA B, setiap entity A juga termasuk entity B.
♦ Overlap constraints : Bolehkah seorang pegawai mempunyai status sebagai
pegawai dengan hitungan gaji perjam (Hourly_Emps) sama halnya seperti
t
e
N
pegawai dengan perjanjian kontrak (Contract_Emps) ? (Boleh/Tidak)
a
r
d
♦ Covering constraints : Apakah setiap entity Employees juga merupakan entity
n
e
H
Hourly_Emps dan Contract_Emps ?
By
Gambar 1-8 : Hirarki Klas
Alasan menggunakan ISA :
♦ Untuk menambahkan deskripsi atribut yang lebih spesifik pada subclass.
♦ Untuk mengidentifikasi entity yang berpartisipasi dalam suatu relasi.
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
7
1.2.5. AGGREGASI
Aggregasi digunakan pada saat kita perlu memodelkan apa saja yang terlibat
dalam suatu himpunan relasi. Aggregasi membolehkan kita untuk memperlakukan
suatu himpunan relasi sebagai himpunan entity untuk tujuan partisipasi dalam relasi
yang lain.
Gambar berikut menunjukkan bahwa Monitors adalah relasi yang distinct dengan
deskripsi atribut. Juga dapat dikatakan bahwa tiap sponsorship dimonitor oleh seorang
pegawai.
t
e
N
a
r
d
n
e
H
By
Gambar 1-9: Contoh Aggregasi
1.3.
MODEL RELASIONAL
Basis Data Relasional adalah himpunan relasi. Suatu relasi adalah himpunan
kolom atau tupel (semua barisnya bersifat distinct/unik).
Sedangkan relasi itu sendiri terdiri dari dua bagian yaitu :
♦ Instance : table dengan baris dan kolom
#baris = kardinalitas, #kolom/fields = degree/arity
♦ Skema : menentukan nama relasi, plus nama dan tipe kolom
Contoh relasi misal :
Students(sid : string, name : string, login : string, age : integer, gpa : real).
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
8
Gambar 1-10 : Contoh Instance dari Relasi Students
Pada gambar, contoh instance dari relasi Students memiliki kardinalitas = 3, degree = 5,
semua baris bersifat distinct. (Pertanyaan : Apakah semua kolom dalam instance relasi
juga harus distinct ? )
Kekuatan utama dari model relasional adalah kesederhanaannya, dan
kelebihannya adalah dalam melakukan query atas data. Query dapat ditulis secara
t
e
N
intuitif, dan DBMS bertanggungjawab untuk mengevaluasinya secara efisien.
a
r
d
Kita dapat melakukan query pada beberapa table yang saling berelasi. Contoh
pada table berikut jika terdapat table Enrolled yang berelasi dengan table Students
n
e
H
sebelumnya dengan key field sid :
By
Kemudian diberikan query :
SELECT S.name, E.cid
FROM Students S, Enrolled E
WHERE S.sid=E.sid and E.grade=”A”
Maka table yang dihasilkan dari query tersebut adalah :
Yaitu mencari data Students (nama Students dan mata kuliah yang diikutinya) yang
mendapat nilai “A”.
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
9
1.3.1. BATASAN INTEGRITAS (INTEGRITY CONSTRAINT)
Batasan Integritas adalah suatu kondisi yang harus bernilai benar untuk suatu
instance dalam basis data, misal : batasan domain
♦ Dispesifikasi saat skema didefinisikan
♦ Diperiksa pada saat suatu relasi dimodifikasi
Instance dari relasi disebut legal jika bisa memenuhi semua batasan integritas
(integrity constraints) yang telah dispesifikasi. Batasan integritas juga digunakan untuk
menghindari kesalahan dari entry data
Berikut akan dibahas satu persatu batasan integritas dalam model relasional.
Batasan Kunci Primer (Primary Key Constraints)
Himpunan suatu fields merupakan suatu key dari suatu relasi jika :
♦ Tidak ada dua tupel yang distinct yang mempunyai nilai yang sama untuk semua
key fields, dan
t
e
N
♦ Key tersebut tidak memiliki subset.
a
r
d
o Pernyataan 2 salah ? bagaimana dengan superkey
n
e
H
o Jika terdapat lebih dari satu key untuk suatu relasi, maka salah satu dari
key tersebut akan dipilih oleh DBA untuk menjadi primary key.
By
Misal : sid adalah key untuk relasi Students. (Bagaimana dengan name),
himpunan key (sid,gpa) adalah merupakan superkey.
Primary dan Candidate Key dalam SQL :
•
Dari kemungkinan banyak candidate keys (dispesifikasi dengan menggunakan
UNIQUE), salah satunya dapat dipilih menjadi primary key.
•
Seorang Students dapat mengambil suatu course dan hanya menerima satu nilai
untuk grade dari course yang diikutinya.
Berikut contoh penggunaan batasan kunci primer :
CREATE TABLE Enrolled
( sid CHAR(20),
cid CHAR(20),
grade CHAR(2),
PRIMARY KEY (sid,cid)
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
10
CREATE TABLE Enrolled
(sid CHAR(20),
cid CHAR(20),
grade CHAR(2),
PRIMARY KEY (sid)
UNIQUE(cid,grade))
Foreign Keys
Foreign key adalah himpunan fields dalam satu relasi yang digunakan untuk
melakukan referensi ke tupel pada relasi yang lain (Harus berkorespondensi dengan
primary key pada relasi yang kedua). Berlaku seperti logical pointer
Misal sid adalah foreign key yang direfer dari relasi Students :
o Enrolled(sid : string, cid : string, grade : string)
t
e
N
Foreign Keys dalam SQL :
•
Hanya Students yang terdaftar dalam relasi Students yang diperbolehkan untuk
a
r
d
mengikuti suatu perkuliahan (course).
n
e
H
CREATE TABLE Enrolled
By
(sid CHAR(20), cid CHAR(20), grade CHAR(2),
PRIMARY KEY(sid,cid),
FOREIGN KEY(sid) REFERENCES Students)
Referential Integrity
Misal pada relasi Students dan Enrolled; sid dalam Enrolled adalah foreign key
yang mereferensi relasi Students.
Apa yang harus dilakukan jika tupel Enrolled dengan suatu data Students yang
tidak terdaftar dalam relasi Students disisipkan ? (Hindari hal ini).
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
11
Apa yang harus dilakukan jika tupel Students di-hapus ?
o Hapus juga semua tupel Enrolled yang merefer ke tupel Students yang
dihapus tersebut
o Tidak mengijinkan dilakukan penghapusan jika tupel tersebut merefer ke
tupel pada relasi yang lain (alternatif lain dari yang pertama)
o Ubah sid dalam tupel Enrolled menjadi default sid (alternatif yang lain
lagi).
o (Dalam SQL, juga dapat dilakukan setting pada tupel Enrolled yang
direfer oleh tupel Students yang dihapus tersebut dengan memberikan
nilai khusus yaitu null, yang artinya ‘tidak diketahui’ (unknown atau
inapplicable).
Sama halnya jika primary key dari tupel Students dilakukan perubahan (update).
SQL/92 mendukung pilihan berikut untuk perintah delete dan update :
t
e
N
o Default-nya adalah tidak dilakukan apa-apa (pembatalan perintah
delete/update).
a
r
d
o CASCADE (juga men-delete semua tupel yang merefer ke tupel yang didelete).
By
n
e
H
o Set nilai NULL/DEFAULT (Set nilai foreign key dari tupel yang
direferensi).
Contoh pembuatan referential integrity :
CREATE TABLE Enrolled
(sid : CHAR(20),
cid : CHAR(20),
grade : CHAR(2),
PRIMARY KEY(sid,cid),
FOREIGN KEY(sid)
REFERENCES Students
ON DELETE CASCADE
ON UPDATE SET DEFAULT)
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
1.4.
12
STRUCTURED QUERY LANGUAGE
Structured Query Language (SQL) adalah bahasa database relasional yang dibuat
berdasarkan suatu standart. Bentuk dasar dari SQL adalah sebagai berikut :
SELECT [DISTINCT] select-list
FROM from-list
WHERE qualification
Setiap query dalam SQL harus memiliki klausa SELECT, yang menentukan kolom yang
akan ditampilkan pada hasil, dan klausa FROM yang menentukan cross product table.
Klausa optional WHERE menentukan syarat-syarat seleksi pada table yang ditunjukkan
oleh FROM.
Berikut ini akan dibahas sintaksis query SQL dasar dengan lebih mendetail :
•
from list pada klausa FROM adalah daftar nama table. Nama tabel dapat diikuti
oleh nama alias; nama alias berguna ketika nama tabel yang sama muncul lebih
t
e
N
dari sekali pada from list
•
a
r
d
select-list adalah daftar nama kolom (termasuk ekspresinya) dari tabel-tabel
n
e
H
yang tercantum pada form list. Nama kolom dapat diawali dengan nama alias
dari tabel.
•
By
Kualifikasi pada klausa WHERE merupakan kombinasi boolean atau
pernyataan kata sambung logika dari kondisi yang menggunakan eksepresi yang
melibatkan operator pembanding. Sedangkan ekspresi itu sendiri dapat berupa
nama kolom, konstanta atau aritmatika dan string.
•
Kata kunci distinct bersifat pilihan yang menghapus duplikat dari hasil query.
SQL menyediakan tiga konstruksi set-manipulation yang memperluas query
dasar, yaitu UNION, INTERSECT dan EXCEPT. Juga operasi set yang lain seperti : IN
(untuk memeriksa apakah elemen telah berada pada set yang ditentukan), ANY dan
ALL (untuk membandingkan suatu nilaid engan elemen pada set tertentu), EXISTS
(untuk memeriksa apakah suatu set kosong atau isi). Operator IN dan EXISTS dapat
diawali dengan NOT.
Fitur SQL yang lain yaitu NESTED QUERY, artinya query yang memiliki query
lain di dalamnya, yang disebut dengan subquery. Nested query digunakan jika terdapat
suatu nilai yang tidak diketahui (unknown values).
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
13
SQL mendukung lima operasi aggregat yang diterapkan pada sembarang kolom
yaitu :
•
COUNT : untuk menghitung cacah
•
SUM : menghitung jumlah seluruh nilai
•
AVG : menghitung rata-rata nilai
•
MAX : mencari nilai paling besar
•
MIN : mencari nilai paling kecil.
Kadangkala operasi aggregat diperlukan pada sekeompok grup dari baris pada
relasi.
Untuk menulis query semacam itu, dibutuhkan klausa GROUP BY.
Dan
penambahan klausa HAVING jika kita ingin menerapkan suatu kondisi terhadap data
yang sudah dikelompokkan dengan GROUP BY.
1.5.
NORMALISASI
t
e
N
Normalisasi adalah perbaikan skema database. Latar belakang diperlukannya
a
r
d
normalisasi adalah karena adanya penyimpanan informasi yang redundan.
n
e
H
Istilah normalisasi berasal dari E.F. codd, salah seorang perintis teknologi basis
data. Normalisasi adalah proses untuk mengubah suatu relasi tertentu ke dalam dua buah
relasi atau lebih.
By
Berikut ini akan dijelaskan proses Normalisasi sampai dengan bentuk normal
ketiga.
Bentuk Normal Pertama (1NF)
Suatu relasi dikatakan dalam bentuk normal pertama jika dan hanya jika setiap atribut
bernilai
tunggal
untuk
setiap
atribut
bernilai
contoh:
Tabel 1. sebelum bentuk normal pertama
NIP
Nama
Hoby
10113024
Endang C Permana Olahraga
Baca Buku
10113025
Samsul
Dengar Musik
Makan
Table 2. yang sudah dalam bentuk normal pertama
tunggal
untuk
setiap
baris
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
14
NIP (Primary Key)
Nama
Hoby
10113024
Endang C Permana
Olahraga
10113024
Endang C Permana
Baca Buku
10113025
Samsul
Dengar Musik
10113025
Samsul
Makan
Bentuk Normal Kedua (2NF)
Suatu relasi dikatakan dalam bentuk normal kedua jika berada dalam normal pertama
dan setiap atribut bukan kunci memiliki ketergantungan sepenuhnya terhadap kunci
primer
contoh:
Tabel 3. sebelum bentuk normal kedua
NIP (Primary Key)
Nama
10113024
Endang C Permana 001
10113024
Endang C Permana 002
10113025
Samsul
10113025
Samsul
By
Kd_Mata_kuliah Nilai
a
r
d
en
H
t
e
N
100
004
60
Kd_Mata_kuliah
(Primary Key)
Nilai
10113024
001
70
10113024
002
90
10113025
003
100
10113025
004
60
Table 5.
NIP (Primary Key)
Nama
10113024
Endang C Permana
10113025
Samsul
Bentuk Normal Ketiga (3NF)
90
003
Table 4. yang sudah dalam bentuk normal kedua
NIP (Primary Key)
70
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
15
Suatu relasi dikatakan dalam bentuk normal ketiga jika berada dalam normal kedua dan
setiap atribut bukan kunci tidak memiliki ketergantungan transitif terhadap kunci primer
contoh:
Tabel 6. sebelum bentuk normal ketiga
Kode_proyek Nama
Alamat_kota
001
Endang C Permana Bandung
002
Endang C Permana Ebandung
003
Samsul
Jakarta
004
Samsul
Jakarta
Table 7. yang sudah dalam bentuk normal ketiga
Kode_Proyek
Nama
001
Endang C Permana
002
Endang C Permana
003
Samsul
004
Samsul
Table 8.
Nama
Endang C Permana
Samsul
By
t
e
N
a
r
d
n
e
H
Alamat_kota
Bandung
jakarta
RINGKASAN:
•
Basis data adalah kumpulan data, yang dapat digambarkan sebagai aktifitas dari
satu atau lebih organisasi yang berelasi.
•
Manajemen Sistem Basis Data (Database Management System – DBMS) adalah
perangkat lunak yang didesain untuk membantu dalam hal pemeliharaan dan
utilitas kumpulan data dalam jumlah besar.
•
Pada ER Model, gambaran dunia nyata diistilahkan dalam obyek dan relasinya dan
digunakan untuk mengembangkan inisial dari desain basis data.
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
•
16
Kelebihan dari model relasional adalah kesederhanaannya dalam melakukan query
atas data. Query dapat ditulis secara intuitif, dan DBMS bertanggungjawab untuk
mengevaluasinya secara efisien.
•
Batasan Integritas adalah suatu kondisi yang harus bernilai benar untuk suatu
instance dalam basis data
•
Structured Query Language (SQL) adalah bahasa database relasional yang dibuat
berdasarkan suatu standart, dan memiliki bentuk dasar :
SELECT [DISTINCT] select-list
FROM from-list
WHERE qualification
•
Normalisasi adalah perbaikan skema database yang dibuat dengan tujuan untuk
menghindari penyimpanan informasi yang redundan.
t
e
N
LATIHAN SOAL :
a
r
d
n
e
H
1. Gambarlah sebuah diagram ER yang mengungkapkan informasi ini.
Perusahaan rekaman Notown memutuskan untuk menyimpan semua informasi
By
mengenai musisi yang mengerjakan albumnya (seperti halnya data perusahaan lain)
dalam sebuah database. Pihak perusahaan menyewa anda sebagai desainer database
(dengan biaya konsultasi sebesar $2.500 / hari).
•
Tiap musisi yang melakukan rekaman di Notown mempunyai SSN, nama,
alamat dan nomer telpon.
Para musisi yang dibayar lebih rendah akan
mendapatkan alamat yang sama dengan musisi lain, dan satu alamat mempunyai
satu nomer telpon.
•
Tiap instrumen yang digunakan untuk merekam berbagai macam lagu di
Notown mempunyai nama (contoh : gitar, sinthesizer, flute) dan kunci musik
(contoh : C, B-flat, E-flat).
•
Tiap album yang dicatata di Notown mempunyai judul rekaman, tanggal
copyright, format (contoh : CD atau MC) DAN SEBUAH INDENTIFIKASI
ALBUM.
http://www.hendra-jatnika.web.id
BAB 1 REVIEW DATABASE 1
17
•
Tiap lagu yang di catat di Notown mempunyai judul dan pengarang lagu
•
Tiap musisi mungkin memainkan beberapa instrumen, dan tiap instrumen dapat
dimainkan oleh beberapa musisi
•
Tiap album mempunyai beberapa lagu di dalamnya tapi tidak ada lagu yang
muncul bersamaan dalam satu album.
•
Tiap lagu dibawakan oleh satu atau lebih musisi dan seorang musisi bisa
membawakan beberapa lagu.
•
Tiap album dibawakan seorang musisi yang berperan sebagai produser.
Seorang musisi bisa menghasilkan beberapa album.
2. Perhatikan skema relasional berikut ini :
Emp(eid:integer, ename : string, age : integer, salary: real)
t
e
N
Works(eid:integer, did:integer, pct_time: integer)
a
r
d
Dept(did:integer, dname: string, budget: real, managerid: integer)
n
e
H
Berikan contoh constraint foreign key yang melibatkan relasi Dept. Apa saja pilihan
yang ada untuk melaksanakan constraint ini pada saat user berusaha untuk menghapus
record pada Dept ?
By
3. Untuk skema relasional pada nomer 2, definisikan relasi Dept pada SQL sehingga
setiap department dipastikan memiliki seorang manajer.
4. Untuk skema relasional pada nomer 2, tuliskan pernyataan SQL untuk menampilkan
karyawan yang bekerja di department ‘IT’.
5. Untuk skema relasional pada nomer 2, tuliskan pernyataan SQL untuk menampilkan
karyawan yang bekerja di department ‘IT’ dan memiliki usia yang lebih dari usia
rata-rata orang-orang yang bekerja di department ‘IT’
6. Lakukan normalisasi data pada tabel Kuliah yang memiliki atribut : kode kuliah,
nama kuliah, sks, semester, nama dosen, waktu kuliah, ruang.
http://www.hendra-jatnika.web.id
Bab 2
Desain Basis Data
POKOK BAHASAN:
Pendahuluan
Aturan Sistem Informasi dalam Organisasi
Proses Desain Basis Data
t
e
N
TUJUAN BELAJAR:
a
r
d
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami aturan system informasi dalam organisasi
Memahami proses desain basis data
By
n
e
H
2.1 PENDAHULUAN
Aktifitas desain basis data menggunakan proses yang sistematis yang disebut
metodologi desain, dimana target basis data diatur dengan RDBMS, ORDBMS atau
ODBMS.
Metodologi desain menggunakan alat Bantu seperti Designer 2000 dari
Oracle, ERWin, BPWin dan Paradigm Plus oleh Platinum Technology dan lain
sebagainya.
Biasanya, desain basis data kecil sekitar 20 pemakai tidak perlu sangan
kompleks. Tetapi untuk ukuran medium atau basis data besar yang melayani beberapa
grup alikasi yang luas, puluhan sampai ratusan pemakain, pendekatan sistematis
menjadi sangat perlu untuk melakukan desain basis data.
18
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
19
Basis data yang besar dengan data beberapa puluh sampai gigabyte dan skema
dengan lebih dari 30 sampai 40 tipe entity yang berbeda, dapat memenuhi array yang
besar dari basis data pemerintahan, industri dan institusi financial dan komersial. Sektor
industri termasuk di dalamnya bank, hotel, airline, asuransi, utilitas dan komunikasi
menggunakan basis data untuk operasi setiap hari 24 jam, 7 hari per minggu atau
operasi 24 kali 7. Sistem aplikasi untuk basis data tersebut disebut system pemrosesan
transaksi untuk volume transaksi besar.
2.2 ATURAN SISTEM INFORMASI DALAM ORGANISASI
2.2.1
Organizational Context untuk Penggunaan Sistem Basis Data
Sistem basis data menjadi bagian dari sistem informasi dari beberapa organisasi.
t
e
N
Tahun 1960 an sistem informasi didominasi dengan sistem file, tetapi sejak awal 1970
a
r
d
an organisasi mulai berpindah ke sistem basis data. Untuk mengakomodasi sistem,
beberapa organisasi menbuat posisi administrator basisi data (DBA) auntuk mengontrol
aktifitas basis data.
n
e
H
Kemudian, information resource management (IRM) juga
By
diperkenalkan oleh organisasi yang besar sebagai kunci kesuksesan manajemen bisnis.
Terdapat beberapa alasan :
•
Data dianggap sebagai resource yang bekerjasama, dan manajemen dan kontrol
dilakukan terpusan untuk pekerjaan yang lebih efisien dalam organisasi
•
Fungsi dalam organisasi dikomputerisasi, sebagai kebutuhan ketersediaan data yang
besar dan up to date.
•
Seiring pertumbuhan data dan aplikasi relasi yang lebih kompleks dari data perlu
dimodelkan dan diatur.
•
Terdapat konsolidasi dari information resource pada beberapa organisasi.
Sistem basis data memenuhi 4 kebutuhan seperti dijelaskan sebelumnya dalam
ukuran besar. Dua karakteristik tambahan dari sistem basis data yang juga sangat
bernilai :
•
Data independence mem-proteksi program aplikasi dari perubahan dalam organisasi
logika dan akses fisik dan struktur penyimpan.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
•
20
External shemas (views) memungkinkan data yang sama digunakan untuk beberapa
aplikasi dengan setiap aplikasi mempunyai pandangan sendiri terhadap data.
Sistem basis data menyediakan aplikasi baru yaitu :
•
Integritas data pada multiple aplikasi ke dalam basis data tunggal.
•
Pengembangan yang simple dengan menggunakan bahasa tingkat tinggi seperti
SQL.
•
Kemungkinan didukung untuk browsing dan query oleh manajer dalam pemrosesan
transaksi level produksi yang besar.
Sejak awal 1970 sampai pertengahan 1980, perubahan pembuatan data
repository tersentral yang besar dengan DBMS tunggal tersentral. Selama 10 sampai 15
tahun, pengembangan basis data meliputi :
1.
Personal computer dan produk software seperti basis data, seperti EXCEL,
FOXPRO, MSSQL, ACCESS atau SQL
2.
DBMS
terdistribusi
dan
t
e
N
client-server
a
r
d
sebagai
pembuka
pilihan
mendistribusikan basis data ke banyak sistem komputer untuk kontrol yang
lebih baik dan proses lokal yang lebih cepat.
en
Alat bantu pengembangan
H
aplikasi seperti POWERBUILDER atau Developer 2000 (oleh Oracle) lebih
By
mudah digunakan dengan fasilitas built-in untuk menghubungkan aplikasi ke
server basis data.
3.
Beberapa organisasi sekarang menggunakan sistem data dictionary atau
information repository, yaitu DBMS min yang mengatur metadata yaitu data
yang menggambarkan struktur basis data, constraints, aplikasi, autorisasi dan
sebagainya.
Sistem data dictionary menyimpan dan mengatur informasi
berikut :
a. Deskripsi skema sistem basis data.
b. Informasi detail dari desain fisik basis data, seperti struktur penyimpan,
akses path, ukuran file dan record.
c. Deskripsi pemakai basis data, tanggung jawab dan hak akses.
d. Deskripsi tingkat tinggi dari transaksi basis data dan aplikasi dan relasi
pemakai ke transaksi.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
21
e. Relasi antara transaksi basis data dan data item yang dirujuk. Hal ini
sangat berguna untuk menentukan transaksi mana yang diakibatkan jika
definisi data diubah
f. Penggunakan stasitik seperti frekuensi query dan transaksi dan jumlah
akses ke basis data
2.2.2
Siklus Sistem Informasi
Pada organisasi yang besar, sistem basis data adalah baigan dari sistem
informasi, di dalamnya termasi semua resource yang dilibatkan dalam koleksi,
manajemen, penggunaan dan disseminasi information resource dari organisasi. Pada
sistem komputerisasi, resoruce adalah data itu sendiri, perangkat lunak DBMS,
perangkat keras komputer siste, media penyimpan, personal yang menggunakan dan
mengatur data (DBA, pemakai akhir, dan pemakai dsb), perangkat lunak aplikasi yang
t
e
N
mengakses dan mengubah data dan programmer aplikasi yang mengembangkan
aplikasi.
a
r
d
Siklus sistem informasi disebut siklus makro, dimana siklus sistem basis data
n
e
H
dirujuk ke siklus mikro. Siklus makro meliputi beberapa tahap yaitu :
1.
By
Feasibility analysis : tahap ini berhubungan dengan analisa area aplikasi
potensial, mengidentifikasi sisi ekonomi dari information gathering and
dissemination, membentuk studi keuntungan awal, menentukan kompleksitas
data dan proses, mengatur prioritas aplikasi.
2.
Requirement collection and analysis : Kebutuhan detai dikumpulkan dengan
interaksi
dengan
pemakai
potensial
dan
kelompok
mengidentifikasi permasalahan dan kebutuhan khusus.
pemakai
untuk
Ketergantungan
aplikasi, komunikasi dan prosedur pelaporan diindetifikasi.
3.
Desain : Tahanp ini mempunayi dua aspek yaitu mendesain sistem basis data
dan mendesain sistem aplikasi (program) yang menggunkaan dan memproses
basis data.
4.
Implementasi : Sistem informasi diimplementasi, basisi data dibentuk dan
transaksi basis data diimplementasikan dan diujicoba.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
5.
22
Validation and acceptance testing : Tingkat akses dari sistem dalam memenuhi
kebutuhan pemakai dan kriteria performansi divalidasi.
Sistem diujicoba
dengan kriteria performanisi dan spesifikasi kelakukan.
6.
Deployment, operation and maintenance : Pada tahap ini dilakukan konversi
pemakai dari sistem lama ke sistem baru melalui training. Tahap operasional
mulai jika semua fungsi sistem dioperasikan dan divalidasi. Jika kebutuhan
baru atau aplikasi bertambah, maka harus melalui semua tahap sebelumnya
sampai semua divalidasi dan berhubungan dengan sistem.
Monitoring
performansi sistem dan pemeliharaan sistem merupakan aktifitas yang penting
selama tahap operasi.
2.2.3
Siklus Sistem Aplikasi Basis Data
Aktifitas yang berhubungan dengan siklus sistem aplikasi basis data meliputi
t
e
N
tahap berikut :
1.
System definition :
didefinisikan.
Scope dari sistem basis data, pemakai dan aplikasi
a
r
d
Antarmuka untuk pemakai, batasan response time dan
n
e
H
kebutuhan penyimpan dan pemrosesan diidentifikasi.
2.
By
Database design : Pada akhir dari tahap ini , desain logika dan fisik dari sistem
basisi data dari DBMS sudah siap.
3.
Database implementation : Tahap ini meliputi proses menentukan definisi basis
data konseptual, eksternal dan internal, membuat file basis data kosong dan
implementasi aplikasi perangkat lunak.
4.
Loading or data conversion : Basis data dipopulasikan denan menyimpan data
langsung atau mengubah file yang sudah ada ke format sistem basis data.
5.
Application conversion : aplikasi perangkat lunak dari sistem pendahulu
dikonversikan ke sistem baru.
6.
Testing and validation : sistem baru diuji coba dan divalidasi
7.
Operation : sistem basis data dan aplikasi dioperasikan. Biasanya sistem lama
dan baru dioperasikan secara paralel dalam beberapa waktu.
8.
Monitoring and maintenance : selama tahap operasional, sistem secara tetap
dimonitor dan dipelihara. Perubahan dan pengembangan dapat terjadi baik
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
23
pada isi data maupun aplikasi perangkat lunak. Modifikasi dan reorganisasi
diperlukan dari waktu ke waktu.
2.3 PROSES DESAIN BASIS DATA
Sekarang kita fokuskan ke siklus sistem aplikasi basisi data yaitu desain basis
data. Tujuan desain basis data adalah :
•
Memenuhi kebutuhan isi informasi dari pemakai dan aplikasi tertentu.
•
Menyediakan struktur informasi alami dan mudah dipahami.
•
Mendukung kebutuhan pemrosesan dan performansi obyektif seperti response
time, processing time dan storage space.
Terdapat enam tahap utama pada proses desain basis ata yaitu :
t
e
N
1. Koleksi dan analisa kebutuhan
2. Desain basis data konseptual
3. Pemilihan DBMS
a
r
d
n
e
H
4. Pemetaan model data (disebut juga desain basis data logika)
By
5. Desain basis data fisik.
6. Implementasi dan tuning sistem basis data
Proses desain terdiri dari dua aktifitas paralel seperti pada Gambar 2-1. Aktifitas
pertama meliputi desain data content dan struktur basis data, kedua berhubungan dengan
aplikasi basis data.
Enam tahap diatas tidak diproses secara berurutan.
Pada beberapa kasus
mungkin memodifikasi desain dari awal tahap selama tahap kemudian. Feedback loop
antar tahap juga dalam tahap sering terjadi. Summary tahap 2, 4, dan 5 adalah berikut :
•
Desain basis data konseptual (Tahap 2) : Tujuan dari tahap ini adalah
memproduksi skema konseptual untuk basis data yang independen dari DBMS
tertentu. Biasanya menggunakan model data tingkat tinggi seperti model ER
atau EER.
•
Pemetaan model data (Tahap 4) : Selama tahap ini yang djuga disebut desain
basis data logika, dilkaukan pemetaan skema konseptual dari model data tingkat
tinggi ke model data DBMS.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
•
24
Desain basis data fisik (Tahap 5) : Selama tahap ini, didesain spesifikasi basis
data yang disimpat dalam hal struktur penyimpan fisik, penempatan record dan
indeks. Hal ini berhugungan dengan terminologi arsitektur DBMS 3 level.
•
Implementasi sistem basis data dan tuning (Tahap 6) : Selama tahap ini , basis
data dan program aplikasi diimplementasikan, diuji cobakan dan diatur
layanannya.
t
e
N
a
r
d
By
n
e
H
Gambar 2-1: Tahap perancangan basis data untuk basis data besar
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
2.3.1
25
Tahap 1 : Koleksi dan Analisa Kebutuhan
Sebelum melakukan desain basis data, harus mengetahui dan menganalisa
keinginan pemakai terhadap suatu basis data sedetail mungkin. Proses ini disebut
koleksi dan analisa kebutuhan.
Untuk menentukan kebutuhan, pertama kali harus
diidentifikasi bagian lain dari sistem informasi yang berhubungan dengan sistem basisi
data. Termasuk di dalamnya pemakai dan aplikasi baru dan yang sudah ada, kemudian
kebutuhan dikoleksi dan dianalisa. Aktifitas yang merupakan bagian dari tahap ini
adalah :
1. Area aplikasi mayor dan kelompok pemakai yang akan menggunakan basis data
atau pekerjaan apa yang akan diakibatkan diidentifikasi.
2. Dokumen yang sudah ada yang berhubungan dengan aplikasi dipelajari dan
dianalisa.
Dokumen lain seperti police manual, form, report dan diagram
t
e
N
organisasi di-review untuk menentukan apakah terdapat tambahan pada koleksi
kebutuhan dan spesifikasi proses.
a
r
d
3. Lingkungan operasi saat ini dan rencana penggunaan informasi dipelajari.
n
e
H
Termasuk di dalamnya analisa tipe transaksi dan frekuensi penggunaannya dan
By
aliran informasi dalam sistem. Karakteristik geografi seperti pemakai, transaksi
asli, tujuan pelaporan dipelajari.
Data input dan output untuk transaksi
ditentukan.
4. Penulisan respon untuk menentukan pertanyaan terkadang dikelompokkan dari
pemakai basis data potensial atau kelompok pemakai. Pertanyaan ini melibatkan
prioritas pemakai dan tempat yang penting untuk suatu aplikasi.
Individu
dilakukan interview untuk menolong dalam memperoleh informasi yang
berharga dan setting prioritas.
Analisa kebutuhan dibawa ke user akhir atau pelanggan sistem basis data oleh
tim ahli analis kebutuhan.
Kebutuhan awal lebih informal, tidak lengkap, tidak
konsisten dan sebagian tidak benar.
Perlu pekerjaan yang lebih banyak untuk
mentransformasi keebutuhan awal ke aplikasi yang lebih spesifik yang dapat digunakan
oleh pengembangan sebagai langkah awal untuk menulis implementasi dan uji coba.
Untuk transformasi kebutuhan ke struktur yang lebih baik, teknik spesifikasi
kebutuhan digunakan. Misalnya OOA (object-oriented analysis) dan DFD (data flow
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
26
diagram). Metode tersebut menggunakan teknik diagram untuk mengorganisasi dan
menampilkan kebutuhan proses informasi. Dokumentasi tambahan dalam bentuk teks,
tabel, grafik dan keputusan melengkapi diagram tersebut.
2.3.2
Tahap 2 : Desain Basis Data Konseptual
Tahap kedua dari perancangan basis data melibatkan dua aktifitas paralel.
Aktifitas pertama yaitu desain skema konseptual, menentukan kebutuhan data yang
dihasilkan pada tahap 1 dan menghasilkan skema basis data konseptual. Aktifitas
kedua, desain transaksi dan aplikasi, menentukan analisa aplikasi basis data pada tahap
1 dan menghasilkan spesifikasi level tinggi untuk aplikasi tersebut.
Tahap 2a : Desain Skema Konseptual
Skema konseptual diproduksi dari tahap ini terdiri dari model data tingkat
t
e
N
tinggi DBMS-independent dengan beberapa alasan :
1. Tujuan desain skema konseptual adalah skema lengkap tentang struktur basis
a
r
d
data, semantik, interrelationship dan constraint. Hal ini tergantung dari DBMS
yang digunakan.
By
n
e
H
2. Skema konseptual tidak tersedia sebagai deskripsi stabil dari isi basis data.
Pemilihan DBMS dan keputusan desain dapat berubah tanpa mengubah skema
konseptual DBMS-independent.
3. Skema konseptual yang baik sangat penting untuk pemakai basis data dan
desainer. Penggunaan model data tingkat tingga lebih ekspresif dan umum
daripada model data dari DBMS.
4. Deskripsi diagram dari skema konseptual dapat menawarkan kendaraan
komunikasi yang baik diantara pemakai basis data, desainer dan analyst. Karena
model data level tinggi biasanya berbentuk konsep dan mudah untuk mengerti
daripada model data DBMS yang level lebih rendah, atau definisi sintak data,
komunikasi yang berhubungan dengan desain skema menjadi lebih kelihatan.
Pada tahap desain basis data, perlu menggunakan model data konseptual level
tinggi dengan karakteristik :
1. Expressiveness : model data cukup ekspresif untuk membedakan perbedaan tipe
data, relationship dan constraint.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
27
2. Simplicity and understandability : model cukup sederhana untuk pemakai yang
tidak mengerti dan menggunakan konsep tersebut.
3. Minimality : model mempunyai sejumlah kecil konsep dasar yang berbeda dan
tidak overlapping.
4. Diagrammatic representation : model dalam bentuk notasi diagram untuk
menampilkan skema konseptual yang mudah diintepretasikan.
5. Formality : skema konseptual ditampilkan dalam model data aharus
merepesentasikan spesifikasi formal data.
Sehingga, konsep model harus
ditentukan secara akurat dan tidak berganda.
Pendekatan ke Desain Skema Konseptual
Untuk desain skema konseptual, harus diidentifikasi komponen dasar dari skema
: tipe entiti, tipe relationship dan atribut.
Harus juga menentukan key attributes,
t
e
N
cardinality dan participation constraint, weak entity dan hierarki spesification /
generatization. Terdapat dua pendekatan untuk merancang skema konseptual, yang
diturunkan dari kebutuhan yang dikoleksi.
a
r
d
n
e
H
Pendekatan pertama adalah pendekatan desain skema terpusat (one-shot),
By
dimana kebutuhan dari aplikasi yang berbeda dan kelompok pemakai pada tahap 1
digabungkan ke dalam satu himpunan kebutuhan sebelum desain skema dimulai. Suatu
skema berhubungan digabungkan ke himpunan kebutuhan kemudian dilakukan desain.
Jika terdapat banyak pemakai dan banyak aplikasi, penggabungan semua kebutuhan
dapat menghabiskan waktu. Asumsikan DBA bertanggung jawab untuk menentukan
bagaimana menggabungkan kebutuhan dan untuk merancang skema konseptual untuk
keseluruhan basis data.
Jika suatu skema konseptual dirancang dan final, skema
eksternal untuk kelompok pemakai dan aplikasi dapat ditentukan oleh DBA
Pendekatan kedua adalah pendekatan view integration, dimana kebutuhan tidak
digabungkan.
Suatu skema dirancang untuk setiap kelompok user atau aplikasi
berdasarkan kebutuhan masing-masing. Kemudian dikembangkan skema level tinggin
(view) untuk setiap kelompok user atau aplikasi. Selama tahap view integration, skema
bagian digabungkan ke dalam skema konseptual global untuk keseluruhan basis data.
Individual view dapat dibentuk sebagai skema eksternal setelah view integration.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
28
Perbedaan kedua pendekatan terletak pada tujuan dimana banyak view atau
kebutuhan dari banyak pemakai dan aplikasi digabungkan. Pada pendekatan terpusat,
rekonsiliasi dilakukan secara manual oleh DBA. Hal ini dapat mengakibatkan terjadi
konflik pada staff DBA. Permasalahan ini dipecahkan dengan menggunakan konsultan
luar.
Pada pendekatan view integration, setiap kelompok pemakai merancang skema
konseptual (EER) masing-masing. Kemudian proses integrasi diaplikasikan pada skema
ini (view) oleh DBA untuk membentuk skema integrasi global.
Meskipun view
integration dapat dilakukan manual, aplikasi ini adalah basis data besar yang melibatkan
puluhan kelompok pemakai membutuhkan suatu metodologi dan penggunaan alat bantu
otomatis untuk integrasi. Korespondensi antara atribut, tipe entiti dan relasionship
harus ditentukan sebelum integrasi dapat dilakukan.
t
e
N
Strategi untuk Desain Skema
Terdapat beberapa stategi untuk merancang skema, yaitu :
a
r
d
1. Top-down strategy : Dimulai dengan skema yang berisi abstraksi level tinggi
n
e
H
dan kemudian mengaplikasikan ketentuan top-down. Sebagai contoh, tentukan
By
hanya beberapa tipe entiti level tinggi dan kemudian lakukan pembagian ke
dalam tipe entiti level lebih rendah dan relationship.
2. Bottom-up strategy : Mulai dengan skema yang berisi abstraksi dasar dan
kemudian kombinasikan atau tambahkan abstraksi tersebut. Sebagai contoh,
mulai dengan atribut dan kelompok ke dalam tipe entiti dan relationship.
Tambahkan relasi baru pada tipe entiti selama proses perancangan.
3. Inside-out strategy : Merupakan kasus khusus dari bottom-up strategi, dimana
atensi difokuskan pada himpunan konsep terpusat yang lebih nyata. Model
kemudian diisi dengan konsep baru pada konsep yang sudah ada. Kita dapat
tentukan beberapa tipe entiti nyata dalam skema dan dilanjutkan dengan
menambah tipe entiti dan relasi yang berhubungan.
4. Mixed strategy : Kebutuhan dibagi berdasarkan top-down strategy, bagian
skema dirancang untuk setiap partisi berdasarkan bottom-up strategy.
strategi ini mengkombinasikan beberapa skema.
Jadi
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
29
t
e
N
a
r
d
By
n
e
H
Gambar 2-2: Strategi top-down. (a) membangkitkan tipe entiti baru.
(b) dekomposisi tipe entiti ke dalam dua tipe entiti dan relasi
Gambar 2-2 dan 2-3 menggambarkan top-down strategy dan bottom-up strategy.
Contoh top-down didekomposisi dari tipe entiti ke dalam beberapa tipe entiti. Gambar
2-2(a) menunjukkan COURSE dibagi dalam COURSE dan SEMINAR, dan relasi
TEACHES dihubungkan terpisah dalam TEACHES dan OFFERS.
Gambar 2-2(b)
terlihat tipe entiti COURSE_OFFERING dibagi dalam dua tipe entiti COURSE dan
INSTRUCTOR dan relasi antar keduanya. Gambar 2-3(a) memperlihatkan bottom-up
strategy dari generalisasi relasi baru diantara tipe entiti.
Bottom-up menggunakan
kategory (tipe union) yang diilustrasikan pada Gambar 2-3(b) dimana konsep baru
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
30
VEHICLE_OWNER ditemukan dari tipe entiti yang sudah ada yaitu FACULTY,
STAFF dan STUDENT.
t
e
N
a
r
d
By
n
e
H
Gambar 2-3: Contoh strategi bottom-up. (a) menemukan dan menambah relasi
baru. (b) menemukan katagori baru (tipe union) dan menghubungkannya.
Skema Integrasi (View)
Untuk basis data yang besar dengan pemakai dan aplikasi yang diharapkan,
pendekatan view integration untuk merancang skema individan dan kemudian
menggabungkannya. Karena individual view relatif kecil, perancangan skema lebih
sederhana. Tetapi diperlukan metodologi untuk integrasi view ke skema basis data
global. Skema integrasi dibagi ke dalam beberapa bagian :
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
31
1. Indentifikasi korespondensi dan konflik diantara skema : Karena skema
dirancang individual, perlu menentukan konstruksi khusus dalam skema yang
merepresentasikan konsep dunia nyata yang sama. Korespondensi diidentifikasi
sebelum integrasi diproses.
Selama proses tersebut, beberapa tipe konflik
diantara skema ditemukan, antara lain :
a. Naming conflict : Terdapat dua tipe synonym dan homonym. Synonym
terjadi jika dua skema menggunakan nama
yang berbeda dan
menggambarkan konsep yang sama, misalnya, tipe entiti CUSTOMER
pada satu skema mungkin digunakan sama dengan konsep tipe entiti
CLIENT pada skema lain.
Homonym terjadi jika dua skema
menggunakan nama yang sama untuk enggambarkan konsep yang
berbeda, sebagai contoh tipe entiti PART merepresentasikan perangkat
komputer dalam skema satu dan perangkat mebel dalam skema dua.
t
e
N
b. Type conflicts : Konsep yang sama kemungkinan direpresentasikan
dalam dua skema dengan konstruksi pemodelan yang berbeda. Sebagai
a
r
d
contoh, konsep DEPARTMENT mungkin tipe entiti dalam skema satu
n
e
H
dan atribut dalam skema lain.
By
a. Domain (value set) confict : Suatu atribut berbeda domain dalam dua
skema.
Sebagai contoh, SSN dideklarasikan sebagai integer dalam
skema satu dan karakter string dalam skema lain.
Konflik unit
pengukuran dapa terjadi jika satu skema merepresentasikan WEIGHT
dalam pon dan lainnya dalam kilogram.
b. Konflik diantara constraint : Dua skema mungkin mempunyai constrain
berbeda, sebagai contoh, key pada tipe entiti mungkin berbeda setiap
skema. Contoh lain melibatkan constraint terstruktur yang berbeda pada
relasi seperti TEACHES; satu skema mungkin direpresentasikan 1:N
sementara lainnya M:N.
2. Modifikasi view untuk kesesuaian dengan lainnya : satu skema dimodifikasi
sehigga sesuai dengan skema lainnya. Beerapa konflik diidentifikasi sebagai hal
perama yang harus dipecahkan.
3. Menggabungkan view : Skema global dibuat dengan menggabungkan skema
individu.
Konsep yang berhubungan direpresaentasikan hanya sekali dalam
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
32
skema global dan pemetaan antara view dan skema global ditentukan. Hal ini
merupakan langkah yang sulit untuk melakukan pada basis data
sebenarnya yang melibatkan ratusan entiti dan relasi.
yang
Hal ini melibatkan
sejumlah intervensi manusia dan negosiasi untuk memecahkan konflig dan
mendapatkan solusi yang dapat diterima untuk skema global.
4. Restrukturisasi : sebagai langkah akhir, skema global dianalisa dan
direstrukturisasi untuk memindahkan redundansi dan konpleksitas yang tidak
perlu.
Beberapa ide diatas dapat dilihat pada contoh sederhana Gambar 2-4 dan 2-5.
Gambar 2-4, dua view digabungkan untuk membuat basis data bibliografi. Selama
identifikasi dari korespondensi antara dua view, ditemukan RESEARCHER dan
AUTHOR adalah synonym, demikian juga CONTRIBUTED_BY dan WRITTEN_BY.
t
e
N
Kemudian, menentukan modifikasi VIEW 1 untuk memasukan SUBJECT untuk
ARTICLE, seperti Gambar 2-4, untuk konfirmasi ke VIEW 2.
ra
Gambar 2-5
d
n
e
menunjukkan hasil penggabungan sebagai MODIFIED VIEW 1 dengan VIEW 2.
Generalisasi tipe entiti ARTICLE dan BOOK ke dalam tipe entiti PUBLICATION,
By
dengan atribut umum Title.
H
Relasi CONTRIBUTED_BY dan WRITTEN_BY
digabungkan, demikian juga tipe entiti RESEARCHER dan AUTHOR.
Atribut
Publisher diaplikasikan hanya pada tipe entiti BOOK dimana atribut Size dan relasi tipe
PUBLISHED_IN diaplikasikan hanya ke ARTICLE.
Tahap 2b : Desain Transaksi
Tujuan dari tahap 2b, dimana proses dilakukan paralel dengan tahap 2°, untuk
mendesain karaktersitik transaksi basis data yang diketahui (aplikasi) dengan cara
DBMS-independent. Jika suatu sistem basis data dirancang, perancang sadar beberapa
aplikasi yang diketahui (atau transaksi) yang akan dijalankan dalam basis data
diimplementasikan. Bagian terpenting dari perancangan basis data adalah menentukan
karakteristik fungsi transaksi tersebut sebelumnya dalam proses perancangan. Hal ini
menjamin skema basis data akan memasukan semua informasi yang dibutuhkan oleh
transaksi tersebut.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
33
t
e
N
a
r
d
By
n
e
H
Gambar 2-4: Modifikasi view untuk konfirmasi sebelum integrasi.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
34
Gambar 2-5: Skema terintegrasi setelah menggabungkan view 1 dan view 2.
Teknik yang umum digunakan untuk menentukan transaksi pada level konseptual
t
e
N
adalah mengidentifikasi input/output dan functional behavior. Dengan menentukan
a
r
d
parameter input dan ouput dan aliran fungsi internal, desainer dapat mennetukan
transaksi secara konseptual dan dengan cara system-independent.
en
Transaksi
H
dikelompokkan dalam tiga kategori :
By
(1) Retrieval transaction, yang digunakan untuk menampilkan data ke layar atau untuk
produksi pelaporan.
(2) Update transaction, yang digunakan untuk memasukkan data baru atau
memodifikasi data yang sudah ada pada basis data.
(3) Mixed transaction, yaitu digunakan untuk aplikasi yang komplek yang melakukan
retrieval dan update. Sebagai contoh, misalnya basis data pemesanan tiket pesawat
(airline reservation). Retrieve transaction menampilkan daftar semua pesawat pagi
antara dua kota.
Update transaction berupa booking tempat duduk pada jalur
tertentu. Mixed transaksi pada penampilan beberapa data seperti menampikan
reservasi pelanggan pada beberapa penerbangan, dan kemudian mengubah basis
data seperti membatalkan reservasi dengan menghapusnya, atau menambah segmen
penerbangan untuk reservasi yang sudah ada.
Transaksi (aplikasi) dapat
menggunakan POWER BUILDER atau Developer 2000 (Oracle).
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
2.3.3
35
Tahap 3 : Pemilihan DBMS
Pemilihan DBMS berdasarkan beberapa faktor, beberapa hal teknis, ekonomi dan
kebijakan organisasi. Faktor teknis berhubungan dengan ketepatan DBMS yang dipilih.
Yang termasuk faktor teknis adalah tipe DBMS (relational, object-relational, object,
lainnya), struktur penyimpan dan akses path yang didukung DBMS, ketersediaan antar
muka pemakai dan pemrogram, tipe bahasa query tingkat tinggi, ketersediaan alat bantu
pengembangan, kemampuan berhubungan dengan DBMS lain melalui media standatd,
pilihan arsitektur yang berhubungan dengan operator client-server dan lain sebagainya.
Faktor non teknis termasuk di dalamnya status finansial dan dukungan organisasi
terhadap vendor.
Hal-hal yang harus dipertimbangkan secara ekonomi dan faktor
organisasi adalah ;
1. Software acquisiton cost : Merupakan harga ”up-front” dalam pembelian perangakt
lunak, termasuk pilihan bahasa, pilihan antar muka seperti form, menu dan antar
t
e
N
muka Web berbasis GUI, pilihan recovery/backup, metode akses khusu dan
dokumentasi.
Versi DBMS yang tepat untuk sistem operasi harus dipilih
a
r
d
Biasanya, alat bantu pengembangan, alat bantu desain dan dukungan bahasa
n
e
H
tambahan tidak termasuk dalam harga dasar.
By
2. Maintenance cost : Berhubungan dengan harga layanan pemeliharaan standart dari
vendor dan untuk menjaga versi DBMS tetap up to date.
3. Hardware acquisition cost : perangkat keras baru mungkin diperlukan, seperti
memory, terminal, disk drive dan controller baru, atau penyimpan DBMS khusus.
4. Database creation and conversion cost : Berhubungan dengan biaya pembuatan
sistem basis data dari konversi sistem yang sudah ada ke perangkat lunak DBMS
baru. Operasi sistem yang sudah ada dilakukan paralel dengaan sistem baru sampai
semua aplikasi diimplementasikan penuh dan diujicoba.
5. Personal cost : Akuisisi perangkat lunak DBMS untuk pertama kali oleh organisasi
biasanya dilakukan dengan reorganisasi departemen data processing.
6. Training cost : Karena DBMS biasanya berupa sistem komplek, personal harus
ditraining menggunakan dan memprogram DBMS.
Training diperlukan pada
semua level, termasuk programming, pengembangan aplikasi dan administrasi
basis data.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
36
7. Operating cost : Biaya operasi lanjutan dari sistem basis data biasanya tidak
termasuk dalam evaluasi.
Keuntungan
DBMS tidak mudah diukur dan dihitung.
DBMS mempunyai
beberapa keuntungan dibandingkan sistem file, seperti mudah penggunaan, konsolidasi
informasi perusahaan yang lebih luas, ketersediaan data yang lebih luas, dan akses yang
lebih cepat ke informasi. Dengan akses berbasis Web, bagian data dapat dibuat akses
global seperti pemakai luar.
Keuntungan lainnya adalah mengurangi biaya
pengembangan aplikasi, mengurangi redudancy data dan keamanan dan kontrol yang
lebih baik. Basis data sudah digunakan pada banyak organisasi, keputusan berpindah
dari aplikasi berbasis file ke basis data terpusat dikarenakan faktor-faktor berikut :
1. Kompleksitas data : Relasi data menjadi lebih kompleks, memerlukan DBMS
yang kuat.
2. Sharing diantara aplikasi : Semakin besar sharing antar aplikasi, semakin banyak
t
e
N
redundansi file dan lebih besar kebutuhan akan DBMS
3. Perumbuhan dan perubahan data secara dinamis : Jika data berubah secara
a
r
d
konstan, lebih mudah untuk melakukan perubahan dengan DBMS dibandingkan
dengan sistem file.
By
n
e
H
4. Frekuensi permintaan ad hoc data : Sistem file tidak cukup tepat untuk
penampilan data ad hoc
5. Voleme data dan kebutuhan untuk kontrol : Volume data yang besar dan
kebutuhan mengontrol memerlukan DBMS
Beberapa faktor ekonomi dan organisasi yang berakibat pemilihan suatu DBMS:
1. Organization-wide adoption of a certain philosopy : Biasanya merupakan faktor
dominan yang berakibat pada penerimaan model data (misalnya, relational
versus obyek), vendor, metodologi pengembangan dan alat bantu (misalnya,
penggunaan analisa berorientasi obyek dan alat bantu desain dan methodologi
dibutuhkan oleh semua aplikasi baru.
2. Familiarity of personnel with the system : Jika staff programming dalam
organisasi familiar dengan DBMS tertentu, dapat mengurangi biaya training dan
waktu pembelajaran.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
37
3. Availability of vendor service : ketersediaan asisten vendor dalam pemecahan
permasalahan dengan sistem sangat penting, karena perubahan dari non-DBMS
ke lingkungan DBMS kebanyakan membutuhkan bantuan vendor pada awalnya.
Beberapa DBMS sekarang mempunyai versi yang berjalan pada beberapa
konfigurasi perangkat keras / perangkat lunak (platform). Kebutuhan aplikasi untuk
backup, recovery, performansi, integritas dan sekuriti harus juga dipertimbangkan.
Beberapa DBMS sekarang dirancang sebagai solusi total untuk pemrosesan informasi
dan manajemen sumber daya informasi yang diperlukan dalam organisasi. Kebanyakan
vendor DBMS mengkombinasikan produk mereka dengan pilihan berikut :
•
Editor teks dan browser
•
Pembangkit laporan dan daftar utilitas
•
Perangkat lunak komunikasi
•
Entri data dan menampilkan form, layar, dan menu dengan pengeditan otomatis
•
Alat bantu untuk mengakses World Wide Web
•
Alat bantu merancang basis data grafis.
2.3.4
t
e
N
a
r
d
n
e
H
Tahap 4 : Pemetaan Model Data (Desain Basis Data Logika)
By
Tahap berikutnya dari perancangan basis data adalah membuat skema
konseptual dan skema eksernal damal model data dari DBMS terpilih dengan
memetakan skema tersebut. Proses pemetaan dalam dua bentuk :
1. System-independet
mapping
:
Pada
bentuk
ini,
pemetaan
tidak
mempertimbangkan karakteristik khusus datau kasus khusus yang diaplikasikan
ke implementasi DBMS dari model data.
2. Tailoring the schemas to aspecific DBMS : DBMS yang berbeda
mengimplementasikan model data dengan menggunakan pemodelah khusus.
Hasil dari tahap ini berupa pernyataan DDK dalam bahasa DBMS terpilih yang
merupakan skema level konseptual dan eksternal dalam sistem basis data. Tetapi jika
pernyataan DDL termasuk beberapa parameter rancangan fisik, spesifikasi DDL yang
lengkap harus menuggu setelah tahap rancangan basis data fisik selesai. Beberapa alat
bantu CASE (computer-assisted software engineering) otomatis dapat membangkitkan
DDb untuk sistem komersial dari rancangan skema konseptual.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
2.3.5
38
Tahap 5 : Desain Basis Data Fisik
Perancangan basis data fisik adalah proses memilih struktur penyimpan khusus
dan mengakses path untuk file basis data untuk mendapatkan performansi yang baik
pada aplikasi basis data. Setiap DBMS menawarkan berbagai pilihan organisasi file dan
akses path. Termasuk di dalamnya berbagai tipe pengindeksan, clustering record yang
berhubungan melalui pointer dan berbagai tipe hashing. Bila suatu DBMS dipilih,
proses perancangan basis data fisik dibatasi pada struktur yang tepat utuk file basis data
melalui pilihan yang ditawarkan DBMS. Kriteria berikut biasanya digunakan untuk
menuntun pemilihan rancangan basis data fisik :
1. Waktu respon : Merupakan waktu antara pengiriman transaksi basis data untuk
eksekusi dan penerimaan respon.
2. Utilitas ruang penyimpan : Merupakan jumlah ruang penyimpan yang
t
e
N
digunakan file basis data dan struktur akses path pada disk, termasuk
pengindeksan dan akses path lain.
a
r
d
3. Transaction throughput : Merupakan jumlah transaksi rata-rata yang dapat
n
e
H
diproses per metnin, merupakan parameter kritis dari sistem transaksi seperti
By
yang digunakan pada reservasi pesawat atau bank.
Hasil dari rancangan basis data fisik dalam tahap ini merupakan ketentuan awal
dari struktur penyimpan dan akses path untuk file basis data. Juga selalu diperlukan
modifikasi rancangan berdasarkan observasi performansi setelah sistem basis data
diimplementasikan. Aktifitas tahap berikutnya adalah tuning basis data.
2.3.6
Tahap 6 : Implementasi Basis Data dan Tuning
Setelah rancangan logika dan fisik selesai, kita dapat mengimplementasikan
sistem basis data. Hal ini merupakan tanggung jawab DBA bersama desainer basis data.
Pernyataan dalam DDL (data definition language) termasuk SDL (storage definition
language) dari DBMS terpilih dikompilasi dan digunakan untuk membuat skema basis
data dan file basis data (kosong). Basis data dapat kemudian dipopulasikan dengan
data. Jika data diubah dari sistem komputerisasi sebelumnya, rutin konversi diperlukan
untuk format kembali data untuk menyimpan ke basis data baru.
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
39
Transaksi basis data harus diimplementasikan dengan aplikasi yang dibuat
programming berdasarkan spesifikasi konseptual dari transaksi dan kemudian menulis
dan melakukan uji coba kode porgram dengan perintah DML. Jika transaksi siap dan
data disimpan ke basis data, tahap rancangan dan implementasi selesai dan tahap operasi
dari sistem basis data dimulai.
RINGKASAN:
•
Terdapat aturan system informasi dalam organisasi, system basis data dilihat
sebagai bagian system informasi dalam aplikasi berskala besar.
•
Basis data sebagai manajemen resourse informasi dalam organisasi dan
kelangsungan hidupnya harus tetap berjalan.
•
Terdapat 6 tahap dalam proses perancangan.
Tiga tahap yang umum dalam
rancangan basis data adalah rancangan konseptual, rancangan logika (pemetaan
t
e
N
model data) dan rancangan fisik. Sedangkan tahap inisial adalah koleksi dan
a
r
d
analisa kebutuhan yang biasanya termasuk dalam tahap pra desain.
n
e
H
•
Ada beberapa criteria organisasi dalam pemilihan DBMS
•
Jika permasalahan performansi terdeteksi dan aplikasi baru diaplikasikan,
By
rancangan harus dimodifikasi
•
Pada basis data relasional, factor yang berakibat pada keputusan rancangan basis
data fisik dan mnyediakan tuntunan pemilihan alternative rancangan desain
http://www.hendra-jatnika.web.id
BAB 2 DESAIN BASIS DATA
40
LATIHAN SOAL :
1. Sebutkan 6 tahap perancangan basis data!
2. Manakah dari 6 tahap tersebut sebagai aktifitas utama dalam proses perancangan
basis data ? Mengapa ?
3. Mengapa perancangan skema dan aplikasi dilakukan secara parallel ?
4. Mengapa digunakan model data implementation-independent selama perancangan
skema konseptual ?
5. Mengapa diperlukan koleksi dan analisa kebutuhan ?
6. Buatlah aplikasi actual dari suatu system basis data. Tentukan kebutuhan dari level
pemakai yang berbeda dalam hal kebutuhan data, tipe query dan transaksi yang
diproses.
t
e
N
7. Bagaimana karakteristik dari model data untuk rancangan skema konseptual harus
a
r
d
diproses ?
n
e
H
8. Apa perbedaan dua pendekatan utama dalam rancangan skema konseptual
By
9. Strategi apa yang digunakan untuk merancang skema konseptual dari kebutuhan ?
10. Sebutkan langkah-langkah view integration ke rancangan skema konseptual.
11. Sebutkan factor untuk memperlancar pemilihan paket DBMS untuk system
informasi dalam organisasi.
12. Apa yang dimaksud pemetaan data model system-independent ? Apa perbedaannya
dengan system-dependent ?
http://www.hendra-jatnika.web.id
Bab 3
Query Lanjutan
POKOK BAHASAN:
Subquery dan penggunaannya
Subquery dengan banyak kolom
Pairwise Comparison SubQuery
NonPairwise Comparison SubQuery
Penggunaan Query dalam Klausa FROM
Ekspresi Scalar
Korelasi SubQuery dan penggunaannya
Penggunaan Query dengan Klausa WITH
TUJUAN BELAJAR:
By
t
e
N
a
r
d
n
e
H
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan :
Dapat menulis subquery dengan banyak kolom
Dapat menggambarkan dan menjelaskan karakteristik dari subqueries pada saat
didapatkan nilai NULL
Dapat menulis subquery dalam klausa FROM
Dapat menggunakan scalar subqueries dalam SQL
Dapat menggambarkan tipe dari persoalan yang dapat dipecahkan dengan
menggunakan sub query yang berkorelasi.
Dapat menulis subquery yang berkorelasi.
Melakukan Update dan Delete baris dengan menggunakan subqueries yang
berkorelasi.
Dapat menggunakan operator EXISTS dan NOT EXISTS
Dapat menggunakan klausa WITH
41
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
3.1.
42
TABEL YANG DIGUNAKAN PADA PEMBAHASAN
Bagian ini menjelaskan mengenai tabel yang digunakan pada pembahasan bab
’Query Lanjutan’.
Ada 3 buah tabel yang digunakan masing-masing memiliki struktur sebagai
berikut :
1. Tabel DEPARTMENTS
t
e
N
a
r
d
By
2. Tabel EMPLOYEES
n
e
H
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
43
3. Tabel JOB_HISTORY
3.2.
APA ITU SUBQUERY ?
Bagian ini membahas tentang penggunaan subquery dalam Query Lanjutan. Apa
yang disebut dengan SubQuery ?
Subquery adalah statement SELECT yang
t
e
N
dilampirkan sebagai klausa dalam SQL Statement yang lain.
a
r
d
Main
query
n
e
H
SELECT ...
FROM
...
WHERE ...
By
(SELECT ...
FROM
...
WHERE ...)
Subquery
Gambar 3-1: Subquery dalam Main Query
Pada gambar diatas, subquery (inner query) dijalankan sekali sebelum main
query. Kemudian hasil dari subquery digunakan oleh main query (outer query).
Berikut posisi penulisan subquery dalam SQL command :
SELECT select_list
FROM
table
WHERE expr operator (SELECT select_list
FROM table);
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
44
3.3 PENGGUNAAN SUBQUERY
Subquery mengembalikan nilai ke main query.
Subquery digunakan untuk
menyelesaikan persoalan dimana terdapat suatu nilai yang tidak diketahui (unknown
values). Berikut ini diberikan contoh penggunaan subquery.
SELECT last_name
10500
FROM
employees
WHERE salary >
(SELECT salary
FROM
employees
WHERE employee_id = 149) ;
t
e
N
a
r
d
Query diatas akan menampilkan nama pegawai yang gajinya lebih dari pegawai
n
e
H
dengan nomer pegawai 149. Sebelumnya, gaji dari pegawai dengan nomer pegawai 149
By
tidak diketahui, untuk itu kita tempatkan sebagai subquery agar nilai yang tidak
diketahui tersebut dapat diketahui dan pada ilustrasi gambar diatas nilai gaji dari
pegawai 149 adalah 10500.
3.4. SUBQUERY BANYAK KOLOM
Pada subquery dengan banyak kolom, tiap baris dari main query dibandingkan
dengan nilai dari subquery multiple-row dan multiple-column.
pembandingan dengan banyak kolom dan baris :
Main query
WHERE (MANAGER_ID, DEPARTMENT_ID) IN
Subquery
100
102
124
90
60
50
Berikut ini contoh
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
45
3.5. PEMBANDINGAN KOLOM
Pembandingan kolom dalam subquery banyak kolom dapat berupa :
•
•
Pembandingan berpasangan (Pairwise Comparison SubQuery)
Pembandingan tidak berpasangan (NonPairwise Comparison SubQuery)
3.5.1. PAIRWISE COMPARISON SUBQUERY
Berikut contoh pembandingan berpasangan untuk menampilkan detail dari data
pegawai yang dimanajeri oleh manajer dan department yang sama dengan yang dimiliki
oleh nomer pegawai 178
SELECT employee_id, manager_id, department_id
FROM
employees
WHERE (manager_id, department_id) IN
(SELECT manager_id, department_id
FROM
employees
WHERE employee_id IN (178,174))
AND
employee_id NOT IN (178,174);
t
e
N
a
r
d
n
e
H
3.5.2. NONPAIRWISE COMPARISON SUBQUERY
By
Berikut contoh pembandingan tidak berpasangan untuk menampilkan detail dari
data pegawai yang dimanajeri oleh manager yang sama dengan pegawai dengan nomer
pegawai 174 atau 141 dan bekerja dalam departement yang sama dengan pegawai yang
memiliki nomer pegawai 174 atau 141.
SELECT
FROM
WHERE
AND
AND
employee_id, manager_id, department_id
employees
manager_id IN
(SELECT manager_id
FROM
employees
WHERE
employee_id IN (174,141))
department_id IN
(SELECT department_id
FROM
employees
WHERE
employee_id IN (174,141))
employee_id NOT IN(174,141);
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
46
3.6. PENGGUNAAN QUERY DALAM KLAUSA FROM
Query bisa diletakkan di dalam klausa FROM untuk membentuk tabel temporer.
Query semacam ini dikenal juga dengan istilah inline view, karena tidak membentuk
object database. Berikut ini contoh penggunaan Query dalam klausa FROM.
SELECT
FROM
WHERE
AND
a.last_name, a.salary,
a.department_id, b.salavg
employees a, (SELECT
department_id,
AVG(salary) salavg
FROM
employees
GROUP BY department_id) b
a.department_id = b.department_id
a.salary > b.salavg;
t
e
N
a
r
d
By
n
e
H
Query diatas menampilkan nama dan gaji dari pegawai yang gajinya lebih besar
dari rata-rata gaji pegawai pada departemen tempat dia bekerja.
3.7. EKSPRESI SCALAR SUBQUERY
Ekspresi scalar subquery adalah subquery yang mengembalikan hanya satu nilai
kolom dari satu baris. Scalar subquery pada standart SQL-92 hanya terbatas pada :
•
•
SELECT Statement (klausa FROM dan WHERE saja)
Daftar VALUE dari statement INSERT
Pada standart SQL-99, scalar subqueries dapat diguanakan dalam :
•
•
Kondisi dan ekspresi sebagai bagian dari perintah DECODE dan CASE.
Semua klausa dari SELECT Statement kecuali GROUP BY.
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
47
Berikut ini contoh penggunaan scalar subquery dalam ekspresi CASE :
SELECT employee_id, last_name,
(CASE
20
WHEN department_id =
(SELECT department_id FROM departments
WHERE location_id = 1800)
FROM
THEN 'Canada' ELSE 'USA' END) location
employees;
Berikut ini contoh penggunaan scalar subquery dalam klausa ORDER BY :
SELECT
employee_id, last_name
FROM
employees e
ORDER BY (SELECT department_name
FROM departments d
WHERE e.department_id = d.department_id);
t
e
N
a
r
d
By
3.8. KORELASI SUBQUERY
n
e
H
Korelasi SubQuery digunakan untuk pemrosesan baris per baris.
subquery dijalankan sekali untuk setiap baris dari outer query.
Prosesnya sebagai berikut :
AMBIL
Baris dari outer query
JALANKAN
inner query dengan menggunakan nilai baris kandidat
GUNAKAN
Nilai dari inner query untuk qualify /
disqualify baris kandidat
Gambar 3-2 : Proses Korelasi Subquery
Tiap-tiap
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
48
Pada gambar 3-2, proses korelasi dimulai dengan mengambil baris dari outer
query, kemudian inner query dijalankan dengan menggunakan nilai baris kandidat,
kemudian nilai dari inner query digunakan untuk melakukan kualifikasi atau
mendiskualifikasi baris kandidat.
Berikut ini cara penulisan dari Korelasi SubQuery :
SELECT column1, column2, ...
outer
FROM
table1
WHERE column1 operator
(SELECT
FROM
WHERE
colum1, column2
table2
expr1 =
outer .expr2);
Pada gambar diatas, subquery merefer ke kolom dari tabel yang ada pada parent
atau outer query.
t
e
N
Berikut ini contoh penggunaan korelasi subquery untuk mencari pegawai yang
a
r
d
penghasilannya melebihi rata-rata penghasilan pada departemen tempat mereka bekerja.
n
e
H
SELECT last_name, salary, department_id
youter
FROM
employees
B
WHERE salary >
(SELECT AVG(salary)
FROM
employees
WHERE department_id =
outer.department_id) ;
Setiap saat baris dari
outer query diproses,
maka inner query
dievaluasi.
Berikut ini contoh yang lain dari korelasi subquery yaitu untuk menampilkan
pegawai yang pernah berganti job maksimal dua kali.
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
49
SELECT e.employee_id, last_name,e.job_id
FROM
employees e
WHERE 2 <= (SELECT COUNT(*)
FROM
job_history
WHERE employee_id = e.employee_id);
Korelasi Subquery juga dapat digunakan untuk meng-update baris pada satu
table berdasarkan pada baris dari table yang lain, korelasi seperti itu dinamakan dengan
Korelasi Update.
Berikut cara penulisan Korelasi Update :
t
e
N
UPDATE table1 alias1
SET
column = (SELECT expression
FROM
table2 alias2
WHERE alias1.column =
alias2.column);
a
r
d
By
n
e
H
Lakukan denormalisasi pada table EMPLOYEES dengan menambahkan satu
kolom pada tabel EMPLOYEES untuk menyimpan nama departemen.
Kemudian
isi
dari
kolom
nama
departemen
DEPARTMENTS dengan menggunakan Korelasi Update :
didapatkan
dari
tabel
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
50
Korelasi Subquery juga dapat digunakan untuk menghapus baris pada satu table
berdasarkan pada baris dari table yang lain, korelasi seperti itu dinamakan dengan
Korelasi Delete.
Berikut cara penulisan Korelasi Delete :
DELETE FROM table1 alias1
WHERE column operator
(SELECT expression
FROM
table2 alias2
WHERE alias1.column = alias2.column);
Berikut contoh penggunaan Korelasi DELETE untuk menghapus baris-baris dari
tabel EMPLOYEES yang juga terdapat pada tabel EMP_HISTORY.
DELETE FROM employees E
WHERE employee_id =
(SELECT employee_id
FROM
emp_history
WHERE employee_id = E.employee_id);
t
e
N
a
r
d
n
e
H
y
B
3.9. PENGGUNAAN OPERATOR EXIST DAN NOT EXIST
Operator EXISTS dan NOT EXIST digunakan untuk menguji keberadaan dari
baris dalam himpunan hasil dari subquery.
Jika ditemukan, maka :
•
pencarian tidak dilanjutkan dalam inner query dan kondisi ditandai TRUE.
Jika tidak ditemukan, maka :
•
Kondisi ditandai FALSE dan kondisi pencarian dilanjutkan dalam inner query.
Berikut penggunaan operator EXISTS untuk mencari pegawai yang memiliki
sedikitnya satu orang bawahan.
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
51
SELECT employee_id, last_name, job_id, department_id
FROM
employees outer
WHERE EXISTS ( SELECT 'X'
FROM
employees
WHERE manager_id =
outer.employee_id);
t
e
N
a
r
d
Berikut contoh penggunaan operator NOT EXIST untuk menampilkan semua
n
e
H
departemen yang tidak mempunyai pegawai.
By
SELECT department_id, department_name
FROM departments d
WHERE NOT EXISTS (SELECT 'X'
FROM
employees
WHERE department_id
= d.department_id);
3.10. PENGGUNAAN KLAUSA WITH
Dengan menggunakan klausa WITH, kita dapat menggunakan blok query yang
sama dalam statement SELECT pada saat terjadi lebih dari sekali dalam complex query.
Klausa WITH mendapatkan hasil dari blok query dan menyimpannya dalam tablespace
temporer kepunyaan user. Klausa WITH dapat meningkatkan performansi.
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
52
Berikut ini contoh penggunaan klausa WITH :
WITH
dept_costs AS (
SELECT d.department_name, SUM(e.salary) AS dept_total
FROM
employees e, departments d
WHERE
e.department_id = d.department_id
GROUP BY d.department_name),
avg_cost
AS (
SELECT SUM(dept_total)/COUNT(*) AS dept_avg
dept_costs)
FROM
SELECT *
dept_costs
FROM
WHERE dept_total >
(SELECT dept_avg
FROM avg_cost)
ORDER BY department_name;
t
e
N
Contoh penggunaan klausa WITH diatas digunakan untuk menampilkan nama
a
r
d
departemen dan total gaji untuk tiap departemen yang memiliki total gaji lebih besar
n
e
H
dari gaji rata-rata pada sembarang department.
RINGKASAN:
By
Subquery digunakan untuk menyelesaikan persoalan dimana terdapat suatu nilai
yang tidak diketahui (unknown values)
Pada subquery dengan banyak kolom, tiap baris dari main query dibandingkan
dengan nilai dari subquery multiple-row dan multiple-column.
Pembandingan kolom dalam subquery banyak kolom dapat berupa pembandingan
berpasangan
(pairwise
comparison)
dan
tidak
berpasangan
(nonpairwise
comparison).
Query bisa diletakkan di dalam klausa FROM untuk membentuk tabel temporer,
dan dikenal juga dengan istilah inline view.
Korelasi SubQuery digunakan untuk pemrosesan baris per baris.
Klausa WITH dapat menggunakan blok query yang sama dalam statement SELECT
pada saat terjadi lebih dari sekali dalam complex query.
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
53
LATIHAN SOAL :
1) Buat query untuk menampilkan nama, nomer departemen, dan gaji dari pegawai
yang yang memiliki nomer departemen dan gaji yang sama dengan nomer
departemen dan gaji dari pegawai yang memiliki komisi.
2) Buat query untuk menampilkan nama pegawai, nama departemen, dan gaji dari
pegawai yang memiliki gaji dan komisi yang sama dengan gaji dan komisi dari
pegawai yang memiliki location ID 1700.
3) Buat query untuk menampilkan nama pegawai, tanggal mulai masuk kerja (hire
date), dan gaji untuk semua pegawai yang memiliki gaji dan komisi seperti yang
dimiliki oleh pegawai yang bernama Kochhar.
Note: Data Kochhar tidak ditampilkan dalam hasil query.
4) Buat query untuk menampilkan detail dari nomer pegawai, nama pegawai dan
t
e
N
nomer pegawai yang sama dengan pegawai yang bertempat tinggal di kota yang
a
r
d
nama kotanya diawali dengan huruf T.
n
e
H
5) Buat query untuk menampilkan data semua pegawai yang memiliki gaji yang lebih
dari rata-rata gaji pada departemen tempat mereka bekerja. Data yang ditampilkan
By
yaitu nama pegawai, gaji, nomer departemen, dan rata-rata gaji pada departemen
tempat mereka bekerja. Urutkan berdasarkan rata-rata gaji.
6) Tampilkan semua pegawai yang bukan supervisor
a. Cara pertama gunakan operator NOT EXISTS.
b. Apakah persoalan dapat dipecahkan dengan menggunakan operator NOT IN? Jika
bisa bagaimana caranya, dan jika tidak bisa mengapa ?
(Supervisor adalah pegawai yang punya bawahan pegawai yang lain => employee_id
nya menjadi manager_id dari pegawai yang lain)
7) Buat query untuk menampilkan nama pegawai yang gajinya kurang dari rata-rata
gaji pada departemen tempat dia bekerja.
8) Buat query untuk menampilkan nama dari pegawai yang memiliki satu atau lebih
kolega (teman satu departemen) dimana kolega tersebut masuk lebih akhir tapi
memiliki gaji lebih tinggi.
http://www.hendra-jatnika.web.id
BAB 3 QUERY LANJUTAN
54
9) Buat query untuk menampilkan nomer pegawai, nama pegawai dan nama
departemen dari semua pegawai yang ada.
Note: Gunakan scalar subquery untuk mendapatkan nama departemen dalam statemen
SELECT.
10) Buat query untuk menampilkan nama departemen dari tiap departemen yang
memiliki total gaji diatas 1/8 dari total gaji keseluruhan pada perusahaan. Gunakan
klausa WITH untuk menulis query tersebut. Beri nama SUMMARY.
11) Buat query untuk menampilkan peagwai yang memiliki gaji yang lebih tinggi dari
gaji semua sales managers (JOB_ID = '
SA_MAN'
). Urutkan berdasarkan jumlah
gaji dari tinggi ke rendah.
t
e
N
a
r
d
By
n
e
H
http://www.hendra-jatnika.web.id
Bab 4
Optimasi Query
POKOK BAHASAN:
Optimasi Perintah SQL
Informasi Jalur Akses Query
Faktor-faktor yang berpengaruh terhadap kecepatan akses data
t
e
N
TUJUAN BELAJAR:
a
r
d
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami latar belakang diperlukannya optimasi query
Memahami cara melakukan optimasi perintah SQL
Memahami faktor-faktor yang berpengaruh terhadap kecepatan akses data
By
4.1.
n
e
H
PENDAHULUAN
Data yang tersimpan dalam database semakin lama akan semakin besar ukuran atau
volumenya. Kalau tidak didukung dengan kecepatan akses yang memadai maka akan
semakin menurun unjuk kerjanya. Ukuran unjuk kerja dalam hal ini kecepatan akses
data dipengaruhi oleh banyak faktor. Pada bab ini akan membahas tentang optimasi
query serta faktor-faktor lain yang berpengaruh terhadap optimalisasi kecepatan akses
data.
55
http://www.hendra-jatnika.web.id
BAB 4 OPTIMASI QUERY
4.2.
56
OPTIMASI PADA PERINTAH SQL
Desain aplikasi saja tidak cukup untuk meningkatkan unjuk kerja harus didukung
dengan optimasi dari perintah SQL yang digunakan pada aplikasi tersebut. Dalam
mendesain database, seringkali lokasi fisik data tidak menjadi perhatian penting.
Karena hanya desain logik saja yang diperhatikan. Padahal untuk menampilkan hasil
query dibutuhkan pencarian yang melibatkan struktur fisik penyimpanan data. Inti dari
optimasi query adalah meminimalkan “jalur” pencarian untuk menemukan data yang
disimpan dalam lokasi fisik.
Index pada database digunakan untuk meningkatkan kecepatan akses data. Pada
saat query dijalankan, index mencari data dan menentukan nilai ROWID yang
membantu menemukan lokasi data secara fisik di disk. Akan tetapi penggunaan index
yang tidak tepat, tidak akan meningkatkan unjuk kerja dalam hal ini kecepatan akses
data.
t
e
N
Misal digunakan index yang melibatkan tiga buah kolom yang mengurutkan
a
r
d
kolom menurut kota, propinsi dan kode pos dari tabel karyawan, sebagai berikut :
CREATE INDEX idx_kota_prop_kodepos
n
e
H
ON karyawan(kota, propinsi, kode_pos)
By
TABLESPACE INDX;
Kemudian user melakukan query sebagai berikut :
SELECT * FROM karyawan WHERE propinsi=’Jawa Barat’;
Pada saat melakukan query ini, index tidak akan digunakan karena kolom pertama
(kota) tidak digunakan dalam klausa WHERE. Jika user sering melakukan query ini,
maka kolom index harus diurutkan menurut propinsi. Selain itu, proses pencarian data
akan lebih cepat jika data terletak pada block tabel yang berdekatan daripada harus
mencari di beberapa datafile yang terletak pada block yang berbeda.
Misal pada perintah SQL berikut ini :
SELECT * FROM karyawan
WHERE id BETWEEN 1010 AND 2010;
http://www.hendra-jatnika.web.id
BAB 4 OPTIMASI QUERY
57
Query ini akan melakukan “scan” terhadap sedikit data block jika tabel karyawan
diatas diurutkan berdasarkan kolom id. Untuk mengurutkan berdasarkan kolom yang
berbeda-beda maka tabel disimpan dalam flat file, kemudian tabel diekspor dan
diurutkan sesuai kebutuhan.
Alternatif yang lain, bisa digunakan perintah untuk membuat tabel lain yang
memiliki urutan yang berbeda dari tabel asal, seperti perintah SQL berikut :
CREATE TABLE karyawan_urut
AS SELECT * FROM karyawan
ORDER BY id;
Pada SQL diatas, tabel karyawan_urut berisi data yang sama dengan tabel karyawan
hanya datanya terurut berdasarkan kolom id.
4.3.
PERENCANAAN EKSEKUSI
t
e
N
Bagaimana cara melihat jalur akses yang akan digunakan database saat
a
r
d
melakukan query ? Pada Database Oracle, informasi ini dapat dilihat dengan
n
e
H
menggunakan perintah explain plan, yang akan memberi informasi tentang rencana
By
eksekusi dari suatu query. Informasi ini disimpan dalam tabel PLAN_TABLE yang
terdapat di schema user yang mengeksekusi perintah tersebut.
Sebelum melakukan perintah explain plan, terlebih dahulu buat table
PLAN_TABLE
dengan
menggunakan
script
utlxplan.sql
yang
diambil
dari
\%ORACLE_HOME%\RDBMS\ADMIN.
Setelah itu table PLAN_TABLE dapat digunakan seperti contoh berikut :
SQL> explain plan
Set statement_id=’test1’
Into plan_table for
Select * from karyawan where gaji=2000000;
Dalam PLAN_TABLE rencana eksekusi diatas dikenal dengan nama test1 yang
terdefinisi pada kolom statement_id.
http://www.hendra-jatnika.web.id
BAB 4 OPTIMASI QUERY
58
Untuk melihat rencana eksekusi dari test1, digunakan perintah SELECT berikut :
SELECT LPAD(’ ’,2*Level)||Operation||’ ’||Options||’ ’||Object_Name Q_Plan
FROM plan_table
WHERE statement_id=’test1’
CONNECT BY PRIOR id=parent_id AND statement_id=’test1’
START WITH id=0 AND statement_id=’test1’;
Contoh hasil dari eksekusi query tersebut :
Q_PLAN
-------------------------------------------------------------------SELECT STATEMENT
TABLE ACCESS FULL KARYAWAN
Output tersebut dibaca mulai dari
t
e
N
yang indent-nya paling dalam yaitu : TABLE
a
r
d
ACCESS FULL KARYAWAN. Dikarenakan klausa WHERE melibatkan kolom gaji
namun kolom gaji tidak ada index-nya, maka Oracle melakukan full table scan. Setelah
n
e
H
seluruh tabel karyawan selesai dibaca, selanjutnya adalah SELECT STATEMENT yang
By
berfungsi untuk menampilkan hasil query.
4.4.
FAKTOR LAIN YANG BERPENGARUH TERHADAP KECEPATAN
AKSES DATA
Faktor lain yang berpengaruh terhadap kecepatan akses data, tidak hanya terletak
pada optimasi perintah SQL, tapi terhadap hal-hal lain yang berpengaruh. Diantaranya
adalah optimasi aplikasi dan penggunaan cluster dan index. Hal yang akan dibahas
dalam optimasi query berikut ini tidak melibatkan penggunaan komponen yang ada
dalam Arsitektur database engine, misal pada database Oracle kecepatan akses data
dipengaruhi oleh penyesuaian pada shared pool, buffer cache, redo log buffer dan sistem
operasi yang digunakan.
http://www.hendra-jatnika.web.id
BAB 4 OPTIMASI QUERY
59
4.4.1. OPTIMASI APLIKASI
Dalam pembuatan aplikasi, yang perlu mendapat perhatian adalah apakah akses
terhadap data sudah efisien. Efisien dalam hal penggunaan obyek yang mendukung
kecepatan akses, seperti index atau cluster. Kemudian juga bagaimana cara database didesain. Apakah desain database sudah melakukan normalisasi data secara tepat.
Kadangkala normalisasi sampai level yang kesekian, tidak menjamin suatu
desain yang efisien. Untuk membuat desain yang lebih tepat, kadang setelah melakukan
normalisasi perlu dilakukan denormalisasi. Misalnya tabel yang hubungannya one-toone dan sering diakses bersama lebih baik disatukan dalam satu tabel.
4.4.2. CLUSTER DAN INDEX
Cluster adalah suatu segment yang menyimpan data dari tabel yang berbeda
dalam suatu struktur fisik disk yang berdekatan. Konfigurasi ini bermanfaat untuk
t
e
N
akses data dari beberapa tabel yang sering di-query. Penggunaan cluster secara tepat
a
r
d
dilaksanakan setelah menganalisa tabel-tabel mana saja yang sering di-query secara
n
e
H
bersamaan menggunaan perintah SQL join.
Jika aplikasi sering melakukan query dengan menggunakan suatu kolom yang
By
berada pada klausa WHERE, maka harus digunakan index yang melibatkan kolom
tersebut. Penggunaan index yang tepat bergantung pada jenis nilai yang terdapat dalam
kolom yang akan diindex. Dalam RDBMS Oracle, index B-Tree digunakan untuk
kolom yang mengandung nilai yang cukup bervariasi, sedangkan untuk nilai yang tidak
memiliki variasi cukup banyak, lebih baik menggunakan index bitmap.
http://www.hendra-jatnika.web.id
BAB 4 OPTIMASI QUERY
60
RINGKASAN:
•
Data yang tersimpan dalam jumlah yang sangat besar, Terdapat aturan system
informasi dalam organisasi, system basis data dilihat sebagai bagian system
informasi dalam aplikasi berskala besar.
•
Untuk meningkatkan unjuk kerja tidak hanya desain logik saja yang diperhatikan
tapi juga struktur fisik penyimpanan data.
•
Penggunaan Index pada database secara tepat, dapat digunakan untuk
meningkatkan kecepatan akses data.
•
Informasi tentang jalur akses yang digunakan oleh database untuk melaksanakan
query dalam database Oracle dapat dengan menggunakan perintah explain plan.
•
Selain optimasi perintah SQL, faktor lain yang berpengaruh terhadap kecepatan
akses data adalah optimasi aplikasi dan penggunaan cluster dan index.
•
Pada sebuah database engine semisal pada database Oracle kecepatan akses data
t
e
N
dipengaruhi oleh beberapa komponen arsitektur pembentuknya seperti shared
pool, buffer cache, dan redo log buffer.
•
a
r
d
Optimasi aplikasi tergantung pada efisiensi penggunaan obyek yang mendukung
n
e
H
kecepatan akses seperti index atau cluster, dan normalisasi data pada desain
database.
By
LATIHAN SOAL :
1. Apa latar belakang dari diperlukannya optimalisasi kecepatan akses data ?
2. Optimasi query dalam hubungannya dengan desain database melibatkan dua hal,
yaitu ….. dan ……
3. Proses pencarian data yang telah diindeks akan lebih cepat jika data yang dicari
terletak pada ………………
4. Bagaimana cara melihat jalur akses yang akan digunakan database saat melakukan
query ? Tunjukkan tahap-tahap yang digunakan untuk melakukan hal tersebut !
5. Sebutkan factor-faktor lain yang berpengaruh terhadap kecepatan akses data selain
optimasi pada perintah SQL !
6. Beberapa database engine melibatkan komponen pada arsitekturnya untuk
disesuaikan agar akses data lebih cepat dan efisien, berikan contohnya !
http://www.hendra-jatnika.web.id
Bab 5
Database Trigger
POKOK BAHASAN:
Pembuatan dan Penggunaan Trigger
Statement trigger
Row Trigger
Menggunakan Old dan New Qualifiers
Klausa WHEN pada trigger
Perintah-perintah umum pada Trigger
TUJUAN BELAJAR:
t
e
N
a
r
d
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami macam-macam tipe trigger
Memahami trigger dan penggunaannya
Dapat membuat database trigger
Memahami database trigger yang dapat mengaktifkan sebuah aturan
Menghapus database trigger
By
5.1.
n
e
H
PENDAHULUAN
Trigger adalah blok PL/SQL atau prosedur yang berhubungan dengan table, view,
skema atau database yang dijalankan secara implicit pada saat terjadi sebuah event.
Tipe dari trigger adalah :
•
Application trigger : diaktifkan pada saat terjadi event yang berhubungan dengan
sebuah aplikasi
•
Database trigger : diaktifkan pada saat terjadi event yang berhubungan dengan
data (seperti operasi DML) atau event yang berhubungan dengan sistem (semisal
logon atau shutdown) yang terjadi pada sebuah skema atau database.
61
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
5.2.
62
PENGGUNAAN TRIGGER
Trigger dibuat sesuai dengan keperluan. Ada kalanya trigger perlu dibuat, dan
kadangkala tidak perlu dibuat.
Trigger perlu dibuat pada saat :
•
membentuk sebuah aksi tertentu terhadap suatu event
•
Memusatkan operasi global
Trigger tidak perlu dibuat, jika :
•
Fungsionalitas yang diperlukan suatu ada pada Oracle server
•
Duplikat atau sama dengan fungsi trigger yang lain.
Prosedur bisa dibuat dalam database, kemudian prosedur tersebut dipanggil pada
trigger. Jika penggunaan trigger terlalu berlebihan, maka akan menyebabkan terjadi
sifat ketidaktergantungan yang terlalu kompleks sehingga akan mempersulit
pemeliharaan dari aplikasi yang besar.
t
e
N
a
r
d
Gambar berikut ini menunjukkan ilustrasi dari penggunaan trigger :
By
n
e
H
Gambar 5.1. Penggunaan Trigger
Pada gambar tersebut, database trigger CHECK_SAL memeriksa nilai gaji pada
saat suatu aplikasi mencoba untuk memasukkan baris baru ke dalam table
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
63
EMPLOYEES. Nilai yang terletak pada jangkauan diluar kategori pekerjaan akan
diabaikan.
Sintak penulisan dari database trigger, berisi komponen berikut :
1. Trigger timing :
a. Untuk tabel : BEFORE, AFTER
b. Untuk view : INSTEAD OF
2. Trigger event : INSERT, UPDATE atau DELETE
3. Nama tabel : yaitu nama tabel atau view yang berhubungan dengan trigger
4. Tipe trigger : Baris atau Pernyataan (statement)
5. klausa WHEN : untuk kondisi pembatasan
6. trigger body : bagian prosedur yang dituliskan pada trigger
5.3.
KOMPONEN TRIGGER
t
e
N
Komponen dari sebuah trigger ada 6 (enam), yaitu : trigger timing, trigger event,
a
r
d
nama tabel, tipe trigger, klausa WHEN, dan trigger body.
komponen dari trigger.
n
e
H
Berikut ini penjelasan
Trigger timing adalah waktu kapan trigger diaktifkan. Ada tiga macam trigger
timing, yaitu :
By
•
BEFORE : trigger dijalankan sebelum DML event pada tabel
•
AFTER : trigger dijalankan setelah DML event pada tabel
•
INSTEAD OF : trigger dijalankan pada sebuah view.
Trigger event ada 3 kemungkinan : INSERT, UPDATE atau DELETE.
Pada saat trigger event UPDATE, kita dapat memasukkan daftar kolom untuk
mengidentifikasi kolom mana yang berubah untuk mengaktifkan sebuah trigger (contoh
: UPDATE OF salary ... ). Jika tidak ditentukan, maka perubahannya akan berlaku
untuk semua kolom pada semua baris.
Tipe trigger ada 2 macam, yaitu :
•
Statement : trigger dijalankan sekali saja pada saat terjadi sebuah event.
Statement trigger juga dijalankan sekali, meskipun tidak ada satupun baris yang
dipengaruhi oleh event yang terjadi.
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
•
64
Row : trigger dijalankan pada setiap baris yang dipengaruhi oleh terjadinya
sebuah event.
Row trigger tidak dijalankan jika event dari trigger tidak
berpengaruh pada satu baris pun.
Trigger body mendefinisikan tindakan yang perlu dikerjakan pada saat
terjadinya event yang mengakibatkan sebuah trigger menjadi aktif.
5.4.
CONTOH PEMBUATAN TRIGGER
Contoh berikut ini akan mengaktifkan sebuah trigger pada saat sebuah baris
tunggal dimanipulasi pada tabel :
Misal diberikan perintah DML untuk menyisipkan baris baru ke dalam tabel
sebagai berikut :
INSERT INTO departments (department_id, department_name, location_id)
t
e
N
VALUES (400, 'CONSULTING', 2400);
a
r
d
Ilustrasi dari trigger timing untuk event tersebut adalah sebagai berikut :
By
n
e
H
Gambar 5.2. Ilustrasi timing pada Trigger
Jika DML statement berlaku untuk lebih dari satu baris yang ada pada tabel
(multiple row), semisal :
UPDATE employees
SET salary = salary * 1.1
WHERE department_id = 30;
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
65
Maka ilustrasi dari trigger timing untuk event tersebut adalah sebagai berikut :
5.5.
DML STATEMENT TRIGGER
Berikut ini sintak atau cara penulisan untuk pembuatan DML Statement trigger :
CREATE [OR REPLACE] TRIGGER trigger_name
timing
t
e
N
event1 [OR event2 OR event3]
a
r
d
ON table_name
trigger_body
By
n
e
H
Berikut contoh pembuatan DML Statement trigger :
CREATE OR REPLACE TRIGGER secure_emp
BEFORE INSERT ON employees
BEGIN
IF (TO_CHAR(SYSDATE,'DY') IN ('SAT','SUN')) OR
(TO_CHAR(SYSDATE,'HH24:MI') NOT BETWEEN '08:00' AND '18:00')
THEN RAISE_APPLICATION_ERROR (-20500,'Penyisipan data pada table
EMPLOYEES hanya diperbolehkan selama jam kerja');
END IF;
END;
/
Contoh trigger diatas akan membatasi penyisipan baris baru ke dalam table
EMPOYEES diperbolehkan hanya pada jam kerja mulai hari Senin sampai Jum’at. Jika
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
66
user menyisipkan baris baru diluar ketentuan tersebut, missal pada hari SAbtu maka
akan tampil pesan kesalahan.
Perintah berikut ini akan menguji trigger SECURE_EMP dengan memberikan
perintah SQL berikut ini pada jam diluar jam kerja, sebagai berikut :
INSERT INTO employees (employee_id, last_name,first_name, email, hire_date,
job_id, salary, department_id)
VALUES (300, 'Smith', 'Rob', 'RSMITH', SYSDATE,'IT_PROG', 4500, 60);
Perintah tersebut akan memberikan pesan kesalahan :
t
e
N
5.6.
a
r
d
n
e
H
MENGKOMBINASIKAN EVENT PADA TRIGGER
Beberapa event pada trigger bisa dikombinasikan dalam sebuah trigger dengan
By
menggunakan predikat kondisional INSERTING, UPDATING dan DELETING.
Berikut ini akan dibuat trigger yang menggunakan predikat kondisional INSERTING,
UPDATING dan DELETING untuk membatasi manipulasi data pada tabel
EMPLOYEES hanya diperbolehkan pada setiap jam kerja mulai hari Senin sampai
Jum’at.
BEFORE INSERT OR UPDATE OR DELETE ON employees
BEGIN
IF (TO_CHAR (SYSDATE,'DY') IN ('SAT','SUN')) OR
(TO_CHAR (SYSDATE, 'HH24') NOT BETWEEN '08' AND '18')
THEN
IF
DELETING THEN
RAISE_APPLICATION_ERROR (-20502,'You may delete from
EMPLOYEES table only during business hours.');
ELSIF INSERTING THEN
RAISE_APPLICATION_ERROR (-20500,'You may insert into
EMPLOYEES table only during business hours.');
ELSIF UPDATING ('SALARY') THEN
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
67
RAISE_APPLICATION_ERROR (-20503,'You may update
SALARY only during business hours.');
ELSE
RAISE_APPLICATION_ERROR (-20504,'You may update
EMPLOYEES table only during normal hours.');
END IF;
END IF;
END;
5.7.
ROW TRIGGER
Berikut ini sintak atau cara penulisan untuk membuat Row Trigger :
CREATE [OR REPLACE] TRIGGER trigger_name
timing
event1 [OR event2 OR event3]
ON table_name
t
e
N
[REFERENCING OLD AS old | NEW AS new]
a
r
d
FOR EACH ROW
[WHEN (condition)]
trigger_body
By
n
e
H
Contoh berikut ini akan dibuat row trigger dengan timing BEFORE untuk
membatasi operasi DML pada table EMPLOYEES hanya diperbolehkan untuk pegawai
yang memiliki kode pekerjaan ‘AD_PRES’ dan ‘AD_VP’ serta memiliki gaji kurang
dari 15000.
CREATE OR REPLACE TRIGGER restrict_salary
BEFORE INSERT OR UPDATE OF salary ON employees
FOR EACH ROW
BEGIN
IF NOT (:NEW.job_id IN ('AD_PRES', 'AD_VP'))
AND :NEW.salary > 15000
THEN
RAISE_APPLICATION_ERROR (-20202,'Employee
cannot earn this amount');
END IF;
END;
/
Jika kita mencoba memberikan perintah SQL sebagai berikut, maka akan ditampilkan
pesan kesalahan :
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
68
UPDATE employees
SET salary = 15500
WHERE last_name = '
Russell'
;
5.8.
MENGGUNAKAN OLD DAN NEW QUALIFIERS
Pada Row Trigger, nilai dari kolom sebelum dan sesudah perubahan data dapat
dirujuk dengan menggunakan OLD dan NEW qualifier.
digunakan pada Row Trigger.
OLD dan NEW hanya
OLD dan NEW menggunakan prefiks (:) untuk
pernyataan dalam perintah SQL. Jika qualifier ini terlibat dalam pembatasan kondisi
pada klausa WHEN, maka tidak digunakan prefiks (:).
Row triggers akan menurunkan unjuk kerja jika banyak dilakukan update pada
table yang cukup besar.
Contoh Trigger berikut ini menggunakan OLD dan NEW qualifier pada Row Trigger :
t
e
N
CREATE OR REPLACE TRIGGER audit_emp_values
AFTER DELETE OR INSERT OR UPDATE ON employees
FOR EACH ROW
BEGIN
INSERT INTO audit_emp_table (user_name, timestamp,
id, old_last_name, new_last_name, old_title,
new_title, old_salary, new_salary)
VALUES (USER, SYSDATE, :OLD.employee_id,
:OLD.last_name, :NEW.last_name, :OLD.job_id,
:NEW.job_id, :OLD.salary, :NEW.salary );
END;
/
a
r
d
By
n
e
H
Untuk memeriksa hasil dari pembuatan trigger diatas, diberikan perintah SQL sebagai
berikut :
INSERT INTO employees
(employee_id, last_name, job_id, salary, ...)
VALUES (999, 'Temp emp', 'SA_REP', 1000, ...);
UPDATE employees
SET salary = 2000, last_name = 'Smith'
WHERE employee_id = 999;
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
69
Hasil dari perintah SQL tersebut adalah akan disimpan record perubahan pada
table AUDIT_EMP_TABLE sebagai hasil dari operasi Trigger :
SELECT user_name, timestamp, ... FROM audit_emp_table
5.9.
PENGGUNAAN KLAUSA WHEN PADA TRIGGER
Untuk membatasi operasi trigger hanya pada baris yang memenuhi kondisi
tertentu, maka digunakan klausa WHEN. Berikut ini akan dibuat trigger pada tabel
EMPLOYEES yang menghitung komisi yang diterima oleh seorang pegawai pada saat
sebuah baris ditambahkan ke dalam tabel EMPLOYEES, atau pada saat dilakukan
modifikasi pada gaji pegawai.
t
e
N
a
r
d
CREATE OR REPLACE TRIGGER derive_commission_pct
BEFORE INSERT OR UPDATE OF salary ON employees
FOR EACH ROW
WHEN (NEW.job_id = 'SA_REP')
BEGIN
IF INSERTING
THEN :NEW.commission_pct := 0;
ELSIF :OLD.commission_pct IS NULL
THEN :NEW.commission_pct := 0;
ELSE
:NEW.commission_pct := :OLD.commission_pct + 0.05;
END IF;
END;
/
By
n
e
H
Pada klausa WHEN, penggunaan OLD dan NEW qualifier tidak dengan prefiks
(:). Untuk menggunakan NEW qualifier, gunakan BEFORE Row Trigger, jika timing
BEFORE pada trigger diatas diganti dengan AFTER, maka akan didapat pesan
kesalahan :
CREATE OR REPLACE TRIGGER derive_commission_pct*
ERROR at line 1:
ORA-04084: cannot change NEW values for this trigger type
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
70
5.10. PERINTAH UMUM
Berikut ini perintah-perintah umum yang digunakan pada trigger.
Untuk mengaktifkan atau menonaktifkan database trigger, digunakan perintah :
ALTER TRIGGER trigger_name DISABLE | ENABLE
Untuk mengaktifkan atau menonaktifkan semua trigger yang berlaku untuk
sebuah tabel, digunakan perintah :
ALTER TABLE table_name DISABLE | ENABLE ALL
Untuk melakukan kompilasi ulang sebuah trigger, digunakan perintah :
ALTER TRIGGER trigger_name COMPILE
Untuk menghapus trigger dari database, digunakan perintah :
DROP TRIGGER trigger_name
Catatan : Semua trigger yang berlaku pada sebuah tabel akan dihapus pada saat tabel
tersebut dihapus dari database.
t
e
N
a
r
d
RINGKASAN:
•
n
e
H
Trigger adalah blok PL/SQL atau prosedur yang berhubungan dengan table, view,
skema atau database yang dijalankan secara implicit pada saat terjadi event.
•
By
Tipe dari trigger adalah : Application trigger (diaktifkan pada saat terjadi event
yang berhubungan dengan sebuah aplikasi) dan database trigger (diaktifkan pada
saat terjadi event yang berhubungan dengan data)
•
Trigger dibuat pada saat yang tepat jika diperlukan yaitu untuk membentuk sebuah
aksi tertentu terhadap suatu event dan memusatkan operasi global
•
Penggunaan trigger yang terlalu berlebihan akan menyebabkan terjadi sifat
ketidaktergantungan
yang
terlalu
kompleks
sehingga
akan
mempersulit
pemeliharaan dari aplikasi yang besar.
•
Trigger berisi komponen-komponen : trigger timing, trigger event, nama tabel, tipe
trigger, klausa WHEN dan trigger body.
•
Beberapa event pada trigger bisa dikombinasikan dalam sebuah trigger dengan
menggunakan predikat kondisional INSERTING, UPDATING dan DELETING
•
Pada Row Trigger, nilai dari kolom sebelum dan sesudah perubahan data dapat
dirujuk dengan menggunakan OLD dan NEW qualifier.
http://www.hendra-jatnika.web.id
BAB 5 DATABASE TRIGGER
71
LATIHAN SOAL :
1.
Perubahan pada data hanya diperbolehkan selama jam kerja dari jam 8:45 pagi
sampai 17.30 , dari Senin hingga Jum’at. Buat stored procedure dengan nama
SECURE_DML untuk mencegah DML statement dijalankan diluar dari jam kerja,
dengan menampilkan pesan “Perubahan pada data hanya diperbolehkan hanya pada
jam kerja”
2.
Buat statement trigger pada tabel JOBS untuk memanggil prosedur diatas.
3.
Implementasikan trigger berikut pada table JOBS sehubungan dengan kenaikan gaji
pegawai. Buat stored procedure dengan nama UPD_EMP_SAL untuk mengupdate
jumlah gaji. Prosedur ini menerima dua parameter : job id dari gaji yang akan
diubah dan nilai minimum salary yang baru. Prosedur ini dijalankan dari trigger
yang dibuat pada table JOBS.
4.
Lanjutan
dari
soal
nomer
UPDATE_EMP_SALARY
pada
3,
buat
a
r
d
t
e
N
table
n
e
H
row
JOBS
trigger
yang
dengan
memanggil
nama
prosedur
UPD_EMP_SAL, pada saat minimum gaji pada table JOBS diubah untuk suatu job
ID tertentu.
By
http://www.hendra-jatnika.web.id
Bab 6
Basis Data Client / Server
POKOK BAHASAN:
Pendahuluan
Arsitektur Client-Server
Pengaksesan Query pada Basis Data Client-Server
t
e
N
TUJUAN BELAJAR:
a
r
d
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami konsep basis data client-server.
Memahami arsitektur client- server
Memahami pengaksesan query pada basis data client-server dan bagaimana
perangkat lunak client-server.
By
n
e
H
6.1 PENDAHULUAN
Aplikasi basis data terdistribusi dikembangkan dalam bentuk arsitektur clientserver. Teknologi client-server berkembang secara cepat sebagai teknologi lanjut. Pada
beberapa waktu yang lalu, sangat sulit memprediksikan status saat ini teknologi clientserver yang terjadi saat ini. Hal ini sama sulitnya dengan memprediksi teknologi untuk
beberapa tahun ke depan. Beberapa faktor yang berpengaruh pada fungsi client atau
server atau keduanya, melibatkan perangkat keras dan perangkat lunak, protocol
network, teknologi LAN/WAN dan komunikasi. Penurunan biaya dari beberapa faktor
tersebut menyebabkan semakin besar kemungkinan mempunyai sistem yang kuat.
72
http://www.hendra-jatnika.web.id
BAB 6 BASIS DATA CLIENT-SERVER
73
6.2 ARSITEKTUR CLIENT-SERVER
Saat ini arsitektur client-server yang banyak digunakan dalam industri disebut
two-tier architecture. Pada arsitektur ini, server mengirim data dan client mengakses
data. Server memainkan peranan yang dominan pada arsitektur ini. Keuntungan sistem
ini adalah kesederhanaan dan kompatibilitas dengan sistem yang legal.
Arsitektur client-server yang dikembangkan kemudian adalah three-tier
architecture. Pada model ini, layer direpresentasikan sebagai host, server dan client.
Server memainkan peranan sebagai penengah dengan mengirim aturan bisnis (prosedur
atau constraint) yang digunakan untuk mengakses data dari host. Client berisi antar
muka GUI dan beberapa aplikasi tambahan mengenai aturan bisnis. Kemudian server
bertindak sebagai conduit of passing memproses data dari host ke client dimana
kemudian diproses atau difilter dan dipresentasikan ke pemakai dalam format GUI.
t
e
N
Antar muka pemakai, aturan dan pengaksesan data bertindak sebagai three tiers. Cient
a
r
d
biasanya dihubungkan ke server melalui LAN dan server dihubungkan ke host melalui
n
e
H
WAN. Client melakukan remote yang dihubungkan ke server melalui WAN juga.
Sistem ini sangat cocok untuk perusahaan besar dimana basis data terpusat dapat
By
disimpan dalam host dan biaya pembangunan LAN dan WAN dapat diatur dan
dioptimasi menggunakan teknologi yang baru untuk setiap bagian yang berbeda dalam
organisasi.
6.3 PENGAKSESAN QUERY PADA BASIS DATA CLIENT-SERVER
Bagaimana membagi fungsi DBMS antara client dan server tidak ada ketentuan.
Sehingga banyak pendekatan yang berbeda ditawarkan.
Satu kemungkinan adalah
memasukkan fungsi dari DBMS terpusat pada level server. Sejumlah DBMS relasional
menggunakan pendekatan ini, dimana SQL server disediakan untuk client. Setiap client
harus menggunakan query SQL yang tepat dan menyediakan antar muka pemakai dan
fungsi antar muka untuk bahasa pemrograman. Karena SQL adalah bahasa standard
relasional, berbagai SQL server, meskipun disediakan oleh vendor yang berbeda, dapat
menerima perintah SQL. Client juga merujuk pada data dictionary yang didalamnya
http://www.hendra-jatnika.web.id
BAB 6 BASIS DATA CLIENT-SERVER
74
terdapat informasi pada data distribusi diantara server SQL yang berbeda, sebagai
modul untuk dekomposisi query global ke dalam sejumlah query local yang dapat
dieksekusi pada berbagai tempat. Interaksi antara client dan serber selama pemrosesan
query SQL adalah sebagai berikut :
1. Client melakukan parsing query pemakai dan memecahnya ke dalam sejumlah
query independent untuk setiap tempat. Setiap query terseut dikirim ke server
yang sesuai.
2. Setiap server memproses query lokal dan mengirim relasi hasil ke client.
3. Client mengkombinasikan hasil sub query untuk mempruksi hasi dari query asal
yang dikirim.
Pada pendekatan ini, server SQL juga disebut transaction server (atau database
processor (DP) atau back-end machine), sedangkan client disebut application processor
(AP) atau front-end machine. Interaksi antara client dan server ditentukan oleh pemakai
t
e
N
pada level client atau melalui modul khusu pada DBMS client yang merupakan bagian
dari paket DBMS. Sebagai contoh, pemakai mengetahui apa data yang dikirim setiap
a
r
d
server, membagi permintaan query ke sub query secara manual adan mengirimkan sub
n
e
H
query secara individu ke tempat yang berbeda. Tabel hasil dikombinasikan secara
By
eksplisit dengan query user pada level client. Alternatif lain adalah mempunyai modul
client yang melakukan kegiatan diatas secara otomatis.
Dalam DDBMS yang banyak digunakan, model perangkat lunak dibagi ke
dalam tiga level :
1. Perangkat lunak server bertanggung jawab pada manajemen data lokal,
kebanyakan sama dengan perangkat lunak DBMS
2. Perangkat lunak client bertanggung jawab untuk fungsi distribusi; mengakses
informasi distribusi data dari katalog DDBMS dan memproses semua
permintaan yang membutuhkan akses ke lebih dari satu tempat. Hal ini juga
ditangani semua antar muka user.
3. Perangkat lunak komunikasi (biasanya dihubungkan dengan sistem operasi
terdistribusi) menyediakan primitif komunikasi yang digunakanoleh client untuk
mengirim perintah dan data ke tempat yang berbeda sesuai kebutuhan. Hal ini
bukan bagian yang terpenting dalam DDBMS, tetapi menyediakan primitf
komunikasi dan pelayanan yang esensial.
http://www.hendra-jatnika.web.id
BAB 6 BASIS DATA CLIENT-SERVER
75
Client bertanggung jawab untuk membangkitkan eksekusi terdistribusi untuk
beberapa tempat server suatu query atau transaksi dan untuk melakukan supervisi
eksekusi terdistribusi dengan mengirim perintah ke server. Perintah ini termasuk query
lokal dan transaksi yang dieksekusi selain perintah untuk mengirim data ke client atau
server lain.
Fungsi lain dikontrol oleh client (atau koordinator) adalah menjamin
konsistensi dari copy replika dari item data dengan teknik concurrency control
terdistribusi (global).
Client harus menjamin transaksi global atomik dengan
membentuk global recovery jika tempat yang dimaksud gagal.
Satu fungsi yang
mungkin dari client adalah menyembunyikan detail distribusi data dari pemakai, yang
memungkinkan pemakai menulis query global dan transaksi seperti basis data yang
terpusat, tanpa harus menentukan tempat dimana data dirujuk dalam query atau
transaksi berada. Properti ini disebut distribution transparency. Beberapa DDBMS
tidak melakukan distribution tranparency, sehingga pemakai harus berhati-hati terhadap
t
e
N
distribusi data secara detail.
a
r
d
RINGKASAN:
By
n
e
H
•
Konsep arsitektur client-server berhubungan dengan basis data terdistribusi.
•
Arsitektur client-server yang dikembangkan saat ini menggunakan three-tier
arsitektur dimana terdapat tiga komponen utama yaitu host, server dan client.
•
Pengaksesan Query dilakukan dengan cara client melakukan permintaan query
dengan mengirimkan sub query ke beberapa tempat server dan setelah server
mengirimkan hasilnya ke client, client mengkombinasikan hasil sub query ke
query asal.
•
Modul perangkat lunak yang terdapat pada DDBMS dapat dibagi dalam tiga level,
yaitu perangkat lunak server, client dan komunikasi
http://www.hendra-jatnika.web.id
BAB 6 BASIS DATA CLIENT-SERVER
76
LATIHAN SOAL :
1. Apa yang dimaksud system client-server ?
2. Apa perbedaan konsep arsitektur client-server yang ada sekarang dengan
arsitektur system terdistribusi ?
3. Sebutkan bagaimana tugas host, server dan server pada three-tier architechtur.
4. Jelaskan bagaimana pengaksesan query dari client ke server dan hasil query dari
server ke client.
5. Perangkat lunak apa saja yang diperlukan pada system client-server ?
t
e
N
a
r
d
By
n
e
H
http://www.hendra-jatnika.web.id
Bab 7
Basis Data Terdistribusi
POKOK BAHASAN:
Pendahuluan
Tipe Basis Data Terdistribusi
Arsitektur Basis Data Terdistribusi
Penyimpanan Data pada Sistem Terdistribusi
Manajemen Katalog Terdistribusi
Query Terdistribusi
Joins pada DBMS Terdistribusi
Optimasi Query pada DBMS Terdistribusi
Mengubah Data Terdistribusi
Locking pada Sistem Terdistribusi
Distributed Recovery
t
e
N
a
r
d
By
n
e
H
TUJUAN BELAJAR:
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami perbedaan DBMS terdistribusi dan DBMS terpusat.
Memahami arsitektur basis data terdistribusi.
Memahami penyimpanan data, catalog data pada system terdistribusi.
Memahami query, join dan optimasi query pada DBMS terdistribusi
Memahami bagaimana mengubah data, melakukan locking data pada DBMS
terdistribusi.
Memahami bagaimana menangani kegagalan pada sistem terdistribusi
7.1 PENDAHULUAN
Pada basis data terdistribusi (distributed database), data disimpan pada beberapa
tempat (site), setiap tempat diatur dengan suatu DBMS (Database Management System)
77
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
78
yang dapat berjalan secara independent. Properti yang terutama terdapat pada basis data
terdistribusi :
•
Independensi data terdistribusi : pemakai tidak perlu mengetahui dimana data berada
(merupakan pengembangan prinsip independensi data fisik dan logika).
•
Transaksi terdistribusi yang atomic : pemakai dapat menulis transaksi yang
mengakses dan mengubah data pada beberapa tempat seperti mengakses transaksi
local.
Untuk trend basis data terdistribusi saat ini, pemakai harus mengetahui dimana
data ditempatkan, juga harus mengetahui dimana system yang tidak mendukung
independensi data terdistribusi dan transaksi terdistribusi atomic.
tersebut harus mendukung system secara efisien.
Kedua property
Untuk system terdistribusi yang
bersifat global, properti-properti tersebut kemungkinan tidak tepat karena adanya
administrasi yang terlalu berlebihan dalam membuat lokasi data yang transparan.
t
e
N
a
r
d
7.2 TIPE BASIS DATA TERDISTRIBUSI
By
n
e
H
Terdapat dua tipe basis data terdistribusi :
•
Homogen : yaitu sistem dimana setiap tempat menjalankan tipe DBMS yang sama
•
Heterogen : yaitu sistem dimana setiap tempat yang berbeda menjalankan DBMS
yang berbeda, baik Relational DBMS (RDBMS) atau non relational DBMS.
Gambaran basis data terdistribusi yang heterogen dapat dilihat pada Gambar 7-1.
Gateway
DBMS1
DBMS2
DBMS3
Gambar 7-1: Basis data terdistribusi heterogen
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
79
7.3 ARSITEKTUR BASIS DATA TERDISTRIBUSI
Terdapat tiga pendekatan alternatif untuk membagi fungsi pada proses DBMS
yang berbeda. Dua arsitektur alternatif DBMS terdistribusi adalah Client/Server dan
Collaboration Server.
•
Client-Server
Sistem client-server mempunyai satu atau lebih proses client dan satu atau lebih
proses server, dan sebuah proses client dapat mengirim query ke sembarang proses
server seperti pada Gambar 7-2. Client bertanggung jawab pada antar muka untuk
user, sedangkan server mengatur data dan mengeksekusi transaksi. Sehingga suatu
proses client berjalan pada sebuah personal computer dan mengirim query ke
t
e
N
sebuah server yang berjalan pada mainframe.
a
r
d
n
e
H
QUERY
By CLIENT
SERVER
CLIENT
SERVER
SERVER
Gambar 7-2: Sistem client-server
Arsitektur ini menjadi sangat popular untuk beberapa alasan.
Pertama,
implementasi yang relatif sederhana karena pembagian fungis yang baik dank arena
server tersentralisasi.
Kedua, mesin server yang mahal utilisasinya tidak
terpengaruh pada interaksi pemakai, meskipun mesin client tidak mahal. Ketiga,
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
80
pemakai dapat menjalankan antarmuka berbasis grafis sehingga pemakai lebih
mudah dibandingkan antar muka pada server yang tidak user-friendly.
Pada saat menulis aplikasi client-server, perlu diingat batasan antara client dan
server dan untuk menjaga komunikasi antara keduanya yang berorientasi himpunan.
Khususnya membuka kursor dan mengambil tupel pada satu waktu membangkitkan
beberapa pesan dan dapat diabaikan.
•
Collaboration Server
Arsitektur client-server tidak mengijinkan satu query mengakses banyak server
karena proses client harus dapat membagi sebuah quer ke dalam beberapa subquery
untuk dieksekusi pada tempat yang berbeda dan kemudian membagi jawaban ke
subquery. Proses client cukup komplek dan terjadi overlap dengan server; sehingga
perbedaan antara client dan server menjadi jelas. Untuk mengurangi perbedaan
diguankan alternatif arsitektur client-server yaitu sistem Collaboration Server. Pada
t
e
N
sistem ini terdapat sekumpulan server basis data, yang menjalankan transaksi data
lokal yang bekerjasama mengeksekusi transaksi pada beberapa server seperti pada
a
r
d
Gambar 7-3..
n
e
H
Jika server menerima query yang membutuhkan akses ke data pada server lain,
By
sistem membangkitkan subquery yang dieksekusi server lain dan mengambil
hasilnya bersama-sama untuk menggabungkan jawaban menjadi query asal.
SERVER
SERVER
SERVER
QUERY
Gambar 7-3: Collaboration System
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
81
7.4 PENYIMPANAN DATA PADA SISTEM TERDISTRIBUSI
Pada DBMS terdistribusi, relasi disimpan pada beberapa tempat. Pengaksesan
relasi yang disimpan pada remote side mengakibatkan biaya melewatkan pesan dan
untuk menguranginya, sebuah relasi dipartisi atau difragmentasi ke beberapa tempat,
dengan fragmen dikirim pada tempat dimana fragmen tersebut sering diakses, atau
replika pada pada setiap tempat dimana relasi menjadi kebutuhan yang tinggi
• Fragmentasi
Fragmentasi terdiri dari relasi yang dibagi ke relasi atau fragmen yang lebih kecil
dan mengirim fragmen, pada beberapa tempat. Terdapat dua macam fragmentasi,
fragmentasi horizontal dan fragmentasi vertikal. Pada fragmentasi horisontal, setiap
fragmen terdiri dari sebuah subset baris dari relasi asal. Pada fragmentasi vertikal,
setiap fragment terdiri dari sebuah subset kolom dari relasi asal.
Fragmentasi
t
e
N
horisontal dan vertikal diilustrasikan pada Gambar 7-4.
a
r
d
TI
t
t
By
n
e
H
t
t
Fragmentasi vertikal
Fragmentasi horisontal
Gambar 7-4: Fragmentasi horisontal dan vertikal
Bila sebuah relasi difragmentasi, harus meliputi relasi asal dari fragmen :
o Fragmentasi horisontal : union dari fragmen horisontal harus sama dengan
relasi asal. Fragmen biasanya dibutuhkan disjoint.
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
82
o Fragmentasi vertikal : koleksi fragmen vertikal seharusnya dekomposisi
lossless-join.
Untuk menjamin fragmentasi vertikal lossless-join, sistem harus menyediakan id
tupel yang unik untuk setiap tupel dalam relasi asli. Jika kita berpilir bahwa relasi
asal sebagai field yang berisi tambahan tupel-id sebagai kunci, field ini ditambahkan
ke setiap fragmen vertikal. Sehingga dekomposisi dijamin lossless-join.
• Replikasi
Replikasi berarti bahwa kita menyimpan beberapa copy sebuah relasi atau fragmen
relasi. Keseluruan relasi dapat direplikasi pada satu atau lebih tempat. Sebagai
contoh, jika relasi R difragmentasi ke R1, R2 dan R3, kemungkinan terdapat hanya
satu copy R1, dimana R2 adalah replikasi pada dua tempat lainnya dan R3 replikasi
pada semua tempat. Hal ini dapat diilustrasikan pada Gambar 7-5.
t
e
N
a
r
d
By
n
e
H
R1
R3
SITE A
SITE B
R1
R2
Gambar 7-5: Replikasi
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
83
Motivasi untuk replikasi adalah :
o
Meningkatkan ketersediaan data : Jika sebuah tempat yang berisi replika
melambat, kita dapat menemuka data yang sama pada tempat lain. Demikian
pula, jika copy lokal dari relasi yang diremote tersedia, maka tidak terpengaruh
saluran komunikasi yang gagal.
o
Evaluasi query yang lebih cepat : query dapat mengeksekusi lebih cepat
menggunakan copy local dari relasi termasuk ke remote site.
7.5 MANAJEMEN KATALOG TERDISTRIBUSI
Menyimpan data terdistribusi pada beberapa tempat dapat menjadi sangat
kompleks. Kita harus menyimpan data bagaimana relasi difragmentasi dan replikasi,
bagaimana fragmen relasi didistribusikan ke beberapa tempat dan dimana kopi dari
fragmen disimpan.
et
Nama setiap replika dari setiap fragmen harus ada.
Untuk
N
a
r
menyediakan otonomo lokal digunakan format sebagai berikut :
d
n
e
<local-name, birth-site>
Katalog setiap tempat menggambarkan semua obyek (fragmen, replika) pada
By
H
suatu tempat dan menyimpan data replika dari relasi yang dibuat pada tempat tersebut.
Untuk menemukan relasi, lihat pada katalog birth-site. Birth-site tidak pernah berubah
meskipun relasi dipindahkan.
7.6 QUERY TERDISTRIBUSI
Misalnya pada dua relasi :
Sailors(sid: integer, sname: string, rating: integer, age: real)
Reserves(sid: integer, bid: integer, day: date, rname: string)
Kemudian dilakukan query berikut :
SELECT AVG(S.age) FROM Sailors S WHERE S.rating > 3 AND
S.rating < 7
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
•
84
Fragmentasi horisontal : tupel dengan rating < 5 pada Shanghai, >= 5 pada
Tokyo. Harus menghitung SUM(age), COUNT(age) pada kedua tempat. Jika
WHERE berisi hanya S.rating>6, maka hanya satu tempat.
•
Fragmentasi vertikal : sid dan rating pada Shanghai, sname dan age pada Tokyo,
tid pada kedua tempat. Harus melakukan rekonstruksi relasi dengan join pada tid
kemudian mengevaluasi query.
•
Replikasi : Sailor di-copy kan pada kedua tempat.
7.7 JOINS PADA DBMS TERDISTRIBUSI
Sebagai contoh, London menyimpan 500 halaman Sailor dan Paris mempunyai
1000 halaman Reserves seperti Gambar 7-6.
t
e
N
LONDON
Sailors
By
PARIS
n
e
H
aReserves
r
d
500 halaman
1000 halaman
Gambar 7-5: Contoh Sistem Terdistribusi
Untuk menangani joing pada DBMS terdistribusi harus diperhatikan hal-hal
berikut :
•
Ambil halaman sesuai kebutuhan, pada suatu nested loop join di London dengan
Sailor sebagai outer dan setiap halaman Sailor, ambil semua halaman Reserver
dari Paris.
Jika halaman Reserves di London diambil sampai join selesai,
halaman akan diambil sekali, tetapi asumsikan bahwa halaman Reserves tidak
diambil semul sampai selesai, maka biaya akan menjadi mahal.
– Biaya : 500 D + 500 * 1000 (D+S)
– D adalah biaya membaca/menulis halaman; S adalah biaya pengiriman
halaman.
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
85
– Jika query tidak dikirim ke London, harus menambah biaya hasil
pengiriman ke query site.
– Dapat juga mengerjakan inner nested loop di London, ambil tupelo
Reserves yang sesuai ke London sesuai kebutuhan.
•
Pengiriman ke satu tempat : Kirimkan Reserves ke London.
– Biayat: 1000 S + 4500 D (Semi Join; biaya = 3*(500+1000))
– Jika ukuran hasil sangat besar, lebih baik mengirimkan kedua relasi ke
result site dan kemudian lakukan join.
Semijoin
Teknik semijoin ditujukan untuk mengurangi jumlah tupelo Reserves yang
dikirim. Idenya terdiri dari langkah-langkah berikut :
1. Di London, proyeksikan Sailors ke kolom join dan kirimkan ke Paris.
t
e
N
2. Di Paris, lakukan join pada proyeksi Sailors dengan Reserves. Hasil join disebut
a
r
d
reduksi dari Reserves dengan Sailors
3. Kirimkan reduksi Reserves ke London
n
e
H
4. Pada London, join Sailors dengan Reserves yang sudah direduksi
By
Ide dari langkah semijoin tersebut adalah mengurangi biaya komputasi dan
proyeksi pengiriman dan komputasi dan proyeksi pengiriman untuk biaya pengiriman
relasi Reserves penuh. Semijoin terutama bermanfaan jika terdapat sebual seleksi pada
Sailors dan jawaban tersedia di London.
Bloomjoin
Teknik bloomjoin juga ditujukan untuk mengurangi jumlah tupelo Reserves yang
dikirim. Idenya terdiri dari langkah-langkah berikut :
1. Di London, hitung sebuat bit-vector dari beberapa ukuran k. Nilai kolom hash join
mempunyai jangkauan 0 sampai k-1. Jika beberapa tupel melakukan teknik hashing
ke I, set bit I menjadi 1 (I dari 0 sampai k-1). Kirimkan bit-vector ke Paris
2. Di Paris, lakukan hashing setiap tupel Reserves dengan cara yang sama dan abaikan
tupel yang melakukan hashing ke 0 di bit-vector Sailors. Hasilnya disebut reduksi
Reserves with Sailors.
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
86
3. Kirimkan bit-vector hasil reduksi Reserves ke London
4. Di London, join Sailors dengan hasil reduksi Reserves
5. Bit-vector biaya pengirimannya lebih murah, juga lebih efektif
7.8 OPTIMASI QUERY PADA DBMS TERDISTRIBUSI
Untuk optimasi query pada sistem terdistribusi, menggunakan pendekatan
biaya, misalnya pada semua plan, mengambil yang termurah, sama dengan optimasi
tersentralisasi.
Perbedaan optimasi query pada sistem terdistribusi dan sistem
tersentralisasi, pertama, biaya komunikasi harus dipertimbangkan.
Kedua, otonomi
tempat lokal harus diperhatikan. Ketiga, menggunakan metode join terdistribusi yang
baru.
Query site membangun daerah global, dengan daerah local menggambarkan
t
e
N
pemrosesan pada setiap tempat. Jika sebuah tempat dapat melakukan improvisasi pada
daerah lokal, dapat dilakukan dengan bebas.
a
r
d
n
e
H
7.9 MENGUBAH DATA TERDISTRIBUSI
By
Untuk melakukan pengubahan data terdistribusi, dilakukan replikasi transaksi
yang dapat dilakukan dengan cara :
•
Synchronous Replication : semua copy dari relasi yang dimodifikasi (fragmen)
harus diubah sebelum modifikasi transaksi commit.
Distribusi data dibuat
transparan ke pemakai.
•
Asynchronous Replication : Copy dari sebuah relasi yang dimodifikasi hanya
diubah secara periodik, copy yang berbeda akan keluar dari sinkronisasi. User
harus waspada pada distribusi data. Produk saat ini mengikuti pendekatan ini.
Synchronous Replication
Terdapat dua teknik dasar untuk menjamin transaksi terlihat nilai yang sama
dengan copy, yaitu :
•
Voting : transaksi harus menulis mayoritas copy untuk memodifikasi sebuah
obyek, harus membaca cukup copy untuk meyakinkan bahwa terlihat setidaknya
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
87
satu dari copy saat itu. Misalnya terdapat 10 copy, 7 penulisan untuk perubahan
dan 4 copy untuk pembacaan. Setiap copy mempunyai nomor versi. Teknik ini
biasanya tidak atraktif karena pembacaan adalah hal yang biasa.
•
Read-any Write-all:
penulisan lebih lambah dan pembacaan lebih cepat
daripada teknik Voting.
Teknik ini banyak digunakan pada synchronous
replication
Pemilihan teknik synchronous replication akan menentukan tempat mana yang terkunci
untuk seting.
Biaya pada synchronous replication adalah sebagai berikut : sebelum transaksi
yang diubah commit, harus dilihat penguncian pada semua copy yang dimodifikasi.
Kirimkan perintah lock ke remote site, dan sementara menunggu respon, pegang kunci
yang lain. Jika tempat atau saluran gagal, transaksi tidak dapat commit sampai transaksi
t
e
N
kembali. Meskipun tidak terjadi kegagalan, commit harus mengikuti commit protocol
dengan beberapa pesan yang mahal.
replication banyak digunakan.
By
Asynchronous Replication
Karena itu alternative teknik asynchronous
a
r
d
n
e
H
Asynchronous replication mengijinkan memodifikasi transaksi commit sebelum
semua copy diubah (dan pembaca tidak hanya melihat satu copy). Pemakai harus
waspada copy yang keluar dari sinkronisasi untuk suatu periode waktu yang pendek.
Teknik asynchronous replication menggunakan dua pendekatan, yaitu Primary
Site dan Peer to Peer replication. Perbedaan kedua teknik ini terletak pada berapa
banyak copy yang dapat diubah atau copy master.
•
Peer to Peer replication.
Lebih dari satu copy dari suatu obyek dapat menjadi sebuah master. Perubahan ke
copy master harus dipropaganda ke copy lain dengan cara yang berlainan. Jika dua
copy master diubah dan terjadi suatu konflik, konflik harus dipecahkan (misalnya
Tempat 1 : umur Joe mengubah 35, Tempat 2 : mengubah 36. Teknik ini bagus
digunakan jika konflik tidak terjadi, misalnya setiap tempat master memiliki
fragmen disjoin dan yang memiliki hak pengubahan dimiliki oleh satu master pada
satu waktu.
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
•
88
Primary Site replidation.
Tepat satu copy dari suatu relasi digunakan sebagai primary copy atau master copy.
Replika pada tempat lain tidak langsung diubah. Primary copy dipublikasikan.
Tempat lain menjalankan (fragmen) ke relasi ini, terdapat beberapa copy sekunder.
Isu utama adalah bagaimana pengubahan primary copy dapat dipropaganda ke copy
sekunder ? Hal in idapat dilakukan dalam dua langkah. Langkah pertama ambil
pengubahan yang dibuat dengan transaksi commit, kemudian aplikasikan perubahan
tersebut. Exactly one copy of a relation is designated the primary or master copy.
Replicas at other sites cannot be directly updated.
Implementasi Primary Site pada Asynchronous Replication
Isu utama dalam mengimplementasikan primary site replication adalah
menentukan barapa banyak perubahan ke primary copy dipropaganda ke copy sekunder.
Perubahan biasanya dipropaganda dalam dua langkah yaitu Capture dan Apply.
t
e
N
Perubahan dibuat dengan transaksi commit ke primary copy yang diidentifikasi selama
langkah Capture dan dipropaganda ke copy sekunder selama langkah Apply.
a
r
d
n
e
H
Mengimplementasikan Langkah Capture
By
Langkah Capture diimplementasikan dengan satu dari dua pendekatan, yaitu
Log-Based Capture dan Procedureal Capture.
•
Log-Based
Capture
:
log
(menyimpan
recovery)
digunakan
untuk
membangkitkan Change Data Table (CDT). Jika hal ini dikerjakan ketika log
terakhir ditulis ke disk, harus menghapus perubaan ke subsequent yang
dihentikan transaksi.
•
Procedural Capture: suatu prosedur yang secara otomatis dibangkitkan (trigger)
mengerjakan capture.
Implementasi capture dengan Log-Based Capture lebih baik karena lebih murah dan
lebih cepat tetapi harus memahami detail dari property log.
Mengimplementasikan Langkah Apply
Proses Apply pada tempat sekunder secara periodic mengakibatkan perubahan
ke table CDT dari primary site, dan mengubah copy. Periode didefinisikan oleh timer
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
89
atau pemakai/aplikasi. Replika dapat dipandang lebih dari relasi yang dimodifikasi.
Jika hal ini terjadi, replica terdiri dari pengubahan pandangan material yang naik
sebagai perubahan relasi.
Log-Based Capter ditambah Apply yang terus-menerus akan meminimalkan
delay pada propaganda perubahan. Procedureal Capture ditambah application-driven
Apply merupakan cara yang fleksibel untuk perubahan proses.
Data Warehousing : Sebuah contoh Replication
Trend yang berkembang saat ini adalah membangun “warehouses” data yang
sangat besar dari beberapa tempat. Hal ini memungkinkan untuk query pendukung
keputusan yang kompleks dari data pada keseluruhan organisasi. Warehouse dapat
dipandang sebagai instance dari asynchronous replication.
Data sumber biasanya
dikontrol dengan DBMS yang berbadi, penekanannya pada cleaning data dan
t
e
N
menghapus kesalahan pada pembuatan replikasi. Prosedur Capture dan aplikasi Apply
baik untuk lingkungan ini.
a
r
d
n
e
H
7.10 LOCKING PADA SISTEM TERDISTRIBUSI
By
Untuk menangani penguncian obyek pada beberapa tempat digunakan cara :
•
Sentralisasi : satu tempat melakukan semua penguncian dan membuka kunci
untuk semua obyek
•
Primary Copy : semua penguncian untuk suatu obyek dikerjakan pada tempat
primary copy dari obyek tersebut. Untuk pembacaan membutuhkan akses ke
tempat terkunci sebaik tempat dimana obyek disimpan.
•
Terdistribusi penuh : penguncian untuk suatu copy dilakukan pada tempat
dimana copy disimpan. Hal in akan mengunci semua tempat pada saat menulis
obyek.
Distributed Deadlock Detection
Setiap tempat menangani local wait-for graph. Deadlock global akan terjadi jika
local graph tidak membentuk siklus seperti dapat dilihat pada Gambar 7-6 menunjukkan
terjadi deadlock global.
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
T1
T2
90
T1
SITE A
T2
SITE B
T1
T2
GLOBAL
Gambar 7-6: Deadlock Global
Untuk mendeteksi deadlock digunakan tiga solusi yaitu : Sentralisasi, yaitu
mengirim semua local graph ke satu tempat. Hierarki yaitu mengorganisasi tempat ke
dalam suatu hirarki dan mengirim local graph ke parent dari hirarki. Timeout yaitu
menghentikan transaksi jika menunggu terlalu lama.
7.11 DISTRIBUTED RECOVERY
t
e
N
Proses pemulihan pada DBMS terdistribusi lebih kompleks daripada pada DBMS
a
r
d
tersentralisasi karena sebab berikut :
n
e
H
•
Terjadi kegagalan yang baru, misalnya saluran komunikasi dan remote site.
•
Jika sub transaksi dari suatu transaksi mengeksekusi tempat yang berbeda,
By
semua atau tidak ada yang harus commit. Hal ini memerlukan commit protocol
untuk menangani hal tersebut.
Suatu log ditangani pada setiap tempat, sebagaimana pada DBMS tersentralisasi
dan aksi commit protocol ditambahkan pada log.
Two-Phase Commit (2PC)
Tempat dimana transaksi asal disebut koordinator, sedangkan tempat lain
dimana transaksi mengeksekusi disebut sub ordinat. Jika sebuah transaksi ingin commit
maka coordinator mengirim pesan prepare ke semua sub ordinat.
Sub ordinat
memaksa menulis rekaman log abort atau prepare dan mengirim suatu pesan no or
yes ke coordinator. Jika coordinator menerima pesan yes, maka coordinator memaksa
menulis suatu rekaman log commit dan mengirim pesan commit ke semua sub ordinat.
Sebaliknya, memaksa menulis rekaman log abort dan mengirim pesan abort. Sub
Ordinat memaksa menulis rekaman log abort/commit berdasarkan pesan yang didapat,
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
91
kemudian mengirim pesan ack ke koordinator. Koordinator menulis rekaman log end
setelah mendapatkan semua pesan ack.
Pada 2PC terdapat dua bentuk komunikasi, pertama voting kemudian terminasi.
Kedua bentuk komunikasi diinisialisasi oleh coordinator.
memutuskan untuk abort suatu transaksi.
Setiap tempat dapat
Setiap pesan merupakan keputusan oleh
pengirim, untuk menjamin bahwa keputusan bertahan dari kegatalah. Untuk itu pertama
kali disimpan pada local log. Semua commit protocol menyimpan log untuk suatu
transaksi yang terdiri dari id transaksi dan id coordinator. Rekaman abort/commit oleh
coordinator juga termasi id semua sub ordinat.
Restart Setelah Suatu Kegagalan pada Suatu Tempat
•
Jika kita mempunyai rekaman log commit atau abort untuk transaksi T, tetapi
tidak mempunyai rekaman end, maka harus redo/undo T. Jika tempat ini adalah
t
e
N
coordinator untuk T, tetap kirimkan pesan commit/abort ke sub ordinat sampai
diterima pesan ack.
•
a
r
d
Jika kita menyiapkan rekaman log transaksi T, tetapi tidak commit/abort, tempat
n
e
H
ini adalah sub ordinat untuk T. Sub ordinat terus menghubungi coordinator
By
untuk menemukan status T, kemunian menulis rekaman log commit/abort
redo/undo T dan menulis rekaman log end.
•
Jika kita tidak meyiapkan rekaman log untuk T, secara sepihak akan abort dan
undo T. Tempat ini kemungkinan coordinator. Jika ya, sub ordinat mungkin
mengirim pesan
Jika coordinator untuk transaksi gagal, sub ordinat yang memilih yes tidak dapat
memutuskan apakah commit atau abort T sampai coordinator pulih. Pada saat itu T
akan diblok.
Meskipun jika semua sub ordinat saling mengetahui (melebihi yang
tersedia pesan) maka transaksi adakn diblok sampai satu dari sub ordinat memilih no.
Jika suatu remote site tidak merespon selama commit protocol untuk transaksi
T, aik karena tempat gagal atau saluran gagal :
• Jika tempat tersebut adalah coordinator untuk T, maka abort T
• Jika tempat tersebut adalah sub ordinat, dan tidak memilih yes, maka harus abort T
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
92
• Jika tempat tersebut sub ordinat dan memilih yes, maka akan diblok sampai
coordinator me-respon.
Pesan ack digunakan untuk menyampaikan coordinator bahwa koordinat dapat
melupakan suatu transaksi, sampai coordinator menerimas semua ack, harus menyimpan
T pada table transaksi.
•
Jika coordinator gagal setelah mengirim pesan siap tetapi sebelum menulis
rekaman log commit/abort, jika coordinator kembali maka akan abort transaksi
•
Jika sub transaksi tidak diubah, status commit atau abort tidak relevan.
Apabila coordinator menghentikan (abort) T, koordiator tidak mengerjakan T
dan menghapusnya dari table transaksi segera. Jadi coordinator tidak menunggu acks,
“presumes abort” jika transaksi tidak di dalam table transaksi. Nama sub ordinat tidak
disimpan dalam rekaman log abort. Sub ordinat tidak mengirim ack pada abort. Jika
sb transaksi tidak diubah, sub ordinat merespon pesan prepare dengan menulis yes/no.
t
e
N
Koordinat mengabaikan pembaca. Jika semua sub transaksi adalah pembaca, fase kedua
a
r
d
tidak diperlukan.
RINGKASAN:
•
By
n
e
H
Pada basis data terdistribusi, data disimpat pada beberapa lokasi dengan tujuan
untuk membuat distribusi yang transparan.
Pada basis data terdistribusi,
distributed data independence (pemakai tidak perlu mengetahui lokasi data ) dan
distributed transaction atomicity (dimana tidak ada perbedaan antara transaksi
terdistribusi dan transaksi local). Jika semua lokasi menjalankan perangkat lunak
DBMS yang sama, system disebut homogen, selain itu disebut heterogen.
•
Arsitektur sistem basis data terdistribusi terdapat tiga tipe. Pada system ClientServer, server menyediakan fungsi DBMS dan client menyediakan antar muka
pemakai.
Pada Collaboration system system, tidak terdapat perbedaan antara
proses client dan server.
•
Pada DBMS terdistribusi, suatu relasi difragmentasi dan direplikasi pada beberapa
tempat. Dalam fragmentasi horizontal, setiap partisi terdiri dari himpunan baris
dari relasi asal. Dalam fragmentasi vertika, setiap partisi terdiri dari himpunan
kolom pada relasi asal. Pada replikasi, disimpan beberapa copy dari relasi atau
suatu partisi pada beberapa tempat.
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
•
93
Jika suatu relasi difragmen dan direplika, setiap partisi memerlukan nama global
yang unik yang disebut relation name. Manajemen catalog terdistribusi diperlukan
untuk menyimpan rekaman dimana data disimpan.
•
Pada pemrosesan query dalam DBMS terdistribusi, lokasi partisi dari relasi perlu
dihitung. Join dua relasi dapat dilakukan dengan mengirim satu relasi ke tempat
lain dan membentuk local join. Jika join melibatkan kondisi seleksi, jumlah tupel
yang diperlukan kemungkinan kecil. Semijoin dan Bloomjoin mengurangi jumlah
tupel yang dikirim ke jaringan dengan mengirim informasi terlebih dahulu yang
mengijinkan mem-filter tupel yang tidak relevan. Optimasi query pada system
terdistribusi harus mempertimbangkan komunikasi dengan model biaya.
•
Pada synchronous replication, semua copy dari relasi replica diubah sebelum
transaksi commit.
Pada asynchronous replication, copy hanya diubah secara
periodic. Terdapat dua teknik untuk menjamin synchronous replication. Secara
t
e
N
voting, perubahan harus menulis mayoritas copy dan membaca harus mengakses
a
r
d
cukup copy untuk menjamin bahwa satu copy sudah tersedia. Pada replikasi peerto-peer, lebih dari satu copy dapat diubah dan strategi conflict resolution dapat
n
e
H
mengubah konflik yang terjadi. Pada replikasi primary site, terdapat satu primary
By
copy yang dapat diubah, copy sekunder lain tidak dapat diubah. Pengubahan pada
primary copy dipropaganda menggunakan capter dan kemudian apply ke tempat
lain.
•
Jika suatu transaksi melibatkan aktivitas pada tempat yang berbeda, maka
memanggil aktivitas sub transaksi.
•
Pada DBMS terdistribusi, manajemen lock berupa lokasi sentral, primary copy
atau terdistribusi penuh. Deteksi deadlock pada system terdistribusi dibutuhkan.
•
Pemulihan pada DBMS terdistribusi dilakukan menggunakan commit protocol
yang mengkoordinasi aktivitas pada tempat yang berbeda yang dilibatkan pada
transaksi.
coordinator.
Pada Two-Phase Commit, setiap transaksi didesain oleh tempat
Sub transaksi dieksekusi pada tempat sub ordinat.
Protokol
menjamin bahwa perubahan dibuat oleh beberapa transaksi dapat dipulihkan. Jika
tempat coordinator bertabrakan, sub ordinat di blok, dan sub ordinat harus
menunggu coordinator pulih.
http://www.hendra-jatnika.web.id
BAB 7 BASIS DATA TERDISTRIBUSI
94
LATIHAN SOAL :
1. Apakah
keuntungan
DBMS
terdistribusi
dibandingkan
dengan
DBMS
tersentralisasi?
2. Gambarkan arsitektur Client-Server dan Collaboration-Server.
3. Pada arsitektur collaboration server, jika suatu transaksi dikirim ke DBMS, akan
digambarkan bagaimana aktivitas tempat yang berbeda dikoordinasi.
Secara
khusus, gambarkan aturan manager transaksi pada tempat berbeda, konsep atomic
transaksi terdistribusi.
4. Definisikan fragmentasi dan repkasi dalam hal dimana data disimpan.
5. Apakah perbedaan antara replikasi synchronous dan asynchronous ?
6. Definisikan distributed data independence.
t
e
N
7. Bagaimana teknik voting dan read-one write-all diimplementasikan pada replikasi
a
r
d
synchronous ?
n
e
H
8. Berikan penjelasan bagaimana asynchronous replication diimplementasikan.
By
Khususnya, jelaskan maksud capture dan apply.
9. Apakah perbedaan antara log-based dan procedureal untuk implementasi capture?
10. Mengapa pemberian nama unik pada obyek basis data lebih kompleks pada DBMS
terdistribusi ?
http://www.hendra-jatnika.web.id
Bab 8
Basis Data Internet
POKOK BAHASAN:
World Wide World
Pendahuluan HTML
Basis Data dan Web
Arsitektur Application Server dan Server-Side Java
Pendahuluan XML
XML : DTDs
Spesifikasi Domain pada DTDs
Melakukan Query Data XML (XML-QL)
Model Data Semi-terstruktur
t
e
N
a
r
d
By
TUJUAN BELAJAR:
n
e
H
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami konsep world wide world dan html pada database berbasis web
Memahami arsitektur pada database web
Memahami XML
Memahami dan mengimplementasikan model data semi-terstruktur
1.1 WORLD WIDE WORLD
Web memungkinkan mengaksen suatu file dimanapun pada internat. Suatu file
diidentifikasi dengan universal resource locater (URL), contohnya :
95
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
96
URL diatas mengidentifikasi suatu file bernama index.html, disimpan pada direktory
~database pada mesin www.eepis-its.edu. File ini adalah suatu dokumen yang
mempunyai format Hypertext Markup Language (HTML) dan berisi beberapa link ke
file lain (yang diidentifikasi melalui URL-nya).
Perintah diterjemahkan oleh Web browser seperti Microsoft Internet Explorer,
Netscape Navigator atau Opera untuk menampilkan dokumen secara atraktif dan
pemakai kemudian dapat menavigasi ke dokumen yang berhubungan dengan memilih
link.
Suatu koleksi beberapa dokumen disebut web iste dan diatur menggunakan
program yang disebut web server, yang menerima URL dan menampilkan dokumen
yang diperlukan. Beberapa organisasi saat ini menangani web site. World Wide Web
atau Web, adalah kumpulan web site yang dapat diakses di internet.
HTML menghubungkan isi URL, yang mengidentifikasi tempat yang berisi file
yang berhubungan.
Jika seorang pemakai click pada suatu link, Web browser
t
e
N
menghubungkan ke Web server tujuan menggunakan protokol koneksi HTTP dan
mengirim link URL. Jika browser menerima file dari web server, akan diperiksa tipe
a
r
d
file dengan melihat extension dari nama file.
en
Web browser menampilkan fijle
berdasarkan tipe file dan jika perlu memanggil program aplikasi untuk menangani file.
By
H
Sebagai contoh, sebuah file yang diakhiri .txt merupakan file teks tak berformat, web
browser menampilkan dengan menterjemahkan karakter ASCII dalam file. Struktur
dokumen yang lebih tepat dapat dikodekan dalam HTML, yang menjadi cara standart
struktur web page. Contoh lain, file .doc merupakan dokumen Microsoft Word dan
Web browser menampilkna file dengan menggunakan Microsoft Word.
1.2 HIPERTEXT MARKUP LANGUAGE (HTML)
Hipertext Markup Language (HTML) merupakan bahasa pemrograman
berbentuk skrip yang sederhana.
Teks diawali dan diakhiri dengan perintah yang
disebut tags, biasanya terdiri dari start tag dan end tag.
Contoh skrip HTML untuk melihat daftar buku :
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
97
<HTML><BODY>
Fiction:
<UL><LI>Author: Milan Kundera</LI?
<LI>Title: Identity</LI>
<LI>Published: 1998</LI>
</UL>
Science:
<UL><LI>Author: Richard Feynman</LI>
<LI>Title: The Character of Physical Law</LI>
<LI>Hardcover</LI>
</UL></BODY></HTML>
t
e
N
1.3 BASIS DATA DAN WEB
a
r
d
n
e
H
Halaman web berisi hasil dari query database. Untuk membangkitkan halaman
web, dilakukan hal-hal sebagai berikut :
By
– Web server membuat proses baru dari program yang berinteraksi dengan basis data.
– Web server berkomunikasi dengan program tersebut melalui CGI (Common
gateway interface).
– Program membangkitkan halaman hasil dengan isinya berasal dari basis data.
– Protokol lain selain CGI adalah ISAPI (Microsoft Internet Server API) atau NSAPI
(Netscape Server API).
1.4 ARSITEKTUR APPLICATION SERVER DAN SERVER-SIDE JAVA
Pada CGI, setiap halaman merupakan hasil pembuatan sebuah proses baru
sehingga sangat tidak efisien. Oleh karena itu dikembangkan arsitektur application
server yaitu suatu perangkat lunak antara web server dan aplikasi.
application server adalah
•
Mengendalikan thread atau proses pre-fork untuk performansi
Fungsi dari
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
98
•
Tempat koneksi basis data (dan menggunakan kembali koneksi yang tersedia)
•
Integrasi antara sumber data yang heterogen
•
Manajemen transaksi melibatkan beberapa sumber data
•
Manajemen session
Pemrosesan pada sisi server dapat menggunakan :
•
Java Servlet : yaitu program java yang berjalan pada server dan berinteraksi
dengan server melalui API yang didefinisikan dengan baik (well-defined)
•
JavaBeans : yaitu komponen perangkat lunak yang dapat digunakan kembali
(reusable) yang ditulis dalam bahasa pemrograman Java
•
Java Server Page dan Active Server Page : yaitu kode yang berada di dalam
halaman web yang diterjemahkan oleh web server.
1.5 PENDAHULUAN XML
t
e
N
a
r
d
Extensible HTML (XML) merupakan bahasa skrip versi lanjutan dari HTML.
n
e
H
XML merupakan penggabungan antara SGML dan HTML dimana kekuatan SGML
By
digabungkan dengan kesederhanaan HTML.
XML menggunakan definisi markup
language baru yang disebut document type declaration (DTDs).
Elemen yang terdapat pada XML meliputi :
•
blok utama yang dibangun secara terstruktur dengan XML
•
tag mulai (start tag) dan akhir (end tag)
•
harus secara tepat berulang
Elemen pada XML dapat mempunyai atribut yang merupakan informasi
tambahan mengenai elemen tersebut. Entiti pada XML serupa dengan makro yang
berupa teks biasa. Pada XML juga tersedia perintah untuk komentar dan elemen yang
terpenting adalah document type declaration (DTDs).
Contoh skrip XML untuk melihat daftar buku adalah sebagai berikut :
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
99
<?XML version=“1.0” standalone=“yes”?>
<!DOCTYPE BOOKLIST SYSTEM “booklist.dtd”>
<BOOKLIST>
<BOOK genre=“Fiction”>
<AUTHOR>
<FIRST>Milan</FIRST><LAST>Kundera</LAST>
</AUTHOR>
<TITLE>Identity</TITLE>
<PUBLISHED>1998</PUBLISHED>
<BOOK genre=“Science” format=“Hardcover”>
<AUTHOR>
<FIRST>Richard</FIRST><LAST>Feynman</LAST>
</AUTHOR>
<TITLE>The Character of Physical Law</TITLE>
t
e
N
</BOOK></BOOKLIST>
a
r
d
1.6 XML : DTDs
By
n
e
H
Sebuah document type declaration (DTDs) adalah himpunan aturan yang
mendefinisikan elemen, atribut dan entiti yang diperbolehkan pada dokumen. Dokumen
pada XML mempunyai bentuk yang baik jika tidak mempunyai asosiasi DTD tetapi
digunakan berulang dengan tepat.
Dokumen XML valid jika mempunyai DTD an
dokumen mengikuti aturan dalam DTD.
Contoh DTDs untuk melihat daftar buku adalah sebagai berikut :
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
100
<!DOCTYPE BOOKLIST [
<!ELEMENT BOOKLIST (BOOK)*>
<!ELEMENT BOOK (AUTHOR, TITLE, PUBLISHED?)>
<!ELEMENT AUTHOR (FIRST, LAST)>
<!ELEMENT FIRST (#PCDATA)>
<!ELEMENT LAST (#PCDATA)>
<!ELEMENT TITLE (#PCDATA)>
<!ELEMENT PUBLISHED (#PCDATA)>
<!ATTLIST BOOK genre (Science|Fiction) #REQUIRED>
<!ATTLIST BOOK format (Paperback|Hardcover) “Paperback”>
]>
1.7 SPESIFIKASI DOMAIN PADA DTDs
t
e
N
a
r
d
n
e
H
Untuk menangani sumber-sumber data yang berlainan, dikembangkan
By
standarisasi DTDs untuk memungkinkan domain dapat menukar data diantara sumbersumber yang heterogen. Contohnya adalah domain pada DTDs untuk mengkodekan
material matematika pada web dengan menggunakan Mathematical Markup Language
(MathML).
Perbedaan HTML dengan MathML dapat dilihat pada persamaan
matematika di bawah ini ;
•
Dalam HTML : <IMG SRC=“xysq.gif” ALT=“(x+y)^2”>
•
Dalam MathML :
<apply> <power/>
<apply> <plus/> <ci>x</ci> <ci>y</ci> </apply>
<cn>2</cn>
</apply>
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
101
1.8 MELAKUKAN QUERY DATA XML (XML-QL)
Tujuan melakukan query data XML adalah melakukan manipulasi dokumen
XML dengan menggunakan bahasa deklaratif tingkat tinggi. Query data XML belum
dilakukan standarisasi.
Contoh query dengan XML-QL :
WHERE
<BOOK>
<NAME><LAST>$1</LAST></NAME>
</BOOK> in “www.booklist.com/books.xml
CONSTRUCT <RESULT> $1 </RESULT>
t
e
N
Contoh query dengan XML-QL yang lebih kompleks :
WHERE <BOOK>
$b
<BOOK> IN
a
r
d
“www.booklist.com/books.xml”,
n
e
H
<AUTHOR> $n </AUTHOR>
<PUBLISHED> $p </PUBLISHED> in $e
By
CONSTRUCT
<RESULT>
<PUBLISHED> $p </PUBLISHED>
WHERE <LAST> $l </LAST> IN $n
CONSTRUCT <LAST> $l </LAST>
</RESULT>
1.9 MODEL DATA SEMI TERSTRUKTUR
Data semi terstruktur adalah data dengan struktur parsial. Semua model data
untuk data semi terstruktur menggunakan beberapa tipe graph berlabel. Pada sub bab ini
diperkenalkan model data semi terstruktur yang disebut object exchage model (OEM).
OEM mempunyai karakteristik sebagai berikut :
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
102
•
Obyek berbentuk triple (label, tipe, nilai).
•
Obyek yang kompleks di dekomposisi secara hirarki ke dalam obyek yang lebih
kecil.
Contoh model data daftar buku menggunakan OEM dapat dilihat pada Gambar
8-1.
BOOK
AUTHOR
TITLE
Identity
Milan
Kundera
By
PUBLISHED
1998
et
N
a
r
d
n
e
H
AUTHOR
Richard
FORMAT
TITLE
The
character
of physical law
Hardcover
Feynman
Gambar 8-1: Model data daftar buku dengan menggunakan OEM
RINGKASAN:
•
File pada World Wide Web diidentifikasi melalui universal resource locator
(URL). Web browser membawa URL ke tempat yang berisi file dan bertanya
pada Web server pada tempat tersebut untuk file yang dimaksud. Jika kemudian
menampilkan file yang tepat, membawa ke tipe file dan instruksi terformat.
Browser memanggil program aplikasi untuk menangani tipe file tersebut, misalnya
memanggil Microsoft Word untuk menangani dokumen Word. HTML adalah
markup language yang sederhana yang digunakan untuk menggambarkan
dokumen. Program Java, audio dan video dalap disertakan dalam dokumen
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
103
HTML. Data yang diakses melalui Web disimpan dalam DBMS. Web server
dapat mengakses data dalam DBMS untuk membentuk halaman yang diminta oleh
Web browser
•
Web server terkadang harus mengeksekusi program pada tempat secara berurutan
untuk memenuhi permintaan dari
mengakses data dalam DBMS.
Web browser.
Contohnya, kita dapat
Terdapat dua cara untuk Web server untuk
mengeksekusi program : membuat proses baru dan mengkomunikasikan
menggunakan protokol CGI, atau membuat thread baru untuk Java Servlet.
Pendekatan kedua menghindari banyaknya pembentukan proses baru untuk setiap
permintaan.
Application server mengatur beberapa thread dan menyediakan
fungsi lain untuk memfasilitasi eksekusi program pada Web server.
Fungsi
tambahan termasuk didalamnya keamanan, manajemen sesi, koordinasi akses ke
multipel sumber data. JavaBeans dan Java Server Page adalah teknologi berbasis
t
e
N
Java yang menuntun ke pembuatan dapn pengaturan program yang didesain untuk
digunakan pada Web server.
•
a
r
d
XLM adalah deskripsi standar dokumen yang menggambarkan isi dan struktur
n
e
H
dokumen dalam hal penampilan langsung. XML berdasarkan HTML dan SGML,
By
yang merupakan standar dokumen yang banyak digunakan. SML didesain cukup
sederhana untuk manipulasi yang lebih mudah, berbeda dengan SGML, yang
hanya memungkinkan pemakai mengembangkan deskripsi dokumen sendiri, tidak
seperti HTML. Secara khusus, DTD adalah diskripsi dokumen yang independen
dari isi dokumen, seperti halnya skema basis data relasional merupkaan deskripsi
basis data yang independen dari instance basis data aktual.
Dokumen XML
mempunyai struktur yang lebih baik daripada basis data relasional yang disebut
semistruktur.
http://www.hendra-jatnika.web.id
BAB 8 BASIS DATA INTERNET
104
LATIHAN SOAL :
1. Definisikan arti dan gambarkan penggunaan
a. HTML
b. URL
c. CGI
d. pemrosesan server-side
e. Java Servlet
2. Apakah CGI itu ? Apa kerugian arsitektur menggunakan skrip CGI
3. Apa perbedaan antara Web server dan application server ?
4. Bagaimanan dokumen XML dibentuk dengan baik ?
5. Misalnya pada toko buku.
berdasarkan judul.
Diasumsikan pelanggan juga ingin mencari buku
Buatlah dokumen HTML yang memungkinkan pemakai
menginputkan judul buku.
t
e
N
6. Diketahui katalog Eggface computer mail-order.
a
r
d
“Eggface menjual hardware dan software. Kita menjual Palm Pilot V baru seharga
n
e
H
$400; nomor perangkat 345. Kita juga menjual IBM ThinkPad 570 seharga $1999;
nomor perangkat 3784.
By
Kita menjual baik software bisnis dan entertainment.
Microsoft Office 2000 baru datang dan anda dapat membeli Standard Edition
dengan harga $140, nomor perangkat 974. Software dari Adobe yang berjudul
InDesign seharga $200, nomor perangkat 664.
Software Game dari Blizzard
berjudul Diablo II seharga $30, nomor perangkat 12, dan anda dapat membeli
Starcraft seharga $10, nomor perangkat 812”
a. Desain dokumen HTML yang menampilkan item yang ditawarkan Eggface
b. Buatlah dokumen XML yang menggambarkan isi dari katalog Eggface
c. Buatlah DTD untuk dokumen XML anda dan pastikan dokumen yang anda
buat pada pertanyaan terakhir adalah valid untuk DTD.
d. Tuliskan query XML-QL yang menampilkan semua software pada katalog
e. Tuliskan query XML-QL yang menampilkan harga semua hardware pada
katalog.
http://www.hendra-jatnika.web.id
Bab 9
Data Warehousing dan
Decision Support
POKOK BAHASAN:
Hubungan antara Data Warehouse dan Decision Support
Model Data Multidimensi
Online Analytical Processing (OLAP)
Arsitektur Data Warehouse
Implementasi Data Warehouse
View dan Decision Support
t
e
N
a
r
d
By
n
e
H
TUJUAN BELAJAR:
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami hubungan antara Data Warehouse dan Decision Support
Dapat mendesain model data multidimensi
Memahami Online Analytical Processing (OLAP)
Memahami Arsitektur dan Implementasi Data Warehouse
Memahami penggunaan view pada aplikasi Decision Support
9.1.
PENDAHULUAN
Data Warehouse adalah suatu database penunjang keputusan yang dikelola
secara terpisah dari database operasional perusahaan. Dan merupakan penunjang
pemrosesan informasi dengan menyediakan suatu platform yang kokoh untuk analisa
data yang mengandung histori dan yang terkonsolidasi.
105
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
106
Berikut beberapa definisi tentang data warehouse :
“Suatu DW adalah suatu koleksi data yang bisa digunakan untuk menunjang
pengambilan keputusan manajemen, yang berorientasi subjek (topik), terpadu, time
variant, dan tidak mudah berubah” —W. H. Inmon (Bp. Data Warehousing)
“Suatu data warehouse sederhananya adalah suatu penyimpanan data tunggal,
lengkap dan konsisten, yang diperoleh dari berbagai sumber dan dibuat tersedia bagi
end user dalam suatu cara yang bisa mereka pahami dan bisa mereka gunakan dalam
suatu konteks bisnis.” - - Barry Devlin, IBM Consultant.
9.2.
DARI DATA WAREHOUSE KE DECISION SUPPORT
Pembuatan keputusan organisasi memerlukan view menyeluruh pada segala
aspek perusahaan, sehingga organisasi membuat data warehouse gabungan yang berisi
data yang berasal dari berbagai sumber. DBMS juga didesain untuk mendukung query
t
e
N
OLAP secara efisien dan dioptimalisasi untuk mendukung aplikasi decision support.
9.3.
MODEL DATA MULTIDIMENSI
a
r
d
n
e
H
Model data multidimensional dirancang untuk memfasilitasi analisis dan bukan
By
transaksi. Model ini umum digunakan dalam data warehouse. Memiliki konsep intuitif
dari banyak dimensi atau perspektif pengukuran bisnis atau fakta-fakta. Contohnya :
untuk melihat penjualan dari perspektif customer, product dan time.
Model data multi dimensi adalah himpunan pengukuran numerik yang tergantung
pada himpunan dimensi. Misalnya untuk mengetahui Penjualan/Sales, dimensinya
adalah Produk (pid), Lokasi (locid), dan Waktu (timeid).
Data multi dimensi dapat disimpan secara fisik dalam sebuah array yang disebut
sistem MOLAP. Alternatif lainnya, data dapat disimpan sebagai relasi yang disebut
sistem ROLAP. Relasi utama yang berhubungan dengan dimensi yang diukur
dinamakan tabel fakta (fact table). Tiap dimensi dapat diberi tambahan atribut dan
berasosiasi dengan suatu tabel dimensi (dimension table). Tabel fakta mempunyai
ukuran yang lebih besar dibandingkan dengan tabel dimensi.
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
107
timeid
locid
sales
11
1
1
13
11
2
1
4
11
3
1
3
12
1
1
21
12
2
1
16
12
3
1
6
13
1
1
17
13
2
1
5
13
3
1
12
11 12 13
Pid
21 16 6
13 4
3
1
3
2
locid
pid
17 5 12
t
e
N
a
r
d
n
e
H
timeid
By
Gambar 10.1. Model Data Multidimensi
9.4.
ONLINE ANALYTICAL PROCESSING (OLAP)
Query OLAP dipengaruhi oleh dua hal, yaitu : SQL dan spreadsheet. Operasi
yang umum di dalam query OLAP adalah melakukan agregasi pada satu atau lebih
dimensi. Misalnya, cari total penjualan (sales), cari total penjualan tiap propinsi, cari 5
ranking produk teratas berdasarkan total penjualan. Jenis-jenis query OLAP adalah :
1. Roll up
Yaitu dengan melakukan agregasi pada level yang berbeda dari hirarki dimensi.
Misalnya untuk setiap kota diberikan total penjualan, maka untuk total penjualan tiap
propinsi bisa didapatkan dengan menambahkan total penjualan pada semua kota dalam
satu propinsi.
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
108
2. Drill down
Adalah kebalikan dari roll up. Misalnya untuk setiap propinsi dapat diberikan total
penjualan, maka total penjualan tiap kota dapat di-drill down.
3. Pivoting
Yaitu melakukan agregasi pada dimensi terpilih. Misalnya jika dilakukan pivoting pada
Location dan Time didapatkan cross-tabulation sebagai berikut :
LA NY
tota
1998
25
41
66
1999
64
53
11
tota
89
94
18
t
e
N
Cross-tabulation tersebut merupakan kumpulan dari query SQL berikut :
SELECT SUM (S.Sales)
FROM Sales S, Times T
By
a
r
d
n
e
H
WHERE S.timeid = T.timeid
GROUP BY T.year
dan
SELECT SUM (S.Sales)
FROM Sales S, Location L
WHERE S.timeid = L.timeid
GROUP BY L.state
Sehingga menjadi query baru sebagai berikut :
SELECT SUM (S.Sales)
FROM Sales S, Times T, Location L
WHERE S.timeid = T.timeid AND S.timeid = L.timeid
GROUP BY T.year, L.state
4. Slicing dan Dicing
Yaitu mencari kesamaan dan jangkauan seleksi pada satu atau lebih dimensi.
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
9.5.
109
ARSITEKTUR DATA WAREHOUSE
Pilihan berikut harus dibuat didalam perancangan data warehouse
•
process model
Tipe apa yang akan dimodelkan?
•
grain
Apa dasar data dan level atom data yang akan disajikan?
•
dimensi
Dimensi apa yang dipakai untuk masing-masing record tabel fakta?
•
ukuran
Ukuran apa yang akan mengumpulkan masing-masing record tabel fakta?
Suatu data warehouse didasarkan kepada suatu model data multidimensi yang
melihat data dalam bentuk suatu kubus data.
t
e
N
Suatu kubus data seperti Sales
a
r
d
memungkinkan data untuk dimodelkan dan dilihat dari banyak dimensi
– Dimensi tabel, seperti item (item_name, brand, type), atau time(day,
n
e
H
week, month, quarter, year)
By
– Tabel fakta memuat ukuran (seperti dollars_sold) dan kunci untuk setiap
dimensi tabel terkait
Berikut, arsitektur dari Data Warehouse :
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
110
Gambar 10.2. Arsitektur Data Warehouse
9.6.
IMPLEMENTASI DATA WAREHOUSE
t
e
N
a
r
d
Data Warehouse diorganisasikan berdasarkan kegunaan disekitar subjek bukan
n
e
H
aplikasi, misal: customer, product, sales. Perhatian dipusatkan pada pemodelan dan
analisa data untuk pembuat keputusan, bukan untuk operasi harian atau pemrosesan
By
transaksi. View sederhana dan ringkas disekitar subjek pembicaraan disediakan dengan
cara memisahkan data-data yang tidak berkaitan dengan proses penunjang keputusan.
Data Warehouse dibangun dengan memadukan banyak sumber data yang
heterogen, misal : Database relasional, flat file, catatan transaksi on-line. Teknik
pembersihan dan integrasi data juga diterapkan dalam datawarehouse.
Dikarenakan data berasal dari sumber yang berbeda-beda, maka harus dapat
dijamin konsistensi penamaan, penyandian struktur, ukuran atribut, dsb., dari antara
sumber-sumber data yang berbeda, misal, tarif hotel: mata uang, pajak, breakfast
covered, dsb. Ketika data dipindahkan ke warehouse, data ini telah terkonversi
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
9.7.
111
VIEW DAN DECISION SUPPORT
View digunakan secara luas dalam aplikasi decision support. Kelompok analis
yang berbeda dalam suatu organisasi biasanya berhubungan dengan aspek bisnis yang
berbeda, dan akan lebih memudahkan untuk mendefinisikan view yang memberi tiap
grup wawasan detil bisnis yang sesuai. Setelah view didefinisikan, barulah dapat ditulis
query atau definisi view baru yang menggunakannya.
Mengevaluasi query yang
diajukan untuk view sangat penting untuk aplikasi decision support. Berikut ini akan
dibahas bagaimana query dapat dievaluasi secara efisien setelah menempatkan view ke
dalam konteks aplikasi decision support.
View berhubungan erat dengan OLAP dan data warehousing. Query OLAP
biasanya merupakan query aggregasi. Data warehouse adalah kumpulan table yang
direplikasi secara asynchronous dan view yang disinkronisasi secara periodik.
t
e
N
View berikut ini menghitung penjualan produk berdasarkan kategori dan Negara bagian:
a
r
d
CREATE VIEW RegionalSales(category, sales, state)
AS SELECT P.category, S.sales, L.state
n
e
H
FROM Products P, Sales S, Locations L
By
WHERE P.pid=S.pid AND S.locid=L.locid
Query berikut menghitung penjualan total untuk tiap kategori berdasarkan
Negara bagian :
SELECT R.category, R.state, SUM(R.sales)
FROM RegionalSales R
GROUP BY R.category, R.state
Query berikut ini adalah hasil modifikasi dari query sebelumnya dengan
menggantikan RegionalSales dengan sebuah view yang ditempatkan pada klausa FROM
yaitu :
SELECT R.category, R.state, SUM(R.sales)
FROM (SELECT P.category, S.sales, L.state
FROM Products P, Sales S, Locations L
WHERE P.pid = S.pid AND S.locid=L.locid) AS R
GROUP BY R.category, R.state
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
112
RINGKASAN:
•
Data Warehouse adalah suatu database penunjang keputusan yang dikelola secara
terpisah dari database operasional perusahaan, yang menyediakan suatu platform
untuk analisa data yang mengandung histori dan yang terkonsolidasi.
•
Aplikasi Decision Support memerlukan view yang menyeluruh pada segala aspek
perusahaan, dan didapatkan dari data yang berasal dari berbagai sumber.
•
Model data multidimensional dirancang untuk melakukan analisa data dan umum
digunakan dalam data warehouse.
•
Model data multidimensi memiliki konsep intuitif dari banyak dimensi atau
perspektif pengukuran bisnis atau fakta-fakta.
Contohnya : untuk melihat
penjualan dari perspektif customer, product dan time.
•
Jenis-jenis dari query OLAP yaitu : Roll up, Drill down, Pivoting, Slicing dan
Dicing.
•
t
e
N
Pilihan-pilihan yang harus dibuat didalam perancangan data warehouse : process
a
r
d
model, level atom data yang akan disajikan, dimensi dan ukuran
•
n
e
H
View digunakan secara luas dalam aplikasi decision support dan berhubungan erat
dengan OLAP dan data warehousing dan perlu disinkronisasi secara periodik.
By
LATIHAN SOAL :
1. Apa yang dimaksud dengan aplikasi decision support ?
2. Apa pertimbangan yang digunakan dalam mendesain Data Warehouse ?
3. Deskripsikan dimensi dan pengukuran dalam model data multidimensi, dan jelaskan
perbedaan antara table fakta dan table dimensi.
4. Apa yang dimaksud dengan table fakta, dan mengapa sangat penting dari sudut
pandang performa ?
5. Perhatikan contoh relasi sales pada gambar 10.1, tunjukkan hasil pivoting relasi
pada pid dan timeid.
6. Pada gambar 10.1, tunjukkan hasil rool-up pada locid (misalnya, negara bagian).
http://www.hendra-jatnika.web.id
BAB 9 DATA WAREHOUSING DAN DECISION SUPPORT
113
7. Tuliskan query dalam SQL, sesuai dengan data yang ada pada gambar 10.1
a. Carilah perubahan persentase dalam penjualan bulanan total untuk tiap
lokasi
b. Carilah perubahan persentase dalam penjualan kuartalan total untuk tiap
produk
c. Carilah tiga besar lokasi yang diurutkan berdasarkan penjualan total.
8. Mengapa view begitu penting dalam lingkungan decision support ? Bagaimana view
dihubungkan dalam lingkungan data warehousing dan OLAP ?
t
e
N
a
r
d
By
n
e
H
http://www.hendra-jatnika.web.id
Bab 10
Data Mining
POKOK BAHASAN:
Model Data Mining
Tahapan dalam Data Mining
Fungsionalitas dalam Data Mining
Teknik-teknik Data Mining
t
e
N
TUJUAN BELAJAR:
a
r
d
Setelah mempelajari materi dalam bab ini, mahasiswa diharapkan mampu:
Memahami pemodelan Data Mining
Memahami setiap tahapan dalam Data Mining
Memahami fungsionalitas dalam Data Mining
Memahami beberapa teknik yang digunakan dalam Data Mining
By
n
e
H
10.1. PENDAHULUAN
Seiring
dengan
perkembangan
teknologi,
semakin
berkembang
pula
kemampuan kita dalam menggumpulkan dan meng olah data. Penggunaan sistem
komputerisasi dalam berbagai bidang baik itu dalam transaksi-transaksi bisnis, maupun
untuk kalangan pemerintah dan sosial, telah menghasilkan data yang berukuran sangat
besar. Data-data yang terkumpul ini merupakan suatu tambang emas yang dapat
digunakan sebagai informasi dalam dunia bisnis.
114
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
115
Aplikasi basis data telah banyak diterapkan dalam berbagai antara lain bidang
manajemen, manajemen data untuk industri, ilmu pegetahuan, administrasi pemerintah
dan bidang-bidang lainnya. Akibatnya data yang dihasilkan oleh bidang-bidang tersebut
sangatlah besar dan berkembang dengan cepat. Hal ini menyebabkan timbulnya
kebutuhan terhadap teknik-teknik yang dapat melakukan pengolahan data sehingga dari
data-data yang ada dapat diperoleh informasi penting yang dapat digunakan untuk
perkembangan masing-masing bidang tersebut.
Istilah data mining sudah berkembang jauh dalam mengadaptasi setiap bentuk
analisa data. Pada dasarnya data mining berhubungan dengan analisa data dan
penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam
himpunan data yang sifatnya tersembunyi.
Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan
t
e
N
potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data.
Banyak istilah lain dari data mining yang dikenal luas seperti knowledge mining from
a
r
d
databases, knowledge extraction, data archeology, data dredging, data analysis dan lain
sebagainya [AGR-93].
By
n
e
H
Dengan diperolehnya informasi-informasi yang berguna dari data-data yang
ada, hubungan antara item dalam transaksi, maupun informasi informasi-yang potensial,
selanjutnya dapat diekstrak dan dianalisa dan diteliti lebih lanjut dari berbagai sudut
pandang.
Informasi yang ditemukan ini selanjutnya dapat diaplikasi kan untuk aplikasi
manajemen, melakukan query processing, peng ambilan keputusan dan lain sebagainya.
Dengan semakin ber kembang nya kebutuhan akan informasi-informasi, semakin
banyak pula bidang-bidang yang rnenerapkan konsep data mining.
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
116
10.2. MODEL DATA MINING
Dalam perkembangan teknologi data mining, terdapat model atau mode yang
digunakan untuk melakukan proses penggalian informasi terhadap data-data yang ada.
Menurut IBM model data mining dapat dibagi menjadi 2 bagian yaitu: verification
model dan discovery model.
10.2.1. VERIFICATION MODEL
Model ini menggunakan perkiraan (hypothesis) dari pengguna, dan melakukan
test terhadap perkiraan yang diambil sebelumnya dengan menggunakan data-data yang
ada. Penekanan terhadap model ini adalah terletak pada user yang bertanggung jawab
terhadap penyusunan perkiraan (hypothesis) dan permasalahan pada data untuk
meniadakan atau menegaskan hasil perkiraan (hypothesis) yang diambil.
Sebagai contoh misalnya dalam bidang pemasaran, sebelum sebuah
t
e
N
perusahaan mengeluarkan suatu produk baru kepasaran, perusahaan tersebut harus
a
r
d
memiliki informasi tentang kecenderungan pelanggan untuk membeli produk yang
n
e
H
akan di keluarkan. Perkiraan (hypothesis) dapat disusun untuk mengidentifikasikan
pelanggan yang potensial dan karakteristik dari pelanggan yang ada. Data-data tentang
By
pembelian pelanggah sebelumnya dan data tentang keadaan pelanggan, dapat digunakan
untuk melakukan perbandingan antara pembelian dan karakteristik pelanggan untuk
menetapkan dan menguji target yang telah diperkirakan sebelumnya. Dari keseluruhan
operasi yang ada selanjutnya dapat dilakukan penyaringan dengan cermat sehingga
jumlah perkiraan (hypothesys) yang sebelumnya banyak akan menjadi semakin
berkurang sesuai dengan keadaan yang sebenarnya.Permasalahan utama dengan model
ini adalah tidak ada informasi bare yang dapat dibuat, melainkan hanya pembuktian atau
melemahkan perkiraan (hypothesys) dengan data-data yang ada sebelumnya. Datadata
yang ada pada model ini hanya digunakan untuk membuktikan mendukung perkiraan
(hypothesis) yang telah diambil sebelumnya. Jadi model ini sepenuhnya tergantung pads
kemampuan user untuk melakukan analisa terhadap permasalahan yang ingin digali dan
diperoleh informasinya.
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
117
10.2.2. DISCOVERY MODEL
Model ini berbeda dengan verification model, dimana pada model ini system
secara langsung menemukan informasi-informasi penting yang tersembunyi dalam
suatu data yang besar. Data-data yang ada kemudian dipilah-pilah-untuk-menemukan
suatu pola, trend yang ada, dan keadaaan umum pada saat itu tanpa adanya campur
tangan dan tuntunan dari pengguna. Hasil temuan ini menyatakan fakta-fakta yang ada
dalam datadata yang ditemukan dalam waktu yang sesingkat rnungkin.Sebagai
contoh, misalkan sebuah bank ingin menemuan kelompok-kelompok pelanggan yang
dapat dijadikan target suatu produk yang akan di keluaran.
Pada data-data yang ada selanjutnya diadakan proses pencarian tanpa adanya
proses perkiraan (hypothesis) sebelumnya. Sampai akhirnya semua pelanggan
dikelompokan berdasarkan karakteristik yang sama.
10.3.
t
e
N
a
r
KEBUTUHAN DAN TANTANGANd
DALAM DATA MINING
n
He
By
Untuk memperoleh efektifitas dalam data mining, seseorang harus melakukan
evaluasi kebutuhan dan memperhitungkan tantangan-tantangan apa saja yang mungkin
dihadapinya dalam me ngembangkan suatu teknik data mining. Hal-hal yang harus diper
hatikan tersebut antara lain adalah sebagai berikut
10.3.1. PENANGANAN BERBAGAI TIPE DATA
Karena ada bermacam data dan basis data yang digunakan dalam berbagai
aplikasi, seseorang mungkin saja berpikir bahwa suatu sistem knowledge discovery
harus bisa melakukan proses data mining yang efektif terhadap berbagai jenis data.
Selanjutnya, banyak aplikasi basis data memuat tipe data yang kompleks seperti data
terstruktur, objek data kompleks, data multimedia, data spasial dan data sementara, data
transaksi dan lain sebagainya.
Oleh karena adanya beragam tipe data, tujuan yang berbeda dari data mining,
maka adalah tidak realistis untuk mengharapkan bahwa suatu sistem data mining
mampu menangani semua jenis data. Sistem data mining harus dikonstruksikan secara
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
118
khusus untuk tipe-tipe data khusus seperti dalam basis data relasional, basis data
transaksi, basis data spasial, basis data multimedia dan lain sebagainya.
10.3.2. EFISIENSI DARI ALGORITMA DATA MINING
Untuk secara efektif melakukan ekstraksi informasi dari sejumlah besar data,
algoritma yang digunakan untuk mewujudkannya haruslah efisien untuk basis data yang
besar. Yaitu, waktu eksekusi dari algoritma tersebut haruslah sesuai dan realistis untuk
data dengan ukuran besar.
10.3.3. KEGUNAAN, KEPASTIAN DAN KEAKURATAN HASIL
Informasi yang diperoleh harus secara akurat menggambarkan isi basis data dan
berguna untuk aplikasi terkait. Kekurangsempurnaan yang ada haruslah dapat
diekspresikan dengan suatu ukuran yang pasti dalam bentuk aturan-aturan kuantitif dan
t
e
N
perkiraan-perkiraan yang masuk akal. Noise dan data-data yang tidak diperlukan harus
a
r
d
ditangani dengan rapi dalam sistem data mining. Hal ini juga akan memotivasi suatu
n
e
H
studi sistematik untuk mengukur kualitas dari informasi yang dihasilkan, termasuk
seberapa menariknya dan tingkat kepercayaannya yang dapat diukur secara statistik,
By
analitis dan menggunakan model simulasi.
10.3.4. EKSPRESI TERHADAP BERBAGAI JENIS HASIL
Berbagai macam jenis informasi dapat diperoleh dari sejumlah besar data.
Seseorang mungkin ingin menguji informasi yang diperoleh dan sudut pandang yang
berbeda dan menampilkannya dalam bentuk yang berbeda. Ini menuntut kita untuk
mengekspresikan permintaan datamining dan informasi yang diperoleh dalam sebuah
bahasa tingkat tinggi atau graphical user interface yang baik, sehingga program dapat
digunakan oleh para pemakai biasa yang bukan ahli, dan hasil yang diperoleh dapat
dimengerti serta langsung digunakan oleh pemakainya. Oleh karenanya, sistem harus
bisa mengadopsi teknik-teknik penyajian informasi yang baik.
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
119
10.3.5. MEMPEROLEH INFORMASI DARI SUMBER-SUMBER DATA YANG
BERBEDA
Dengan adanya LAN (Local Area Network) dan WAN ( Wide Area Network)
yang tersebar secara luas dewasa ini, termasuk Internet, maka terhubunglah - berbagai
sumber data yang terdistribusi secara luas dan membentuk suatu basis data heterogen.
Untuk memperoleh informasi dari berbagai sumber dan dalam berbagai format dengan
berbagai semantik data menimbulkan tantangan baru dalam data mining. Di lain pihak,
datamining bisa membantu mengungkapkan informasi-informasi yang ada dalam suatu
basis data heterogen, dimana hal tersebut sulit untuk diwujudkan dengan sebuah sistem
query sederhana. Lebih lanjut, ukuran data yang besar, distribusi yang luas dad data dan
kompleksitas dari proses komputasi beberapa metode data mining, semakin memotivasi
pengembangan algoritma untuk paralel data mining dan data mining untuk basis data
terdistribusi.
t
e
N
a
r
d
10.3.6. PROTEKSI DAN KEAMANAN DATA
n
e
H
Ketika data dapat diperlihatkan dari berbagai sudut pandang dan dalam level
By
abstrak yang berbeda, hal ini akan mengancam tujuan dari proteksi dan keamanan data,
dan pelanggaran terhadap sifat kerahasiaan informasi. Sangatlah penting untuk
mempelajari apakah penemuan informasi yang berguna itu akan mengakibatkan
pelanggaran kerahasiaan dan ukuran keamanan yang diperiukan untuk menghalangi
akses terhadap data-data yang sifatnya sensitif.
10.4. TAHAPAN DALAM DATA MINING
Data-data yang ada, tidak dapat langsung diolah dengan menggunakan sistem data
mining. Data-data tersebut harus dipersiapkan terlebih dahulu agar hasil yang diperoleh
dapat lebih maksimal, dan waktu komputasinya lebih minimal. Proses persiapan data ini
sendiri dapat mencapai 60 % dari keseluruhan proses dalam data mining. Adapun
tahapan-tahapan yang harus dilalui dalam proses data mining antara lain:
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
120
Interpretasi
& Evaluasi
Data Mining
Transformasi
Patterm
Praproses
Transformed
Data
Seleksi
Target Data
Data
Preprocess
Data
Gambar 11.1. Tahapan Data Mining
•
Basis Data Relasional
Dewasa ini, hampir semua Data bisnis disimpan dalam basis data relasional. Sebuah
t
e
N
model basis data relasional dibangun dari serangkaian tabel, setiap tabel disimpan
a
r
d
sebagai sebuah file. Sebuah tabel relasional terdiri dari baris dan kolom. Kebanyakan
n
e
H
model basis data relasional saat ini dibangun diatas lingkungan OLTP. OLTP (Online
Transaction Processing ) adalah tipe akses yang digunakan oleh bisnis yang
By
membutuhkan transaksi konkuren dalam jumlah besar. Bentuk data yang tersimpan
dalam basis data relasional inilah yang dapat diolah oleh sistem data mining.
•
Ekstraksi Data
Data-data yang dikumpulkan dalam proses transaksi seringkali ditempatkan pada lokasi
yang berbeda-beds. Maka dari itu dibutuhkan kemampuan dari sistem utuk dapat
mengumpulkan data dengan cepat. Jika data tersebut disimpan dalam kantor regional,
seringkali data tersebut di upload ke sebuah server yang lebih terpusat. Ini bisa
dilakukan secara harian, mingguan, atau bulanan tergantung jumlah .data, keamanan
dan biaya. Data dapat diringkas dulu sebelum dikirimkan ke tempat penyimpanan pusat.
Sebagai contoh, sebuah toko perangkat keras mungkin mengirim data yang menunjukan
bahwa 10 rol kabel telah terjual pada hari ini oleh karyawan nomer 10 dibanding
pengiriman data detail transaksi.
•
Transformasi Data
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
121
Transformasi data melakukan peringkasan data dengan mengasumsikan bahwa data
telah tersimpan dalam tempat penyimpanan tunggal. Pada langkah terakhir, data telah di
ekstrak dari banyak basis data ke dalam basis data tunggal. Tipe peringkasan yang
dikerjakan dalam langkah ini mirip dengan peringkasan yang dikerjakan selama tahap
ekstraksi. Beberapa perusahaan memilih untuk menngkas data dalam sebuah tempat
penyimpanan tunggal. Fungsi fungsi Agregate yang sering digunakan antara lain:
summarizations, averages, minimum, maximum, dan count.
•
Pembersihan Data
Data-data yang telah terkumpul selanjutnya akan mengalami proses pembersihan.
Proses pembersihan data dilakukan untuk membuang record yang keliru, menstandarkan
attribut-attribut, merasionalisasi struktur data, dan mengendalikan data yang hilang.
Data yang tidak konsisten dan banyak kekeliruan membuat hasil data mining tidak
t
e
N
akurat. Adalah sangat penting untuk membuat data konsisten dan seiagam. Pembersihan
data juga dapat membantu perusahaan untuk mengkonsolidasikan record. ini sangat
a
r
d
berguna ketika sebuah perusahaan mempunyai banyak record untuk seorang
n
e
H
pelanggan.Setiap record atau file pelanggan mempunyai nomor pelanggan yang sama,
By
tetapi informasi dalam tiap filenya berbeda.
•
Bentuk Standar
Selanjutnya setelah data mengalami proses pembersihan maka data ditranfer kedalam
bentuk standar. Bentuk standar adalah adalah bentuk data yang akan diakses oleh
algoritma data mining. Bentuk standar ini biasanya dalam bentuk spreadsheet like.
Bentuk spreadsheet bekerja dengan baik karena baris merepresentasikan kasus dan
kolom merepresentasikan feature.
•
Reduksi Data dan Feature
Setelah data berada dalam bentuk standar spreadsheet perlu dipertimbangkan untuk
mereduksi jumlah feature. Ada beberapa alasan untuk mengurangi jumlah feature dalam
spreadsheet kita. Sebuah bank mungkin mempunyai ratusan feature ketika hendak
memprediksi resiko kredit. Hal ini berarti perusahaan mempunyai data dalam jumlah
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
122
yang sangat besar. Bekerja dengan data sebanyak ini membuat algoritma prediksi
menurun kinerjanya.
•
Menjalankan Algoritma
Setelah semua proses diatas dikerjakan, maka algoritma data mining sudah siap untuk
dijalankan.
10.5. FUNGSIONALITAS DALAM DATA MINING
Kebutuhan akan Data mining semakin dirasakan dalam berbagai bidang. Data
mining bersifat dependen terhadap aplikasi terkait, ini berarti untuk aplikasi basis data
yang berbeda, maka teknik data mining yang digunakannya mungkin juga akan berbeda.
Hal ini dikarenakan terdapat kelebihan dan kekurangan dari masing-masing metode
pencarian informasi, sehingga kita harus menyesuaikan antara keperluan dan kebutuhan
t
e
N
akan informasi dengan penerapan teknik pencarian yang akan digunakan. Untuk
a
r
d
memberikan gambaran yang lebih jelas tentang macam-macam informasi yang dapat
ditemukan dalam sekumpulan data, berikut akan diberikan sedikit bahasan rinci
mengenai hal tersebut.
By
n
e
H
10.5.1. MINING ASSOCIATION RULE
Mining association rules atau pencarian aturan-aturan hubungan antar item dari
suatu basis data transaksi atau basis data relasional, telah menjadi perhatian utama
dalam masyarakat basis data. Tugas utamanya adalah untuk menemukan suatu
himpunan hubungan antar item dalam bentuk A1A...AAm => B1A...ABn dimana A, (
for i E {1,...,m}) dan B; ( for j C {1,...,n} ) adalah himpunan atribut nilai, dari
sekumpulan data yang relevan dalam suatu basis data. Sebagai contoh, dari suatu
himpunan data transaksi, seseorang mungkin menemukan suatu hubungan berikut, yaitu
jika seorang pelanggan membeli selai, ia biasanya juga membeli roti dalam satu
transaksi yang sama. Oleh karena proses untuk menemukan hubungan antar item ini
mungkin memerlukan pembacaan data transaksi secara berulang-ulang dalam sejumlah
besar data-data transaksi untuk menemukan pola-pola hubungan yang berbeda-beda,
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
123
maka waktu dan biaya komputasi tentunya juga akan sangat besar, sehingga untuk
menemukan hubungan tersebut diperlukan suatu algoritma yang efisien dan metodemetode tertentu.
10.5.2. GENERALISASI, PENCATATAN DAN KARAKTERISASI DATA MULTI
LEVEL
Salah satu aplikasi data mining dan analisa data yang paling sering digunakan
dalam hubungannya dengan basis data sistem produksi adalah generalisasi dan
pencatatan data, yang juga dikenal dengan beberapa nama lain seperti on-line analytical
processing
( OLAP ), basis data multi dimensi, data cubes, abstraksi data, dan lain
sebagainya. Generalisasi dan pencatatan data ini menampilkan karakteristik umum
terhadap sekumpulan data yang dispesifikasikan oleh pemakai dalam basis data.
t
e
N
Data dan obyek dalam basis data seringkali memuat informasi yang mendetail
pada level primitif. Sebagai contoh, item relasi dalam suatu basis data sales mungkin
a
r
d
saja mengandung atribut level primitif tentang informasi item seperti nomor item, nama
n
e
H
item, tanggal pembuatan, harga dan lain sebagainya. Seringkali kita menginginkan
By
untuk mencatat sejumlah besar himpunan data dan menampilkannya dalam level tingkat
tinggi. Misalnya seseorang mungkin ingin mencatat sejumlah besar himpunan item yang
terhubung ke beberapa sales untuk memberikan
10.5.3. KLASIFIKASI DATA
Aplikasi lain yang penting dari data mining adalah kemampuannya untuk
melakukan proses klasifikasi pada suatu data dalam jumlah besar. Hal ini sering disebut
mining
classification
rules.
Sebagai
contoh,
sebuah
dealer
mobil
ingin
mengkiasifikasikan pelanggannya menurut kecenderungan mereka untuk menyukai
mobil jenis tertentu, sehingga para sales yang bekerja disitu akan mengetahui siapa yang
harus didekati, kemana katalog mobil jenis baru harus dikirim, sehingga hal ini akan
sangat membantu dalam hal promosi.
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
124
Klasifikasi data adalah suatu proses yang menemukan properti-properti yang
sama
pada
sebuah
himpunan
obyek
di
dalarn
sebuah
basis
data,
dan
mengklasifikasikannya ke dalam kelas-kelas yang berbeda menurut model klasifikasi
yang ditetapkan. 'Untuk membentuk sebuah model klasifikasi, suatu sampel basis data
'E' diperlakukan sebagai training set, dimana setiap tupel terdiri dari himpunan yang
sama yang memuat atribut yang beragam seperti tupel-tupel yang terdapat dalam suatu
basis data yang besar 'W'. Setiap tupel diidentifkasikan dengan sebuah label atau
identitas kelas. Tujuan dari klasifikasi ini adalah pertama-tama untuk menganalisa
training data dan membentuk sebuah deskripsi yang akurat atau sebuah model untuk
setiap kelas berdasarkan feature-feature yang tersedia di dalam data itu.
Deskripsi dari masing-masing kelas itu nantinya akan digunakan untuk
mengklasifikasikan data yang hendak di test dalam basis data 'W', atau untuk
membangun suatu deskripsi yang lebih balk untuk setiap kelas dalam basis data. Contoh
t
e
N
untuk model ini adalah prediksi terhadap resiko pemberian kredit. Data terdiri dari
a
r
d
orang orang yang telah menerima kredit. Sebagian kreditur menjalankan kewajiban
n
e
H
dengan balk, dan sebagian lagi tidak. Data mining, harus mampu mendefinisikan atribut
atribut apa yang paling berpengaruh dalam hal ini.
By
10.5.4. ANALISA CLUSTER
Pada
dasamya
clustering
terhadap
data
adalah
suatu
proses
untuk
mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikart
sebelumnya, berdasarkan pada prinsip konseptual clustering yaitu memaksimalkan dan
juga meminimalkan kemiripan intra kelas. Misalnya, sekumpulan obyek-obyek
komoditi pertama-tama dapat di clustering menjadi sebuah himpunan kelas-kelas dan
lalu menjadi sebuah himpunan aturan-aturan yang dapat diturunkan berdasarkan suatu
klasifikasi tertentu.
Proses untuk mengelompokkan secara fisik atau abstrak obyek-obyek ke dalam
bentuk kelas-kelas atau obyek-obyek yang serupa,disebut dengan clustering atau
unsupervised classification. Melakukan analisa dengan clustering, akan sangat
membantu untuk membentuk partisi-parti si yang berguna terhadap sejumlah besar
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
125
himpunan obyek dengan didasarkan pada prinsip "divide and conquer" yang
mendekomposisikan suatu sistem skala besar, menjadi komponen-komponen yang lebih
kecil, untuk menyederhanakan proses desain dan implementasi. Perbedaan utama antara
Clustering Analysis dan klasifikasi adalah bahwa Clustering Analysis digunakan untuk
memprediksi kelas dalam format bilangan real dad pada format katagorikal atau
Boolean.
10.5.5. PENCARIAN POLA, SEKUENSIAL
Fungsi pola sekuensial menganalisa sekumpulan rekord pada suatu periode
waktu, misalnya untuk menganalisa trend. Anggaplah kita memiliki suatu basis data
yang ukurannya besar, yaitu basis data transaksi dimana setiap transaksi terdiri dari
nomor pelanggan, waktu transaksi dan item-item yang ditransaksikan. Suatu pola dapat
ditampilkan dalam contoh sebagai berikut, pelanggan biasanya membeli gula Iangsung
t
e
N
melakukan transaksi membeli kopi. Dari semua transaksi membeli gula ternyata hampir
a
r
d
seluruhnya terdapat transaksi membeli kopi. Maka dari pola-pola yang ada ini dapat
dijadikan masukan bahwa telah terjadi suatu kecendrungan (trend) dari pelanggan
n
e
H
dimana setiap pelanggan melakukan transaksi membeli gula maka akan diikuti oleh
By
transaksi membeli kopi. Untuk itu pihak manajemen dapat menempatkan letak item
kopi dekat dengan item gula. Sehingga memudahkan pelanggan untuk melakukan
transaksi selanjutnya.
10.6. TEKNIK-TEKNIK DATA MINING
Perkembangan bidang data mining yang semakin pesat, menimbulkan banyak
tantangan baru, aplikasi-aplikasi dari metode dan teknik, statistik serta sistem basis data
yang ada tidak dapat secara langsung menyelesaikan masalah-masalah yang ada dalam
data mining.
Oleh karena itu maka perlu dilakukan studi-studi terkait untuk menemukan
metode data mining baru atau suatu teknik terintegrasi untuk sebuah sistem data mining
yang efektif dan efisien. Dalam konteks ini, data mining itu sendiri telah menjadi suatu
bidang baru yang independen. Telah banyak kemajuan dalam hal riset dan
pengembangan dari data mining, juga banyak teknik data mining dan sistem baru yang
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
126
akhir-akhir ini dikembangkan. Klasifikasi skema yang berbeda dapat digunakan untuk
mengkategorikan metode dan sistem data mining dengan didasarkan pada jenis basis
data yang akan dipelajari, dan teknik apa yang akan digunakan.
• Jenis Basis Data yang akan dijadikan obyek.
Suatu sistem data mining dapat diklasifikasikan menurut jenis basis data
dimana proses data mining tersebut dilakukan. Sebagai contoh, sebuah sistern
adalah relationar data miner jika sistem tersebut menemukan informasi dad basis
data relasional, atau suatu object oriented data miner bila informasi diperoleh dari
basis data yang berorientasi pada obyek. Secara umum, data miner dapat
digolongkan menurut jenis basis data apa yang diolahnya seperti misalnya basis
data relasional, basis data transaksi, basis data yang berorientasi obyek, basis data
deduktif, basis data spasial, basis data multimedia, basis-data-heterogen, dan lain
sebagainya.
t
e
N
a
r
d
• Jenis informasi yang hendak dicari
n
e
H
Beberapa jenis informasi dapat dihasilkan dad proses data mining ini, termasuk
By
association rules, characteristic rules, classification rules, discriminant rules,
clustering, sequential pattern, dan deviation analysis [AGR-93]. Lebih lanjut, ada
kiasifikasi lainnya menurut level abstraksi dari informasi yang diperoleh, antara lain
generalized knowledge, primitive level knowledge dan multiple level knowledge. Suatu
sistem data mining yang fleksibel dapat menggali informasi pada berbagai level
abstraksi.
•
Teknik yang hendak digunakan.
Cara kiasifikasi yang lainnya adalah berdasarkan teknik yang digunakan.
Misalnya, dikategorikan berdasarkan metode kendalinya seperti autonomous knowledge
miner, data driven miner, query driven miner dan interactive data miner. Dapat juga
dikategorikan berdasarkan pendekatan yang dipakai dalam melakukan data mining,
yaitu generalization based mining, statistics and mathematical based mining, integrated
approach mining dan lain sebagainya.Diantara berbagai macam klasifikasi yang ada,
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
127
hasil penelitian menunjukkan ada satu skema utama yang menjadi patokan, yaitu jenis
informasi yang dibutuhkan. Mengapa demikian, adalah karena dengan kiasifikasi ini
akan memberikan gambaran yang jelas mengenai teknik dan kebutuhan datamining
yang beragam. Metode-metode pencarianinformasi yang ada berdasarkan jenis
informasinya seperti association rules, characterization rules, classification rules,
sequence patterns, clustering dan ;ain-Iainnya telah diteliti secara mendalam. Untuk
proses pencarian suatu informasi tertentu, berbagai pendekatan seperti pendekatan
secara statistik, pendekatan berorientasi pada basis data yang besar dan sebagainya akan
dibandingkan dengan penekanan utama pada basis data, dimana efektifitas dan efisiensi
merupakan salah satu tujuan utamanya.
10.6.1. MARKET BASKET ANALYSIS
Fungsi Association Rules seringkali disebut dengan "market basket analysis",
t
e
N
yang digunakan untuk menemukan relasi atau korelasi diantara himpunan item2. Market
a
r
d
Basket Analysis adalah Analisis dari kebiasaan membeli customer dengan mencari
n
e
H
asosiasi dan korelasi antara item-item berbeda yang diletakkan customer dalam
keranjang belanjaannya.
By
Fungsi ini paling banyak digunakan untuk menganalisa data dalam rangka
keperluan strategi pemasaran, desain katalog, dan proses pembuatan keputusan bisnis.
Tipe association rule bisa dinyatakan sebagai misal : "70% dari orangorang yang
membeli mie, juice dan saus akan membeli juga roti tawar". Aturan asosiasi
mengcapture item atau kejadian dalam data berukuran besar yang berisi data transaksi.
Dengan kemajuan teknologi, data penjualan dapat disimpan dalam jumlah besar yang
disebut dengan "basket data." Aturan asosiasi yang didefinisikan pada basket data,
digunakan untuk keperluan promosi, desain katalog, segmentasi customer dan target
pemasaran. Secara tradisional, aturan asosiasi digunakan untuk menemukan trend bisnis
dengan menganalisa transaksi customer. Dan dapat digunakan secara efektif pada
bidang Web Mining yang diilustrasikan sebagai berikut : pada Web access log, kita
menemukan bahwa aturan asosiasi : "A and B implies C," memiliki nilai confidence
80%, dimana A, B, dan C adalah halaman Web yang bisa diakses. Jika seorang user
mengunjungi halaman A dan B, maka terdapat 80% kemungkinan dia akan
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
128
mengunjungi halaman C juga pada session yang sama, sehingga halaman C perlu diberi
direct link dari A atau B. Informasi ini dapat digunakan untuk membuat link secara
dinamik ke halaman C dari halaman A atau B sehingga user dapat melakukan direct link
ke halaman C. Informasi semacam ini digunakan untuk melakukan link ke halaman
produk yang berbeda secara dinamik berdasarkan interaksi customer.
Apa Itu Kaidah Asosiasi?
•
Kaidah asosiasi penambangan
– Pertama kali diusulkan oleh Agrawal, Imielinski dan Swami [AIS93]
•
Diberikan:
– Suatu database transaksi
– Setiap transaksi adalah suatu himpunan item-item
•
Cari seluruh kaidah asosiasi yang memenuhi kendala minimum support dan
minimum confidence yang diberikan user.
•
t
e
N
Contoh:
a
r
d
30% dari transaksi yang memuat bir juga memuat popok 5% dari transaksi
memuat item-item berikut:
n
e
H
– 30% : confidence dari kaidah ini
By
– 5% : support dari kaidah ini
•
Kita berminat untuk mencari seluruh kaidah ketimbang memeriksa apakah suatu
kaidah berlaku.
Definisi Umum
•
Itemset: himpunan dari item-item yang muncul bersama-sama
•
Kaidah asosiasi: peluang bahwa item-item tertentu hadir bersama-sama.
oX → Y dimana X n Y = 0
•
Support, supp(X) dari suatu itemset X adalah rasio dari jumlah transaksi
dimana suatu itemset muncul dengan total jumlah transaksi.
•
Konfidence (keyakinan) dari kaidah X . Y, ditulis conf(X . Y) adalah
– conf(X → Y)=supp(X ∪ Y) / supp(X)
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
129
– Konfindence bisa juga didefinisikan dalam terminologi peluang bersyarat
conf(X → Y)=P(Y|X)=P(X ∩ Y)/P(X)
•
Database transaksi menyimpan data transaksi. Data transaksi bisa juga disimpan
dalam suatu bentuk lain dari suatu database mxn.
Ukuran Support
•
Misalkan I={I1, I2, …,Im} merupakan suatu himpunan dari literal, yang disebut
item-item.
•
Misalkan D={T1, T2, …, Tn} merupakan suatu himpunan dari n transaksi,
dimana untuk setiap transaksi T∈ D, T ⊆ I.
•
Suatu himpunan item X ⊆ I disebut itemset.
•
Suatu transaksi T memuat suatu itemset X jika X ⊆ T.
•
Setiap itemset X diasosiasikan dengan suatu himpunan transaksi TX ={T∈ D | T
t
e
N
a
r
d
⊇ X} yang merupakan himpunan transaksi yang memuat itemset X.
n
e
H
•
Support supp(X) dari itemset X sama dengan |TX|/|D|.
•
Didalam setiap item adalah nilainilai yang menyatakan besaran item terjual.
By
Gambar 11.2. Bentuk Transaksi Database
•
Item A muncul dalam 3 transaksi (|TA|) yakni di transaksi T1, T3,dan T8.
•
Ada sebanyak 10 transaksi (|D|)
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
130
•
Supp(A)= |TA|/|D| = 3/10 = 0.3
•
Kombinasi CD muncul didalam 5 transaksi ((|TCD|) yakni di transasi T1, T3,
T5, T6, dan T9.
•
Supp(CD)= |TCD|/|D|= 5/10 = 0.5
•
Frequent itemset didefinisikan sebagai itemset dimana support-nya lebih besar
atau sama dengan minsupport yang merupakan ambang yang diberikan oleh
user.
•
Jika minsupport diberikan oleh user sebagai ambang adalah 0.2, maka frequent
itemset adalah semua itemset yang supportnya besar sama dengan 0.2, yakni A,
C, D, AC, AD, CD, ACD
•
Dari frequent itemset bisa dibangun kaidah asosiasi sbb:
A→C
C→A
A→D
D→A
C→D
D → C,
A,C → D
A,D → C
By
C,D →A
t
e
N
a
r
d
n
e
H
Gambar 11.3. Hasil nilai support untuk setiap items
Analisis dari kebiasaan membeli customer dengan mencari asosiasi dan korelasi antara
item-item berbeda yang diletakkan customer dalam keranjang belanjaannya.
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
131
Gambar 11.4. Keranjang Belanja
•
Diberikan :
– Suatu database transaksi customer (misal, keranjang belanja), dimana
setiap transaksi dalah suatu himpunan item-item (misal produk)
•
Cari:
– Grup item-item yang sering dibeli secara bersama-sama
t
e
N
a
r
d
Gambar 11.5. Bentuk Transaksi Keranjang Belanja
•
n
e
H
Mengekstraksi informasi perilaku pembelian
By
– "IF membeli bir dan sosis, THEN juga membeli mostar dengan peluang
tinggi"
•
Informasi yang bisa ditindak-lanjuti:
– Bisa menyarankan Tata letak toko yang baru dan campuran produk
– Bisa menyarankan Produk apa untuk diletakkan dalam promosi ?
•
Menganalisis tabel transaksi
Person
A
B
C
D
Basket
Chips, Salsa, coke, crakers, cookies, beer
Lettuce, Spinach, Oranges, Cellery, Apples, Grapes
Chips, Salsa, Frozen Pizza, Frozen cake
Lettuce, Spinach, Milk, Butter
Gambar 11.6. Bentuk Analisa Keranjang Belanja
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
•
132
Bisakah kita membuat hipotesa?
– Chips => Salsa
Lettuce => Spinach
Dasar Kaidah Asosiasi:
•
Kaidah asosiasi penambangan:
– Mencari pola yang sering muncul, asosiasi, korelasi, atau struktur sebab
musabab diantara himpunan item-item atau objek-objek dalam database
transaksi, database relasional, dan penyimpanan informasi lainnya
•
Kepemahaman:
– Sederhana untuk dipahami
•
Kegunaan:
– menyediakan informasi yang bias ditindaklanjuti
•
Efisiensi:
t
e
N
– ada algoritma pencarian yang efisient
•
a
r
d
Aplikasi:
– Analisis data keranjang pasar, pemasaran silang, rancangan katalog,
n
e
H
analisis lossleader, clustering, klasifikasi, dsb.
•
By
Format penyajian kaidah asosiasi yang biasa:
– popok . bir [0.5%, 60%]
– beli:popok . beli:bir [0.5%, 60%]
– "IF membeli popok, THEN membeli bir dalam 60% kasus. Popok dan
bir dibeli bersama-sama dalam 0.5% dari baris-baris dalam database."
•
Penyajian lainnya (digunakan dalam buku Han):
– Beli ( x, “popok” )
beli ( x, “bir” ) [ 0.5%, 60% ]
– Major ( x, "CS" ) ^ mengambil ( x, "DB" )
grade( x,"A" ) [ 1%, 75% ]
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
133
1. Antecedent, left-hand side (LHS), body
2. Consequent, right-hand side (RHS), head
3. Support, frekuensi (“dalam berapa besar bagian dari data benda-benda dalam
LHS dan RHS terjadi bersama-sama”)
4. Confidence, kekuatan (“jika LHS terjadi, bagaimana kirakira RHS terjadi”)
•
Support: menunjukkan frekuensi dari kaidah didalam transaksi.
•
Confidence: menunjukkan persentasi dari transaksi yang memuat A yang juga
memuat B.
t
e
N
•
Minimum support σ :
– High
a
r
d
n
e
H
sedikit itemset yang sering
By
sedikit kaidah yang sah yang sangat sering terjadi
– Low
•
banyak kaidah yang sah yang jarang terjadi
Minimum confidence γ :
– High
sedikit kaidah, tetapi selurhnya “hampir secara logika true”
– Low
banyak kaidah, banyak diantaranya sangat “takpasti”
•
Nilai-nilai biasanya: σ = 2 s/d 10 %, γ = 70 s/d 90 %
•
Transaksi:
–
Relational format Format Kompak
< Tid, item > < Tid, itemset >
< 1, item1 >
< 1, {item1,item2}>
< 1, item2 >
< 2, {item3}>
< 2, item3 >
•
Item vs itemsets : elemen tunggal vs. himpunan item
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
134
•
Support dari suatu itemset I: jumlah transaksi yang memuat I
•
Minimum support σ: ambang untuk support
•
Frequent itemset : dengan support = σ
10.6.2. ALGORITMA APRIORI
Persoalan association rule mining terdiri dari dua sub persoalan :
1. Menemukan semua kombinasi dari item, dise but dengan frequent itemsets,yang
memiliki support yang lebih besar daripada minimum support.
2. Gunakan
frequent
itemsets
untuk
men-generate
aturan
yang
dikehendaki.Semisal, ABCD dan AB adalah frequent, maka didapatkan aturan
AB -> CD jika rasio dari support(ABCD) terhadap support(AB) sedikitnya sama
dengan minimum confidence. Aturan ini memiliki minimum support karena
ABCD adalah frequent.
t
e
N
a
r
d
Algoritma Apriori yang bertujuan untuk menemukan frequent itemsets dijalankan pada
n
e
H
sekumpulan data. Pada iterasi ke -k, akan ditemukan semua itemsets yang memiliki k
items, disebut dengan k -itemsets. Tiap iterasi berisi dua tahap. Misal Oracle Data
By
Mining Fk merepresentasikan himpunan dari frequent k -itemsets, dan Ck adalah
himpunan candidate k-itemsets (yang potensial untuk menjadi frequent itemsets). Tahap
pertama adalah men-generate kandidat, dimana himpunan dari semua frequent (k- 1)
itemsets, Fk-1, ditemukan dalam iterasi ke-(k-1), digunakan untuk men-generate
candidate itemsets Ck. Prosedur generate candidate memastikan bahwa Ck adalah
superset dari himpunan semua frequent k-itemsets. Struktur data hash-tree digunakan
untuk menyimpan Ck. Kemudian data di-scan dalam tahap penghitungan support. Untuk
setiap transaksi, candidates dalam Ck diisikan ke dalam transaksi, ditentukan dengan
menggunakan struktur data hash-tree hashtree dan nilai penghitungan support
dinaikkan. Pada akhir dari tahap kedua, nilai Ck diuji untuk menentukan yang mana dari
candidates yang merupakan frequent. Kondisi penghitung (terminate condition) dari
algoritma ini dicapai pada saat Fk atau Ck+1 kosong.
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
135
Inti dari algoritma apriori :
•
Gunakan frequent (k – 1)-itemsets untuk membangun kandidat frequent kitemsets.
•
Gunakan scan database dan pencocokan pola untuk mengumpulkan hitungan
untuk kandidat itemsets
Penyumbatan dari apriori : generasi kandidat
•
Himpunan kandidat yang besar sekali:
-
104 frequent 1-itemset akan membangun 107 kandidat 2-itemsets.
-
Untuk menemukan suatu pola yang sering dari ukuran 100, misal, {a1, a2,
…, a100}, seseorang perlu membangun 2100
•
Scan database berkali-kali:
-
Perlu (n +1 ) scans, n adalah panjang dari pola terpanjang
t
e
N
a
r
d
Dalam praktek:
•
1030 kandidat.
Untuk pendekatan apriori dasar, jumlah atribut dalam baris biasanya lebih kritis
n
e
H
ketimbang jumlah baris transaksi
•
Contoh:
-
By
50 atribut masing-masing memiliki 1-3 nilai, 100.000 baris (tidak sangat
buruk)
-
50 atribut masing-masing memiliki 10-100 nilai, 100.000 baris (cukup
buruk)
•
Perhatian:
-
Satu atribut bisa memiliki beberapa nilai berbeda
-
Algoritma kaidah asosiasi biasanya memperlakukan setiap pasangan
atribut-nilai sebagai satu atribut (2 atribut dengan masingmasing 5 nilai
=> "10 atribut")
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
136
Ada beberapa cara untuk mengatasi problem dalam algoritma apriori ini berikut,
Perbaikan Kinerja Apriori :
1. Hitungan itemset berbasis hash:
Suatu k-itemset yang hitungan ember hash terkaitnya dibawah ambang tidak bisa
frequent.
2. Reduksi transaksi:
Suatu transaksi yang tidak memuat frequent k itemset apapun adalah sia-sia
dalam scan berikutnya.
3. Partisi:
Itemset apapun yang potensial frequent dalam DB haruslah frequent dalam
paling tidak satu dari partisi dari DB
4. Sampling:
Penambangan atas suatu subset dari data yang diberikan, menurunkan ambang
t
e
N
support suatu metoda untuk menentukan kelengkapan.
Diberikan: (1) database transaksi, (2) setiap adalah suatu daftar dari item-item
a
r
d
yang dibeli (dibeli seorang customer pada suatu kunjungan)
By
n
e
H
cari: seluruh kaidah dengan minimum support dan confidence
If min. support 50% dan min. confidence 50%, then A => C [50%, 66.6%], C =>
A [50%, 100%].
Langkah-langkah untuk mencari nilai minimum support dam confidence dengan
algoritma apriori
STEP 1: cari frequent itemsets: himpunan item-item yang memiliki
minimum support.
•
Disebut trik Apriori: suatu subset tak hampa dari suatu frequent itemset
haruslah juga suatu frequent itemset:
-
Artinya, jika {AB} adalah suatu frequent itemset, kedua {A} dan {B}
harus juga frequent itemsets.
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
•
137
Secara iteratif cari frequent itemsets dengan ukuran dari 1 hingga k (kitemset)
STEP 2: gunakan frequent itemsets untuk membangun kaidah asosiasi..
•
Jika {bir,popok, kacang} frequent, maka {bir, popok} juga frequent.
•
Setiap transaksi yang memiliki {beer, popok, kacang} juga memuat {bir,
popok}.
•
Jika {A,B} memiliki support paling tidak a , maka A dan B keduanya
memiliki support paling tidak a.
•
Jika A atau B memiliki support kecil dari a maka {A, B} memiliki support
lebih kecil dari a.
Step Gabungan: Ck dibangun dgn menggabungkan Lk-1dengan dirinya
t
e
N
Step Pemangkasan: setiap (k-1)-itemset yg bukan frequent tidak boleh menjadi
a
r
d
suatu subset dari suatu frequent k-itemset.
Pseudo-code: Ck: Kandidate itemset dari ukuran k; Lk : Frequent itemset dari
ukuran k.
By
n
e
H
L1 = {frequent items};
for (k = 1; Lk !=0; k++) do begin
Ck+1 = {kandidat dibangun dari Lk };
for each transaksi t dalam database do naikkan hitungan dari seluruh
kandidat dalam Ck+1 yang dimuat dalam t
Lk+1 = {kandidat dalam Ck+1 dengan min_support}
end
return .k Lk;
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
138
Bentuk Ilustrasi Algoritma Apriori
Gambar 11.7. Ilustrasi Algoritma Apriori
t
e
N
Contoh apriori :
•
Price
a
r
d
1500
1/4/99
MS Office
300
1/4/99
MCSE Book
100
1/4/99
201
Hard disk
500
1/8/99
102
201
MCSE Book
100
1/8/99
103
202
Computer
1500
1/21/99
103
202
Hard disk
500
1/21/99
103
202
MCSE Book
100
1/21/99
TID
CID
Item
101
201
Computer
101
201
101
201
102
By
n
e
H
Date
Dalam contoh ini untuk kaidah asosiasi
{Computer}
-
{Hard disk}
Jumlah seluruh transaksi adalah 3 (oleh customer 201 dua kali yakni
pada 1/4/99 dan 1/8/99, customer 202 sekali yakni pada 1/21/99. Catatan
perhatikan Customer dan tanggal transaksi )
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
-
139
Jumlah transaksi Computer dan Hard Disk adalah 1 ( oleh customer 202
pada 1/21/99 )
-
Jumlah transaksi hanya Computer adalah 2 (pada 1/4/99 oleh 201 dan
pada 1/21/99 oleh 202)
> Support(Computer Hard disk) = 1/3=33.3%
> Conf(Computer Hard disk) = 1/2=50%
•
Bagaimana dengan {Computer}
-
{MCSE book}
Jumlah seluruh transaksi adalah 3 (oleh customer 201 dua kali, customer
202 sekali. Catatan perhatikan Customer dan tanggal transaksi)
-
Jumlah transaksi Computer dan MCSE book adalah 2 (oleh customer 201
dan 202)
-
Jumlah transaksi hanya Computer adalah 2
> Support(Computer {MCSE book)= 2/3 = 66.6%
t
e
N
> Conf(Computer {MCSE book)= 2/2 = 100%
•
Berapa support dari 2-itemset {Computer , Hard disk} ?
a
r
d
-
Jumlah transaksi 2-itemset {Computer, Hard disk}adalah 1.
-
Jumlah transaksi keseluruhan adalah 3.
By
n
e
H
> Support dari 2-itemset {Computer, Hard disk} adalah 1/3=33.3%
•
Berapa support dari 1-itemset {Computer}?
-
Jumlah transaksi 1-itemset {Computer}adalah 2.
-
Jumlah transaksi keseluruhan adalah 3.
> Support dari 1-itemset {Computer} adalah 2/3=66.6%
•
2 Step dalam kaidah asosiasi penambangan:
-
Cari seluruh itemsets yang supportnya diatas minimum support yang
diberikan oleh user. Kita sebut itemsets ini itemsets besar.
-
Untuk setiap itemset besar L, carilah seluruh kaidah asosiasi dalam
bentuk a (L-a) dimana a dan (L-a) adalah himpunan bagian L yang tak
hampa.
•
Step 2 adalah jelas yang dikaitkan dengan step 1:
-
Ruang pencarian eksponensial
-
Ukuran dari transaksi database
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
140
Supp(Computer)=2/3=66.7%, supp(MS Office)=1/3=33.3%
Supp(MCSE Book)=3/3=100%, supp(Hard Disk)=2/3=66.7%
Supp(Computer,MSOffice)=1/3=33.3%
Supp(Computer,MCSE Book)=2/3=66.7%
Supp(Computer,Hard Disk)=1/3=33.3%
Supp(MCSE Book, MS Office)=1/3=33.3%
Supp(MCSE Book, Hard Disk)=2/3=66.7%
Supp(MSOffice,Hard Disk)=0/3=0%
Supp(Computer, MCSE Book,MSOffice)=1/3=33.3%
Supp(Computer, MCSE Book, Hard Disk)=1/3=33.3%
Supp(MCSE Book, MSOffice,Hard Disk)=0/3=0%
Supp(Computer,MCSE Book, MSOffice,HardDisk)=0/3=0%
t
e
N
Asosiasi dengan minsupport 60% adalah:
Computer
MCSE Book, MCSE Book
d
n
e
MCSE Book
Hard Disk, Hard Disk
By
Conf(Computer
Computer
ra
MCSE Book
H
MCSE Book)=2/2=100%
Conf(MCSE Book
Computer)=2/3=66.7%
Conf(MCSE Book
Hard Disk)=2/3=66.7%
Conf(Hard Disk
MCSE Book)=2/2=100%
Jadi, asosiasi yang memenuhi minsupport 60% dan minconfidence 80% adalah:
Hard Disk
MCSE Book dan
Computer
MCSE Book
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
141
RINGKASAN:
•
Pada dasarnya data mining berhubungan dengan analisa data dan penggunaan
teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam
himpunan data yang sifatnya tersembunyi.
•
Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan
potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis
data
•
Tantangan-tantangan dalam Data Mining meliputi : penanganan berbagai tipe data,
efisiensi dari algoritma data mining, kegunaan, kepastian dan keakuratan hasil,
ekspresi terhadap berbagai jenis hasil dan data yang diambil dari berbagai sumber
yang berbeda.
•
Tahapan dalam Data Mining meliputi : proses seleksi, pembersihan data,
tranformasi, implementasi teknik data mining dan interprestasi hasil
•
t
e
N
Fungsionalitas dalam Data Mining meliputi mining association rule, karakterisasi
a
r
d
data multilevel, klasifikasi data, analisa cluster, dan pencarian pola sekuensial
•
n
e
H
Teknik-teknik dalam Data Mining yang bisa diterapkan antara lain : market basket
analysis dan Algoritma Apriori.
By
http://www.hendra-jatnika.web.id
BAB 10 DATA MINING
142
LATIHAN SOAL :
1. Apa perbedaan antara klasifikasi dan clustering ?
2. Apa peranan visualisasi informasi dalam data mining ?
3. Definisikan support dan confidence untuk aturan asosiasi
4. Jelaskan mengapa aturan asosiasi tidak dapat digunakan secara langsung untuk
prediksi, tanpa analisis yang lebih lanjut atau domain pengetahuan !
5. Perhatikan table Purchase berikut ini :
Transid
Custid
Date
Item
Qty
111
201
5/1/2002
Ink
1
111
201
5/1/2002
Milk
2
111
201
5/1/2002
Juice
1
112
105
6/3/2002
Pen
1
112
105
6/3/2002
t
e
N
Ink
1
112
105
6/3/2002
Water
1
113
106
5/10/2002
Pen
1
113
106
5/10/2002
Water
2
113
106
5/10/2002
Milk
1
114
201
6/1/2002
Pen
2
114
201
6/1/2002
Ink
2
114
201
6/1/2002
Juice
4
114
201
6/1/2002
Water
1
114
201
6/1/2002
Milk
1
nd
ra
By
He
Simulasikan algoritma untuk menemukan frequent itemset pada table degan minimum
support = 90 persen, lalu cari aturan asosiasi dengan minimum confidence = 90 persen.
Download