generalisasi data menggunakan pendekatan attribute

advertisement
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
APLIKASI TEKNIK INDUKSI BERORIENTASI ATRIBUT
PADA DATA SIRKULASI BUKU DI PERPUSTAKAAN
(Studi Kasus Data Sirkulasi Perpustakaan Pusat IPB)
Imas S. Sitanggang, Hari Agung*
ABSTRAK
APLIKASI TEKNIK INDUKSI BERORIENTASI ATRIBUT PADA DATA SIRKULASI
BUKU DI PERPUSTAKAAN (Studi Kasus Data Sirkulasi Perpustakaan Pusat IPB) Data sirkulasi
buku di perpustakaan khususnya di Perpustakaan Pusat IPB dicatat setiap harinya sehingga menghasilkan
kumpulan data berukuran besar. Data tersebut meliputi data peminjaman dan pengembalian buku dari
mahasiswa setiap fakultas termasuk Fakultas Pascasarjana. Untuk melihat karakteristik peminjam buku
antar fakultas, kumpulan data transaksi buku dapat analisis dengan menggunakan pendekatan Induksi
Berorientasi Atribut. Informasi yang diperoleh diharapkan dapat berguna bagi pengelola perpustakaan
untuk meningkatkan penyalanan kepada pengguna. Induksi Berorientasi Atribut merupakan metode yang
digunakan untuk mengekstrak data tergeneralisasi dari data aktual dalam basis data. Hasil percobaan
menunjukkan bahwa atribut yang paling relevan untuk menggambarkan kelas peminjam buku antar
fakultas adalah Kelas Buku pada pengelompokan paling umum dalam format UDC, dengan nilai
Information Gain yaitu 0.066224. Berdasarkan tabulasi silang dan aturan yang diturunkan dapat
dinyatakan bahwa Kelas Buku yang memiliki kemungkinan yang besar dipinjam oleh semua mahasiswa
IPB adalah kelas buku 500 (Mathematics and Natural Science). Kelas buku yang memiliki kemungkinan
kecil dipinjam oleh mahasiswa IPB adalah 000 (Generalities), 100 (Philosophy), 200 (Religion.
Theology), 400 (Philology. Linguistics. Languanges), 700 (The Arts. Recreation. Entertainment. Sport,
Etc), 800 (Literature), 900 (Geography. Biography. History).
Kata-kata kunci: pendekatan Induksi Berorientasi Atribut
ABSTRACT
APPLICATIONS OF INDUCTION TECHNIQUE USING ATTRIBUTE-ORIENTED FOR
THE BOOK CIRCULATION DATA AT LIBRARIES (CASE STUDY: DATA CIRCULATION
OF IPB CENTER LIBRARY). The book circulation data at libraries, especially at IPB Center Library,
are being recorded everyday creating a collection of big-sized data. The data include book loans and
returns for every student from all the faculty, including the Faculty of Post-Graduate School. To see the
different characteristics of book loaners from every faculty, the book loans data collection can be
analyzed using the Attribute-Oriented Induction approach. The information gained hopefully could be
useful for the library manager to improve the services offered to the visitors. Attribute-Oriented Induction
is a method used to extract generalized data from the actual data in a database. The result of the
experiment showed that the most relevant attribute to describe book loaners class between faculties is the
Book Class on the most general classification in UDC format, with the value of Information Gain of
*
Departemen Ilmu Komputer, FMIPA-IPB, email: [email protected], [email protected]
253
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
0.066224. Based on the cross-tabulation and the rules derived, it is concluded that the Book Class which
has the highest possibility of being loaned by all IPB students is the book class 500 (Mathematics and
Natural Sciences). The book classes that have the lowest possibilities of being loaned by IPB students are
the book class 000 (Generalities), 100 (Philosophy), 200 (Religion), 400 (Phylogogy of Linguistic
Languanges), 700 (The Arts. Recreation. Entertainment. Sport, Etc), 800 (Literature), and 900
(Geography. Biography. History).
Keywords: Attribute-Oriented approach
PENDAHULUAN
Perkembangan teknologi informasi telah memberikan kontribusi pada cepatnya
pertumbuhan jumlah data yang dikumpulkan dan disimpan dalam basis data berukuran
besar (gunung data). Seringkali data tersebut tidak digunakan lagi dalam membuat
suatu keputusan karena tidak ada alat yang dapat digunakan untuk mengekstrak
informasi yang bernilai yang terkandung dalam gunung data tersebut.
Hal ini terjadi pula pada data sirkulasi bahan pustaka khususnya buku yang ada
di Perpustakaan Pusat IPB. Data sirkulasi bahan pustaka yang meliputi peminjaman
dan pengembalian buku dicatat setiap hari sehingga menghasilkan kumpulan data
sirkulasi buku dalam ukuran besar. Sebagai contoh, terdapat 17668 record
menyatakan data transaksi buku mulai bulan Januari tahun 2003 sampai dengan bulan
Juni tahun 2004. Dari sejumlah besar record transaksi buku dapat diperoleh
informasi-informasi yang berguna untuk pengembangan lebih lanjut layanan di
Perputakaan Pusat IPB. Informasi tersebut dapat berupa deskripsi ringkas dari
kumpulan data sirkulasi atau berupa perbandingan suatu kelompok data dengan
kelompok data lain dalam himpunan data sirkulasi.
Data mining merupakan proses untuk menemukan pengetahuan dari kumpulan
data berukuran besar. Data mining merupakan sebuah proses utama dalam tahapan
knowledge discovery dalam basis data. Dalam tulisan ini, teknik data mining akan
diaplikasikan untuk memperoleh pengetahuan yang berguna dari kumpulan data
sirkulasi di Perpustakaan Pusat IPB. Teknik data mining yang digunakan adalah
pendekatan Induksi Berorientasi Atribut. Pendekatan ini akan digunakan untuk
mendapatkan deskripsi ringkas dari data sirkulasi. Diharapkan pengetahuan yang
diperoleh dapat berguna dalam peningkatan layanan di Perpustakaan Pusat IPB.
254
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
TAHAPAN DALAM KNOWLEDGE DISCOVERY IN DATABASES
Knowledge Discovery in Databases (KDD) merupakan proses ekstraksi
informasi atau pola yang menarik dari data dalam basis data berukuran besar. Data
mining adalah sebuah proses dalam Knowledge Discovery in Databases (KDD).
Tahapan-tahapan dalam KDD dapat dilihat pada Gambar 1. KDD terdiri dari tiga
proses utama yaitu preprocessing, data mining dan postprocessing. Preprocessing
dilakukan terhadap data sebelum algoritme data mining diaplikasikan. Proses ini
meliputi data cleaning, integrasi, seleksi dan transformasi. Proses utama dalam KDD
adalah proses data mining, dalam proses ini algoritme-algoritme data mining
diaplikasikan untuk mendapatkan pengetahuan dari sumber data. Hasil yang diperoleh
dari proses data mining selanjutnya akan dievaluasi pada postprocessing.
Berdasarkan hasil evaluasi, pengetahuan dapat direpresentasikan jika hasil tersebut
memuaskan, jika hasilnya tidak memuaskan maka proses-proses sebelumnya akan
diulang kembali sampai diperoleh hasil yang memuaskan.
Pattern Evaluation
Data mining
Task-relevant Data
Data Warehouse
Selection
Data Cleaning
Data Integration
Databases
Gambar 1. Tahapan dalam KDD (Han dan Micheline, 2001)
Terdapat beberapa bentuk teknik-teknik data mining seperti deskripsi konsep,
analisis asosiasi, klasifikasi dan prediksi serta analisis cluster. Teknik-teknik tersebut
dapat diaplikasikan pada berbagai tipe sumber data seperti basis data relasional, data
255
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
warehouse, basis data transaksional, basis data spasial, basis data multimedia, basis
data teks dan web.
Dari sudut pandang analisis data, data mining dapat diklasifikasikan ke dalam
dua kategori, yaitu descriptive data mining dan predictive data mining. Descriptive
data mining menjelaskan himpunan data dalam cara yang yang lebih ringkas.
Ringkasan tersebut menyatakan sifat-sifat umum yang menarik dari data. Predictive
data mining menganalisis data dengan tujuan untuk membangun satu atau sekumpulan
model dan melakukan prediksi perilaku dari kumpulan data yang baru.
Dalam descriptive data mining, himpunan data dikemas dalam bentuk yang
lebih ringkas dan menghasilkan deksripsi dari data tersebut. Deskripsi demikian
dinamakan deskripsi konsep yang memberikan gambaran menyeluruh dari kelas data
atau membedakan kelas data tersebut dengan kelas-kelas pembeda. Gambaran
menyeluruh dari kelas data diberikan melalui proses karakterisasi dari data, sedangkan
deskripsi-deskripsi yang membandingkan dua atau lebih koleksi dari data diberikan
melalui perbandingan (atau sering dinamakan diskriminasi) data.
INDUKSI BERORIENTASI ATRIBUT
Induksi Berorientasi Atribut merupakan metode yang digunakan untuk
mengekstrak data tergeneralisasi dari data aktual dalam basis data. Metode ini
mengintegrasikan paradigma machine learning dengan operasi basis data (Han et. al,
1992). Teknik induksi berorientasi atribut diaplikasikan dalam task relevant data.
Dalam proses pembelajaran tertentu biasanya tidak seluruh data dalam basis data
digunakan, tetapi hanya porsi tertentu saja. Sebagai contoh, untuk menentukan
karakteristik dari mahasiswa program sarjana ilmu komputer, hanya diperlukan data
yang relevan dengan data mahasiswa pada jenjang sarjana ilmu komputer saja.
Kumpulan data tersebut dinyatakan sebagai task relevant data. Query dapat
digunakan untuk membentuk task relevant data.
Proses induksi menghasilkan pengetahuan yang dapat direpresentasikan dalam
beberapa bentuk seperti aturan logika, tabulasi silang atau grafik. Terdapat banyak
aturan logika yang dapat ditentukan diantaranya aturan karakteristik dan aturan
diskriminasi. Aturan karakteristik menyatakan karakteristik konsep yang dipenuhi
oleh semua atau sejumlah besar contoh dalam kelas target. Aturan diskriminasi
menyatakan perbedaan antara konsep dari kelas target dari kelas lainnya yang
dinamakan kelas pembeda (constrasting class). Dalam penentuan aturan karakteristik,
task relevant data dikumpulkan ke dalam sebuah kelas target. Sedangkan dalam
penentuan aturan diskriminasi, data dikelompokkan ke dalam dua kelas yaitu kelas
target dan kelas-kelas pembeda.
256
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
Deskripsi konsep erat kaitannya dengan generalisasi data. Sebuah konsep
biasanya merujuk kepada koleksi data seperti koleksi mahasiswa program sarjana.
Generalisasi data adalah sebuah proses yang menentukan abstraksi sebuah himpunan
yang berukuran besar dari task-relevant data dalam sebuah basis data dari level
konseptual yang relatif rendah ke level konseptual yang lebih tinggi. Level konsep
yang berbeda seringkali diorganisasikan ke dalam taksonomi dari konsep. Taksonomi
konsep secara parsial dapat diurutkan berdasarkan pengurutan dari konsep general ke
konsep yang lebih spesifik. Dengan menggunakan hirarki konsep, aturan dapat
direpresentasikan dalam bentuk konsep tergeneralisasi. Sebagai contoh, hirarki
konsep dari basis data mahasiswa adalah
{Fisika, Biologi, Kimia, Ilmu Komputer, Matematika, Statistika} ⊂ FMIPA
{Bogor, Cianjur, Sukabumi, ..., Sumedang} ⊂ Jawa Barat
{0 – 1.49} ⊂ DO
{1.5 – 1.99} ⊂ Mengulang
{2.00 – 4.00} ⊂ Naik
{DO, Mengulang, Naik} ⊂ ANY(status)
Nilai “ANY” dapat digunakan pada relasi untuk mendapatkan generalisasi lebih
jauh (Heinonen dan Heikki, 1996). Dalam hirarki konsep tersebut, A ⊂ B menyatakan
bahwa B adalah generalisasi dari A. Hirarki konsep dapat ditentukan oleh knowledge
engineer atau domain expert.
Algoritme dasar Induksi Berorientasi Atribut:
Input: (i) Basis data relasional, (ii) learning task, (iii) hirarki konsep (opsional) (iv)
nilai threshold generalisasi (opsional)
Ouput: Aturan karakteristik yang diperoleh dari basis data
Metode: Proses Induksi Berorientasi Atribut terdiri dari empat tahap berikut:
Langkah 1: Kumpulkan task-relevant data,
Langkah 2: Lakukan Induksi Berorientasi Atribut,
Langkah 3: Sederhanakan relasi tergeneralisasi, dan
Langkah 4: Tranformasikan relasi akhir ke dalam aturan logika, tabulasi silang atau
grafik.
Langkah 2 dilakukan sebagai berikut:
begin {Induksi Berorientasi Atribut dasar}
for each atribut Ai (1≤i≤n, dimana n adalah banyaknya atribut) dalam relasi
tergeneralisasi GR do
while banyaknya nilai yang berbeda dari atribut Ai > threshold do {
if tidak ada konsep level hirarki yang lebih tinggi dalam tabel hirarki
konsep untuk Ai
then buang Ai
257
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
else substitusi nilai-nilai Ai dengan konsep tergeneraliasi nimimal
yang sesuai; gabungkan tuple-tuple identik}
while banyaknya tuple dalam GR > threshold do {
generalisasi atribut secara selektif; gabungkan tuple-tuple identik}
end.
Analisis relevansi atribut dilakukan untuk mengidentifikasi atribut yang tidak
relevan atau yang kurang relevan. Secara intuitif, atribut dianggap relevan terhadap
kelas yang diberikan jika nilai-nilai atribut tersebut dapat digunakan untuk
membedakan kelas dengan kelas lainnya. Atribut yang kurang relevan selanjutnya
dapat dikeluarkan dari proses deskripsi konsep. Analisis relevansi atribut dilakukan
dengan menghitung ukuran yang digunakan untuk mengukur relevansi sebuah atribut
terhadap kelas atau konsep yang diberikan. Salah satu ukuran tersebut adalah
information gain (Han dan Micheline, 2001).
Kalkulasi information gain dilakukan sebagai berikut: S adalah sebuah
himpunan dari training samples, dimana label kelas dari setiap sample diketahui. Satu
atribut digunakan untuk menentukan kelas dari training sample. Anggap bahwa
terdapat m kelas. Misalkan S mengandung si sample dari kelas Ci , untuk i = 1, 2, ...,
m. Sebuah sample sembarang anggota kelas Ci dengan probabilitas si / s , dimana s
adalah banyaknya total sample dalam himpunan S. Expected information diperlukan
untuk mengklasifikasikan sebuah sample yang diberikan. Nilai tersebut dihitung
dengan formula (Han dan Micheline, 2001):
m
I ( s1 , s2 ,..., sm ) = −∑
i =1
si
s
log 2 i
s
s
Sebuah atribut A dengan nilai {a1 , a2 ,..., av } dapat digunakan untuk mempartisi S ke
dalam sub set {S1 , S 2 ,..., S v }, dimana S j mengandung sample-sample dalam S yang
memiliki nilai a j dari A. Misalkan S j mengandung sij sample dari kelas Ci .
Expected information yang didasarkan pada proses partisi ini oleh A dikenal sebagai
entropy dari A. Besarannya dihitung sebagai berikut (Han dan Micheline, 2001):
v
s1 j + ... + smj
j =1
s
E ( A) = ∑
I ( s1 j ,..., smj )
Information gain diperoleh dengan proses partisi pada A didefinisikan oleh
Gain( A) = I ( s1 , s 2 ,..., sm ) − E ( A)
Atribut dengan nilai information gain paling tinggi dianggap atribut yang paling
relevan untuk membedakan kelas dengan kelas lainnya.
258
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
STUDI KASUS UNTUK APLIKASI INDUKSI BERORIENTASI ATRIBUT
Basis Data
Data yang digunakan adalah data sirkulasi buku Perpustakaan Pusat IPB yang
selanjutnya disimpan dalam sebuah tabel Sirkulasi. Tabel ini terdiri dari
17668
record menyatakan data transaksi buku mulai bulan Januari tahun 2003 sampai dengan
bulan Juni tahun 2004. Data sirkulasi buku Perpustakaan Pusat IPB yang diperoleh
disimpan dalam basis data menggunakan perangkat lunak CDS/ISIS.
Atribut-atribut dalam tabel Peminjam adalah No. Identitas Peminjam, Kategori
Peminjam (menyatakan fakultas), No. Registrasi Buku, Judul Buku, Kelas Buku Yang
Dipinjam (terdiri dari 3 sub atribut), Kondisi Buku Yang Dipinjam, Kode Tanggal
Peminjaman (terdiri dari 3 sub atribut), Tanggal Peminjaman, Tanggal Buku Harus
Kembali, Tanggal Buku Dikembalikan, Jenis Pinjaman, Operator Transaksi Buku,
Nama Peminjam dan Jenis Koleksi.
Metodologi
Proses Induksi Berorientasi Atribut ini dilakukan melalui tiga tahapan utama
yaitu data cleaning, penggunaan pendekatan Induksi Berorientasi Atribut, dan
presentasi hasil.
Data Cleaning
Dalam tahap ini dilakukan konversi data sirkulasi dan data buku dari format file
CDS/ISIS menjadi format file dbf dengan menggunakan perangkat lunak winIDIS dan
winIDAMS. Proses konversi menghasilkan basis data Pustaka yang terdiri dari satu
tabel, yaitu tabel Peminjam. Basis data yang dihasilkan selanjutnya akan diolah
dengan menggunakan perangkat lunak SQL Server 7.0. Deskripsi atribut-atribut
dalam tabel Peminjam dapat dilihat pada Tabel 1.
259
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
Tabel 1. Deskripsi atribut-atribut dalam tabel Peminjam
Nama Atribut
No. Registrasi
Buku
KelasBukuK
KelasBukuL
KelasBukuM
TglPinjam
Kode
TglPinjamA
Kode
TglPinjamB
Kode
TglPinjamA
TglHrsKembali
TglDikembalika
n
Jenis Pinjaman
Jenis Koleksi
Keterangan
Banyaknya nilai
yang berbeda
7253
Kelas Buku K sesuai
dengan format UDC
Kelas Buku L sesuai
dengan format UDC
Kelas Buku M:
pengelompokan paling
umum dalam kelas buku
sesuai dengan format UDC
Tanggal Peminjaman Buku,
dengan format mm/dd/yy
Tanggal Peminjaman Buku
254
Bulan Peminjaman Buku
12, yaitu kode bulan
(1, 2, ..., 12)
2, yaitu tahun 2003
dan 2004
64
Tahun Peminjaman Buku
Tanggal buku harus
dikembalikan, dengan
format mm/dd/yy
Tanggal
buku
dikembalikan,
dengan
format mm/dd/yy
Terdapat dua jenis
peminjaman buku: 1 (satu
malam), 2 (satu minggu)
Dalam tabel ini berisi nilai
yang sama untuk setiap
tuple, yaitu “BUKU”
66
10, yaitu 000, 100,
200, 300, 400, 500,
600, 700, 800, 900
73
31
29
2, yaitu: 1 (satu
malam), 2 (satu
minggu)
1, yaitu “BUKU”
Nilai atribut KelasBukuM ditetapkan berdasarkan Universal Decimal
Classification (UDC) adalah 000 (Generalities), 100 (Philosophy), 200 (Religion.
Theology), 300 (Social Sciences), 400 (Philology. Linguistics. Languanges), 500
(Mathematics and Natural Science), 600 (Applied Sciences. Medicine. Technology),
260
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
700 (The Arts. Recreation. Entertainment. Sport, Etc), 800 (Literature), 900
(Geography. Biography. History).
Setelah proses konversi dilakukan, tahap selanjutnya menentukan tuple-tuple
yang dinyatakan invalid. Dengan menggunakan bahasa query, dapat diperoleh
1. 5544 tuple yang memiliki nilai NULL pada atribut TglDikembalikan. Selanjutnya
tuple-tuple tersebut dibuang agar tidak ikut diproses pada langkah berikutnya.
2. 11 tuple yang memiliki nilai invalid pada atribut KelasBukuK, KelasBukuL,
KelasBukuM. Nilai tersebut adalah : “F” dan “F00”. Selanjutnya tuple-tuple
tersebut dibuang agar tidak ikut diproses pada langkah berikutnya.
3. 151 tuple yang memiliki nilai invalid pada atribut KelasBukuK, KelasBukuL,
KelasBukuM. Nilai tersebut adalah : 515, 591, 658 (11 tuple), 0, 3, 5, 6, 7, 8 (140
tuple). Selanjutnya nilai atribut tersebut diperbaharui dengan nilai baru sebagai
berikut: 515 dan 591 menjadi 500; 658 menjadi 600; 0 menjadi 000, 3 menjadi
300, 5 menjadi 500, 6 menjadi 600; 7 menjadi 700 dan 8 menjadi 800.
Dengan menghilangkan dan memperbarui tuple yang memiliki nilai atribut yang
invalid, diperoleh banyaknya tuple yang tersisa dalam tabel Peminjam sebanyak
12113.
Penggunaan Pendekatan Induksi Berorientasi Atribut
Pendekatan Induksi Berorientasi Atribut diaplikasikan pada data yang telah
dinyatakan bersih, dalam arti data tersebut valid dan tidak memiliki noise. Dalam
tahap ini pendekatan Induksi Berorientasi Atribut digunakan untuk mendapatkan
karakeristik umum dari data peminjam buku di Perpustakaan Pusat IPB. Algoritme
penentuan karakteristik umum dari data peminjam buku adalah
Input : (i) basis data Pustaka; (ii) query data mining; (iii) daftar atribut dalam tabel
Peminjam; (iv) kumpulan hirarki konsep atau operator generalisasi pada atribut; (v)
threshold generalisasi untuk setiap atribut.
Output : Aturan logika dan tabulasi silang
Metode:
1. Menentukan task relevant data atau initial working relation.
Penentuan task relevant data dilakukan untuk kelas peminjam buku yang dipilih
dibedakan berdasarkan asal fakultas, yaitu A (Fakultas Pertanian), B (Fakultas
Kedokteran Hewan), C (Fakultas Perikanan), D (Fakultas Peternakan), E (Fakultas
Kehutanan), F (Fakultas Teknologi Pertanian), G (Fakultas Matematikan dan Ilmu
Pengetahuan Alam) dan H (Fakultas Ekonomi dan Manajemen). Task relevant
data untuk kelas-kelas tersebut diperoleh dengan mengaplikasikan query data
mining. Sebagai contoh, task relevant data untuk kelas peminjam buku dari
kalangan mahasiswa S1 diperoleh dari query data mining berikut:
use Basis data Pustaka
261
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
mine characteristic as “Kategori Peminjam”
in relevance to No. Identitas Peminjam, No. Registrasi Buku, Judul Buku,
Kelas Buku Yang Dipinjam, Kondisi Buku Yang Dipinjam, Kode Tanggal
Peminjaman, Tanggal Peminjaman, Tanggal Buku Harus Kembali, Tanggal
Buku Dikembalikan, Jenis Pinjaman, Operator Transaksi Buku, Nama
Peminjam, Jenis Koleksi
from tabel Sirkulasi
where Kategori Peminjam in “mahasiswa S1”
Selanjutnya query data mining yang diperoleh ditransformasikan ke query
relasional berikut:
use Basis data Pustaka
select No. Identitas Peminjam, No. Registrasi Buku, Judul Buku, Kelas Buku
Yang Dipinjam, Kondisi Buku Yang Dipinjam, Kode Tanggal Peminjaman,
Tanggal Peminjaman, Tanggal Buku Harus Kembali, Tanggal Buku
Dikembalikan, Jenis Pinjaman, Operator Transaksi Buku, Nama Peminjam,
Jenis Koleksi
from tabel Sirkulasi
where kategori peminjam in {“A”, “B”, “C”, “D”, “E”, “F”, “G”, “H”}
2. Menentukan nilai-nilai tergeneralisasi untuk setiap atribut pada task relevant data
untuk setiap kelas. Langkah ini diimplementasikan sebagai berikut
a. Scan task relevant data dan kumpulkan semua nilai yang berbeda untuk setiap
atribut dalam task relevant data.
b. Untuk setiap atribut dalam task relevant data, tentukan apakah atribut tersebut
harus dibuang, jika tidak, hitung level minimal yang diinginkan, Li, untuk
setiap atribut berdasarkan pada threshold atribut yang diberikan. Selanjutnya
tentukan pasangan-pasangan pemetaan ( v , v ' ) , dimana v adalah nilai yang
berbeda dari suatu atribut dalam task relevant data, dan v’ adalah nilai
tergeneralisasi yang sesuai pada level Li.
Langkah 2 menghasilkan relasi kandidat untuk setiap kelas. Atribut-atribut dalam
relasi kandidat ini selanjutnya akan dianalisis untuk menentukan atribut-atribut
mana yang dikategorikan atribut yang tidak relevan dan atribut mana yang kurang
relevan.
Atribut-atribut tersebut selajutnya dibuang sebelum generalisasi
dilakukan.
Dalam tahap ini ditentukan semua nilai yang berbeda untuk setiap atribut dalam
task relevant data. Dengan bahasa query, diperoleh banyaknya nilai-nilai yang
berbeda untuk setiap atribut dalam tabel Peminjam, seperti diberikan dalam Tabel
1. Dengan berdasarkan pada banyaknya nilai yang berbeda untuk atribut dalam
tabel Peminjam serta karakteristik data dalam atribut tersebut, dilakukan
penghilangan beberapa atribut tabel Peminjam. Beberapa atribut yang dibuang
dapat dilihat dalam Tabel 2. Threshold generalisasi untuk setiap atribut ditetapkan
262
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
sebanyak 10. Jika banyaknya nilai yang berbeda untuk atribut lebih besar dari
threshold, maka atribut tersebut dibuang dari relasi.
Tabel 2. Atribut-atribut yang dibuang dan tetap dalam tabel Peminjam
Nama Atribut
No. Identitas Peminjam, No.
Registrasi Buku,
KelasBukuK, KelasBukuL
Dibuang
/ Tetap
Penjelasan
dibuang
Banyaknya nilai yang berbeda lebih
besar dari threshold
Judul Buku, TglPinjam,
Operator Transaksi Buku,
Nama Peminjam
dibuang
Banyaknya nilai yang berbeda lebih
besar dari threshold dan tidak ada
operasi generalisasi yang
didefinisikan pada atribut tersebut.
Kode TglPinjamA, Kode
TglPinjamB, Kode
TglPinjamC
dibuang
Nilai atribut telah dijelaskan dalam
atribut lain TglPinjam
Jenis Koleksi
dibuang
Kategori Peminjam
tetap
KelasBukuM
tetap
TglHrsKembali,
TglDikembalikan
tetap
Jenis Pinjaman
tetap
Memiliki nilai yang sama untuk
setiap atribut
Hanya memiliki 11 nilai yang
berbeda, dan digunakan untuk
menentukan task_relevant_data.
Memiliki 10 nilai yang berbeda.
Digeneralisasi untuk menentukan
lama keterlambatan peminjaman
buku dalam satuan hari.
Memiliki 2 nilai yang berbeda.
Generalisasi dilakukan untuk menentukan lama keterlambatan peminjaman buku
dalam satuan hari. Nilai keterlambatan tersebut disimpan dalam atribut baru yang
diberi nama HariTerlambat, dengan tipe data: integer dan panjang: 4. Nilai
keterlambatan peminjaman buku diperoleh dari nilai atribut TglHarusKembali dan
TglDikembalikan. Terdapat 60 nilai yang berbeda untuk atribut HariTerlambat,
yaitu: 0, 1, ...,43, 46, 47, 53, 58, 59, 62, 63, 64, 67, 76, 78, 83, 140, 149, 212, 394.
Karena pada atribut tersebut terdapat operasi generalisasi dan banyaknya nilai
yang berbeda untuk atribut HariTerlambat lebih besar dari threshold, maka
dilakukan generalisasi level selanjutnya untuk mendapatkan lama keterlambatan
dalam satuan minggu. Nilai lama keterlambatan dalam minggu disimpan dalam
atribut baru yang diberi nama MingguTerlambat, dengan tipe data: integer dan
panjang: 4. Nilai keterlambatan peminjaman buku diberikan dalam Tabel 3.
263
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
Tabel 3. Nilai atribut MingguTerlambat
Nilai atribut
0
1
2
3
4
5
6
99
Keterangan Pengembalian Buku
tidak terlambat (tepat waktu)
1 ≤ HariTerlambat ≤ 7
8 ≤ HariTerlambat ≤ 14
15 ≤ HariTerlambat ≤ 21
22 ≤ HariTerlambat ≤ 28
29 ≤ HariTerlambat ≤ 35
36 ≤ HariTerlambat ≤ 42
HariTerlambat ≥ 43
Relasi kandidat yang dihasilkan terdiri dari beberapa atribut yaitu KelasBukuM,
MingguTerlambat dan Jenis Pinjaman.
3. Menentukan relevansi atribut
Dalam langkah ini, atribut-atribut dalam relasi kandidat dievaluasi menggunakan
ukuran analisis relevansi atribut yaitu information gain. Information gain dari
setiap atribut dalam relasi kandidat dihitung dan diurutkan dalam urutan menaik.
Selajutnya nilai tersebut dibandingkan dengan nilai threshold relevansi atribut
untuk mengidentifikasi atribut-atribut yang kurang relevan. Nilai threshold yang
digunakan adalah 0.01. Jika nilai information gain dari suatu atribut lebih kecil
dari nilai threshold, maka atribut tersebut dinyatakan kurang relevan dan
selanjutnya dibuang dari relasi kandidat. Relasi yang dihasilkan dalam langkah
ini adalah initial target class working relation.
Untuk kelas peminjam buku berdasarkan asal fakultas, nilai expected information
(I(A,B,C,D,E,F,G,H,PPS)) diperoleh sebesar 2.777272739. Sedangkan nilai
entropy dan information gain untuk setiap atribut dalam setiap kelas diberikan
dalam Tabel 4.
Tabel 4. Nilai entropy dan information gain untuk setiap atribut dalam kelas
peminjam berdasarkan asal fakultas
Atribut
KelasBukuM
MingguTerlambat
Jenis Pinjaman
Entropy
2.711049
2.771339
2.768648
Information gain
0.066224
0.005934
0.008625
Berdasarkan hasil yang diperoleh dalam Tabel 4 dapat dinyatakan bahwa atribut
KelasBukuM paling relevan digunakan untuk mendeskripsikan data peminjam
buku baik berdasarkan asal fakultas maupun berdasarkan jenjang studi.
264
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
Sedangkan atribut yang paling kurang relevan adalah MingguTerlambat. Karena
semua atribut MingguTerlambat dan Jenis Pinjaman memiliki nilai information
gain di bawah threshold, maka kedua atribut yang dibuang dalam relasi kandidat.
4. Menentukan relasi tergeneralisasi utama P. Relasi tergeneralisasi utama, P
ditentukan dengan mengganti setiap nilai v dalam relasi yang dihasilkan dari
langkah 3 dengan nilai v’ yang sesuai dalam pemetaan. Pada saat yang
bersamaan, dilakukan perhitungan nilai agregat yaitu count. Langkah ini
diimplementasikan dengan menggunakan dua variasi berikut:
a. Untuk setiap tuple ter-generalisasi, insert tuple ke dalam P yang telah
diurutkan dengan menggunakan algoritme pencarian biner. Jika tuple telah
ada dalam P, naikkan nilai count atau nilai agregat lainnya, selainnya insert
tuple tersebut ke dalam P.
b. Karena dalam banyak kasus, banyaknya nilai yang berbeda pada level P cukup
kecil, P dapat dikodekan sebagai array dimensi m dimana m adalah banyaknya
atribut dalam P, dan setiap dimensi berisi nilai atribut ter-generalisasi yang
sesuai. Setiap elemen array memiliki nilai count atau nilai agregat lainnya.
Penyisipan sebuah tuple ter-generalisasi dilakukan oleh ukuran agregasi dalam
elemen array yang sesuai.
Presentasi Hasil
Pendekatan Induksi Berorientasi Atribut menghasilkan kumpulan deskripsi tergeneralisasi dari data peminjam buku. Deskripsi tersebut akan dipresentasikan dalam
bentuk tabulasi silang dan bentuk aturan-aturan logika. Tabulasi silang dan aturan
logika diasosiasikan dengan aturan kuantitatif. Informasi kuantitatif yang digunakan
dalam aturan karakteristik adalah t-weight (Han dan Micheline, 2001). Besaran ini
dihitung berdasarkan formula berikut
t-weight =
count (q a )
n
∑ count (qi )
i =1
dengan
− n adalah banyaknya tuple dalam kelas target dalam relasi tergeneralisasi.
− q1 , q 2 ,..., q n adalah tuple-tuple untuk kelas target dalam relasi tergeneralisasi.
−
q a dalam q1 , q 2 ,..., q n . q a adalah sebuah tuple tergeneralisasi yang menjelaskan
kelas target.
Tabulasi silang untuk menentukan total peminjam buku berdasarkan asal
fakultas untuk setiap nilai KelasBukuM dapat dilihat pada Tabel 5.
265
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
Tabel 5. Tabulasi silang untuk menentukan total peminjam buku berdasarkan asal
fakultas untuk setiap nilai KelasBukuM
A
Atribut
000
100
200
300
400
500
600
700
800
900
count
16
10
10
531
0
559
2137
62
16
9
B
tweight
0.48%
0.30%
0.30%
15.85%
0.00%
16.69%
63.79%
1.85%
0.48%
0.27%
count
0
0
3
12
1
169
344
0
1
1
C
tweight
0.00%
0.00%
0.56%
2.26%
0.19%
31.83%
64.78%
0.00%
0.19%
0.19%
count
5
1
6
85
0
376
668
4
8
3
D
tweight
0.43%
0.09%
0.52%
7.35%
0.00%
32.53%
57.79%
0.35%
0.69%
0.26%
count
15
2
16
145
0
405
1589
0
5
0
E
tweight
0.69%
0.09%
0.73%
6.66%
0.00%
18.60%
72.99%
0.00%
0.23%
0.00%
count
11
3
13
100
0
396
967
16
4
6
tweight
0.73%
0.20%
0.86%
6.60%
0.00%
26.12%
63.79%
1.06%
0.26%
0.40%
Tabel 5a. Lanjutan
F
Atribut
000
100
200
300
400
500
600
700
800
900
count
4
4
31
52
0
272
1222
2
5
2
G
tweight
0.25%
0.25%
1.94%
3.26%
0.00%
17.06%
76.66%
0.13%
0.31%
0.13%
count
7
1
1
9
0
157
142
0
1
4
tweight
2.17%
0.31%
0.31%
2.80%
0.00%
48.76%
44.10%
0.00%
0.31%
1.24%
H
count
0
0
0
39
0
3
23
1
0
0
tweight
0.00%
0.00%
0.00%
59.09%
0.00%
4.55%
34.85%
1.52%
0.00%
0.00%
PPS
count
23
1
11
144
0
479
662
9
2
0
tweight
1.73%
0.08%
0.83%
10.82%
0.00%
35.99%
49.74%
0.68%
0.15%
0.00%
Deskripsi tergeneralisasi dari data peminjam buku juga dipresentasikan dalam
bentuk aturan-aturan logika. Deskripsi data peminjam buku berdasarkan asal fakultas
untuk setiap nilai KelasBukuM dapat dituliskan dalam bentuk aturan logika sebagai
berikut
∀X,KelasPeminjam(X) =”KelasPeminjam”⇒(KelasBukuM(X) = ”
KelasBukuM”)[t:t_weight]
Dengan demikian berdasarkan Tabel 5 dapat disusun aturan logika yang
mendeskripsikan peminjam buku berdasarkan fakultas dengan nilai pembulatan dan
nilai threshold 10%:
266
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
∀X, KelasPeminjam(X) =”A” ⇒ (KelasBukuM (X) = ”300”) [t:16%] ∨
(KelasBukuM(X) = ”500”) [t:17%] ∨ (KelasBukuM (X) = ”600”) [t:64%]
∀X, KelasPeminjam(X) =”B” ⇒ (KelasBukuM(X) = ”500”) [t:32%] ∨
(KelasBukuM(X) = ”600”) [t:65%]
∀X, KelasPeminjam(X)=”C” ⇒ (KelasBukuM(X) = ”500”) [t:33%]
(KelasBukuM(X) = ”600”) [t:58%]
∀X, KelasPeminjam(X)=”D” ⇒ (KelasBukuM(X) = ”500”) [t:19%]
(KelasBukuM(X) = ”600”) [t:73%]
∀X, KelasPeminjam(X) =”E” ⇒ (KelasBukuM(X) = ”500”) [t:26%]
(KelasBukuM(X) = ”600”) [t:64%]
∀X, KelasPeminjam(X) =”F” ⇒ (KelasBukuM(X) = ”500”) [t:17%]
(KelasBukuM(X) = ”600”) [t:77%]
∀X, KelasPeminjam(X) =”G” ⇒(KelasBukuM(X) = ”500”) [t:49%]
(KelasBukuM(X) = ”600”) [t:44%]
∀X, KelasPeminjam(X) =”H” ⇒(KelasBukuM(X) = ”300”) [t:59%]
(KelasBukuM(X) = ”600”) [t:35%]
∀X, KelasPeminjam(X) =”PPS” ⇒ (KelasBukuM (X) = ”300”) [t:11%]
(KelasBukuM (X) = ”500”) [t:36%] ∨ (KelasBukuM (X) = ”600”) [t:50%]
∨
∨
∨
∨
∨
∨
∨
Dari aturan pertama dapat dinyatakan bahwa jika X adalah mahasiswa fakultas
pertanian, maka terdapat kemungkinan 16% bahwa X akan meminjam buku dengan
kelas 300 (Social Sciences), 17% bahwa X akan meminjam buku dengan kelas 500
(Mathematics and Natural Science) dan 64% bahwa X akan meminjam buku dengan
kelas 600 (Applied Sciences. Medicine. Technology). Kelas buku 600 memiliki
kemungkinan terbesar untuk dipinjam oleh mahasiswa Fakultas Pertanian. Hal ini
dikarenakan kelas buku tersebut mencakup buku yang berkaitan dengan pertanian
sesuai dengan kompetensi mahasiswa tersebut.
Dengan cara yang sama karakteristik peminjam dari fakultas lain dapat
ditentukan dari aturan yang sesuai. Dari Tabel 5 dan aturan yang diperoleh dapat
dinyatakan bahwa kelas buku 500 (Mathematics and Natural Science) memiliki
kemungkinan yang tinggi untuk dipinjam oleh mahasiswa dari fakultas manapun. Hal
ini sesuai dengan kenyataan bahwa semua program studi di IPB memberikan mata
kuliah dasar yang berkaitan dengan Matematika dan IPB kepada mahasiswanya.
267
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
KESIMPULAN
Pendekatan Induksi Beorientasi Atribut digunakan untuk menentukan deskrispi
dari kelas peminjam buku di Perpustakaan Pusat IPB. Dari hasil percobaan dapat
diperoleh bahwa berdasarkan nilai Information Gain, atribut yang paling relevan
untuk menggambarkan kelas peminjam buku antar fakultas adalah Kelas Buku pada
pengelompokan paling umum dalam format UDC (KelasBukuM), dengan nilai nilai
Information Gain yang besar, yaitu 0.066224.
Berdasarkan tabulasi silang dan aturan yang diturunkan dapat dinyatakan bahwa
Kelas buku yang memiliki kemungkinan yang tinggi dipinjam oleh semua mahasiswa
IPB adalah kelas buku 500 (Mathematics and Natural Science). Kelas buku yang
memiliki kemungkinan kecil dipinjam oleh mahasiswa IPB adalah 000 (Generalities),
100 (Philosophy), 200 (Religion. Theology), 400 (Philology. Linguistics.
Languanges), 700 (The Arts. Recreation. Entertainment. Sport, Etc), 800 (Literature.
Belles-Lettres), 900 (Geography. Biography. History). Informasi ini diharapkan dapat
berguna bagi pengelola perpustakaan untuk meninjau kembali kualitas dan kuantitas
buku untuk setiap kelas sehingga penyalanan kepada pengguna dapat ditingkatkan.
268
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
DAFTAR PUSTAKA
1. HAN J. dan MICHELINE K., Data mining Concepts and Techniques, Morgan
Kaufmann Publishers, 2001.
2. HAN J., YANDONG C. dan NICK C., Knowledge Discovery in Databases: An
Attribute-Oriented Approach. School of Computing Science. Simon Fraser
University, 1992.
3. HEINONEN O dan HEIKKI M.. Attribute-Oriented Induction and Conceptual
Clustering. Departement of Computer Science, University of Helsinki, Finland,
1996.
269
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
DISKUSI
BETRIANIS
Secara sederhana hasil/kesimpulan penelitian sesuai dengan keadaan (kurikulum)
bahwa semua (hampir semua mahasiswa) mendapatkan Mata Kuliah Math, Physics,
Chemistry, Biology. Apakah memang diperlukan metode khusus untuk melakukan itu,
kalau secara sederhana kurikulum sudah menyatakan demikian
IMAS SUKAESIH SITANGGANG
Salah satu informasi yang diperoleh adalah kelas buku 500 yang dipinjam oleh
mahasiswa dari semua fakultas. Teknik yang diaplikasikan tidak hanya
menggambarkan peminjaman kelas buku 500 saja tetapi secara umum karakteristik
peminjam buku antar fakultas.
270
Risalah Lokakarya Komputasi dalam Sains dan Teknologi Nuklir XVI, Agustus 2005 (253-271)
DAFTAR RIWAYAT HIDUP
1. Nama
: Imas Sukaesih Sitanggang
2. Tempat/Tanggal Lahir
: Bandung, 30 Januari 1975
3. Instansi
: IPB
4. Pekerjaan / Jabatan
: Staf Pengajar Depart Ilmu Komputer FMIPA-IPB
5. Riwayat Pendidikan
:
• S1 Matematika -IPB
• S2 Ilmu Komputer- UGM
6. Pengalaman Kerja
:
• Staf Pengajar Depart Ilmu Komputer FMIPA-IPB
7. Publikasi (Makalah)l
:
• Sistem Berbasis Pengetahuan untuk evaluasi kesesuaian lahan
• Informasi fuzzy untuk menentukan kesesuaian iklim pada tanaman
hortikultura
271
Download