konsep data mining - UIGM | Login Student

advertisement
Muhammad Ihsan Evaldy (2013210046)
[email protected]
KONSEP DATA MINING
ABSTRAK
Pertumbuhan yang pesat dari akumulasi data telah menciptakan kondisi kaya akan data tapi
minim informasi. Data mining merupakan penambangan atau penemuan informasi baru
dengan mencari pola atau aturan tertentu dari sejumlah data dalam jumlah besar yang
diharapkan dapat mengatasi kondisi tersebut. Dengan memanfaatkan data induk mahasiswa
dan data kelulusan mahasiswa, diharapkan dapat menghasilkan informasi tentang tingkat
kelulusan dengan data induk mahasiswa melalui teknik data mining. Kategori tingkat
kelulusan di ukur dari lama studi dan IPK. Algoritma yang digunakan adalah algoritma
apriori, informasi yang ditampilkan berupa nilai support dan confidence dari masing-masing
kategori tingkat kelulusan.
Kata kunci : data mining, algoritma apriori, tingkat kelulusan, data induk mahasiswa
BAB I
PENDAHULUAN
I. 1. Latar Belakang
Dengan kemajuan teknologi informasi dewasa ini, kebutuhan akan informasi yang akurat sangat
dibutuhkan dalam kehidupan sehari-hari, sehingga informasi akan menjadi suatu elemen penting
dalam perkembangan masyarakat saat ini dan waktu mendatang. Namun kebutuhan informasi
yang tinggi kadang tidak diimbangi dengan penyajian informasi yang memadai, sering kali
informasi tersebut masih harus di gali ulang dari data yang jumlahnya sangat besar. Kemampuan
teknologi informasi untuk mengumpulkan dan menyimpan berbagai tipe data jauh meninggalkan
kemampuan untuk menganalisis, meringkas dan mengekstrak pengetahuan dari data. Metode
tradisional untuk menganalisis data yang ada, tidak dapat menangani data dalam jumlah besar.
Pemanfaatan data yang ada di dalam sistem informasi untuk menunjang kegiatan pengambilan
keputusan, tidak cukup hanya mengandalkan data operasional saja, diperlukan suatu analisis data
untuk menggali potensi-potensi informasi yang ada. Para pengambil keputusan berusaha untuk
memanfaatkan gudang data yang sudah dimiliki untuk menggali informasi yang berguna
membantu mengambil keputusan, hal ini mendorong munculnya cabang ilmu baru untuk
mengatasi masalah penggalian informasi atau pola yang penting atau menarik dari data dalam
jumlah besar,
yang disebut dengan data mining. Penggunaan teknik data mining diharapkan dapat memberikan
pengetahuan-pengetahuan yang sebelumnya tersembunyi di dalam gudang data sehingga menjadi
informasi
yang
berharga.
I. 3. Tujuan dan Manfaat
Tujuan yang ingin dicapai dari pelaksanaan dan penulisan tugas akhir ini adalah menghasilkan
aplikasi untuk mendapatkan informasi yang berguna tentang tingkat kelulusan mahasiswa dengan
teknik data mining.
Adapun beberapa manfaat yang diharapkan
dibahas
mengenai
pembangunan
data
pada pembuatan tugas akhir ini adalah:
warehouse sederhana yang dibangun untuk
memenuhi kebutuhan dari proses data
1. Bagi Penulis
mining. Data warehouse yang dibangun
bukan merupakan data warehouse yang
Penulis
dapat
lebih
mengetahui
cara
menyimpan
seluruh
data
transaksional,
menerapkan ilmu-ilmu yang telah dipelajari
hanya merupakan data warehouse yang
selama ini dalam merancang dan membuat
menunjang
aplikasi sistem dengan teknik data mining,
sehingga
serta sebagai syarat dalam memperoleh gelar
disesuaikan dengan kebutuhan data mining.
sarjana komputer.
Pembahasan juga dibatasi pada bagaimana
pembangunan
data
dan
data
mining,
formatnya
pun
menghasilkan aplikasi yang menerapkan
2. Bagi Fakultas MIPA
teknik data mining guna menghasilkan
informasi
hubungan
tingkat
kelulusan
Diharapkan dengan adanya aplikasi ini dapat
dengan data induk mahasiswa. Dalam tugas
membantu menyajikan informasi tentang
akhir ini tidak membahas pada hasil proses
hubungan tingkat kelulusan dengan data
data mining dan analisis hasil yang keluar.
induk mahasiswa. Pihak fakultas dapat
Pembahasan juga hanya pada Program
mengetahui tingkat kelulusan mahasiswanya
Sarjana (S1) reguler di Fakultas MIPA
dan mengetahui faktor yang mempengaruhi
Universitas Diponegoro secara umum. Data
tingkat kelulusan.
yang diambil adalah data mahasiswa untuk
Program Sarjana (S1) reguler di Fakultas
I. 4. Batasan Masalah
MIPA Universitas Diponegoro. Data induk
Pada tugas akhir ini, pembahasan dibatasi
mahasiswa adalah atribut yang melekat pada
pada menyajikan informasi tentang tingkat
mahasiswa seperti nama, NIM (Nomor
kelulusan mahasiswa dengan teknik data
Induk Mahasiswa), alamat, asal sekolah, dan
mining. Informasi yang ditampilkan berupa
lain-lain. Tingkat kelulusan di ukur dari
nilai support dan confidence hubungan
lama studi dan IPK. Dalam Penulisan tugas
antara tingkat kelulusan dengan data induk
akhir ini, lama studi dan IPK mengacu pada
mahasiswa. Dalam penulisan tugas akhir ini
peraturan akademik tahun 2009 nomor :
tidak membahas pada sistem pendukung
364/PER/H7/2009 tanggal 24 Juli 2009.
keputusan
Lama
maupun
sistem
informasi
studi
dikategorikan
berdasarkan
akademik. Dalam membangun data mining
peraturan akademik BAB I pasal 1 ayat 2,
membutuhkan suatu data warehouse, oleh
sedangkan IPK dikategorikan berdasarkan
karena itu dalam pembahasan tugas akhir ini
predikat
kelulusan
yang
diatur
dalam
peraturan akademik BAB IV pasal 19 ayat 1.
rumusan masalah, tujuan penelitian, manfaat
Implementasi program menggunakan SQL
penelitian, batasan masalah, dan sistematika
Server 2005 dan Visual Studio 2010 dengan
penulisan.
bahasa pemrograman Visual Basic.
I. 5. Metode Pengambilan Data
Metode yang digunakan dalam pengumpulan
data adalah sebagai berikut :
1. Metode Pengamatan Langsung
Melakukan pengamatan langsung ke bagian
Akademik
Fakultas
MIPA
untuk
mendapatkan data yang dibutuhkan.
2. Metode Wawancara
Mengadakan wawancara dengan pihakpihak yang berkaitan langsung dengan
permasalahan yang sedang dibahas pada
tugas akhir ini untuk memperoleh gambaran
dan penjelasan secara mendasar.
3. Metode Studi Pustaka
Merupakan sumber yang dapat dijadikan
rujukan dari sumber data atau literatur–
literatur.
4. Metode Browsing
Melakukan
pengumpulan
rujukan
yang
bersumber dari internet.
I. 6. Sistematika Penulisan
Sistematika dari penulisan tugas sarjana ini
adalah
sebagai
berikut
:
BAB
I
PENDAHULUAN Pada bab ini dijelaskan
mengenai
latar
belakang permasalahan,
bentuk multidimensi yang mempunyai
BAB II
DASAR TEORI
data
Bab ini menjelaskan tentang dasar teori
yang digunakan dalam penyusunan tugas
akhir ini. Dijelaskan pengertian tentang
data mining beserta macam-macamnya,
selain itu juga dijelaskan tentang data
wareouse,
database
serta
analisis
yang
rinci.
memfasilitasi
Sehingga
dapat
efektif
data
secara
generalization dan data mining. Banyak
metode-metode data mining yang lain
seperti asosiasi, klasifikasi, prediksi, dan
clustering, dapat diintegrasikan dengan
operasi OLAP untuk meningkatkan proses
mining yang interaktif dari beberapa level
perancangan perangkat lunak.
dari abstraksi. Oleh karena itu data
warehouse menjadi platform yang penting
II. 1. Data warehouse
Data warehouse adalah sebuah sistem
yang mengambil dan menggabungkan data
secara periodik dari sistem sumber data ke
penyimpanan data bentuk dimensional
atau
normal
(Rainardi,
2008).
Data
warehouse merupakan penyimpanan data
yang
berorientasi
mempunyai
objek,
variant
terintegrasi,
waktu,
dan
menyimpan data dalam bentuk nonvolatile
sebagai pendukung manejemen dalam
proses
pengambilan
keputusan
(Han,
2006). Data warehouse menyatukan dan
menggabungkan
data
dalam
bentuk
multidimensi.
Pembangunan
data
warehouse meliputi pembersihan data,
penyatuan data dan transformasi data dan
dapat dilihat sebagai praproses yang
penting untuk digunakan dalam data
mining.
Selain
itu
data
warehouse
mendukung On-line Analitycal Processing
(OLAP), sebuah kakas yang digunakan
untuk menganalisis secara interaktif dari
untuk data analisis dan OLAP untuk dapat
menyediakan platform yang efektif untuk
proses data mining. Empat karakteristik
dari data warehouse meliputi :
1.
Subject
oriented
:
sebuah
data
warehouse disusun dalam subjek utama,
seperti pelanggan, suplier, produk, dan
sales.
Meskipun
data
warehouse
terkonsentrasi pada operasi harian dan
proses transaksi dalam perusahaan, data
warehouse fokus pada pemodelan dan
analisis data untuk pembuat keputusan.
Oleh
karena
itu
data
warehouse
mempunyai karakter menyediakan secara
singkat dan sederhana gambaran seputar
subjek lebih detail yang dibuat dari data
luar yang tidak berguna dalam proses
pendukung keputusan.
2. Integrated : Data warehouse biasanya
dibangun dari bermacam-macam sumber
yang berbeda, seperti database relasional,
flat files, dan on-line transaction records.
Pembersihan
dan
penyatuan
data
diterapkan untuk menjamin konsistensi
dibaca
dalam penamaan, struktur kode, ukuran
sedangkan data store yang disimpan ETL
atribut, dan yang lainnya.
disebut target. Proses pengubahan data
3. Time Variant : data disimpan untuk
digunakan agar data sesuai dengan format
menyajikan informasi dari sudut pandang
dan kriteria, atau sebagai validasi data dari
masa lampau (misal 5 – 10 tahun yang
source system. Proses ETL tidak hanya
lalu). Setiap struktur kunci dalam data
menyimpan data ke data warehouse, tetapi
warehouse mempunyai elemen waktu baik
juga digunakan untuk berbagai proses
secara implisit maupun eksplisit
pemindahan
4. Nonvolatile : sebuah data warehouse
mempunya
secara fisik selalu disimpan terpisah dari
membersihkan data dari source system
data aplikasi operasional. Penyimpanan
sebelum
yang terpisah ini, data warehouse tidak
Pembersihan
memerlukan proses transaksi, recovery dan
identifikasi dan koreksi data yang kotor.
mekanisme
Proses
pengendalian
konkurensi.
ETL
disebut
data.
data
Kebanyakan
mekanisme
disimpan
data
pembersihan
source,
ke
untuk
warehouse.
merupakan
ini
ETL
proses
menerapkan
Biasanya hanya membutuhkan dua operasi
aturan-aturan tertentu yang mendefinisikan
dalam akses data yaitu initial load of data
data bersih.
dan access of data
Dari pengertian tersebut, sebuah data
Berdasarkan siapa yang memindahkan
warehouse merupakan penyimpanan data
data, ETL dapat dibedakan menjadi empat
tetap sebagai implementasi fisik dari
seperti yang dapat dilihat pada gambar 2.1,
pendukung keputusan model data. Data
yaitu :
warehouse juga biasanya dilihat sebagai
arsitektur, pembangunan dan penyatuan
1. Proses ETL menarik data keluar dengan
data dari bermacam macam sumber data
query tertentu di source system database
yang berbeda untuk mendukung struktur
secara periodik.
dan atau query tertentu, laporan analisis,
dan pembuatan keputusan (Han, 2006).
2. Triggers pada source system mendorong
Extract,
(ETL)
data keluar. Triggers adalah Suatu SQL
merupakan sebuah sistem yang dapat
statement yang dijalankan setiap ada
membaca data dari suatu data store,
perintah insert, update, atau delete dalam
merubah bentuk data, dan menyimpan ke
tabel.
transform,
dan
load
data store yang lain. Data store yang
3. Penjadwalan proses dalam source
Dengan kata lain, jika data dalam source
system untuk mengekspor data secara
system berubah, perubahan ini dilakukan
periodik. Hal ini mirip dengan proses yang
juga ke dalam data warehouse. Hal ini
pertama namun query disimpan dalam data
dapat
source.
trigger dalam source system.
dilakukan
dengan
penggunaan
4. Sebuah log reader yang bertugas
membaca log dalam source system untuk
mengidentifikasi perubahan data. Log
reader merupakan program yang membaca
log file. Setelah dibaca, kemudian data
dipindahkan
keluar
ke
tempat
penyimpanan yang lain.
A. ETL dijalankan dalam server terpisah
diantara source system dan data warehouse
sistem.
Pendekatan
ini
menghasilkan
kinerja tinggi, ETL berjalan di server
sendiri,
sehingga
tidak
menggunakan
sumber daya dari data warehouse server
atau data source server. Namun hal ini
lebih mahal karena harus menambah
server lagi.
tempat dijalankan Tidak semua data
warehouse mempunyai komponen lengkap
seperti mekanisme kualitas data, database
multidimensi, aplikasi analisis, aplikasi
pengguna, control sistem, audit sistem,
metadata.
B. ETL dijalankan dalam data warehouse
server. Pendekatan ini dapat digunakan
jika mempunyai kapasitas lebih dalam data
warehouse server atau jika mempunyai
iddle time ketika data warehouse tidak
digunakan (misal pada waktu malam).
Pendekatan ini lebih murah dibandingkan
pendekatan
Gambar 2.2 Kategori ETL berdasarkan
pertama
karena
tidak
membutuhkan tambahan server.
C. ETL dijalankan pada server data source.
Pendekatan ini diimplementasikan ketika
membutuhkan real time data warehousing.
II. 2. Pengertian Data Mining
Secara sederhana data mining adalah
penambangan atau penemuan informasi
baru dengan mencari pola atau aturan
tertentu dari sejumlah data yang sangat
besar (Davies, 2004). Data mining juga
disebut sebagai serangkaian proses untuk
menggali nilai tambah berupa pengetahuan
yang selama ini tidak diketahui secara
manual
dari
suatu
kumpulan
data
(Pramudiono, 2007). Data mining, sering
juga disebut sebagai knowledge discovery
in database (KDD). KDD adalah kegiatan
• Data mining biasa menggunakan data
yang meliputi pengumpulan, pemakaian
yang sangat besar. Biasanya data yang
data,
besar digunakan untuk membuat hasil
historis
untuk
menemukan
keteraturan, pola atau hubungan dalam set
lebih dipercaya.
data berukuran besar (Santoso, 2007). Data
• Data mining berguna untuk membuat
mining adalah kegiatan menemukan pola
keputusan yang kritis, terutama dalam
yang menarik dari data dalam jumlah
strategi (Davies, 2004).
besar, data dapat disimpan dalam database,
data
warehouse,
atau
penyimpanan
informasi lainnya. Data mining berkaitan
dengan bidang ilmu – ilmu lain, seperti
database
system,
data
warehousing,
statistik, machine learning, information
retrieval, dan komputasi tingkat tinggi.
Selain itu, data mining didukung oleh ilmu
lain seperti neural network, pengenalan
pola, spatial data analysis, image database,
signal processing (Han, 2006). Data
mining
didefinisikan
sebagai
proses
menemukan pola-pola dalam data. Proses
ini otomatis atau seringnya semiotomatis.
Pola yang ditemukan harus penuh arti dan
pola tersebut memberikan keuntungan,
biasanya keuntungan secara ekonomi. Data
yang dibutuhkan dalam jumlah besar
(Witten, 2005). Karakteristik data mining
Berdasarkan beberapa pengertian tersebut
dapat ditarik kesimpulan bahwa data
mining adalah suatu teknik menggali
informasi berharga yang terpendam atau
tersembunyi pada suatu koleksi data
(database) yang sangat besar sehingga
ditemukan suatu pola yang menarik yang
sebelumnya tidak diketahui. Kata mining
sendiri berarti usaha untuk mendapatkan
sedikit barang berharga dari sejumlah
besar material dasar. Karena itu data
mining sebenarnya memiliki akar yang
panjang
mining
berhubungan
dengan
penemuan sesuatu yang tersembunyi dan
pola data tertentu yang tidak diketahui
sebelumnya.
ilmu
seperti
kecerdasan buatan (artificial intelligent),
machine learning, statistik dan database.
Beberapa metode yang sering disebutsebut dalam literatur data mining antara
lain clustering, classification, association
algorithm
Data
bidang
rules mining, neural network, genetic
sebagai berikut
•
dari
dan
lain-lain
(Pramudiono,
2007).
II. 3. Pengenalan Pola, Data Mining, dan
Machine Learning
Pengenalan pola adalah suatu disiplin ilmu
yang
mempelajari
cara-cara
mengklasifikasikan obyek ke beberapa
kelas
atau
kategori
dan
mengenali
interaktif, pemakai terlibat langsung atau
kecenderungan data. Tergantung pada
dengan perantaraan knowledge base.
aplikasinya, obyek-obyek ini bisa berupa
Tahap-tahap data mining ada 6 yaitu :
pasien, mahasiswa, pemohon kredit, image
atau signal atau pengukuran lain yang
1. Pembersihan data (data cleaning)
perlu diklasifikasikan atau dicari fungsi
Pembersihan
regresinya (Santoso, 2007). Data mining,
menghilangkan noise dan data yang tidak
sering juga disebut knowledge discovery
konsisten atau data tidak relevan. Pada
in database (KDD), adalah kegiatan yang
umumnya data yang diperoleh, baik dari
meliputi pengumpulan, pemakaian data
database suatu perusahaan maupun hasil
historis untuk menemukan keteraturan,
eksperimen, memiliki isian-isian yang
pola atau hubungan dalam set data
tidak sempurna seperti data yang hilang,
berukuran
besar. Keluaran dari data
data yang tidak valid atau juga hanya
mining ini bisa dipakai untuk memperbaiki
sekedar salah ketik. Selain itu, ada juga
pengambilan keputusan di masa depan.
atribut-atribut data yang tidak relevan
Sehingga istilah pattern recognition jarang
dengan
digunakan karena termasuk bagian dari
dimiliki. Data-data yang tidak relevan itu
data mining (Santoso, 2007). Machine
juga lebih baik dibuang. Pembersihan data
Learning adalah suatu area dalam artificial
juga akan mempengaruhi performasi dari
intelligence atau kecerdasan buatan yang
teknik data mining karena data yang
berhubungan
ditangani akan berkurang jumlah dan
dengan
pengembangan
teknik-teknik yang bisa diprogramkan dan
data
hipotesa
merupakan
data
proses
mining
yang
kompleksitasnya.
belajar dari data masa lalu. Pengenalan
pola, data mining dan machine learning
2. Integrasi data (data integration)
sering dipakai untuk menyebut sesuatu
Integrasi data merupakan penggabungan
yang sama. Bidang ini bersinggungan
data dari berbagai database ke dalam satu
dengan ilmu probabilitas dan statistik
database baru. Tidak jarang data yang
kadang juga optimasi. Machine learning
diperlukan untuk data mining tidak hanya
menjadi alat analisis dalam data mining.
berasal dari satu database tetapi juga
(Santoso, 2007).
berasal dari beberapa database atau file
II. 4. Tahap-Tahap Data mining
teks. Integrasi data dilakukan pada atribut-
Sebagai suatu rangkaian proses, data
aribut yang mengidentifikasikan entitas-
mining dapat dibagi menjadi beberapa
entitas yang unik seperti atribut nama,
tahap.
jenis
Tahap-tahap
tersebut
bersifat
produk,
nomor
pelanggan
dan
lainnya. Integrasi data perlu dilakukan
beberapa interval. Proses ini sering disebut
secara cermat karena kesalahan pada
transformasi data.
integrasi data bisa menghasilkan hasil
yang
menyimpang
dan
bahkan
menyesatkan pengambilan aksi nantinya.
5. Proses mining,
Sebagai
Merupakan
contoh
berdasarkan
bila
jenis
integrasi
produk
data
suatu
proses
utama
saat
ternyata
metode diterapkan untuk menemukan
menggabungkan produk dari kategori yang
pengetahuan berharga dan tersembunyi
berbeda maka akan didapatkan korelasi
dari data.
antar produk yang sebenarnya tidak ada.
6. Evaluasi pola (pattern evaluation),
3. Seleksi Data (Data Selection)
Untuk mengidentifikasi pola-pola menarik
Data yang ada pada database sering kali
kedalam
tidak semuanya dipakai, oleh karena itu
ditemukan. Dalam tahap ini hasil dari
hanya data yang sesuai untuk dianalisis
teknik data mining berupa pola-pola yang
yang akan diambil dari database. Sebagai
khas maupun model prediksi dievaluasi
contoh, sebuah kasus yang meneliti faktor
untuk menilai apakah hipotesa yang ada
kecenderungan
memang tercapai. Bila ternyata hasil yang
orang
membeli
dalam
knowledge
diperoleh
mengambil
beberapa alternatif yang dapat diambil
pelanggan,
cukup
dengan id pelanggan saja.
sesuai
hipotesa
yang
kasus market basket analysis, tidak perlu
nama
tidak
based
ada
seperti menjadikannya umpan balik untuk
memperbaiki proses data mining, mencoba
4.
Transformasi
data
(Data
metode data mining lain yang lebih sesuai,
Transformation)
atau menerima hasil ini sebagai suatu hasil
Data diubah atau digabung ke dalam
yang di luar dugaan yang mungkin
format yang sesuai untuk diproses dalam
bermanfaat.
data mining. Beberapa metode data mining
membutuhkan format data yang khusus
7. Presentasi pengetahuan (knowledge
sebelum
presentation),
bisa
diaplikasikan.
Sebagai
contoh beberapa metode standar seperti
Merupakan
analisis asosiasi dan clustering hanya bisa
pengetahuan
menerima
kategorikal.
digunakan untuk memperoleh pengetahuan
Karenanya data berupa angka numerik
yang diperoleh pengguna. Tahap terakhir
yang berlanjut perlu dibagi-bagi menjadi
dari proses data mining adalah bagaimana
input
data
visualisasi
mengenai
dan
penyajian
metode
yang
memformulasikan keputusan atau aksi dari
dihitung
hasil analisis yang didapat. Ada kalanya
probabilistik (Santoso, 2007).
hal ini harus melibatkan orang-orang yang
Analisis asosiasi dikenal juga sebagai
tidak memahami data mining. Karenanya
salah satu metode data mining yang
presentasi hasil data mining dalam bentuk
menjadi dasar dari berbagai metode data
pengetahuan yang bisa dipahami semua
mining lainnya. Khususnya salah satu
orang adalah satu tahapan yang diperlukan
tahap dari analisis asosiasi yang disebut
dalam
Dalam
analisis pola frekuensi tinggi (frequent
bisa
pattern mining) menarik perhatian banyak
membantu mengkomunikasikan hasil data
peneliti untuk menghasilkan algoritma
mining (Han, 2006).
yang efisien. Penting tidaknya suatu aturan
proses
presentasi
ini,
data
mining.
visualisasi
juga
dari
data
yang
sifatnya
assosiatif dapat diketahui dengan dua
II. 5. Metode Data mining
parameter, support (nilai penunjang) yaitu
Dengan definisi data mining yang luas, ada
prosentase kombinasi item tersebut. dalam
banyak jenis metode analisis yang dapat
database dan confidence (nilai kepastian)
digolongkan dalam data mining.
yaitu kuatnya hubungan antar item dalam
II. 5. 1. Association rules
aturan
Association rules (aturan asosiasi) atau
didefinisikan
affinity
afinitas)
menemukan semua aturan assosiatif yang
berkenaan dengan studi tentang “apa
memenuhi syarat minimum untuk support
bersama apa”. Sebagai contoh dapat
(minimum support) dan syarat minimum
berupa
untuk confidence (minimum confidence)
analysis
berupa
(analisis
studi
transaksi
di
assosiatif.
Analisis
suatu
asosiasi
proses
supermarket, misalnya seseorang yang
(Pramudiono,
membeli susu bayi juga membeli sabun
algoritma
mandi. Pada kasus ini berarti susu bayi
mengenai aturan asosiasi, namun ada satu
bersama dengan sabun mandi. Karena
algoritma klasik yang sering dipakai yaitu
awalnya berasal dari studi tentang database
algoritma apriori. Ide dasar dari algoritma
transaksi pelanggan untuk menentukan
ini
kebiasaan suatu produk dibeli bersama
frequent itemset. Dengan menggunakan
produk apa, maka aturan asosiasi juga
satu
sering dinamakan market basket analysis.
mengembangkan frequent itemset dengan
Aturan
memberikan
dua item, tiga item dan seterusnya hingga
informasi tersebut dalam bentuk hubungan
frequent itemset dengan semua ukuran.
“if-then” atau “jika-maka”. Aturan ini
Untuk
asosiasi
ingin
2007).
yang
adalah
item
Ada
untuk
sudah
dengan
dan
beberapa
dikembangkan
mengembangkan
secara
mengembangkan
rekursif
frequent
set
dengan dua item, dapat menggunakan
𝑆=Σ (𝑇𝑎+𝑇𝑐)Σ(𝑇)
frequent set item. Alasannya adalah bila
...............................................................
set satu item tidak melebihi support
(2.1) Keterangan : S = Support
minimum, maka sembarang ukuran itemset
𝛴 (𝑇𝑎+𝑇𝑐) = Jumlah transaksi yang
yang lebih besar tidak akan melebihi
mengandung
support minimum tersebut. Secara umum,
consequencent
mengembangkan
Σ(𝑇) = Jumlah transaksi
set
dengan
fc-item
antecedent
dan
menggunakan frequent set dengan k – 1
𝐶=Σ (𝑇𝑎+𝑇𝑐)Σ(𝑇𝑎)
item yang dikembangkan dalam langkah
...............................................................
sebelumnya. Setiap langkah memerlukan
(2.2) Keterangan : C = Confidence
sekali pemeriksaan ke seluruh isi database.
𝛴 (𝑇𝑎+𝑇𝑐) = Jumlah transaksi yang
Dalam asosiasi terdapat istilah antecedent
mengandung
dan
consequencent
consequent,
antecedent
untuk
antecedent
dan
mewakili bagian “jika” dan consequent
Σ(𝑇𝑎)
untuk mewakili bagian “maka”. Dalam
mengandung antecedent Langkah pertama
analisis ini, antecedent dan consequent
algoritma apriori adalah, support dari
adalah sekelompok item yang tidak punya
setiap item dihitung dengan men-scan
hubungan secara bersama (Santoso, 2007).
database. Setelah support dari setiap item
Dari jumlah besar aturan yang mungkin
didapat, item yang memiliki support lebih
dikembangkan, perlu memiliki aturan-
besar
aturan
=
dari
Jumlah
minimum
transaksi
support
yang
dipilih
yang
cukup
kuat
tingkat
sebagai pola frekuensi tinggi dengan
ketergantungan
antar
item
dalam
panjang 1 atau sering disingkat 1-itemset.
consequent.
Untuk
Singkatan k-itemset berarti satu set yang
antecedent
dan
mengukur kekuatan aturan asosiasi ini,
terdiri dari k item.
digunakan ukuran support dan confidence.
Iterasi kedua menghasilkan 2-itemset yang
Support
jumlah
tiap set-nya memiliki dua item. Pertama
transaksi yang memuat antecedent dan
dibuat kandidat 2-itemset dari kombinasi
consequent
transaksi.
semua 1-itemset. Lalu untuk tiap kandidat
Confidence adalah rasio antara jumlah
2-itemset ini dihitung support-nya dengan
transaksi yang meliputi semua item dalam
men-scan database. Support artinya jumlah
antecedent dan consequent dengan jumlah
transaksi
transaksi yang meliputi semua item dalam
mengandung kedua item dalam kandidat 2-
antecedent.
itemset.
adalah
rasio
dengan
antara
jumlah
dalam
Setelah
database
support
dari
yang
semua
kandidat 2-itemset didapatkan, kandidat 2-
Pola frekuensi tinggi yang memuat k item
itemset yang memenuhi syarat minimum
atau k-itemset ditetapkan dari kandidat k-
support dapat ditetapkan sebagai 2-itemset
itemset yang support-nya lebih besar dari
yang juga merupakan pola frekuensi tinggi
minimum support. Kemudian dihitung
dengan panjang 2. (Pramudiono, 2007)
confidence
masing-masing
kombinasi
item. Iterasi berhenti ketika semua item
Untuk selanjutnya iterasi iterasi ke-k dapat
telah dihitung sampai tidak ada kombinasi
dibagi lagi menjadi beberapa bagian :
item lagi. (Pramudiono, 2007) Secara
ringkas algoritma apriori sebagai berikut :
1. Pembentukan kandidat itemset
Create L1 = set of supported itemsets of
cardinality one Set k to 2 while (Lk−1 _=
dari
∅) { Create Ck from Lk−1 Prune all the
kombinasi (k-1)-itemset yang didapat dari
itemsets in Ck that are not supported, to
iterasi sebelumnya. Satu ciri dari algoritma
create Lk Increase k by 1 } The set of all
apriori
pemangkasan
supported itemsets is L1 ∪ L2 ∪ • • • ∪ Lk
kandidat k-itemset yang subset-nya yang
Selain algoritma apriori, terdapat juga
berisi k-1 item tidak termasuk dalam pola
algoritma
frekuensi tinggi dengan panjang k-1.
Perbedaan algoritma apriori dengan FP-
Kandidat
k-itemset
adalah
adanya
dibentuk
lain
seperti
FP-Grwoth.
Growth pada banyaknya scan database.
2. Penghitungan support dari tiap kandidat
Algoritma
k-itemset
database setiap kali iterasi sedangkan
apriori
melakukan
scan
algoritma FP-Growth hanya melakukan
Support dari tiap kandidat k-itemset
sekali di awal (Bramer, 2007)
didapat dengan men-scan database untuk
menghitung jumlah transaksi yang memuat
II. 5. 2. Decision Tree
semua item di dalam kandidat k-itemset
Dalam decision tree tidak menggunakan
tersebut. Ini adalah juga ciri dari algoritma
vector jarak untuk mengklasifikasikan
apriori yaitu diperlukan penghitungan
obyek.
dengan scan seluruh database sebanyak k-
mempunyai atribut-atribut yang bernilai
itemset terpanjang.
nominal. Seperti yang diilustrasikan pada
Seringkali
data
observasi
gambar 2.6, misalkan obyeknya adalah
3. Tetapkan pola frekuensi tinggi
sekumpulan
buah-buahan
yang
bisa
dibedakan berdasarkan atribut bentuk,
warna, ukuran dan rasa. Bentuk, warna,
ukuran dan rasa adalah besaran nominal,
yang cocok untuk diterapkannya decision
yaitu bersifat kategoris dan tiap nilai tidak
tree adalah sebagai berikut :
bisa dijumlahkan atau dikurangkan. Dalam
1. Data dinyatakan dengan pasangan
atribut warna ada beberapa nilai yang
atribut dan nilainya
mungkin yaitu hijau, kuning, merah.
2. Label/keluaran data biasanya bernilai
Dalam atribut ukuran ada nilai besar,
diskrit
sedang dan kecil. Dengan nilai-nilai atribut
3. Data mempunyai missing value (nilai
ini, kemudian dibuat decision tree untuk
dari suatu atribut tidak diketahui)
menentukan suatu obyek termasuk jenis
buah apa jika nilai tiap-tiap atribut
Dengan
cara
diberikan (Santoso, 2007).
mengelompokkan
beberapa
ini
akan
obyek
kelompok.
mudah
ke
Untuk
dalam
membuat
Warnaukuranbentukukuransemangkaapela
decision tree perlu memperhatikan hal-hal
nggurukuranpisangapelrasaLevel
3Level
berikut ini :
0Level
1Level
1. Atribut mana yang akan dipilih untuk
2besarkecillonjongbulatkecilsedangbesar
pemisahan obyek
Ada beberapa macam algoritma decision
2. Urutan atribut mana yang akan dipilih
tree
C4.5.
terlebih dahulu
Beberapa isu utama dalam decision tree
3. Struktur tree
yang menjadi perhatian yaitu seberapa
4. Kriteria pemberhentian
detail dalam mengembangkan decision
5. Pruning
diantaranya
CART
dan
tree, bagaimana mengatasi atribut yang
bernilai continues, memilih ukuran yang
(Santoso, 2007)
cocok untuk penentuan atribut, menangani
II. 5. 3. Clustering
data training yang mempunyai data yang
Clustering termasuk metode yang sudah
atributnya
cukup dikenal dan banyak dipakai dalam
memperbaiki
tidak
mempunyai
efisiensi
nilai,
perhitungan
data
mining.
Sampai
sekarang
para
(Santoso, 2007). Decision tree sesuai
ilmuwan dalam bidang data mining masih
digunakan
melakukan
untuk
kasus-kasus
yang
berbagai
usaha
untuk
keluarannya bernilai diskrit. Walaupun
melakukan perbaikan model clustering
banyak variasi model decision tree dengan
karena
tingkat kemampuan dan syarat yang
sekarang masih bersifat heuristic. Usaha-
berbeda, pada umumnya beberapa ciri
usaha untuk menghitung jumlah cluster
metode
yang
dikembangkan
yang optimal dan pengklasteran yang
paling baik masih terus dilakukan. Dengan
II. 6. Software Aplikasi
demikian
yang
Software aplikasi terdiri atas program yang
menjamin hasil
berdiri sendiri yang mampu mengatasi
menggunakan
sekarang, tidak
bisa
metode
pengklasteran sudah merupakan hasil yang
kebutuhan
optimal.
dicapai
memfasilitasi
operasi
biasanya sudah cukup bagus dari segi
pengambilan
keputusan
praktis.
maupun teknik sebagai tambahan dalam
Namun,
hasil
yang
bisnis
tertentu.
Aplikasi
bisnis
atau
manajemen
aplikasi pemrosesan data konvensional.
Sofware
aplikasi
digunakan
untuk
mengatur fungsi bisnis secara real time
(Pressman, 2005).
II. 7. Basis Data dan Sistem Manajemen
Basis
Data
(Database
and
Database
Management System)
Database adalah sekumpulan data yang
saling berelasi (Elmasri, 2000). Database
Gambar 2.7 Clustering
Tujuan utama dari metode clustering
adalah
pengelompokan
sejumlah
data/obyek ke dalam cluster (group)
sehingga dalam setiap cluster akan berisi
data
yang
semirip
mungkin
seperti
diilustrasikan pada gambar 2.7. Dalam
clustering metode ini berusaha untuk
menempatkan obyek yang mirip (jaraknya
dekat) dalam satu klaster dan membuat
jarak antar klaster sejauh mungkin. Ini
berarti obyek dalam satu cluster sangat
mirip satu sama lain dan berbeda dengan
obyek dalam cluster-cluster yang lain.
Dalam
metode
ini
tidak
diketahui
sebelumnya berapa jumlah cluster dan
bagaimana pengelompokannya (Santoso,
2007).
didesain, dibuat, dan diisi dengan data
untuk
tujuan
mendapatkan
informasi
tertentu. Pendekatan database memiliki
beberapa keuntungan seperti keberadaan
katalog,
indepedensi
program-data,
mendukung view (tampilan) untuk banyak
pengguna, dan sharing data pada sejumlah
transaksi.
Selain
fleksibelitas,
itu
masih
ketersediaan
ada
up-to-date
informasi untuk semua pengguna, skala
ekonomis.
Kategori
utama
pengguna
database terbagi menjadi empat kategori,
yakni Administrator, Designer, End user,
System
Analyst
dan
Application
Programmers. Administrator atau Data
Base Administrator (DBA) bertanggung
jawab
pada
otoritas
akses
database,
koordinasi dan monitoring penggunaan,
dan pemilihan perangkat keras dan lunak
menghasilkan
yang dibutuhkan. Designer bertanggung
banyak
jawab pada identifikasi data yang disimpan
constraint,
dalam database dan memilih struktur yang
recovery. Dalam SMBD menyediakan
tepat
dan
perintah yang digunakan untuk mengelola
menyimpan data. End User adalah orang
dan mengorganisasikan data, yakni Data
yang kegiatannya membutuhkan akses ke
Definition Language (DDL) dan Data
database untuk melakukan query, update,
Manipulation Language (DML). Data
dan membuat laporan. System Analysts
Definition Language adalah bahasa untuk
menentukan
User.
medefinisikan skema atau dan database
Programmers
fisik ke SMBD. (DDL). Data Manipulation
untuk
menggambarkan
kebutuhan
End
Application
mengimplementasikan
program
sesuai
interface
pengguna,
Language
(antar
menjaga
menyediakan
adalah
muka)
integritas
backup
bahasa
dan
untuk
spesifikasi.
memanipulasi data yaitu pengambilan
Sistem Manajemen Basis Data (SMBD)
informasi yang telah disimpan, penyisipan
adalah program yang digunakan pengguna
informasi baru, penghapusan informasi,
untuk membuat dan memelihara database.
modifikasi informasi yang disimpan dalam
SMBD
database.
memfasilitasi
mendefinisikan,
untuk
mengkonstruksi,
dan
Selanjutnya,
query
adalah
statemen yang ditulis untuk mengambil
memanipulasi database untuk berbagai
informasi.
aplikasi. Pendefinisian database meliputi
menangani pengambilan informasi ini
spesifikasi
dan
disebut bahasa query. SQL (dibaca "ess-
constraint untuk data yang disimpan dalam
que-el") singkatan dari Structured Query
database.
Language. SQL adalah bahasa
tipe
data,
struktur,
Pengkonstruksian
database
Bagian
dari
DML
yang
yang
adalah proses penyimpanan data itu sendiri
digunakan untuk berkomunikasi dengan
pada media penyimpanan. Pemanipulasian
database.
database meliputi fungsi memanggil query
National Standards Institute), bahasa ini
database untuk mendapatkan data yang
merupakan
spesifik, update database, dan meng-
database management systems (RDBMS).
generate
tersebut
Secara prinsip, perintah-perintah SQL
yang
(biasa disebut dengan pernyataan) dapat
laporan
(Elmasri,
2000).
dari
data
Keuntungan
diperoleh menggunakan SMBD meliputi
Menurut
standard
ANSI
untuk
(American
relational
dibagi dalam tiga kelompok, yaitu :
mengontrol redudansi, membatasi akses
yang
tidak
penyimpanan
berwenang,
yang
menyediakan
bahasa penerjemah data adalah perintah-
persisten,
perintah yang berkaitan dengan penciptaan
atau penghapusan objek seperti tabel dan
setiap field atau file dalam sistem. Simbol-
indek
simbol yang digunakan dalam kamus data
dalam
database.
Versi
ANSI
mencakup CREATE TABLE, CREATE
diterangkan dalam tabel 2.1.
INDEX, ALTER TABLE, DROP TABLE,
DROP
VIEW,
dan
DROP
INDEX.
Beberapa sistem database menambahkan
pernyataan
DDL
seperti
CREATE
DATABASE dan CREATE SCHEMA.
Tabel 2.1 SimbolSimbol Data
Dictionary Notasi
=
+
()
[]
atau bahasa pemanipulasi data
{}
Mencakup
perintah-perintah
yang
digunakan
untuk
memanipulasi
data.
Misalnya
untuk
menambahkan
data
**
@
|
(INSERT), memperoleh data (SELECT),
mengubah
data
(UPDATE),
Arti
Terdiri atas
Dan
Opsional (bisa ada
dan bisa tidak ada)
Memilih salah satu
alternatif
Pengulangan
sebanyak n kali
Komentar
Identitas atribut
kunci
Pemisah alternatif
simbol [ ]
dan
menghapus data (DELETE).
II. 9. Desain Model Aplikasi
Desain model dari aplikasi terdiri dari
bahasa pengendali data
physical
Merupakan
dipakai
kelompok
untuk
dan
logical
model.
yang
Physical model dapat digambarkan dengan
otorisasi
bagan alir sistem. Logical model dalam
perintah
melakukan
model
dan
sistem informasi lebih menjelaskan kepada
pengalokasian ruang. Misalnya, suatu data
pengguna bagaimana nantinya fungsi-
bisa diakses si A, tetapi tidak bisa diakses
fungsi di sistem informasi secara logika
oleh si B. Termasuk dalam kategori DCL
akan
yaitu
digambarkan dengan DFD (Data Flow
terhadap
pengaksesan
data
pernyataan-pernyataan
GRANT,
bekerja.
(Kadir, 1999)
Dictionary). Adapun penjelasan dari alat
II. 8. Kamus Data (Data Dictionary)
bantu dalam desain model adalah sebagai
Kamus data adalah kumpulan elemen-
berikut :
digunakan
simbol-simbol
yang
membantu
dalam
untuk
penggambaran
atau
pengidentifikasian
data
dapat
Diagram)
atau
kamus
model
REVOKE, COMMIT, dan ROLLBACK
elemen
dan
Logical
(Data
1. Diagram Konteks (Context Diagram)
1. Perancangan data
Perancangan
data
mentransformasikan
Diagram konteks adalah sebuah diagram
model data yang dihasilkan oleh proses
sederhana yang menggambarkan hubungan
analisis
antara proses dan entitas luarnya. Adapun
dibutuhkan pada saat pembuatan program
simbol-simbol dalam diagram konteks.
(coding). Selain itu juga akan dilakukan
menjadi
struktur
data
yang
desain terhadap struktur database yang
2. DFD (Data Flow Diagram)
akan dipakai.
DFD merupakan suatu model logika yang
2. Perancangan fungsional
menggambarkan asal data dan tujuan data
Perancangan fungsional mendeskripsikan
yang
kebutuhan fungsi-fungsi utama perangkat
keluar
dari
sistem,
serta
menggambarkan penyimpanan data dan
lunak.
proses yang mentranformasikan data. DFD
3. Perancangan antarmuka
menunjukkan hubungan antara data pada
sistem dan proses pada sistem.
II. 11. Implementasi dan Pengujian Unit
Pada tahap ini, perancangan perangkat
II. 10. Perancangan Perangkat Lunak
lunak direalisasikan sebagai serangkaian
Proses
program atau unit program. Kemudian
perancangan
sistem
membagi
persyaratan dalam sistem perangkat keras
pengujian
atau
bahwa setiap unit program telah memenuhi
perangkat
menentukan
lunak.
arsitektur
Kegiatan
sistem
ini
secara
unit
spesifikasinya
melibatkan
(Sommerville,
Program
melibatkan
deskripsi
dikembangkan, diuji untuk memperbaiki
abstraksi sistem perangkat lunak yang
kesalahan yang ditemukan pada pengujian
mendasar
hubungan-hubungannya
untuk menjamin kualitasnya (Padmini,
2003).
2005). Terdapat dua metode pengujian
dan
(Sommerville,
dan
Sebagaimana
dirilis
2003).
keseluruhan. Perancangan perangkat lunak
identifikasi
sebaiknya
verifikasi
setelah
persyaratan, desain didokumentasikan dan
yaitu :
menjadi bagian dari konfigurasi software
1) Metode white box yaitu pengujian yang
(Pressman, 1997). Tahap desain meliputi
berfokus pada logika internal software
perancangan data, perancangan fungsional,
(source code program).
dan perancangan antarmuka.
2) Metode black box yaitu mengarahkan
pengujian untuk menemukan kesalahankesalahan dan memastikan bahwa input
yang dibatasi akan memberikan hasil
aktual yang sesuai dengan hasil yang
dibutuhkan.
Pada tahap pengujian, penulis melakukan
metode
black
box
yaitu
menguji
fungsionalitas dari perangkat lunak saja
tanpa harus mengetahui struktur internal
program (source code).
BAB III
ANALISIS DAN
PERANCANGAN APLIKASI
DATA MINING
Dari atribut proses masuk dan asal sekolah
dicari hubungan tingkat kelulusan dengan
asal sekolah yang melalui proses masuk
PSSB dengan harapan dapat mengetahui
Bab ini menjelaskan tentang analisis dan
tingkat keberhasilan mahasiswa dengan
perancangan dalam membangun Aplikasi
sekolah tertentu.
Data Mining. Analisis meliputi analisis
data mining, analisis lingkungan sistem
3. Hubungan tingkat kelulusan dengan
serta analisis dalam membangun aplikasi.
kota asal sekolah
III. 1. Analisis Data Mining
Dalam penulisan tugas akhir ini akan
Hubungan tingkat kelulusan dengan asal
dicari nilai support dan confidence dari
kota bermanfaat untuk mengetahui daerah-
hubungan tingkat kelulusan dengan data
daerah mana yang mempunyai tingkat
induk mahasiswa. Tidak semua data induk
keberhasilan
siswa akan dicari hubungannya dengan
Diasumsikan bahwa kota asal sekolah
data kelulusan, hanya beberapa atribut
merupakan kota tempat asal mahasiswa.
tinggi
ataupun
rendah.
yang kira-kira berguna dan sebarannya
tidak terlalu acak. Karena data yang terlalu
4. Hubungan tingkat kelulusan dengan
acak
program studi
akan
memakan
membuat
waktu
lama
proses
mining
dan
tingkat
hubungannya pun rendah. Data induk
Dari atribut program studi dapat diketahui
mahasiswa yang akan dicari hubungannya
hubungan tingkat kelulusun dan program
meliputi proses masuk, asal sekolah, kota
studi untuk megetahui tingkat kelulusan
asal sekolah, dan program studi. Adapun
program studi.
yang akan diproses mining meliputi :
1. Hubungan tingkat kelulusan dengan
proses masuk hasil dari proses mining ini
dapat membantu untuk mengetahui sejauh
mana tingkat keberhasilan PSSB dan
SPMB.
2. Hubungan tingkat kelulusan dengan asal
sekolah dan proses masuk
III. 1. 1. Sumber Data
Data yang digunakan dalam penulisan
tugas akhir ini terdiri dari dua sumber data,
yaitu data Induk Mahasiswa dan data
Kelulusan.
1. Data Induk Mahasiswa
Dalam penulisan tugas akhir kali ini dicari
hubungan beberapa atribut dari data induk
Data
induk
mahasiswa
adalah
data
mahasiswa
dengan
tingkat
kelulusan.
mahasiswa yang didata ketika mahasiswa
Karena tidak semua tabel digunakan maka
pertama kali masuk perguruan tinggi
perlu dilakukan pembersihan data agar
setelah melakukan registrasi ulang. Data
data yang akan diolah benar-benar relevan
yang dicatat adalah identitas pribadi
dengan yang dibutuhkan. Pembersihan ini
mahasiswa dan identitas sekolah asal
penting
mahasiswa. Proses pendataan dilakukan di
dalam proses mining. Cara pembersihan
tingkat universitas, setelah direkapitulasi
dengan menghapus atribut yang tidak
kemudian disebarkan ke fakultas masing-
terpakai dan menghapus data-data yang
masing.
tidak lengkap isiannya. atribut
guna
meningkatkan
performa
yang
digunakan terdiri dari atribut pada data
kelulusan dan pada data induk mahasiswa.
2. Data Kelulusan
Data Kelulusan adalah data mahasiswa
yang telah dinyatakan lulus. Data yang
dicatat adalah identitas mahasiswa dan
data kelengkapan kelulusan.
Atribut yang digunakan dalam data induk
mahasiswa meliputi :
1. Atribut NIM digunakan sebagai primary
key untuk menghubungkan dengan data
kelulusan
Data induk mahasiswa yang diambil dalam
2. Atribut proses masuk digunakan untuk
sampel adalah data mahasiswa angkatan
proses mining guna mengetahui hubungan
2000, 2001, 2002 dan 2003. Hal ini
antara tingkat kelulusan dengan jalur
didasarkan pada kebutuhan data yang akan
masuk yang digunakan mahasiswa.
di hubungkan dengan data kelulusan,
3. Atribut nama asal sekolah digunakan
dengan asumsi bahwa mahasiswa angkatan
untuk proses mining guna mengetahui
2000 -2003 akan lulus dari rentang waktu
hubungan antara tingkat kelulusan dengan
tahun
data
asal sekolah.
data
4. Atribut kota asal sekolah digunakan
kelulusan dari tahun 2004 sampai 2008.
untuk proses mining guna mengetahui
Kedua data tersebut diperoleh dari bagian
hubungan tingkat kelulusan dengan kota
akademik
asal mahasiswa.
2004-2008.
kelulusan
yang
Sedangkan
diambil
fakultas
adalah
MIPA
Universitas
Diponegoro. Data yang diambil hanya dari
mahasiswa sarjana (S1) reguler.
Atribut
III. 1. 2. Data Yang Digunakan
kelulusan meliputi :
yang
digunakan
dalam
data
1. NIM digunakan sebagai primary key
dirubah formatnya. Dalam penulisan tugas
untuk menghubungkan dengan data induk
akhir ini penulis mencari keterkaitan
mahasiswa.
antara tingkat kelulusan dengan data induk
2.
Indeks
digunakan
Prestasi
Kumulatif
(IPK)
mahasiswa. Tingkat kelulusan mahasiswa
sebagai
ukuran
tingkat
dapat dilihat dari lama studi dan IPK
kelulusan mahasiswa
(Indeks Prestasi Kumulatif). Dari dua
3. Lama studi digunakan sebagai ukuran
parameter tersebut data diubah menjadi
tingkat kelulusan mahasiswa.
tipe
4. Program studi digunakan untuk proses
diproses. Tingkat kelulusan diukur dari
mining guna mengetahui hubungan tingkat
lama
kelulusan dengan program studi.
dikategorikan
data
yang
studi
dan
memudahkan
IPK,
lama
berdasarkan
untuk
studi
peraturan
akademik BAB I pasal 1 ayat 2 yang
III. 1. 3. Integrasi Data
berbunyi “Program sarjana (S1) reguler
Dalam penulisan tugas akhir kali ini
adalah program pendidikan akademik
diasumsikan bahwa data yang diambil
setelah
sudah berupa tabel-tabel dalam satu server.
memiliki beban studi sekurang-kurangnya
Untuk proses mining, data kelulusan dan
144 (seratus empat puluh empat ) sks dan
data
digabungkan
sebanyak-banyaknya 160 (seratus enam
dengan primary key NIM. Setelah itu baru
puluh) sks yang dijadwalkan untuk 8
dilakukan proses mining. Proses integrasi
(delapan) semester dan dapat ditempuh
data
ETL
dalam waktu kurang dari 8 (delapan)
(ekstract, transform, and Load) ketika
semester dan paling lama 14 (empat belas)
membangun data warehouse, dalam proses
semester.” sedangkan IPK dikategorikan
ETL data dalam data source digabungkan
berdasarkan predikat kelulusan yang diatur
menjadi
dalam peraturan akademik BAB IV pasal
induk
mahasiswa
dilakukan
satu
ketika
dalam
proses
data
warehouse
pendidikan
menengah,
yang
dengan key NIM.
19 ayat 1
III. 1. 4. Transformasi Data
kelulusan program sarjana dan program
Transformasi
data
merupakan
proses
yang berbunyi “predikat
diploma adalah sebagi berikut : ”
pengubahan atau penggabungan data ke
III. 1. 5. Penggunaan Algoritma Apriori
dalam format yang sesuai untuk diproses
Algoritma apriori adalah algoritma paling
dalam data mining. Seringkali data yang
terkenal untuk menemukan pola frekuensi
akan digunakan dalam proses data mining
tinggi. Pola frekuensi tinggi adalah pola-
mempunyai format yang belum langsung
pola item di dalam suatu database yang
bisa digunakan, oleh karena itu perlu
memiliki frekuensi atau support di atas
ambang batas tertentu yang disebut dengan
2-itemset yang juga merupakan pola
istilah minimum support atau threshold.
frekuensi tinggi dengan panjang 2.
Threshold
adalah
batas
minimum
transaksi. Jika jumlah transaksi kurang
III. 3. Analisis Perangkat Lunak
dari threshold maka item atau kombinasi
III. 3. 1. Deskripsi Umum Perangkat
item tidak akan diikutkan perhitungan
Lunak
selanjutnya. Penggunaan threshold dapat
mempercepat
perhitungan.
Algoritma
Perangkat Lunak yang dikembangkan
apriori dibagi menjadi beberapa tahap
dalam Aplikasi Data Mining ini berbasis
yang
dekstop, dengan database lokal.
disebut
iterasi.
Tiap
iterasi
menghasilkan pola frekuensi tinggi dengan
Pengguna dalam aplikasi adalah pihak
panjang yang sama dimulai dari pass
penentu kebijakan dalam analisi tingkat
pertama yang menghasilkan pola frekuensi
kelulusan
tinggi dengan panjang satu. Di iterasi
diambil langkah-langkah strategis guna
pertama ini, support dari setiap item
meningkatkan tingkat kelulusan. Untuk
dihitung
menjaga kerahasiaan data, maka pengguna
dengan
men-scan
database.
mahasiswa
dibatasi
item yang memiliki support lebih besar
berwenang
dari minimum support dipilih sebagai pola
mahasiswa dan data kelulusan.
frekuensi tinggi dengan panjang 1 atau
Sebagai suatu rangkaian proses, data
sering disingkat 1-itemset. Singkatan k-
mining dibagi dalam beberapa tahap
itemset berarti satu set yang terdiri dari k
seperti yang sudah diterangkan pada sub
item. Iterasi kedua menghasilkan 2-itemset
bab 3.1. Begitu juga dalam membangun
yang tiap set-nya memiliki dua item.
perangkat
Pertama dibuat kandidat 2-itemset dari
tahapan dari analisis, perancangan sampai
kombinasi semua 1-itemset. Lalu untuk
aplikasi. Sehingga dalam membangun
tiap
Aplikasi
2-itemset
ini
dihitung
kepada
dapat
Setelah support dari setiap item didapat,
kandidat
hanya
sehingga
menggunakan
lunak
Data
pihak
yang
data
induk
diperlukan
Mining,
tahapan-
tahapan
data
support-nya dengan men-scan database.
mining sejalan dengan tahapan dalam
Support artinya jumlah transaksi dalam
membangun perangkat lunak. Analisis dari
database yang mengandung kedua item
tahapan data mining menjadi acuan dalam
dalam kandidat 2-itemset. Setelah support
analisis dan perancangan Aplikasi Data
dari semua kandidat 2-itemset didapatkan,
Mining ini.
kandidat 2-itemset yang memenuhi syarat
minimum support dapat ditetapkan sebagai
III. 3. 2. Spesifikasi Kebutuhan Fungsional
selain itu data warehouse memudahkan
dalam menyatukan data dari dua database
Spesifikasi kebutuhan fungsional pada
sumber.
Aplikasi Data Mining ini merujuk pada
Proses ETL (Ekstrak Transform Load)
kebutuhan akan perancangan data mining,
dalam
seperti yang tertera berikut ini :
merupakan proses yang penting karena
1. Dapat menggabungkan data yang akan
menentukan pembangunan data warehouse
diproses mining dari data kelulusan dan
selanjutnya.
data induk mahasiswa
warehouse ini, terdapat dua source system
2. Dapat menghapus data-data yang tidak
yaitu dari database induk mahasiswa dan
relevan serta atribut yang tidak dipakai
database kelulusan. Proses pemuatan data
3. Dapat merubah data menjadi data yang
dari data source ke data warehouse melalui
siap diproses
proses ETL. Diagram Proses ETL dapat
4. Dapat memproses data untuk dimining
digambarkan seperti pada gambar 3.2
pembangunan
Pada
data
warehouse
pembangunan
data
meliputi :
• Hubungan tingkat kelulusan dengan
proses masuk
• Hubungan tingkat kelulusan dengan asal
sekolah yang melalui proses masuk PSSB
• Hubungan tingkat kelulusan dengan asal
kota
• Hubungan tingkat kelulusan dengan
program studi
5. Dapat menampilkan hasil proses mining
Gambar
3.2
Proses
ETL
Dalam
dengan nilai support dan confidence
pembangunan data warehouse ini proses
III. 3. 3. Pemodelan Data
ETL dibangkitkan disisi storage tujuan
seperti digambarkan pada gambar 3.3.
Dalam
aplikasi
warehouse
yang
ini
dibangun
digunakan
data
untuk
menampung data dari database induk
mahasiswa
dan
database
kelulusan
mahasiswa. Tujuan utama pembangunan
data warehouse adalah agar database
sumber tidak terganggu bila terjadi error,
Data pada source di
pull
ke data
warehouse dengan proses ETL yang
terletak di data warehouse.
data yang sama dari dua data source
seperti, nama, alamat wali dan yang lain,
maka yang di load hanya salah satu dari
data source, dengan asumsi memiliki nilai
yang sama. Hal ini dilakukan agar tidak
ada redudancy data atau data rangkap.
Dalam membangun data warehouse, model
data yang paling sering digunakan adalah
multidimensi dengan bentuk star schema,
Gambar 3.3 Proses Pembangkitan ETL
Database Induk mahasiswa dan database
kelulusan merupakan data source dalam
pembangunan data warehouse. Dalam
proses ETL kedua data source tersebut di
load kedalam data warehouse. Proses ETL
mencangkup proses integrasi data dari data
induk dan data kelulusan menjadi data
gabungan dengan key NIM. Proses load
data dan integrasi dapat dlihat dalam
gambar 3.4
snowflake schema, atau fact constellation
schema. Karena setelah proses ETL hanya
terbentuk satu table yang sudah normal
dan tidak memiliki dimensi lebih lanjut
maka skema hanya berupa satu tabel saja
yaitu tabel data gabungan Dari skema
tersebut dapat dibangun database baru
untuk menampung data-data dari database
induk mahasiswa dan database kelulusan
mahasiswa. Karena hanya terdapat satu
entitas maka tidak ada relasi antar entitas,
sehingga hanya terbentuk satu tabel.
III. 4. 3. Rancangan Tampilan
Dalam Aplikasi Data Mining ini terdapat
dua buah form. Form pertama merupakan
halaman
awal
yang
berisi
perintah
pengambilan data pemilihan atribut data
induk mahasiswa, input threshold, perintah
proses mining dan tombol keluar aplikasi.
Form kedua merupakan halaman report
data mining yang berisi hasil proses data
Gambar 3.4 Proses load data Semua data
mining yaitu tabel nilai support dan
yang ada pada data source diimport ke
confidence. Perintah-perintah dalam form
dalam data warehouse, kecuali jika ada
pertama berupa tombol ambil data untuk
data,
untuk keluar aplikasi. Desain tampilan form
inputan teks threshold untuk memasukkan
report Aplikasi Data Mining seperti pada
nilai threshold, inputan combo box untuk
gambar 3.8.
melakukan
proses
pengambilan
memilih jurusan, inputan combo box untuk
memilih
atribut
yang
akan
diproses
mining, tombol proses untuk perintah
proses mining dan tombol keluar untuk
perintah keluar aplikasi. Selain tombol
tersebut terdapat tabel data hasil dari
perintah yang diberikan. Desain tampilan
form awal dari Aplikasi Data Mining
seperti pada gambar 3.7.
Gambar 3.7 Desain Tampilan Form Awal
Aplikasi Data Mining
Hasil keluaran dari proses data mining
disajikan dalam form report Aplikasi Data
Mining. Form ini terdiri dari dua informasi
utama,
yaitu
informasi
atribut
dengan
confidence tertinggi masing-masing kategori
kelulusan dan tabel yang berisi nilai
confidence
dan
support
masing-masing
kombinasi tingkat kelulusan dan Atribut.
Selain itu terdapat dua tombol perintah yaitu
tombol kembali ke menu utama dan tombol
•
BAB IV
IMPLEMENTASI
PROGRAM
DAN
Microsoft®
.NET
Framework®
2.0.50727.4927
PENGUJIAN
Dalam
bab
implementasi
ini
dari
menjelaskan
tentang
perancangan
data
IV. 2. Implementasi Data
Implementasi rancangan data merupakan
mining, perancangan fungsi, perancangan
transformasi
data
dihasilkan
dan
perancangan
tampilan
dari
rancangan
data
yang
Aplikasi Data Mining. Selain itu juga
dari proses perancangan data menjadi
terdapat pengujian Aplikasi Data Mining
suatu database. Database 55
dengan pengujian black box testing.
merupakan suatu data warehouse dengan
IV. 1. Lingkungan Pembangunan
nama “dataMining” yang dibangun untuk
Lingkungan
dan
menyimpan data kelulusan mahasiswa dan
perangkat keras yang digunakan untuk
data induk mahasiswa yang disatukan
membangun Aplikasi Data Mining ini
dengan key NIM dan disimpan dalam tabel
adalah sebagai berikut :
data gabungan.
1) CPU
IV. 3. Implementasi Fungsi
• Prosesor Intel® Celeron® 2.66 Ghz
Implementasi rancangan fungsi merupakan
• Memori 1024 Gb
hasil transformasi dari proses perancangan
• VGA 128 bit
fungsi yang telah dijelaskan pada sub bab
• Hardisk 160 GB
3.4.1
2)
Sistem
perangkat
Operasi
lunak
:
Microsoft®
menjadi
modul-modul
dalam
aplikasi. Hasil dari algoritma tersebut
Windows® 7 Professional 6.1
dituangkan dalam list program yang dapat
3) Editor Script : Notepad ++ v5.0.3.
dilihat pada lampiran.
4) Platform
IV.
•
Microsoft®
Visual
Studio®
2008
4.
Implementasi
Rancangan
Antarmuka
Version 9.0.21022.8 Professional Edition
Hasil rancangan antarmuka Aplikasi Data
• Microsoft .NET Framework® Version
Mining diimplementasikan dalam dua
3.5 SP1
form. Form pertama merupakan halaman
5) DBMS :
awal yang berisi perintah pengambilan
• Microsoft® SQL Server® Management
data
Studio 9.00.1399.00
mahasiswa,
• Microsoft® MSXML 3.0 4.0 5.0 6.0
proses mining dan tombol keluar aplikasi.
pemilihan
input
atribut
data
threshold,
induk
perintah
Sedangkan form kedua berupa informasi
hasil proses data mining yaitu tabel nilai
tersebut. Dalam form ini terdapat dua
support dan confidence. Tombol dan
tombol yaitu tombol kembali ke form awal
inputan dalam form awal disusun secara
dan tombol keluar. Tampilan pada form
berurutan dan hanya bisa diakses secara
report data mining dapat dilihat pada gambar
terurut. Karena dalam data mining proses
4.2
tersebut
bersifat
sekuensial.
Misalkan
pengguna menekan tombol bersihkan data
sebelum
data
diambil
maka
tombol
tersebut tidak akan aktif. Dalam inputan
threshold jika pengguna menginputkan
bukan angka otomatis threshold bernilai
default yaitu nol. Tampilan dari form awal
dapat dilihat pada gambar 4.1.
Gambar 4.2 Tampilan form report data
mining.
Dalam
menggunakan
Aplikasi
Data
Mining ini pertama kali pengguna akan
masuk dalam halaman awal. Pada halaman
awal pengguna melakukan perintah secara
Gambar 4.1 Tampilan form awal Aplikasi
sekuensial dari atas ke bawah. Tombol
ambil
Data Mining
data
adalah
tombol
untuk
mengeksekusi fungsi ambil data, yaitu
Form kedua yaitu form report data mining.
Form ini akan aktif dan tampil jika
mengambil data kelulusan dan data induk
mahasiswa
kemudian
menyimpannya
pengguna menekan tombol proses, dalam
dalam tabel baru yaitu data gabungan.
form ini terdapat hasil dari proses mining
Pengguna dapat memilih jurusan dengan
berupa nilai masing-masing kategori yang
memilih pada combo box pilihan jurusan.
mempunyai nilai confidence tertinggi. Selain
Setelah
itu terdapat tabel itemset dengan atribut
threshold dengan mengisi label teks.
itemset, cacah jumlah itemset atau count,
Setelah
support,
memilih item yang akan diproses mining
dan
confidence
dari
itemset
itu
pengguna
mengisi
threshold
menentukan
pengguna
dengan
memilih
pada
combo
box.
Kemudian pengguna membersihkan data
dengan menekan tombol bersihkan data.
Sampai pada proses ini data siap diproses
mining.
1. Processor : Intel Celeron 2.66
2. RAM : 1024 Mb
3. VGA : 128 bit, 256 Mb
4. Harddisk : 160Gb
Selanjutnya pengguna menekan tombol
proses mining untuk melakukan proses
mining. Barulah hasil dari proses mining
Sedangkan spesifikasi perangkat lunaknya
akan keluar pada form ke dua. Dalam form
sebagai berikut :
kedua
pengguna
dapat
melihat
dua
tampilan hasil data mining dan dua
1.
Sistem
Operasi
:
Microsoft®
Windows® 7 Professional 6.1
tombol. Tampilan pertama merupakan
hasil
mining
masing-masing
tingkat
kelulusan dengan atribut yang paling
tinggi nilai confidence serta nilainya.
Sedangkan tampilan kedua merupakan
2.
FrameWork
:
Microsoft
.NET
Framework® Version 3.5 SP1
3. DBMS : Microsoft® SQL Server®
Management Studio 9.00.1399.00
tabel hasil mining seluruh item kategori
kelulusan dengan semua item data induk
4. XML sistem : Microsoft® MSXML 3.0
dan nilai support dan confidence. Tombol
4.0 5.0 6.0
dalam tampilan report Aplikasi Data
Mining merupakan tombol untuk kembali
IV. 5. 2. Rancangan Pengujian
ke form awal dan keluar dari aplikasi.
Dalam pengujian Aplikasi Data Mining ini
IV. 5. Pengujian Aplikasi Data Mining
digunakan teknik pengujian Black Box.
IV. 5. 1. Lingkungan Pengujian
Lingkungan
perangkat
lunak
Teknik yang digunakan dalam pengujian
dan
Black Box antara lain :
perangkat keras yang digunakan untuk
1. Digunakan untuk menguji fungsi-fungsi
membangun Aplikasi Data Mining ini
khusus
meliputi perangkat keras dan perangkat
dirancang.
dari
perangkat
lunak
yang
lunak. Spesifikasi perangkat lunak sebagai
berikut :
2. Kebenaran perangkat lunak yang diuji
hanya dilihat berdasarkan keluaran yang
dihasilkan dari data atau kondisi masukan
yang diberikan untuk fungsi yang ada
nilai hubungan antar atribut. Data induk
tanpa melihat bagaimana proses untuk
mahasiswa yang diproses mining meliputi
mendapatkan
data proses masuk, data asal sekolah, data
keluaran
tersebut
dan
bagaimana hasil dari proses mining.
kota mahasiswa, dan data program studi.
Hasil dari proses data mining ini dapat
3.
Dari
keluaran
yang
dihasilkan,
digunakan sebagai pertimbangan dalam
kemampuan program dalam memenuhi
mengambil keputusan lebih lanjut tentang
kebutuhan pemakai dapat diukur sekaligus
faktor
dapat diketahui kesalahan-kesalahannya.
kelulusan khususnya faktor dalam data
yang
mempengaruhi
tingkat
induk mahasiswa.
IV. 5. 3. Hasil Uji
Hasil uji dianggap sukses jika pada tabel
V. 2. Saran
pengujian, hasil yang didapat sesuai
Untuk pengembangan Aplikasi Data Mining
dengan kriteria evaluasi hasil dan hasil
lebih lanjut, dapat menggunakan algoritma
yang diharapkan.
lain,
misal
algoritma
FP-Growth.
Perbedaannya adalah algoritma apriori
IV. 5. 4. Analisis Hasil Uji
harus melakukan scan database setiap kali
Berdasarkan pengujian di atas, dapat
iterasi, sedangkan algoritma FP-Growth
disimpulkan bahwa Aplikasi Data Mining
hanya melakukan satu kali scan database
dapat
diawal.
digunakan
untuk
mengetahui
hubungan data kelulusan dengan data
induk mahasiswa.
BAB V PENUTUP
V. 1. Kesimpulan
Kesimpulan yang dapat diambil dalam
pengerjaan tugas akhir ini adalah Aplikasi
Data Mining ini dapat digunakan untuk
menampilkan informasi tingkat kelulusan.
Informasi yang ditampilkan berupa nilai
support dan confidence hubungan antara
tingkat kelulusan dengan data induk
mahasiswa.
Semakin
tinggi
nilai
confidence dan support maka semakin kuat
Anonim, 2009 “Peraturan
Akademik Universitas
Diponegoro Bidang
Pendidikan”, Semarang.
Bramer, Max, 2007,
[2] [3] [4] “Principles of Data Mining”,
[5] [6] [7] Springer, London.
[8] [9] [10] Chintakayala, Padmini. 2005.
[11] [12]
“Beginners Guide for Software
[13] [14]
Testing : Symbiosys
Technologies”. Davies, and
Paul Beynon, 2004, “Database
Systems Third Edition”,
Palgrave Macmillan, New
York. Elmasri, Ramez and
Shamkant B. Navathe, 2000,
“Fundamentals of Database
Systems. Third Edition”,
Addison Wesley Publishing
Company, New York. Han, J.
and Kamber, M, 2006, “Data
Mining Concepts and
Techniques Second Edition”.
Morgan Kauffman, San
Francisco. Kadir, Abdul, 1999,
“Konsep dan Tuntunan Praktis
Basis Data”, Penerbit Andi,
Yogyakarta. Kusrini, dan
Emha Taufik Luthfi, 2009,
“Algoritma Data Mining”,
Penerbit Andi, Yogyakarta.
Pramudiono, I. 2007.
Pengantar Data Mining :
Menambang Permata
Pengetahuan di Gunung Data.
http://www.ilmukomputer.org/
wpcontent/uploads/2006/08/ikodatamining.zip Diakses pada
tanggal 15 Maret 2009 jam
08.54
Pramudiono, I., 2007,
Algoritma Apriori,
http://datamining.japati.net/cgi
bin/indodm.cgi?bacaarsip&11
72210143 Diakses pada
tanggal 25 April 2009 jam
10.00 Rainardi, Vincent, 2008,
“Building a Data Warehouse
with Examples in SQL Server”,
Springer, New York.
DAFTA
R
PUSTA
KA [1]
Pressman, Roger S, 1997,
“Software Engineering:A
Practitioner’s Approch.” The
McGraw-Hill Companies, Inc.,
New York Santosa, Budi,
2007, “Data Mining Teknik
Pemanfaatan Data untuk
Keperluan Bisnis”, Graha
Ilmu, Yogyakarta.
Sommerville, Ian, 2003,
“Software Engineering
(Rekayasa Perangkat Lunak)/
Edisi 6/Jilid 1” Erlangga,
Jakarta.
Download