educational data mining (konsep dan penerapan)

advertisement
EDUCATIONAL DATA MINING (KONSEP DAN PENERAPAN)
Fitri Marisa
Program Studi Teknik Informatika
Universitas Widyagama Malang
Jl. Borobudur No. 35 Malang (0341)492282
e-mail: [email protected]
ABSTRACT
Electronic Learning (E-Elarning), especially Web-based learning or intelligent tutorial system has
yielded information about the interaction between students and the system. This information is
stored in a database in the form of a web log. Within a certain period it will be a large amount of
information. From the collection of large amounts of data that can be explored using data mining
methods to generate new patterns that can be useful for improving the effectiveness of computerbased learning process. This paper will discuss how data mining can be utilized to improve the
effectiveness of computer-based learning process. In its application the data will be processed in
three stages: the collection, transformation, and analysis. Then the techniques used in the analysis
algorithm is Association rules, classification, and clustering.
Keywords: data mining, Educational data mining, E-Learning
secara manual dari suatu kumpulan data
PENDAHULUAN.
Di era teknologi informasi seperti saat
(Pramudiono, 2007). Data mining, sering juga
ini tentunya ketersediaan data di segala
disebut sebagai knowledge discovery in
bidang
database (KDD). KDD adalah kegiatan
sangatlah
melimpah.
Dengan
fenomena tersebut akan sangat berguna jika
yang
dipikirkan bagaimana membangun pola yang
data,
menjadikan data yang berlimpah tersebut
keteraturan, pola atau hubungan dalam set
menghasilkan
data
data-data
yang
memiliki
meliputi
pengumpulan,
pemakaian
untuk
menemukan
historis
berukuran
besar
(Santoso,
2007).
banyak manfaat bagi pemilik data itu sendiri
Sependapat dengan Witten (2005) yang
maupun
mengatakan
bahwa
membutuhkannya. Maka dikembangkanlah
didefinisikan
sebagai
ilmu Data Mining. Dalam definisinya Data
pola-pola dalam data. Proses ini otomatis atau
Mining adalah penambangan atau penemuan
seringnya
informasi baru dengan mencari pola atau
ditemukan
aturan tertentu dari sejumlah data
yang
tersebut memberikan keuntungan, biasanya
sangat besar (Davies, 2004). Data Mining
keuntungan secara ekonomi. Data yang
juga disebut sebagai serangkaian proses
dibutuhkan dalam jumlah besar”.
untuk
pihak
menggali
eksternal
nilai
tambah
yang
berupa
pengetahuan yang selama ini tidak diketahui
“Data
proses menemukan
semiotomatis.
harus
mining
penuh
Pola
arti
dan
yang
pola
Salah satu bidang yang akan diangkat
dalam
pembahasan makalah ini adalah
Jurnal Teknologi Informasi Vol. 4 No. 2
90
penerapan
data
mining
dalam
dunia
sebagai suatu proses terdiri atas pembersihan
pendidikan khususnya dunia pendidikan. Di
data (data cleaning), integrasi data (data
dunia pendidikan tentunya terdapat banyak
integration),
sumber yang menghasilkan data melimpah
selection),
antara lain data kinerja pengajar, kinerja
transformation), data mining, evaluasi pola
admistrasi dan pelayanan, data rekam jejak
(pattern
alumni, data akademik, maupun data proses
pengetahuan
pembelajaran.
(Ayub, 2007: 22).
pemilihan
transformasi
evaluation)
(knowledge
data
(data
data
(data
dan
penyajian
presentation).
Mungkin selain yang disebutkan diatas
Pendapat lain mengatakan bahwa data
masih banyak sumber data yang bisa digali.
mining terdiri dari 6 tahap yang terpola dalam
Namun pembahasan ini akan menfokuskan
gambar 1 sebagai berikut :
pada satu sumber yaitu proses pembelajaran
dengan studi kasus pembelajaran berbantuan
komputer (computer aided learning system).
Sistem pembelajaran berbantuan komputer
dapat
diimplementasikan sebagai
sistem
tutorial berbasis web (web-based tutoring
tool)
[Merceron,
mekanismenya
2005].
bahwa
dalam
Dalam
tutorial
berbasis, terdapat interaksi antara pebelajar
dengan sistem yang disimpan dalam database
baik berupa basis data SQL maupun web log.
Dengan rentang waktu yang panjang maka
data
yang
dihasilkan
akan
semakin
Gambar 1: Tahapan data mining Han: 2006)
Tahap-tahap data mining ada 6 yaitu :
berlimpah, maka dari berlimpahnya data
tersebut berpotensi untuk digali sehingga
1. Pembersihan data (data cleaning)
menghasilkan pola-pola baru dari data yang
proses
Pembersihan data merupakan proses
pembelajaran. Pola penggalian data tersebut
menghilangkan noise dan data yang tidak
menggunakan ilmu Data Mining.
konsisten atau data tidak relevan. Pada
bermanfaat
untuk
efektifitas
umumnya data yang diperoleh, baik dari
LANDASAN TEORI
database suatu perusahaan maupun hasil
1. Penerapan Educational Data Mining.
eksperimen, memiliki isian-isian yang tidak
Sebenarnya data mining merupakan
sempurna seperti data yang hilang, data yang
suatu langkah dalam knowlegde discovery in
tidak valid atau juga hanya sekedar salah
databases (KDD).
ketik. Selain itu, ada juga atribut-atribut data
Knowledge discovery
Jurnal Teknologi Informasi Vol. 4 No. 2
91
yang tidak relevan dengan hipotesa data
nama pelanggan, cukup dengan id pelanggan
mining yang dimiliki. Data-data yang tidak
saja.
relevan
itu
juga
lebih
baik
dibuang.
Pembersihan data juga akan mempengaruhi
4. Transformasi data (Data Transformation)
performasi dari teknik data mining karena
Data diubah atau digabung ke dalam
data yang ditangani akan berkurang jumlah
format yang sesuai untuk diproses dalam data
dan kompleksitasnya.
mining.
Beberapa
metode
data
membutuhkan format data
2. Integrasi data (data integration)
mining
yang khusus
sebelum bisa diaplikasikan. Sebagai contoh
Integrasi data merupakan penggabungan
beberapa metode standar seperti analisis
data dari berbagai database ke dalam satu
asosiasi dan clustering hanya bisa menerima
database baru. Tidak jarang data yang
input data kategorikal. Karenanya data berupa
diperlukan untuk data mining tidak hanya
angka numerik yang berlanjut perlu dibagi-
berasal dari satu database tetapi juga berasal
bagi menjadi beberapa interval. Proses ini
dari beberapa database atau file teks. Integrasi
sering disebut transformasi data.
data dilakukan pada atribut-aribut yang
mengidentifikasikan entitas-entitas yang unik
5. Proses mining,
seperti atribut nama, jenis produk, nomor
Merupakan suatu
diterapkan
proses
untuk
utama saat
pelanggan dan lainnya. Integrasi data perlu
metode
menemukan
dilakukan secara cermat karena kesalahan
pengetahuan berharga dan tersembunyi dari
pada integrasi data bisa menghasilkan hasil
data.
yang menyimpang dan bahkan menyesatkan
pengambilan aksi nantinya. Sebagai contoh
bila integrasi data berdasarkan jenis produk
6. Evaluasi pola (pattern evaluation),
Untuk
mengidentifikasi
pola-pola
ternyata menggabungkan produk dari kategori
menarik kedalam knowledge based yang
yang berbeda maka akan didapatkan korelasi
ditemukan. Dalam tahap ini hasil dari teknik
antar produk yang sebenarnya tidak ada.
data mining berupa pola-pola yang khas
maupun model prediksi dievaluasi untuk
3. Seleksi Data (Data Selection)
menilai apakah hipotesa yang ada memang
Data yang ada pada database sering kali
tercapai. Bila ternyata hasil yang diperoleh
tidak semuanya dipakai, oleh karena itu hanya
tidak sesuai hipotesa ada beberapa alternatif
data yang sesuai untuk dianalisis yang
yang dapat diambil seperti
akan
database. Sebagai
umpan balik untuk memperbaiki proses data
contoh, sebuah kasus yang meneliti faktor
mining, mencoba metode data mining lain
kecenderungan orang membeli dalam kasus
yang lebih sesuai, atau menerima hasil ini
market basket analysis, tidak perlu mengambil
sebagai suatu hasil yang di luar dugaan
diambil
dari
menjadikannya
Jurnal Teknologi Informasi Vol. 4 No. 2
92
yang mungkin bermanfaat.
Educational
emerging
Data
discipline,
Mining
is
concerned
an
with
7. Presentasi pengetahuan (knowledge
developing methods for exploring the unique
presentation),
types of data that come from educational
Merupakan visualisasi dan penyajian
pengetahuan mengenai
metode yang
digunakan untuk memperoleh pengetahuan
settings, and using those methods to better
understand students, and the settings which
they learn in.
yang diperoleh pengguna. Tahap terakhir dari
proses
data
mining
adalah
bagaimana
(www.educationaldatamining.org)
diakses 7 Pebruari 2014 jam 13.40.
memformulasikan keputusan atau aksi dari
Dari definisi tersebut dikatakan bahwa
hasil analisis yang didapat. Ada kalanya hal
Educational data mining adalah disiplin ilmu
ini harus melibatkan orang-orang yang tidak
yang mendalami tentang pembangunan pola-
memahami data mining. Karenanya presentasi
pola yang unik yang dihasilkan dari proses
hasil data mining dalam bentuk pengetahuan
pembelajaran yang berguna untuk memahami
yang bisa dipahami semua orang adalah satu
pebelajar secara lebih baik sehingga dapat
tahapan yang diperlukan dalam proses data
diupayakan bagaimana merancang pola yang
mining. Dalam presentasi ini, visualisasi juga
cocok.
bisa membantu mengkomunikasikan hasil
data mining (Han, 2006)
Dari kerangka proses data mining
yang digabungkan dengan pola educational
Sedangkan menurut Nilakant (2004)
“Kerangka proses data mining yang akan
data mining maka dapat dijabarkan tahapan
proses data mining sebagai berikut:
dibahas tersusun atas tiga tahapan, yaitu
pengumpulan
data
(data
collection),
A.
Pengumpulan data.
transformasi data (data transformation), dan
Dalam kerangka ini proses dimulai dari
analisis data (data analysis). Dari proses
pengumpulan data yang menghasilkan data
tersebut
mentah,
dapat
digambarkan
sebagai
berikut:
kemudian
ditransformasikan
sehingga menghasilkan file yang dapat dibaca
oleh tools data mining. Hasil dari transformasi
tersebut
biasanya
akan
dilakukan
menggunakan
analisis,
anaisis
yang
statistik
ataupun visualisasi informasi. Hasil evaluasi
pengetahuan yang dihasilkan data mining
inil a h
Gambar 2: Kerangka proses Data mining
(adaptasi dari Ayub, 2007)
dapat
digunakan
sebagai
acuan
kebutuhan pengetahuan yang lebih lengkap,
perbaikan
kumpulan data (dataset) atau
perubahan pada sistem.
Jurnal Teknologi Informasi Vol. 4 No. 2
93
Berikut ini adalah menggambarkan
interaksi pembelajaran dalam berbagai layer.
Gambar 4: contoh Taksonomi variabel dari
Gambar 3: Model interaksi pembelajaran.
usaha menjawab soal (adaptasi dari Ayub,
2007)
Dari Gambar 3 digambarkan layer yang
dengan lapisan mulai dari lapisan dalam yaitu
Data mentah yang dihasilkan dari
(Usaha)-
pengumpulan data, biasanya tersimpan dalam
Problems (soal)- Session (sesi)- Course
bentuk beberapa tabel basis data. Karena
(Materi).
Suatu contoh pebelajar dalam
analisis data umumnya dilakukan terhadap
melakukan tes yang pada saat pengerjaan
suatu tabel tunggal, maka perlu dilakukan
sebelum pebelajar memutuskan menjawab
penggabungan (join)
soal yang dianggap benar tentunya ada
relevan. Hasilnya adalah suatu struktur yang
kegiatan
disebut dengan dataset, [Ayub, 2007].
Constrain
(Aturan)
yang
–
Attempt
dilakukan
seperti
misal
beberapa tabel yang
menjawab jawaban yang salah, kemudian
Kemudian dataset ini digolongkan menjadi 2
direvisi kembali, berapa lama waktu yang
yaitu kumpulan atribut
dibutuhkan untuk menghasilkan jawaban yang
kumpulan instan (horisontal).
( vertikal)
dan
benar, apakah siswa melakukan pelanggaran,
Setiap atribut mempunyai tipe data,
bagaimana pola pelanggaran yang dilakukan,
yang dapat berupa string, angka atau yang
apakah siswa menjawab dengan salah, seperti
lainnya. Untuk nilai atribut berhingga, disebut
apa pola kesalahan pebelajar. Hal-hal tersebut
atribut nominal. nstans adalah data yang
sedetail mungkin harus bisa direkam oleh
dihasilkan dari
sistem yang akhirnya dapat digunakan untuk
dicatat dalam beberapa atribut.
suatu kejadian riil, yang
menyusun representasi kognitif siswa atau
disebut model siswa.
Hasil pengelompokan data tersebut
dapat
digambarkan
taksonomi
variable
tentang usaha pebelajar dalam memecahkan
pertanyaan, seperti yang dicontohkan pada
gambar 4.
Gambar 5: Format dataset (Adaptasi dari
Nikalant: 2004)
Jurnal Teknologi Informasi Vol. 4 No. 2
94
B.
2004]
Transformasi.
Dalam proses transformasi ini dapat
Menurut Huda (2010: 14) Association
dilakukan dengan beberapa cara yaitu filtrasi
rules (aturan asosiasi) atau affinity analysis
dan konversi atribut. Filtrasi yaitu mensoting
(analisis
atribut-atribut yang tidak relevan sehingga
tentang “apa bersama apa”. Sebagai contoh
menghasilkan data yang lebih rekomanded.
dapat berupa berupa studi transaksi di
Sedangkan konversi atribut adalah mengubah
supermarket,
atribut
menjadi
membeli susu bayi juga membeli sabun
nominal, karena ada beberapa perangkat data
mandi. Pada kasus ini berarti susu bayi
mining yang tidak bisa menghitung nilai
bersama
kontinyu.
awalnya berasal dari studi tentang database
yang
bernilai
kontinyu
Dalam konversi atribut ini terdapat dua
afinitas) berkenaan dengan studi
misalnya
dengan
transaksi
seseorang
sabun
pelanggan
mandi.
untuk
yang
Karena
menentukan
cara yaitu teknik scanning yaitu melakukan
kebiasaan suatu produk dibeli bersama produk
penelusuran terhadap semua nilai kontinyu
apa,
menjadi
dinamakan market basket analysis
domain
atribut
nominal.
Cara
dalah
teknik
binning
yaitu
berikutnya
maka
Aturan
aturan
asosiasi
asosiasi
juga
ingin
sering
memberikan
nominal
informasi tersebut dalam bentuk hubungan “if-
untuk setiap atribut, kemudian menetapkan
then” atau “jika-maka”. Aturan ini dihitung
setiap nilai atribut ke dalam salah satu kelas.
dari data yang sifatnya probabilistik (Santoso,
Misalnya,
2007). Bentuk umum aturan dalam association
mendefinisikan
kumpulan
jika
domain
kelas
atribut
numerik
mempunyai nilai dari 0 sampai dengan 100,
rule adalah :
domain tersebut dapat dibagi menjadi empat
(X = xi) →(Y = yi) [sup,conf]
bin (0..24, 25..49, 50..74, 75..100). Setiap
nilai atribut akan dikonversi menjadi atribut
dengan :
nominal yang berkorespondensi dengan salah
X = { x1, x2, . . ., xn},
satu bin.
Y = { y1, y2, . . ., ym},
sup = probabilitas bahwa suatu instans dalam
C.
Analisis Data.
Proses
menerapkan
dataset
analisis
teknik
data
data
dengan
mining
dapat
pendekatan
Analisis
pendekatan
data
machine
pembelajaran
machine
learning
X
∪ Y,
conf
=
probabilitas kondisional bahwa instans yang
mengandung X juga mengandung Y.
dilakukan melalui analisis statistik atau
dengan
mengandung
Association rule merupakan salah satu
learning.
metode data mining yang menjadi dasar dari
dengan
berbagai metode data mining lainnya. tahap
akan
dari analisis asosiasi yang disebut analisis
menggunakan tiga teknik, yaitu association
pola
rules, clustering, dan classification [Nilakant,
mining) menarik perhatian banyak peneliti
frekuensi
tinggi
(frequent
pattern
Jurnal Teknologi Informasi Vol. 4 No. 2
95
untuk menghasilkan algoritma yang efisien.
mewakili bagian “jika” dan consequent untuk
Penting tidaknya suatu aturan assosiatif dapat
mewakili bagian “maka”. Dalam analisis ini,
diketahui dengan dua parameter, support
antecedent
(nilai penunjang) yaitu prosentase kombinasi
sekelompok item yang tidak punya hubungan
item tersebut. dalam database dan confidence
secara bersama (Santoso, 2007).
dan
consequent
adalah
(nilai kepastian) yaitu kuatnya hubungan antar
Assosiation Rules dapat dimanfaatkan
item dalam aturan assosiatif. Analisis asosiasi
untuk menemukan kesalahan yang sering
didefinisikan suatu proses untuk menemukan
terjadi pada saat pebelajar mengerjakan
semua aturan assosiatif yang memenuhi syarat
latihan soal. Suatu contoh jika pebelajar
minimum untuk support (minimum support)
melakukan kesalahan X dan Z, maka mereka
dan
juga
syarat
minimum
untuk
confidence
(minimum confidence) (Pramudiono, 2007).
Ada beberapa algoritma yang sudah
dikembangkan mengenai
melakukan kesalahan Y,
misalnya
dengan support 40% dan confidence 55%
akan ditulis sebagai
aturan asosiasi,
X and Z → Y [40%,55%]
namun ada satu algoritma klasik yang sering
dipakai yaitu algoritma apriori. Ide dasar dari
Aturan tersebut dapat dibaca sebagai
algoritma ini adalah dengan mengembangkan
berikut : dari 40% siswa yang melakukan
frequent itemset. Dengan menggunakan satu
kesalahan X dan kesalahan Z maka 55%
item dan secara rekursif mengembangkan
diantaranya melakukan kesalahan Y.
frequent itemset dengan dua item, tiga item
dan
seterusnya
hingga
frequent
itemset
dengan semua ukuran.
dua
item,
Assosiation
Rules
juga
dapat menyatakan hubungan antara beberapa
atribut yang berbeda, misalnya kesalahan X
Untuk mengembangkan frequent set
dengan
Algoritma
dapat
menggunakan
pada konsep A menimbulkan kesalahan Z
pada konsep C, yang ditulis sebagai
frequent set item. Alasannya adalah bila set
X and A → Z and C
satu item tidak melebihi support minimum,
maka sembarang ukuran itemset yang lebih
besar tidak akan melebihi support minimum
tersebut. Secara umum, mengembangkan set
dengan fc-item menggunakan frequent set
dengan k – 1 item yang dikembangkan dalam
langkah sebelumnya.
Setiap
langkah
memerlukan sekali pemeriksaan ke seluruh
isi database.
Dalam
asosiasi
terdapat
istilah
antecedent dan consequent, antecedent untuk
Teknik classification bekerja dengan
mengelompokkan
data
berdasarkan
data
training dan nilai atribut klasifikasi. Aturan
pengelompokan tersebut akan
untuk
klasifikasi
data
baru
digunakan
ke
dalam
kelompok yang ada.
Classification dapat direpresentasikan
dalam bentuk pohon keputusan (decision
tree). Setiap node dalam pohon keputusan
menyatakan suatu tes terhadap atribut dataset,
Jurnal Teknologi Informasi Vol. 4 No. 2
96
sedangkan setiap cabang menyatakan hasil
DAFTAR PUSTAKA
dari tes tersebut. Pohon keputusan yang
Ayub, Mewati. 2007. “Proses data mining
dalam pembelajaran berbanuan
komputer”. Vol 2. No. 1. Jurnal Sistem
Informasi. Universitas Kristen
Maranatha.
terbentuk
dapat
diterjemahkan menjadi
sekumpulan aturan dalam bentuk IF condition
THEN outcome.
KESIMPULAN
Education data mining adalah suatu
teknik penerapan data mining dalam sistem
pembelajaran berbantuan komputer. Pada
prosesnya
adalah
diawali
dan diakhiri dengan
analisis data. Dalam pengumpulan data, yang
mesti didefinisikan adalah
suatu
interaksi antara pebelajar
sistem yang
model
bertujuan untuk menghasilkan ketetapan data
yang
harus
terekam dari
suatu
proses
pembelajaran yang diamati. Kemudian model
interaksi
pebelajar-sistem
tersebut
dapat
tersusun
atas
lapisan
untuk
beberapa
memungkinkan penangkapan data yang lebih
kaya. Transformasi data mengubah data
mentah menjadi dataset yang siap dilakukan
penghitungan
selanjutnya
(dianalisis).
Transformasi dapat dilakukan pada instans
dataset
Merceron, A., Yacef, K. (2005). Educational
Data Mining : a Case Study,
http://www.it.usyd.edu.au/~kalina/publis
/merceron_yacef_aied0
Nilakant, K. (2004). Application of Data
Mining in Constraint Based Intelligent
Tutoring
System,
www.cosc.canterbury.ac.nz/research/rep
orts/HonsReps/2004/hons_04
Pramudiono,
I.,
2007,
Algoritma
Apriori,
http://datamining.japati.net/cgibin/indodm.cgi?bacaarsip&1172210143
Di
Pramudiono, I. 2007. Pengantar Data Mining
: Menambang Permata Pengetahuan di
Gunung
Data.
http://www.ilmukomputer.org/wpcontent/uploads/2006/08/ikodatamining.zip.
maupun pada atribut dari dataset
melalui filtrasi ataupun konversi. Sementara
itu analisis data hasil pembelajaran dapat
dilakukan
dengan
menerapkan
teknik
algoritma association rules, classification,
dan
Han, J. and Kamber, M, 2006, “Data Mining
Concepts and Techniques Second
Edition”. Morgan Kauffman, San Francisco.
dengan
pengumpulan data, yang dilanjutkan dengan
transformasi data,
Davies, and Paul Beynon, 2004, “Database
Systems Third Edition”, Palgrave
Macmillan, New York.
clustering
untuk
menghasilkan
Santosa, Budi, 2007, “Data Mining Teknik
Pemanfaatan Data untuk Keperluan
Bisnis”, Graha Ilmu, Yogyakarta.
Witten, I. H and Frank, E. 2005. Data
Mining : Practical Machine Learning
Tools and Techniques Second Edition.
Morgan Kauffman : San Francisco
pengetahuan yang dapat membantu untuk
proses pembelajaran selanjutnya.
Jurnal Teknologi Informasi Vol. 4 No. 2
97
Download