EDUCATIONAL DATA MINING (KONSEP DAN PENERAPAN) Fitri Marisa Program Studi Teknik Informatika Universitas Widyagama Malang Jl. Borobudur No. 35 Malang (0341)492282 e-mail: [email protected] ABSTRACT Electronic Learning (E-Elarning), especially Web-based learning or intelligent tutorial system has yielded information about the interaction between students and the system. This information is stored in a database in the form of a web log. Within a certain period it will be a large amount of information. From the collection of large amounts of data that can be explored using data mining methods to generate new patterns that can be useful for improving the effectiveness of computerbased learning process. This paper will discuss how data mining can be utilized to improve the effectiveness of computer-based learning process. In its application the data will be processed in three stages: the collection, transformation, and analysis. Then the techniques used in the analysis algorithm is Association rules, classification, and clustering. Keywords: data mining, Educational data mining, E-Learning secara manual dari suatu kumpulan data PENDAHULUAN. Di era teknologi informasi seperti saat (Pramudiono, 2007). Data mining, sering juga ini tentunya ketersediaan data di segala disebut sebagai knowledge discovery in bidang database (KDD). KDD adalah kegiatan sangatlah melimpah. Dengan fenomena tersebut akan sangat berguna jika yang dipikirkan bagaimana membangun pola yang data, menjadikan data yang berlimpah tersebut keteraturan, pola atau hubungan dalam set menghasilkan data data-data yang memiliki meliputi pengumpulan, pemakaian untuk menemukan historis berukuran besar (Santoso, 2007). banyak manfaat bagi pemilik data itu sendiri Sependapat dengan Witten (2005) yang maupun mengatakan bahwa membutuhkannya. Maka dikembangkanlah didefinisikan sebagai ilmu Data Mining. Dalam definisinya Data pola-pola dalam data. Proses ini otomatis atau Mining adalah penambangan atau penemuan seringnya informasi baru dengan mencari pola atau ditemukan aturan tertentu dari sejumlah data yang tersebut memberikan keuntungan, biasanya sangat besar (Davies, 2004). Data Mining keuntungan secara ekonomi. Data yang juga disebut sebagai serangkaian proses dibutuhkan dalam jumlah besar”. untuk pihak menggali eksternal nilai tambah yang berupa pengetahuan yang selama ini tidak diketahui “Data proses menemukan semiotomatis. harus mining penuh Pola arti dan yang pola Salah satu bidang yang akan diangkat dalam pembahasan makalah ini adalah Jurnal Teknologi Informasi Vol. 4 No. 2 90 penerapan data mining dalam dunia sebagai suatu proses terdiri atas pembersihan pendidikan khususnya dunia pendidikan. Di data (data cleaning), integrasi data (data dunia pendidikan tentunya terdapat banyak integration), sumber yang menghasilkan data melimpah selection), antara lain data kinerja pengajar, kinerja transformation), data mining, evaluasi pola admistrasi dan pelayanan, data rekam jejak (pattern alumni, data akademik, maupun data proses pengetahuan pembelajaran. (Ayub, 2007: 22). pemilihan transformasi evaluation) (knowledge data (data data (data dan penyajian presentation). Mungkin selain yang disebutkan diatas Pendapat lain mengatakan bahwa data masih banyak sumber data yang bisa digali. mining terdiri dari 6 tahap yang terpola dalam Namun pembahasan ini akan menfokuskan gambar 1 sebagai berikut : pada satu sumber yaitu proses pembelajaran dengan studi kasus pembelajaran berbantuan komputer (computer aided learning system). Sistem pembelajaran berbantuan komputer dapat diimplementasikan sebagai sistem tutorial berbasis web (web-based tutoring tool) [Merceron, mekanismenya 2005]. bahwa dalam Dalam tutorial berbasis, terdapat interaksi antara pebelajar dengan sistem yang disimpan dalam database baik berupa basis data SQL maupun web log. Dengan rentang waktu yang panjang maka data yang dihasilkan akan semakin Gambar 1: Tahapan data mining Han: 2006) Tahap-tahap data mining ada 6 yaitu : berlimpah, maka dari berlimpahnya data tersebut berpotensi untuk digali sehingga 1. Pembersihan data (data cleaning) menghasilkan pola-pola baru dari data yang proses Pembersihan data merupakan proses pembelajaran. Pola penggalian data tersebut menghilangkan noise dan data yang tidak menggunakan ilmu Data Mining. konsisten atau data tidak relevan. Pada bermanfaat untuk efektifitas umumnya data yang diperoleh, baik dari LANDASAN TEORI database suatu perusahaan maupun hasil 1. Penerapan Educational Data Mining. eksperimen, memiliki isian-isian yang tidak Sebenarnya data mining merupakan sempurna seperti data yang hilang, data yang suatu langkah dalam knowlegde discovery in tidak valid atau juga hanya sekedar salah databases (KDD). ketik. Selain itu, ada juga atribut-atribut data Knowledge discovery Jurnal Teknologi Informasi Vol. 4 No. 2 91 yang tidak relevan dengan hipotesa data nama pelanggan, cukup dengan id pelanggan mining yang dimiliki. Data-data yang tidak saja. relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi 4. Transformasi data (Data Transformation) performasi dari teknik data mining karena Data diubah atau digabung ke dalam data yang ditangani akan berkurang jumlah format yang sesuai untuk diproses dalam data dan kompleksitasnya. mining. Beberapa metode data membutuhkan format data 2. Integrasi data (data integration) mining yang khusus sebelum bisa diaplikasikan. Sebagai contoh Integrasi data merupakan penggabungan beberapa metode standar seperti analisis data dari berbagai database ke dalam satu asosiasi dan clustering hanya bisa menerima database baru. Tidak jarang data yang input data kategorikal. Karenanya data berupa diperlukan untuk data mining tidak hanya angka numerik yang berlanjut perlu dibagi- berasal dari satu database tetapi juga berasal bagi menjadi beberapa interval. Proses ini dari beberapa database atau file teks. Integrasi sering disebut transformasi data. data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik 5. Proses mining, seperti atribut nama, jenis produk, nomor Merupakan suatu diterapkan proses untuk utama saat pelanggan dan lainnya. Integrasi data perlu metode menemukan dilakukan secara cermat karena kesalahan pengetahuan berharga dan tersembunyi dari pada integrasi data bisa menghasilkan hasil data. yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk 6. Evaluasi pola (pattern evaluation), Untuk mengidentifikasi pola-pola ternyata menggabungkan produk dari kategori menarik kedalam knowledge based yang yang berbeda maka akan didapatkan korelasi ditemukan. Dalam tahap ini hasil dari teknik antar produk yang sebenarnya tidak ada. data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk 3. Seleksi Data (Data Selection) menilai apakah hipotesa yang ada memang Data yang ada pada database sering kali tercapai. Bila ternyata hasil yang diperoleh tidak semuanya dipakai, oleh karena itu hanya tidak sesuai hipotesa ada beberapa alternatif data yang sesuai untuk dianalisis yang yang dapat diambil seperti akan database. Sebagai umpan balik untuk memperbaiki proses data contoh, sebuah kasus yang meneliti faktor mining, mencoba metode data mining lain kecenderungan orang membeli dalam kasus yang lebih sesuai, atau menerima hasil ini market basket analysis, tidak perlu mengambil sebagai suatu hasil yang di luar dugaan diambil dari menjadikannya Jurnal Teknologi Informasi Vol. 4 No. 2 92 yang mungkin bermanfaat. Educational emerging Data discipline, Mining is concerned an with 7. Presentasi pengetahuan (knowledge developing methods for exploring the unique presentation), types of data that come from educational Merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan settings, and using those methods to better understand students, and the settings which they learn in. yang diperoleh pengguna. Tahap terakhir dari proses data mining adalah bagaimana (www.educationaldatamining.org) diakses 7 Pebruari 2014 jam 13.40. memformulasikan keputusan atau aksi dari Dari definisi tersebut dikatakan bahwa hasil analisis yang didapat. Ada kalanya hal Educational data mining adalah disiplin ilmu ini harus melibatkan orang-orang yang tidak yang mendalami tentang pembangunan pola- memahami data mining. Karenanya presentasi pola yang unik yang dihasilkan dari proses hasil data mining dalam bentuk pengetahuan pembelajaran yang berguna untuk memahami yang bisa dipahami semua orang adalah satu pebelajar secara lebih baik sehingga dapat tahapan yang diperlukan dalam proses data diupayakan bagaimana merancang pola yang mining. Dalam presentasi ini, visualisasi juga cocok. bisa membantu mengkomunikasikan hasil data mining (Han, 2006) Dari kerangka proses data mining yang digabungkan dengan pola educational Sedangkan menurut Nilakant (2004) “Kerangka proses data mining yang akan data mining maka dapat dijabarkan tahapan proses data mining sebagai berikut: dibahas tersusun atas tiga tahapan, yaitu pengumpulan data (data collection), A. Pengumpulan data. transformasi data (data transformation), dan Dalam kerangka ini proses dimulai dari analisis data (data analysis). Dari proses pengumpulan data yang menghasilkan data tersebut mentah, dapat digambarkan sebagai berikut: kemudian ditransformasikan sehingga menghasilkan file yang dapat dibaca oleh tools data mining. Hasil dari transformasi tersebut biasanya akan dilakukan menggunakan analisis, anaisis yang statistik ataupun visualisasi informasi. Hasil evaluasi pengetahuan yang dihasilkan data mining inil a h Gambar 2: Kerangka proses Data mining (adaptasi dari Ayub, 2007) dapat digunakan sebagai acuan kebutuhan pengetahuan yang lebih lengkap, perbaikan kumpulan data (dataset) atau perubahan pada sistem. Jurnal Teknologi Informasi Vol. 4 No. 2 93 Berikut ini adalah menggambarkan interaksi pembelajaran dalam berbagai layer. Gambar 4: contoh Taksonomi variabel dari Gambar 3: Model interaksi pembelajaran. usaha menjawab soal (adaptasi dari Ayub, 2007) Dari Gambar 3 digambarkan layer yang dengan lapisan mulai dari lapisan dalam yaitu Data mentah yang dihasilkan dari (Usaha)- pengumpulan data, biasanya tersimpan dalam Problems (soal)- Session (sesi)- Course bentuk beberapa tabel basis data. Karena (Materi). Suatu contoh pebelajar dalam analisis data umumnya dilakukan terhadap melakukan tes yang pada saat pengerjaan suatu tabel tunggal, maka perlu dilakukan sebelum pebelajar memutuskan menjawab penggabungan (join) soal yang dianggap benar tentunya ada relevan. Hasilnya adalah suatu struktur yang kegiatan disebut dengan dataset, [Ayub, 2007]. Constrain (Aturan) yang – Attempt dilakukan seperti misal beberapa tabel yang menjawab jawaban yang salah, kemudian Kemudian dataset ini digolongkan menjadi 2 direvisi kembali, berapa lama waktu yang yaitu kumpulan atribut dibutuhkan untuk menghasilkan jawaban yang kumpulan instan (horisontal). ( vertikal) dan benar, apakah siswa melakukan pelanggaran, Setiap atribut mempunyai tipe data, bagaimana pola pelanggaran yang dilakukan, yang dapat berupa string, angka atau yang apakah siswa menjawab dengan salah, seperti lainnya. Untuk nilai atribut berhingga, disebut apa pola kesalahan pebelajar. Hal-hal tersebut atribut nominal. nstans adalah data yang sedetail mungkin harus bisa direkam oleh dihasilkan dari sistem yang akhirnya dapat digunakan untuk dicatat dalam beberapa atribut. suatu kejadian riil, yang menyusun representasi kognitif siswa atau disebut model siswa. Hasil pengelompokan data tersebut dapat digambarkan taksonomi variable tentang usaha pebelajar dalam memecahkan pertanyaan, seperti yang dicontohkan pada gambar 4. Gambar 5: Format dataset (Adaptasi dari Nikalant: 2004) Jurnal Teknologi Informasi Vol. 4 No. 2 94 B. 2004] Transformasi. Dalam proses transformasi ini dapat Menurut Huda (2010: 14) Association dilakukan dengan beberapa cara yaitu filtrasi rules (aturan asosiasi) atau affinity analysis dan konversi atribut. Filtrasi yaitu mensoting (analisis atribut-atribut yang tidak relevan sehingga tentang “apa bersama apa”. Sebagai contoh menghasilkan data yang lebih rekomanded. dapat berupa berupa studi transaksi di Sedangkan konversi atribut adalah mengubah supermarket, atribut menjadi membeli susu bayi juga membeli sabun nominal, karena ada beberapa perangkat data mandi. Pada kasus ini berarti susu bayi mining yang tidak bisa menghitung nilai bersama kontinyu. awalnya berasal dari studi tentang database yang bernilai kontinyu Dalam konversi atribut ini terdapat dua afinitas) berkenaan dengan studi misalnya dengan transaksi seseorang sabun pelanggan mandi. untuk yang Karena menentukan cara yaitu teknik scanning yaitu melakukan kebiasaan suatu produk dibeli bersama produk penelusuran terhadap semua nilai kontinyu apa, menjadi dinamakan market basket analysis domain atribut nominal. Cara dalah teknik binning yaitu berikutnya maka Aturan aturan asosiasi asosiasi juga ingin sering memberikan nominal informasi tersebut dalam bentuk hubungan “if- untuk setiap atribut, kemudian menetapkan then” atau “jika-maka”. Aturan ini dihitung setiap nilai atribut ke dalam salah satu kelas. dari data yang sifatnya probabilistik (Santoso, Misalnya, 2007). Bentuk umum aturan dalam association mendefinisikan kumpulan jika domain kelas atribut numerik mempunyai nilai dari 0 sampai dengan 100, rule adalah : domain tersebut dapat dibagi menjadi empat (X = xi) →(Y = yi) [sup,conf] bin (0..24, 25..49, 50..74, 75..100). Setiap nilai atribut akan dikonversi menjadi atribut dengan : nominal yang berkorespondensi dengan salah X = { x1, x2, . . ., xn}, satu bin. Y = { y1, y2, . . ., ym}, sup = probabilitas bahwa suatu instans dalam C. Analisis Data. Proses menerapkan dataset analisis teknik data data dengan mining dapat pendekatan Analisis pendekatan data machine pembelajaran machine learning X ∪ Y, conf = probabilitas kondisional bahwa instans yang mengandung X juga mengandung Y. dilakukan melalui analisis statistik atau dengan mengandung Association rule merupakan salah satu learning. metode data mining yang menjadi dasar dari dengan berbagai metode data mining lainnya. tahap akan dari analisis asosiasi yang disebut analisis menggunakan tiga teknik, yaitu association pola rules, clustering, dan classification [Nilakant, mining) menarik perhatian banyak peneliti frekuensi tinggi (frequent pattern Jurnal Teknologi Informasi Vol. 4 No. 2 95 untuk menghasilkan algoritma yang efisien. mewakili bagian “jika” dan consequent untuk Penting tidaknya suatu aturan assosiatif dapat mewakili bagian “maka”. Dalam analisis ini, diketahui dengan dua parameter, support antecedent (nilai penunjang) yaitu prosentase kombinasi sekelompok item yang tidak punya hubungan item tersebut. dalam database dan confidence secara bersama (Santoso, 2007). dan consequent adalah (nilai kepastian) yaitu kuatnya hubungan antar Assosiation Rules dapat dimanfaatkan item dalam aturan assosiatif. Analisis asosiasi untuk menemukan kesalahan yang sering didefinisikan suatu proses untuk menemukan terjadi pada saat pebelajar mengerjakan semua aturan assosiatif yang memenuhi syarat latihan soal. Suatu contoh jika pebelajar minimum untuk support (minimum support) melakukan kesalahan X dan Z, maka mereka dan juga syarat minimum untuk confidence (minimum confidence) (Pramudiono, 2007). Ada beberapa algoritma yang sudah dikembangkan mengenai melakukan kesalahan Y, misalnya dengan support 40% dan confidence 55% akan ditulis sebagai aturan asosiasi, X and Z → Y [40%,55%] namun ada satu algoritma klasik yang sering dipakai yaitu algoritma apriori. Ide dasar dari Aturan tersebut dapat dibaca sebagai algoritma ini adalah dengan mengembangkan berikut : dari 40% siswa yang melakukan frequent itemset. Dengan menggunakan satu kesalahan X dan kesalahan Z maka 55% item dan secara rekursif mengembangkan diantaranya melakukan kesalahan Y. frequent itemset dengan dua item, tiga item dan seterusnya hingga frequent itemset dengan semua ukuran. dua item, Assosiation Rules juga dapat menyatakan hubungan antara beberapa atribut yang berbeda, misalnya kesalahan X Untuk mengembangkan frequent set dengan Algoritma dapat menggunakan pada konsep A menimbulkan kesalahan Z pada konsep C, yang ditulis sebagai frequent set item. Alasannya adalah bila set X and A → Z and C satu item tidak melebihi support minimum, maka sembarang ukuran itemset yang lebih besar tidak akan melebihi support minimum tersebut. Secara umum, mengembangkan set dengan fc-item menggunakan frequent set dengan k – 1 item yang dikembangkan dalam langkah sebelumnya. Setiap langkah memerlukan sekali pemeriksaan ke seluruh isi database. Dalam asosiasi terdapat istilah antecedent dan consequent, antecedent untuk Teknik classification bekerja dengan mengelompokkan data berdasarkan data training dan nilai atribut klasifikasi. Aturan pengelompokan tersebut akan untuk klasifikasi data baru digunakan ke dalam kelompok yang ada. Classification dapat direpresentasikan dalam bentuk pohon keputusan (decision tree). Setiap node dalam pohon keputusan menyatakan suatu tes terhadap atribut dataset, Jurnal Teknologi Informasi Vol. 4 No. 2 96 sedangkan setiap cabang menyatakan hasil DAFTAR PUSTAKA dari tes tersebut. Pohon keputusan yang Ayub, Mewati. 2007. “Proses data mining dalam pembelajaran berbanuan komputer”. Vol 2. No. 1. Jurnal Sistem Informasi. Universitas Kristen Maranatha. terbentuk dapat diterjemahkan menjadi sekumpulan aturan dalam bentuk IF condition THEN outcome. KESIMPULAN Education data mining adalah suatu teknik penerapan data mining dalam sistem pembelajaran berbantuan komputer. Pada prosesnya adalah diawali dan diakhiri dengan analisis data. Dalam pengumpulan data, yang mesti didefinisikan adalah suatu interaksi antara pebelajar sistem yang model bertujuan untuk menghasilkan ketetapan data yang harus terekam dari suatu proses pembelajaran yang diamati. Kemudian model interaksi pebelajar-sistem tersebut dapat tersusun atas lapisan untuk beberapa memungkinkan penangkapan data yang lebih kaya. Transformasi data mengubah data mentah menjadi dataset yang siap dilakukan penghitungan selanjutnya (dianalisis). Transformasi dapat dilakukan pada instans dataset Merceron, A., Yacef, K. (2005). Educational Data Mining : a Case Study, http://www.it.usyd.edu.au/~kalina/publis /merceron_yacef_aied0 Nilakant, K. (2004). Application of Data Mining in Constraint Based Intelligent Tutoring System, www.cosc.canterbury.ac.nz/research/rep orts/HonsReps/2004/hons_04 Pramudiono, I., 2007, Algoritma Apriori, http://datamining.japati.net/cgibin/indodm.cgi?bacaarsip&1172210143 Di Pramudiono, I. 2007. Pengantar Data Mining : Menambang Permata Pengetahuan di Gunung Data. http://www.ilmukomputer.org/wpcontent/uploads/2006/08/ikodatamining.zip. maupun pada atribut dari dataset melalui filtrasi ataupun konversi. Sementara itu analisis data hasil pembelajaran dapat dilakukan dengan menerapkan teknik algoritma association rules, classification, dan Han, J. and Kamber, M, 2006, “Data Mining Concepts and Techniques Second Edition”. Morgan Kauffman, San Francisco. dengan pengumpulan data, yang dilanjutkan dengan transformasi data, Davies, and Paul Beynon, 2004, “Database Systems Third Edition”, Palgrave Macmillan, New York. clustering untuk menghasilkan Santosa, Budi, 2007, “Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis”, Graha Ilmu, Yogyakarta. Witten, I. H and Frank, E. 2005. Data Mining : Practical Machine Learning Tools and Techniques Second Edition. Morgan Kauffman : San Francisco pengetahuan yang dapat membantu untuk proses pembelajaran selanjutnya. Jurnal Teknologi Informasi Vol. 4 No. 2 97