analisis perbandingan metodologi data mining serta

advertisement
1
BAB I
PENDAHULUAN
1.1.
Latar Belakang
Pendidikan merupakan salah satu faktor utama dalam hidup seorang
manusia karena faktor ini mampu mengarahkan dan menunjukkan kualitas hidup
setiap orang. Namun keberadaan pendidikan di Indonesia yang sudah dicanangkan
oleh pemerintah untuk dilaksanakan wajib selama 9 tahun, masih menunjukkan
performa siswa yang belum optimal. Hal ini dibuktikan dengan hasil survei yang
disajikan pada Tabel 1.1 oleh Programme for International Student Assessment
(PISA) tahun 2012 yang menunjukkan bahwa Indonesia berada di peringkat kedua
dari bawah, dengan jumlah negara peserta sekitar 65 negara di seluruh dunia
(OECD, 2012). Pengukuran survei ini diperoleh berdasarkan tiga aspek
kemampuan utama siswa yakni kemampuan matematika (mathematics), membaca
(reading) serta ilmu pengetahuan (science). Indonesia berada di posisi lebih
rendah dibanding semua negara yang berpartisipasi, kecuali Peru dalam hal
matematika dan sains, serta negara ke-lima dari bawah dalam hal membaca.
Tabel 1.1. Hasil Survei PISA yang melibatkan 65 negara (OECD, 2012)
Peringkat
Negara
Nilai
Rerata
Matematika
Presentase
Presentase
nilai rendah
nilai tinggi
di
di
Matematika
Matematika
(Dibawah
Level 2)
(Level 5/ or
6)
Nilai
Skor
Peruba
han
tiap
tahun
Membaca
Skor
Nilai
rerata
Skor
pada
Peruba
PISA
han
2012
tiap
tahun
Ilmu Pengetahuan
Skor
rerata
Nilai Skor
pada
Perubaha
PISA
n tiap
2012
tahun
Shanghai613
3.8
55.4
4.2
570
4.6
580
1.8
China
2.
Singapore
573
8.3
40.0
3.8
542
5.4
551
3.3
.....................................................................................................................................................................................................
64.
Indonesia
375
75.7
0.3
0.7
396
2.3
382
-1.9
65.
Peru
368
74.6
0.6
1.0
384
5.2
373
1.3
1.
2
Salah satu mata pelajaran yang diajarkan dari sekolah dasar sampai bangku
kuliah yang mengandalkan faktor kemampuan membaca adalah Pendidikan
Pancasila dan Kewarganegaraan (PPKN). Mata pelajaran ini diajarkan kepada
siswa dengan maksud pengembangan nilai dan moral Pancasila sehingga memiliki
kesadaran terhadap lingkungan antar warga negara. Berkaitan dengan ini, apabila
performa siswa terhadap mata pelajaran ini rendah akibat kemampuan
pemahaman dalam membaca yang rendah, akan berimbas pada buruknya moral
dan sikap siswa terhadap berbagai norma serta rendahnya kesadaran mencintai
tanah air Indonesia. Oleh karenanya, perlu diselidiki lebih mendalam mengenai
faktor – faktor yang mempengaruhi rendahnya performa siswa Indonesia dalam
belajar, khususnya membaca.
Faktor yang mempengaruhi performa akademik siswa bisa saja
berdasarkan faktor – faktor yang berbeda seperti kepribadian, sosial, psikologi dan
variabel lingkungan lainnya (Bhardwaj, 2011). PISA juga menelusuri mengenai
jumlah jam belajar siswa Indonesia di dalam kelas sangatlah sedikit. Contoh
sederhananya adalah siswa kelas 1 dan 2 Sekolah Dasar (SD) di Indonesia hanya
menghabiskan waktu tiga jam sehari di sekolah, sehingga hanya belajar selama
555 jam, dibanding dengan negara lain yang berpartisipasi dalam survei PISA ini
yang umumnya belajar sekitar 787 jam setahun (Al-Samarrai, 2014). Sama halnya
dengan waktu belajar di luar kelas sekolah. Hanya setengah dari murid Indonesia
mengikuti bimbingan belajar di luar jam sekolah, masih terhitung rendah bila
dibandingkan dengan negara – negara Asia Timur. Hal tersebut diikuti pula
dengan sebuah survei yang mengatakan bahwa siswa Indonesia adalah siswa yang
3
paling bahagia ketika di sekolah seperti yang terlihat pada Gambar 1.1. Alasannya
cukup sederhana, karena waktu belajar serta tuntutan untuk belajar tidak seberat
apabila dibandingkan dengan negara lainnya.
Gambar 1.1. Presentase tingkat kebahagiaan siswa di sebagian negara dari 65
peserta (OECD, 2012)
Salah satu langkah yang menjanjikan untuk implementasi prediksi faktor
performa akademik siswa ini adalah data mining. Dalam bidang pendidikan,
Educational Data Mining (EDM) serta analisis pembelajaran memiliki potensi
untuk membuat data menjadi tampak yang biasanya kasat, tidak diperhatikan
bahkan tidak berguna (Bienkowski, Feng, dan Means, 2012). EDM akan bekerja
optimal dengan mengimplementasikan berbagai teknik, salah satu yang paling
populer adalah teknik klasifikasi. Banyak faktor yang mempengaruhi baik
buruknya performa siswa dalam belajar, termasuk dalam membaca. Faktor yang
memungkinkan adalah kebiasaan belajar siswa itu sendiri atau bahkan faktor
keluarga. Prediksi faktor yang mempengaruhi performa akademik siswa sekolah
dapat diimplementasi dengan teknik klasifikasi.
4
Walaupun teknik klasifikasi memiliki berbagai macam jenisnya, namun
tidak semua klasifikasi bekerja optimal jika bekerja dalam dataset yang kecil.
Jumlah siswa pada suatu kelas atau bahkan satu angkatan di Indonesia biasanya
berjumlah kurang dari 100, oleh karenanya data yang digunakan merupakan
dataset kecil. Langkah yang tepat untuk mengatasi proses data mining yang
melibatkan data set kecil ini, Andonie (2010) menyarankan sebuah kemungkinan
untuk guru apabila mereka ingin mengeksplorasi apakah sebuah pembelajaran
akan sukses dipahami oleh siswanya, yaitu dengan menggunakan tool data mining
yang sudah tersedia saja.
Kabakchieva (2013) mengungkapkan bahwa variabel target dalam proses
klasifikasi performa akademik mahasiswa di sebuah universitas dibuat
berdasarkan parameter numerik rerata nilai mahasiswa, apabila 3,50 – 4,00 berarti
istimewa, jika 3,00 – 3,50 adalah sangat baik, 2,50 – 3,00 berarti baik, 2,00 – 2,50
berarti rerata dan < 2,50 berarti sangat buruk. Namun nilai untuk sekolah
menengah di Indonesia yang menggunakan Kurikulum Tingkat Satuan Pendidikan
(KTSP) 2006 tidak mengimplementasikan nilai kategori seperti di univeritas,
sehingga akan menimbulkan permasalahan dalam pengolahan kategori data.
Pada penelitian Natek & Zwiling (2013) memperoleh hasil bahwa
pengklasifikasi yang teruji baik pada dataset kecil yang dibuat dan melibatkan 106
siswa adalah REPTree, dibandingkan dengan J48 dan M5P. Sedangkan pada
penelitian sejenis yang dieksekusi oleh Garcias (2011) memperoleh hasil bahwa
pengklasifikasi Naive Bayes lebih baik untuk menangani data set kecil (65 siswa)
dibandingkan metode lain seperi J48, OneRule dan sebagainya. Namun pada dua
5
penelitian ini tidak menyertakan dan menyebutkan proses penyeleksian atribut
(attribute selection) di tahap preprocess untuk mengetahui dan menyaring atribut
manakah yang memiliki tingkat pengaruh yang tinggi maupun rendah, dimana
nantinya berperan penting pada keakurasian hasil proses klasifikasi.
Di sisi lain; Gansterer, Janecek, Ecker dan Demei (2008) meneliti
mengenai hubungan antara pemilihan fitur atribut (feature selection) dan
keakurasian pengklasifikasi. Dengan mengimplementasikan Feature Selection
(FR) yakni Information Gain serta Dimensionality Reduction (DR) yakni dengan
memanfaatkan PCA (Principal Component Analysis) pada dataset berukuran kecil
249 data mengenai identifikasi pemilihan obat. Penelitian ini menghasilkan bahwa
pengklasifikasi seperti SVM, kNN, J48 dan JRip akan menghasilkan keakurasian
yang bervariasi karena sangat bergantung dengan jenis preprocessing yang
diperolehnya, serta metode pemilihan fitur (feature selection) memiliki peranan
yang sangat penting. Mengacu pada penelitian tersebut, evaluator Information
Gain kurang akurat apabila dibandingkan dengan Gain Ratio. Menurut Harris
(2001), Gain Ratio dapat menormalisasi Information Gain sehingga dapat
menangani pohon (tree) yang tidak rata (uneven).
Pemilihan fitur juga dapat melibatkan pemilihan subset terbaik. Subset
merupakan kombinasi bagian dari sebuah dataset. Menurut hasil dari penelitian
Karegowda, Manjunath dan Jayaram (2010) menyatakan bahwa kombinasi antara
evaluator seleksi subset wrapper menghasilkan akurasi yang tinggi ketika
dikombinasikan dengan metode Naive Bayes, dibandingkan dengan metode
Bayesian, C4.5 dan RBF. Metode wrapper dibagi menjadi dua metode dalam
6
Weka
yakni
ClassifierSubsetEval
dan
WrapperSubsetEval.
Metode
ClassifierSubsetEval bekerja dengan menggunakan sebuah classifier untuk
mengestimasi keakurasian dan kinerja dari sekumpulan atribut (Wu, 2014).
Selain pemilihan fitur, terdapat satu hal lagi yang tidak disampaikan dalam
penelitian – penelitian sebelumnya, yaitu penggunaan sistem valdasi. Validasi
merupakan suatu proses untuk menilai seberapa baik performa model data mining
terhadap data yang sebenarnya (Microsoft, 2015). Validasi yang tepat untuk data
yang terbatas, Witten dan Frank (2012) mengungkapkan bahwa validasi cross
validation baik untuk dataset kecil dibandingkan validasi holdout.
Oleh
karena
itu,
penelitian
ini
mengajukan
penggunaan
dua
pengklasifikasi yakni REPTree dan Naive Bayes. Namun sebelumnya,
ditambahkan proses seleksi fitur berupa penyeleksian subset maupun atribut serta
proses pereduksian dimensi atribut. Selanjutnya seluruh atribut hasil seleksi fitur
akan divalidasi menggunakan dua jenis validasi yakni holdout maupun crossvalidation. Keluaran dari penelitian ini memperoleh perhitungan dari Weka yang
menunjukkan seberapa benar instance yang terklasifikasi (Correctly Classified
Instance) sebagai parameter keakuratan dari dua metode klasifikasi. Sehingga
nantinya diikuti dengan faktor – faktor yang mempengaruhi performa siswa.
1.2.
1.
Rumusan Masalah
KTSP 2006 yang digunakan di sekolah menengah di Indonesia, tidak
memiliki sistem Indeks Prestasi seperti di perguruan tinggi, sehingga nilai
akhir siswa tidak berkategori.
7
2.
Dataset pendidikan yang diperoleh memiliki kemungkinan tidak lengkap,
tidak seragam formatnya serta tidak valid. Selain itu, tidak semua atribut
berpengaruh pada tinggi rendahnya performa akademik siswa.
3.
Belum diketahuinya perbandingan keakuratan antar pengklasifikasi yang
diuji pada dataset kecil yang terbentuk dari penelitian ini.
4.
Seberapa baik kinerja antar metode penyeleksian fitur serta perbandingan
kinerja validasi cross-validation maupun holdout untuk dataset kecil.
1.3.
1.
Tujuan Penelitian
Menentukan variabel parameter pembanding, yang berupa nilai akhir,
sehingga menjadi bentuk yang terkategori.
2.
Menganalisis kinerja preprocessing data untuk pengolahan data menjadi
‘bersih’ dan meminimalisir tingkat error.
3.
Mengetahui pengklasifikasi manakah yang bekerja lebih akurat dalam
proses data mining peningkatan performa akademik siswa.
4.
Mengetahui faktor manakah yang mempengaruhi performa siswa dalam
belajar, apakah faktor keadaan kelas, faktor genetik, faktor lingkungan
keluarga atau bahkan faktor kebiasaan belajar siswa dari tiap pengklasifikasi
yang diuji.
5.
Menganalisis kinerja masing – masing evaluator seleksi fitur serta sistem
validasi untuk dataset kecil, sehingga dapat membuktikan teori tentang
cross-validation yang lebih baik untuk dataset kecil.
8
1.4.
Manfaat Penelitian
Penelitian ini diharapkan dapat memberikan manfaat dalam proses prediksi
performa belajar siswa di Indonesia. Dengan diketahuinya teknik klasifikasi yang
bekerja lebih baik pada dataset di penelitian ini serta faktor apa saja yang
mempengaruhi performa akademik siswa, sehingga diharapkan seluruh aparatur
pendidikan serta pemerintah dapat memanfaatkan cara yang sama untuk proses
pencegahan performa siswa yang lebih buruk nantinya. Terlebih lagi, penelitian
ini diharapkan dapat bermanfaat dalam perbaikan kualitas pendidikan di
Indonesia.
1.5.
Batasan Masalah
Penelitian ini akan menggunakan dataset siswa yang diambil di salah
Sekolah Menengah Pertama (SMP) Muhammadiyah 2 Depok, Sleman yang duduk
di bangku kelas 9. Batasan selanjutnya adalah penelitian ini hanya mengamati
salah satu mata pelajaran yang berkaitan dengan faktor kemampuan membaca,
yaitu Pendidikan Pancasila dan Kewarganegaraan (PPKN), dengan menggunakan
parameter pembanding yaitu nilai akhir mata pelajaran tesebut. Nilai akhir ini
diperoleh dari proses kalkulasi rerata nilai tugas harian, nilai ulangan harian serta
nilai ujian tengah maupun akhir semester siswa, serta kebijakan guru. Faktor
kebijakan guru inilah yang mempengaruhi nilai subyektif guru terhadap siswanya,
baik dari tata perilaku dan kepribadian siswa tersebut di kegiatan akademik
maupun non-akademik sekolah.
9
1.6.
Sistematika Penulisan
BAB I : PENDAHULUAN
Bab ini berisi mengenai latar belakang penelitian, rumusan masalah, tujuan
dan manfaat penelitian, batasan masalah serta sistematika penulisan hasil
penelitian.
BAB II : TINJAUAN PUSTAKA DAN DASAR TEORI
Bab ini menjelaskan mengenai berbagai tinjauan penelitian terdahulu serta
teori - teori yang dijadikan sebagai dasar acuan dan parameter dalam
pengerjaan penelitian..
BAB III : METODE PENELITIAN
Bab ini menjelaskan mengenai metode yang digunakan dalam penelitian
berupa langkah kerja, alat dan bahan serta alur penelitian.
BAB IV : HASIL DAN PEMBAHASAN
Bab ini berisi mengenai pemaparan dan pembahasan hasil penelitian.
BAB V : KESIMPULAN DAN SARAN
Bab ini berisi mengenai kesimpulan dan saran dari penelitian.
Download