1 BAB I PENDAHULUAN 1.1. Latar Belakang Pendidikan merupakan salah satu faktor utama dalam hidup seorang manusia karena faktor ini mampu mengarahkan dan menunjukkan kualitas hidup setiap orang. Namun keberadaan pendidikan di Indonesia yang sudah dicanangkan oleh pemerintah untuk dilaksanakan wajib selama 9 tahun, masih menunjukkan performa siswa yang belum optimal. Hal ini dibuktikan dengan hasil survei yang disajikan pada Tabel 1.1 oleh Programme for International Student Assessment (PISA) tahun 2012 yang menunjukkan bahwa Indonesia berada di peringkat kedua dari bawah, dengan jumlah negara peserta sekitar 65 negara di seluruh dunia (OECD, 2012). Pengukuran survei ini diperoleh berdasarkan tiga aspek kemampuan utama siswa yakni kemampuan matematika (mathematics), membaca (reading) serta ilmu pengetahuan (science). Indonesia berada di posisi lebih rendah dibanding semua negara yang berpartisipasi, kecuali Peru dalam hal matematika dan sains, serta negara ke-lima dari bawah dalam hal membaca. Tabel 1.1. Hasil Survei PISA yang melibatkan 65 negara (OECD, 2012) Peringkat Negara Nilai Rerata Matematika Presentase Presentase nilai rendah nilai tinggi di di Matematika Matematika (Dibawah Level 2) (Level 5/ or 6) Nilai Skor Peruba han tiap tahun Membaca Skor Nilai rerata Skor pada Peruba PISA han 2012 tiap tahun Ilmu Pengetahuan Skor rerata Nilai Skor pada Perubaha PISA n tiap 2012 tahun Shanghai613 3.8 55.4 4.2 570 4.6 580 1.8 China 2. Singapore 573 8.3 40.0 3.8 542 5.4 551 3.3 ..................................................................................................................................................................................................... 64. Indonesia 375 75.7 0.3 0.7 396 2.3 382 -1.9 65. Peru 368 74.6 0.6 1.0 384 5.2 373 1.3 1. 2 Salah satu mata pelajaran yang diajarkan dari sekolah dasar sampai bangku kuliah yang mengandalkan faktor kemampuan membaca adalah Pendidikan Pancasila dan Kewarganegaraan (PPKN). Mata pelajaran ini diajarkan kepada siswa dengan maksud pengembangan nilai dan moral Pancasila sehingga memiliki kesadaran terhadap lingkungan antar warga negara. Berkaitan dengan ini, apabila performa siswa terhadap mata pelajaran ini rendah akibat kemampuan pemahaman dalam membaca yang rendah, akan berimbas pada buruknya moral dan sikap siswa terhadap berbagai norma serta rendahnya kesadaran mencintai tanah air Indonesia. Oleh karenanya, perlu diselidiki lebih mendalam mengenai faktor – faktor yang mempengaruhi rendahnya performa siswa Indonesia dalam belajar, khususnya membaca. Faktor yang mempengaruhi performa akademik siswa bisa saja berdasarkan faktor – faktor yang berbeda seperti kepribadian, sosial, psikologi dan variabel lingkungan lainnya (Bhardwaj, 2011). PISA juga menelusuri mengenai jumlah jam belajar siswa Indonesia di dalam kelas sangatlah sedikit. Contoh sederhananya adalah siswa kelas 1 dan 2 Sekolah Dasar (SD) di Indonesia hanya menghabiskan waktu tiga jam sehari di sekolah, sehingga hanya belajar selama 555 jam, dibanding dengan negara lain yang berpartisipasi dalam survei PISA ini yang umumnya belajar sekitar 787 jam setahun (Al-Samarrai, 2014). Sama halnya dengan waktu belajar di luar kelas sekolah. Hanya setengah dari murid Indonesia mengikuti bimbingan belajar di luar jam sekolah, masih terhitung rendah bila dibandingkan dengan negara – negara Asia Timur. Hal tersebut diikuti pula dengan sebuah survei yang mengatakan bahwa siswa Indonesia adalah siswa yang 3 paling bahagia ketika di sekolah seperti yang terlihat pada Gambar 1.1. Alasannya cukup sederhana, karena waktu belajar serta tuntutan untuk belajar tidak seberat apabila dibandingkan dengan negara lainnya. Gambar 1.1. Presentase tingkat kebahagiaan siswa di sebagian negara dari 65 peserta (OECD, 2012) Salah satu langkah yang menjanjikan untuk implementasi prediksi faktor performa akademik siswa ini adalah data mining. Dalam bidang pendidikan, Educational Data Mining (EDM) serta analisis pembelajaran memiliki potensi untuk membuat data menjadi tampak yang biasanya kasat, tidak diperhatikan bahkan tidak berguna (Bienkowski, Feng, dan Means, 2012). EDM akan bekerja optimal dengan mengimplementasikan berbagai teknik, salah satu yang paling populer adalah teknik klasifikasi. Banyak faktor yang mempengaruhi baik buruknya performa siswa dalam belajar, termasuk dalam membaca. Faktor yang memungkinkan adalah kebiasaan belajar siswa itu sendiri atau bahkan faktor keluarga. Prediksi faktor yang mempengaruhi performa akademik siswa sekolah dapat diimplementasi dengan teknik klasifikasi. 4 Walaupun teknik klasifikasi memiliki berbagai macam jenisnya, namun tidak semua klasifikasi bekerja optimal jika bekerja dalam dataset yang kecil. Jumlah siswa pada suatu kelas atau bahkan satu angkatan di Indonesia biasanya berjumlah kurang dari 100, oleh karenanya data yang digunakan merupakan dataset kecil. Langkah yang tepat untuk mengatasi proses data mining yang melibatkan data set kecil ini, Andonie (2010) menyarankan sebuah kemungkinan untuk guru apabila mereka ingin mengeksplorasi apakah sebuah pembelajaran akan sukses dipahami oleh siswanya, yaitu dengan menggunakan tool data mining yang sudah tersedia saja. Kabakchieva (2013) mengungkapkan bahwa variabel target dalam proses klasifikasi performa akademik mahasiswa di sebuah universitas dibuat berdasarkan parameter numerik rerata nilai mahasiswa, apabila 3,50 – 4,00 berarti istimewa, jika 3,00 – 3,50 adalah sangat baik, 2,50 – 3,00 berarti baik, 2,00 – 2,50 berarti rerata dan < 2,50 berarti sangat buruk. Namun nilai untuk sekolah menengah di Indonesia yang menggunakan Kurikulum Tingkat Satuan Pendidikan (KTSP) 2006 tidak mengimplementasikan nilai kategori seperti di univeritas, sehingga akan menimbulkan permasalahan dalam pengolahan kategori data. Pada penelitian Natek & Zwiling (2013) memperoleh hasil bahwa pengklasifikasi yang teruji baik pada dataset kecil yang dibuat dan melibatkan 106 siswa adalah REPTree, dibandingkan dengan J48 dan M5P. Sedangkan pada penelitian sejenis yang dieksekusi oleh Garcias (2011) memperoleh hasil bahwa pengklasifikasi Naive Bayes lebih baik untuk menangani data set kecil (65 siswa) dibandingkan metode lain seperi J48, OneRule dan sebagainya. Namun pada dua 5 penelitian ini tidak menyertakan dan menyebutkan proses penyeleksian atribut (attribute selection) di tahap preprocess untuk mengetahui dan menyaring atribut manakah yang memiliki tingkat pengaruh yang tinggi maupun rendah, dimana nantinya berperan penting pada keakurasian hasil proses klasifikasi. Di sisi lain; Gansterer, Janecek, Ecker dan Demei (2008) meneliti mengenai hubungan antara pemilihan fitur atribut (feature selection) dan keakurasian pengklasifikasi. Dengan mengimplementasikan Feature Selection (FR) yakni Information Gain serta Dimensionality Reduction (DR) yakni dengan memanfaatkan PCA (Principal Component Analysis) pada dataset berukuran kecil 249 data mengenai identifikasi pemilihan obat. Penelitian ini menghasilkan bahwa pengklasifikasi seperti SVM, kNN, J48 dan JRip akan menghasilkan keakurasian yang bervariasi karena sangat bergantung dengan jenis preprocessing yang diperolehnya, serta metode pemilihan fitur (feature selection) memiliki peranan yang sangat penting. Mengacu pada penelitian tersebut, evaluator Information Gain kurang akurat apabila dibandingkan dengan Gain Ratio. Menurut Harris (2001), Gain Ratio dapat menormalisasi Information Gain sehingga dapat menangani pohon (tree) yang tidak rata (uneven). Pemilihan fitur juga dapat melibatkan pemilihan subset terbaik. Subset merupakan kombinasi bagian dari sebuah dataset. Menurut hasil dari penelitian Karegowda, Manjunath dan Jayaram (2010) menyatakan bahwa kombinasi antara evaluator seleksi subset wrapper menghasilkan akurasi yang tinggi ketika dikombinasikan dengan metode Naive Bayes, dibandingkan dengan metode Bayesian, C4.5 dan RBF. Metode wrapper dibagi menjadi dua metode dalam 6 Weka yakni ClassifierSubsetEval dan WrapperSubsetEval. Metode ClassifierSubsetEval bekerja dengan menggunakan sebuah classifier untuk mengestimasi keakurasian dan kinerja dari sekumpulan atribut (Wu, 2014). Selain pemilihan fitur, terdapat satu hal lagi yang tidak disampaikan dalam penelitian – penelitian sebelumnya, yaitu penggunaan sistem valdasi. Validasi merupakan suatu proses untuk menilai seberapa baik performa model data mining terhadap data yang sebenarnya (Microsoft, 2015). Validasi yang tepat untuk data yang terbatas, Witten dan Frank (2012) mengungkapkan bahwa validasi cross validation baik untuk dataset kecil dibandingkan validasi holdout. Oleh karena itu, penelitian ini mengajukan penggunaan dua pengklasifikasi yakni REPTree dan Naive Bayes. Namun sebelumnya, ditambahkan proses seleksi fitur berupa penyeleksian subset maupun atribut serta proses pereduksian dimensi atribut. Selanjutnya seluruh atribut hasil seleksi fitur akan divalidasi menggunakan dua jenis validasi yakni holdout maupun crossvalidation. Keluaran dari penelitian ini memperoleh perhitungan dari Weka yang menunjukkan seberapa benar instance yang terklasifikasi (Correctly Classified Instance) sebagai parameter keakuratan dari dua metode klasifikasi. Sehingga nantinya diikuti dengan faktor – faktor yang mempengaruhi performa siswa. 1.2. 1. Rumusan Masalah KTSP 2006 yang digunakan di sekolah menengah di Indonesia, tidak memiliki sistem Indeks Prestasi seperti di perguruan tinggi, sehingga nilai akhir siswa tidak berkategori. 7 2. Dataset pendidikan yang diperoleh memiliki kemungkinan tidak lengkap, tidak seragam formatnya serta tidak valid. Selain itu, tidak semua atribut berpengaruh pada tinggi rendahnya performa akademik siswa. 3. Belum diketahuinya perbandingan keakuratan antar pengklasifikasi yang diuji pada dataset kecil yang terbentuk dari penelitian ini. 4. Seberapa baik kinerja antar metode penyeleksian fitur serta perbandingan kinerja validasi cross-validation maupun holdout untuk dataset kecil. 1.3. 1. Tujuan Penelitian Menentukan variabel parameter pembanding, yang berupa nilai akhir, sehingga menjadi bentuk yang terkategori. 2. Menganalisis kinerja preprocessing data untuk pengolahan data menjadi ‘bersih’ dan meminimalisir tingkat error. 3. Mengetahui pengklasifikasi manakah yang bekerja lebih akurat dalam proses data mining peningkatan performa akademik siswa. 4. Mengetahui faktor manakah yang mempengaruhi performa siswa dalam belajar, apakah faktor keadaan kelas, faktor genetik, faktor lingkungan keluarga atau bahkan faktor kebiasaan belajar siswa dari tiap pengklasifikasi yang diuji. 5. Menganalisis kinerja masing – masing evaluator seleksi fitur serta sistem validasi untuk dataset kecil, sehingga dapat membuktikan teori tentang cross-validation yang lebih baik untuk dataset kecil. 8 1.4. Manfaat Penelitian Penelitian ini diharapkan dapat memberikan manfaat dalam proses prediksi performa belajar siswa di Indonesia. Dengan diketahuinya teknik klasifikasi yang bekerja lebih baik pada dataset di penelitian ini serta faktor apa saja yang mempengaruhi performa akademik siswa, sehingga diharapkan seluruh aparatur pendidikan serta pemerintah dapat memanfaatkan cara yang sama untuk proses pencegahan performa siswa yang lebih buruk nantinya. Terlebih lagi, penelitian ini diharapkan dapat bermanfaat dalam perbaikan kualitas pendidikan di Indonesia. 1.5. Batasan Masalah Penelitian ini akan menggunakan dataset siswa yang diambil di salah Sekolah Menengah Pertama (SMP) Muhammadiyah 2 Depok, Sleman yang duduk di bangku kelas 9. Batasan selanjutnya adalah penelitian ini hanya mengamati salah satu mata pelajaran yang berkaitan dengan faktor kemampuan membaca, yaitu Pendidikan Pancasila dan Kewarganegaraan (PPKN), dengan menggunakan parameter pembanding yaitu nilai akhir mata pelajaran tesebut. Nilai akhir ini diperoleh dari proses kalkulasi rerata nilai tugas harian, nilai ulangan harian serta nilai ujian tengah maupun akhir semester siswa, serta kebijakan guru. Faktor kebijakan guru inilah yang mempengaruhi nilai subyektif guru terhadap siswanya, baik dari tata perilaku dan kepribadian siswa tersebut di kegiatan akademik maupun non-akademik sekolah. 9 1.6. Sistematika Penulisan BAB I : PENDAHULUAN Bab ini berisi mengenai latar belakang penelitian, rumusan masalah, tujuan dan manfaat penelitian, batasan masalah serta sistematika penulisan hasil penelitian. BAB II : TINJAUAN PUSTAKA DAN DASAR TEORI Bab ini menjelaskan mengenai berbagai tinjauan penelitian terdahulu serta teori - teori yang dijadikan sebagai dasar acuan dan parameter dalam pengerjaan penelitian.. BAB III : METODE PENELITIAN Bab ini menjelaskan mengenai metode yang digunakan dalam penelitian berupa langkah kerja, alat dan bahan serta alur penelitian. BAB IV : HASIL DAN PEMBAHASAN Bab ini berisi mengenai pemaparan dan pembahasan hasil penelitian. BAB V : KESIMPULAN DAN SARAN Bab ini berisi mengenai kesimpulan dan saran dari penelitian.