PROSIDING ISSN: 2502-6526 PM-19 PREDIKSI PERFORMA AKADEMIK SISWA PADA PELAJARAN MATEMATIKA MENGGUNAKAN BAYESIAN NETWORKS DAN ALGORITMA KLASIFIKASI MACHINE LEARNING Betha Nurina Sari Teknik Informatika, Fakultas Ilmu Komputer, Universitas Singaperbangsa Karawang [email protected] Abstrak Mengidentifikasi data yang relevan agar bisa memprediksi performa akademik siswa merupakan hal yang menarik untuk diteliti. Penelitian ini menggunakan data akademik dan personal siswa menengah pada nilai mata pelajaran matematika di Portugal. Tujuan penelitian ini adalah mempelajari bagaimana Bayesian Networks diterapkan agar dapat menentukan keterkaitan antar variabel dan mengetahui variabel apa saja yang berpengaruh, lalu digunakan sebagai teknik seleksi fitur. Struktur graf Bayesian Networks yang divisualisasikan menggunakan software CaMML versi 1.4.1 dan package J-API. Algoritma klasifikasi machine learning yang diterapkan di antaranya Random Forest, MLP, SVM, dan Naïve Bayes. Evaluasi prediksi dilakukan dengan membandingkan akurasi sebelum dan sesudah melalui pemodelan struktur graf Bayesian Networks. Terdapat sebelas struktur Graf Bayesian Networks yang terbentuk dari eksperimen tahap pertama dan digunakan untuk langkah menyeleksi variabel yang relevan. Eksperimen tahap kedua menggunakan 10 fold cross validation menunjukkan bahwa model dari struktur graf Bayesian Networks dapat meningkatkan performa algoritma klasifikasi machine learning dalam memprediksi performa akademik siswa.Hasil penelitian ini juga menunjukkan ada 25 variabel yang efektif untuk memprediksi perfoma akademik siswa pada mata pelajaran matematika Kata Kunci: bayesian networks, klasifikasi, performa akademik siswa, prediksi, 1. PENDAHULUAN Mengidentifikasi data yang relevan agar bisa memprediksi performa siswa merupakan hal yang menarik untuk diteliti. Dalam proses discovering knowledge, mengidentifikasi data yang relevan tersebut berguna untuk basis model klasifikasi atau prediksi (Transition, Osmanbegović, & Suljić, 2014). Penelitian ini menggunakan data akademik dan personal siswa menengah pada nilai mata pelajaran matematika di Portugal. Tujuan penelitian ini adalah mempelajari bagaimana bayesian networks diterapkan agar dapat menentukan keterkaitan antar variabel dan mengetahui variabel apa saja yang berpengaruh, lalu digunakan sebagai teknik seleksi fitur. Selanjutnya variabel yang relevan dipilih untuk digunakan prediksi performa akademik siswa dalam mata pelajaran matematika dengan algoritma klasifikasi machine learning. Topik penelitian tentang prediksi performa akademik siswa pada mata pelajaran matematika sebelumnya dilakukan oleh Paulo Cortez dan Alice Silva dengan beberapa teknik klasifikasi machine learning (Cortez, Silva, Trees, & Forest, 2008). Pada penelitian tersebut dilakukan komparasi akurasi prediksi pada tiga pola eksperimen, peneliti memberikan saran untuk menerapkan Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 397 PROSIDING ISSN: 2502-6526 teknik seleksi fitur untuk menyeleksi variabel yang relevan sehingga bisa meningkatkan perfoma akurasi prediksi. Pada penelitian sebelumnya, prediksi performa akademik siswa pada mata pelaajaran matematika telah dilakukan dengan penerapan teknik seleksi fitur Information Gain dan algoritma klasifikasi machine learning. Hasil penelitian menunjukkan bahwa dengan 10 variabel yang terseleksi melalui teknik seleksi Information Gain terbukti dapat meningkatkan tingkat akurasi prediksi algoritma klasifikasi machine learning (Sari, 2016). Ramaswami dan Rathinasabapthu menerapkan tiga teknik seleksi fitur dan metode bayesian networks untuk memprediksi performa akademik siswa (Ramaswami & Rathinasabapathy, 2012). Beberapa algoritma klasifikasi machine learning juga diterapkan Ramesh dkk untuk meneliti variabel apa saja yang relevan yang berhubungan dengan performa hasil ujian akhir siswa dengan terlebih dahulu menerapkan lima teknik seleksi fitur (Ramesh et al., 2013). Bayesian Networks (BN) merupakan representasi grafis dari distribusi probabilitas, yaitu berupa Directed Acyclic Graph (DAG) yang terdiri dari satu set node untuk mewakili variabel dan satu set link diarahkan untuk menghubungkan pasang node. Setiap node memiliki distribusi probabilitas bersyarat yang mengkuantifikasi hubungan probabilistik antara node dan induknya (Aminian et al., 2014). Bayesian networks menerapkan sifat Markov dimana dapat secara eksplisit menunjukkan independen bersyarat dalam distribusi probabilitas. Independen bersyarat seperti AC|B menunjukkan bahwa nilai B menghalangi informasi tentang C yang relevan dari A. Konsep ini tidak hanya berlaku pada sepasang node, tapi juga untuk sekumpulan node. Untuk dapat menentukan apakah suatu node independen terhadap node yang lain digunakan algoritma dseparation. D-separation dapat mengidentifikasi hubungan independen bersyarat yang terdapat pada graf, yaitu di mana antara node X dan node Y yang dipisahkan di dalam graf G dan diberikan node Z, dan tidak ada jalur aktif antara setiap node X dan node Y di dalam graf G tersebut. D-separation dinotasikan sebagai berikut : d-sepG (X;Y|Z) jika tidak ada jalur aktif antara node X ∈ G dan node Y∈ G di dalam graf G (Korb & Nicholson, 2011). Hubungan antar node dalam graf bayesian networks dibagi menjadi dua macam, yaitu hubungan langsung dan hubungan tidak langsung. Hubungan langsung adalah ketika node X dan node Y langsung berhubungan melalui anak panah, X Y. Pada gambar 1 ditunjukkan contoh hubungan langsung antara node X dan node Y. Gambar 1. Hubungan Langsung antara node X dan node Y Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 398 PROSIDING ISSN: 2502-6526 Sedangkan hubungan tidak langsung antar node adalah saat node X dan node Y tidak langsung terhubung, tetapi ada jalur yang menghubungkan antara kedua node tersebut dalam graf. Ada empat macam keadaan yang termasuk dalam hubungan tidak langsung (Koller & Friedman, 2009) : a. Indiret causal effect atau efek sebab akibat tidak langsung, yaitu saat ada jalur aktif yang menghubungkan dari node X menuju node Y, tetapi ada node Z di antara kedua node tersebut. Kondisi dapat dikatakan ada jalur aktif ketika node Z belum diketahui nilai datanya, sebaliknya jika node Z sudah diketahui nilai datanya maka jalur antara node X dan node Y terhalangi. b. Indiret evidential effect atau efek penting tidak langsung, yaitu saat ada jalur aktif yang menghubungkan dari node Y menuju node X, tetapi ada node Z di antara kedua node tersebut. Kondisi dapat dikatakan ada jalur aktif ketika node Z belum diketahui nilai datanya, sebaliknya jika node Z sudah diketahui nilai datanya maka jalur antara node X dan node Y terhalangi. c. Common cause atau sebab umum, yaitu saat ada jalur aktif dari node Z yang menghubungkan ke node X dan node Y. Kondisi dapat dikatakan ada jalur aktif jika node Z belum diketahui nilai datanya, sebaliknya jika node Z sudah diketahui nilai datanya maka jalur antara node X dan node Y terhalangi. d. Common effect atau efek umum, yaitu saat ada jalur dari node X dan node Y yang mengarah ke node Z, sebagai indikasi bahwa kedua node dapat mempengaruhi nilai dari node Z. Berbeda dengan 3 kondisi sebelumnya, kondisi pada jenis ini dapat dikatakan aktif jika nilai pada node Z sudah diketahui dan dikatakan tidak jalur aktif jika node Z belum diketahui nilai nilainya. Berikut ini adalah gambar dari hubungan tidak langsung antara node X dan node Y. Gambar 2. Hubungan tidak langsung antara node X dan node Y Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 399 PROSIDING ISSN: 2502-6526 Karl W Kuschner menerapkan pendekatan bayesian networks untuk teknik seleksi fitur pada data mass spectrometry. Graf bayesian networks bisa mengorganisasi hubungan antar fitur atau atribut dan selanjutnya bisa digunakan untuk metode klasifikasi yang stabil. Graf bayesian networks menyediakan informasi tambahan tentang hubungan antar fitur yang sangat berguna untuk analisis (Kuschner et al., 2010) . Graf bayesian networks pada penelitian ini diterapkan untuk teknik seleksi fitur ditujukan untuk meningkatkan akurasi prediksi pada algoritma klasifikasi machine learning. 2. METODE PENELITIAN Pada penelitian ini, data yang digunakan adalah data akademik dan personal siswa menengah pada nilai mata pelajaran matematika di Portugal. Dataset ini dikumpulkan oleh Paulo Cortez dan Alice Silva selama 2005-2006 dari dua sekolah umum melalui berkas laporan sekolah dan pengisian kuisioner. Dataset terdiri dari 395 data sampel dengan 33 variabel untuk evaluasi performa akademik siswa pada mata pelajaran matematika. Penelitian ini sebagai tahap awal pengujian terkait teknik bayesian networks bisa digunakan untuk studi kasus prediksi perfoma akademik siswa pada mata pelajaran matematika. Prosedur atau langkah penelitian yang dilakukan pada penelitian ini terdiri dari 4 tahap, yaitu tahap pra pemrosesan data, implementasi metode bayesian networks, tahap klasifikasi dengan menggunakan algoritma klasifikasi machine learning, lalu tahap evaluasi. Adapun prosedur atau langkah penelitian yang dilakukan dapat dilihat pada Gambar 3. Gambar 3. Prosedur/langkah penelitian Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 400 PROSIDING ISSN: 2502-6526 Tahap pra pemrosesan data dilakukan dengan melakukan transformasi data menjadi data kategori numerik. Dataset yang digunakan dalam penelitian ini berisi beberapa variabel dengan data kategori dalam bentuk string, dan beberapa variabel dengan data numerik kontinyu. Agar bisa dilanjutkan menuju fase pembentukan struktur graf bayesian networks maka dilakukan fase transformasi data. Variabel dengan data kontinyu dihitung nilai rata-ratanya, lalu dijadikan batas untuk mengkategorikan. Apabila data numerik kontinyu di bawah rata-rata maka diubah menjadi kategori 1, sedangkan data numerik kontinyu di atas rata-rata maka diubah menjadi kategori 2. Untuk variabel target hasil performa akademik pada mata pelajaran matematika dikategorikan menjadi dua (binary classification) yaitu lulus jika G3 ≥ 10 dan gagal jika G3 < 10. Tahap implementasi metode dalam penelitian ini terdiri dalam dua tahap metode, yaitu implementasi metode bayesian networks dan proses klasifikasi dengan algoritma klasifikasi machine learning. Eksperimen dengan metode bayesian networks menggunakan Causal discovery via MML (CaMML) untuk membentuk struktur graf bayesian networks. Struktur graf bayesian networks yang divisualisasikan menggunakan software CaMML versi 1.4.1 dan package J-API. Struktur graf bayesian networks dalam tahap ini digunakan sebagai tahap feature selection. Setelah itu, proses klasifikasi dengan algoritma klasifikasi machine learning dilakukan untuk memprediksi performa akademik siswa pada pelajaran matematika. Algoritma klasifikasi machine learning yang diterapkan di antaranya Random Forest, MLP, SVM, dan Naïve Bayes. Eksperimen ini dilakukan menggunakan data mining library pada Java dalam lingkungan Weka (Witten,IH. & Frank, E.,2000). Eksperimen menggunakan skenario 10 fold cross validation. Tahap terakhir adalah tahap evaluasi, yaitu mengevaluasi tingkat akurasi sebelum dan sesudah melalui pemodelan struktur graf bayesian networks. Hasil evaluasi prediksi performa akademik siswa akan bisa dilihat menggunakan confusion matrix. Tingkat akurasi serta tingkat kesalahan prediksi dapat menunjukkan kinerja algoritma klasifikasi. Confusion matrix terdiri dari 4 bagian, yaitu true positive, true negative, false positive dan false negative (Gorunescu,2011). Confusion Matrix dapat dilihat pada Tabel 1. Tabel 1. Confusion Matrix Prediksi Positive Negative Aktual Positive True Positive (TP) False Negative (FN) Negative False Positive (FP) True Negative (TN) Akurasi adalah jumlah prediksi benar dari semua data yang diprediksi, yaitu dapat dihitung dengan rumus : ( ) ( ) 3. HASIL PENELITIAN DAN PEMBAHASAN Eksperimen tahap pertama yaitu implementasi metode bayesian networks membentuk struktur graf bayesian networks. Hasil yang didapatkan melalui program Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 401 PROSIDING ISSN: 2502-6526 CaMML ada sebelas jenis struktur Graf Bayesian Networks yang digunakan untuk langkah menyeleksi variabel yang relevan. Hasil seleksi fitur berdasarkan 11 skenario dapat dilihat pada Tabel 2. Tabel 2. Hasil Struktur Graf Bayesian Networks Variabel yang independen = variabel Skenario dieliminasi skenario 1 famrel, health skenario 2 famrel, health, reason skenario 3 famrel,health, famsize, romantic skenario 4 famrel,heath, Pstatus, reason, famsize skenario 5 famrel,health, nursery sex, study time, Dalc, Walc, go out, freetime, skenario 6 famrel, health skenario 7 famrel, health, Pstatus, famsize skenario 8 famrel,health, Pstatus skenario 9 famrel,health, reason, nursery skenario 10 famrel,health, Pstatus, activities skenario 11 famrel, health, activities, famsize, Pstatus jumlah feature 32 31 30 29 31 25 30 31 30 30 29 Setiap skenario menghasilkan struktur graf bayesian networks yang berbeda, masing-masing graf menunjukkan adanya keterkaitan antar variabel baik hubungan langsung atau hubungan tidak langsung. Hasil pada tahap ini, struktur graf bayesian networks digunakan untuk menentukan variabel apa saja yang relevan terhadap variabel performa akademik siswa sebagai variabel target. Untuk dapat menentukan apakah suatu node variabel itu independen terhadap node yang lain digunakan algoritma d-separation. Pada tabel 2 dapat dilihat daftar variabel yang independen yang akhirnya akan digunakan untuk mengeliminasi variabel atau bisa disebut dengan feature selection. Didapatkan hasil yang paling banyak mengeliminasi variabel adalah skenario eksperimen ke-6, dimana menyisakan 25 variabel dari 34 keseluruhan variabel yang digunakan. Graf struktur bayesian networks pada skenario 6 terdapat pada Gambar 4. Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 402 PROSIDING ISSN: 2502-6526 Gambar 4. Struktur Graf Bayesian Networks Pada Gambar 4 dapat dilihat bahwa ada 8 variabel yang independent atau tidak mempunyai jalur aktif untuk terhubung dengan variabel hasil. Kedelepan variabel itu adalah sex, study time, Dalc, Walc, go out, freetime, famrel, health, yang akan dieliminasi dan selanjutnya 25 variabel yang lain digunakan untuk prediksi hasil performa akademik siswa. Hasil akurasi dengan algoritma klasifikasi Machine Learning dapat dilihat pada Tabel 3. Tabel 3. Hasil akurasi dengan algoritma klasifikasi Machine Learning Naïve Random Skenario Bayes MLP Forest SMO Sebelum (34 variabel) 88.66 93.62 99.22 92.25 skenario 1 88.99 92.73 99.42 92.3 skenario 2 88.71 93.65 99.52 92.78 skenario 3 88.78 93.97 99.72 92.51 skenario 4 88.71 94.58 99.47 92.25 skenario 5 88.9 94.08 99.47 92.61 skenario 6 89.19 94.46 99.87 92.61 skenario 7 88.84 93.95 99.65 92.63 skenario 8 88.91 93.7 99.72 92.2 skenario 9 88.68 95.04 99.67 92.2 skenario 10 88.91 94.81 99.59 92.38 skenario 11 88.86 94.71 99.8 92.76 Pada eksperimen tahap dua dilakukan uji model hasil struktur graf bayesian networks, yaitu mengeliminasi variabel independen terlebih dahulu Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 403 PROSIDING ISSN: 2502-6526 lalu mengimplementasikan empat algoritma klasifikasi machine learning. Eksperimen tahap kedua ini menggunakan 10 fold cross validation untuk masing-masing uji akurasi pada algoritma klasifikasi machine learning. Pada tabel 2 dapat dilihat bahwa adanya peningkatan performa akurasi prediksi pada empat algoritma klasifikasi machine learning. Pada skenario 6 yang menggunakan 25 variabel menunjukkan performa yang terbaik, dimana peningkatan akurasi maksimal pada algoritma Naïve Bayes dan Random Forest, yaitu 89.19% dan 99,87%. Algoritma Neural Networks (Multiple Layer Perceptron) menujukkan performa terbaiknya pada skenario ke-9. Sedangkan algoritma SVM (SMO) mencapai performa akurasi terbaik pada skenario 2, yaitu dengan tingkat akurasi 92.78%. Hasil eksperimen menunjukkan ada 25 variabel yang relevan untuk memprediksi perfoma akademik siswa pada mata pelajaran matematika adalah umur, sekolah, alamat, status ortu, pendidikan ibu, pekerjaan ibu, pendidikan ayah, pekerjaan ayah, pendamping belajar anak (ibu/ayah/orang lain), jumlah anggota keluarga, alasan memilih sekolah, waktu perjalanan dari rumah ke sekolah, jumlah kegagalan dalam kelas, keikutsertaan kegiatan ekstrakulikuler, dukungan keluarga, ikut les tambahan, tambahan kelas di sekolah, ada akses internet di rumah, kehadiran ortu ke sekolah, motivasi studi lanjut, hubungan dengan lawan jenis (romatic relationship), jumlah ketidakhadiran (absen) kelas, nilai ujian matematika periode pertama, kedua dan ujian akhir matematika. Hasil penelitian ini bisa dijadikan rekomendasi pemilihan variabel untuk melakukan penelitian yang sejenis dengan menyebarkan kuisioner untuk siswa di Indonesia pada mata pelajaran matematika. 4. SIMPULAN Kesimpulan yang didapatkan dari penelitian ini adalah struktur graf bayesian networks diterapkan untuk menentukan keterkaitan antar variabel dan mengetahui variabel apa saja yang berpengaruh terhadap variabel target, yaitu variabel performa akademik siswa pada pelajaran matematika. Untuk dapat menentukan apakah suatu node variabel itu independen terhadap node yang lain digunakan algoritma dseparation. Eksperimen untuk prediksi menggunakan algoritma klasifikasi machine learning menggunakan 10 fold cross validation. Hasil eksperimen menunjukkan adanya peningkatan performa akurasi prediksi pada empat algoritma klasifikasi machine learning. Hasil penelitian menunjukkan ada 25 variabel yang efektif untuk memprediksi perfoma akademik siswa pada mata pelajaran matematika. 5. DAFTAR PUSTAKA Aminian, M., Couvin, D., Shabbeer, A., Hadley, K., Vandenberg, S., Rastogi, N., & Bennett, K. P. (2014). Predicting Mycobacterium tuberculosis Complex Clades Using Knowledge-Based Bayesian Networks, 2014. Cortez, P., Silva, A., Trees, D., & Forest, R. (2008). Using Data Mining to Predict Secondary School Student Performance, 2003(2000). Korb, K. B., & Nicholson, A. E. (2011). Bayesian Artificial Intelligence (second edi). CRC Press. Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 404 PROSIDING ISSN: 2502-6526 Kuschner, K. W., Malyarenko, D. I., Cooke, W. E., Cazares, L. H., Semmes, O. J., & Tracy, E. R. (2010). A Bayesian network approach to feature selection in mass spectrometry data. Sari, B. N. (2016). Implementasi Teknik Seleksi Fitur Information Gain Pada Algoritma Klasifikasi Machine Learning untuk Prediksi Perfomasi Akademik Siswa, 6–7. Transition, T., Osmanbegović, E., & Suljić, M. (2014). Determining Dominant Factor for Students Performance Prediction by Using Data Mining, XVII, 147–158. Konferensi Nasional Penelitian Matematika dan Pembelajarannya II (KNPMP II) Universitas Muhammadiyah Surakarta, 18 Maret 2017 405