Seminar Nasional Teknologi Informasi 2017 A3 ALGORITMA DECISION TREE-J48, K-NEAREST, DAN ZERO-R PADA KINERJA AKADEMIK Nurfaizah 1) Mohammad Imron 2) Linda Perdanawanti 3) 1),2),3) Sistem Informasi, STMIK AMIKOM Purwokerto Jl. Letjend. Pol. Sumarto, Purwokerto, Indonesia e-mail: 1)[email protected], 2) [email protected], 3) [email protected] Sehingga Perguruan Tinggi kini dituntut untuk memiliki keunggulan dalam bersaing dengan memanfaatkan semua sumber daya yang dimiliki, sesuai dengan buku pedoman akademik STMIK AMIKOM Purwokerto tahun 2011/2012, pada Bab I dengan pengertian umum Pasal 1 ayat (2) disebutkan bahwa: Program Sarjana (S-1) reguler adalah program pendidikan akademik setelah pendidikan menengah yang memiliki beban studi sekurang-kurangnya 144 sks dan sebanyakbanyaknya 160 sks yang dijadwalkan untuk 8 semester dan dapat ditempuh dalam waktu kurang dari 8 semester, paling lama 12 semester [1]. Untuk mengolah data yang begitu besar dan kompleks maka dibutuhkan proses penggalian data atau dikenal dengan istilah data mining. Tingkat kelulusan mahasiswa tepat waktu sangat penting dibahas, dikarenakan berpengaruh terhadap kualitas suatu Perguruan Tinggi [2]. Data Mining juga didefinisikan sebagai rangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual [3]. Beberapa penelitian terkait dengan topik penelitian yang pernah dilakukan [4] monitoring dan evaluasi kinerja akademik mahasiswa menggunakan teknik data mining. [5] evaluasi kinerja akademik mahasiswa menggunakan algoritma naive bayes, dan [6] prediksi kinerja mahasiswa menggunakan algoritma klasifikasi data mining dengan menggunakan algoritma decision tree classifier, neural network,dan nearest neighbor. Tujuan dari penelitian ini adalah untuk mendapatkan hasil komparasi metode klasifikasi DC Tree-J48, KNearest Neighbor, dan Zero-R berbasis CFS untuk mengevaluasi kinerja akademik mahasiswa, serta membangun sebuah sistem pendukung keputusan. ABSTRACT The student's academic performance becomes one of the benchmarks of the quality of Higher Education, in this study to know the students who have poor academic performance in the learning process in order to be known. One solution that researchers do is to detect the timeliness of graduation students with data mining techniques in order to note the problems that occur in the students. The purpose of this study compared decision-j48, knearest neighbor, and zero-r algorithms with a combination of CFS to measure the best accuracy of each algorithm for the evaluation of student academic performance. From the result of comparison obtained from testing decision algorithm j48, k-nearest neighbor, and zero-r with combination of CFS can be known result of comparation from each experiment. From the same dataset, the use of feature selection turns out to have better results from the decision tree-j48 and zero-r algorithms with 86.38% accuracy value while the feature selection has an accuracy of 87.88%, while from the test result with k- Nearest neighbor has the highest accuracy value without selection or with feature selection that is with accuracy 89.04%. Key words Student academic performance, Decision Tree-J48, KNearest, Zero-R, CFS 1. Pendahuluan Sebagai lembaga pendidikan, STMIK AMIKOM Purwokerto tentunya mengharapkan regenerasi yang berkualitas dan dapat bersaing dengan Perguruan Tinggi lainnya. Sehingga kualitas dari Perguruan Tinggi selain dilihat dari rata-rata masa lulusnya mendapatkan pekerjaan juga dapat dilihat dari rata-rata masa studi dari mahasiswanya. 12 Seminar Nasional Teknologi Informasi 2017 A3 Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut [13]: 1. Pilih atribut sebagai akar 2. Buat cabang untuk tiap-tiap nilai 3. Bagi kasus dalam cabang 4. Ulangi proses untuksetiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan persamaan sebagai berikut: 2. Landasan Teori 2.1 Data Mining Penambangan data (data mining) adalah serangkaian proses untuk menggali nilai tambah dari sekumpulan data berupa pengetahuan yang selama ini tersembunyi dibalik data atau tidak diketahui secara manual [3]. Data Mining adalah suatu teknik menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Data Mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar, dimana data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database [7]. Masalah-masalah yang sesuai untuk diselesaikan dengan teknik data mining dapat dirincikan dengan [8]: 1. Memerlukan keputusan yang bersifat knowledgebased 2. Mempunyai lingkungan yang berubah 3. Metode yang ada sekarang bersifat sub-optimal 4. Tersedia data yang bisa diakses, cukup dan relevan 5. Memberikan keuntungan yang tinggi jika keputusan yang diambil tepat. ………….(1) Keterangan: S = himpunan kasus A = atribut n = jumlah partisi atribut A |Si| = jumlah kasus pada partisi ke-i |S| = jumlah kasus dalam S Rumus dasar dari entropy tersebut adalah sebagai berikut: .………….(2) Keterangan: S = himpunan kasus A = fitur n = jumlah partisi S pi = proporsi dari Si terhadap S 2.2 Klasifikasi Klasifikasi adalah proses penemuan model atau fungsi yang menggambarkan dan membedakan kelas data atau konsep yang bertujuan agar bisa digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui [9]. Klasifikasi data terdiri dari 2 langkah proses, yang Pertama adalah learning (fase training), dimana algoritma klasifikasi dibuat untuk menganalisa data training, lalu direprestasikan dalam bentuk rule klasifikasi. Proses yang Kedua adalah klasifikasi, dimana data tes digunakan untuk memprediksi atau memperkirakan akurasi dari rule klasifikasi [9]. 2.4 Algoritma K-Nearest Neighbor Algoritma k-nearest neighbor merupakan sebuah metode untuk melakukan klasifikasi terhadap obyek baru berdasarkan (k) tetangga terdekatnya [14]. KKN termasuk algoritma supervised learning, dimana hasil query instance yang baru, diklasifikasikan berdasarkan mayoritas dari kategori pada KNN. Kleas yang paling banyak muncul yang akan menjadi kelas hasil klasifikasi [14]. Algoritma k-nearest neighbor merupakan metode klasifikasi yang mengelompokkan data baru berdasarkan jarak data baru itu kebeberapa data atau tetangga (neighbor) terdekat. Teknik knn dengan melakukan langkah-langkah yaitu, mulai input : data training, label, data training, dan data testing. 2.3 Algoritma Decision Tree J48 Decision Tree J48 merupakan implementasi algoritma C4.5 (berbasis Java) pada Weka [10]. Algoritma C4.5 digunakan untuk pemisah obyek [11]. Tree atau pohon keputusan banyak dikenal sebagai bagian dari Graph, yang termasuk dalam irisan bidang ilmu otomata dan teori bahasa serta matematika diskrit. Tree sendiri merupakan graf tak-berarah yang terhubung, serta tidak mengandung sirkuit [12]. 2.5 Algoritma Zero-R Algoritma Zero-R secara sederhana memprediksi mayoritas kelas dalam training data [3], meskipun algoritma Zero-R memiliki sedikit akal untuk digunakan sebagai prediktor, algoritma Zero-R bermanfaat untuk 13 Seminar Nasional Teknologi Informasi 2017 A3 menentukan performance dasar sebagai benchmark untuk skema pembelajaran yang lain. konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dala data mining yang dapat diaplikasikan diberbagai sektor industri. Gambar 3.1 menjelaskan tentang siklus hidup pengembangan data mining yang telah ditetapkan dalam CRISP-DM. Menurut Larose, data mining memeliki enam fase CRISP-DM ( Cross Industry Standard Process for Data Mining ) [18]. a. Fase Pemahaman Bisnis (Business Understanding Phase) b. Fase Pemahaman Data (Data Understanding Phase ) c. Fase Pengolahan Data (Data Preparation Phase ) d. Fase Pemodelan (Modeling Phase ) e. Fase Evaluasi (Evaluation Phase ) f. Fase Penyebaran (Deployme nt Phase) 2.6 Seleksi Fitur Metode pemilihan fitur yang digunakan adalah correlation based feature selection (CFS) subset evaluation [15]. Metode CFS subset evaluation memilih fitur terbaik dari fitur yang ada. Dengan kata lain ada fitur yang harus dibuang karena memiliki nilai korelasi yang rendah terhadap hasil prediksi kategori. Sebagai inti dalam CFS adalah teknik heuristic untuk mengevaluasi nilai atau harga subset fitur [13]. Teknik ini mempertimbangkan kegunaan fitur individual bagi prakiraan label kelas dengan level interkorelasi di antara fitur-fitur. Fitur secara individual menguji mana ukuran yang berkaitan dengan variable yang diamati (sebagai kelas target). Sebagai inti dalam CFS adalah teknik heuristic untuk mengevaluasi nilai atau harga subset fitur [14]. Teknik ini mempertimbangkan kegunaan fitur individual bagi prakiraan label kelas dengan level interkorelasi di antara fitur-fitur. Fitur secara individual menguji mana ukuran yang berkaitan dengan variable yang diamati (sebagai kelas target). Persamaan berikut adalah formalisasi nilai harga heuristic yang dimaksud: ………….(3) Gambar 1 Enam Tahap Proses CRISP-DM dalam Data Mining[16] Dimana Merits merupakan harga heuristic subset fitur S yang berisi k fitur rcf yang merupakan rata-rata korelasi fitur-kelas, rff adalah rata-rata interkorelasi fitur ke fitur. Pada kenyataannya semua variable distandardisasi sesuai rumus korelasi Pearson. Numerator dianggap telah dipahami sebagai indikasi bagaimana sifat prediksi suatu fitur kelompok, sedangkan denominator menunjukkan bagaimana redundansi data antara fitur. 3.2 Alur Penelitian Alur penelitian ini mengacu pada penelitian, seperti pada gambar dibawah ini.3.2 3. Metode Penelitian Penelitian ini didesain dengan merujuk pada model CRISP-DM (Cross-Industry Satndard Process for Data Mining). Dimana penelitian ini melakukan pengujian tingkat akurasi terbaik antara algoritma J48, KNN, dan Zero-R Kombinasi CFS. Data eksperimen diambil dari data mahasiswa STMIK AMIKOM Purwokerto. 3.1 Metode Analisis Data Metode analisis data dalam penelitian ini mengacu pada tahapan proses CRISP-DM, yang merupakan suatu Gambar 2 Alur Penelitian 14 kerangka Seminar Nasional Teknologi Informasi 2017 A3 Tabel 1 Format Atribut Yang Sudah Disesuaikan 4. Hasil dan Pembahasan 4.1 Penentuan Dataset Mahasiswa Pada penelitian ini peneliti mengkaji dan melakukan proses klasifikasi penentuan dataset yang disimpan dalam format excel, seperti terlihat pada gambar dibawah ini: Setelah atribut disesuaikan melalui tahap transformasi data dapat terlihat tabel keterangan atribut yang menjelaskan masing-masing atribut yang akan digunakan sebagai atribut dataset dibawah ini: Tabel 2 Dataset Setelah Penyesuain Atribut Gambar 3 Dataset setelah Pembersihan Atribut Setelah melewati tahap pembersihan dan integrasi data, dataset yang dihasilkanpun tidak langsung dapat digunakan karena masih terdapat beberapa data yang memiliki tipe data yang inkonsisten sehingga perlu dilakukan beberapa perubahan tipe data. Tahap ini dilakukan dalam tahap transformasi data. 4.2 Transformasi Data Pada tahap ini dilakukan perubahan tipe data pada atribut jenis kelamin, program studi, dan IP. Format dataset yang akan digunakan sebagai sumber data pemodelan klasifikasi adalah sebagai berikut: Data yang digunakan berasal dari data mahasiswa, data nilai mahasiswa dan data kelulusan mahasiswa tahun angkatan 2010 - 2012 dengan jumlah total 2.189 record. Dataset setelah pembersihan data yaitu data training sebanyak 667 record yang merupakan data mahasiswa tahun 2010 - 2011 yang lulus tepat waktu dan tidak tepat waktu, kemudian data testing 867 record yang merupakan data mahasiswa tahun 2010 – 2012 yang belum lulus. 15 Seminar Nasional Teknologi Informasi 2017 A3 4.3.2 Algoritma K-Nearest Neighbor Setelah melewati tahap pembersihan dan integrasi data, dataset yang dihasilkan pun tidak langsung dapat digunakan karena masih terdapat beberapa data yang memiliki tipe data yang inkonsisten sehingga perlu dilakukan beberapa perubahan tipe data. Tahap ini dilakukan dalam tahap transformasi data. Setelah dilakukan proses transformasi data, langkah terakhir dari preprocessing data adalah mengubah dataset dari file excel menjadi format CSV atau ARFF agar dapat dikenali sebagai sumber data pada WEKA. Namun sebelum disimpan menjadi format file ARFF, diketahui bahwa dataset yang ada masih merupakan dataset asli yang masih tercampur sehingga perlu dilakukan pembagian dataset menjadi 2 yaitu data yang akan digunakan sebagai data sampel (data training) dan data yang akan digunakan sebagai data uji/prediksi (data testing). Sedangkan dari hasil pengujian dengan menggunakan algoritma K-NN yang telah dilakukan memiliki nilai akurasi paling tinggi yaitu sebesar 89.04%, tingkat akurasi dari tabel tersebut diperoleh dari hasil perhitungan confusion matrix, yaitu: Akurasi (%) = 4.3 Pengujian Algoritma Akurasi (%) = Pada tahap ini bertujuan untuk mengetahui akurasi dari algoritma Decision Tree J48, k-nn, dan Zero-R dalam mengklasifikasikan data ke dalam kelas yang telah ditentukan untuk mengetahui nilai akurasi dari masingmasing algoritma yang diujikan berdasarkan dataset yang telah ditentukan. = = 89,04% 4.3.3 Algoritma Zero-R Dan pengujian berikutnya dengan menggunakan algoritma Zero-R, dari hasil pengujian tersebut untuk memiliki nilai akurasi sebesar 86.38%, dan tingkat akurasi dari tabel tersebut diperoleh dari hasil perhitungan confusion matrix, yaitu: 4.3.1 Algoritma Decision Tree J48 Dari hasil pengujian dengan menggunakan algoritma DC Tree J48 yang telah dilakukan terhadap dataset, dengan menunjukkan hasil evaluasi tingkat akurasi klasifikasi algoritma DC Tree J48 yang memiliki nilai akurasi sebesar 86.38%, tingkat akurasi dari tabel tersebut diperoleh dari hasil perhitungan confusion matrix, yaitu: Akurasi (%) = Akurasi (%) = = Akurasi (%) = 4.3.4 Seleksi Atribut Sedangkan dengan pengujian seleksi atribut dari tiga algoritma diatas dengan menggunakan 7 atribut yang telah diseleksi memiliki nilai akurasi sebesar 87,88%. Dari hasil pengujian dapat disimpulkan bahwa seleksi atribut lebih unggul dari dua algoritma J48 dan Zero-R, dibandingkan Akurasi (%) = = = 86,38% = 86,38 % 16 Seminar Nasional Teknologi Informasi 2017 A3 dengan algoritma K-NN yang memilki nilai akurasi lebih baik tanpa seleksi atribut ataupun dengan seleksi atribut. untuk algoritma K-Naerest Neighbor lebih baik dengan seleksi atribut ataupun tidak memiliki nilai akurasi lebih tinggi yaitu 89,04%. 2. Penentuan data training pada pengujian tersebut memiliki pengaruh terhadap hasil pengujian, dimana pola data training tersebut dijadikan rule untuk menentukan class pada data testing. Dari hasil pengujian bahwa data akademik setiap angkatan memiliki pola yang berbeda-beda yang ditunjukan oleh tingkat akurasi dari setiap data testing yang diujicoba. 3. Hasil dari komparasi yang telah diimplementasikan bahwa algoritma K-Naerest Neighbor lebih baik dengan nilai akurasi nilai tertinggi sebesar 89,04%. 4.4 Analisis Hasil Dari hasil pengujian dapat diketahui setiap percoban dari algoritma decision tree j48, k-nn, dan zero-r dengan kombinasi seleksi atribut, sehingga dapat diketahui hasil dari komparasi setiap percobaan. Percobaan dilakukan untuk mengetahui tingkat akurasi dari 3 algoritma yang telah dilakukan dengan kombinasi seleksi atribut. Tabel 3 Hasil Komparasi Algoritma Decision Tree J48, K-Naerest Neighbor, dan Zero-R dengan kombinasi CFS. Metode Decision Tree J48 K-Naerest Neighbor Zero-R CFS Akurasi 86,38 % 89,04% 86,38% 87,88% REFERENSI [1] STMIK AMIKOM Purwokerto, Buku Panduan Akademik Mahasiswa Tahun Ajaran 2012-2013. Purwokerto, Jawa Tengah: STMIK AMIKOM Purwokerto, 2012. [2] Hastuti, Khafiizh. 2012. Analisis Komparasi Algoritma Klasifikasi Data Mining untuk Prediksi Mahasiswa Non Aktif. Seminar Naisonal Informasi dan Komunikasi Terapan 2012 (Semantik 2012) Semarang, 23 Juni 2012. [3] Han, J., & Kamber, M. (2006). Data Mining Concept and Tehniques. San Fransisco: Morgan Kauffman. ISBN 13: 978-1-55860-901-3. [4] Ogor, E.N. 2007. Student Academic Performance Monitoring and Evaluation Using Data Mining Techniques. IEEE Computer Society. [5] Nasution, dkk. 2015. Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naïve Bayes (Studi Kasus: Fasilkom Unilak). Jurnal Teknologi Informasi & Komunikasi Digital Zone, Volume 6, Nomor 2 [6] Kabakchieva, D. 2012. Student Performance Prediction by Using Data Mining Classification Algorithms. IJCSMR. Vol 1 Issue 4: 686-690. [7] Witten, I. H., Frank, E., Hall, M. A., 2011, Data Mining: Practical Machine Learning Tools and Techniques 3rd Edition, Morgan Kaufmann Publishers, San Fransisco. [8] Herera, francisco, 2010. Data Mining and Soft Computing, Dept. of Computer Science and A.I. University of Granada, Spain. [9] Tan, P.N., Steinbach, M., Kumar, V. (2006), Introduction to Data Mining, 1st Ed, Pearson Education: Boston San Fransisco New York. [10] http://www.cs.waikato.ac.nz/ml/weka/documentation.html (diakses terakhir 18 Nopember 2013). [11] W. Nor Haizan W. Mohamed, Mohd Najib Mohd Salleh, Abdul Halim Omar, “A Comparative Study of Reduced Error Pruning Method in Decision Tree Algorithms”,IEEE International Conference on Control System, Computing and Engineering, 23 -Penang, Malaysia , 25 Nov. 2012 [12] Munir, R. (2010). Matematika Diskrit. Bandung: Informatika Bandung. Penambahan seleksi atribut menghasilkan tingkat akurasi yang lebih baik dari kedua algoritma decision tree j48 dan Zero-R yang memilki nilai akurasi hampir sama yaitu 86,38%, sedangkan dengan seleksi atribut sendiri memiliki nilai akurasi lebih baik dibandingkan kedua akurasi diatas yaitu sebesar 87,88%. Dan dari hasil komparasi algoritma diatas yang lebih baik menggunakan algoritma K-Naerest Neighbor baik dengan seleksi atribut ataupun tidak dengan seleksi atribut memilki nilai akurasi lebih baik yaitu sebesar 89,04%. Gambar 4 Grafik Hasil Komparasi Algoritma Decision Tree J48, KNaerest Neighbor, dan Zero-R dengan kombinasi CFS 5. Kesimpulan Berdasarkan hasil implementasi algoritma Decision Tree J48, K-Naerest Neighbor, dan Zero-R dengan kombinasi CFS pada kasus kinerja akademik mahasiswa dapat diambil beberapa kesimpulan sebagai berikut: 1. Dengan dataset yang sama, penggunaan seleksi fitur pada algoritma Decision Tree J48, K-Naerest Neighbor, dan Zero-R, pada kasus kinerja akademik mahasiswa lebih baik dibandingkan algoritma decision tree j48 dan zero-r, dimana algoritma tersebut hanya memilki nilai akurasi 86,38% dibandingan dengan menggunakan seleksi fitur yaitu 87,88%. Sedangkan 17 Seminar Nasional Teknologi Informasi 2017 A3 [13] Kusrini dan Taufiq Lutfi, Emha. (2009). “Algoritma Data Mining.” Yogyakarta: Andi. [14] Hall, M.A.: Correlation-based feature selection for discrete and numeric class machine learning. In Proceedings of the 17th Intl. Conf. Machine Learning (2000) 359-366. [15] Susanto & Suryadi. 2010. Pengantar Data Mining Menggali Pengetahuan dari Bongkahan Data.CV Andi Offset.Yogyakarta. [16] Larose, Daniel T, Data Mining Methods and Models. Hoboken New Jersey: Jhon iley & Sons, Inc, 2006 Nurfaizah, memperoleh gelar S.Kom dan M.Kom dari STMIK AMIKOM Purwokerto dan STMIK AMIKOM Yogyakarta pada tahun 2011 dan 2014. Saat ini sebagai Staf Pengajar program studi Sistem Informasi STMIK AMIKOM Purwokerto. Linda Perdanawanti, memperoleh gelar S.Kom dan M.Kom dari STMIK AMIKOM Purwokerto dan STMIK AMIKOM Yogyakarta pada tahun 2010 dan 2013. Saat ini sebagai Staf Pengajar program studi Teknik Informatika STMIK AMIKOM Purwokerto. Mohammad Imron, memperoleh gelar S.Kom dan M.Kom dari STMIK AMIKOM Purwokerto dan Universitas Dian NuswantoroSemarang pada tahun 2010 dan 2016. Saat ini sebagai Staf Pengajar program studi Teknik Informatika STMIK AMIKOM Purwokerto. 18