1 IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG Muhammad Efendi Program Studi Teknik Informatika – S1, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Jl. Nakula 1 No. 5-11 Semarang 50131 email : [email protected] Abstract - The resignation of prospective students are already common in universities. In Universitsas Dian Nuswantoro for example, in 2010 only 1147 students who registered for the Faculty of Computer Science .Where the university knew of students who will resign, then the students who managed to get into university is definitely more. One way to predict the resignation of prospective students are using data mining methods. The purpose of this research is to develop an application to determine which students will resign. This application can estimate the prospective students who will resign at the faculty of computer science at the University of Dian Nuswantoro. References used in this application using a data PMB 2013 with variables that will be used is the id list, name, registration, city, course of study, the status of registration, and waves. The algorithm will be used using the naïve Bayes calculations using probabilities, and to measure the performance and accuracy of applications using Confussion Matrix. Based on the research conducted, it was found that several factors influence the final outcome of the application is the city, the course, the status of registration, and waves. Measuring accuracy of the applications created using the confusion matrix, and the result is equal to78%. Keywords— Data Mining, Naïve Bayes, The Withdrawal of Students I. PENDAHULUAN1 Dalam beberapa tahun terakhir, penggunaan data mining di dunia pendidikan yang dikenal sebagai educational data mining (EDM) semakin berkembang (Rahmayuni, 2014). Menurut Williams (2011), data mining merupakan bagian dari seni dan ilmu tentang intelligent data analysis yang bertujuan untuk mendapatkan informasi dari suatu data. Oleh karena itu Data mining sering dijadikan metode yang dipakai dalam menyelesaikan sebuah masalah. Banyak teknik dari data mining yang dapat digunakan. Dalam penelitian ini data mining digunakan untuk memperkirakan pengunduran diri calon mahasiswa di Universitas Dian Nuswantoro. Pengunduran diri calon mahasiswa merupakan hal yang biasa terjadi pada setiap universitas, yang mengakibatkan universitas tidak mendapat jumlah mahasiswa yang maksimal. Kebanyakan calon mahasiswa mengundurkan diri karena tidak melakukan tahap registrasi (Kusrini, 2009), seperti data dari BIKU di Universitas Dian Nuswantoro pada tahun 2010 misalnya, yang berhasil masuk menjadi mahasiswa pada FIK 1147 dari total pendaftar sebanyak 2555. Pihak universitas pasti menginginkan agar dapat mengetahui calon mahasiswa mana saja yang diperkirakan akan mengundurkan diri, karena ketika dapat diketahui calon mahasiswa yang akan mengundurkan diri sejak dini, pihak kampus dapat mencari solusi untuk memperkecil jumlah calon mahasiswa yang mengundurkan diri. Penelitian yang dilakukan (Kusrini, 2009) untuk menentukan pengunduran diri calon mahasiswa menggunakan penalaran berbasis kasus (case based reasoning), dengan membandingkan data kasus yang baru dengan data kasus yang lama untuk mencari solusi yang akan digunakan. Sedangkan algoritma yang dipakai menggunakan C4.5 dan Nearest Neighbor. Hasil dari perbandingan algoritma C4.5 dan Nearest Neighbor menunjukan bahwa Nearest Neighbor tidak lebih akurat dibanding algortima C4.5, dan tahap proses klasifikasi yang dilakukan lebih panjang dan memakan waktu yang cukup lama. Sedangkan penulis ingin mencoba menggunakan algoritma Naïve Bayes dalam menentukan pengunduran diri calon mahasiswa, karena dari studi pustaka yang dilakukan, Naïve Bayes juga akurat dari beberapa algoritma klasifikasi yang sering digunakan. II. METODE YANG DIUSULKAN A. Data Mining Data mining merupakan suatu metode menemukan suatu pengetahuan dalam suatu database yang cukup besar. Data mining sendiri adalah proses menggali dan menganalisa sejumlah data yang sangat besar untuk memperoleh sesuatu yang benar, baru, sangat bermanfaat dan akhirnya dapat dimengerti suatu corak atau pola dalam data tersebut. Menurut (Jananto, 2010) alasan utama mengapa data mining diperlukan adalah karena adanya sejumlah besar data yang dapat digunakan untuk menghasilkan informasi dan knowledge yang berguna. Informasi yang didapat tersebut dapat digunakan pada banyak bidang, mulai dari bisnis, kontrol produksi, kesehatan, dan lain-lain. Secara sederhana, data mining dapat diartikan sebagai proses mengekstrak atau “menggali” knowledge yang ada pada sekumpulan data. Banyak orang setuju bahwa data mining adalah sinonim dari Knowledge Discovery in Database, atau sering disebut dengan KDD. Dari sudut pandang yang lain, data mining dianggap sebagai suatu langkah yang penting dalam KDD (Jananto, 2010). Proses KDD ini terdiri dari serangkaian langkah-langkah transformasi, dari proses data preprocessing dan proses data postprocessing dari data yang merupakan hasil penggalian. Tujuan dari proses data preprocessing adalah untuk mengubah data input mentah menjadi format yang sesuai untuk analisis selanjutnya B. Naïve Bayes Simple Naive Bayesian Classifier merupakan salah satu metode pengklasifikasi berpeluang sederhana yang berdasarkan pada penerapan Teorema Bayes dengan asumsi antar variabel penjelas saling bebas (independen). Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya. Dua kelompok peneliti, satu oleh Pantel dan Lin, dan yang lain oleh Microsoft Research memperkenalkan metode statistik Bayesian ini pada teknologi anti spam filter. Tetapi yang membuat algoritma Bayesian filtering ini popular adalah pendekatan yang dilakukan oleh Paul Graham. Menurut (Jananto, 2013) algortima Naïve Bayes atau Bayesian Classification adalah pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class. Bayesin classification didasarkan pada teorema bayes yang memiliki kemampuan klasifikasi serupa dengan decision tree dan neural network. Bayesin classification terbukti memiliki kecepatan yang tinggi saat diaplikasikan ke dalam database dengan data yang besar. Teorema Bayes memiliki bentuk umum sebagai berikut : X = Data dengan class yang belum diketahui H = Hipotesis data X merupakan suatu class spesifik P(H|X) = Probabilitas hipotesis H berdasarkan kondisi x (posteriori prob.) P(H) = Probabilitas hipotesis H(prior prob.) P(X|H) = Probabilitas X berdasarkan kondisi tersebut P(X) = Probabilitas dari X III. IMPLEMENTASI A. Frekuensi Kemunculan Contoh hasil perhitungan frekuensi kemunculan : Contoh kasus baru yang akan diinputkan : 1. Nama : Muhammad Efendi 2. Gelombang : IIA 3. Kota : Pemalang 4. Pilihan : Teknik Informatika 5. Jalur : Bebas Tes Untuk menentukan hasil registrasi atau tidaknya dari data tersebut maka perlu dilakukan perhitungan probabilitas dengan acuan data frekuensi kemunculan pada table sebelumnya. Untuk penyelesaian, yang pertama dilakukan yaitu hitung nilai probabilitas tiap-tiap atribut, perhitungannya sebagai berikut : P( Tidak Registrasi) = = 0,45 P( Registrasi) = = 0,55 P( IIA | Tidak Registrasi) = P( IIA | Registrasi) = = 0,0711 = 0,2109 P(Pemalang | Tidak Registrasi) = P(Pemalang | Registrasi) = = 0,0356 = 0,0127 P(Teknik Informatika | Tidak Registrasi) = P(Teknik Informatika | Registrasi) = P(Bebas Tes | Tidak Registrasi) = P(Bebas Tes | Registrasi) = = 0,6044 = 0,5273 = 0,4267 = 0,7055 Bandingkan hasil akhir probabilitas dari class Registrasi dan class Tidak Registrasi - Class Tidak Registrasi P( Tidak Registrasi) * P( IIA | Tidak Registrasi) * P(Pemalang | Tidak Registrasi) * P(Teknik Informatika | Tidak Registrasi) * P(Bebas Tes | Tidak Registrasi) = 0,45 * 0,0711 * 0,0356 * 0, 6044 * 0, 4267 = 0,00029375 - Class Registrasi 3 P(Registrasi) * P( IIA | Registrasi) * P(Pemalang | Registrasi) * P(Teknik Informatika | Registrasi) * P(Bebas Tes | Registrasi) = 0,55 * 0, 2109 * 0,0127 * 0,5273 * 0, 7055 = 0,00054802 Dari hasil diatas nilai class Registrasi lebih besar probabilitasnya dibandingkan dengan nilai class Tidak Registrasi, jadi calon mahasiswa diprediksikan melakukan Registrasi dengan class akhir YA B. Akurasi Dalam mengukur pada akurasi pada aplikasi ini menggunakan confusion matrix. Confusion matrix diterapkan pada 300 data testing yang sudah disiapkan, data testing tersebut dihitung dengan menggunakan algoritma naïve bayes, kemudian hasil dari semua data testing dipakai dalam menentukan akurasi dengan menggunakan confusion matrix. Identifikasi Ya Keputusan Identifikasi Naïve Asli Tidak Oleh Oleh Naïve Bayes Bayes Tidak = TN FN Ya = FP TP Tabel Tabel Confussion Matrix Keterangan : TN = Hasil yang diidentifikasi oleh Naïve Bayes TIDAK dengan class asli TIDAK FN = Hasil yang diidentifikasi oleh Naïve Bayes YA dengan class asli TIDAK FP = Hasil yang diidentifikasi oleh Naïve Bayes TIDAK dengan class asli YA TP = Hasil yang diidentifikasi oleh Naïve Bayes YA dengan class asli YA Keputusan Asli Identifikasi Tidak Oleh Naïve Bayes 61 Tidak = 100 Ya = 200 26 Tabel Tabel Kinerja Identifikasi Ya Oleh Naïve Bayes 39 174 Tabel diatas merupakan hasil perhitungan dari data testing setelah dihitung dengan algoritma naïve bayes. Untuk melakukan proses kinerja pada data mining maka dilakukan perhitungan presision, recal, dan akurasi. 1. Recal Recal adalah proporsi kasus posotif yang diidentifikasi dengan benar, rumus dari recal sebagai berikut : TP / ( FN + TP ) * 100% Dengan data pada table kinerja maka : 174 / ( 39 + 174 ) * 100% = 87% Recal yang dihasilkan aplikasi sebesar 87%. 2. Presision Presision merupakan proporsi kasus dengan hasil positif yang benar, rumusnya sebagai berikut : TP / ( FP + TP ) * 100% Dengan data pada table kinerja maka : 174 / ( 26 + 174 ) * 100% = 81,69% Presision yang dihasilkan sebesar 81,69%. 3. Akurasi Akurasi merupakan perbandingan kasus yang diidentifikasi benar dengan jumlah semua kasus, rumusnya sebagai berikut : ( TN + TP ) / ( TP + TN + FP + FN ) *100% Dengan memakai data pada tabel kinerja maka : ( 61 + 174 ) / ( 174 + 61 + 26 + 39 ) *100% = 78,33% Akurasi yang dihasilkan sebesar 78,33%. IV. HASIL & PEMBAHASAN A. Context Diagram Context Diagram merupan diagram yang terdiri dari proses yang menggambarkan suatu sistem. Contex Diagram merupakan level tertinggi dari Data Flow Diagram yang menggambarkan seluruh input ke sistem atau output dari sistem. B. DFD Level 1 - Menu Hitung Ulang digunakan untuk menghitung ulang frekuensi kemunculan apabila di inputkan data baru pada databse. - Menu Frekuensi Kemunculan digunakan untuk menampilkan frekuensi kemunculan dari database. DFD lvl 1 merupakan pemecahan dari context diagram, yang ditujukan unutk menggambarkan keseluruhan proses kerja sistem. E. Halaman Kinerja Use Pada halaman ini user dapat melihat akurasi dari aplikasi data mining. Keterangan : - Menu Kinerja untuk menunjukan semua data testing yang akan dipakai dalam menghitung akurasi. - Menu Lakukan Proses Kinerja digunakan untuk menghitung ulang data yang ada, apabila ada data testing baru yang dimasukan kedalam database. - Menu Tabel Penilaian digunakan untuk melihat hasil akurasi pada aplikasi. C. Halaman homepage Pada halaman menu merupakan halaman sambutan bagi user, pilih menu menu yang ada untuk menggunakan aplikasi, Menu yang tersedia diantaranya :Data Mahasiswa, Naïve Bayes, Kinerja, Penentu Keputusan, dan About. D. Halaman Naïve Bayes Pada halaman naïve bayes di tunjukan frekuensi dari jumlah data yang akan digunakan, frekuensi kemunculan ini nantinya akan digunakan dalam menentukan pengunduran diri calon mahasiswa. Keterangan : F. Halaman Penentu Keputusan Pada halaman ini dimana user menginput data baru yang akan diprediksi dan hasilnya akan langsung ditunjukan dibawah form input. Keterangan : - Button Input digunakan untuk perintah input pada data mahasiswa baru. - Menu Edit digunakan untuk mengedit informasi pada data mahasiswa baru. - Menu Perhitungan digunakan untuk menunjukan perhitungan pada kasus yang baru di inputkan. 5 2. S. H. R. W. A. H. Kusrini, "Perbandingan Metode V. PENUTUP A. Kesimpulan Hasil yang dapat diambil dari penelitian ini adalah algoritma Naïve Bayes dapat digunakan dalam prediksi registrasi calon mahasiswa baru pada Universitas Dian Nuswantoro dengan keakuratan sebesar 78%. Aplikasi ini dapat memudahkan pihak universitas dalam melakukan pencegahan calon mahasiswa yang akan mengundurkan diri agar dapat memperoleh jumlah calon mahasiswa yang maksimal. Penulis berharap aplikasi ini dapat membantu pihak universitas karena pengguna aplikasi ini cukup mengisi form yang berisi data calon mahasiswa. Selanjutnya aplikasi akan memberikan hasil dimana calon mahasiswa tersebut akan registrasi atau tidak. B. Saran Saran yang penulis berikan untuk penelitian selanjutnya adalah sebagai berikut : 1. Perbaiki desain aplikasi, karena untuk aplikasi sekarang masih menggunakan desain yang sangat sederhana. 2. Keterbatasan aplikasi ini yaitu hanya dapat digunakan pada fakultas ilmu computer saja. Jadi penulis menyarankan untuk menggunakan semua data fakultas yang ada di UDINUS, karena data sangat berpengaruh pada penggunaan algoritma naïve bayes. Apabila menggunakan data semua fakultas, maka aplikasi ini dapat memprediksi calon mahasiswa dari semua jurusan. 3. Menggunakan perhitungan probabilitas dalam menentukan prediksi, penelitian selanjutnya diharapkan dapat menggukanan algortima data mining yang lain untuk dibandingkan hasilnya dengan penelitian saat ini. REFERENCES 1. Rahmayuni, "Perbandingan Performasi Algoritma C4.5 dan Cart Dalam Klasifikasi Data nilai Mahasiswa Prodi Teknik Komputer Politeknik Negeri Padang," 2014. Nearest Neighbor dan Algoritma C4.5 Untuk Menganalis Kemungkinan Pengunduran Diri Calon Mahasiswa di STIMIK AMIKOM YOGYAKARTA," 2009 3. K. Hastuti, "Analisis Komparasi Algoritma Klasisfikasi Data Mining Untuk Prediksi Mahasiswa Non Aktif," 2012. 4. J. Han, Data Mining Concept and Technique. San Fransisco: Diane Cerra, 2006. 5. A. Jananto, "Algoritma Naive Bayes untuk Mencari Perkiraan Waktu Studi Mahasiswa," 2013. 6. A. Jananto, "Perbandingan Performasi Algoritma Nearest Neighbor dan SLIQ untuk Prediksi Kinerja Akademik Mahasiswa Baru," 2010. 7. M. Rudyanto Arief, Pemrograman Web Dinamis Menggunakan PHP. yogyakarta: C.V ANDI OFFSET, 2011.