LAPORAN TUGAS AKHIR KOMPARASI PEMODELAN DATA MENGGUNAKAN SUPPORT VECTOR MACHINE DAN NEURAL NETWORK UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA Disusun Oleh : Nama : Totok Triswanto NIM : A11.2009.04765 Program Studi : Teknik Informatika FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2013 LAPORAN TUGAS AKHIR KOMPARASI PEMODELAN DATA MENGGUNAKAN SUPPORT VECTOR MACHINE DAN NEURAL NETWORK UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan program studi Teknik Informatika S-1 pada Fakultas Ilmu Komputer Universitas Dian Nuswantoro Disusun Oleh : Nama : Totok Triswanto NIM : A11.2009.04765 Program Studi : Teknik Informatika FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2013 PERSETUJUAN LAPORAN TUGAS AKHIR Nama Pelaksana : Totok Triswanto NIM : A11.2009.04765 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan Support Vector Machine dan Neural Network Untuk Prediksi Ketepatan Waktu Kelulusan Mahasiswa Tugas Akhir ini telah diperiksa dan disetujui, Semarang, 27 September 2013 Menyetujui : Mengetahui : Pembimbing Dekan Fakultas Ilmu Komputer Setia Astuti, Ssi., M.Kom. Dr. Abdul Syukur ii PENGESAHAN DEWAN PENGUJI Nama Pelaksana : Totok Triswanto NIM : A11.2009.04765 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan Support Vector Machine dan Neural Network Untuk Prediksi Ketepatan Waktu Kelulusan Mahasiswa Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir tanggal 3 Oktober 2013. Menurut pandangan kami, tugas akhir ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom.) Semarang, 3 oktober 2013 Dewan Penguji: T. Sutojo, SSi., M.Kom. Edy Mulyanto, S.SI, M.Kom Anggota Anggota Y. Tyas Catur P, SSi., M.Kom. Ketua Penguji PERNYATAAN KEASLIAN TUGAS AKHIR Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya: Nama : Totok Triswanto NIM : A11.2009.04765 Menyatakan bahwa karya ilmiah saya yang berjudul: KOMPARASI PEMODELAN DATA MENGGUNAKAN SUPPORT VECTOR MACHINE DAN NEURAL NETWORK UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : 27 September 2013 Yang menyatakan (Totok Triswanto) iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya: Nama : Totok Triswanto NIM : A11.2009.04765 demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul: KOMPARASI PEMODELAN DATA MENGGUNAKAN SUPPORT VECTOR MACHINE DAN NEURAL NETWORK UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : 27 September 2013 Yang menyatakan (Totok Triswanto) v UCAPAN TERIMAKASIH Alhamdulilah, puji syukur kehadirat Allah SWT atas kekuatan, rahmat dan hidayah-Nya sehingga laporan tugas akhir dengan judul “KOMPARASI PEMODELAN DATA MENGGUNAKAN SUPPORT VECTOR MACHINE DAN NEURAL NETWORK UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA” dapat terselesaikan tepat waktu. Terimakasih kepada : 1. Dr. Ir. Edi Noersasongko, M.Kom, selaku Rektor Universitas Dian Nuswantoro Semarang. 2. Dr. Abdul Syukur selaku Dekan Fasilkom. 3. Dr. Heru Agus Santoso, M.Kom, selaku Ka. Progdi Teknik Informatika. 4. Setia Astuti, SSI, M.Kom, selaku pembimbing tugas akhir yang memberikan bimbingan yang berkaitan dengan penelitian penulis. 5. Ardhyta Luthfiarta, M.Kom., M.Cs, yang memberikan masukan dan saran kepada penulis. 6. Dosen-dosen Fasilkom Universitas Dian Nuswantoro Semarang yang telah memberikan ilmu sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan. 7. Keluarga dan rekan-rekan mahasiswa Fasilkom Universitas Dian Nuswantoro yang telah memberikan dukungan material dan moral kepada penulis. Semoga Tuhan yang Maha Esa memberikan balasan yang lebih besar kepada beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya. Semarang, 27 September 2013 Penulis vi ABSTRAK Kelulusan mahasiswa merupakan masalah penting dalam suatu lembaga pendidikan karena mempengaruhi pandangan publik terhadap kredibilitas suatu instansi pendidikan. Selain itu kelulusan mahasiswa dianggap sebagai indikator keberhasilan perguruan tinggi baik negeri atau swasta. Penelitian untuk memprediksi kelulusan mahasiswa dengan teknik data mining telah banyak dilakukan dan menunjukan bahwa Neural Network memiliki akurasi lebih baik dibanding Naïve Bayes dan C4.5. Namun Neural Network mempunyai kelemahan terutama karena solusi yang dihasilkan bersifat local optimum. Metode prediksi lain yang bisa mengatasi kelemahan Neural Network salah satunya yaitu Support Vector Machine yang mampu memberikan solusi secara global optimum. Penelitian ini membandingkan antara Support Vector Machine dan Neural Network untuk menyelesaikan masalah prediksi kelulusan mahasiswa. Desain penelitian menggunakan model proses CRISP-DM yang merupakan standart proses dalam penelitian data mining. Proses validasi menggunakan tenfold-cross validation, sedangkan pengujian modelnya menggunakan confusion matrix dan kurva ROC. Hasil pengujian menunjukan Support Vector Machine memiliki akurasi sebesar 81.17% dan nilai AUC 0.882 sedangkan Neural Network memiliki akurasi sebesar 78.83% dan nilai AUC sebesar 0.858. Kata kunci : Kelulusan mahasiswa, data mining, teknik prediksi, Support Vector Machine, Neural Network. xv + 73 halaman; 31 gambar; 24 tabel; 2 lampiran Daftar acuan: 15 (2005 – 2013) vii ABSTRACT The graduation of students is an important issue in an institution because it affects the public view of the credibility of an educational institution. Besides the graduation students are regarded as an indicator of the success of the College both public or private. Research for predicting graduation students with techniques of data mining has been widely performed and indicates that the Neural Network has accuracy better than Naive Bayes and C 4.5. But the Neural Network has a weakness mainly because of the resulting solution is a local optimum. Other prediction methods that could address the Neural Network is one that Support Vector Machine that is able to provide optimum solutions globally. This study compares between Support Vector Machine and Neural Network to solve the problem of prediction of graduation students. Design research process model using CRISP-DM which is a standard process in research on data mining. The validation process using tenfold cross-validation, while testing his model using the confusion matrix and ROC curves. The test results showed Support Vector Machine has an accuracy of 81.17% and AUC values of Neural Network while 0.882 have accuracy of 78.83% and AUC values of 0.858. Keyword : Graduation, data mining, prediction, Support Vector Machine, Neural Network viii DAFTAR ISI Halaman Halaman Sampul Dalam i Halaman Persetujuan ii Halaman Pengesahan iii Halaman Pernyataan Keaslian Tugas Akhir iv Halaman Pernyataan Persetujuan Publikasi v Halaman Ucapan Terimakasih vi Halaman Abstrak vii Halaman Daftar Isi ix Halaman Daftar Tabel xi Halaman Daftar Gambar xii Halaman Daftar Lampiran xiv Halaman Arti Lambang, Singkatan dan Istilah xv BAB I PENDAHULUAN 1 1.1 1.2 1.3 1.4 1.5 1 3 4 4 4 Latar belakang Rumusan masalah Batasan masalah Tujuan Manfaat BAB II LANDASAN TEORI 2.1 2.2 5 Tinjauan studi Tinjauan Pustaka 2.2.1 Kelulusan Mahasiswa 2.2.2 Data mining 2.2.3 CRISP-DM 2.2.4 Support Vector Machine 2.2.5 Artificial Neural Network ix 5 9 9 9 12 13 19 2.3 2.2.6 Cross validation 2.2.7 Confusion matrix 2.2.8 Kurva ROC Model Kerangka pemikiran BAB III METODE PENELITIAN 3.1 3.2 31 Desain penelitian 3.1.1 Pengumpulan data 3.1.1.1 Pemahaman bisnis 3.1.1.2 Pemahaman data 3.1.2 Pengolahan data 3.1.3 Pemodelan data 3.1.4 Validasi dan evaluasi 3.1.5 Penyebaran (Deployment) Alat penelitian BAB IV HASIL PENELITIAN DAN PEMBAHASAN 4.1 4.2 4.3 4.4 Hasil eksperiment dan pengujian metode 4.1.1 Support Vector Machine 4.1.2 Neural Network Evaluasi dan Validasi Hasil 4.2.1 Hasil pengujian model 4.2.1.1 Support Vector Machine Linear 4.2.1.2 Artificial Neural Network 4.2.2 Analisis evaluasi dan validasi model Pembahasan Implementasi penelitian BAB V PENUTUP 5.1 5.2 27 27 29 30 31 31 31 32 33 35 36 37 37 38 38 38 39 49 51 51 55 58 60 61 64 Kesimpulan Saran 64 64 DAFTAR PUSTAKA 66 LAMPIRAN 68 x DAFTAR TABEL Halaman Tabel 2.1 State of the art 6 Tabel 2.2 Problem AND 18 Tabel 2.3 Keterangan persamaan confusion matrix 28 Tabel 2.4 Contoh confusion matrik 29 Tabel 3.1 Ilustrasi missing data pada data training 33 Tabel 3.2 Data Training setelah dilakukan validasi 34 Tabel 3.3 Atribut yang digunakan 35 Tabel 3.4 Spesifikasi Software dan Hardware 37 Tabel 4.1 Hasil pengujian dengan SVM – linear 38 Tabel 4.2 Attribut weight dengan metode Support Vector Machine Linear 38 Tabel 4.3 Nilai bobot akhir untuk hidden layer dengan 4 layer 43 Tabel 4.4 Nilai bobot akhir untuk hidden layer dengan 6 layer 43 Tabel 4.5 Nilai bobot akhir untuk hidden layer dengan 8 layer 44 Tabel 4.6 Nilai bobot akhir untuk hidden layer dengan 10 layer 45 Tabel 4.7 Nilai bobot akhir untuk hidden layer dengan 12 layer 46 Tabel 4.8 Nilai bobot akhir untuk output layer dengan 4 Layer 47 Tabel 4.9 Nilai bobot akhir untuk output layer dengan 6 Layer 47 Tabel 4.10 Nilai bobot akhir untuk output layer dengan 8 layer 47 Tabel 4.11 Nilai bobot akhir untuk output layer dengan 10 layer 48 Tabel 4.12 Nilai bobot akhir untuk output layer dengan 12 layer 48 Tabel 4.13 Hasil pengujian dengan Neural Network 48 Tabel 4.14 Nilai accuracy, tn, tp, fn, dan fp untuk metode SVM – Linear 54 Tabel 4.15 Nilai accuracy, tn, tp, fn, dan fp untuk metode Neural Network Backpropagation 57 Tabel 4.16 Perbandingan performance metode Support Vector Machine dan Neural Network 58 xi DAFTAR GAMBAR Halaman Gambar 2.1 Siklus CRISP-DM .....................................................................12 Gambar 2.2 Hyperplane yang mungkin untuk set data .................................14 Gambar 2.3 Margin hyperplane.....................................................................15 Gambar 2.4 Arsitektur Neural Network MLP ...............................................20 Gambar 2.5 Ilustrasi tenfold cross validation ...............................................27 Gambar 2.6 Confusion matrix untuk 2 model kelas......................................28 Gambar 2.7 Kerangka pemikiran ..................................................................30 Gambar 3.1 Data yang dilampirkan Hilda.....................................................23 Gambar 3.2 Model yang diusulkan ...............................................................23 Gambar 4.1 Pramater yang digunakan pada pelatihan Neural Network ......39 Gambar 4.2 Neural Net dengan 4 layer.........................................................40 Gambar 4.3 Neural Net dengan 6 layer.........................................................40 Gambar 4.4 Neural Net dengan 8 layer.........................................................41 Gambar 4.5 Neural Net dengan 10 layer .......................................................41 Gambar 4.6 Neural Net dengan 12 layer .......................................................42 Gambar 4.7 Desain model validasi................................................................49 Gambar 4.8 Desain model validasi Support Vector Machine .......................50 Gambar 4.9 Desain model validasi Neural Network.....................................51 Gambar 4.10 Confusion matrix metode SVM-Linear ditampilkan oleh RapidMiner................................................................................52 Gambar 4.11 Perbandingan prediksi benar dan prediksi salah menggunakan SVM ..........................................................................................52 xii Gambar 4.12 Tingkat akurasi dengan metode SVM . .....................................53 Gambar 4.13 Hasil performa AUC metode SVM-Linear ditampilkan oleh kurva ROC pada RapidMiner...................................................54 Gambar 4.14 Confusion matrix metode Neural Network ditampilkan oleh RapidMiner ...............................................................................55 Gambar 4.15 Perbandingan prediksi benar dan salah dengan metode Nueral Network ....................................................................................56 Gambar 4.16 Tingkat akurasi menggunakan metode Neural Network Backpropagation .......................................................................56 Gambar 4.17 Hasil performa AUC metode Neural Network ditampilkan oleh kurva ROC pada RapidMiner ...........................................58 Gambar 4.18 Grafik perbedaan tingkat akurasi antara metode SVM dan Neural Network .........................................................................59 Gambar 4.19 Grafik perbandingan performa AUC antara Support Vector Machine dan Nural Network .....................................................60 Gambar 4.20 Tampilan awal sistem pendukung keptutusan ..........................61 Gambar 4.21 Tampilan sistem prediksi dengan satu data input .....................62 Gambar 4.22 Tampilan sistem prediksi dengan data input import dari file Excel . ..........................................................................62 xiii DAFTAR LAMPIRAN Halaman Lampiran 1 Data Mahasiswa ......................................................................... 68 Lampiran 2 Data Training ............................................................................. 71 xiv ARTI LAMBANG, SINGKATAN DAN ISTILAH SVM = Support Vector Machine ANN = Artificial Neural Network TA = Tugas akhir ROC = Receiver Operating Characteristic AUC = Area Under Curve CRIPS-DM = Cross-Industry Standart Proses for Data Mining TP = True Positives TN = True Negatives FP = False Positives FN = False Negatives xv BAB I PENDAHULUAN 1.1 Latar Belakang Mahasiswa merupakan elite masyarakat dengan ciri intelektual yang lebih komplek dibanding kelompok seusia mereka yang bukan mahasiswa, atau usia lain di bawah mahasiswa. Kemampuan mahasiswa dalam mencari pemecahan masalah yang lebih sistematis merupakan ciri intelektual yang dimiliki mahasiswa [1]. Sehingga waktu perkuliahan di perguruan tinggi merupakan waktu yang penting bagi mahasiswa untuk melatih intelektualitas agar nanti bisa bersaing di dunia kerja dan masyarakat. Perguruan tinggi merupakan satuan pendidikan yang menjadi terminal terakhir bagi seseorang yang berpeluang belajar setinggi-tingginya melalui jalur pendidikan sekolah [1]. Perguruan tinggi yang baik dituntut untuk memiliki keunggulan bersaing dan memanfaatkan sumber daya yang dimiliki. Selain sumber daya manusia, sarana, dan prasana, sistem informasi adalah salah satu sumber daya yang bisa meningkatkan keunggulan bersaing. Sistem informasi dapat digunakan salah satunya untuk menunjang kegiatan pengambilan keputusan yang tepat dan strategias. Dalam sistem pendidikan di perguruan tinggi, mahasiswa dan dosen dianggap sebagai asset utama dan mereka ingin terus meningkatkan indikator indikator kunci mereka dengan menggunakan asset secara efektif dan efisien [4]. Salah satu masalah yang harus diperhatikan dalam meningkatkan kualitas asset tersebut adalah upaya meningkatkan jumlah kelulusan mahasiswa dengan tepat waktu. Administrator di institusi pendidikan selalu berusaha meningkatkan tingkat kelulusan untuk berbagai alasan. Pertama, disebabkan karena misi masing-masing institusi pendidikan untuk menghasilkan lulusan yang menjadi anggota produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa. Selain itu, masing-masing institusi pendidikan selalu 1 2 beranggapan bahwa jumlah mahasiswa yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga [1]. Mahasiswa yang tidak lulus tepat waktu juga akan mempengaruhi pandangan publik terhadap kredibilitas suatu instansi pendidikan. Tingkat penurunan kelulusan mahasiswa yang signifikan dan terus berkembang adalah sebuah masalah yang ada pada perguruan tinggi karena akan berpengaruh pada akreditasi perguruan tinggi tersebut [1]. Sehingga perlu adanya evaluasi terhadap kecenderungan mahasiswa lulus tepat waktu atau tidak. Prediksi awal terhadap ketapatan waktu kelulusan adalah hal yang penting bagi institusi untuk meningkatkan kebijakan selanjutnya. Mahasiswa yang pada pertengahan waktu perkuliahan terindikasi beresiko terlambat lulus perlu mendapat perlakuan khusus agar meningkatkan kegigihan belajar mahasiswa sehingga mampu lulus tepat waktu. Beberapa peneliti sebelumnya menggunakan teknik data mining untuk menyelesaikan masalah prediksi terhadap ketepatan waktu kelulusan mahasiswa [1][3][4]. Data mining merupakan suatu cara untuk memanfaatkan data yang berjumlah besar dan kompleks dengan menganalisis secara otomatis data untuk menemukan suatu pola yang penting dan tersembunyi di dalamnya yang mungkin selama ini tidak disadari keberadaanya. Data mining bisa dikelompokkan berdasar tugas – tugas yang dapat dilakukan yaitu deskripsi, estimasi, prediksi, klasifikasi, pengklusteran dan asosiasi [8]. Beberapa teknik yang telah digunakan oleh para peneliti dan berhasil untuk membuat model prediksi pada data mahasiswa diantaranya Artificial Neural Network [1], Decision Tree [4], dan Naive Bayes [3][6]. Kemudian penelitian dilanjutkan dengan membandingkan tingkat akurasi ketiga metode data mining tersebut dan menunjukan bahwa Artificia Neural Network (ANN) mempunyai akurasi terbaik dari ketiga model tersebut [1]. Namun hasil akurasi yang dihasilkan model ANN tersebut masih dianggap kurang sehingga diperlukan metode lain untuk mendapatkan hasil akurasi yang lebih baik. 3 Artificial Neural Network (ANN) dikenal mempunyai kelebihan pada kemampuan untuk mentoleransi kesalahan, baik untuk prediksi nonlinear, dan kuat pada parallel processing. Namun Artificial Neural Network (ANN) mempunyai kelemahan karena sifatnya yang local optimum, menyebabkan solusi yang dihasilkan pada setiap training selalu berbeda, membutuhkan data training yang besar, lambatnya konvergensi, dan over-fitting [8]. Metode data mining lain yang dapat digunakan untuk prediksi dan klasifikasi salah satunya adalah Support Vector Machine (SVM). Teknik ini mampu mengatasi masalah yang ada pada ANN seperti over-fitting, sedikitnya data training, dan lambatnya konvergensi [8]. Teknik SVM ini relatif baru, ditemukan pada tahun 1995 dan populer di waktu sekarang. Teknik ini sudah digunakan oleh para peneliti dan para ahli untuk menyelesaikan masalah prediksi pada dunia nyata seperti pada prediksi cuaca, finansial, dan bidang kedokteran. Dalam banyak implementasi, SVM memberi hasil yang lebih baik dari teknik prediksi lain seperti Artificial Neural Network (ANN) [7]. Sehingga pada penelitian ini akan dilakukan penerapan metode Support Vector Machine (SVM) pada kasus prediksi ketepatan kelulusan mahasiswa kemudian dibandingkan hasil akurasinya dengan metode Artificial Neural Network yang dipakai peneliti sebelumnya [1] untuk mengetahui metode yang lebih baik dalam menyelesaikan masalah prediksi kelulusan mahasiswa. 1.2 Rumusan Masalah Berdasarkan latar belakang di atas, rumusan masalah pada penelitian ini adalah membandingkan model prediksi ketepatan waktu kelulusan mahasiswa menggunakan metode Support Vector Machine (SVM) dan metode Artificial Neural Network untuk mengetahui metode mana yang lebih baik. 4 1.3 Batasan Masalah Batasan masalah yang ada pada penelitian ini adalah sebagi berikut : 1. Fokus penelitian ini terbatas pada penggunaan metode Support Vector Machine linear untuk memprediksi kelulusan mahasiswa. 2. Atribut yang digunakan adalah fakultas, usia, jenis kelamin, IP semester 1, IP semester 2, IP semester 3, dan IP semester 4. 3. Pengujian masing - msiang metode pada penelitian ini menggunakan bantuan tool RapidMiner 5.3. 1.4 Tujuan Penelitian Tujuan dari penelitian ini adalah membuktikan apakah teknik Support Vector Machine linear (SVM) mempunyai akurasi yang lebih baik dibandingkan dengan metode Artificial Neural Network pada kasus prediksi ketepatan kelulusan mahasiswa. 1.5 Manfaat Penelitian a. Bagi Masyarakat dan Ilmu Pengetahuan Memberikan kontribusi pada ilmu pengetahuan khususnya di bidang data mining dalam membandingkan penggunaan algortima dan teknik yang berbeda pada kasus yang sama. b. Bagi Akademik Model prediksi yang dihasilkan pada penelitian ini dapat digunakan oleh software developer dan programmer untuk mengembangkan aplikasi yang bisa digunakan untuk memprediksi ketepatan kelulusan. c. Bagi Peneliti Memberikan kontribusi keilmuan pada penelitian bidang klasifikasi data mining khususnya untuk prediksi kelulusan mahasiswa. 5 BAB II LANDASAN TEORI Pada penelitian tugas akhir ini, referensi yang digunakan dalam penulisan antara lain menggunakan buku – buku, beberapa jurnal baik jurnal nasional maupun internasional, serta beberapa tesis yang berkaitan dengan topik prediksi data mining. 2.1 Tinjauan studi Ada beberapa jurnal dan artikel penelitian yang berhubungan dengan prediksi menggunakan teknik data mining yang punya keterkaitan pada panelitian ini. 1. Drop Out Feature of Student Data for Academic Using Decision Tree Techniques [4] Penelitian yang dilakukan oleh Quadri & Kaylanyar pada tahun 2010 menggunakan metode decision tree dangan algoritma J4.8 dan C4.5 untuk memodelkan prestasi akademik siswa. 2. Graduation Prediction of Gunadarma Student Using Naïve Bayes and Decision Tree [9] Penelitian ini membandingkan metode Naive Bayes dan C4.5 untuk memprediksi kelulusan mahasiswa berdasarkan variabel IPS (indek prestasi semester), dan gaji orang tua. 3. Perbandingan Klasifikasi Tingkat Keganasan Breast Cancer Dengan Menggunakan Regresi Logistik Ordinal dan Support Vector Machine (SVM) Penelitian yang dilakukan oleh Farizi Rachman dan Santi Wulan Purnami pada tahun 2012 ini menggunakan metode Support Vector Machine dan Regresi Logistik Ordinal untuk menganalisa tingkat keganasan breast cancer. 6 4. Analisa dan Komparasi Metode Klasifikasi Data Mining untuk Prediksi Kelulusan Mahasiswa [1]. Dengan menggunakan tiga metode data mining C4.5, Naive Bayes, dan Neural Network, Hilda Amalia pada tahun 2012 membandingkan tingkat akurasi ketiga metode untuk memprediksi kelulusan mahasiswa. Variabel yang digunakan pada penelitian ini antara lain fakultas, jenis kelamin, umur, dan indek prestasi semester (IPS). Tabel 2.1: State of The Art T a No Peneliti h Judul u n Drop Out Feature of Student 2 Data for Quadri dan 0 1 Academic Kaylanyar 1 Using 0 Decision Tree Techniques Meto de Hasil Catatan Decis ion Tree, C4.5, dan J.48 N.A N.A Prediksi ketepatan Graduation kelulusan Prediction dengan of algoritma C4.5 Gunadarma Naive 85,7% dan error Student Bayes 14,3%, Using Naïve , C4.5 sedangkan Bayes and algoritma naïve Decision bayes 80,85% Tree dan error 19,05% 2 Marselina Silvia Suhartinah , Ernastuti 2 0 1 0 3 Farizi Rachman dan Santi Wulan Purnami Perbandinga 2 n Klasifikasi 0 Tingkat 1 Keganasan 0 Breast Regre si Logis tik Ordin Berdasarkan hasil penelitian dengan metode regresi logistik ordinal, Data training yang digunakan terbatas yaitu sebanyak 65 record data dan ketidaklengkapan data yang diperoleh. Untuk mengetahui kinerja masing – masing algoritma yang lebih baik diperlukan data yang lebih besar mendekati jumlah data sesungguhnya. N.A 7 Cancer Dengan Menggunak an Regresi Logistik Ordinal dan Support Vector Machine (SVM) 4 Yakub Kara, Melek Acar, Omeer Kaan 2 0 1 0 5 Hangsen Wang, Phinchhan g Ou 2 0 0 9 al dan Supp ort Vecto r Mach ine (SV M) Prediction Direction of Stock Price Index Movement SVM using ANN dan and SVM: ANN The Sample of the Istanbul Stock Excahnge LDA, QDA, KNN, Naive Prediction Bayes of Stock Classi Market ficati Index on, Movement Logit by Ten Data Mode Mining l, Techniques Decis ion Tree, Neura l menunjukka ketepatan klasifikasi tertinggi 56.60%. Sedangkan dengan menggunakan SVM ketepatan klasifikasi tertinggi dengan menggunakan kernel RBF dan polynomial mencapai 98.11% ANN memiliki rata - rata kinerja prediksi lebih bagus dibanding SVM. Rata rata akurasi dari ANN sekitar 75,74 % sedangkan SVM sekitar 71,52 %. SVM dan LSSVM merupakan teknik yang paling baik digunakan untuk memprediksi pergerakan data saham. Karena secara teoritis SVM tidak membutuhkan asumsi apriori di properti data. Dan algortima SVM memberi Peneliti menyatakan bahwa akurasi bisa lebih tinggi jika parameter bisa disesuaikan dengan tepat atau dengan cara mengganti inputan pembentuk model atau dataset yang digunakan. N.A. 8 Netw hasil yang ork, paling optimal. SVM, LSSVM 6 Hida Amalia 2 0 1 2 Algoritma C4.5 menghasilkan nilai akurasi yaitu 74.33% dan nilai AUC yaitu 0.787, 2. Naïve Bayes Analisa dan Naive menghasilkan Komparasi Bayes nilai akurasi Metode , yaitu 69.72% Klasifikasi C4.5, dan nilai AUC Data Mining dan yaitu 0.829, 3. untuk Neura Neural Network Prediksi l menghasilkan Kelulusan Netw nilai akurasi Mahasiswa ork yaitu 78.29% dan nilai AUC yaitu 0.848, 4. Nilai akurasi dan AUC tertinggi adalah metode Neural Network Nilai akurasi dan AUC tertinggi untuk penelitian ini diperoleh oleh metode neural network dengan nilai 78.13% dan 0.848.Sehingga dapat dilakukan perbandingan lagi dengan metode klasifikasi data mining lainnya Berdasarkan tinjauan studi di atas beberapa peneliti telah berhasil membuat model untuk memprediksi kelulusan mahasiswa, namun hasil akurasi tertinggi dengan metode Artificial Neural Network sebesar 78.29% diharapkan masih bisa ditingkatkan. Oleh karena itu diperlukan metode lain agar akurasi prediksi kelulusan bisa ditingkatkan. Support Vector Machine (SVM) digunakan beberapa peneliti untuk menyelesaikan beberapa kasus dan akurasi yang dihasilkan terbukti baik. Sehingga pada penelitian ini akan dibandingkan metode Support Vector Machine (SVM) dan Neural Network pada kasus prediksi ketepatan waktu kelulusan mahasiswa untuk mengetahui metode yang mempunyai akurasi lebih baik. 9 2.2 Tinjauan Pustaka 2.2.1 Kelulusan Mahasiswa Mahasiswa merupakan salah satu kelompok masyarakat elite yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut [1]. Kelulusan mahasiwa merupakan hal yang penting untuk diperhatikan, karena penurunan jumlah kelulusan akan menghilangkan jumlah pendapatan institusi dan juga akan berpengaruh pada penilaian pemerintah dengan bentuk status akreditasi institusi [1]. Beberapa faktor yang dapat mempengaruhi kelulusan mahasiswa antara lain adalah nilai akhir SMA, Indeks Prestasi Semester (IPS), gaji orang tua dan pekerjaan orang tua [9]. 2.2.2 Data Mining Data mining adalah suatu proses analisa terhadap kumpulan data yang biasanya berukuran besar dengan menggunakan teknik pengenalan pola sepeti teknik statistik dan matematika untuk menemukan hubungan yang jelas dan pola yang tersembunyi guna memberikan informasi dan berguna bagi pemilik data [8][12]. Salah satu teknik data mining adalah klasifikasi yang tujuanya untuk menilai suatu objek data yang kemudian memasukkanya ke dalam kelas tertentu dari beberapa kelas yang tersedia. Beberapa metode yang dapat ditrapakan pada teknik klasifikasi data mining antara lain Nearest Neighbor Classifer, Naive Bayes Classifer, Artificial Neural Network, dan Support Vector Machine [13]. 10 Berdasarkan tugasnya, data mining dikelompokkan menjadi [5]: 1. Deskripsi Mencari cara untuk menggambarkan pola dan trend yang terdapat dalam data. Sebagai contoh, seorang pengumpul suara mengungkap bukti bahwa mereka yang diberhentikan dari jabatannya saat ini, akan kurang mendukung dalam pemilihan presiden. Untuk deskripsi exploratory data analysis, ini bisa dilakukan yaitu metode dengan grafik untuk menelusuri data dalam mencari pola dan tren. 2. Estimasi Estimasi mirip seperti klasifikasi tapi variabel sasaran adalah numerik. Model dibuat menggunakan record yang lengkap, juga ada variable targetnya. Kemudian untuk data baru, estimasi nilai variable target dibuat berdasarkan nilai prediktor. Contoh, untuk estimasi tekanan darah pada pasien, variabel prediktornya umur, jenis kelamin, berat badan, dan tingkat sodium darah. Hubungan antara tekanan darah, dan variable prediktor pada data training akan menghasilkan model kemudian diaplikasikan pada data baru. Untuk melakukan estimasi bisa digunakan neural network atau metode statistic seperti point estimation dan confidence interval estimations, simple linear regression dan correlation, dan multiple regression. 3. Prediksi Prediksi mirip seperti klasifikasi dan estimasi, tapi hasilnya untuk memprediksi masa depan. Contoh, memprediksi harga barang tiga bulan mendatang, memprediksi presentasi kenaikan angka kematian karena kecelakaan tahun mendatang jika kecepatan berkendara dinaikkan. Metode dan teknik untuk klasifikasi dan estimasi, jika cocok, bisa juga digunakan untuk 11 prediksi, termasuk metode statistik. Algoritma untuk prediksi antara lain regression tree dan model tree. 4. Klasifikasi Dalam klasifikasi, sasarannya adalah variabel kategori, misalkan atribut penghasilan, yang bisa dikategorikan menjadi tiga kelas atau kategori yaitu, tinggi, sedang, dan rendah. Model data mining membaca sejumlah besar record tiap record berisi informasi pada variabel target. Contoh, dari sebuah data set misalkan mau mengklasifikasikan penghasilan seseorang yang datanya tidak terdapat pada dataset, berdasarkan karakteristik yang berhubungan dengan orang itu seperti, umur, jenis kelamin, dan pekerjaan. Tugas klasifikasi ini cocok untuk metode dan teknik data mining. Algoritma akan mengolah dengan cara membaca data set yang berisi variabel predictor dan variabel taget yang telah diklasifikasikan, yaitu penghasilan. Di sini algoritma (software) “mempelajari” kombinasi variabel mana yang berhubungan dengan penghasilan yang mana. Data ini disebut training set. Kemudian algoritma akan melihat ke data baru yang belum termasuk klasifikasi manapun. Berdasarkan klasifikasi pada data set kemudian algoritma akan memasukkan data baru tersebut ke dalam klasifikasi yang mana. Misalkan seorang professor wanita berusia 63 tahun bisa jadi diklasifikasikan ke dalam kelas penghasilan tinggi. Algoritma klasifikasi yang banyak digunakan secara luas untuk klasifikasi antara lain decision tree, bayesian classifier, dan neural network [15]. 5. Clustering Clustering mengacu pada pengelompokkan record-record, observasi, atau kasus-kasus ke dalam kelas-kelas dari objek yang mirip. Pada clustering tidak ada variabel sasaran. Sebuah cluster adalah koleksi record yang mirip satu sama lain, dan 12 tidak mirip dengan record pada cluster. Tidak seperti klasifikasi, pada clustering tidak ada variabel target. Clustering tidak menglasifikasi atau mengestimasi atau memprediksi tetapi mencari untuk mensegmentasi seluruh data set ke subgroup yang relative sejenis atau cluster, dimana kemiripan record di dalam cluster dimaksimalkan dan kemiripan dengan record di luar cluster diminimalkan. Contoh clustering, untuk akunting dengan tujuan audit untuk mensegmentasi financial behaviour. 2.2.3 CRISP-DM Cross-Industry Standart Proses for Data Mining (CRIPS-DM) dikembangkan pada tahun 1996 oleh analis dari beberapa industri dan menunjukan standart proses penelitian data mining sebagai strategi pemecahan masalah dari bisnis atau unit penelitian [8]. Siklus hidup CRISP-DM terbagi menjadi 6 fase yaitu : Gambar 2.1: Siklus CRISP-DM [8] 13 a. Pemahaman Bisnis (Business Understanding) Merupakan tahap awal yaitu pemahaman penelitian, penentuan tujuan dan rumusan masalah data mining. b. Pemahaman Data (Data Understanding) Dalam tahap ini dilakukan pengumpulan data, mengenali lebih lanjut data yang akan digunakan. c. Pengolahan Data (Data Preparation) Tahap ini adalah pekerjaan berat yang perlu dilaksanakan secara intensif. Memilih kasus atau variable yang ingin dianalisis, melakukan perubahan pada beberapa variable jika diperlukan sehingga data siap untuk dimodelkan. d. Pemodelan (Modeling) Memilih teknik pemodelan yang sesuai dan sesuaikan aturan model untuk hasil yang maksimal. Dapat kembali ke tahap pengolahan untuk menjadikan data ke dalam bentuk yang sesuai dengan model tertentu. e. Evaluasi (Evaluation) Mengevaluasi satu atau model yang digunakan dan menetapkan apakah terdapat model yang memenuhi tujuan pada tahap awal. Kemudian menentukan apakah ada permasalahan yang tidak dapat tertangani dengan baik serta mengambil keputusan hasil penelitian. f. Penyebaran (Deployment) Menggunakan model yang dihasilkan seperti pembuatan laporan atau dijadikan sebuah sistem pendukung keputusan dan penerapan proses data mining pada departemen lain. 2.2.4 Support Vector Machine (SVM) Support Vector Machine (SVM) merupakan metode klasifikasi jenis terpandu (supervised) yang memerlukan target pembelajaran tertentu dalam proses pelatihan [12]. Ide dasar dari SVM adalah 14 berusaha untuk mencari fungsi pemisah (klasifier/hyperplane) yang mampu memisahkan dua set data dari dua kelas yang berbeda [9]. SVM mencoba mencari hyperplane dangan margin yang maksimal agar mampu memberikan generalisasi yang lebih baik pada metode klasifikasi, meskipun sebenarnya juga bisa dengan menggunakan sembarang hyperplane [13]. Cara kerja SVM diilustrasikan pada gambar 2.2 berikut : Gambar 2.2: Hyperplane yang mungkin untuk set data Pada gambar 2.2 (a) menunjukan beberapa hyperplane yang mungkin untuk set data. Sedangkan gambar 2.2 (b) menunjukan hyperplane dengan margin yang paling maksimal. Usaha untuk mencari lokasi hyperplane merupakan inti dari proses pelatihan pada SVM. Gambar 2.2 memperlihatkan beberapa pola yang merupakan anggota dari dua buah kelas data. Data yang tergabung ke dalam kelas -1 disimbolkan dalam bentuk lingkaran, sedangkan pada kelas +1 disimbolkan dengan bentuk bujur sangkar. Data yang paling dekat dengan hyperplane disebut support vector. SVM linear digunakan untuk menyelesaikan masalah klasifikasi secara linear. Setiap data training akan dinyatakan dengan (xi,yi), dimana i = 1, 2, ... , N dan xi = {xi1, xi2, ..., xiq) merupakan atribut 15 (fitur) set untuk data training ke-i. yi ∈{-1+1} menyatakan lebel kelas [13]. Diasumsikan kedua kelas –1 dan +1 dapat terpisah secara sempurna oleh hyperplane, maka didefinisikan: w .x + b = 0 (2-1) w dan b adalah parameter model. w . x merupakan inner-product dalam antara w dan x . Sebuah pattern x yang termasuk kelas -1 (sampel negatif) dapat dirumuskan sebagai pattern yang memenuhi pertidaksamaan: w . x + b ≤ −1 (2-2) w . x + b ≥ +1 (2-3) sedangkan pattern yang termasuk kelas +1 (sampel positif): Gambar 2.3: Margin Hyperplane 16 Sesuai dengan gambar 2.3 di atas, jika ada data dalam kelas -1 (misalnya, x ) yang bertempat di hyperplane, maka persamaan 2-1 akan terpenuhi. Untuk data kelas -1 dinotasikan dengan w .x + b = 0 (2-4) w .x + b = 0 (2-5) w . (x − x ) = 0 (2-6) Sementara kelas +1 (misal x ) akan memenuhi persamaan Dengan mengurangi persamaan 2-5 dengan 2-4 didapatkan x − x adalah vektor paralel di posisi hyperplane dan diarahkan dari x ke x . Karena inner product dalam bernilai nol, arah w harus tegak lurus terhadap hyperplane sesuai gambar 2.3. Dengan memberikan label -1 untuk kelas pertama dan +1 untuk kelas kedua, prediksi semua data uji dapat didefinisikan menggunakan formula: y={ , , . . (2-7) Sesuai gambar 2.3, hyperplane untuk kelas -1 (garis putus-putus) adalah data pada support vector yang memenuhi persamaan w. x + b = −1 (2-8) Sementara hyperplane kelas +1 (garis putus-putus) memenuhi persamaan w. x + b = +1 (2-9) Sehingga margin dapat dihitung dengan mengurangi persamaan (2-9) dengan (2-8) didapatkan 17 w. (x − x ) = 2 (2-10) Margin hyperplane diberikan oleh jarak antara dua hyperplane dari dua kelas tersebut. Notas di atas diringkas menjadi |w| x d = 2 atau d = || (2-11) || Klasifikasi kelas data pada SVM pada persamaan (2-2) dan (2-3) dapat digabungkan dengan notasi y (w. x + b) ≥ 1, i = 1, 2, 3, … , N (2-12) Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak antara hyperplane dan titik terdekatnya. Jarak ini dirumuskan dengan persamaan (2-11) ( |w| adalah vektor bobot w). Selanjutnya masalah ini diformulasikan ke dalam Quadratic programming (QP) problem, dengan meminimalkan invers persamaan (2-11) syarat sebagai berikut: |w| , di bawah Minimalkan : |w| (2-13) Syarat : y (w. x + b) ≥ 1, i = 1, 2, 3, … , N Problem ini dapat dipecahkan dengan berbagai teknik komputasi, diantaranya Lagrange Multiplier sebagaimana ditunjukkan pada persamaan (2-14) = 1 |w| − 2 i y (x . w + b) − 1 ( = 1, 2, … ) (2 − 14) αi adalah Lagrange multipliers, yang bernilai nol atau positif (αi ≥ 0). Nilai optimal dari persamaan (2-14) dapat dihitung dengan 18 meminimalkan L terhadap w dan b , dan memaksimalkan L terhadap αi. Dengan memperhatikan sifat bahwa pada titik optimal gradient L = 0, persamaan langkah (2-14) dapat dimodifikasi sebagai maksimalisasi problem yang hanya mengandung αi saja, sebagaimana persamaan (215). Maximize : (2-15) Subject to : (2-16) Dari hasil dari perhitungan ini diperoleh αi yang kebanyakan bernilai positif. Data yang berkorelasi dengan αi yang positif inilah yang disebut sebagai support vector.. Untuk menunjukan ilustrasi cara kerja SVM Linear, kita gunakan problem AND dimana data bisa dipisahkan secara linier sehingga tidak diperlukan kernelisasi dalam pemetaan. Langkah pertama adalah mengkonversi data set agar sesuai dengan format SVM karena SVM mensyaratkan bahwa kelas yang digunakan memakai nilai -1 dan +1 ditunjukan pada tabel 2.1. Tabel 2.2: Problem AND [13] x 1 1 -1 -1 x 1 -1 1 -1 kelas (y) 1 -1 -1 -1 Karena ada dua fitur / atribut (x1 dan x2) maka w juga akan mempunyai dua fitur (w1 dan w2). Formulasi yang bisa digunakan adalah sebagai berikut : Minimalkan : (w + w ) 19 Syarat: y (w. x + b) ≥ 1, i = 1, 2, 3, … , N 1. (w + w + b ≥ 1) , untuk y = 1; x = 1; x = 1 2. (−w + w − b ≥ 1) , untuk y = −1; x = 1; x = −1 3. (w − w − b ≥ 1) , untuk y = −1; x = −1; x = 1 4. (w + w − b ≥ 1) , untuk y = −1; x = −1; x = −1 Dengan menjumlahkan persamaan syarat (1) dan (2) di dapatkan w = 1; dengan menjumlahkan persamaan syarat (1) dan (3) didapatkan w = 1; dengan menjumlahkan persamaan syarat (2) dan (3) didapatkan b = -1 sehingga persamaan yang didapat adalah f(x) = w x + w x + b f(x) = x + x − 1 Persamaan fungsi pemisahnya adalah f(x) = x1 + x2 – 1 Untuk menentukan output atau label dari setiap titik data/obyek kita gunakan fungsi g(x) = sign(x). Dengan fungsi sign ini semua nilai f(x) < 0 diberi label −1 dan lainnya diberi label +1 [6]. 2.2.5 Artificial Neural Network (ANN) Neural network adalah suatu usaha untuk meniru fungsi otak manusia. Otak manusia diyakini terdiri dari jutaan unit pengolahan kecil, yang disebut neuron, yang bekerja secara parallel [1]. Artificial Neural Network merupakan metode yang popular untuk modeling data dan analis sejak tahun1980. Ide dari ANN diperkenalkan untuk menstimulasi mekanisme kerja biologis jaringan syaraf, yang terdiri dari bermacam-macam unit yang disebut neuron dan terhubung satu sama lain. ANN berusaha untuk meniru struktur dan cara kerja otak manusia sehingga mampu menggantikan beberapa perkerjaan manusia. Pekerjaan seperti mengenali pola (pattern recognition), prediksi, 20 klasifikasi, pendekatan fungsi optomasi adalah pekerjaan-pekerjaan yang diharapkan bisa diselesaikan dengan ANN. Ada 3 periode yang menandai perkembangan ANN, pertama tahun 1940-an dimana McCulloach dan Pitt memulai riset tentan ANN, dilanjutkan Rosenblatt pada 1960-an ketika dia menemukan mekanisme teknik perceptron. Disusul dalam periode yang sama yaitu Minsky dan papert membuktikan kelemahan dari teknik perception yang ditemukan Rosenblatt [7]. Diantara tahun 1959 sampai 1960, Bernard Wildrow and Marcian Hoff of Stanford University mengembangkan model Adaptive Linear Element (ADALINE) dan Multiple Adaptive Linear Elements (MADELINE), David E. Rurnelhart, Geoffrey E. Hilton, dan Ronald J. Williams mengajukan algoritma back propagation [1]. Gambar 2.4: Arsitektur Neural Network MLP Artificial Neuron terdiri dari sejumlah input. Informasi ini diberikan sebagai masukan melalui input koneksi, masing-masing yang memiliki beberapa berat yang berhubungan. Masukan tambahan yang dikenal sebagai bias, diberikan ke artificial neuron. Neuron juga 21 terdiri dari satu output. Outputnya adalah terbentuk dari pengolahan berbagai input oleh neuron [1]. Menurut strategi pembelajaran, kita dapat membagi mereka ke dalam tiga besar yaitu associate learning networks, supervised learning networks, and unsupervised learning networks (Liao, 2007). 1. Associate learning networks Sebuah associate learning networks adalah belajar dari variabel status, menjaga aturan dalam jaringan dan menerapkan kasus baru dengan status tidak lengkap memperkirakan status lengkap. Aplikasi khas termasuk pola ekstraksi dan penyaringan kebisingan. Hopfield neural networks dan annealed neural networks adalah algoritma yang sering digunakan untuk associate learning networks. Annealed neural network (Van den Bout & Miller, 1989) adalah pendekatan yang dikembangkan dari algoritma simulated annealing, yang diterapkan untuk pencarian high-climbing untuk menghindari masalah yang sering terlihat pada algoritma lain. Aplikasi AnNNs berfokus pada pemecahan masalah optimasi, yang meliputi masalah salesman bepergian dan masalah partisi grafik. Para keuntungan dari menerapkan AnNNs termasuk hasil yang optimal dekat dan cepat konvergensi seperti HNN. 2. Supervised learning network Supervised learning network menggunakan training set yang ada diatur dengan input dan output variabel, dan membangun aturan pemetaan internal untuk input dan output melalui pelatihan. Sebuah kasus baru dengan variabel input hanya nilai-nilai dimasukkan ke dalam jaringan belajar untuk meramalkan nilai outputnya. Dua jenis algoritma ini yaitu Back-Propagation Networks (BPNs) dan Radial Basis Function Neural Networks (RBFs). Back-Propagation Networks (BPNs) adalah JST yang paling banyak digunakan. Ini adalah model pertama untuk 22 menyertakan lapisan tersembunyi untuk menentukan bobot koneksi oleh belajar berulang [1]. 3. Unsupervised learning networks Metode Unsupervised learning networks merupakan metode yang unik dalam jaringan memberikan satu set input tanpa indikasi apa output seharusnya. Kita dapat membagi pembelajaran unsupervised jaringan ke dalam dua kategori: (1) variabel input biner 0 atau 1 mengambil sebagai nilainya; (2) variabel input kontinu. Ada dua utama ANNs jenis pembelajaran unsupervised: Self-Organizing Maps (SOMs) dan Adaptive Resonance Theory (ART) (Liao, 2007). Penemuan algoritma backpropagation untuk multilayer perceptron, merupakan metode yang sistematis untuk training sehingga bisa dilakukan dan lebih efisien. Algoritma backpropagation berasal dari learning rule Widrow dan Hoff, disusun oleh Werbos (1974), dibuat oleh Parker (1985), Rumelhart Hinton, Williams (Rumelhart dan Williams, 1986) dan peneliti lainnya (Maimon, 2005). Multilayer perceptron (MLP) disebut juga multilayer feedforward neural network merupakan algoritma yang paling luas digunakan. Menurut Wong, Bodnovich dan Selvi (1997), sekitar 95% aplikasi bisnis yang menggunakan neural network, memakai algoritma ini [1]. MLP terdiri dari input layer, satu atau lebih hidden layer, dan output layer. Berikut penjelasan masing-masing layer [13]: 1. Input layer Input layer untuk menerima nilai masukan dari tiap record pada data.Jumlah simpul input sama dengan jumlah variabel prediktor. 2. Hidden layer Hidden layer mentransformasikan nilai input di dalam network. Tiap simpul pada hidden layer terhubung dengan simpul-simpul pada hiden layer sebelumnya atau dari simpul- 23 simpul pada input layer dan ke simpul simpul pada hidden layer berikutnya atau ke simpul-simpul pada output layer. 3. Output layer Garis yang terhubung dengan Output layer berasal dari hidden layer atau input layer dan mengembalikan nilai keluaran yang bersesuaian dengan variabel prediksi. Keluaran dari output layer biasanya merupakan nilai floating antara 0 sampai 1 [5]. Langkah pembelajaran dalam algoritma backproparagation adalah sebagai beikut [13]: Neuron dalam MLP backpropagation menghitung v dengan formula sebagai berikut : v=∑ x .w (2-17) Nilai n adalah jumlah masukan (fitur) data input, x merupakan nilai fitur/vektor, dan w adalah bobot vektor. Nilai v kemudian diaktivasi untuk menghasilkan sinyal output. Fungsi aktivasi yang digunakan adalah fungsi aktivasi sigmoid, dan untuk mendapatkan output y digunakan persamaan : y= (2-18) Pelatihan algoritma backpropagation ditunjukan seperti gambar 2.4, MLP dengan tiga layer (satu layer tersembunyi). Untuk indeks i, j, k masing – masing menyatakan indeks neuron dalam layer masukan, tersembunyi dan keluaran. Sinyal masukan x1, x2, dan xn dirambatkan dari kiri ke kanan. Sedangkan sinyal error e1, e2, ..., el dirambatkan balik dari kanan ke kiri. Simbol menyatakan bobot untuk koneksi dari layer masukan ke layer tersembunyi, dimana i menyatakan neuron 24 dalam layer masukan dan j menyatakan neuron dalam layer tersembunyi. Simbol menyatakan bobot dari layer tersembunyi ke neuron k dalam layer keluaran. Perambatan dari sinyal error dimulai dari layer keluaran dan berjalan kembali ke layer tersembunyi. Sinyal error di neuron keluaran k pada iterasi p diformulasikan dengan e (p) = y (p) − y (p) (2-19) y (p) adalah nilai keluaran yang menjadi target untuk neuron k, dan y (p) adalah keluaran nyata yang didapatkan oleh neuron k di layer keluaran. Karena sinyal balik pada semua neuron dalam layer keluaran disuplai langsung oleh nilai keluaran yang diharapkan, prosedur untuk memperbarui bobot w menjadi sederhana. Prosedur yang digunakan untuk memperbarui bobot pada koneksi anter layer tersembunyi ke layer keluaran adalah sebagai berikut : w (p + 1) = w (p) + ∆w (p) (2-20) ∆w ( ) adalah koreksi bobot dan dapat dihitung dengan persamaan berikut : ∆w (p) = ∩× y (p) × δ (p) (2-21) ∩ adalah laju pembelajaran (learning rate), δ (p) adalah gradien error pada neuron k dalam layer output pada iterasi ke p. Sedangkan untuk menghitung gradien error pada fungsi aktivasi sigmoid dengan cara δ (p) = y (p) × 1 − y (p) × e (p) (2-22) y (p) = (2-23) Di mana ( ) 25 Untuk menghitung koreksi bobot pada layer tersembunyi, cara yang sama juga digunakan ∆w (p) = ∩× x (p) × δ (p) (2-24) δ (p) merepresentasikan gradien error pada neuron j dalam layer tersembunyi. Persamaan yang digunakan untuk menghitung gradien error pada layer tersembunyi adalah sebagai berikut δ (p) = y (p) × 1 − y (p) + ∑ δ (p) . w (p) (2-25) Secara prosedural, pelatihan backpropagation dijelaskan paa algortima berikut. Fungsi aktivasi yang digunakan adalah sigmoid. Langkah 1: Inisialisasi Inisialisasi semua bobot pada layer tersembunyi dan layer keluaran, tetapkan fungsi aktivasi yang digunakan untuk setiap layer. Tetapkan laju pembelajaran. Inisialisasi semua bobot, biasanya digunakan bilangan acak dalm jangkauan [-0.5,0.5] Langkah 2: Aktivasi Mangaktifkan jaringan x (p), x (p), … , x (p) dan dengan menerapakan keluaran yang masukan, diharapkan y (p), y (p), … , y (p) . a. Hitung keluaran yang didapatkan dari neuron dalam layer tersembunyi v (p) = y (p) = x (p) . w (p) 1 1+e ( ) n adalah jumlah masukan pada neuron j dalam layer tersembunyi. 26 b. Hitung keluaran yang didapatkan dari neuron dalam layer keluaran: v (p) = y (p) = x (p) . w (p) 1 1+e ( ) m adalah jumlah masukan pada neuron k dalam layer keluaran. Langkah 3: Perbarui bobot Bobot diperbarui pada saat error dirambatkan balik dalam ANN, error yang dikembalikan sesuai dengan arah keluarnya sinyal output. a. Hitung gradien error untuk neuron dalam layer keluaran e (p) = y (p) − y (p) δ (p) = y (p) × 1 − y (p) × e (p) Hitung koreksi bobot: ∆w (p) = ∩× y (p) × δ (p) Perbarui bobot pada neuron layer keluaran: w (p + 1) = w (p) + ∆w (p) b. Hitung gradien error untuk neuron dalam layer tersembunyi δ (p) = y (p) × 1 − y (p) + Hitung koreksi bobot: δ (p) . w (p) ∆w (p) = ∩× x (p) × δ (p) Perbarui bobot pada neuron layer tersembunyi: w (p + 1) = w (p) + ∆w (p) Langkah 4: Iterasi Naikan 1 untuk iterasi p, kembali ke langkah 2 dan ulangi proses tersebut sampai kriteria error tercapai. 27 2.2.6 Cross validation Cross Validation adalah cara menemukan parmeter terbaik dari suatu model dengan cara menguji besarnya error pada data test. Dalam cross validation, data akan dibagi menjadi k sampel dengan ukuran yang sama. Kemudian k -1 sampel digunakan untuk training dan 1 sampel sisanya untuk testing. Cara ini sering disebut validasi k-fold [9]. Kemudian dilakukan proses silang dimana data testing dijadikan sebagai data training dan sebaliknya data training sebelumnya dijadikan sebagai data testing [12]. Dalam cross validation kita harus menetapkan jumlah partisi atau fold, standar yang biasa dan terkenal digunakan untuk memperoleh estimasi kesalahan terbaik adalah 10 kali partisi atau tenfold crossvalidation [12]. Gambar 2.5: Ilustrasi tenfold cross validation 2.2.7 Confusion Matrix Untuk melakukan evaluasi terhadap model klasifikasi berdasarkan perhitungan objek testing mana yang diprediksi benar dan tidak benar, perhitungan ini ditabulasikan kedalam tabel yang disebut confusion matrix [14]. Confusion matrix merupakan data set hanya memiliki dua kelas, kelas yang satu sebagai positif dan kelas yang lain sebagai negatif. Terdiri dari empat sel yaitu True Positives (TP), False Positives (FP), True Negatives (TN) dan False Negatives (FN) [14]. 28 Gambar 2.6: Confusion matrix untuk 2 model kelas Untuk menghitung akurasi menggunakan rumus [15]: = = = = (2-26) (2-27) = = (2-28) = = (2-29) = = (2-30) Tabel 2.3: Keterangan persamaan confusion matrix. Keterangan acc proporsi jumlah prediksi yang benar tn proporsi kasus negatif yang diklasifikasikan dengan benar tp proporsi kasus positif yang diklasifikasikan dengan benar fn proposi kasus positif yang salah diklasifikasikan sebagai 29 negatif. fp proporsi kasus negatif yang salah diklasifikasikan sebagai positif. Tabel 2.4: Contoh confusion matrix Model SVM Kelas yang prediksi Kelas yang di amati 250 45 5 200 Dari table di atas dapat dilakukan pengukuran akurasi model SVM sebagai berikut : Akurasi = 250 + 200 450 = = 90% 250 + 45 + 5 + 200 500 2.2.8 Kurva ROC Kurva ROC menunjukan visualisasi dari akurasi model dan perbandingkan perbedaan antar model mengekspresikan confusion matrix [16]. klasifikasi. ROC ROC adalah grafik dua dimensi dengan false positives sebagai garis horizontal dan true positives untuk mengukur perbedaaan performasi metode yang digunakan. Kurva ROC adalah teknik untuk memvisualisasi dan menguji kinerja pengklasifikasian berdasarkan performanya [15]. Model klasifikasi yang lebih baik adalah yang mempunyai kurva ROC lebih besar [16]. Performa keakurasian AUC dapat diklasifikasikan menjadi lima kelompok yaitu [15]: a. 0.90 – 1.00 = Sempurna b. 0.80 – 0.90 = Bagus c. 0.70 – 0.80 = Cukup d. 0.60 – 0.70 = Kurang e. 0.50 – 0.60 = Gagal 30 2.3 Model Kerangka Pemikiran Masalah (problem) dalam penelitian ini adalah hasil akurasi yang dihasilkan Neural Network untuk prediksi tingkat kelulusan masih kurang akurat. Kemudian digunakan metode prediksi lain yaitu Support Vector Machine untuk mengetahui metode yang mempunyai akurasi terbaik. Desain penelitian menggunakan CRISP-DM dan RapidMiner digunakan untuk pengujian dan validasi model. Teknik pengujian terhadap kinerja dari metode Support Vector Machine dan metode Neural Network dengan menggunakan Cross Validation. Evaluasi terhadap akurasi model dukur dengan Confusion Matrix dan performa AUC diukur dengan kurva ROC. Dari hasil perbandingan nilai akurasi akan diketahui metode mana yang mempunyai akurasi lebih baik untuk memprediksi ketepatan waktu kelulusan mahasiswa. Masalah Akurasi metode prediksi kelulusan mahasiswa dengan Neural Network masih kurang Metode Support Vector Machine Neural Network Pengembangan RapidMiner 5.3 Penerapan CRISP-DM Data set mahasiswa lulus tepat waktu dan terlambat Validasi dan Evaluasi Cross Validation Confusion Matrix AUC Produk Sistem Pendukung Keputusan Coding (Matlab 7.01) Gambar 2.7: Kerangka pemikiran 31 BAB III METODOLOGI PENELITIAN 3.1 Desain Penelitian Pengertian penelitian dalam akademik yaitu digunakan untuk mengacu pada aktivitas yang rajin dan penyelidikan sistematis atau investigasi di suatu daerah, dengan tujuan menemukan atau merevisi fakta, teori, aplikasi dan tujuannya adalah untuk menemukan dan menyebarkan pengetahuan baru. Metode yang umum digunakan dalam penelitian yaitu tindakan penelitian, eksperimen, studi kasus dan survei [2]. Desain penelitian yang akan digunakan adalah metode CRISP-DM yang merupakan standart proses penelitian data mining yang meliputi pemahaman bisnis, pemahaman data, pengolahan data, pemodelan, evaluasi dan penyebaran [5]. 3.1.1 Pengumpulan Data 3.1.1.1 Pemahaman Bisnis (Bussiness Understanding) Perguruan tinggi bersaing meningkatkan tingkat kelulusan agar mahasiswa segera berkontribusi dalam masyarakat nyata dan dapat meningkatkan kesejahteraan ekonomi bangsa. Tingkat kelulusan juga menjadi penilaian publik terhadap suatu lembaga pendidikan yang dapat mempengaruhi kredibilitas dan akreditasi suatu lembaga pendidikan. Quadri et al [4] berpendapat bahwa wisuda yang tepat waktu merupakan masalah penting karena efektifitas suatu lembaga pendidikan dapat diukur dari tingkat kelulusan. Evaluasi secara berkala terhadap kecenderungan ketepatan waktu kelulusan mahasiswa sangat diperlukan agar dapat meningkatkan kredibilitas dan akreditasi perguruan tinggi. Oleh karena itu prediksi terhadap ketepatan waktu kelulusan mahasiswa sangat diperlukan, sehingga lembaga 32 pendidikan dapat segera mengambil kebijakan guna mengantisipasi adanya mahasiswa yang terlambat lulus. 3.1.1.2 Pemahaman Data (Data Understanding) Dalam pengumpulan data terdapat sumber data, sumber data yang terhimpun langsung oleh peneliti disebut dengan sumber primer, sedangkan apabila melalui tangan kedua disebut sumber sekunder [2]. Trend penelitian data mining saat ini adalah menguji metode yang dikembangkan oleh peneliti dengan public dataset atau data sekunder, sehingga penelitian dapat bersifat comparable, repeatable dan verifiable. Data yang akan digunakan pada penelitian ini merupakan data sekunder berasal dari penelitian Hilda tahun 2012 level thesis STIMIK NUSA MANDIRI JAKARTA yang berupa lampiran data kelulusan mahasiswa berjumlah 1582 record dan terdiri dari 14 atribut, dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal. Data tersebut digunakan oleh Hilda untuk dilakukan prediksi kelulusan mahasiswa. Gambar 3.1: Data yang dilampirkan Hilda [1] 33 3.1.2 Pengolahan Data Data yang diambil berjumlah 1582 record terdiri dari 14 atribut, dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal, namun tidak semua data digunakan karena harus melalui beberapa tahap pengolahan awal data (preparation data). Teknik yang digunakan agar mendapatkan data yang berkualitas sebelum dimodelkan adalah sebagai berikut [2] : 1. Data Validation, digunakan untuk mengientifikasi dan menghapus data yang ganjil (outlier/noise) atau yang tidak konsisten, dan data yang tidak lengkap (missing value). Missing data terlihat pada tabel 3.1 dan hasil validasi terlihat pada tabel 3.2. 2. Data Integration and Transformation, karena beberapa atribut data yang digunakan pada penelitian kali ini bertipe kategorikal maka harus dirubah ke dalam bentuk numerical agar dapat dimodelkan menggunakan metode Support Vector Machine. 3. Data size reduction and dicrtization, untuk memperoleh data set dengan atribut dan record yang lebih sedikit dan lebih informatif. Dalam penelitian ini akan dihapus beberpa atribut yang tidak relevan seperti nim, nama, jurusan, indeks prestasi semester lima, enam, tujuh dan delapan seperti terlihat pada tabel 3.3 sehingga atribut yang digunakan menjadi tujuah atribut prediktor dan satu atribut label. Tabel 3.1: Ilustrasi missing data pada data training Fakultas Ilmu Pendidikan Ilmu Pendidikan Ilmu Pendidikan Ilmu Jenis Kelamin Laki-Laki Umur IPS IPS2 IPS3 IPS4 Status 1 24 2,95 3,55 2,71 4 Tepat Laki-Laki 22 3,88 3,3 3,3 3,25 Terlambat Perempuan 22 3,18 3,43 3,57 3,88 Tepat Perempuan 22 3,78 3,57 3,65 3,78 Terlambat 34 Pendidikan Bahasa dan Seni Bahasa dan Seni Bahasa dan Seni Bahasa dan Seni Matematika dan IPA Matematika dan IPA Matematika dan IPA Matematika dan IPA Ilmu Sosial Laki-Laki 24 3,45 3,3 3,21 3,39 Tepat Laki-Laki 29 3,11 2,21 2,00 3,00 Terlambat Perempuan 23 3,82 3,48 3,08 3,57 Tepat Perempuan 23 2,91 2.32 2,78 2,35 Terlambat Laki-Laki 23 2,95 2,3 2,24 4,00 Tepat Laki-Laki 22 3,89 3,3 3,3 3,25 Terlambat Perempuan 26 2,5 2,33 2,00 2,71 Tepat Perempuan 24 3,45 3,38 3,48 3,09 Terlambat Laki-Laki 0 2,77 3,3 Tepat 23 0 Data yang tidak ada nilainya atau bernilai tersebut (missing value) diubah dengan nilai rata – rata nilai atribut yang sama pada data training yang disebut model average. Hasil data setelah dilakukan validasi terhadap data missing value ditunjukan pada tabel 3.2. Tabel 3.2: Data Training setelah dilakukan validasi Fakultas Ilmu Pendidikan Ilmu Pendidikan Ilmu Pendidikan Ilmu Pendidikan Bahasa dan Seni Bahasa dan Seni Bahasa dan Seni Jenis Kelamin Laki-Laki Umur IPS IPS2 IPS3 IPS4 Status 1 24 2,95 3,55 2,71 4 Tepat Laki-Laki 22 3,88 3,3 3,3 3,25 Terlambat Perempuan 22 3,18 3,43 3,57 3,88 Tepat Perempuan 22 3,78 3,57 3,65 3,78 Terlambat Laki-Laki 24 3,45 3,3 3,21 3,39 Tepat Laki-Laki 29 3,11 2,21 2,00 3,00 Terlambat Perempuan 23 3,82 3,48 3,08 3,57 Tepat 35 Bahasa dan Seni Matematika dan IPA Matematika dan IPA Matematika dan IPA Matematika dan IPA Ilmu Sosial Perempuan 23 2,91 2.32 2,78 2,35 Terlambat Laki-Laki 23 2,95 2,3 2,24 4,00 Tepat Laki-Laki 22 3,89 3,3 3,3 3,25 Terlambat Perempuan 26 2,5 2,33 2,00 2,71 Tepat Perempuan 24 3,45 3,38 3,48 3,09 Terlambat Laki-Laki 3,17 3,00 2,77 3,3 Tepat 23 Tabel 3.3: Atribut yang digunakan Atribut NIP NAMA FALKULTAS Jeniskelamin Umur IPS1 IPS2 IPS3 IPS4 IPS5 IPS6 IPS7 IPS8 STATUS Kegunaan X X √ √ √ √ √ √ √ X X X X √ ID No Prediktor (nilai model) Prediktor (nilai model) Prediktor (nilai model) Prediktor (nilai model) Prediktor (nilai model) Prediktor (nilai model) Prediktor (nilai model) No No No No Label (hasil) 3.1.3 Pemodelan Data Pada tahap modeling ini dilakukan pemprosesan terhadap data set dengan metode Support Vector Machine dan Neural Network. Paremeter diatur dan disesuaikan agar diperoleh model terbaik. Pengujian terhadap model yang dihasilkan dengan menggunakan kfold cross validation, kemudian dilakukan evaluasi hasil dengan confusion matrix dan kurva ROC. Metode dengan hasil akurasi terbaik selanjutnya diterapakan ke dalam sebuah sistem pendukung keputusan. Tahapan – tahapan yang diusulkan pada penelitian ini akan digambarkan seperti berikut: 36 Data set Mahasiswa Data set Mahasiswa Support Vector Machine Neural Network Model Model Support Vector Machine Linear Neural Network (Backpropagation) Pengujian : Pengujian : k-Cross Validation k-Cross Validation Evaluasi : Evaluasi : Confusion Matrix, kurva ROC Confusion Matrix, kurva ROC Komparasi Gambar 3.2: Model yang diusulkan Pada penelitian kali ini yang digunakan adalah penelitian Experiment. Penelitian eksperimen melibatkan penyelidikan hubungan kausal menggunakan tes dikendalikan oleh peneliti [2]. 3.1.4 Validasi dan Evaluasi Dalam tahap ini dilakukan validasi dan pengukuran keakuratan hasil yang dicapai oleh model menggunakan beberapa teknik yang terdapat dalam framework RapidMiner versi 5.3 yaitu confusion matrix dan kurva ROC untuk pengukuran akurasi model, dan crossvalidation untuk validasi. 37 3.1.5 Penyebaran (Deployment) Hasil penelitian ini adalah analisa yang mengarah ke Decission Suport System (DSS) dan dapat digunakan oleh institusi pendidikan setingkat perguruan tinggi untuk memberikan pertimbangan dalam penentuan langkah selanjutnya menangani masalah keterlambatan kelulusan dari mahasiswa yang mempengaruhi akreditasi perguruan tinggi, penilaian sosial masyarakat. Model yang dihasilkan juga dapat digunakan untuk rujukan penelitian berikutnya serta dapat digunakan sebagai dasar perancangan sebuah sistem. 3.2 Alat Penelitian Dalam penelitian eksperimen ini digunakan spesifikasi software dan hardware sebagai alat bantu dalam penelitian seperti pada tabel 3.4. Tabel 3.4: Spesifikasi Software dan Hardware Software Hardware Sistem operasi : Windows 7 Ultimate Prosesor : Intel Atom CPU N570 1.66 GHz (4CPUs), ~1.7GHz Data mining : RapidMiner versi 5.3.008 RAM : 1.00 GB 38 BAB IV HASIL PENELITIAN DAN PEMBAHASAN 4.1 Hasil Eksperimen dan Pengujian Metode 4.1.1 Support Vector Machine Support Vector Machine linear menggunakan fungsi dotproduct untuk melakukan pemetaan ke feature space, sehingga dalam eksperimen ini tidak memerlukan pengubahan parameter kernel. Hasil pengujian metode SVM - linear akan ditunjukan pada tabel 4.1 berikut : Tabel 4.1: Hasil pengujian dengan SVM - linear Percobaan 1 2 3 4 5 SVM-Linear Accuracy AUC 81.17% 81.17% 81.17% 81.17% 81.17% 0.882 0.882 0.882 0.882 0.882 Hasil terbaik pada eksperiment Support Vector Machine di atas mengahasilkan akurasi 81.17%, dan performa Area Under Curve (AUC) sebesar 0.878. Nilai bias (b) yang dihasilkan dari penggunaan metode Support Vector Machine sebesar 0.771 sedangkan Attribut weight yang dihasilkan ditunjukan pada tabel 4.2 berikut : Tabel 4.2: Attribut weight dengan metode Support Vector Machine Linear Attribut Fakultas Jenis Kelamin Umur IPS1 IPS2 IPS3 IPS4 Weight -0.114 0.041 3.281 -1.041 -0.014 -0.051 -0.160 39 4.1.2 Neural Network Neural Network yang digunakan pada penelitian prediksi kelulusan mahasiswa ini adalah metode neural network multilayer perceptron (MLP). Untuk mendapatkan hasil yang paling akurat dengan menggunakan metode Neural Network, pengujian dilakukan dengan mengubah jumlah layer yang terdapat pada hidden layer. Percobaan dilakukan dengan menggunakan tiga layer yang terdiri input layer terdiri dari delapan simpul sesuai dengan jumlah atribut prediktor yang digunakan yaitu fakultas, umur, jenis kelamin, IP semester satu, IP semester dua, IP semester tiga dan IP semester empat ditambah satu simpul bias. Layer yang kedua adalah hidden layer. Pada hidden layer akan digunakan 4 simpul layer, 6 simpul layer, 8 simpul layer, 10 simpul layer, dan 12 simpul layer ditambah 1 simpul bias untuk mencari hasil akurasi terbaik. Layer yang ketiga adalah output layer terdapat dua simpul yakni mewakili kelas TEPAT dan TERLAMBAT. Paramater yang digunakan pada percobaan adalah sebagai berikut : Gambar 4.1: Pramater yang digunakan pada pelatihan Neural Network Hasil percobaan dengan menggunakan neural network 1 hidden layer untuk jumlah simpul layer yang berbeda pada hidden layer akan ditunjukan pada gambar berikut : 40 Gambar 4.2: Neural Net dengan 4 layer Gambar 4.3: Neural Net dengan 6 layer 41 Gambar 4.4: Neural Net dengan 8 layer Gambar 4.5: Neural Net dengan 10 layer 42 Gambar 4.6: Neural Net dengan 12 layer Bobot awal untuk input layer, hidden layer, dan bias diinisialisasi secara acak. Simpul bias terdiri dari dua, yaitu pada input layer yang terhubung dengan simpul-simpul pada hidden layer, dan hidden layer yang terhubung pada output layer. Setelah semua nilai awal diinisialisasi, kemudian dihitung masukan, keluaran dan error. Selanjutnya membangkitkan output untuk simpul menggunakan fungsi aktifasi sigmoid. Setelah nilai error dihitung, selanjutnya dibalik ke layer sebelumnya (backpropagation), fungsi aktivasi untuk simpul pada hidden layer akan ditampilkan pada tabel - tabel berikut : 43 Tabel 4.3: Nilai bobot akhir untuk hidden layer dengan 4 layer Node 1 (Sigmoid) ---------------FALKULTAS: 4.648 Jenis Kelamin: 0.094 Umur: 32.576 IPS1: 6.430 IPS2: -0.001 IPS3: 1.026 IPS4: 0.534 Bias: 27.913 Node 2 (Sigmoid) ---------------FALKULTAS: -2.038 Jenis Kelamin: -0.860 Umur: 17.790 IPS1: -5.888 IPS2: -8.578 IPS3: -2.676 IPS4: -2.053 Bias: 27.077 Node 3 (Sigmoid) ---------------FALKULTAS: -1.438 Jenis Kelamin: 1.038 Umur: 39.792 IPS1: -6.487 IPS2: 1.560 IPS3: -0.015 IPS4: -1.447 Bias: 41.746 Node 4 (Sigmoid) ---------------FALKULTAS: -10.778 Jenis Kelamin: -9.315 Umur: 16.806 IPS1: -6.132 IPS2: 8.067 IPS3: -0.697 IPS4: 12.193 Bias: 6.276 Tabel 4.4: Nilai bobot akhir untuk hidden layer dengan 6 layer Node 1 (Sigmoid) ---------------FALKULTAS: -2.783 Jenis Kelamin: -8.191 Umur: 9.909 IPS1: -8.421 IPS2: 15.317 IPS3: -0.422 IPS4: -12.097 Bias: -0.924 Node 2 (Sigmoid) ---------------FALKULTAS: -1.022 Jenis Kelamin: 14.258 Umur: 25.210 IPS1: -9.540 IPS2: 0.598 IPS3: -1.458 IPS4: -1.845 Bias: 19.109 Node 3 (Sigmoid) ---------------FALKULTAS: -17.632 Jenis Kelamin: 1.873 Umur: 23.611 IPS1: -1.577 IPS2: 3.183 IPS3: -5.363 IPS4: 9.129 Bias: 1.073 Node 4 (Sigmoid) ---------------FALKULTAS: -1.709 Jenis Kelamin: -0.055 Umur: 11.178 IPS1: -8.984 IPS2: -18.632 IPS3: -2.227 IPS4: -1.110 Bias: 25.501 Node 5 (Sigmoid) ---------------FALKULTAS: -10.004 Jenis Kelamin: -2.358 Umur: 9.590 IPS1: 1.189 Node 6 (Sigmoid) ---------------FALKULTAS: 0.932 Jenis Kelamin: -1.444 Umur: 33.602 IPS1: -1.291 44 IPS2: -5.982 IPS3: -12.529 IPS4: -0.220 Bias: 2.688 IPS2: IPS3: IPS4: Bias: 3.207 0.733 -0.024 31.161 Tabel 4.5: Nilai bobot akhir untuk hidden layer dengan 8 layer Node 1 (Sigmoid) ---------------FALKULTAS: -22.059 Jenis Kelamin: 1.956 Umur: 19.652 IPS1: -1.283 IPS2: -6.661 IPS3: -6.221 IPS4: 2.885 Bias: 1.574 Node 2 (Sigmoid) ---------------FALKULTAS: -12.217 Jenis Kelamin: -11.110 Umur: 15.973 IPS1: -4.651 IPS2: 8.865 IPS3: -0.424 IPS4: 12.609 Bias: 2.761 Node 3 (Sigmoid) ---------------FALKULTAS: 0.376 Jenis Kelamin: 17.400 Umur: 29.889 IPS1: -7.964 IPS2: 0.810 IPS3: 0.811 IPS4: 0.482 Bias: 16.353 Node 4 (Sigmoid) ---------------FALKULTAS: 1.529 Jenis Kelamin: -1.870 Umur: 15.041 IPS1: -11.486 IPS2: 1.423 IPS3: 8.855 IPS4: -1.016 Bias: 12.164 Node 5 (Sigmoid) ---------------FALKULTAS: 0.182 Jenis Kelamin: -0.177 Umur: 25.937 IPS1: 0.832 IPS2: -0.314 IPS3: -0.483 IPS4: -0.333 Bias: 23.616 Node 6 (Sigmoid) ---------------FALKULTAS: -0.455 Jenis Kelamin: 0.244 Umur: 16.206 IPS1: -3.287 IPS2: -10.528 IPS3: -1.427 IPS4: -0.088 Bias: 22.773 Node 7 (Sigmoid) ---------------FALKULTAS: 0.477 Jenis Kelamin: -0.809 Umur: 16.400 IPS1: 2.917 IPS2: 7.090 IPS3: -9.175 IPS4: -1.294 Bias: 13.939 Node 8 (Sigmoid) ---------------FALKULTAS: -0.595 Jenis Kelamin: -0.006 Umur: 15.055 IPS1: -0.982 IPS2: 7.794 IPS3: 5.705 IPS4: -13.551 Bias: 9.825 45 Tabel 4.6: Nilai bobot akhir untuk hidden layer dengan 10 layer Node 1 (Sigmoid) ---------------FALKULTAS: 0.159 Jenis Kelamin: -1.528 Umur: 13.908 IPS1: -12.139 IPS2: -3.078 IPS3: 7.384 IPS4: 5.113 Bias: 12.721 Node 3 (Sigmoid) ---------------FALKULTAS: -1.009 Jenis Kelamin: -1.349 Umur: 13.052 IPS1: -5.604 IPS2: 6.792 IPS3: 3.111 IPS4: -12.191 Bias: 11.984 Node 5 (Sigmoid) ---------------FALKULTAS: -14.964 Jenis Kelamin: 1.903 Umur: 18.362 IPS1: -5.480 IPS2: 5.618 IPS3: -3.635 IPS4: 6.466 Bias: 0.774 Node 7 (Sigmoid) ---------------FALKULTAS: -1.655 Jenis Kelamin: 16.905 Umur: 20.438 IPS1: -4.825 IPS2: -14.503 IPS3: -3.848 IPS4: 2.732 Bias: 14.276 Node 9 (Sigmoid) ---------------FALKULTAS: -7.519 Jenis Kelamin: 14.512 Umur: 20.949 IPS1: -11.211 IPS2: 4.844 IPS3: 1.722 IPS4: -1.636 Bias: 15.610 Node 2 (Sigmoid) ---------------FALKULTAS: 0.398 Jenis Kelamin: 12.493 Umur: 24.846 IPS1: -5.389 IPS2: 5.603 IPS3: 1.802 IPS4: -4.678 Bias: 13.481 Node 4 (Sigmoid) ---------------FALKULTAS: 0.309 Jenis Kelamin: -0.593 Umur: 23.068 IPS1: 2.252 IPS2: -0.643 IPS3: -0.081 IPS4: -0.856 Bias: 20.837 Node 6 (Sigmoid) ---------------FALKULTAS: 0.408 Jenis Kelamin: -0.898 Umur: 19.255 IPS1: 2.154 IPS2: 1.788 IPS3: -7.013 IPS4: 2.982 Bias: 15.960 Node 8 (Sigmoid) ---------------FALKULTAS: 5.158 Jenis Kelamin: 2.128 Umur: 22.848 IPS1: 3.111 IPS2: -0.831 IPS3: 2.551 IPS4: -1.879 Bias: 19.084 Node 10 (Sigmoid) ----------------FALKULTAS: -17.317 Jenis Kelamin: -18.648 Umur: 10.152 IPS1: -1.212 IPS2: -4.636 IPS3: 1.046 IPS4: -4.997 Bias: 13.024 46 Tabel 4.7: Nilai bobot akhir untuk hidden layer dengan 12 layer Node 1 (Sigmoid) ---------------FALKULTAS: 7.411 Jenis Kelamin: -10.510 Umur: 4.720 IPS1: -0.632 IPS2: -1.279 IPS3: -6.783 IPS4: -1.409 Bias: 6.063 Node 3 (Sigmoid) ---------------FALKULTAS: 2.896 Jenis Kelamin: -0.790 Umur: 13.512 IPS1: -7.372 IPS2: -4.025 IPS3: 15.169 IPS4: -1.102 Bias: 7.449 Node 5 (Sigmoid) ---------------FALKULTAS: 1.864 Jenis Kelamin: -3.278 Umur: 24.003 IPS1: 2.729 IPS2: 6.801 IPS3: -0.832 IPS4: 2.396 Bias: 17.736 Node 7 (Sigmoid) ---------------FALKULTAS: 3.000 Jenis Kelamin: 8.766 Umur: 14.602 IPS1: -6.082 IPS2: 2.650 IPS3: 0.951 IPS4: -2.145 Bias: 8.825 Node 9 (Sigmoid) ---------------FALKULTAS: -1.558 Jenis Kelamin: 17.793 Umur: 13.162 IPS1: -10.192 IPS2: -18.511 IPS3: -4.747 IPS4: 2.455 Bias: 11.335 Node 2 (Sigmoid) ---------------FALKULTAS: 9.120 Jenis Kelamin: 7.367 Umur: 14.210 IPS1: 12.762 IPS2: -8.708 IPS3: -0.720 IPS4: -4.932 Bias: 8.342 Node 4 (Sigmoid) ---------------FALKULTAS: 7.111 Jenis Kelamin: 2.245 Umur: 9.403 IPS1: -3.587 IPS2: 8.308 IPS3: -2.886 IPS4: -4.690 Bias: 4.537 Node 6 (Sigmoid) ---------------FALKULTAS: -13.993 Jenis Kelamin: 0.680 Umur: 23.542 IPS1: -4.078 IPS2: 5.325 IPS3: -9.163 IPS4: 8.956 Bias: 8.713 Node 8 (Sigmoid) ---------------FALKULTAS: 24.271 Jenis Kelamin: 1.614 Umur: 10.566 IPS1: 5.436 IPS2: 9.797 IPS3: -0.217 IPS4: 0.781 Bias: -18.126 Node 10 (Sigmoid) ----------------FALKULTAS: -4.408 Jenis Kelamin: 1.336 Umur: 20.285 IPS1: -6.533 IPS2: 0.393 IPS3: 2.398 IPS4: -3.720 Bias: 22.230 Node 11 (Sigmoid) ----------------FALKULTAS: 4.451 Node 12 (Sigmoid) ----------------FALKULTAS: 14.568 47 Jenis Kelamin: -2.426 Umur: 4.578 IPS1: 6.307 IPS2: -9.250 IPS3: -8.099 IPS4: -3.587 Bias: 10.150 Jenis Kelamin: -2.221 Umur: 11.434 IPS1: -12.976 IPS2: 6.664 IPS3: 3.280 IPS4: -4.660 Bias: 3.192 Nilai akhir fungsi aktifasi pada output layer akan ditunjukan pada tabel 4.8 sampai 4.12. Baris pertama pada tabel menyatakan class, yaitu atribut kelas yang dinyatakan dengan simpul pada output layer. Nilai yang terdapat pada baris di bawahnya adalah nilai bias terbaru yang terdapat pada relasi antar simpul pada hidden layer dan simpul pada output layer. Tabel 4.8: Nilai bobot akhir untuk output layer dengan 4 Layer Class 'TEPAT' (Sigmoid) Node 1: -4.828 Node 2: -3.555 Node 3: -5.707 Node 4: -2.813 Threshold: 7.157 Class 'TERLAMBAT' (Sigmoid) Node 1: 4.828 Node 2: 3.555 Node 3: 5.707 Node 4: 2.813 Threshold: -7.157 Tabel 4.9: Nilai bobot akhir untuk output layer dengan 6 Layer Class 'TEPAT' (Sigmoid) Class'TERLAMBAT' (Sigmoid) Node 1: -7.563 Node 2: -3.059 Node 3: -2.203 Node 4: -2.954 Node 5: -5.807 Node 6: -4.299 Threshold: 4.862 Node 1: 7.563 Node 2: 3.059 Node 3: 2.203 Node 4: 2.954 Node 5: 5.807 Node 6: 4.299 Threshold: -4.862 Tabel 4.10: Nilai bobot akhir untuk output layer dengan 8 layer Class 'TEPAT' (Sigmoid) Node 1: -2.397 Node 2: -1.834 Node 3: -3.360 Node 4: -2.766 Node 5: -4.048 Node 6: -2.469 Node 7: -2.409 Class 'TERLAMBAT' (Sigmoid) Node 1: 2.397 Node 2: 1.834 Node 3: 3.360 Node 4: 2.766 Node 5: 4.048 Node 6: 2.469 Node 7: 2.409 48 Node 8: -4.694 Threshold: 4.054 Node 8: 4.694 Threshold: -4.054 Tabel 4.11: Nilai bobot akhir untuk output layer dengan 10 layer Class 'TEPAT' (Sigmoid) Node 1: -2.921 Node 2: -2.861 Node 3: -5.556 Node 4: -2.887 Node 5: -2.955 Node 6: -3.315 Node 7: -3.581 Node 8: -3.839 Node 9: -4.188 Node 10: -6.401 Threshold: 9.293 Class 'TERLAMBAT' (Sigmoid) Node 1: 2.921 Node 2: 2.861 Node 3: 5.556 Node 4: 2.887 Node 5: 2.955 Node 6: 3.315 Node 7: 3.581 Node 8: 3.840 Node 9: 4.188 Node 10: 6.401 Threshold: -9.293 Tabel 4.12: Nilai bobot akhir untuk output layer dengan 12 layer Class 'TEPAT' (Sigmoid) Node 1: -3.994 Node 2: -3.452 Node 3: -2.532 Node 4: -3.602 Node 5: -3.786 Node 6: -3.018 Node 7: -3.210 Node 8: 8.467 Node 9: -2.735 Node 10: -4.624 Node 11: -1.580 Node 12: -3.402 Threshold: 7.990 Class 'TERLAMBAT' (Sigmoid) Node 1: 3.994 Node 2: 3.452 Node 3: 2.532 Node 4: 3.602 Node 5: 3.786 Node 6: 3.018 Node 7: 3.210 Node 8: -8.467 Node 9: 2.735 Node 10: 4.624 Node 11: 1.580 Node 12: 3.402 Threshold: -7.990 Nilai akurasi dan performa AUC yang dihasilkan dari pengujian menggunakan model Neural Network dengan menggunakan tool Rapidminer 5.3 dirangkum pada tabel berikut : Tabel 4.13: Hasil pengujian dengan Neural Network Hidden Layer 4 layer 6 layer 8 layer 10 layer 12 layer Neural Network Accuracy AUC 76.80% 0.852 78.19% 0.848 78.83% 0.858 78.00% 0.851 77.18% 0.861 49 Hasil terbaik pada percobaan menggunakan Neural Network di atas, terdapat pada percobaan dengan menggunakan 1 hidden layer dan 8 simpul layer di dalamnya. Akurasi yang dihasilkan sebesar 81.17%, dan nilai performa Area Under Curve (AUC) sebesar 0.878 . 4.2 Evaluasi dan Validasi Hasil Hasil dari pengujian model yang dilakukan adalah memprediksi ketepatan waktu kelulusan mahasiswa dengan support vector machine dan Neural Network untuk menentukan nilai accuracy dan AUC. Metode pengujian menggunakan tenfold cross validation dengan desain modelnya sebagai berikut: . Gambar 4.7: Desain model validasi Desain model yang digunakan untuk memprediksi ketepatan waktu kelulusan mahasiswa dengan metode Support Vector Machine dan Neural Network menggunakan software RapidMiner dan metode pengujian tenfold cross validation ditampilkan pada gambar 4.2 dan 4.3 berikut. 50 Gambar 4.8: Desain model validasi Support Vector Machine 51 Gambar 4.9: Desain model validasi Neural Network Retrieve berfungsi untuk memasukan data set ke dalam RapidMiner. Validation menggunakan tenfold cross-validation. terdapat dua kolom, training dan testing. Didalam validation Di dalam kolom training terdapat algoritma klasifikasi yang diterapkan yaitu Support Vector Machine, dan Neural Network sedangkan di dalam kolom testing terdapat Apply Model untuk menjalankan model Support Vector Machine dan Neural Network. Performance digunakan untuk mengukur performa dari model yang diterapkan. 4.2.1 Hasil Pengujian Model 4.2.1.1 Support Vector Machine Linear Nilai accuracy, precision, dan recall dari data training dapat dihitung dengan menggunakan RapidMiner. Pemodelan dengan hasil akurasi terbaik sesuai dengan tabel 52 4.1 menggunakan metode Support Vector Machine yang telah diproses oleh tools RapidMiner adalah sebagai berikut: Gambar 4.10 : Confusion matrix metode SVM-Linear ditampilkan oleh RapidMiner. Hasil yang ditampilkan tabel confusion matrix sesuai gambar 4.3 di atas menunjukan dari 1582 record data, 516 data diprediksikan TEPAT dan sesuai dengan metode SVM-Linear. 143 data diprediksi TEPAT tetapi hasil prediksi TERLAMBAT. 768 data diprediksi TERLAMBAT hasilnya sesuai, dan 155 data diprediksi TERLAMBAT tetapi hasil prediksi TEPAT. Perbandingan prediksi TEPAT dan TERLAMBAT digambarkan pada grafik sebagai berikut: 900 800 700 600 500 400 300 200 100 0 768 516 143 155 Prediksi Benar Prediksi Salah Gambar 4.11: Perbandingan prediksi benar dan prediksi salah dengan SVM 53 18,83 Prediksi Salah 81,17 Prediksi Benar Gambar 4.12: Tingkat akurasi dengan metode SVM. Tingkat akurasi dengan Support Vector Machine menggunakan metode seperti gambar di atas adalah sebesar 81.17%. Dari tabel confusion matrix sesuai gambar 4.3 dapat pula dihitung untuk mencari nilai accuracy, tn, tp, fn, dan fp sesuai persamaan di bawah ini. = = = = = 0.811 = 0.783 = = = 0.832 = = = 0.167 = = = 0.216 Hasil perhitungan dapat dilihat pada tabel 4.14 berikut : 54 Tabel 4.14: Nilai accuracy, tn, tp, fn, dan fp untuk metode SVM - Linear Nilai Accuracy 0.811 tn 0.783 tp 0.832 fn 0.167 fp 0.216 Kurva ROC digunakan untuk mengekspresikan confusion matrix. Garis horizontal adalah false positives dan garis vertikal true positives. Kurva ROC yang memvisualisasikan perhitungan confusion matrix untuk metode Support Vector Machine kernel linear akan ditampilkan pada gambar 4.4. Gambar 4.13: Hasil performa AUC metode SVM-Linear ditampilkan oleh kurva ROC pada RapidMiner 55 Dari kurva ROC di atas, dapat diketahui nilai AUC (Area Under Curve) sebesar 0.882 dan masuk kategori good classification. 4.2.1.2 Artificial Neural Network Nilai accuracy, precision, dan recall dari data training dihitung dengan menggunakan RapidMiner. Pemodelan dengan hasil akurasi terbaik sesuai dengan tabel 4.2 menggunakan metode Neural Network yang telah diproses oleh tools RapidMiner adalah sebagai berikut: Gambar 4.14: Confusion matrix metode Neural Network ditampilkan oleh RapidMiner. Hasil yang ditampilkan tabel confusion matrix sesuai gambar 4.3 di atas menunjukan dari 1582 record data, 474 data diprediksikan TEPAT dan sesuai. 138 data diprediksi TEPAT tetapi hasil prediksi TERLAMBAT. 773 data diprediksi TERLAMBAT hasilnya sesuai, dan 197 data diprediksi TERLAMBAT tetapi hasil prediksi TEPAT. Perbandingan prediksi TEPAT dan TERLAMBAT yang benar dan salah digambarkan pada grafik sebagai berikut: 56 900 800 700 600 500 400 300 200 100 0 773 474 197 138 Prediksi Benar Prediksi Salah Gambar 4.15: Perbandingan prediksi benar dan salah dengan metode Nueral Network 21,17 Prediksi Salah 78,83 Prediksi Benar Gambar 4.16: Tingkat akurasi menggunakan metode Neural Network Backpropagation Tingkat akurasi dengan menggunakan metode Neural Network adalah sebesar 78.83%. Dari tabel confusion matrix sesuai gambar 4.3 dapat pula dihitung untuk mencari nilai accuracy, tn, tp, fn, dan fp sesuai persamaan di bawah ini. = = = 0.788 57 = = = 0.774 = = = 0.796 = = = 0.203 = = = 0.225 Hasil perhitungan dapat dilihat pada tabel 4.4 berikut : Tabel 4.15: Nilai accuracy, tn, tp, fn, dan fp untuk metode Neural Network Backpropagation Nilai Accuracy 0.788 tn 0.774 Tp 0.796 Fn 0.203 Fp 0.225 Kurva ROC digunakan untuk mengekspresikan confusion matrix. Garis horizontal adalah false positives dan garis vertikal true positives. Kurva ROC yang memvisualisasikan perhitungan confusion matrix untuk metode Neural Network akan ditampilkan pada gambar 4.7. 58 Gambar 4.17: Hasil performa AUC metode Neural Network ditampilkan oleh kurva ROC pada RapidMiner Dari kurva ROC di atas, dapat diketahui nilai AUC (Area Under Curve) sebesar 0.858 dan masuk kategori good classification. 4.2.2 Analisis Evaluasi dan Validasi Model Berdasarkan hasil pengujian di atas, hasil evaluasi untuk metode SVM dan Neural Network baik menggunkan confusion matrix dan kurva ROC dapat dirangkum hasilnya pada tabel 4.7 berikut: Tabel 4.16: Perbandingan performance metode Support Vector Machine dan Neural Network SVM Linear Neural Network Accuracy 81.17% 78.83% AUC 0.882 0.858 59 Dari tabel perbandingan performance di atas, terbukti bahwa pengujian menggunakan metode Support Vector Machine memiliki akurasi yang lebih baik dibanding dengan pegujian menggunakan Neural Network. Nilai akurasi yang dihasilkan Support Vector Machine sebesar 81.17% sedangkan nilai akurasi yang dihasilkan Neural Network sebesar 78.83% dengan selisih akurasi 2.34%. 81,5 81 80,5 80 79,5 79 78,5 78 77,5 SVM Neural Network Gambar 4.18 : Grafik perbedaan tingkat akurasi antara metode SVM dan Neural Network Untuk evaluasi menggunakan kurva ROC, dapat dilihat bahwa nilai performa AUC yang dihasilkan Support Vector Machine sebesar 0.882 dan masuk kategori good classification sedangkan performa AUC yang dihasilkan Neural Network sebesar 0.858 dan termasuk kategori good classification. Dapat diketahui bahwa performa AUC yang dihasilkan Support Vector Machine lebih baik dibanding AUC yang dihasilkan Neural Network. 60 0,89 0,88 0,87 0,86 0,85 0,84 SVM Neural Network Gambar 4.19 : Grafik perbandingan performa AUC antara Support Vector Machine dan Nural Network Dari hasil nilai akurasi dan performance AUC di atas, dapat diketehaui bahwa dalam kasus prediksi ketepatan waktu keleulusan mahasiswa, Support Vector Machine memberikan hasil yang lebih baik dalam hal akurasi maupun performa AUC dibandingkan dengan penggunaan Neural Network. 4.3 Pembahasan Percobaan pada penelitian ini menggunakan RapidMiner 5.3.008. Algoritma yang digunakan adalah Support Vector Machine Linear dan Neural Network Backpropagation. Validasinya menggunakan tenfold cross-validation, sedangkan pengukuran performanya menggunakan confusion matrix dan kurva ROC. Berdasarkan hasil eksperiment yang dilakukan untuk membandingkan penggunaan metode Support Vector Mchine dan Neural Network dalam menyelesaikan masalah prediksi ketepatan waktu kelulusan mahasiswa, dapat disimpulkan bahwa metode Support Vector Machine mempunyai akurasi sebesar 81.17% dan mempunyai nilai AUC sebesar 0.882 sehingga terbukti lebih baik dibandingkan dengan metode Neural Network yang menghasilkan akurasi sebesar 78.83% dan mempunyai nilai AUC 0.858. 61 Untuk implementasi metode yang digunakan untuk pengembangan sistem pendukung keputusan maka akan digunakan metode Support Vector Machine untuk mendapat sistem dengan kemampuan prediksi terbaik. 4.4 Implementasi Penelitian Implementasi pada penelitian ini akan diarahkan pada 2 hal sebagai berikut: 1. Aspek Sistem Model yang dihasilkan pada penelitian ini dapat dijadikan acuan untuk pengembangan sebuah sistem pendukung keputusan yang dapat digunakan untuk memprediksi ketepatan waktu kelulusan mahasiswa. Pada penelitian ini metode yang digunakan untuk dibuat sistem adalah Support Vector Machine yang memiliki hasil akurasi lebih baik dari Neural Network. Pengembangan sistem menggunakan Matlab 7.10 dan tampilan user interface seperti pada gambar berikut: Gambar 4.20: Tampilan awal sistem pendukung keptutusan 62 Gambar 4.21: Tampilan sistem prediksi dengan satu data input Gambar 4.22: Tampilan sistem prediksi dengan data import dari file Excel 63 2. Penelitian Lanjutan Penelitian pada kasus prediksi ketepatan waktu kelulusan mahasiswa seperti ini dapat dikembangkan dengan metode klasifikasi lain atau penambahan penggunaan algoritma optimasi agar mendapat model dengan tingkat akurasi yang lebih tinggi. 64 BAB V KESIMPULAN 5.1 Kesimpulan Pada penelitian ini dilakukan pemodelan menggunakan metode Support Vector Machine dan Neural Network Backpropagation dengan menggunakan data set mahasiswa untuk prediksi ketepatan waktu kelulusan. Fokus penelitian ini adalah membuktikan bahwa metode Support Vector Machine mampu memberikan hasil akurasi yang lebih baik dari pada Neural Network. Validasi model menggunakan 10fold cross-validation dan evaluasi model menggunakan confusion matrix dan kurva ROC. Hasil penelitian menunjukan bahwa model Support Vector Machine memiliki akurasi yang lebih baik yaitu 81.17 % dibandingkan dengan model Neural Network yang akurasi terbaiknya 78.83%. Dengan demikian, terbukti bahwa penggunaan metode Support Machine lebih baik dari pada Neural Network dalam kasus prediksi ketepatan waktu kelulusan mahasiswa. Hal ini menjadikan Support Vector Machine menjadi alternatif lain sebagai metode yang layak dijadikan acuan untuk mengambangkan model prediksi pada kasus – kasus lain. Serta dapat dikembangkan menjadi sebuah sistem pendukung keputusan untuk memprediksi ketepatan waktu kelulusan. 5.2 Saran Proses penelitian ini mendapatkan banyak hambatan seperti terbatasnya data penelitian dan perangkat keras yang digunakan, untuk penelitian selanjutnya terdapat beberapa saran sebagai berikut : 1. Untuk penelitian selanjutnya dapat dikembangkan dengan mengkombinasikan metode Support Vector Machine dengan algoritma optimasi seperti Ant Colony Optimization (ACO), Genetic Algorithm 65 (GA), Particle Swarm Optimization (PSO) atau algoritma optimasi lainnya. 2. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda dalam thesisnya, untuk penelitian selanjutnya dapat dikembangkan dengan menggunakan data set mahasiswa lain yang memiliki atribut tambahan seperti status pernikahan, status pekerjaan, pendapatan per bulan keluarga sebagai inputan nilai model yang mempengaruhi akurasi. 3. Penelitian ini digunakan untuk menyelesaikan kasus prediksi kelulusan mahasiswa, dalam penelitian selanjutnya dapat diaplikasikan pada data set yang berbeda seperti data perbankan untuk analisa kredit, data pemasaran produk tertentu untuk menguji kehandalan model yang diusulkan. 66 DAFTAR PUSTAKA [1] Amalia, H. 2012. “Komparasi Metode Data Mining Untuk Prediksi Ketepatan Kelulusan Mahasiswa”. Tesis Magister Ilmu Komputer. Sekolah Tinggi Managemen Informatika dan Komputer Nusa Mandiri. [2] Handayana, F. 2009. “Penerapan Particle Swarm Optimization untuk Seleksi Atribut pada Metode Support Vector Machine Untuk Prediksi Penyakit Diabetes”. Tesis Magister Ilmu Komputer. Sekolah Tinggi Managemen Informatika dan Komputer Nusa Mandiri. [3] Jananto, A. 2013. “Algoritma Naive Bayes untuk Perkiraan Waktu Studi Mahasiswa”. Jurnal Teknologi Informasi DINAMIK Volume 18, No.1: 09-16. [4] Kalyankar, N.V. dan Quadril, M.N. 2010. Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques. Global Journal of Computer Science and Technology: page 2 vol. 10 Issue 2. [5] Kusrini, dan Luthfy, E. T. 2009. “Algoritma Data Mining”. Yogyakarta: Andi Publishing. [6] Ridwan, M dan Suyono, H. et al. 2013. “Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier”. Jurnal EECCIS Vol.7, No. 1. [7] Santosa, B. 2007. “Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis”. Yogyakarta: Graha Ilmu. [8] Wei Fei, S. et al. 2008. “Chinese Grain Production Forecasting Method Based on Particle Swarm Optimization-based Support Vector Machine”. Recent Patents on Engineering. Vol 3, no 1 - 9. 67 [9] Suhartinah, M.S dan Ernastuti .2010. “Graduation Prediction of Gunadarma University Student Using Algorithm and Naive Bayes C4.5 Algorithm”. Undergraduate Program, Faculty of Industrial Engineering, Gunadarma University. [10] Rahman, F. dan Purnami, S.W. 2012. “Perbandingan Klasifikasi Tingkat Keganasan Breast Cancer Dengan Menggunakan Regresi Logistik Ordinal dan Support Vector Machine (SVM)”. Jurnal Sains dan Seni ITS. Vol 1, No 1. [11] Larose, D.T. 2005. “Data Mining Methods And Models”. Canada: John Wiley & Sons, Inc. [12] Widodo, P.B. et al. 2013. “Penerapan Data Mining Dengan Matlab”.Bandung: Penerbit Rekayasa Sains. [13] Prasetyo, E. 2012. ”Data Mining Konsep dan Aplikasi Menggunakan Matlab”. Yogyakarta: Penerbit Andi. [14] Larose, D. T. (2005).Discovering Knowledge in Data. New Jersey: John Willey & Sons, Inc. [15] Gorunescu, F. (2011). Data Mining Concepts,Models And Techniques. Verlag Berlin Heidelberg: Springer. 68 Lampiran 1. Sampel 50 data set mahasiswa. NIM 7116 0 7114 4 7618 7 7501 6 7618 8 7649 8 7649 2 7649 6 7651 6 7137 2 7181 6 7015 2 7186 0 7184 7 7684 1 7710 4 7020 0 NAMA FAKULTAS JENIS KELAMIN achmad firdaus hendranata ILMU PENDIDIKAN LAKI-LAKI 22 3,89 3,3 rian dwi kusuma ILMU PENDIDIKAN 22 3,78 DERI KURNIA ARAFAH MOHAMMAD AMIR PURNOMO ILMU PENDIDIKAN LAKI-LAKI PEREMPUA N 22 ANNISA KARTIKASARI BELLA GASTYANA YOSEFINE ILMU PENDIDIKAN AHADEA NURSYABANI BAHASA DAN SENI LELA PUSPITA DEWI CATUR WULAN AYUNINGTIAS BAHASA DAN SENI DITA TRICAHYANI NURFITRIANI ZAKARIA BAHASA DAN SENI MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA SAIPIATUN ILMU SOSIAL DITA INDAH PURNAMA ILMU SOSIAL LAKI-LAKI PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N PEREMPUA N LIDYA PEBRIANTI NINTA MARIANA PERMANASARI DIAN MAULIDAH ILMU PENDIDIKAN BAHASA DAN SENI BAHASA DAN SENI UMU R IPS 1 IPS 2 IPS 3 IPS 4 IPS5 IPS 6 3,3 3,25 3,36 3,18 3,26 3,39 3,45 3,42 3,78 3,57 3,65 3,73 24 3,45 3,38 3,48 22 3,67 3,35 23 3,59 22 IPS 7 IPS 8 STATUS 4 3,67 TEPAT 3,67 4 3,67 TEPAT 3,79 3,67 4 3,67 TEPAT 3,09 3,33 3,27 4 3 TEPAT 3,74 3,36 3,63 3,33 4 3,67 TEPAT 3,43 3,5 3,17 3,52 3,75 4 4 TEPAT 3,5 3,35 3,17 3,39 3,52 3,33 4 3,83 TEPAT 24 3,41 3,39 3 3,43 3,43 3,04 4 3,83 TEPAT 23 3,36 3,39 3,17 3,13 3,35 3,25 4 4 TEPAT 22 3,77 3,17 3,5 3,17 3,7 3,5 4 3,83 TEPAT 21 3,11 3,53 3,75 3,5 3 3,75 3,5 4 TEPAT 22 3,5 3,6 3,22 3,29 3,54 3,5 3,7 4 TEPAT 23 3,32 3,33 3 3,04 3,58 3,32 3,7 3,55 TEPAT 22 3,32 2,89 2,95 3,33 3,5 3,22 4 3,22 TEPAT 22 3,32 3,22 2,91 2,8 3,75 3,63 4 3,95 TEPAT 22 3,1 3,39 2,9 3,65 3,75 3,33 4 3,5 TEPAT 21 3 3,18 2,64 3,35 2,88 3,26 3,7 3,81 TEPAT 69 7209 9 7210 0 7207 9 7747 1 7745 2 7745 3 7237 7 4112 8 4111 7 4114 7 4500 5 4707 5 4141 5 4143 5 4688 5 4143 7 4188 4 4188 7 4748 6 YULIA PURNAWATI ILMU SOSIAL RAHMAN ILMU SOSIAL NELI HANIAH HERDIKA BENY AMBARISMA PEREMPUA N 22 2,83 3,4 3,27 3,42 3,04 3,38 3,3 3,75 TEPAT 23 0 0 2,77 3,3 3,05 3,03 2,9 3,3 TEPAT ILMU SOSIAL LAKI-LAKI PEREMPUA N 23 3,67 3,42 3,36 3,63 2,96 2,95 3,3 3 TEPAT TEKNIK LAKI-LAKI 24 3 3 3,09 3,17 3,09 3,1 3,2 4 TEPAT MUHAMMAD JANUAR TEKNIK LAKI-LAKI 24 3,06 3,05 3,37 3,09 3,53 3,39 3 4 TEPAT AHMAD JANUAR TEKNIK LAKI-LAKI 0 2,89 3 2,9 3,45 2 2,45 4 ARIEF NEIRIZA TEKNIK LAKI-LAKI 22 3 3,33 2,81 2,85 3,2 3,13 3,1 4 LEONARDO DOSSIMAR ILMU PENDIDIKAN 25 3 3 2,5 3,09 3,13 2,86 3,5 2,5 MARYANI NORA SARI ILMU PENDIDIKAN LAKI-LAKI PEREMPUA N 24 3,7 3,42 3,42 3,58 3,36 3,5 4 0 ARY BAYU NUGRAHA ILMU PENDIDIKAN 26 2,9 3,6 3,08 3,8 3,45 2,89 2,7 1,75 ROCHMAH ILMU PENDIDIKAN 27 3,2 2,24 2,76 2,73 2,73 1,21 3 1,09 WINARNI PUJI WHYUNI ILMU PENDIDIKAN LAKI-LAKI PEREMPUA N PEREMPUA N 34 3,18 2,65 2,79 2,44 0 1,33 1 1,67 BUDHI CHRISTIANTO BAHASA DAN SENI LAKI-LAKI 25 3,44 2,9 3,29 3,11 3,22 3,78 3,2 3,75 SUDRAJAT BAHASA DAN SENI LAKI-LAKI 26 3,11 2,1 2,56 2,44 2,22 3,38 2,9 4 AGUS PAMUNGKAS BAHASA DAN SENI LAKI-LAKI 28 0,33 1,83 1,14 1 2,5 2,9 2,9 2,63 ANDIKA HADIE PUTRA BAHASA DAN SENI LAKI-LAKI 25 1,44 1 1,83 2 1,88 2,43 1,6 2,29 MUHAMMAD SALAMUN ILMU SOSIAL LAKI-LAKI 26 3,3 3,43 3,26 3,3 3,25 3,19 4 2 MUHAMMAD SYAFE'I ILMU SOSIAL LAKI-LAKI 27 3,3 3,43 3,26 3,61 3,67 3,39 4 1,27 ARNOLD YULIANDOS ILMU SOSIAL LAKI-LAKI 25 2,15 3,06 3,17 2,09 0 1,17 2,5 2,5 TEPAT TEPAT TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T 70 4186 7 4185 2 4355 1 4343 9 4357 0 4344 8 5204 0 5204 0 5205 9 5208 6 5704 1 5713 1 5718 8 5713 6 NANDI KURNIAWAN ILMU SOSIAL LAKI-LAKI 25 3 3,22 3,13 3,3 3 3,13 4 0,92 RIZKY DIAN HADI LAKI-LAKI 226 2,35 2,44 2,53 2,72 1,7 2,47 2,4 1,83 LAKI-LAKI 25 2,67 1,75 1,67 2,86 2,41 2,56 3,3 2,6 LAKI-LAKI 28 3 2,75 3 3,5 1,88 3,14 1,3 2,4 FANNY LESMANA JOHANNES PARLINDUNGAN S ILMU SOSIAL ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN LAKI-LAKI 25 0,88 1 1,75 1,43 0 2,17 2,5 3 LAKI-LAKI 28 0,38 2,5 3,17 2,75 1,8 3 3 3,38 FAZRI NURDIANSYAH TEKNIK LAKI-LAKI 22 2,3 2,94 1,9 3,33 2,82 3,62 3,5 3,55 MOHAMAD RIADI YANUAR ADHIL SYAPUTRA TEKNIK LAKI-LAKI 24 2,3 2,94 1,9 3,33 2,82 3,62 3,5 3,55 TEKNIK LAKI-LAKI 24 3,2 2,57 2,77 2,8 2,42 2,72 3,2 3,22 ROMADHON MS TEKNIK LAKI-LAKI 25 2,3 2,82 2,4 2,56 2,15 2,78 2,3 1,28 YERMIA BANO TEKNIK 27 2,65 2,11 2,33 2,11 2,5 2,45 3,4 2,21 MEGA EKONOMI 25 2,8 3 2,42 2,83 3,15 0,43 3,2 2,87 PUJI HARTATI EKONOMI 24 2,8 2,45 2,78 2,5 3,25 2,92 4 2,87 NURLITA ASTUTI EKONOMI LAKI-LAKI PEREMPUA N PEREMPUA N PEREMPUA N 24 2,8 2,9 3,2 3,22 3,21 3,2 4 3,5 YOGI ANGGIONO HERMANTO TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T TERLAMBA T 71 Lampiran 2. Sampel 100 data training. No 1 2 3 4 FALKULTAS ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN Jenis Kelamin LAKI-LAKI LAKI-LAKI PEREMPUAN LAKI-LAKI Umur 22 22 22 24 IPS1 3,89 3,78 3,78 3,45 IPS2 3,3 3,26 3,57 3,38 IPS3 3,3 3,39 3,65 3,48 IPS4 3,3 3,5 3,7 3,1 Status TEPAT TEPAT TEPAT TEPAT 5 6 7 8 9 10 ILMU PENDIDIKAN BAHASA DAN SENI BAHASA DAN SENI BAHASA DAN SENI BAHASA DAN SENI BAHASA DAN SENI MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA ILMU SOSIAL ILMU SOSIAL ILMU SOSIAL ILMU SOSIAL ILMU SOSIAL PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN 22 23 22 24 23 22 3,67 3,59 3,5 3,41 3,36 3,77 3,35 3,43 3,35 3,39 3,39 3,17 3,74 3,5 3,17 3 3,17 3,5 3,4 3,2 3,4 3,4 3,1 3,2 TEPAT TEPAT TEPAT TEPAT TEPAT TEPAT PEREMPUAN 21 3,11 3,53 3,75 3,5 TEPAT PEREMPUAN 22 3,5 3,6 3,22 3,3 TEPAT PEREMPUAN 23 3,32 3,33 3 3 TEPAT PEREMPUAN 22 3,32 2,89 2,95 3,3 TEPAT PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN 22 22 21 22 23 23 3,32 3,1 3 2,83 3,67 3,5 3,22 3,39 3,18 3,4 3,42 3,33 2,91 2,9 2,64 3,27 3,36 3,14 2,8 3,7 3,4 3,4 3,6 3,5 TEPAT TEPAT TEPAT TEPAT TEPAT TEPAT LAKI-LAKI LAKI-LAKI LAKI-LAKI LAKI-LAKI PEREMPUAN 24 24 22 25 22 3 3,06 3 3,39 3,76 3 3,05 3,33 3,76 3,67 3,09 3,37 2,81 3,32 3,29 3,2 3,1 2,9 3,1 3,3 TEPAT TEPAT TEPAT TEPAT TEPAT LAKI-LAKI 44 3,58 3,79 4 3,3 TEPAT PEREMPUAN 21 3,32 3,33 2,92 3,4 TEPAT 28 29 30 31 32 TEKNIK TEKNIK TEKNIK TEKNIK TEKNIK ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN EKONOMI EKONOMI EKONOMI EKONOMI PEREMPUAN LAKI-LAKI PEREMPUAN LAKI-LAKI LAKI-LAKI 22 22 22 24 31 3,79 3 3,4 3,6 3,05 4 3 3,26 3,38 3,61 3,82 3,13 3,46 3,57 3,54 3,9 3,1 3,1 3,7 3,7 TEPAT TEPAT TEPAT TEPAT TEPAT 33 34 35 36 37 38 EKONOMI ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN PEREMPUAN LAKI-LAKI PEREMPUAN LAKI-LAKI PEREMPUAN PEREMPUAN 28 25 24 26 27 34 3,3 3 3,7 2,9 3,2 3,18 3,82 3 3,42 3,6 2,24 2,65 3,33 2,5 3,42 3,08 2,76 2,79 3,7 3,1 3,6 3,8 2,7 2,4 TEPAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT 39 ILMU PENDIDIKAN PEREMPUAN 34 3,27 3,56 0 0 TERLAMBAT 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 72 40 41 BAHASA DAN SENI BAHASA DAN SENI LAKI-LAKI LAKI-LAKI 25 26 3,44 3,11 2,9 2,1 3,29 2,56 3,1 2,4 TERLAMBAT TERLAMBAT 42 43 44 BAHASA DAN SENI BAHASA DAN SENI BAHASA DAN SENI MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA MATEMATIKA DAN IPA ILMU SOSIAL ILMU SOSIAL ILMU SOSIAL LAKI-LAKI LAKI-LAKI LAKI-LAKI 28 25 25 0,33 1,44 3 1,83 1 2,3 1,14 1,83 3 1 2 2,9 TERLAMBAT TERLAMBAT TERLAMBAT LAKI-LAKI 26 1,29 1,36 2,08 2,2 TERLAMBAT PEREMPUAN 25 3,14 2,4 2,63 2,4 TERLAMBAT PEREMPUAN 25 0,76 0 3 1,7 TERLAMBAT PEREMPUAN 25 2 1,25 2,92 2,4 TERLAMBAT PEREMPUAN LAKI-LAKI LAKI-LAKI LAKI-LAKI 27 26 27 25 3,62 3,3 3,3 2,15 3,45 3,43 3,43 3,06 3,16 3,26 3,26 3,17 3,3 3,3 3,6 2,1 TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT LAKI-LAKI LAKI-LAKI LAKI-LAKI LAKI-LAKI LAKI-LAKI LAKI-LAKI 25 27 26 26 26 29 3 2,95 2,95 3 3 2,65 3,22 2,79 2,89 2,71 2,71 3,15 3,13 3,28 2,3 3,1 3,1 2,88 3,3 0 2,7 2,2 2,2 3 TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT LAKI-LAKI 25 2,67 1,75 1,67 2,9 TERLAMBAT LAKI-LAKI 28 3 2,75 3 3,5 TERLAMBAT LAKI-LAKI 25 0,88 1 1,75 1,4 TERLAMBAT LAKI-LAKI 28 0,38 2,5 3,17 2,8 TERLAMBAT 63 64 65 66 67 68 69 ILMU SOSIAL TEKNIK TEKNIK TEKNIK TEKNIK TEKNIK ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN EKONOMI EKONOMI EKONOMI EKONOMI ILMU SOSIAL ILMU SOSIAL LAKI-LAKI LAKI-LAKI PEREMPUAN PEREMPUAN LAKI-LAKI LAKI-LAKI LAKI-LAKI 25 24 26 25 26 27 26 0,78 2,6 2,2 2,5 3,2 2,75 2,79 1 1,84 2 2,74 2,87 2,84 2,56 0,8 1,71 2 2,9 3,26 2,89 3,59 2 1,7 2,9 3,5 2,5 2,8 2,6 TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT 70 71 72 73 74 75 TEKNIK TEKNIK TEKNIK TEKNIK TEKNIK TEKNIK LAKI-LAKI LAKI-LAKI LAKI-LAKI LAKI-LAKI PEREMPUAN LAKI-LAKI 26 26 26 26 26 27 2,54 2,46 2,64 3,21 2,68 2,86 2,4 2,7 2,9 3,1 2,5 2,4 3 2,63 2,95 3,47 3,18 3,29 2,2 2,2 2,6 3,4 2,8 2,7 TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT 76 TEKNIK ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN LAKI-LAKI 27 2,62 2,4 3 3,2 TERLAMBAT LAKI-LAKI 24 2,36 2 2,78 2,7 TERLAMBAT PEREMPUAN 24 3 2,67 3,38 3,3 TERLAMBAT 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 77 78 73 84 85 86 87 ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU KEOLAHRAGAAN ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN 88 89 90 91 92 93 ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN ILMU PENDIDIKAN BAHASA DAN SENI PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN 24 23 23 22 23 23 3,63 3,25 3,11 3,32 3,11 2,92 3,27 3,36 3,32 3,23 2,77 2,9 3,25 3,08 3,36 3,59 2,9 2,9 3,1 3,1 3,2 3,9 3,4 3,7 TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT 94 95 96 97 98 BAHASA DAN SENI BAHASA DAN SENI BAHASA DAN SENI BAHASA DAN SENI BAHASA DAN SENI MATEMATIKA DAN IPA MATEMATIKA DAN IPA PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN PEREMPUAN 22 23 23 23 24 2,5 3 3,67 3,65 2,67 2 2,33 3,78 3,67 3 3,22 3,89 0 3,43 3 3,1 3,2 0 3,5 3,1 TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT PEREMPUAN 23 3,69 2,38 2,82 2,1 TERLAMBAT PEREMPUAN 23 3,11 2,76 2,79 2,8 TERLAMBAT 79 80 81 82 83 99 100 LAKI-LAKI 25 2,91 2,2 3 3,1 TERLAMBAT LAKI-LAKI 25 2,82 2,4 3 2,6 TERLAMBAT LAKI-LAKI 25 3 2,6 3,44 2,8 TERLAMBAT LAKI-LAKI 25 2,4 2,53 2,1 2,7 TERLAMBAT PEREMPUAN 23 2,9 3,11 3,25 3,5 TERLAMBAT LAKI-LAKI PEREMPUAN PEREMPUAN PEREMPUAN 26 22 23 24 2,89 3 2,89 3,22 3,3 3,18 3,3 3,55 2,88 3 2,75 3,33 3,2 3,2 2,9 3,1 TERLAMBAT TERLAMBAT TERLAMBAT TERLAMBAT