LAPORAN TUGAS AKHIR KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI KELULUSAN MAHASISWA Disusun Oleh : Nama : Khoirul Muarif NIM : A11.2009.05066 Program Studi : Teknik Informatika FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2013 i LAPORAN TUGAS AKHIR KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI KELULUSAN MAHASISWA Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan program studi Teknik Informatika S-1 pada Fakultas Ilmu Komputer Universitas Dian Nuswantoro Disusun Oleh : Nama : Khoirul Muarif NIM : A11.2009.05066 Program Studi : Teknik Informatika FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2013 PERSETUJUAN LAPORAN TUGAS AKHIR Nama Pelaksana : Khoirul Muarif NIM : A11.2009.05066 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5 Berbasis Particle Swarm Optimization Untuk Memprediksi Kelulusan Mahasiswa Tugas Akhir ini telah diperiksa dan disetujui, Semarang, 24 Juli 2013 Menyetujui : Mengetahui : Pembimbing Dekan Fakultas Ilmu Komputer L. Budi Handoko, M.Kom. Dr. Abdul Syukur ii PENGESAHAN DEWAN PENGUJI Nama Pelaksana : Khoirul Muarif NIM : A11.2009.05066 Program Studi : Teknik Informatika Fakultas : Ilmu Komputer Judul Tugas Akhir : Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5 Berbasis Particle Swarm Optimization Untuk Memprediksi Kelulusan Mahasiswa Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir tanggal 18 Juli 2013. Menurut pandangan kami, tugas akhir ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom.) Semarang, 18 Juli 2013 Dewan Penguji: Sendi Novianto, S.Kom, MT Erna Zuni Astuti, M.Kom Anggota Anggota Noor Ageng Setiyanto, M.Kom Ketua Penguji iii PERNYATAAN KEASLIAN TUGAS AKHIR Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya: Nama : Khoirul Muarif NIM : A11.2009.05066 Menyatakan bahwa karya ilmiah saya yang berjudul: KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI KELULUSAN MAHASISWA merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : 18 Juli 2013 Yang menyatakan, (Khoirul Muarif) iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya: Nama : Khoirul Muarif NIM : A11.2009.05066 demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul: KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI KELULUSAN MAHASISWA beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : 12 Juli 2013 Yang menyatakan, (Khoirul Muarif) v KATA PENGANTAR Alhamdulilah, puji syukur kehadirat Allah SWT atas kekuatan, rahmat dan hidayah-Nya sehingga laporan tugas akhir dengan judul “KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK MEMPREDIKSI KELULUSAN MAHASISWA” dapat terselesaikan tepat waktu. Terimakasih kepada : 1. Dr.Ir. Edi Noersasongko,M.Kom, selaku Rektor Universitas Dian Nuswantoro Semarang. 2. Dr. Abdul Syukur selaku Dekan Fasilkom. 3. Dr. Heru Agus Santoso,M.Kom, selaku Ka.Progdi Teknik Informatika. 4. L. Budi Handoko, M.Kom, selaku pembimbing tugas akhir yang memberikan bimbingan yang berkaitan dengan penelitian penulis. 5. Ardhyta Luthfiarta, M.Kom.,M.Cs, yang memberikan masukan dan saran kepada penulis. 6. Amalia Hilda, yang memberikan lampiran berupa data kelulusan mahasiswa dalam thesisnya sebagai dasar obyek penelitian bagi penulis. 7. Dosen-dosen Fasilkom Universitas Dian Nuswantoro Semarang yang telah memberikan ilmu sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan. 8. Keluarga dan rekan-rekan mahasiswa Fasilkom Universitas Dian Nuswantoro yang telah memberikan dukungan material dan moral kepada penulis. Semoga Tuhan yang Maha Esa memberikan balasan yang lebih besar kepada beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya. Semarang, 12 Juli 2013 Penulis vi ABSTRAK Perguruan tinggi merupakan tempat bagi mahasiswa untuk mendapat pengetahuan sebelum terjun bersaing dalam dunia kerja. Perguruan tinggi menjadi sangat berperan untuk menciptakan lulusan terbaik bagi kebutuhan dunia kerja. Jumlah kelulusan mahasiswa akan menjadi salah satu indikator keberhasilan suatu perguruan tinggi yang berdampak pada akreditasi pemerintah dan penilaian masyarakat. Penelitian tentang prediksi kelulusan mahasiswa telah banyak dilakukan untuk mengetahui lulus tepat waktu atau terlambat. Berdasarkan kondisi tersebut teknik data mining yang tepat digunakan adalah klasifikasi. Salah satu teknik klasifikasi data mining adalah C4.5. Dalam penelitian ini, membandingkan algoritma C4.5 dengan C4.5 berbasis PSO(Particle Swarm Optimization) yang diterapkan pada data kelulusan mahasiswa. Dari hasil pengujian digunakan tes cross validation, confusion matrix dan kurva ROC, diketahui bahwa C4.5 berbasis PSO terbukti dapat meningkat akurasi dari prediksi dengan 86.09% dan peforma yang ditunjukkan nilai AUC adalah 0.883 sedangkan C4.5 memiliki akurasi prediksi 84.13% dan nilai AUC 0.837. Dari penelitian ini, terbukti bahwa PSO dapat meningkatkan akurasi dan performa AUC. Kata kunci : kelulusan mahasiswa, data mining, teknik klasifikasi data mining, C4.5, C4.5 berbasis PSO. xiii + 70 halaman; 28 gambar; 17 tabel Daftar acuan: 24 (1995 – 2012) vii ABSTRACT College is a place for students to gain knowledge before plunging to compete in the working world. College became a very important role to create the best graduates for the needs of the workforce. The minimum number of students would be one indicator of the success of a college accreditation impact on government and community assessment. Research on student graduation predictions have been carried out to determine graduate on time or late. Under these conditions the exact data mining techniques used are classification. One of the classification techniques of data mining is C4.5. In this study, compared with C4.5 C4.5 algorithm based on PSO (Particle Swarm Optimization) is applied to the data graduation. From the test results used cross validation test, confusion matrix and ROC curves, it is known that the PSO-based C4.5 proven to increase the accuracy of prediction by 86.09% and AUC values Performance shown is 0.883 while the C4.5 has a 84.13% prediction accuracy and AUC values 0837. From this study, it is evident that the PSO can improve the accuracy and performance of AUC. Keywords: graduation, data mining, data mining classification techniques, C4.5, C4.5 based PSO. viii DAFTAR ISI Halaman Halaman Sampul Dalam i Halaman Persetujuan ii Halaman Pengesahan iii Halaman Pernyataan Keaslian Tugas Akhir iv Halaman Pernyataan Persetujuan Publikasi v Halaman Kata Pengantar vi Halaman Abstrak vii Halaman Daftar Isi ix Halaman Daftar Tabel xi Halaman Daftar Gambar xii BAB I PENDAHULUAN 1 1.1 1.2 1.3 1.4 1.5 Latar belakang Rumusan masalah Batasan masalah Tujuan Manfaat 1 5 6 6 7 BAB II TINJAUAN PUSTAKA 8 2.1 2.2 Tinjauan studi. Landasan teori 2.2.1 Kelulusan Mahasiswa 2.2.2 Data mining 2.2.3 CRISP-DM 2.2.4 Pembobotan atribut 2.2.5 Algoritma C4.5 2.2.5.1 Pruning dalam pohon keputusan 2.2.6 Particle Swarm Optimization (PSO) 2.2.7 Cross validation ix 8 12 12 12 13 15 15 18 20 21 2.2.8 Confusion matrix 2.2.9 Kurva ROC 2.2.10 Kerangka pemikiran BAB III METODE PENELITIAN 3.1 3.2 25 Desain penelitian 3.1.1 Pengumpulan data 3.1.1.1 Pemahaman bisnis 3.1.1.2 Pemahaman data 3.1.2 Pengolahan data 3.1.3 Pemodelan 3.1.3.1 Model C4.5 3.1.3.2 Model C4.5 dioptimasi PSO 3.1.4 Validasi dan evaluasi 3.1.5 Penyebaran Alat penelitian BAB IV HASIL PENELITIAN DAN PEMBAHASAN 4.4 4.4 4.4 4.4 Validasi dan evaluasi Hasil percobaan dan pengujian metode 4.2.1 C4.5 4.2.2 C4.5 berbasis PSO Pembahasan Hasil pemodelan pohon keputusan dan Ruleₐ 4.4.1 Model C4.5 berbasis PSO 4.4.2 Model C4.5 BAB V PENUTUP 5.1 5.2 22 23 23 25 25 25 26 27 28 30 35 39 39 40 41 41 44 44 45 50 51 51 59 67 Kesimpulan Saran 67 67 DAFTAR PUSTAKA 69 x DAFTAR TABEL Halaman Tabel 2.1 State of the art 9 Tabel 2.2 Contoh confusion matrix. 22 Tabel 3.1 Kedudukan atribut yang akan digunakan 27 Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan digunakan untuk pemodelan dalam bentuk excel 28 Tabel 3.3 Contoh Data Traning yang telah di replace missing value 28 Tabel 3.4 Jumlah kasus dari tiap atribut 30 Tabel 3.5 Hasil perhitungan gain untuk menentukan node tertinggi 33 Tabel 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat kontinu 33 Tabel 3.7 Split point yang digunakan 35 Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai itersasi ke-25 35 Tabel 3.9 Split point berdasar weight yang digunakan 38 Tabel 3.10 Confusion matrik C4.5 39 Tabel 3.11 Spesifikasi Software dan Hardware 40 Tabel 4.1 Hasil akurasi dan AUC dari C4.5 45 Tabel 4.2 Hasil percobaan menggunakan population size dan maximum number of generation secara berbeda 45 Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO 48 Tabel 4.4 Hasil pembobotan atribut 50 xi DAFTAR GAMBAR Halaman Gambar 2.1 Siklus CRISP-DM .................................................................... 14 Gambar 2.2 Contoh pohon keputusan yang terbentuk .................................. 16 Gambar 2.3 Pohon keputusan dengan cabang A5 tidak konsisten ................ 19 Gambar 2.4 Pohon keputusan setelah di pruning .......................................... 20 Gambar 2.5 Ilustrasi tenfold cross validation ............................................... 21 Gambar 2.6 Confusion matrix untuk 2 model kelas ...................................... 22 Gambar 2.7 Kerangka pemikiran .................................................................. 24 Gambar 3.1 Data yang dilampirkan oleh Hilda ............................................. 26 Gambar 3.2 Data set dalam bentuk excel...................................................... 27 Gambar 3.3 Model yang di usulkan .............................................................. 29 Gambar 3.4 Model proses yang di usulkan ................................................... 29 Gambar 4.1 Setting parameter pada rapidminer ............................................ 41 Gambar 4.2 Desain model validasi C4.5 ....................................................... 42 Gambar 4.3 Desain model validasi C4.5 berbasis PSO ................................ 43 Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang ditampilkan oleh RapidMiner ........................................................................ 44 Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh RapidMiner ................................................................................ 44 Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar pada population size dan maximum number of generation ................ 46 Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar pada population size dan maximum number of generation ................ 46 xii Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang ditampilkan oleh RapidMiner berdasar pada population size bernilai 15 dan maximum number of generation bernilai 40 ....................... 47 Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan oleh RapidMiner berdasar pada population size bernilai 15 dan maximum number of generation bernilai 40 ............................. 48 Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5 dengan C4.5-PSO .................................................................................. 49 Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5 dengan C4.5-PSO .................................................................................. 49 Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri) ........................ 51 Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah) ................... 52 Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan) ..................... 53 Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri).................................. 59 Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah) ........................... 60 Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan) ............................. 61 xiii BAB I PENDAHULUAN 1. Latar Belakang Masalah Mahasiswa merupakan salah satu kelompok masyarakat elite yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut (Hilda, 2012). Dalam masa kehidupan mahasiswanya, mereka berkembang untuk mematangkan intelektualnya sebagai persiapan dalam bersaing di dunia kerja nantinya dan lingkungan masyarakat. Perguruan tinggi sekarang ini dituntut untuk mempunyai keunggulan daya saing dengan memanfaatkan dan memaksimalkan semua sumber daya yang dimiliki. Salah satunya adalah sistem informasi yang digunakan untuk meningkatkan daya saing dan juga dapat digunakan dalam pengolahan data menjadi informasi yang bernilai sebagai alat penunjang untuk kegiatan pengambilan keputusan strategis. Ini sesuai dengan dasar bahwa perguruan tinggi merupakan satuan pendidikan yang menjadi terminal terakhir bagi seseorang yang berpeluang belajar setinggi-tingginya melalui jalur pendidikan sekolah.(Hilda, 2012). Dalam lingkungan yang sangat kompetitif dan tujuan untuk mendapatkan keuntungan yang lebih dari bisnis maka organisasi pendidikan tinggi harus mampu meningkatkan kualitas layanan dan dapat memuaskan pelangan mereka. Mereka menganggap bahwa dosen dan mahasiswa merupakan aset utama, dengan menggunakan aset secara efektif dan efisien maka mereka berusaha untuk meningkatkan indikator – indikator kunci mereka.(Quadri & 1 2 Kalyankar, 2010). Dalam dunia pendidikan, mahasiswa merupakan aset yang penting di institusi pendidikan, maka harus diperhatikan tingkat kelulusan tepat waktunya. Berbagai perguruan tinggi bersaing untuk meningkatkan tingkat kelulusan sesuai dengan misi masing-masing pergururuan tinggi dalam mendidik mahasiswa (yaitu menghasilkan lulusan) yang akan menjadi anggota produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa. Selain itu, masing-masing perguruan tinggi mengetahui bahwa jumlah siswa yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga pendidikan tersebut (Karamouiz & Vrettos, 2008). Penilaian publik biasanya berdasar pada ketepatan lulus dari mahasiswa atau siswa sebuah institusi pendidikan maka ini berpengaruh pada tingkat kredibilitas dan eksisnya institusi tersebut. Quadri et al(Quadri & Kalyankar, 2010) berpendapat bahwa wisuda yang tepat waktu merupakan isu yang penting karena tingkat kelulusan sebagai dasar efektifnya suatu kelembagaan. Jika terjadi penurunan tingkat kelulusan secara signifikan dan terus berkembang maka akan menjadi permasalahan yang serius. Bahkan dapat mempengaruhi akreditasi perguruan tinggi tersebut. Untuk itu pemantauan dan evaluasi secara berkala terhadap kecenderungan tingkat kelulusan mahasiswa diperlukan. Berdasar pada peraturan yang disampaikan dalam buku II standard dan prosedur tentang akreditasi institusi perguruan tinggi oleh BAN-PT(Badan Akreditasi Nasional Perguruan Tinggi) tahun 2011 menyatakan bahwa salah satu aspek penilaian akreditasi adalah mahasiswa dan lulusan(BAN-PT, 2011). Jadi, tingkat kelulusan dan jumlah mahasiswa akan perpengaruh dalam proses akreditasi yang dilakukan oleh pemerintah. Setelah diberikan akreditasi terhadap komponen perguruan tinggi tersebut maka masyarakat umum akan mengetahui informasi akreditasi tersebut. Ketika akreditasi terhadap komponen 3 perguruan tinggi tersebut rendah maka akan berpengaruh terhadap penilaian masyarakat yang cinderung buruk dan penilaian buruk ini juga mempengaruhi minat masyarakat untuk mendaftarkan diri sebagai calon mahasiswa pada perguruan tinggi tersebut. Seperti yang tercantum pada berita replubika.co.id tanggal 24 Maret 2013 bahwa dalam lima tahun terakhir 11 Perguruan Tinggi Swasta(PTS) di Yogya tutup dikarenakan sepi peminat untuk menjadi calon mahasiswa di PTS tersebut(replubika, 2013). Oleh karena itu, analisa prediksi kelulusan mahasiswa diperlukan untuk memberikan informasi bagi civitas akademik mengenai mahasiswa yang dimungkinkan lulus terlambat. Dewasa ini pendekatan data mining berkembang untuk mengatasi berbagai permasalahan menyangkut tentang pengolahan data. Beberapa peneliti menggunakan teknik data mining untuk menyelesaikan permasalahan prediksi kelulusan mahasiswa(Hilda, 2012), (Suhartina & Ernastuti, 2010). Data mining adalah suatu cara yang bertujuan dalam penemuan pola secara otomatis atau semi otomatis dari data yang sudah ada di dalam database atau sumber data lain yang dimanfaatkan untuk menyelesaikan suatu masalah melalui berbagai aturan proses(Witten, I.H, 2011 ). Data mining memiliki beberapa teknik, diantaranya klasifikasi dan clustering. Teknik klasifikasi adalah teknik pembelajaran yang digunakan untuk memprediksi nilai dari atribut kategori target (Vercellis, 2009). Klasifikasi bertujuan untuk membagi objek yang ditugaskan hanya ke salah satu nomor kategori yang disebut kelas ( Max Bramer, 2007). Clustering merupakan pengelompokkan objek atau data berdasarkan kemiripan antar data, sehingga anggota dalam satu kelompok memiliki banyak kemiripan dibandingkan dengan kelompok lain (Gorunescu, 2011). Untuk memprediksikan kelulusan mahasiswa, maka hasil pengolahan data akan diklasifikasikan menjadi dua kelas, yaitu tepat dan terlambat. Sehingga teknik klasifikasi paling tepat untuk digunakan dalam data mining ini. Metode yang paling populer digunakan untuk teknik klasifikasi adalah Decision 4 Trees, Naïve Bayes Classifiers (NBC), Statistical analysis, dan lain lain (Gorunescu, 2011). Beberapa penelitian mengenai analisis prediksi kelulusan mahasiswa dengan metode klasifikasi data mining telah banyak dilakukan diantaranya adalah yang dilakukan oleh Hilda Amalia pada tahun 2012 yaitu mengkomparasi algoritma C4.5, naïve bayes, dan neural network. Dalam penelitian tersebut diketahui bahwa algoritma Nilai akurasi dan AUC tertinggi adalah neural network dan ternyata C4.5 masih tergolong fair classifacition. Dalam penelitian yang dilakukan Hilda belum ada optimasi dari algoritma yang digunakan, maka dimungkinkan untuk menggabungkan teknik algoritma lain dalam upaya meningkatkan akurasi dan AUC dari C4.5. Decision tree memang populer dan sering digunakan dalam klasifikasi karena memiliki hasil yang cukup baik jika dibanding algoritma lainnya. C4.5 juga dalam membentuk suatu model pembelajaran dari data tergolong cepat, selain itu karena model digambarkan dalam bentuk diagram pohon maka mudah dipahami. Namun, jika ada data yang tidak relevan dapat menurunkan akurasi C4.5 (Tsai & Chen, 2009). Di C4.5 seluruh atribut diseleksi untuk kemudian dibagi menjadi himpunan bagian yang lebih kecil (wu, 2009). Dengan jumlah data yang terlalu banyak, model yang terbentuk menjadi sulit dibaca seperti terbentuknya node yang redundant. Data yang akan diolah sebaiknya dilakukan proses pre-prosesing data. Dibawah ini merupakan beberapa kelebihan dari pohon keputusan (Gorunescu, 2011): a. Hasil analisa berupa diagram pohon yang sangat mudah dimengerti. b. Mudah untuk dibangun, serta membutuhkan data percobaan yang lebih sedikit dibandingkan algoritma klasifikasi lainnya. c. Mampu mengolah data nominal dan kontinyu. 5 d. Model yang dihasilkan dapat dengan mudah dimengeri, berbeda dengan teknik klasifikasi yang lain seperti neural network yang menyajikan model dengan informasi logis yang tersirat. e. Menggunakan teknik statistik sehingga dapat divalidasikan. f. Waktu komputasi relative lebih cepat dibandingkan teknik klasifikasi yang lain. g. Akurasi yang dihasilkan mampu menandingi teknik klasifikasi yang lainnya. Salah satu algoritma optimasi yang cukup populer adalah PSO (Particle Swarm Optimization). PSO banyak digunakan untuk memecahkan masalah optimasi, serta sebagai masalah seleksi fitur (Liu, Wang, Chen, Dong, Zhu, & Wang, 2011). Algoritma PSO terinspirasi dari sekelompok burung yang bergerak secara dinamis kemudian dapat bersinergi serta dapat terorganisir. Ketika diterapkan dalam beberapa kasus untuk mengoptimalisasi algoritma klasifikasi, mampu meningkatkan akurasi lebih baik daripada Genetic Algorithm adalah PSO(Sousa, Silva, & Neves, 2004, p. 768). 2. Rumusan Masalah Prediksi kelulusan mahasiswa menjadi sangat penting untuk diketahui bagi civitas akademik sebagai model pertimbangan dalam menentukan kebijakan terkait kemudian memberikan treatment atau rangsangan terhadap mahasiswa diperkirakan terlambat lulus. Berdasarkan latar belakang permasalahan yang ada, penelitian yang menggunakan algoritma C4.5 untuk prediksi kelulusan mahasiswa masih kurang akurat. Diperlukan algoritma optimasi yang diterapkan untuk pembobotan atribut pada algoritma Particle Swarm Optimization (PSO) agar nilai akurasi lebih tinggi. Kemudian hasil 6 pengolahan data dapat digunakan sebagai salahsatu dasar pertimbangan untuk membuat suatu sistem pendukung keputusan dan dimanfaatkan oleh civitas akademik perguruan tinggi. 3. Batasan Masalah Penelitian ini dibatasi pada perbandingan metode klasifikasi data mining yang menggunakan algoritma C4.5 dengan algoritma C4.5 berbasis PSO pada pembobotan atribut dalam prediksi kelulusan mahasiswa kemudian mengevaluasi hasil perbandingan untuk mengetahui dampak dari optimalisasi PSO. Data diperoleh dari kelulusan mahasiswa sebuah perguruan tinggi. Batasan masalah lebih rinci adalah sebagai berikut : 1. Teknik yang digunakan merupakan teknik klasifikasi data mining. 2. Algoritma yang dipakai adalah decision tree khususnya C4.5 berdasar pada information gain. 3. Teknik optimasi yang dipakai adalah Particle Swarm Optimization (PSO). 4. Tujuan Penelitian Tujuan dari penelitian ini adalah membuktikan bahwa optimalisasi dengan berdasar algoritma PSO yang digunakan untuk memilih dan memberi bobot atribut dari dataset pada algoritma C4.5 dapat meningkatan akurasi analisa kelulusan mahasiswa menggunakan algoritma C4.5. dibanding akurasi analisa yang hanya 7 5. Manfaat Penelitian a. Bagi Akademik Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut : a. Memberikan informasi untuk menganalisa kelulusan mahasiswa yang dimungkinkan akan lulus tepat atau terlambat dan dapat membantu civitas akademik perguruan tinggi untuk memberikan peringatan dini dan pembimbingan awal bagi mahasiswa yang kemungkinan tidak lulus tepat waktu. b. Membantu perguruan tinggi dalam membuat kebijakan untuk bisa meningkatkan kelulusan mahasiswa. b. Bagi Masyarakat dan Ilmu Pengetahuan Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut : a. Memberikan klasifikasi pertimbangan yang digunakan dimanfaatkan tidak hanya bahwa pada teknik atau penelitian fokus pada ini model dapat masalah dunia pendidikan, seperti bank, penjualan, kasus bisnis lain. c. Bagi Peneliti Manfaat yang dapat di ambil dari penelitian ini adalah : a. Memberikan kontribusi keilmuan pada penelitian bidang klasifikasi data mining khususnya untuk prediksi kelulusan mahasiswa. b. Dapat mengetahui perbandingan tingkat akurasi dan error terhadap algoritma yang digunakan. c. Memberikan prediksi digunakan untuk rujukan penelitian selanjutnya dengan metode yang sama ataupun pengoptimalan dengan algoritma lain. BAB II TINJAUAN PUSTAKA Penelitian TA ini menggunakan beberapa referensi media sebagai landasan teori diantaranya buku, jurnal baik jurnal nasional maupun internasional serta prosiding sebagai referensi. 2.1 Tinjauan studi Beberapa jurnal dan artikel penelitian yang berhubungan dengan teknik klasifikasi algoritma data mining yang memiliki keterkaitan dalam topik penelitian yaitu : 1. Analisa dan Komparasi Metode Klasifikasi Data Mining untuk Prediksi Kelulusan Mahasiswa.(Hilda Amalia, 2012) Membuat penelitian model dengan menggunakan tiga algoritma yaitu C4.5, neural network dan naïve bayes dan membandingkannya untuk menemukan algoritma terbaik dalam menyelesaikan masalah prediksi kelulusan mahasiswa menggunakan variabel fakultas, IPS(Indeks Prestasi Semester), umur dan jenis kelamin. 2. Drop Out Feature of Student Data for Academic Using Decision Tree Techniques (Quadri & Kaylanyar, 2010) Melakukan penelitian dengan menggunakan algoritma J4.8 dan nantinya akan menggunakan C4.5 untuk memodelkan prestasi akademik siswa sangat penting bagi lembaga pendidikan untuk menyusun rencana strategis menghasilkan pohon keputusan. 3. Graduation Prediction of Gunadarma Student Using Naïve Bayes and Decision Tree (Suhartina & Ernastuti, 2010) Penelitian ini membandingkan keakuratan antara algoritma native bayes dengan C4.5 berdasar pada variabel ips(indek prestasi semester) dan gaji orang 8 tua. 9 4. Prediksi Loyalitas Pelanggan Pada Perusahaan Penyedia Layanan Multimedia Dengan Algoritma C4.5 Berbasis Particle Swarm Optimization(Desiyanna Lasut, 2012) Penelitian yang dilakukan adalah memaksimalkan algoritma C4.5 dengan PSO dan membandingkan hasil keakurasian yang diperoleh untuk memprediksikan kemungkinan loyal atau tidak. Tabel 2.1 State of the art n o 1 2 Peneliti Desiyan na Lasut Hilda t a h u n Judul 2 0 1 2 Prediksi Loyalitas Pelanggan Pada Perusahaan Penyedia Layanan Multimedia Dengan Algoritma C4.5 Berbasis Particle Swarm Optimization 2 0 1 2 ANALISA DAN KOMPARASI METODE KLASIFIKASI DATA MINING UNTUK PREDIKSI KELULUSAN MAHASISWA metode Hasil Catatan C4.5 dan C4.5 optimasi dengan PSO Penggunaan PSO dalam pembobotan attribut dapat mengolah data numerik sehingga meningkatkan akurasi model yang digunakan. Dengan akurasi dari 78.40 menjadi 80.90 dan AUC dari 0.794 menjadi 0.841 1. attribut yang diolah sebaiknya diproses terlabih dahulu, proses diskretisasi, pengelompokkan nilai attribut dapat secara efektif meningkatkan akurasi dari algoritma C4.5, 2. atribut numerik yang diolah dapat ditingkatkan, dengan begitu optimasi bobot oleh algoritma PSO dapat lebih efektif. 1. Algoritma C4.5 menghasilkan nilai akurasi yaitu 74.33% dan nilai AUC yaitu 0.787, 2. Naïve Bayes menghasilkan nilai akurasi yaitu 69.72% dan nilai AUC yaitu 0.829, 3. Neural Network menghasilkan nilai akurasi yaitu 78.29% dan nilai AUC yaitu 0.848, 4. Nilai akurasi dan AUC tertinggi adalah metode Neural Network 1. Atribut jenis kelamin tidak berpengaruh pada hasil pohon keputusan, sehingga perlu dilakukan penyeleksian atribut seperti penggunaan Chi-Square, 2. Nilai akurasi yang dihasilkan dari setiap metode berada pada nilai 60-70 % saja, sehingga masih bisa di tingkatkan dengan menggunakan metode optimasi seperti AdaBoost, PSO atau yang lainnya, 3. Nilai akurasi dan AUC tertinggi untuk penelitian ini diperoleh oleh metode neural network dengan nilai 78.13% dan 0.848, yang termasuk kategori baik namun belum sangat baik, sehingga dapat dilakukan perbandingan lagi dengan metode klasifikasi data mining lainnya C4.5, neural network dan naïve bayes 10 3 4 5 Susanto Kahfi Heryandi Suradiraj a Firmansy ah 2 0 1 2 2 0 1 2 2 0 1 1 Segmentasi dan Klasifikasi Perilaku Pembayaran Pelanggan pada Perusahaan Penyedia Layanan Multimedia dengan Algoritma K-Means dan C4.5 DETEKSI TRANSAKSI PENCUCIAN UANG DENGAN ALGORITMA KLASIFIKASI C4.5 Penerapan Algoritma Klasifikasi C4.5 untuk Penentuan Kelayakan Pemberian Kredit Koperasi C4.5 dan C4.5 optimasi dengan K-Means C4.5 C4.5 1. Dengan menggunakan k-means, tingkat potensial pelanggan dapat diukur, selain itu dapat membentuk atribut yang handal untuk proses klasifikasi, 2. Peningkatan model yang terbentuk cukup signifikan peningkatan. Hasil Akurasi dari 59.02% menjadi 77.31% dan AUC dari 0.537 menjadi 0.836 1. algoritma klasifikasi C4.5 pada data transaksi perbankan yang memiliki akurasi terbaik untuk C4.5 adalah menggunakan Pre-Pruning dan Pruning yakni dengan nilai AUC 0.936 (Excelent Classification). 2. Pengaruh penerapan Pruning dan PrePruning keduanya sebagai parameter dapat meningkatkan akurasi algoritma decision tree, pada information gain atau ID3 memiliki nilai 0.865, pada gini index memiliki nilai AUC 0.907 dan pada C4.5 memiliki nilai AUC terbaik 0.936. algoritma klasifikasi C4.5 akurat diterapkan untuk penentuan kelayakan kredit koperasi, dengan tingkat keakuratan 90% 1. Karena data yang dimiliki sebagian besar terdiri dari nilai numerik, dapat dilakukan diskretisasi. 2. Dapat menerapkan algoritma optimasi untuk pemilihan atribut, atau penyesuaian nilai parameter. Menggunakan algoritma lain yang lebih cocok dalam pengolahan data numerik seperti chi square agar didapat titik perpecahan yang lebih beragam 1. Membandingkan tingkat akurasinya dengan model algoritma lain seperti Naive Bayes atau Support Vector Machine. 2. Membandingkan hasil akurasinya dengan data yang bukan imbalance. 3. Membandingkan pengukuran akurasi dengan model evaluasi lain seperti Precission and Recall atau Costsensitive Measure 1.Melakukan pruning sehingga pohon yang terbentuk tidak terlalu besar, untuk mengefisienkan kinerja dari pohon keputusan tanpa mengurangi keakuratannnya 2.Untuk menambah keakuratan, algoritma C4.5 dapat digabungkan dengan metode lain seperti naive bayes atau support vector machine 3.Penelitian dapat dikembangkan dengan menggunakan metode seleksi atribut yang lain seperti chisquare, gini index dan sebagainya untuk ketepatan penyeleksian atribut 11 2 0 1 1 Komparasi Algoritma Klasifikasi Data Mining untuk Penentuan Kelayakan Pembiayaan Konsumen Kredit Kendaraan Bermotor C4.5, naïve bayes dan neural network 7 Siti Masripa h 2 0 1 1 Algoritma Klasifikasi C4.5 berbasis PSO (Particle Swarm Optimization) untuk Evaluasi Penentuan Kelayakan Pemberian Kredit Koperasi Syariah C4.5 dan C4.5 optimasi dengan PSO 8 M. N. Quadri and N.V. Kalyanka r 2 0 1 0 Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques decision tree J48 6 9 Henilei Marselin a Silvia Suhartin ah, Ernastuti 2 0 1 0 GRADUATION PREDICTION OF GUNADARMA UNIVERSITY STUDENTS USING ALGORITHM AND NAIVE BAYES C4.5 ALGORITHM Naive Bayes, C4.5 •metode pengujian Cross Validation, Confusion Matrix dan Kurva ROC, diketahui bahwa algoritma C4.5 memiliki nilai accuracy dan AUC paling tinggi, diikuti oleh metode neural network, dan yang paling rendah metode naïve bayes •Metode C4.5 dan neural network termasuk kelompok klasifikasi sangat baik karena nilai AUC-nya antara 0.90-1.00 sedangkan nilai AUC metode naïve bayes termasuk kelompok klasifikasi baik karena nilai AUC-nya antara 0.80-0.90. 1. Nilai akurasi untuk algoritma klasifikasi C4.5 senilai 88% sedangkan untuk nilai akurasi algoritma C4.5 berbasis PSO (Particle Swarm Optimization) senilai 94%, 2. Nilai AUC untuk algoritma C4.5 senilai 0,898 dengan diagnosa Good Classification. Sedangkan nilai AUC untuk algoritma C4.5 berbasis PSO (Particle Swarm Optimization) senilai 0.955 dengan diagnosa Excellent Classification •Agar hasil penelitiannya lebih bisa digeneralisasi secara luas, untuk penelitian selanjutnya, dapat dilakukan penelitian dengan data yang berasal dari banyak perusahaan leasing. N.A N.A N.A prediksi ketepatan dengan algoritma C4.5 85,7% dan error 14,3%, sedangkan algoritma naïve bayes 80,85% dan error 19,05% Pada penelitian kali ini data training yang digunakan terbatas yaitu sebanyak 65 record data dan ketidaklengkapan data yang diperoleh . Untuk melihat kinerja yang lebih baik dalam hasil akurasi masingmasing algoritma maka jumlah record data yang digunakan untuk proses training sebaiknya ditingkatkan mendekati jumlah data sesungguhnya 12 Berdasarkan tinjauan studi diatas ada beberapa peneliti yang sudah menggunakan C4.5 dan PSO dalam berbagai kasus. Sesuai tabel performa terbukti menjadi lebih baik jika dikombinasikan dengan algoritma lain pada seleksi atribut. PSO yang diterapkan pada seleksi atribut terbukti berhasil meningkatkan akurasi pada C4.5. Penelitian ini menggunakan PSO untuk menentukan fitur terbaik pada bobot atribut yang sesuai dan optimal pada C4.5 sehingga hasil prediksi lebih akurat. 2.2 Landasan teori Penulis meninjau beberapa buku dan jurnal sebagai landasan untuk menjelaskan berbagai hal yang berhubungan dengan topik penelitian. 2.2.1 Kelulusan Mahasiswa Mahasiswa merupakan salah satu kelompok masyarakat elite yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut (Hilda, 2012). Kelulusan mahasiwa merupakan hal yang penting untuk diperhatikan, karena penurunan jumlah kelulusan akan menghilangkan jumlah pendapatan institusi dan juga akan berpengaruh pada penilaian pemerintah dengan bentuk status akreditasi institusi (Karamouiz & Vrettos, 2008). Beberapa faktor yang dapat mempengaruhi kelulusan mahasiswa antara lain adalah nilai akhir SMA, Indeks Prestasi Semester (IPS), gaji orang tua dan pekerjaan orang tua (Suhartinah & Ernastuti, 2010). 2.2.2 Data Mining Data mining adalah suatu proses untuk menemukan hubungan baru dengan cara memilah-milah data yang sudah ada di dalam 13 database menggunakan teknologi pengenalan pola dan statistik (Larose, 2005). Data mining adalah proses menggali informasi atau pola dalam data berukuran besar yang sudah ada dalam database untuk keperluan tertentu. Salah satu teknik dari data mining adalah klasifikasi yang tujuannya membagi objek untuk ditugaskan hanya ke salah satu nomor kategori yang disebut kelas (Max Bramer, 2007). Variable target dari klasifikasi adalah variable kategori (Larose, 2005). Klasifikasi adalah suatu proses pencarian untuk memprediksi kelas dari suatu obyek yang belum diketahui kelasnya. 2.2.3 CRIPS-DM Cross-Industry Standart Proses for Data Mining (CRIPS-DM) dikembangkan pada tahun 1996 oleh analis dari beberapa industri. CRIPS-DM menyediakan standart proses data mining sebagai pemecahan masalah secara umum dari bisnis atau unit penelitian. CRIPS-DM memiliki siklus hidup yang terbagi dalam enam fase, yaitu (Larose, 2005) : 14 Gambar 2.1 Siklus CRISP-DM (Larose, 2005) a. Pemahaman Bisnis(Business Understanding) Merupakan tahap awal yaitu pemahaman penelitian, penentuan tujuan dan rumusan masalah data mining. b. Pemahaman Data(Data Understanding) Dalam tahap ini dilakukan pengumpulan data, mengenali lebih lanjut data yang akan digunakan. c. Pengolahan Data(Data Preparation) Tahap ini adalah pekerjaan berat yang perlu dilaksanakan secara intensif. Memilih kasus atau variable yang ingin dianalisis, melakukan perubahan pada beberapa variable jika diperlukan sehingga data siap untuk dimodelkan. 15 d. Pemodelan(Modeling) Memilih teknik pemodelan yang sesuai dan sesuaikan aturan model untuk hasil yang maksimal. Dapat kembali ke tahap pengolahan untuk menjadikan data ke dalam bentuk yang sesuai dengan model tertentu. e. Evaluasi (Evaluation) Mengevaluasi satu atau model yang digunakan dan menetapkan apakah terdapat model yang memenuhi tujuan pada tahap awal. Kemudian menentukan apakah ada permasalahan yang tidak dapat tertangani dengan baik serta mengambil keputusan hasil penelitian. f. Penyebaran (Deployment) Menggunakan model yang dihasilkan seperti pembuatan laporan atau penerapan proses data mining pada institusi lain. 2.2.4 Pembobotan atribut Tidak semua atribut memiliki peranan penting dalam akurasi. Pembobotan atribut adalah proses pemberian nilai pada setiap atribut dengan metode tertentu berdasarkan tingkat pengaruhnya terhadap nilai akurasi (Witten, 2011). Pembobotan atribut pada penelitian ini menggunakan metode Particle Swarm Optimization (PSO). 2.2.5 Algoritma C4.5 Disebut juga dengan Desicion Tree adalah pengklasifikasian statistik yang didasarkan pada Desicion Tree yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu kelas. Desicion Tree terbukti memiliki akurasi dan kecepatan yang tinggi saat diaplikasikan ke dalam database yang besar (Kusrini, 2009). 16 Desicion Tree menyerupai struktur flowchart, yang masingmasing internal node-nya dinyatakan sebagai atribut pengujian, setiap cabang mewakili output dari pengujian, dan setiap node daun (terminal node) menentukan label class. Node paling atas dari sebuah pohon adalah node akar (Han & Kamber, 2007). Salah satu metode klasifikasi yang menarik melibatkan konstruksi pohon keputusan, koleksi node keputusan, terhubung oleh cabang-cabang, memperpanjang bawah dari simpul akar sampai berakhir di node daun. Dimulai di node root, yang oleh konvensi ditempatkan di bagian atas dari diagram pohon keputusan, atribut diuji pada node keputusan, dengan setiap hasil yang mungkin dihasilkan dalam suatu cabang. Setiap cabang kemudian mengarah baik ke node lain keputusan atau ke node daun untuk mengakhiri (Larose, 2005). Gambar 2.2 Contoh pohon keputusan yang terbentuk (Santosa, 2007) Beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5 (kusrini & Lutfi, 2009), yaitu: 1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke dalam kelas kelas tertentu. 2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing- 17 masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung gain dari atribut, hitung dahulu nilai entropy yaitu: (2.1) Keterangan: S : himpunan kasus A : atribut N : jumlah partisi S Pi : proporsi dari Si terhadap S 3. Kemudian hitung nilai gain dengan metode informasi gain: (2.2) 4. Ulangi langkah ke-2 hingga semua tupel terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat: a. Semua tupel dalam node N mendapat kelas yang sama. b. Tidak ada atribut di dalam tupel yang dipartisi lagi. c. Tidak ada tupel di dalam cabang yang kosong. Langkah-langkah diatas digunakan untuk menangani atribut nominal. Perhitungan dengan metode Entropy Based Discretization di gunakan untuk menangani atribut yang bersifat kontinu. Metode ini menggunakan entropy sebagai bagian dari proses pemisahan selang data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai pemisah yang terbaik maka harus dihitung nilai split ploint, nilai informasi dari entropi antara 2 sample dengan rumus : 18 1. Urutkan data subset dari yang terkecil sampai yang terbesar. 2. Hitung rataan nilai per 2 data yang bersebelahan yang digunakan untuk split point dengan formula 2.3. Setiap nilai rata-rata merupakan titik nilai yang mungkin menjadi titik perpecahan (split_point) untuk memilih titik terbaik, data akan dipecah menurut titik yang diuji. 3. Hitung nilai informasi dari kedua sampel(Sₐ) dengan formula 2.5. Kemudian T(split point) yang memilki nilai informasi terkecil diambil sebagai batas node. (2.3) (2.4) (2.5) Dimana, T merupakan nilai batas (split point) 2.2.5.1 Pruning dalam pohon keputusan Untuk mendapatkan data yang benar benar sejenis, maka akan terbentuk banyak sekali cabang dalam pohon keputusan. Data yang terlalu beragam ataupun data acak akan membuat struktur pohon keputusan menjadi terlalu rumit (Alpaydın, 2010). Di dalam pohon keputusan dikenal istilah pruning yaitu memangkas cabang yang tidak terlalu besar pengaruhnya agar diagram dihasilkan lebih akurat dan simple. 19 Ada dua pendekatan pruning yang digunakan : a. Prepruning menghentikan proses pembuatan cabang pada titik tertentu. Semakin besar perulangan pembuatan cabang yang diperbolehkan, semakin besar pula kompleksitas dari pohon keputusan yang didapat jika data beragam, namun jika jumlah perulangan terlalu kecil, diagram pohon yang dihasilkan menjadi kurang akurat. b. Postpruning memotong cabang pohon yang kurang mereprensentasikan data setelah sebuah pohon keputusan terbentuk. Kelas yang diberikan akan diukur dari jumlah persebaran label yang ada pada cabang tersebut. Algoritma C4.5 menggunakan pessimistic pruning yang mampu mengkalkulasi tingkat error yang digunakan sebagai acuan dalam pemangkasan cabang pohon keputusan. Baik postpruning dan prepruning dapat dikombinasikan karena tidakada teknik yang lebih baik antara keduanya. Walaupun pohonkeputusan yang muncul setelah pruning akan lebih singkat, namun terkadang masih muncul repetisi dan replikasi cabang. Gambar 2.3 Pohon keputusan dengan cabang A5 tidak konsisten(Desiyana, 2012) 20 Gambar 2.4 Pohon keputusan setelah di pruning(Desiyana, 2012) 2.2.6 Particle Swarm Optimization (PSO) PSO adalah algoritma pencarian berbasis populasi yang diinisialisasi dengan populasi solusi acak dan digunakan untuk memecahkan masalah optimasi (Abraham, Grosan, & Ramos, 2006). PSO adalah metode optimasi heuristic global yang diperkenalkan oleh Dokter Kennedy dan Eberhart pada tahun 1995 berdasarkan penelitian terhadap perilaku kawanan burung dan ikan (Bai, 2010). Setiap partikel dalam PSO juga dikaitkan dengan kecepatan partikel terbang melalui ruang pencarian dengan kecepatan yang dinamis disesuaikan untuk perilaku historis mereka. Oleh karena itu, partikel memiliki kecenderungan untuk terbang menuju daerah pencarian yang lebih baik dan lebih baik selama proses pencarian (Abraham, Grosan, & Ramos, 2006). Rumus untuk menghitung perpindahan posisi dan kecepatan partikel yaitu : ܸ݅ ሺݐሻ ൌ ܸ݅ ሺ ݐെ ͳሻ ܿͳ ͳݎൣܺ ݅ ݐݏܾ݁െ ܺ݅ ሺݐሻ൧ ܿʹ ʹݎሾܺ ݐݏܾ݁ܩെ ܺ݅ ሺݐሻሿ (2.6) ܺ݅ ሺݐሻ ൌ ܺ݅ ሺ ݐെ ͳሻ ܸ݅ ሺݐሻ (2.7) 21 Dimana : · Vi (t) = kecepatan partikel i saat iterasi t · Xi (t) = posisi partikel i saat iterasi t · c1 dan c2 = learning rates untuk kemampuan individu (cognitive) dan pengaruh sosial (group) · r1 dan r2 = bilangan random yang berdistribusi uniformal dalam interval 0 dan 1 · XPbesti = posisi terbaik partikel i · XGbest = posisi terbaik global 2.2.7 Cross validation Cross validation adalah teknik pengambilan sampel secara random yang menjamin setiap jumlah kemunculan data yang diamati dama dengan jumlah data training dan hanya sekali pada data testing (Vercellis, 2009). Dalam cross validation kita harus menetapkan jumlah partisi atau fold, standar yang biasa digunakan untuk memperoleh estimasi kesalahan terbaik adalah 10 kali partisi atau tenfold cross-validation (Gorunescu, 2011). Data dibagi secara random menjadi 10 bagian dengan perbandingan yang sama kemudian error rate dihitung bagian demi bagian, selanjutnya error rate secara keseluruhan diperoleh dari menghitung rata-rata error rate dari 10 bagian . Gambar 2.5 Ilustrasi tenfold cross validation 22 2.2.8 Confusion matrix Untuk melakukan evaluasi terhadap model klasifikasi berdasarkan perhitungan objek testing mana yang diprediksi benar dan tidak benar. Perhitungan ini ditabulasikan kedalam tabel yang disebut confusion matrix (Gorunescu, 2011). Confusion matrix merupakan data set hanya memiliki dua kelas, kelas yang satu sebagai positif dan kelas yang lain sebagai negatif. Terdiri dari empat sel yaitu True Positives (TP), False Positives (FP), True Negatives (TN) dan False Negatives (FN) (Max Bramer, 2007). Gambar 2.6 Confusion matrix untuk 2 model kelas (Gorunescu, 2011) Untuk menghitung akurasi menggunakan rumus (Gorunescu, 2011): ݕܿܽݎݑܿܿܣൌ ܽ ݀ ܽ ܾܿ݀ ൌ ܶܲܶܰ (2.8) ܶܲܲܨܶܰܰܨ Tabel 2.2 Contoh confusion matrix Model C4.5 Kelas yang di amati Kelas yang prediksi 250 45 5 200 Dari table di atas dapat dilakukan pengukuran akurasi model C4.5 sebagai berikut : 23 ൌ ʹͷͲ ʹͲͲ ͶͷͲ ൌ ൌ ͻͲΨ ʹͷͲ Ͷͷ ͷ ʹͲͲ ͷͲͲ 2.2.9 Kurva ROC Kurva ROC menunjukan visualisasi dari akurasi model dan perbandingkan perbedaan antar model klasifikasi. mengekspresikan confusion matrix (Vercellis, 2009). ROC ROC adalah grafik dua dimensi dengan false positives sebagai garis horizontal dan true positives untuk mengukur perbedaaan performasi metode yang digunakan. menguji Kurva ROC adalah teknik untuk memvisualisasi dan kinerja pengklasifikasian berdasarkan performanya (Gorunescu, 2011). Model klasifikasi yang lebih baik adalah yang mempunyai kurva ROC lebih besar (Vercellis, 2009). Performa keakurasian AUC dapat diklasifikasikan menjadi lima kelompok yaitu (Gorunescu, 2011): a. 0.90 – 1.00 = Unggul b. 0.80 – 0.90 = Baik c. 0.70 – 0.80 = Cukup d. 0.60 – 0.70 = Kurang e. 0.50 – 0.60 = Gagal 2.2.10 Kerangka pemikiran Masalah yang ditemui pada penelitian ini adalah kurang akuratnya algoritma C4.5 untuk mahasiswa. Maka digunakan model memprediksikan kelulusan algoritma Particle Swarm Optimization (PSO) dalam seleksi atribut pada algoritma C4.5 untuk meningkatkan akurasi. Desain penelitian ini menggunakan CRISP-DM dan RapidMiner digunakan sebagi aplikasi model pengembangannya. Kemudian dilakukan pengujian hasil untuk terhadap 24 kinerja dari algoritma C4.5 dan algoritma C4.5 berbasis PSO dengan menggunakan metode Cross Validation, tingkat akurasi algoritma diukur dengan Confusion Matrix dan AUC dengan kurva ROC. Dari hasil perbandingan nilai akurasi maka akan diketahui dampak penerapan PSO di algoritma C4.5. masalah metode Algoritma C4.5 Pengembangan Rapid miner framework Penerapan CRISPDM Data set mahasiswa lulus tepat waktu dan terlambat Pengujiaan confusion matrix dan AUC akurasi Kurang akuratnya algoritma C4.5 untuk memprediksikan kelulusan mahasiswa Algoritma C4.5 berbasis PSO pada seleksi atribut dan bobot Rapid miner framework Data set mahasiswa lulus tepat waktu dan terlambat Gambar 2.7 Kerangka pemikiran akurasi BAB III METODE PENELITIAN 3.1 Desain penelitian Metode yang digunakan dalam penelitian ini adalah model CRISPDM, dengan langkah-langkah sebagai berikut : 3.1.1 Pengumpulan data 3.1.1.1 Pemahaman bisnis (Bussiness understanding) Berbagai perguruan tinggi bersaing untuk meningkatkan tingkat kelulusan sesuai dengan misi masingmasing pergururuan tinggi dalam mendidik mahasiswa (yaitu menghasilkan lulusan) yang akan menjadi anggota produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa. Selain itu, masing-masing perguruan tinggi mengetahui bahwa jumlah siswa yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga pendidikan tersebut (Karamouiz & Vrettos, 2008). Penilaian publik biasanya berdasar pada ketepatan lulus dari mahasiswa atau siswa sebuah institusi pendidikan maka ini berpengaruh pada tingkat kredibilitas dan eksisnya institusi tersebut. Quadri et al(Quadri & Kalyankar, 2010) berpendapat bahwa wisuda yang tepat waktu merupakan isu yang penting karena tingkat kelulusan sebagai dasar efektifnya suatu kelembagaan. Jika terjadi penurunan tingkat kelulusan secara signifikan dan terus berkembang maka akan menjadi permasalahan yang serius. Bahkan dapat mempengaruhi akreditasi perguruan tinggi tersebut. Untuk itu pemantauan dan evaluasi secara berkala terhadap kecenderungan tingkat kelulusan mahasiswa diperlukan. Jadi, prediksi untuk 25 26 kelulusan sangat diperlukan untuk dapat memberikan pertimbangan kebijakan yang akan diambil oleh lembaga pendidikan setelah mengetahui kemungkinan aset mereka berupa mahasiswa akan telat untuk kelulusannya. 3.1.1.2 Pemahaman data (Data understanding) Data yang digunakan pada penelitian ini berasal dari penelitian Hilda tahun 2012 level thesis STIMIK NUSA MANDIRI JAKARTA yang berupa lampiran data kelulusan mahasiswa berjumlah 1632 record dan terdiri dari 14 atribut, dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal. Data tersebut digunakan oleh Hilda untuk dilakukan prediksi kelulusan mahasiswa(Hilda, 2012). Gambar 3.1 Data yang dilampirkan oleh Hilda (kolom status terpotong) 27 Setelah data tersebut dilakukan penulisan kembali dalam bentuk yang sama disimpan dengan ekstensi excel maka tampilan data seperti dibawah ini : Gambar 3.2 Data set dalam bentuk excel 3.1.2 Pengolahan Data (Data preparation) Dalam tahap ini, data yang akan dipergunakan adalah sebagai berikut : Table 3.1 Kedudukan atribut yang akan digunakan Atribut NIP NAMA FALKULTAS Jeniskelamin Umur IPS1 IPS2 IPS3 IPS4 IPS5 IPS6 IPS7 IPS8 STATUS Kegunaan √ X √ √ √ √ √ √ √ X X X X √ ID No regular(nilai model) regular(nilai model) regular(nilai model) regular(nilai model) regular(nilai model) regular(nilai model) regular(nilai model) No No No No Label (hasil) 28 Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan digunakan untuk pemodelan dalam bentuk excel NIP FALKULTAS jeniskelamin umur IPS1 76183 ILMUPENDIDIKAN PEREMPUAN 21 3.44 3.43 3.91 3.45 70029 76152 76174 ILMUPENDIDIKAN ILMUPENDIDIKAN ILMUPENDIDIKAN PEREMPUAN PEREMPUAN PEREMPUAN 21 4 0 3.56 3.13 2.9 3.26 3.43 3 3.91 3.55 3.03 3.36 21 IPS2 IPS3 IPS4 STATUS TEPAT TEPAT TEPAT TEPAT Kemudian dari data diatas maka langkah berikutnya dilakukan replace missing value berdasar pada model average yaitu menggantikan nilai yang kosong dengan nilai rataan yang akan muncul pada data traning tersebut. Tabel 3.3 Contoh Data Traning yang telah di replace missing value 3.1.3 NIP FALKULTAS jeniskelamin IPS1 IPS2 IPS3 IPS4 76049 ILMUPENDIDIKAN LAKI-LAKI umur 27 0 0 2.76 2.99 STATUS TEPAT 76050 ILMUPENDIDIKAN PEREMPUAN 26 0 0 3 2.9 TEPAT 76120 ILMUPENDIDIKAN PEREMPUAN 23 3.13 3.5 3.67 3.54 TEPAT 76149 ILMUPENDIDIKAN LAKI-LAKI 22 3.33 3.52 4 3.55 TEPAT 76151 ILMUPENDIDIKAN PEREMPUAN 22 3.44 3.26 3.65 3.45 TEPAT 76152 ILMUPENDIDIKAN PEREMPUAN 24 0 2.9 3 3.03 TEPAT 76154 ILMUPENDIDIKAN PEREMPUAN 22 3.22 3.35 3.3 3.36 TEPAT 76155 ILMUPENDIDIKAN PEREMPUAN 23 3.22 3.26 3.65 3.82 TEPAT 76157 ILMUPENDIDIKAN PEREMPUAN 22 2.89 3.3 3.65 3.09 TEPAT Pemodelan (Modelling) Terdapat dua metode yang digunakan yaitu algoritma C4.5 dan algoritma C4.5 yang dikombinasikan dengan algoritma PSO pada seleksi atribut. Untuk membandingkan atau mengkomparasi dalam penelitian ini akan menggunakan framework RapidMiner versi 5.3 sehingga akan ditemukan algoritma mana yang paling akurat. 29 Data set Preprocesing Replace Missing value New data set Modelling C4.5 Traning Data Modelling C4.5 + PSO Traning Data Evaluation Confusion Matrix Data testing Data testing Kurva ROC Compare - Accuracy - AUC Perform Gambar 3.3 Model yang di usulkan act Gambaran umum data proses start optimasi pso ? replace missing v alue pada dataset dengan model av erage Pemberian bobot pada tiap atribut [ya] [tidak] menghitung nilai ENTROPY dari total data traning berdasar j umlah kasus meruj uk ke label/hasil menghitung nilai ENTROPY tiap atribut yang memiliki subset berdasar j umlah kasus meruj uk ke label/hasil perhitungan dikelompokkan per atribut dari subset atribut yang ada didalamnya data bersifat kontinyu ? [ya] [tidak] menghitung nilai INFORMATION GAIN subset data dari atribut diurutkan dari yang terkecil ke yang terbesar menghitung nilai entropy tiap atribut dikalikan bobot menghitung information gain atribut tersebut menghitung nilai information gain dari entropy menghitung rata-rata nilai dari tiap subset data yang bersebelahan per 2 data (MEAN)sebagai split point Setiap perhitungan information gain, entropi berdasar nilai bobot untuk menentukan split point menghitung nilai entropi tersendiri untuk nilai rataan/split point berdasar nilai entropy yang mengapitnya [ya] [tidak] menghitung information gain berdasar bobot menentukan nilai split point yang diambil berdasar information gain atribut- entropi tersendiri diambi split info nilainya ter kecil menetukan information gain terbesar untuk dij adikan node/tupel tertinggi node subset atribut sebagai batas untuk perhitungan node dibaw ahnya data bersifat kontinu ? menentukan simpul berikutnya/node dibaw ahnya proses selesai ? [tidak] [tidak] [ya] node terpilih berupa nilai kontinyu nilai / range nilai node diatasnya sebagai batas dan tidak bisa muncul di node baw ahnya Gambar 3.4 Model proses yang di usulkan [ya] finish 30 Setelah memodelkan alur proses yang akan dilakukan, maka akan ilakukan pembentukan pohon keputusan. Perhitungan secara manual diberikan berdasar model C4.5 dan C4.5+PSO pada sub-bab dibawah ini. 3.1.3.1 Model C4.5 Beberapa tahap dalam membuat sebuah pohon keputusan dengan algoritma C4.5 (kusrini & Lutfi, 2009), yaitu: 1. Menyiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya dan sudah dikelompokan ke dalam kelas kelas tertentu. 2. Menentukan akar dari pohon. Akar akan diambil dari atribut yang terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung gain dari atribut, hitung dahulu nilai entropy yaitu: Table 3.4 Jumlah kasus dari tiap atribut Simpul Jumlahkasus fakultas bahasa dan seni ekonomi ilmu keolahragaan ilmu pendidikan ilmu sosial matematika dan ipa teknik jenis kelamin laki-laki perempuan Kasus 1632 Tepat 684 Terlambat 948 267 290 167 187 100 103 91 377 228 3 137 100 88 240 128 208 171 46 44 162 127 517 1115 Dst 155 529 362 586 31 (3.1) Etotalkasus(684,948) = - (684/1632)*log2(684/1632)(948/1632)*log2(948/1632) = 0.981 Dengan perhitungan yang sama dilakukan terhadap tiap atribut dengan berdasar pada pengelompokan jumlah kasus pada tiap atribut dan subset atribut didalamnya. 3. Kemudian hitung nilai gain dengan metode informasi gain: (3.2) Contoh perhitungan gain pada atribut fakultas berdasar jumlah kasus per subset atribut yaitu: Ebahasa&seni(167,100)= -(167/267)*log2(167/267)(100/267)*log2(100/267) = 0.954 Eekonomi(187,103) = - (187/290)*log2(187/290)- (103/290)*log2(103/290) = 0.939 Eilmuolahraga(3,88) = - (3/91)*log2(3/91)- (88/91)*log2(88/91) = 0.209 32 Eilmpendidikn(137,240) = - (137/377)*log2(137/377)(240/377)*log2(240/377) = 0.945 Eilmusosial(100,128) = - (100/228)*log2(100/228)(128/228)*log2(128/228) = 0.989 Emtk&ipa(46,162) = - (46/208)*log2(46/208)- (162/208)*log2(162/208) = 0.762 Eteknik(44,127) = - (44/171)*log2(44/171)- (127/171)*log2(127/171) = 0.823 Setelah perhitungan subset atribut diatas, maka lanjutkan menghitung information gain yaitu : Gain = 0.981-( (267/1632 * 0.954 )+(290/1632*0.939)+ (91/1632*0.209)+(377/1632*945)+(228/1632*98 9)+(208/1632*0.762)+(171/1632*0.823) ) = 0.107 4. Ulangi langkah ke-2 hingga semua tupel terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat: a. Semua tupel dalam node N mendapat kelas yang sama. b. Tidak ada atribut di dalam tupel yang dipartisi lagi. c. Tidak ada tupel di dalam cabang yang kosong. 33 Perhitungan gain selengkapnya akan ditampilkan pada table berikut ini : Tabel 3.5 Hasil perhitungan gain untuk menentukan node tertinggi Simpul Jumlahkasus Fakultas bahasa dan seni Ekonomi ilmu keolahragaan ilmu pendidikan ilmu social matematika dan ipa Teknik jenis kelamin laki-laki Perempuan Umur <= 22.5 >22.5 IP1 IP2 IP3 IP4 Kasus 1632 Tepat 684 Terlambat 948 entropi 0.981041 S/Stotal*E Gain 267 290 91 377 228 208 167 187 3 137 100 46 100 103 88 240 128 162 0.954088 0.938603 0.20906 0.945465 0.989093 0.762269 0.156092 0.166786 0.011657 0.218407 0.138182 0.097152 171 44 127 0.82266 0.086198 517 1115 155 529 362 586 0.881054 0.998114 0.279109 0.681922 0.02001 532 1100 468 216 64 884 0.530225 0.714595 0.172843 0.481651 0.805966 0.869968 0.893624 0.874877 0.326546 0.106567 0.175075 0.111073 0.087416 0.106164 Perhitungan dengan metode Entropy Based Discretization di gunakan untuk menangani atribut yang bersifat kontinu. Metode ini menggunakan entropy sebagai bagian dari proses pemisahan selang data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai pemisah yang terbaik maka harus dihitung nilai split ploint, nilai informasi dari entropi antara 2 sample dengan rumus : Table 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat kontinu umur jumlah kasus tepat Terlambat 20 21 22 23 1632 1 67 464 487 684 1 67 400 125 948 0 0 64 362 24 267 59 208 25 151 14 137 26 70 6 64 40 2 38 27 Dst 34 1. Urutkan data subset dari yang terkecil sampai yang terbesar. Contoh perhitungan pada atribut umur sebagai berikut : 2. Hitung rataan nilai per 2 data yang bersebelahan yang digunakan untuk split point . Setiap nilai rata-rata merupakan titik nilai yang mungkin menjadi titik perpecahan (split_point) untuk memilih titik terbaik, data akan dipecah menurut titik yang diuji. (3.3) 3. Hitung nilai informasi dari kedua sampel(Sₐ). Kemudian T(split point) yang memilki nilai informasi terkecil diambil sebagai batas node. Rumus yang digunakan : (3.4) (3.5) Dimana, T merupakan nilai batas (split point) Dari perhitungan diatas, maka diperoleh nilai informasi terkecil ialah split point pada 22.5 dengan nilai informasinya adalah –0.04585. 35 Table 3.7 Split point yang digunakan pemilihan split terbaik Split point Nilai informasi 20.5 0.363902 21.5 0.199343 22.5 -0.04585 23.5 -0.00595 24.5 0.198029 25.5 0.304585 Dst 3.1.3.2 Status no no yes no no no Model C4.5 dioptimasi PSO Simulasi pembobotan atribut dengan PSO dihitung berdasar rumus : (3.6) (3.7) Akan ditampilkan seperti tabel dibawah ini dengan pemisalan menggunakan 15 sampel subset data dalam atribut yang dipilih secara acak dan iterasi sebanyak 25 kali untuk menemukan nilai bobot yang terbaik untuk tiap atribut yaitu minimal dengan nilai 0 atau maksimal dengan nilai 1. Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai itersasi ke-25 iterasi fakultas 1 2 3 4 5 6 0.865 0.865 0.660 0.417 0.349 0.307 jenis kelamin 0.244 0.244 0 0.305 0.343 0.363 umur IPS1 IPS2 IPS3 IPS4 0.974 0.974 1 0.768 0.767 0.770 0.883 0.883 1 1 1 1 0.487 0.487 0.402 0.195 0.200 0.204 0.866 0.866 1 1 1 1 0.679 0.679 0.674 1 0.970 0.912 36 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 0.279 0.259 0.243 0.231 0.221 0.214 0.207 0.201 0.197 0.193 0.189 0.186 0.183 0.322 0.324 0.868 0.869 0.873 0.875 0.375 0.383 0.388 0.392 0.395 0.397 0.398 0.399 0.400 0.401 0.402 0.402 0.403 0 0 0.565 0.574 0.352 0.358 0.774 0.778 0.781 0.785 0.788 0.791 0.793 0.795 0.797 0.799 0.801 0.802 0.804 0.747 0.737 0.969 0.937 0.890 0.862 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0.207 0.209 0.211 0.213 0.214 0.215 0.216 0.216 0.217 0.218 0.218 0.218 0.219 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0.870 0.837 0.811 0.791 0.773 0.759 0.747 0.736 0.727 0.719 0.712 0.706 0.700 0 0 0 0 0.694 0.733 Berdasar perhitungan diatas, maka bobot memiliki kecenderungan untuk mendekati nilai minimum dan maksimum nilai ketika bobot tersebut mendekati nilai 0 lebih banyak daripada nilai 1 dalam rangkaian iterasi maka dimungkinkan untuk iterasi selanjutnya bobotnya keluar nilai 0, ketika nilai bobot tersebut mendekati nilai 1 lebih banyak daripada nilai 0 dalam rangkaian iterasi maka dimungkinkan untuk iterasi selanjutnya bobotnya keluar nilai 1, dan jika nilai bobot tersebut bernilai antara 0 dan 1 maka kecenderungan nilai bobot akan menuju ke nilai maksimum. Langkah-langkah perhitungan weighting PSO pada C4.5 seperti dibawah ini : 37 1. Setelah nilai weighting/bobot di peroleh untuk tiap atribut. Kemudian dilakukan perkalian bobot dengan probabilitas atribut atau subset atribut (ping yau, 2009) merujuk pada (kai ming ting, 2002). Dengan perhitungan sebagai berikut: Jika nilai bobot belum terpenuhi penerapan pada C4.5. a. Perhitungan probabilitas (3.8) b. Perhitungan bobot untuk tiap atribut (3.9) c. Perhitungan bobot untuk subset atribut (3.10) Keterangan : p(j|t) : probabilitas pw(j|t) : prob. Bobot sampel w(j) n(j)ᵗ : banyak sampel njʷ(t) : nilai atribut ∑n(i)ᵗ : total sampel yang memiliki bobot : bobot atribut ∑niʷ(t) : total sampel yang memiliki bobot 2. Bobot dikalikan dengan probabilitas sampel, kemudian menghitung nilai entropi untuk tiap sampel kasus menggunakan formula 3.1. 38 3. Menghitung nilai information gain dari entropi yang telah ditentukan dilangkah kedua sesuai formula 3.2. 4. Menghitung nilai split info berdasar formula 3.3. 5. Setelah ditemukan nilai information gain dan nilai info, maka dihitung nilai informasi split point dan diambil split point yang memiliki nilai terkecil. (3.11) Keterangan : Gainweight : nilai information gain dari perhitungan entropi yang telah dikalikan bobot. Eweight(E,S): total entropi dari dua sampel yang bersebelahan sesuai entropi yang telah diberi bobot. Dari perhitungan diatas yang berdasar pada weight, maka diperoleh nilai informasi terkecil ialah split point pada 22.5 dengan nilai informasinya adalah 0.521718. Table 3.9 Split point berdasar weight yang digunakan pemilihan split terbaik Split point Nilai informasi 20.5 0.699577 21.5 0.615132 22.5 0.521718 23.5 0.555593 24.5 0.62234 25.5 0.660614 Dst Status No No yes No No No 39 3.1.4 Validasi dan evaluasi Dalam tahap ini dilakukan validasi dan pengukuran keakuratan hasil yang dicapai oleh model menggunakan beberapa teknik yang terdapat dalam framework RapidMiner versi 5.3 yaitu confusion matrix dan kurva ROC untuk pengukuran akurasi model, dan cross-validation untuk validasi. Tabel 3.10 Confusion matrik C4.5 true TEPAT C4.5 true TERLAMBAT pred. TEPAT 507 82 pred. TERLAMBAT 177 866 Dari table tersebut dapat dihitung akurasinya sebagai berikut : ൌ ൬ 3.1.5 ͷͲ ͺ ൰ ͲͲͳ כΨ ൌ ͺͶǤͳ͵Ψ ͷͲ ͺʹ ͳ ͺ Penyebaran (Deployment) Hasil penelitian ini adalah analisa yang mengarah ke Decission Suport System (DSS) dapat digunakan oleh institusi pendidikan setingkat perguruan tinggi untuk memberikan pertimbangan dalam penentuan langkah selanjutnya menangani masalah keterlambatan mempengaruhi akreditasi kelulusan dari perguruan tinggi, mahasiswa yang penilaian sosial masyarakat, dan juga dapat digunakan untuk rujukan penelitian berikutnya serta dapat digunakan sebagai dasar perancangan sebuah sistem. 40 3.2 Alat penelitian Dalam penelitian ini penulis menggunakan spesifikasi software dan hardware sebagai alat bantu dalam penelitian yang tercantum pada tabel 3.11 dibawah ini. Software Sistem Hardware operasi : Windows Ultimate 7 Prosesor : Intel(R) Core(TM)2Duo CPU P7570 @2.26Ghz 2.26Ghz Data mining : RapidMiner versi RAM : 2.00 GB 5.3.008 BAB IV HASIL DAN PEMBAHASAN 4.1 Validasi dan Evaluasi Tujuan utama penelitian ini adalah untuk mengetahui nilai akurasi dari algoritma C4.5 dan C4.5 berbasis PSO pada pembobotan atribut yang digunakan akan berpengaruh pada hasil pohon keputusan yang terbentuk. Kemudian, berdasar tingkat akurasi dan kurva AUC digunakan untuk membandingkan kedua algoritma tersebut sehingga dapat diperoleh salah satu algoritma yang terbaik. Penggunaan parameter berpengaruh pada hasil akurasi dan model yang akan dihasilkan oleh algoritma C4.5. Sesuai perhitungan sebelumnya menggunakan information gain, maka setting parameter yang digunakan adalah sebagai berikut : Gambar 4.1 Setting parameter pada rapidminer Untuk menentukan akurasi dari setiap algoritma, penelitian ini menggunakan metode validasi tenfold cross-validation. Desain model C4.5 yang terdapat pada RapidMiner 41 seperti gambar 4.2. 42 Gambar 4.2 Desain model validasi C4.5 Retrieve berfungsi untuk memasukan data set ke dalam RapidMiner. Model C4.5 ini menggunakan Entropy by Dizcretization yaitu transformasi atribut menciptakan kelompok nilai batas rentang terbaik sehingga jumlah nilai yang unik dalam kelompok rentang hampir sama. Validation menggunakan tenfold cross-validation. Didalam validation terdapat dua kolom, training dan testing. Didalam kolom training terdapat algoritma klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan Performance untuk mengukur performa dari model C4.5 tersebut. 43 Sedangkan desain model C4.5 berbasis PSO pada pembobotan atribut pada Rapidminer dapat dilihat pada gambar 4.3. Gambar 4.3 Desain model validasi C4.5 berbasis PSO Optimize Weights (PSO) untuk menerapkan algoritma PSO pada pembobotan atribut. Didalam Optimize Weights (PSO) terdapat Validation yang menggunakan tenfold cross-validation. Didalam validation terdapat dua kolom, training dan testing. Didalam kolom training terdapat algoritma klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan Performance untuk mengukur performa dari model C4.5 tersebut. 44 4.2 Hasil percobaan dan pengujian metode 4.2.1 C4.5 Hasil pemodelan yang telah diproses oleh tools RapidMiner adalah sebagai berikut : Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang ditampilkan oleh RapidMiner Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh RapidMiner 45 Tabel 4.1 Hasil akurasi dan AUC dari C4.5 C4.5 Percobaaan 1 2 Akurasi 84.13% 84.13% performa AUC 0.837 0.837 lama waktu eksekusi 3s 3s Hasil di atas menunjukan algoritma C4.5 yang diterapkan pada data set kelulusan mahasiswa (Hilda, 2012) data menghasilkan nilai akurasi confusion matrix sebesar 84.13% dan akurasi AUC 0,837 dalam selang waktu 3 detik. 4.2.2 C4.5 berbasis PSO Pertama, dilakukan uji coba dengan memberi nilai pada parameter population size dan maximum number of generation bernilai default yaitu 5 dan 30. Table 4.2 Hasil percobaan menggunakan population size dan maximum number of generation secara berbeda C4.5+pso akurasi performa AUC lama waktu eksekusi parameter pso 85.54% 0.865 4 m 30 s default 85.54% 0.865 4 m 53 s default 85.79% 0.868 10 m 05 s posize=10,generate=30 85.79% 0.868 13 m 15 s posize=10,generate=40 86.09% 0.883 20 m 23 s posize=15,generate=40 85.85% 0.865 33 m 24 s posize=20,generate=50 86.09% 0.883 25 m 16 s posize=15,generate=50 85.90% 0.870 37 m posize=25,generate=50 85.97% 0.875 40 m 3 s posize=30,generate=50 46 Tingkat akurasi 86.09% 86.09% 86.20% 85.97% 85.79% 86.00% 85.80% 85.90% 85.60% 85.85% 85.79% 85.40% 85.17% 85.20% 85.00% 85.17% 84.80% 84.60% Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar pada population size dan maximum number of generation Kurva AUC 0.9 0.895 0.89 0.885 0.88 0.875 0.87 0.865 0.86 0.855 0.85 0.845 0.896 0.883 0.896 0.883 0.875 0.868 0.87 0.868 0.865 Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar pada population size dan maximum number of generation 47 Dari table diatas menunjukkan hasil akurasi dari maximum number of generation 15 sampai 40 sudah konvergen. Atrinya hasil akurasi sudah maksimal, jika dilakukan percobaan lagi dengan maximum number of generation lebih dari 40 maka akan terjadi overfiting (kelebihan iterasi) yang berdampak pada meningkatnya waktu eksekusi sedangkan hasil akurasi tidak meningkat. Dengan demikian diketahui bahwa algoritma C4.5-PSO menghasilkan nilai akurasi terbaik pada saat population size bernilai 15 dan maximum number of generation bernilai 40 yaitu akurasi bernilai 86,09 % dan AUC 0,883 dengan waktu eksekusi 20 menit 23 detik. Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang ditampilkan oleh RapidMiner berdasar pada population size bernilai 15 dan maximum number of generation bernilai 40 48 Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan oleh RapidMiner berdasar pada population size bernilai 15 dan maximum number of generation bernilai 40 Setelah melakukan pemodelan dan perhitungan berdasar kedua algoritma diatas, kemudian dilakukan perbandingan hasil yang berupa nilai akurasi dan peforma AUC. Maka diperoleh data perbandingan sebagai berikut : Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO Perbandingan C4.5 C4.5-PSO Akurasi confusion matrix (%) 84.13% 86.09% performa AUC 0.837 0.883 Waktu eksekusi 3s 20 m 23 s Table 4.3 merupakan hasil akhir percobaan. Memperlihatkan perbandingan akurasi dan AUC antara algoritma C4.5 dan algoritma C4.5-PSO. 49 Perbedaan Akurasi 87.00% 86.00% 85.00% 84.00% 83.00% 82.00% 81.00% 86.09% 84.13% C4.5 C4.5+PSO Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5 dengan C4.5-PSO Perbedaan kurva AUC 0.89 0.88 0.87 0.86 0.85 0.84 0.83 0.82 0.81 0.883 peforma 0.837 C4.5 C4.5+PSO Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5 dengan C4.5-PSO Pembobotan atribut diperlukan karena tidak semua atribut mempunyai pengaruh terhadap hasil akurasi. Hasil dari pembobotan atribut oleh PSO pada saat hasil akurasi terbaik dapat dilihat pada tabel 4.4. 50 Table 4.4 Hasil pembobotan atribut Atribut FALKULTAS jeniskelamin umur IPS1 IPS2 IPS3 IPS4 Bobot 1 0 1 1 0 1 0 Terdapat 7 atribut yang digunakan, dan 3 atribut bobotnya bernilai 0 atau tidak berpengaruh terhadap akurasi yaitu jenis kelamin, IPS2, IPS4. Beberapa atribut tersebut jika dihilangkan dimungkinkan tidak akan mempengarui hasil akurasi. Bobot dari atribut yang bernilai 1 dapat dimungkinkan mempengaruhi hasil akurasi secara signjikaikan. Terdapat 4 atribut yang bobotnya 1 yaitu fakultas, umur, IPS1, IPS3. 4.3 Pembahasan Percobaan pada penelitian ini menggunakan RapidMiner 5.3.008. Algoritma yang digunakan adalah C4.5 dan C4.5-PSO untuk pembobotan atribut. Validasinya menggunakan tenfold cross-validation, sedangkan pengukuran performanya menggunakan confusion matrix dan kurva ROC. Nilai dari population size dan maximum number of generation pada PSO diubah-ubah untuk meningkatkan kinerja PSO yang berdampak pada peningkatan akurasi. Berdasarkan hasil percobaan, diperoleh akurasi C4.5-PSO tertinggi terjadi pada saat population size bernilai 15 dan maximum number of generation bernilai 40. Akurasi C4.5-PSO 86,09%, dan AUC 0,883 sedangkan akurasi C4.5 hanya 84.13% dan AUC 0.837. 51 Hal tersebut membuktikan bahwa PSO yang diterapkan pada pembobotan atribut meningkatkan akurasi C4.5. Akurasi meningkat 1,96% sedangkat AUC meningkat 0,046. Dengan hasil pembobotan atribut yaitu 3 atribut mempunyai bobot 0, dan 4 atribut mempunyai bobot 1. 4.4 Hasil pemodelan pohon keputusan dan Ruleₐ 4.4.1 Model C4.5 berbasis PSO Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri) 52 Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah) 53 Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan) 54 Rule yang tercipta dari gambar hasil pemodelan diatas adalah sebagai berikut R₍n₊₊), n=1 : 1) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA TERLAMBAT 2) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur > 25.500 MAKA TEPAT 3) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 > 3.570 MAKA TEPAT 4) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 ≤ 3.570 MAKA TERLAMBAT 5) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA TEPAT 6) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT 7) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤ 23.500 MAKA TEPAT 8) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 > 3.170 MAKA TERLAMBAT 9) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin = LAKI-LAKI MAKA TERLAMBAT 10) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin = PEREMPUAN MAKA TEPAT 55 11) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI MAKA TEPAT 12) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = DAN FALKULTAS = ILMUKEOLAHRAGAAN MAKA TERLAMBAT 13) JIKA umur > 22.500 DAN IPS1 > 3.235 ILMUPENDIDIKAN MAKA TERLAMBAT 14) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL MAKA TERLAMBAT 15) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT 16) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN MATEMATIKADANIPA DAN umur ≤ 23.500 DAN FALKULTAS = IPS3 > 2.905 MAKA TEPAT 17) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA TERLAMBAT 18) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT 19) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT 20) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN umur ≤ 24.500 MAKA TERLAMBAT 21) JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT 22) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = BAHASADANSENI MAKA TEPAT 23) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 > 3.205 MAKA TEPAT 24) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT 25) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 ≤ 2.900 MAKA TERLAMBAT 26) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT 27) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT FALKULTAS = 56 28) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT 29) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 > 3.400 MAKA TEPAT 30) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT 31) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT 32) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300 DAN IPS3 > 3.740 MAKA TEPAT 33) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300 DAN IPS3 ≤ 3.740 MAKA TERLAMBAT 34) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤ 3.300 MAKA TEPAT 35) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA TEPAT 36) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT 37) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045 DAN IPS4 > 3.050 MAKA TERLAMBAT 38) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045 DAN IPS4 ≤ 3.050 MAKA TEPAT 57 39) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045 MAKA TEPAT 40) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA TERLAMBAT 41) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070 MAKA TERLAMBAT 42) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070 MAKA TEPAT 43) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT 44) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT 45) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT 46) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT 47) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = FALKULTAS = MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT 48) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA TEPAT 49) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA TERLAMBAT 50) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT 51) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT 52) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT 53) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 ≤ 3.075 MAKA TEPAT 54) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT FALKULTAS = 58 55) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 > 2.435 MAKA TERLAMBAT 56) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT 57) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI MAKA TEPAT 58) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = DAN FALKULTAS = ILMUKEOLAHRAGAAN MAKA TERLAMBAT 59) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 ILMUPENDIDIKAN MAKA TERLAMBAT 60) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS1 > 2.615 MAKA TEPAT 61) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS1 ≤ 2.615 MAKA TERLAMBAT 62) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA TERLAMBAT 63) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA TEPAT 64) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT 65) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN IPS2 > 2.550 MAKA TERLAMBAT 66) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN IPS2 ≤ 2.550 MAKA TEPAT 59 4.4.2 Model C4.5 Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri) 60 Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah) 61 Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan) 62 Rule yang tercipta dari gambar hasil pemodelan diatas adalah sebagai berikut R₍n₊₊), n=1 : 1) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA TERLAMBAT 2) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur > 25.500 MAKA TEPAT 3) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 > 3.570 MAKA TEPAT 4) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 ≤ 3.570 MAKA TERLAMBAT 5) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA TEPAT 6) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500 DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT 7) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤ 23.500 MAKA TEPAT {TEPAT=24, TERLAMBAT=2} 8) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 > 3.170 MAKA TERLAMBAT 9) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin = LAKI-LAKI MAKA TERLAMBAT 63 10) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin = PEREMPUAN MAKA TEPAT 11) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI MAKA TEPAT 12) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUKEOLAHRAGAAN MAKA TERLAMBAT 13) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUPENDIDIKAN MAKA TERLAMBAT 14) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL MAKA TERLAMBAT 15) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT 16) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 > 2.905 MAKA TEPAT 17) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA TERLAMBAT 18) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT 19) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT 20) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN umur ≤ 24.500 MAKA TERLAMBAT 21) JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT 22) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = BAHASADANSENI MAKA TEPAT 23) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 > 3.205 MAKA TEPAT 24) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT 25) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN TERLAMBAT IPS1 ≤ 2.900 MAKA 64 26) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT 27) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT 28) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT 29) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 > 3.400 MAKA TEPAT 30) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT 31) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT 32) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300 DAN IPS3 > 3.740 MAKA TEPAT 33) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300 DAN IPS3 ≤ 3.740 MAKA TERLAMBAT 34) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤ 3.300 MAKA TEPAT 35) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA TEPAT 36) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400 DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT 37) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045 DAN IPS4 > 3.050 MAKA TERLAMBAT 65 38) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045 DAN IPS4 ≤ 3.050 MAKA TEPAT 39) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045 MAKA TEPAT 40) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA TERLAMBAT 41) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070 MAKA TERLAMBAT 42) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070 MAKA TEPAT 43) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT 44) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT 45) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT 46) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT 47) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT 48) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA TEPAT 49) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA TERLAMBAT 50) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT 51) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT 52) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT 66 53) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN IPS1 ≤ 3.075 MAKA TEPAT 54) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT 55) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 > 2.435 MAKA TERLAMBAT 56) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT 57) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI MAKA TEPAT 58) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUKEOLAHRAGAAN MAKA TERLAMBAT 59) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUPENDIDIKAN MAKA TERLAMBAT 60) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS1 > 2.615 MAKA TEPAT 61) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL DAN IPS1 ≤ 2.615 MAKA TERLAMBAT 62) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA TERLAMBAT 63) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA TEPAT 64) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT 65) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN IPS2 > 2.550 MAKA TERLAMBAT 66) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN IPS2 ≤ 2.550 MAKA TEPAT BAB V PENUTUP 5.1 Kesimpulan Pada penelitian ini dilakukan pemodelan menggunakan algoritma C4.5 dan C4.5-PSO dengan menggunakan data yang dilampirkan oleh Hilda dalam thesisnya. Fokus penelitian ini adalah penerapan algoritma PSO pada pembobotan atribut teknik klasifikasi data mining C4.5. Validasi model menggunakan 10fold cross-validation dan evaluasi model menggunakan confusion matrix dan kurva ROC. Hasil penelitian menunjukan bahwa model C4.5-PSO memiliki akurasi yang lebih baik yaitu 86,09 % dibandingkan dengan model C4.5 yang akurasinya 84,13 %. Namun waktu eksekusi C4.5-PSO lebih lama dengan 20 menit 23 detik, sedangkan C4.5 hanya 3 detik. Dengan demikian, terbukti bahwa PSO yang diterapkan pada pembobotan atribut C4.5 meningkatkan nilai akurasi. Hal ini menjadikan C4.5-PSO menjadi alternatif lain untuk model optimasi yang dapat diterapkan pada kasus lain seperti penentuan pemberian kredit, analisa pasar. 5.2 Saran Proses penelitian ini mendapatkan banyak hambatan seperti terbatasnya data penelitian dan perangkat keras yang digunakan, untuk penelitian selanjutnya terdapat beberapa saran sebagai berikut : 1. Untuk mempercepat waktu eksekusi model dapat menggunakan perangkat keras dengan spesifikasi hardware yang lebih baik seperti processor core i7 dengan RAM 4Gb atau spesifikasi yang lebih tinggi. 67 68 2. Penelitian ini mengkomparasikan algoritma C4.5 dan C4.5 yang dikombinasikan dengan PSO untuk pembobotan atribut, untuk penelitian selanjutnya dapat dikembangkan dengan menggunakan algoritma klasifikasi lain seperti Suport Vector Machine (SVM), Neural Network yang dikombinasikan dengan algoritma PSO atau algoritma optimasi lain seperti Ant Colony Optimization (ACO), Genetic Algorithm (GA), Adaboost, atau algoritma optimasi lainnya. 3. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda dalam thesisnya, data set tersebut merupakan data kelulusan mahasiswa perguruan tinggi yang erat kaitannya dengan dunia pendidikan, untuk penelitian selanjutnya dapat dikembangkan dengan menggunakan data set lain yang memiliki atribut tambahan seperti status pernikahan, status pekerjaan, pendapatan per bulan keluarga sebagai inputan nilai model yang dapat mempengaruhi tingkat akurasinya. 4. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda dalam thesisnya dan data set tersebut terkait dengan dunia pendidikan, kemudian data set tersebut dimodelkan berdasar pada algoritma C4.5 dengan C4.5 berbasis PSO untuk membandingkan tingkat akurasi dari keduanya. Dalam penelitian selanjutnya, model yang digunakan pada penelitian ini dapat diterapkan pada data set lain yang berbeda seperti data perbankan terkait analisa penentuan kredit, data pemasaran produk-produk tertentu untuk menguji kehandalan model yang diusulkan. DAFTAR PUSTAKA [1] Abraham, A., Grosan, C., & Ramos, V. (2006). Swarm Intelligence In Data Mining. Verlag Berlin Heidelberg: Springer. [2] Alpaydın, E. (2010). Introduction to Machine Learning (Second Edition ed.). London: The MIT Press. [3] Amalia, Hilda. (2012). Komparasi Metode Klasifikasi Data Mining Untuk Prediksi Ketepatan Kelulusan Mahasiswa. Jakarta :STIMIK Nusa Mandiri. [4] Bai, Q. (2010). Analysis of Particle Swarm Optimization Algorithm. Computer dan Informasi Science. Vol. 3, No. 1, February 2012. College of Computer Science and Technology Inner Mongolia University for Nationalities. [5] Bramer, Max. (2007). Principles of Data Mining. London: Springer. [6] Gorunescu, Florin. (2011). Data Mining: Concepts and Techniques. Verlag berlin Heidelberg: Springer. [7] Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San Fransisco: Mofgan Kaufan Publisher. [8] http://ban-pt.kemdiknas.go.id/Instrumen%20AIPT%20(02-122011)/2%20BUKU%202%20STANDAR%20DAN%20PROSEDUR%20AIPT%20 2011.docx. diakses 18 Juli 2013 [9] http://www.republika.co.id/berita/pendidikan/dunia-kampus/13/03/24/mk53wrlima-tahun-terakhir-11-pts-di-yogya-tutup. diakses 18 Juli 2013 [10] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for Predicting Student Graduation Outcomes. Preceeding of World Congress on Engineering and Computer Science, 978-988-98671-02. [11] Kusrini,&Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi Publishing [12] Larose, D. T. (2005).Discovering Knowledge in Data. New Jersey: John Willey & Sons, Inc. 69 [13] Lasut, Desiyana. (2012). Prediksi Loyalitas Pelanggan pada Perusahaan Penyedia Layanan Multimedia dengan Algoritma C4.5 Berbasis Particle Swarm Optimization. Jakarta: STIMIK Eresha. [14] Liu, Y., Wang, G., Chen, H., Dong, H., Zhu, X., & Wang, S. (2011). An Improved Particle Swarm Optimization for Feature Selection. Journal of Bionic Engineering Vol 8 , 1-10. [15] Ming, Kai Ting. (2002). An instance-weighting method to induce cost-sensitive. IEEE transactions on knowledge and data engineering, vol. 14, no. 3. [16] Quadri, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for Academic Performance Using Decision Tree techniques. Global Journal of Computer Science and Technology , 2-4. [17] Santosa, B. (2007). Data Mining Teknik Pemanfaat Data Untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. [18] Sousa, T., Silva, A., & Neves, A. (2004). Particle Swarm Based Data Mining Algorithms for Classification Tasks. Parallel Computing , 30, 767-783. [19] Suhartina & Ernastuti. (2010). Graduation Prediction of Gunadarma Student Using Naïve Bayes and Decision Tree. Jakarta: Universitas Gunadarma. [20] Tsai, C. F., & Chen, M. Y. (2009). Variable Selection by Association Rules for Customer Churn Prediction of Multimedia on Demand. Expert Systems with Applications. [21] Vercellis, Carlo (2009). Business Intelligent: Data Mining and Optimization for Decision Making. Southern Gate, Chichester, West Sussex: John Willey & Sons, Ltd. [22] Witten, H. I., Eibe, F., & Hall, A. M. (2011). Data Mining Machine Learning Tools and Techiques. Burlington: Morgan Kaufmann Publisher. [23] Wu, X., & Kumar, V. (2009). The Top Ten Algorithms in Data Mining. Taylor & Francis Group, LLC. [24] Yao, Ping. (2009). Comparative Study on Class Imbalance Learning for Credit Scoring. Ninth International Conference on Hybrid Intelligent Heilongjiang Institute of Science and Technology, Harbin, 150027, China. 70 Systems.