PERBANDINGAN KINERJA METODE KLASIFIKASI DATA MINING MENGGUNAKAN NAÏVE BAYES DAN ALGORITMA C4.5 UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN MAHASISWA Gian Fiastantyo A11.2009.04932 Program Studi Teknik Informatika –S1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro, Jl. Nakula 1 No. 5-11. Semarang [email protected] ABSTRAK Perguruan tinggi adalah jenjang pendidikan yang dianggap sebagai gerbang terakhir bagi pelajar untuk menimba ilmu sebelum akhirnya melibatkan diri dalam persaingan kerja. Jumlah mahasiswa yang lulus tepat waktu menjadi indikator efektifitas dari sebuah perguruan tinggi baik negeri dan swasta. Penelitian dalam hal memprediksi tingkat kelulusan mahasiswa telah banyak dilakukan. Dalam penelitian ini dilakukan perbandingan metode data mining yaitu algoritma naïve bayes dan C4.5, yang diterapkan pada data mahasiswa strata 1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro. Naïve bayes adalah metode yang menghitung probabilitas dari tingkat kemunculan data yang satu terhadap data yang lainnya. Algoritma C4.5 adalah satu dari sebagian algoritma dalam metode decision tree yang mengubah data menjadi pohon keputusan, untuk kemudian dapat disimpulkan menjadi rule-rule. Berdasarkan hasil pengujian dengan mengukur kinerja kedua metode tersebut menggunakan metode pengujian confusion matrix, kemudian diketahui bahwa C4.5 memiliki nilai akurasi yang lebih baik yakni sebesar 77,354% , sedangkan naïve bayes memiliki nilai akurasi mencapai 74,094%. Kemudian berdasarkan perbandingan kinerja kedua metode tersebut, metode dengan pencapaian nilai akurasi terbaik akan diimplementasikan dalam bentuk sebuah Decision Support System. Kata Kunci : data mining, klasifikasi, kelulusan, algoritma C4.5, naïve bayes I. Pendahuluan Perguruan tinggi jenjang sumber daya yang dapat digunakan guna pendidikan yang dianggap sebagai gerbang meningkatkan kemampuan dan daya saing terakhir bagi pelajar untuk menimba ilmu perguruan tinggi. Sistem informasi dalam sebelum akhirnya melibatkan diri dalam hal ini dapat digunakan guna memperoleh, persaingan institusi mengolah serta menyebarkan informasi perguruan tinggi berada dalam lingkungan yang telah diolah, agar dapat menunjang yang berbagai kegiatan operasional, sekaligus kerja. sangat perguruan memiliki tinggi adalah Saat ini kompetitif. kini keunggulan Sehingga dituntut dalam untuk dapat berperan serta dalam mendukung bersaing pengambilan keputusan strategis yang akan dengan memanfaatkan semua sumber daya yang dimiliki. Selain sumber daya dilakukan. Institusi perguruan tinggi kini manusia, sarana, serta prasarana, sistem diwajibkan meningkatkan kualitas layanan informasi adalah contoh lain dari beberapa dan memuaskan para mahasiswa serta ruang publik disekitar mereka. Perguruan mahasiswa yang lulus terlambat. tinggi menganggap mahasiswa dan dosen Penelitian dalam hal pengolahan data sebagai resource utama dan mereka ingin siswa atau mahasiswa telah dilakukan tersebut dengan beberapa metode yaitu [7], [14], dengan cara yang lebih efektif [18]. Dalam [19]. Tetapi belum ada yang melakukan struktur pendidikan saat ini, mahasiswa perbandingan kinerja antara metode naïve memiliki bayes dan algoritma C4.5 sehingga belum terus menggunakan peran resource penting bagi sebuah institusi pendidikan. Oleh karena itu perlu ditinjau ulang mengenai tingkat kelulusan diketahui metode yang paling akurat. Oleh sebab itu dalam penelitian ini akan mahasiswa tepat pada waktunya. dilakukan perbandingan metode Kelulusan tepat waktu merupakan isu Naïve Bayes, dan Algoritma C4.5 sehingga penting yang perlu disikapi dengan bijak dapat diperoleh metode dengan akurasi oleh institusi pendidikan. Tingkat kelulusan prediksi ketepatan kelulusan mahasiswa dianggap sebagai salah satu parameter yang terbaik berdasar model data yang efektifitas ada. institusi pendidikan [18]. Sehingga saat ini memperhatikan tingkat II. Latar Belakang kelulusan tepat waktu suatu perguruan A. Naïve Bayes tinggi menjadi hal penting. Penurunan Bayes merupakan teknik prediksi berbasis berpengaruh terhadap akreditasi perguruan sederhana yang tinggi tersebut. Oleh karena itu perlu penerapan teorema adanya monitoring serta evaluasi terhadap aturan kecenderungan kelulusan mahasiswa, tepat independensi waktu atau tidak. yang kuat (naif). Dengan kata lain, tingkat kelulusan Berdasar mahasiswa deskripsi di atas, akan jelas Bayes) probabilistic berdasar pada Bayes (atau dengan asumsi (ketidaktergantungan) dalam Naïve Bayes, model yang bahwa memprediksi kelulusan adalah hal digunakan yang penting bagi institusi dan potensi independen”. adalah “model fitur besar bagi institusi untuk menyikapi serta Dalam Naïve Bayes, maksud menentukan kebijaksaan strategis perihal independensi yang kuat pada fitur kelulusan tepat waktu. Setelah institusi adalah bahwa sebuah fitur pada melakukan identifikasi mahasiswa yang sebuah data tidak berkaitan dengan beresiko, kemudian dilanjutkan dengan ada atau tidaknya fitur lain dalam mekanisme evaluasi dan monitoring, guna data yang sama. Contohnya pada meningkatkan kasus klasifikasi hewan dengan fitur kegigihan mahasiswa, tingkat penutup kulit, melahirkan, berat, dan dapat menyusui. Dalam dunia nyata, hewan dianggap membagi mahasiswa menjadi dua yang berkembang biak dengan cara kelas yaitu “tepat” bagi mahasiswa yang melahirkan dapat dipastikan juga lulus tepat waktu dan “terlambat” bagi menyusui. Di sini ada ketergantungan dengan harapan kelulusan. Tugas meningkatnya prediksi ini pada fitur menyusui karena hewan berisi fitur dan Y adalah label kelas. menyusui biasanya melahirkan, atau Naïve hewan yang bertelur biasanya tidak P(Y|X). Notasi ini disebut juga menyusui. Dalam Bayes, hal tersebut probabilitas tidak dipandang sehingga masing- probability) untuk Y, sedangkan masing fitur seolahtidak memiliki P(Y) disebut probabilitas awal (prior hubungan apa pun. probability) Y. Bayes Prediksi Bayes didasarkan dituliskan akhir Selama dengan (posterior proses pada teorema Bayes dengan formula harus umum sebagai berikut: probabilitas akhir P(Y|X) pada model pembelajaran (6) ( | ) ( ) ( ) ( | )= dilakukan pelatihan untuk setiap kombinasi X dan Y berdasarkan informasi yang didapat Ide dasar dari aturan Bayes dari data latih. Dengan membangun adalah bahwa hasil dari hipotesis atau model tersebut, suatu data uji X’ peritiwa diperkirakan dapat diklasifikan dengan mecari berdasarkan pada beberapa bukti (E) nilai Y’ dengan memaksimalkan nilai yang diamati. Ada beberapa hal P(Y’|X’) yang didapat. (H) dapat penting dari aturan Bayes tersebut, yaitu: Formulasi Naïve Bayes untuk klasifikasi adalah 1. Sebuah probabilitas ( | )= awal/priori H atau P(H) ( )∏ ( | ) ( ) adalah probabilitas dari P(Y|X) adalah probabilitas suatu hipotesis sebelum data dengan vector X pada kelas Y. bukti diamati. P(Y) adalah probabilitas awal kelas 2. Sebuah probabilitas akhir Y. ∏ ( | ) adalah probabilitas H atau P(H|E) adalah independen kelas Y dari semua fitur probabilitas hipotesis dari suatu dalam vector X. Nilai P(X) selalu setelah bukti tetap sehingga dalam perhitungan diamati. prediksi Kaitan antara Naïve Bayes dengan klasifikasi, korelasi hipotesis, nantinya kita tinggal menghitung ( )∏ bagian ( | ) dengan memilih dan bukti dengan klasifikasi adalah yang terbesar sebagai kelas yang bahwa dipilih hipotesis dalam teorema sebagai hasil prediksi. Bayes merupakan label kelas yang Sementara probabilitas independen menjadi ∏ klasifikasi, target pemetaan sedangkan dalam bukti merupakan fitur-fitur yang menjadi masukan dalam model klasifikasi. Jika X adalah vector masukan yang ( | ) tersebut merupakan pengaruh semua fitur dari data terhadap setiap dinotasikan dengan: kelas Y, yang ( | = ) = ( | = ) sejumlah calon variabel input dengan sebuah Dan { , setiap , fitur ,…., X= } terdiri atas q atribut. decision tree eksplorasi target. Karena memadukan antara data dan pemodelan. Decision tree digunakan untuk kasus- B. Algoritma C4.5 kasus dimana outputnya bernilai Tree atau pohon banyak dikenal sebagai variabel bagian dari Graph, yan diskrit [10]. decison Sebuah tree adalah termasuk dalam irisan bidang ilmu sebuah struktur yang dapat digunakan otomata serta untuk membagi kumpulan data yang sendiri besar menjadi himpunan-himpunan yang record yang lebih kecil dengan dan matematika merupakan teori bahasa Tree diskrit. graf tak-berarah terhubung, serta tidak mengandung menerapkan sirkuit. [15] Dalam sebuah tree, setiap keputusan. Dengan masing-masing pasang simpul terhubung hanya oleh rangkaian satu lintasan, dan sebuah tree terdiri himpunan hasil menjadi mirip dengan dari [25]: yang lain [4] a) Root/akar, yang merupakan simpul tertinggi. pembagian, tanpa anak lagi . aturan anggota Proses pada decision tree adalah mengubah b) Leaf/daun, yang berupa simpul serangkaian bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan c) Branch/cabang, yang merupakan simpul-simpul selain daun. menyederhanakan rule [3]. Sebuah model decision tree terdiri Decision tree merupakan metode dari sekumpulan aturan untuk klasifikasi dan prediksi yang sangat membagi sejumlah populasi yang kuat dan terkenal. Metode decision heterogen menjadi lebih kecil, lebih tree mengubah fakta yang sangat homogen besar menjadi pohon keputusan yang pada variabel tujuannya. Variabel merepresentasikan tujuan dapat dengan aturan. memperhatikan biasanya dikelompokkan dipahami dengan pasti dan lebih mengarah dengan bahasa alami. Selain itu pada perhitungan probabilitas dari aturan tiap-tiap record terhadap kategori- juga mudah Aturan dengan dapat diekspresikan dalam bentuk bahasa basis data kategori seperti Structured Query Language mengklasifikasi (SQL) untuk mencari record pada mengelompokkannya kategori tertentu. kelas. Decision tree juga berguna dalam mengeksplorasi hubungan data, menemukan tersembunyi antara tersebut atau record untuk dengan dalam satu Data dalam decision tree biasanya dinyatakan dalam bentuk tabel dengan atribut dan record. Atribut menyatakan suatu parameter yang dapat dibuat menggunakan sebagai kriteria dalam dilakukan dengan konsep Entropy, pembentukan pohon. Atribut ini juga Entropy menyatakan impurity suatu memiliki kumpulan nilai yang terkandung objek. Jika diberikan didalamnya yang disebut instance. sekumpulan Dalam decision tree setiap atribut label/output y yang terdiri dari objek akan simpul. berlabel 1, 2 sampai n, Entropy dari akan objek dengan n kelas ini dapat menempati Selanjutnya posisi setiap simpul memiliki jawaban yang dibentuk objek dengan dihitung dengan rumus berikut. dalam cabang-cabang, jawaban ini ( ) =− adalah instance dari atribut (simpul) yang ditanyakan. penelusuran, Pada pertanyaan ….− saat akan (1) pertama akan ditanyakan pada simpul akar. Selanjutnya − Kemudian setelah itu ada dilakukan beberapa kriteria yang dibahas, yakni penelusuran ke cabang-cabang Information Gain, Gain Ratio, Indeks simpul dan simpul-simpul Gini. akar berikutnya. Penelusuran setiap 1. Information Gain simpul ke cabang-cabangnya akan Information gain adalah berakhir ketika suatu cabang telah kriteria yang paling populer menemukan simpul kelas atau obyek untuk atribut. yang dicari. Information gain dapat dihitung Saat menyusun sebuah decision pemilihan dari output data atau variabel tree pertama yang harus dilakukan dependent adalah menentukan atribut mana dikelompokkan yang akan menjadi simpul akar dan atribut A, dinotasikan dengan atribut mana yang akan menjadi gain (y,A). Information gain, simpul selanjutnya. Pemilihan atribut gain (y,A), dari atribut A relatif yang terhadap output data y adalah : baik adalah atribut yang yang paling kecil ( )(2) − ∈ obyek berdasarkan ( ) = ukurannya. Atau atribut yang bisa memisahkan yang ( , ) memungkinkan untuk mendapatkan decision tree y ( ) menurut Dimana nilai(A) adalah semua kelasnya. Secara heuristik atribut nilai yang mungkin dari atribut A, yang dipilih adalah atribut yang dan menghasilkan simpul yang paling mempunyai nilai c. ”purest” (paling bersih). Ukuran 2. adalah subset dari y dimana A Gain Ratio purity dinyatakan dengan tingkat Untuk impurity, dan untuk menghitungnya, diperlukan menghitung suatu gain ratio term SplitInformation. SplitInformation Secara umum langkah algoritma C4.5 dapat dapat dihitung dengan formula untuk membangun pohon keputusan sebagai berikut : adalah sebagai berikut: Dimana subset sampai yang adalah c dihasilkan dari pemecahan S demgan menggunakan atribut A yang mempunyai sebanyak c nilai. Selanjutnya gain a. Pilih atribut sebagai akar. b. Buat cabang untuk tiap-tiap nilai. c. Bagi kasus dalam cabang. d. Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama. ratio dihitung dengan cara : C. Tahap-Tahap Data Mining 3. Indeks Gini Jika kelas obyek dinyatakan dengan k, k-1,2, ...C, dimana C adalah jumlah kelas untuk variabel/output dependent y, Indeks Gini untuk suatu cabang atau kotak A dihitung sebagai berikut : Dimana pk adalah ratio observasi Sebagai dalam kotak A yang masuk dalam suatu rangkaian kelas k. Jika IG(A) = 0 berarti semua proses, data mining dapat dibagi data dalam kotak A berasal dari kelas menjadi beberapa tahap. Tahap-tahap yang sama. Nilai IG(A) mencapai maksimum jika dalam kelas A proporsi data dari masing-masing kelas yang ada mencapai nilai yang merupakan algortima pemakai terlibat C4.5 pengembangan ID3, sendiri dari dimana pengembangan dilakukan dalam hal: bisa mengatasi missing data, bisa mengatasi data kontiyu, pruning. langsung atau dengan perantaraan knowledge base. a. Business Understanding pemahaman sama. Algortima tersebut bersifat interaktif di mana domain atau (penelitian). Pada fase ini dibutuhkan pemahaman tentang substansi dari kegiatan data mining yang akan dilakukan, kebutuhan dari perspektif bisnis. Kegiatannya antara lain: menentukan sasaran atau tujuan bisnis, memahami situasi bisnis, menentukan tujuan presentasi dari pengetahuan yang data didapat dari evaluasi pada proses mining dan membuat perencanaan strategi serta jadwal penelitian. b. Data data mining [11]. D. Confusion Matrix Understanding pemahaman data mengumpulkan atau adalah (tools) visualisasi yang biasa awal, digunakan pada supervised learning. bisa Tiap kolom pada matriks adalah mengenal data yang akan dipakai. contoh kelas prediksi, sedangkan tiap Fase baris mewakili kejadian di kelas yang mempelajari data fase Confusion Matrix adalah alat data untuk ini mencoba mengidentifikasikan masalah yang berkaitan dengan kualitas sebenarnya (Gorunescu, 2011). data, Confusion matrix berisi mendeteksi subset yang menarik dari informasi aktual (actual) dan prediksi data untuk membuat hipotesa awal. (predicted) pada sisitem klasifikasi. c. Data preparation atau persiapan Tabel 2.2 adalah contoh tabel data. Fase ini sering disebut sebagai confusion matrix yang menunjukan fase yang padat karya. Aktivitas yang klasifikasi dua kelas. dilakukan antara lain memilih table field dan yang Prediksi akan ditransformasikan ke dalam database Aktual Negaif A C Positif B D baru untuk bahan data mining (set Keterangan: data mentah). d. Modeling adalah fase menentukan teknik data mining yang digunakan, menentukan tools data mining, teknik data mining, algoritma data mining, menentukan parameter dengan nilai A = jumlah prediksi yang tepat bahwa instance bersifat negatif B =jumlah prediksi yang salah bahwa instance bersifat positif C =jumlah prediksi yang salah bahwa instance bersifat negatif yang optimal. e. Evaluation adalah fase interpretasi terhadap hasil data mining yang D =jumlah prediksi yang tepat bahwa instance bersifat positif. ditunjukan dalam proses pemodelan Beberapa persyaratan standar yang pada telah fase sebelumnya. Evaluasi didefiniskan untuk matrik dilakukan secara mendalam dengan klasifikasi dua kelas: tujuan menyesuaikan model yang a. Keakuratan (AC) adalah proposi didapat agar sesuai dengan sasaran jumlah yang persamaannya: ingin dicapai dalam fase f. Deployment atau penyebaran adalah penyusunan benar. Rumus AC = A + D/A + B + C + D pertama. fase prediksi laporan atau b. Penarikan kembali (recall) atau tingkat positif benar (TP) adalah proporsi kasus positif yang yang sangat kompetitif. Sehingga diidentifikasi dengan benar, yang perguruan tinggi kini dituntut untuk dihitung dengan persamaan: memiliki TP = D/C + D keunggulan bersaing c. Tingkat positif salah (FP) adalah dan meningkatkan dalam diwajibkan kualitas layanan proporsi kasus negatif yang salah serta memuaskan para mahasiswa diklasifikasikan sebagai positif, yang serta ruang publik disekitar mereka. dihitung Dalam struktur pendidikan saat ini, dengan menggunakan persamaan: mahasiswa memiliki peran penting FP = B/A+B d. Tingkat negatif sejati bagi sebuah institusi pendidikan. (TN) Karena itu perlu ditinjau ulang didefinisikan sebagai proporsi kasus mengenai negative mahasiswa tepat pada waktunya. yang diklasifikasikan dengan benar, yang dihitung dengan tingkat Kelulusan kelulusan tepat waktu menggunakan persamaan: merupakan isu penting yang perlu TN = A/A + B disikapi dengan bijak oleh institusi (12) e. Tingkat negatif palsu (FN) adalah pendidikan. Tingkat kelulusan proporsi kasus positif yang salah dianggap diklasifikasikan sebagai negatif, yang parameter dihitung pendidikan (Qudri & Kalyankar, dengan menggunakan persamaan: f. Presisi (P) adalah proporsi prediksi positif dihitung yang benar, dengan yang menggunakan persamaan: P = D/B + D salah efektifitas 2010). FN = C/C + D kasus sebagai satu institusi saat(13) ini Sehingga memerhatikan tingkat kelulusan tepat suatu waktu tinggi menjadi hal Penurunan tingkat mahasiswa akan terhadap perguruan penting. kelulusan (14) berpengaruh akreditasi perguruan tinggi tersebut. Oleh karena itu III. Desain Penelitian perlu adanya monitoring serta Metode yang digunakan dalam evaluasi terhadap kecenderungan penelitian ini adalah model CRISP- kelulusan mahasiswa, tepat waktu DM (Cross Industry Standard Process atau tidak. for Data Mining), dengan langkah- b. Pemahaman langkah sebagai berikut: Data (Data Understanding) Data yang digunakan dalam a. Pemahaman Bisnis (Bussiness Understanding) Saat ini institusi perguruan tinggi berada dalam lingkungan penelitian ini tidak diperoleh dari sumber data, mahasiswa, dalam secara hal ini langsung. Melainkan data ini diperoleh dari database mahasiswa yang dimiliki menandakan bahwa atribut oleh Universitas Dian Nuswantoro bersangkutan akan digunakan dalam Semarang, yaitu melalui bagian penelitian, sedangkan indikator no (×) ruang data yang dimiliki oleh menandakan bahwa atribut tersebut fakultas Ilmu Komputer. Data yang akan dieliminasi pada tahap data dikumpulkan adalah data mahasiswa preparation. fakultas Ilmu Komputer dengan program studi strata satu (S1) untuk d. Pemodelan (Modelling) tahun angkatan 2008 dan 2009. Data Terdapat dua metode yang akan terkumpul sebanyak 1919 data, digunakan dalam penelitian ini, yaitu dengan atribut nim (nomor induk Naïve Bayes dan Algoritma C4.5. mahasiswa), nama, program studi, Untuk melakukan pengukuran serta umur, jenis kelamin, status marital, perbandingan akurasi dalam penelitian status pekerjaan, ip (indeks prestasi) ini akan menggunakan framework semester RapidMiner versi 6. 1 sampai dengan ip semester 8, dengan label keterangan tepat atau terlambat. c. Pengolahan Data (Data Preparation) Pada tahap ini atribut data yang akan digunakan adalah sebagai berikut Atribut Detail Penggunaan NIM √ ID Nama × No Program Studi √ Nilai Model Jenis Kelamin √ Nilai Model Umur √ Nilai Model Status Marital √ Nilai Model validasi serta pengukuran keakuratan Status √ Nilai Model hasil IPS 1 √ Nilai Model menggunakan beberapa teknik yang IPS 2 √ Nilai Model terdapat dalam framework RapidMiner IPS 3 √ Nilai Model IPS 4 √ Nilai Model IPS 5 × No untuk IPS 6 × No model, dan Split Validation untuk IPS 7 × No validasi. IPS 8 × No Keterangan √ Label Target e. Validasi dan Evaluasi Dalam tahapan ini akan dilakukan yang dicapai oleh model versi. 5.13 yaitu Confusion Matrix pengukuran tingkat akurasi f. Penyebaran (Deployment) Hasil dari penelitian ini berupa Tabel diatas menjelaskan mengenai analisa yang mengarah ke DSS atribut yang akan digunakan dalam (Decision Support System), yang penelitian, diharapkan dapat digunakan oleh indikator yes (√) institusi perguruan bahan tinggi sebagai pertimbangan dalam menentukan langkah guna mengatasi permasalahan ketepatan kelulusan mahasiswa, dan juga dapat digunakan sebagai bahan rujukan untuk penelitian selanjutnya. Selain itu hasil analisa ini juga akan digunakan sebagai dasar perancangan sebuah pengambilan keputusan melakukan sistem idemtifikasi guna ketepatan dan ratio perbandingan yang berbeda- IV. Hasil Pengujian a. Pembahasan model Naïve Bayes Pengaturan dan serta framework Berdasarkan sembilan kali pengujian yang dilakukan dengan metode sampling kelulusan mahasiswa. operator c. Hasil Komparasi penggunaan parameter RapidMiner beda dari data training dan data testing dengan menggunakan kedua metode dalam diatas, didapatkan sangat sebagai berikut: hasil pengujian berpengaruh terhadap akurasi dan model yang terbentuk, sebagai contoh dalam penggunaan operator metode naïve bayes dibawah ini. Tabel menampilkan perbandingan hasil pengujian diatas dari metode naïve bayes dan C4.5 dengan metode sampling yang bervariasi, serta ratio penggunaan data training yang bertahap, mulai dari 10% hingga 90% b. Pembahasan model Algoritma C4.5 Serupa membangun dengan model proses dalam naïve bayes, pengaturan dan penggunaan operator serta parameter pada model C4.5 juga sangat berpengaruh terhadap akurasi yang dihasilkan. Berikut desain model C4.5 yang akan digunakan. dari keseluruhan 1919 data mahasiswa yang tersedia di dataset. Dan dapat disimpulkan bahwa metode sampling Linear serta metode algortima C4.5 memiliki tingkat akurasi yang lebih baik dalam melakukan prediksi ketepatan kelulusan mahasiswa. V. KESIMPULAN VI. DAFTAR PUSTAKA Berdasarkan hasil penelitian yang telah dilakukan maka dapat diambil beberapa kesimpulan, antara lain: 1. Dalam melakukan prediksi tingkat ketepatan kelulusan mahasiswa, dengan menggunakan pemodelan metode Decision Tree didapatkan tingkat akurasi tertinggi sebesar 82.43%, parameter dengan Split menggunakan Relative dan Sampling Type Linear, sedangkan pada pemodelan metode Naïve Bayes memperoleh rata-rata tingkat akurasi tertinggi sebesar 74.09%, dengan menggunakan parameter Split Relative dan Sampling Type Stratified. Oleh karena itu dapat disimpulkan berdasarkan tingkat akurasi, bahwa pemodelan metode Decision Tree lebih baik dalam melakukan prediksi ketepatan kelulusan mahasiswa pada data penelitian mahasiswa strata 1 (S1) Fakultas Ilmu Komputer Universitas Dian Nuswantoro angkatan 2008 dan 2009. 2. Aplikasi yang dibangun berdasarkan hasil analisa dengan menggunakan RapidMiner, dapat digunakan sebagai Decision Support System (DSS) atau alat bantu pengambilan keputusan bagi pihak Fakultas Ilmu Komputer Universitas Dian Nuswantoro, guna merancang serta mempersiapkan langkah-langkah strategis dalam menyikapi permasalahan ketepatan kelulusan mahasiswa. [1] Azwar, S. (2004). Penyusunan Skala Psikologi. Yogyakarta: Pustaka pelajar. [2] Balagatabi, Z. N. (2012). Comparison of Decision Tree and Naïve Bayes Methods in Classification of Researcher’s Cognitive Styles in Academic Environment. Journal of Advances in Computer Research. [3] Basuki, A., & Syarif, I. (2004). Modul Ajar Decision Tree. Surabaya: PENS-ITS. [4] Berry, M. J., & Linoff, G. S. (2004). Data Mining Techniques. New Jersey: John Willey and Sons Inc. [5] Darmawan, A. (2012). Pembuatan Aplikasi Data Mining untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma K-Nearest Neighborhood. Digilab Unikom. [6] Gorunescu, F. (2011). Data Mining: Concepts, Models, and Techniques. Verlag Berlin Heidelberg: Springer. [7] Hamidah, I. (2012). Aplikasi Data Mining untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma C4.5. Digilab Unikom. [8] Han, J., & Kamber, M. (2006). Data Mining Concepts and Techniques. San Francisco: Mofgan Kaufann Publishers. [9] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for Predicting Student Graduation Outcomes. Preceeding of World Congress on Engineering and Computer Science. [10] Kusrini, & Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Penerbit ANDI. [11] Larose, D. T. (2005). Discovering Knowledge in Databases. New Jersey: John Willey and Sons Inc. [12] Larose, D. T. (2006). Data Mining Methods and Models. New Jersey: John Wiley and Sons. [13] Latifah, E. (2013). Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3. Digilab Unikom. [14] Meinanda, M. H., Annisa, M., Muhandri, N., & Suryadi, K. (2009). Prediksi Masa Studi Sarjana dengan Artificial Neural Network. Internetworking Indonesia Journal, 31-35. [15] Munir, R. (2010). Matematika Diskrit. Bandung: Informatika Bandung. [16] Nuswantoro, U. D. (2006). Peraturan Akademik. [17] Prasetyo, E. (2012). Data Mining Konsep dan Aplikasi menggunakan Matlab. Yogyakarta: Penerbit ANDI. [18] Quadril, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for Academic Performance Using Decision Tree Techniques. Global Journal of Computer Science. [19] Ridwan, M., Suyono, H., & Sarosa, M. (2013). Penerapan Data MiningUntuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS, 59-63. [20] Santosa, B. (2007). Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Surabaya: Graha Ilmu. [21] Shearer, C. (2000). The CRISP-DM Model: The New Blueprint for Data. Journal of Data Warehousing. [22] Shereker, S. S., & Patil, T. R. (2013). Performance Analysis of Naive Bayes and J48 Classification Algorithm for Data Classification. International Journal Of Computer Science And Applications. [23] Siregar, A. R. (2006). Motivasi Belajar Mahasiswa ditinjau dari Pola Asuh. USU Repository. [24] Sivakumari, Priyadarsini, & Amudha. (2009). Accuracy Evaluation of C4.5 and Naïve Bayes Classifiers Using Atribute Ranking Method. [25] Utdirartatmo, F. (2005). Teori Bahasa dan Otomata. Yogyakarta: Graha Ilmu. [26] Witten, I. H., Frank, E., & Hall, M. A. (2011). Data Mining Machine Learning Tools and Techniques. Burlington: Morgan Kaufmann Publishers. [27] Yingkuachat, J., Praneetpolgrang, P., & Kijsirikul, B. (2007). An Application of the Probabilistic Model to the Prediction of Student Graduation Using Bayesian Belief Networks. ECTI Transaction on Computer and Technology.