Jurnal Dinamika, September 2016, halaman 34-41 P-ISSN: 2087 – 7889 E-ISSN: 2503 – 4863 Vol. 07. No.2 KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE Yuli Hastuti Program Studi Matematika Fakultas Sains Universitas Cokroaminoto Palopo Email: [email protected] ABSTRAK Masalah yang dihadapi dalam proses penerimaan mahasiswa baru di Universitas Cokroaminoto Palopo (UNCP) adalah jumlah pendaftar prodi pendidikan sangat tinggi dibandingkan pendaftar prodi sains. Setiap pendaftar memiliki kriteria masing-masing dalam menentukan pilihan prodi. Klasifikasi merupakan metode statistika yang digunakan untuk mengelompokkan data. dalam aplikasi klasifikasi, sering dijumpai data yang tidak memenuhi asumsi klasik metode klasifikasi seperti asumsi kenormalan data dan multikolinearitas. Metode yang dapat mengatasi masalah tersebut antara lain Metode Naïve Bayes dan Decision Tree. Naïve Bayes mengaplikasikan Teorema Bayes yang mengestimasi parameter mengikuti distribusi data. sedangkan Decision Tree bersifat nonparametrik. Oleh karena itu, kedua metode tersebut dapat digunakan untuk mengklasifikasikan data yang tidak memenuhi asumsi normal. Dalam hal ini, mengidentifikasi karakteristik mahasiswa berdasarkan klasifikasi Prodi Matematika dan mengklasifikasikan mahasiswa prodi pendidikan dan pendaftar prodi sains di UNCP . Penelitian ini menggunakan variabel yang saling independen. Untuk mengataasi masalah tersebut, metode klasifikasi yang dapat digunakan adalah Naïve Bayes dan Decision Tree. Naïve Bayes merupakan metode klasifikasi yang merapkan teorema bayes dalam membangun struktur modelnya. Metode ini mengasumsikan variabel saling independen meskipun variabel tidak memenuhi asumsi tersebut. Sedangkan Decision Tree merupakan metode klasifikasi yang dapat mengakomodir independensi variabel. Hasil analisis data menunjukkan bahwa metode Naïve Bayes lebih baik dibandingkan metode Decision Tree dalam mengklasifikasikan kriteria pendaftar di UNCP dengan ketepatan klasifikasi berturut-turut 98,18% dan 97,82%. Kata Kunci: Klasifikasi, Naïve Bayes, Decision Tree adalah PENDAHULUAN Universitas Cokroaminoto Palopo menghadapi masalah dalam hal jumlah pendaftar yang tersebut dapat dilakukan menggunakan metode klasifikasi. Klasifikasi merupakan proses penentuan Pendidikan jauh lebih banyak dibandingkan model atau fungsi yang dapat digunakan dengan Sains, untuk mengelompokkan obyek ke dalam khususnya Prodi Sains Matematika. Salah beberapa kategori berdasarkan karakteristik satu cara untuk mengatasi masalah tersebut yang pada pada identifikasi karakteristik Prodi pendaftar berminat mengidentifikasi Prodi diamati. Dalam penelitian ini, 34 Yuli Hastuti (2016) pengelompokan mahasiswa terdiri dari dua Metode kategori yaitu mahasiswa Prodi Matematika nonparametrik atau Mahasiswa Pendidikan Matematika memenuhi asumsi-asumsi klasik metode berdasarkan karakteristik yang diamati yaitu klasifikasi. Proses estimasi metode ini penilaian mahasiswa terhadap fasilitas prodi sangat (X1), Kesesuaian prodi dengan lapangan entropi. kerja yang diinginkan (X2), Pengaruh Decision Tree sehingga mudah bersifat tidak menggunakan harus pembobot Berdasarkan gambaran umum di atas, lingkungan sosial dalam memilih prodi (X3) diharapkan dan status ada atau tidak paksaan dari Decision Tree orangtua dalam pemilihan prodi (X4). mengetahui karakteristik mahasiswa Prodi Metode klasifikasi klasik metode Naïve dapat Bayes dan digunakan untuk harus Matematika dan Prodi memenuhi beberapa asumsi antara lain Matematika Universitas asumsi multikolinearitas dan asumsi normal. Palopo. Umumnya, asumsi tersebut sulit dipenuhi TINJAUAN PUSTAKA dalam aplikasi data. Metode klasifikasi yang Teorema Bayes Pendidikan Cokroaminoto dapat mengatasi masalah tersebut antara lain Teorema Bayes diperkenalkan oleh metode Bayes Network dan metode Decision Thomas Bayes yang menyatakan jika A dan Tree. Metode Bayes Network B merupakan merupakan suatu kejadian dimana metode klasifikasi yang mengaplikasikan P( X ) 0 , maka peluang Y dengan syarat X teorema bayes. Metode ini mengestimasi dinyatakan dalam persamaan berikut : parameter mengikuti distribusi data sehingga tidak harus memenuhi asumsi normal. Salah satu metode Bayes Network yang sering digunakan adalah metode Naïve Bayes. Pada tahun 2005, Adrien dan David P A B P A B P B P APA B PA B merupakan P B peluang A dengan untuk syarat B, yang disebut posterior dan P A klasifikaasi cerita detektif. Kemudian Zhang disebut prior A. PB merupakan marginal dan Feng (2011) menggunakannya untuk dari P A B dan bernilai konstan. mengaplikasikan klasifikasi teks metode (NB). NB Metode ini dapat mengatasi dependensi data. 35 Klasifikasi Karakteristik Mahasiswa Universitas Cokroaminoto Palopo Menggunakan Metode Naïve Bayes dan Decision Tree 1. Membangun struktur jaringan dengan Bayes Network Bayesian networks (BNs), yang juga disebut mengarahkan edge dari semua atribut ke Bayesian node variabel respon. Belief Networks (BBNs) merupakan model graph peluang yang 2. Mengestimasi parameter NB merepresentasikan Decision Tree random dan menggunakan himpunan peluang Directed variabel bersyaratnya Acyclic Decision Tree atau analisis pohon keputusan Graph merupakan salah satu metode klasifikasi (DAG). BN dapat didefinisikan sebagai yang mengaplikasikan teori graf dalam kejadian B G, , dimana G adalah membagi model Directed Acyclic Graph dan menunjukkan himpunan parameter dari BN. Directed graph G terdiri dari himpunan node V dan edge E sehingga himpunan graph G dapat dituliskan G = (V,E) (Johnsonbaugh, 2009). Node merepresentasi kan variabel random baik berupa data kelompok data himpunan-himpunan data. Hasil analisis metode ini sangat mudah dinterpretasikan karena divisualisasikan dalan bentuk pohon. Adapun langkah-langkah metode Decision Tree secara umum adalah: a. Menghitung nilai Entropi dengan rumus berikut. n numerik maupun data kategorik dan edges Entopi (S) pi 2 log pi merepresentasikan hubungan langsung antar keterangan: variabel yang digambarkan sebagai anak S = Himpunan kasus panah antara node. n Naïve Bayes pi = proporsi Si terhadap S Metode Naïve Bayes mengasumsikan variabel prediktor saling independen dimana strukturnya dibangun dengan menjadi i 1 = jumlah partisi S b. Menghitung nilai Gain dengan rumus: n S i Gain(S, A) Entropi (S) - * Entropi (Si ) i 1 S menghubungkan semua variabel prediktor terhadap variabel respon. Struktur metode Naïve Bayes untuk data penelitian ini sebagai berikut. Langkah-langkah algoritma Naïve Bayes sebagai berikut: c. Menentukan root node d. Proses partisi berhenti jika, Semua record dalam simpul n mendapat kategori yang sama Tidak ada atribut dalam record yang terpartisi lagi 36 Yuli Hastuti (2016) Tidak ada record dalam cabang yang kosong Tabel 1. Variabel Penelitian Variabel Respon Y Prodi Pilihan HASIL DAN PEMBAHASAN Skala Data Kategorik 1: Penelitian dilakukan terhadap 276 Matematika mahasiswa UNCP Tahun Ajaran 2014/2015 yang terdiri dari 270 mahasiswa Pendidikan Matematika dan enam mahasiswa Prodi Pend. 0: Matematika Variabel Prediktor Fasilitas, Kategorik Matematika. Data terdiri atas satu variabel Penilaian 1: Memadai respon dan empat variabel prediktor. Data mahasiswa 0: Tidak tersebut terhadap memadai dikalsifikasikan X1 Skala Data menggunakan metode Naïve Bayes dan Decision Tree. ketersediaan Hasil Klasifikasi Metode Naïve Bayes fasilitas prodi Struktur metode Naïve Bayes untuk dalam proses data penelitian ini sebagai berikut. belajar mengajar X2 Pilihan Prodi Lapangan Kerja, 1: Sesuai Kesesuaian 0: Tidak lapangan kerja Sesuai yang diharapkan X1 X4 X2 X3 dengan prodi X3 METODE PENELITIAN Data diperoleh dari hasil survei terhadap 270 mahasiswa Prodi Matematika dan Prodi Pendidikan Matematika yang terdaftar pada Tahun Ajaran 2014/2015. Variabel penelitian yang digunakan sebagai berikut. Lingkungan 1: sosial, pengaruh Dipengaruhi lingkungan sosial 0: Tidak terhadap pilihan dipengaruhi prodi X4 Paksaan 1: Terdapat Orangtua, paksaan pengaruh 0: Tidak ada orangtua terhadap paksaan pilihan prodi 37 Klasifikasi Karakteristik Mahasiswa Universitas Cokroaminoto Palopo Menggunakan Metode Naïve Bayes dan Decision Tree Berdasarkan tujuan penelitian, teknik analisis data sebagai berikut. 1. Menentukan node variabel respon dan prediktor 2. Mengklasifikasikan data menggunakan Metode Naïve Bayes dengan algoritma sebagai berikut: a. Membentuk struktur NB dengan menghubungkan edge semua atribut ke node respon sedemikian sehingga node respon menjadi parent semua atribut. b. Menghitung P X i Y c. Menghitung Tidak ada atribut dalam record yang terpartisi lagi Tidak ada record dalam cabang yang kosong 4. Membandingkan hasil klasifikasi Naïve Bayes dan Decision Tree HASIL DAN PEMBAHASAN Penelitian dilakukan terhadap 276 mahasiswa UNCP Tahun Ajaran 2014/2015 yang terdiri dari 270 mahasiswa Pendidikan Matematika dan enam mahasiswa Prodi Matematika. Data terdiri atas satu variabel dan PY peluang bersyarat PY X PY PX i Y i respon dan empat variabel prediktor. Data tersebut diperoleh dari PY y k X menggunakan metode Naïve Bayes dan Decision Tree. Hasil Klasifikasi Metode Naïve Bayes d. Mengklasifikasikan data ke dalam kategori ke-k jika nilai maksimum dikalsifikasikan Struktur metode Naïve Bayes untuk data penelitian ini sebagai berikut. Pilihan e. Menghitung akurasi klasifikasi 3. Mengklasifikasikan data menggunakan metode Decision Tree dengan prosedur sebagai berikut: e. Menghitung nilai Entropi f. Menghitung nilai Gain Prodi X1 X4 X2 g. Menentukan root node, atribut yang memiliki nilai gain paling tinggi yang menjadi root node h. Ulangi prosedur a, b, dan c hingga semua record terpartisi i. Proses partisi berhenti jika, Semua record dalam simpul n mendapat kategori yang sama X3 Gambar 1. Struktur Naïve Bayes data mahasiswa UNCP Tabel bahwa 2 memberikan metode mengklasifikasikan informasi Naïve data dengan Bayes tepat sebanyak 271 yaitu 270 mahasiswa Prodi Pendidikan Matematika dan satu orang 38 Yuli Hastuti (2016) mahasiswa UNCP mahasiswa Matematika. Sedangkan, lima orang mahasiswa Graf Decision Tree pada Gambar 2. Matematika diklasifikasikan sebagai mahasiswa Prodi menginterpretasikan Pendidikan Matematika. mahasiswa dalam menentukan pilihan Prodi Pendidikan Tabel 2. Hasil klasifikasi metode Naïve Matematika Naïve Bayes PM PM M 270 0 Total Prodi a. Jika mahasiswa menilai fasilitas Prodi Pendidikan Matematika tidak memadai 270 dan mendapatkan lingkungan, Hasil M Total dari mahasiswa akan 1 6 memilih Prodi Pendidikan Matematika. 275 1 276 b. Jika mahasiswa menilai fasilitas Prodi Pendidikan Matematika memadai dan Hasil Klasifikasi Metode Decision Tree Berdasarkan maka pengaruh 5 *PM: Pendidikan Matematika, M: Matematika menggunakan atau Matematika dengan kondisi sebagai berikut. Bayes Survei karakteristik hasil Metode mendapatkan paksaan dari orangtua maka analisis data mahasiswa Decision Tree Pendidikan Matematika meskipun tidak diperoleh informasi bahwa faktor utama akan memilih Prodi mendapat pengaruh dari lingkungan. yang mempengaruhi mahasiswa memilih c. Meskipun mahasiswa menilai fasilitas Prodi Pendidikan Matematika atau Prodi Prodi Pendidikan Matematika memadai Matematika adalah ketersediaan fasilitas tetapi prodi. Informasi tersebut diperoleh dari lingkungan struktur graph data berikut. profesi pekerjaan yang diinginkan maka mendapatkan mahasiswa dan akan pengaruh belum dari menentukan memilih Prodi Matematika. d. Jika mahasiswa menilai fasilitas Prodi Pendidikan Matematika memadai, lapangan kerja sesuai dan mendapatkan pengaruh mahasiswa dari akan lingkungan maka memilih Prodi Pendidikan Matematika. Gambar 2. Struktur Decision Tree data e. Bagi mahasiswa yang belum menentukan 39 Klasifikasi Karakteristik Mahasiswa Universitas Cokroaminoto Palopo Menggunakan Metode Naïve Bayes dan Decision Tree profesi pekerjaan yang diinginkan, klasifikasi 97,82% dengan nilai MSE 0,07. apabila menilai fasilitas Matematika Semakin tinggi nilai persentase ketepatan memadai atau menilai fasilitas Prodi klasifikasi maka metode semakin baik. Pendidikan Matematika memadai tetapi Sedangkan interpretasi nilai MSE, semakin mendapatkan pengaruh dari lingkungan, rendah nilai MSE maka metode semakin mahasiswa tersebut akan memilih Prodi baik. Sehingga dapat disimpulkan bahwa Matematika. metode Naïve Bayes lebih baik Hasil klasifikasi metode Decision dibandingkan metode Decision Tree dalam Tree dalam Tabel 3 menunjukkan bahwa mengklasifikasikan data mahasiswa UNCP pilihan prodi yang diklasifikasikan sesuai Prodi yaitu Matematika Tahun Ajaran 2014/2015. 270 Pendidikan Sedangkan Matematika. ketidaksesuaian klasifikasi Prodi Matematika diklasifikasikan Prodi tetapi Pendidikan Matematika dan KESIMPULAN sebanyak enam mahasiswa yang sebenarnya memilih Pendidikan Metode Naïve Bayes lebih baik dibandingkan Decision mengidentifikasi Tree dalam karakteristik data Matematika. Mahasiswa Prodi Matematika dan Prodi Tabel 3. Hasil klasifikasi metode Decision Pendidikan Tree PM M 270 0 Total Total dengan struktur data menunjukkan bahwa faktor utama 270 yang mempengaruhi pemilihan mahasiswa terhadap Prodi Matematika atau Pendidikan Matematika adalah ketersediaan Hasil Survei M UNCP ketepatan klasifikasi 98,18%. Interpretasi Decision Tree PM Matematika 6 0 6 276 0 276 *PM: Pendidikan Matematika, M: Matematika fasilitas prodi. DAFTAR PUSTAKA Neapolitan, R.E. (2008), Learning Bayesian Perbandingan Ketepatan klasifikasi Naïve Networks, Pearson Bayes dan Decision Tree Newhaven, Connecticut. Prentice Hall, Persentase ketepatan klasifikasi metode Sunjana, (2010), Aplikasi Mining Data Naïve Bayes yaitu 98,18% dengan nilai Mahasiswa Dengan Metode Klasifikasi Mean Square Error 0,0429. Sedangkan, Decision Tree, Seminar Nasional metode Decision Tree memiliki ketepatan 40 Yuli Hastuti (2016) Aplikasi Teknologi Informasi, Yogyakarta Webb, G.I, Boughton, J. dan Wang, Z. (2005), Not so Naïve Bayes: Aggregating One-Dependence Estimators”, Machine-Learning 58, hal.5-24. Zheng, F. dan Webb, G.I. (2005), A Comparative Study of Semi Naïve Bayes Methods in Classification Learning, Procceeding of The Fourth Australian Data Mining Conference, hal. 141-156. Zheng, F. dan Webb, G.I. (2008), Semi Naïve Bayesian Journal of Classification, Machine Learning Research, hal.1-56. Zhang, W. dan Feng, G. (2011), An Improvement to Naïve Bayes for Text Classification, Procedia Engineering 15, hal. 2160-2164. 41