Seminar Nasional Informatika 2014 PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG PEMINATAN PROGRAM STUDI SISTEM INFORMASI DI STMIK POTENSI UTAMA MEDAN Fina Nasari1 1 3 Sistem Informasi, STMIK Potensi Utama Jalan K.L. Yos Sudarso KM. 6,5 No. 3A Tanjung Mulia Medan 1 [email protected] Abstrak Saat ini mayoritas mahasiswa memilih bidang peminatan mengikuti pilihan yang diambil mayoritas temanteman satu kelas, tanpa mempertimbangkan faktor prestasi akademik mahasiswa. Hal ini berdampak pada ketidaksesuaian bidang peminatan dengan minat dan keterampilan mahasiswa tersebut, akibatnya banyak mahasiswa yang mengalami kesulitan ketika menyelesaikan tugas akhir. Penerapan algoritma C4.5 dalam pilihan bidang peminatan akan membantu dalam pengklasifikasian variable-variabel yang mempengaruhi pemilihan bidang peminatan. Algortima C4.5 adalah algoritma yang cukup efektif untuk membantu membentuk sebuah pohon keputusan, pohon keputusan tersebut kemudian akan menghasilkan sebuah pengetahuan baru. Berdasarkan hasil pengujian terhadap pohon keputusan diperoleh kecocokan data 82,14 % terhadap data pemilihan bidang peminatan. Kata kunci : Bidang Peminatan, Algoritma C4.5, Pohon Keputusan 1. Pendahuluan Bidang peminatan merupakan bagian dari kurikulum berbasis kopetensi. Bidang peminatan adalah kumpulan dari beberapa matakuliah pendukung yang akan mengantarkan Mahasiswa menuju proses penyelesaian skripsi. Adapun bidang peminatan yang ada pada program studi Sistem Informasi adalah Komputerisasi Akuntansi (SIA), Sistem Informasi Grafis(SIG) dan Sistem Bisnis Cerdas(SBC). Liliana Swastina telah menerapkan algoritma C4.5 untuk penentuan jurusan Mahasiswa, hasil yang diperoleh dalam penentuan jurusan dengan tingkat akurasi 93.31 % dan akurasi rekomendasi jurusan sebesar 82.64%[1]. Algoritma C4.5 umumnya digunakan untuk pengklasifikasian data, selain algoritma C4.5 algoritma ID3 dan K-Nearest juga dapat digunakan untuk pengklasifikasian data. Studi kinerja K-Nearest Neighbor dan C4.5 sudah dilakukan penelitian dalam menentukan kemungkinan pengunduran diri mahasiswa di STMIK AMIKOM Yogyakarta, hasil penelitian yang diperoleh adalah kinerja algoritma C4.5 lebih cepat dan akurat dibandingkan dengan algoritma K-Nearest [2]. Algoritma C4.5 memiliki tingkat ketelitian yang tinggi dalam menghasilkan sebuah keputusan, ketelitiannya hingga 94 % pada tahap pelatihan dan 93 % pada tahap uji coba [3] 30 2. KDD ( Knowledge Discovery In Database ) Menurut Fayyad dalam buku (kusrini, 2009) Istilah data mining dan knowledge discovery in database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut : 1. 2. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining disimpan dalam suatu berkas, terpisah dari basis data operasional. Pre- processing / Cleaning Sebelum proses data mining dapat dilaksanakan, perluh dilakukan proses pembersihan pada data yang menjadi focus KDD. Proses pembersihan mencakup antara lain membuang duplikasi data, memeriksa data yang inkosisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Seminar Nasional Informatika 2014 3. 4. 5. Transformation Coding adalah transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data. Data mining Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan. Interpretation / Evaluation Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya[4]. 1. Data Selection Variable yang dipakai dalam pemilihan bidang peminatan adalah IPK dari matakuliah inti semester I - V yaitu matakuliah yang berkaitan dengan keterampilan dan keahlian dalam bidang komputerisasi, IPK dari matakuliah wajib semester I-V yaitu matakuliah pengembangan kepribadian dan Keterampilan menghitung, dan jenis kelamin mahasiswa. Data penelitian yang dipakai seperti terlihat pada tabel 1. Tabel.1 Data Penelitian 2. Gambar 1. Aliran Informasi dalam data mining 3. Analisa dan Pembahasan Data penelitian ini bersarkan data pemilihan bidang peminatan program studi sistem informasi stambuk 2010 TA. 2012-2013 sebanyak 100 data. Transformation Proses transformasi yang dilakukan adalah mengklasifikasikan Atribut IPK menjadi 3 variabel yaitu “Kecil” untuk IPK < 3.00, “Sedang” untuk IPK >= 3.00 s/d IPK <= 3.5 dan “Besar” untuk IPK > 3.5. Hasil transformasi dapat dilihat pada tabel.2 31 Seminar Nasional Informatika 2014 Tabel.2 Data Transformasi (2) [4] Di mana : 1. S : Himpunan Kasus 2. A : Atribut 3. n : Jumlah Partisi S 4. pi : Proporsi dari Si terhadap S hasil perhitungan menggunakan algoritma C4.5 untuk mencari node pertama terlihat pada tabel 2. Tabel 3. Hasil Perhitungan Pencarian Node 1 3. Penerapan Algoritma C4.5 Data hasil transformasi selanjutnya dianalisa untuk menghasilkan sebuah pohon keputusan dengan menggunakan algoritma C4.5, secara umum algortima C4.5 untuk membangun pohon keputusan adalah sebagai berikut: 1. Perhitungan Entropy dan Gain 2. Pemilihan Gain tertinggi sebagai akar ( Node ) 3. Ulangi proses perhitungan Entropy dan Gain untuk mencari cabang sampai semua kasus pada cabang memiliki kelas yang sama yaitu pada saat semua variabel telah menjadi bagian dari pohon keputusan atau masing –masing variabel telah memiliki daun atau keputusan. 4. Membuat Rule berdasarkan pohon keputusan. Sesuai dengan hasil perhitungan algoritma C4.5 mencari node 1 atau node akar, variable JK atau Jenis kelamin mejadi varibel akar. Proses perhitungan algoritma C4.5 dilanjutkan hingga semua atribut sudah memiliki keputusan. Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atributatribut yang ada. Untuk menghitung gain digunakan rumus sebagai berikut: a. (1) [4] Di mana : 1. S : Himpunan Kasus 2. A : Atribut 3. n : Jumlah Partisi Atribut A 4. |Si| : Jumlah Kasus pada Partisi ke-i 5. |S| : Jumlah Kasus dalam S Sementara itu, perhitungan nilai entropy dapat dilihat pada persamaan berikut ini: 32 4. Uji Coba Uji coba sistem menggunakan tool Weka 35-5. Hasil proses klasifikasi dengan algoritma Id3 menghasilkan keputusan yang menjadi atribut akar adalah jenis kelamin dan menghasilkan pengetahuan sebagai berikut: b. c. d. e. f. Jika JK=LK and IPK_Wajib = Sedang and IPK_Inti = Sedang Then Peminatan = Sistem Bisnis Cerdas Jika JK=LK and IPK_Wajib = Sedang and IPK_Inti = Besar Then Peminatan = Sistem Bisnis Cerdas Jika JK=LK and IPK_Wajib = Sedang and IPK_Inti = Kecil Then Peminatan = Sistem Bisnis Cerdas Jika JK=LK and IPK_Wajib = Besar Then Peminatan = Sistem Informasi Geografis Jika JK=LK and IPK_Wajib = Kecil and IPK_Inti = Sedang Then Peminatan = Sistem Informasi Geografis Jika JK=LK and IPK_Wajib = Kecil and IPK_Inti = Kecil Then Peminatan = Sistem Informasi Geografis Seminar Nasional Informatika 2014 g. h. i. j. k. l. m. Jika JK=Pr and IPK_Inti = Sedang and IPK_Wajib = Sedang Then Peminatan = Sistem Informasi Akuntansi Jika JK=Pr and IPK_Inti = Sedang and IPK_Wajib = Besar Then Peminatan = Sistem Informasi Akuntansi Jika JK=Pr and IPK_Inti = Sedang and IPK_Wajib = Kecil Then Peminatan = Sistem Bisnis Cerdas Jika JK=Pr and IPK_Inti = Besar and IPK_Wajib = Sedang Then Peminatan = Sistem Bisnis Cerdas Jika JK=Pr and IPK_Inti = Besar and IPK_Wajib = Besar Then Peminatan = Sistem Bisnis Cerdas Jika JK=Pr and IPK_Inti = Besar and IPK_Wajib = Kecil Then Peminatan = Sistem Bisnis Cerdas Jika JK=Pr and IPK_Inti = Kecil Then Peminatan = Sistem Informasi Geografis Tabel 4 Data Uji Coba Hasil pengujian terhadap data pemilihan pemintan stambuk 2011 diperoleh kecocokan hingga 80.14 %. 5. Kesimpulan dan Saran Dalam penelitian ini dapat ditarik kesimpulan sebagai berikut: 1. Berdasarkan perhitungan menggunakan algoritma C4.5 diperoleh factor dominan seseorang memilih bidang peminatan adalah berdasarkan nilai JK dengan tingkat kecocokan data hingga 80.14%. 2. Variable penelitian ini masih melihat data nilai dan jenis kelamin, untuk pengembangannya perlu dilihat juga minat dan bakat dari mahasiswa yang akan memilih peminatan, sehingga pemilihan peminatan akan lebih tepat. Gambar 2. Pohon Keputusan Yang Dihasilkan Uji coba dilakukan dengan menggunkan data pemilihan bidang peminatan 100 mahasiswa stambuk 2011. Data uji coba dapat dilihat pada tabel 3. Daftar Pustaka: [1] [2] Badan Pusat Statistik, (2013). Listrik yang Didistribusikan Kepada Pelanggan Menurut Kelompok Pelanggan (GWh), Medan Kusrini,dkk (2009). Perbandingan Metode Nearest Neighbor dan 33 Seminar Nasional Informatika 2014 [3] 34 Algoritma C4.5 Untuk Menganalisis Kemungkinan Pengunduran Diri Calon Mahasiswa Di STMIK AMIKOM YOGYAKARTA, JURNAL DASI ISSN: 1411-3201 Vol. 10 No. 1 Maret 2009 Anand, Dr. Sheila and K. Ranjesh, (2011), Analyst Of Seer Dataset For Breast Cancer Diagnosis Using C4.5 Classification Algorithm, International Journal of Advanced Research in Computer and Communication [4] Engineering Vol. 1, Issue 2, April 2012, Thandhalam Kusrini, (2009). Algoritma Data Mining, Andi Offcet, Yogyakarta