Penelitian Pemula LAPORAN KEMAJUAN PENELITIAN PEMULA PENGGUNAAN EDUCATIONAL DATA MINING (EDM) UNTUK MENDETEKSI KETERLAMBATAN MASA STUDI MAHASISWA (STUDI KASUS UDINUS) Dibiayai oleh DIKTI dengan No. Kontrak 023/A.35-02/UDN.09/V/2016 Tahun Anggaran 2015/2016 (Ketua) Defri Kurniawan, M.Kom (Anggota 1) Wibowo Wicaksono, S.T, M.Kom (Anggota 2) Yani Parti Astuti, S.Si, M.Kom NIDN: 0613128502 NIDN: 0629107603 NIDN: 0606107401 Universitas Dian Nuswantoro Semarang 2016 HALAMAN PENGESAHAN RINGKASAN Setiap universitas pasti mempunyai target kualitas dalam hal pendidikan, salah satunya adalah masa studi mahasiswanya. Semakin banyak mahasiswa yang lulus tepat waktu, maka bisa dikatakan bahwa universitas tersebut mempunyai sistem pengajaran yang baik. Untuk itu semua universitas pasti akan berupaya terus agar mahasiswanya bisa lulus tepat waktu. Dalam hal ini terdapat beberapa cara untuk melakukan pengolahan data, salah satunya dengan pendekatan Education Data Mining (EDM). Pendekatan ini dilakukan untuk memprediksi kinerja akademik dengan cara klasifikasi. Metode klasifikasi yang digunakan adalah Metode Decision Tree (Pohon Keputusan) dengan Algoritma C4.5 digunakan untuk menemukan pola (pattern) klasifikasi terhadap penggolongan masastudimahasiswayaitu tepat waktu atau tidak tepat. Datayang diperoleh dari program studiTeknikInformatika S-1 UDINUS dengan menggabungkan data profil mahasiswa dan data akademik mahasiswa dari tahun 2008 sampai dengan 2012. Penggunaan Algoritma C4.5 mampu menunjukkan hasil pola klasifikasi kinerja akademik mahasiswamelalui pohon keputusan yang terbentuk dan memberikan tingkat akurasi klasifikasi yang baik yaitu mencapai 73,68% (tujuh puluh tiga koma enam delapan persen). Dalam penelitian ini akan menghasilkan luaran berupa satu jurnal nasional ber-ISSN pada Unwahas bernama Jurnal Ilmiah Momentum, prosiding Seminar Nasional di Universitas PGRI Semarang (UPGRIS) dan satu materi / bahan ajar dengan format power point tentang Algoritma C 45 pada mata kuliah data mining. Kata Kunci: Masa Studi Mahasiswa, Educational Data Mining, Data Mining, Algoritma C4.5 PRAKATA Puji syukur kehadirat Allah SWT. Shalawat dan salamselalu tercurahkan kepada Rasulullah SAW. Berkat limpahan dan rahmat-Nya sehingga penyusun mampu menyelesaikanpenelitian dosen pemula ini.Dalam penyusunan laporan ini,tidak sedikit hambatan yang penulis hadapi. Namun penulis menyadari bahwa kelancaran dalam penyusunan materi ini tidak lain berkat bantuan, dorongan, dan bimbingan rekan kerja, sehingga kendala-kendala yang penulis hadapi teratasi.Penelitian ini disusun agar pembaca dapat memperluas ilmu tentang data mining terutama algoritma, yang penulis sajikan berdasarkan pengamatan dari berbagai sumber informasi, referensi, dan berita.Penelitian ini disusun oleh penyusun dengan berbagai rintangan.Baik itu yang datang dari diri penyusun maupun yang datang dari luar.Namun dengan penuh kesabaran dan terutama pertolongan dari Allah akhirnya penelitian ini dapat terselesaikan.Semoga penelitian ini dapat memberikan wawasan yang lebih luas dan menjadi sumbangan pemikiran kepada pembaca khususnya para mahasiswa dan dosenseluruh Indonesia.Penulis sadar akan kekurangan dan ketidak sempurnaan dalam penulisan laporan ini.Oleh karena itu, penulis meminta masukan dan saran demi perbaikan pembuatan penelitian di masa mendatang. Semarang, Agustus 2016 Penyusun DAFTAR ISI Halaman Pengesahan ............................................................................................................ iv PRAKATA ........................................................................................................................... vi DAFTAR ISI ....................................................................................................................... vii DAFTAR TABEL .................................................................................................................. 1 BAB 1. PENDAHULUAN ..................................................................................................... 2 1.1 Latar Belakang Masalah ................................................................................... 2 1.2 Rumusan Masalah ............................................................................................ 3 1.3 Tujuan Penelitian ............................................................................................. 4 1.4Urgensi Penelitian ............................................................................................. 4 1.5 Luaran Yang Diharapkan ................................................................................. 4 BAB 2. STUDI PUSTAKA .................................................................................................... 5 2.1 Data Mining..................................................................................................... 5 2.2Algoritma C4.5 ................................................................................................. 8 2.3 Penelitian Serupa yang Pernah Dilakukan Sebelumnya .................................. 10 BAB 3 TUJUAN DAN MANFAAT PENELITIAN ............................................................. 11 3.1. Metode Penelitian ................................................................................... 11 3.2. Manfaat Penelitian .................................................................................. 11 BAB 4. METODE PENELITIAN ........................................................................................ 12 4.1 Metode Penelitian .......................................................................................... 12 4.2 Tahapan, Luaran, dan Indikator Penelitian ..................................................... 12 4.3 Desain Penelitian .......................................................................................... 13 4.4 Metode yang Diusulkan ................................................................................. 14 5.1 Laporan Kemajuan Penelitian ..................................................................... 16 5.1.1 Indikator Pencapaian ................................................................................... 16 5.1.2 5.2 Laporan Kemajuan .................................................................................. 16 Implementasi Hasil Penelitian .................................................................... 17 DAFTAR PUSTAKA ............................................................................................................ 1 LAMPIRAN-LAMPIRAN ..................................................................................................... 3 Lampiran 1. Justifikasi Penggunaan Anggaran Penelitian ...................................... 3 Lampiran 1 Susunan Organisasi Tim Peneliti dan Pembagian Tugas ...................... 5 Lampiran 2 Biodata Ketua Pelaksana ..................................................................... 5 Lampiran 3 Biodata Anggota Peneliti .................................................................... 8 Lampiran 5 Biodata Anggota Peneliti .................................................................. 11 Lampiran 6 Makalah pada Seminar di UPGRIS ................................................... 13 Lampiran 7 Draf Materi Bahan Ajar Algoritma C4.5 Data Mining ...................... 21 DAFTAR GAMBAR Gambar 1Data Mining Roots ................................................................................................. 6 Gambar 2 Contoh konsep pohon keputusan untuk menentukan pembelian komputer berdasarkan atribut age, student dan credit rating.................................................................. 8 Gambar 3Metode Penelitian ................................................................................................ 12 Gambar 4Desain Penelitian ................................................................................................. 14 Gambar 5 Hasil Pengolahan Data Awal ............................................................................... 17 Gambar 6 Hasil Classification Accuracy (CA) Algoritma C4.5 ........................................... 18 Gambar 7 Hasil Tabel Confusion Matrix Algoritma C4.5 .................................................... 18 DAFTAR TABEL Tabel 1Penelitian terkait....................................................................................................... 10 Tabel 2Tahapan, Luaran, dan Indikator Penelitian yang Akan Dilakukan ............................. 13 Tabel 3Confussion Matrix .................................................................................................... 15 Tabel 4Uraian Laporan Kemajuan ........................................................................................ 16 BAB 1. PENDAHULUAN 1.1 Latar Belakang Masalah Universitas Dian Nuswantoro (UDINUS) memiliki Fakultas Ilmu Komputer (Fasilkom) yang merupakan fakultas terbesar dari 4 (empat) fakultas yang ada.Hal ini dapat dilihat dari jumlah program studi yang ada, Fasilkom memiliki 6 (enam) program studi.Salah satu program studi dengan mahasiswa terbesar ada pada Teknik Informatika S-1.Jumlah mahasiswa yang besar tersebut harus dapat diimbangi dengan kualitas sistem pendidikan yang diberikan kepada mahasiswa. Salah satu cara untuk mencapai tingkat kualitas tertinggi dalam sistem pendidikan tinggi adalah dengan menemukan pengetahuan dari data pendidikan untuk mempelajari atribut utama yang dapat mempengaruhi kinerja siswa (Abu Tair & Al-Helees, 2012). Atribut masa studi merupakan hal penting bagi pengelola akademik, bagaimana mahasiswa dapat lulus dengan tepat waktu merupakan suatu upaya yang terus dilakukan. Masih banyaknya mahasiswa yang tidak lulus tepat waktu merupakan masalah serius bagi universitas. Dengan dapat memprediksi masa studi mahasiswa yang tidak tepat waktu, pihak universitas dapat meminimalisir kegagalan kelulusan mahasiswa dengan membuat perencanaan, pengawalan studi dan bimbingan lebih intensif. Menganalisa kinerja mahasiswa (student performance), mengidentifikasi keunikan-keunikan yang ada pada mahasiswa dan membangun suatu strategi pengembangan lebih lanjut dan tindakan-tindakan di masa depan, merupakan tantangan utama bagi universitas modern saat ini(Kabakchieva, 2013). Data miningdapat diusulkan sebagai salah satu pendekatan yang dapat dilakukan untuk memprediksi kinerja siswa (Osmanbegovic & Suljic, 2012).Hal ini didukung dengan adanya data yang melimpah pada universitas.Data mining merupakan suatu cara dalam menggali informasi dari sejumlah data yang biasanya tersimpan dalam repositori dengan menggunakan teknologi pengenalan pola, statistik dan teknik matematika(Larose, 2006).Penerapan metode data miningdalam menganalisis data yang tersedia di lembaga pendidikan didefinisikan sebagai Educational Data Mining (EDM)(Romero & Ventura, 2007). Dan merupakan suatu aliran yang relatif baru dalam penelitian data mining.EDM menggunakan beberapa teknik sepertiDecision Trees, Neural Networks, Naïve Bayes, KNearest Neighbordan lainnya(Yadav & Pal, 2012). EDM berkaitan dengan pengembangan metode untuk mengeksplorasi jenis yang unik dari data-data pada pengelolaan pendidikan dan menggunakannya untuk lebih memahami siswa dan pengelolaannya(Baker, 2010).Pengetahuan yang ditemukan dari data mining dapat digunakan untuk menawarkan suatu rekomendasi kepada perencana akademik di lembaga pendidikan tinggi dalam meningkatkan proses pengambilan keputusan (decision making), meningkatkan kinerja akademik dan memangkas tingkat kegagalan siswa serta lebih memahami perilaku para siswa(Abu Tair & Al-Helees, 2012). Hal tersebutmerupakan tujuan-tujuan yang ingin dicapai dalam pemanfaatan data mining di bidang pendidikan. Penetian mengenai data mining pada lembaga pendidikan telah banyak dilakukan oleh para peneliti.Dorina Kabakchieva melakukan penelitian yang bertujuan untuk menganalisis kinerja algoritma klasifikasi data mining yang berbeda menggunakan Decision Tree classifier, Bayes classifiers dan Nearest Neighbour classifier pada University of National and World Economy (UNWE), Bulgaria (Kabakchieva, 2013). Hasil performa pengklasifikasi menunjukkan bahwa klasifikasi pohon keputusan / Decision Tree classifier (J48) memiliki akurasi keseluruhan tertinggi, diikuti oleh rule learner (JRip) dan k-NN classifier serta Bayes classifier kurang akurat daripada yang lain. Penelitian yang lainyaitu Marselina Silvia Suhartinah dan Ernastuti melakukan penelitian untuk memprediksi mahasiswa yang lulus atau tidak lulus sesuai dengan waktu studi menggunakan algoritma C4.5 dan Naive Bayes serta membandingkan hasil akurasi kedua algoritma tersebut(Suhartinah & Ernastuti, 2010). Hasil penelitian ini, menunjukkan bahwa akurasi algoritma C4.5 lebih baik 85,7% dari Naive Bayes80,85%. Pada penelitian Surjeet Kumar Yadav dan Saurabh Pal membandingkan metode pengklasifikasi Decision Tree ID3, CART dan C4.5 untuk memprediksi performas siswa (Yadav & Pal, 2012).Hasil penelitian menunjukkan bahwa algoritma C4.5 memiliki akurasi tertinggi dari algoritma ID3 dan CART serta algoritma C4.5 menunjukkansebagai model yang berhasil mengidentifikasi siswa yang cenderung gagal. Dari penelitian di atas, decision treemenunjukkan keunggulan dibandingkan dengan algoritma yang lain. Karena pada algoritma C4.5setiap nilai dalam suatu atribut ditelusuri dan diproses untuk mendapatkan entropi masing-masing nilai yang akan digunakan untuk mencari ukuran purity masing-masing atribut yang dinyatakan dengan information gain. (Suhartinah & Ernastuti, 2010)Proses penelusuran ini akan membentuk sebuah pola berupa pohon keputusan. Dari keunggulan-keunggulan di atas, pada penelitian ini algoritma C4.5 diusulkan untuk memprediksi masa studi mahasiswa di program studi Teknik Informatika S-1 UDINUS. 1.2 Rumusan Masalah Berdasarkan latar belakang di atas, didapatkan rumusan masalah meliputi: Sulitnya memahami dan menemukan pola studi mahasiswa terhadap atribut data mahasiswa dan data perkuliahan yang berpengaruh pada masa studi mahasiswa dalam jumlah data besar. Pertanyaan penelitian: Atribut manakah yang merupakan penentu, mahasiswa dapat lulus tepat waktu atau tidak apabila algoritma C4.5 diterapkan dalam membangun pohon keputusan? 1.3 Tujuan Penelitian Penelitian ini bertujuan untuk: 1. Menerapkan pendekatan data mining dengan menggunakan algoritma C4.5 untuk memprediksi masa studi mahasiswa di program studi Teknik Informatika S-1 UDINUS. 2. Menemukan suatu pola berupa pohon keputusan yang dapat membantu universitas dalam proses pengambilan keputusan sebagai antisipasi kegagalan studi mahasiswa. 1.4Urgensi Penelitian Mengingat kelulusan merupakan suatu upaya yang menjadi target dalam kegiatan belajar mengajar. Maka menemukan faktor yang mempengaruhi kelulusan mahasiswa menjadi penting. Faktor apa yang menjadi parameter dalam menentukan mahasiswa bisa lulus tepat waktu atau tidak. Sehingga pihak akademik / pengelola kampus dapat membuat strategistrategi atau kebijakan-kebijakan tertentu dalam meningkatkan kinerja mahasiswa. 1.5 Luaran Yang Diharapkan Secara spesifik luaran yang akan dicapai pada penelitian ini, yaitu: 1. Bahan Ajar Perkuliahan Hasil penelitian ini dapat digunakan sebagai studi kasus dalam perkuliahan data mining. 2. Publikasi Ilmiah Hasil penelitian ini akan dipublikasikan secara ilmiah melalui konferensi nasional dan dalam jurnal ilmiah terakreditasi. BAB 2. STUDI PUSTAKA 2.1Data Mining Data mining merupakan suatu cara dalam penggalian informasi dari sejumlah data yang biasanya tersimpan dalam repositori dengan menggunakan teknologi pengenalan pola, statistik dan teknik matematika (Larose, 2006). Penggunaan data mining telah muncul untuk diterapkan di berbagai bidang, baik dari bidang akademis, bisnis ataupun kegiatan medis pada khususnya(Gurunescu, 2011). Secara umum, data mining dikenal dengan proses penggalian data. Data mining diperlukan untuk mengungkapkan informasi yang tersembunyi, dimana adanya keterbatasan kemampuan analisis manusia dan cara tradisional yang dilakukan(Gurunescu, 2011). Tekanan adanya metode baru ini muncul, seiring dengan berkembangnya ilmu komputer dan kemampuan komputasi.Data mining juga dikenal sebagai "knowledgediscovery in databases"(KDD), memiliki tiga akar generik meliputi(Gurunescu, 2011): 1. Statistik Merupakan akar tertua, tanpa adanya statistik data mining tidak akan pernah ada. Pada statistik terdapat teknik analisis yaitu Exploratory Data Analysis (EDA)yang digunakan untuk mengidentifikasi hubungan antara variabel yang berbeda. Teknik EDA pada data mining bisa disebutkan dengan: Metode Komputasi (computational methods) yaitu dengan adanya parameter statistik klasik meliputi means, median, standar deviasi, dan lain-lain. Teknik eksplorasi multivariant (analisis klaster, faktor analisis, analisis komponen utama dan klasifikasi,analisis diskriminan, pohon klasifikasi, analisis korespondensi), advanced linear / non linier models (linear / non-linear regresi, time series / peramalan dan lainlain). Visualisasi Data (Data Visualization) bertujuan untuk mewakili informasi dalam bentuk visual. Di antara teknik-teknik visualisasi yang paling umum, dapat ditemukan: histogram dari segala jenis (kolom, silinder, kerucut, piramida, pie, bar, dan lain-lain), kotak plot, scatter plot, plot kontur, plot matriks. 2. Kecerdasan Buatan (Artificial Intelligence) Kecerdasan Buatan memberikan kontribusi dengan teknik pengolahaninformasi yang mendasarkan pada penalaran model manusia terhadap pengembangan data mining. Terkait dengan Kecerdasan Buatan, Machine Learning (ML) merupakan disiplin ilmu yang sangat penting dalam pembangunan data mining. ML menggunakan teknik yang memungkinkan mesin dalam hal ini komputer untuk belajar melalui suatu proses training ataupelatihan. Dalam konteks ini, dapat dipertimbangkan pula Natural Computing (NC) sebagai akar tambahan yang kuat untuk data mining. 3. Sistem Basis Data (Database Systems) Dianggap sebagai akar ketiga pada data mining, menyediakan informasi yang akan 'ditambang' menggunakan metode-metode yang disebutkan di atas. Artificial Intelligence Machine Learning Statistics Natural Computing DATA MINING Database Systems Gambar 1Data Mining Roots Keperluan akandata mining dapat terlihat pada area atau sektor kehidupan nyata yang membutuhkan teknik-teknik investigasi tersebut yaitu: Ekonomi (Bisnis-Keuangan) Ada sejumlah besar data yang telah dikumpulkan di berbagai bidang seperti: data web, e-commerce, super / hypermarket data, keuangan dan transaksi perbankan, dll, siap untuk dianalisis dalam rangka mengambil keputusan yang optimal. Perawatan Kesehatan Saat ini terdapat banyak database dalam perawatan kesehatan baik dari medis maupun dari farmasi. Namun sebagian hanya dianalisis, terutama dengan adanya alat medis tertentu yang berisi informasi yang besar namun tidak cukup dieksplorasi. Penelitian Ilmiah Ada database besar dikumpulkan selama bertahun-tahun di berbagai bidang baik pada astronomi, meteorologi, biologi, linguistik, dan lain-ainl yang tidak dapat dieksplorasi dengan cara tradisional. Proses ‘penambangan data’ dapat diidentifikasi dengan tiga langkah karekteristik dari proses data mining yang meliputi(Gurunescu, 2011): 1. Eksplorasi Data (Exploring data) Penjelajahan data yang terdiri dari cleaning atau pembersihan data, transformasi data, dimensi pengurangan, seleksi fitur subset dan lain-lain. 2. Membangun Model dan Melakukan Validasi (Building the model and its validation) Membangun modeldan melakukan validasi yang mengacu pada analisis dari berbagai modeldan memilih yang memiliki kinerja terbaik dari perkiraan model evaluasi yang kompetitif. 3. Menerapkan (Applying) Menerapkan model data baru untuk menghasilkan perkiraan yang benar/perkiraan untuk masalah yang diselidiki. Data mining dapat digunakan untuk menyelesaikan tugas – tugas yang paling umum, berhubungan dengan tugas seperti (Larose, 2006): 1. Description (Deskripsi) Hasil dari data mining dapat menjelaskan pola yang ditemukan dengan jelas yang mengarah pada suatu hasil yang transparan dengan berbagai metode yang dapat digunakan. 2. Estimation (Estimasi) Model yang dibagun menggunakan catatan lengkap yang memberikan nilai dari variabel sasaran serta prediktornya.Ketika ada pengamatan baru, perkiraan dari nilai variabel target yang dibuat didasarkan pada nilai-nilai prediktornya. 3. Prediction (Peramalan) Prediksi mirip dengan klasifikasi dan estimasi, hal ini dapat dilihat dari metode dan teknik yang digunakan untuk klasifikasi dapat juga digunakan untuk memprediksi suatu keadaan dengan tepat. 4. Classification (Klasifikasi) Pada tugas klasifikasi ada variabel target yang dibuat kategoris, misalkan variabel pendapatan dapat dikategorikan menjadi tiga kelas: pendapatan tinggi, menengah dan rendah. Ketika ada data baru untuk mengklasifikasikan data tersebut masuk kategori yang mana. Maka dengan menggunakan algoritma akan memeriksa variabel prediktor kemudian menggolongkan data baru tersebut pada suatu klasifikasi. 5. Clustering (Pengelompokan) Clustering berbeda dengan klasifikasi, dimana clustering tidak punya tujuan untuk mengklasifikasi, estimasi, atau prediksi.Clustering mencoba untuk mengelompokkan segmen dari beberapa data yang memiliki suatu kesamaan / homogen. 6. Association (Asosiasi) Tugas asosiasi adalah menemunkan suatu pola dari hubungan beberapa variabel.Dalam dunia bisnis lazim dikenal dengan Market Based Analysis.Dengan aturan dari asosiasi yaitu “if antecedent, then consequent”. 2.2Algoritma C4.5 Pohon keputusan mirip sebuah sebuah struktur pohon dimana terdapat node internal (bukan daun) yang mendeskripsikan atribut-atribut, setiap cabang menggambarkan hasil dari atribut yang diuji, dan setiap daun menggambarkan kelas. Pohon keputusan bekerja mulai dari akar paling atas, jika diberikan sejumlah data uji, misalnya X dimana kelas dari data X belum diketahui, maka pohon keputusan akan menelusuri mulai dari akar sampai node dan setiap nilai dari atribut sesuai data X diuji apakah sesuai dengan aturan pohon keputusan, kemudian pohon keputusan akan memprediksi kelas dari tupel X (Firmansyah, 2011). Gambar 2 Contoh konsep pohon keputusan untuk menentukan pembelian komputer berdasarkan atribut age, student dan credit rating. Gambar 2 menggambarkan pohon keputusan untuk memprediksi apakahseseorang membeli komputer. Node internal disimbolkan dengan persegi, cabangdisimbolkan dengan garis, dan daun disimbolkan dengan oval. Algoritma C4.5 dan pohon keputusan merupakan dua model yang takterpisahkan, karena untuk membangun sebuah pohon keputusan, dibutuhanalgoritma C4.5. Di akhir tahun 1970 hingga di awal tahun 1980-an, J. RossQuinlan seorang peneliti di bidang mesin pembelajaran mengembangkan sebuahmodel pohon keputusan yang dinamakan ID3 (Iterative Dichotomiser), walaupunsebenarnya proyek ini telah dibuat sebelumnya oleh E.B. Hunt, J. Marin, dan P.T.Stone. Kemudian Quinlan membuat algoritma dari pengembangan ID3 yangdinamakan C4.5 yang berbasis supervised learning. Ada beberapa tahap dalam membuat sebuah pohon keputusan denganalgoritma C4.5 (Kusrini & Luthfi, 2009), yaitu : 1. Menyiapkan data training. Data training biasanya diambil dari data histori yangpernah terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelastertentu. 2. Menentukan akar dari pohon. Akar akan diambil dari atribut yangterpilih,dengan cara menghitung nilai Gain dari masing-masing atribut, nilaiGain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitungnilai Gain dari atribut, hitung dahulu nilai entropy yaitu : Keterangan : S : himpunan kasus n : jumlah partisi S pi: proporsi dari Si terhadap S 3. Kemudian hitung nilai Gain dengan metode information gain : ( , )= ( )− | | ∗ | | Keterangan : S : himpunan kasus A : atribut n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S 4. Ulangi langkah ke-2 hingga semua tupel terpartisi. 5. Proses partisi pohon keputusan akan berhenti saat : ( ) a. Semua tupel dalam node N mendapat kelas yang sama. b. Tidak ada atribut di dalam tupel yang dipartisi lagi. Tidak ada tupel di dalam cabang yang kosong. 2.3 Penelitian Serupa yang Pernah Dilakukan Sebelumnya Penelitian yang dilakukan dengan menggunakan pendekatan data mining untuk memprediksi kinerja siswa (student performance) telah dilakukan oleh peneliti-peneliti sebelumnya. Berikut merupakan beberapa penelitian terkait baik international maupun nasional yang pernah dilakukan, meliputi: Tabel 1Penelitian terkait Tahun Peneliti 2012 Surjeet Kumar Yadav dan Saurabh Pal Judul Penelitian Publikasi Data Mining A Prediction forPerformance World of Computer Improvement ofEngineering Students Science and usingClassification Information Technology Journal (WCSIT) 2012 Edin Data mining approach for predicting Economic Review – Osmanbegović student performance Journal of Economics dan Mirza and Business Suljić 2013 2010 Dorina Predicting Student Performance by Cybernetics And Kabakchieva Using Data Mining Methods for Information Classification Technologies Diana Laily Sistem Pendukung Keputusan Untuk Prosiding SNATIF Ke-1 Fithri dan Eko Memprediksi KelulusanMahasiswa Tahun 2014 Darmanto Menggunakan Metode Naïve Bayes BAB 3 TUJUAN DAN MANFAAT PENELITIAN 3.1. Metode Penelitian Penelitian ini mempunyai tujuan utama untuk mengetahui kinerja Algoritma C 45 untuk memprediksi kelulusan mahasiswa.Dalam hal ini dibutuhkan beberapa variable untuk mengevaluasi algoritma tersebut. Untuk itu penulis menggunakan data mahasiswa Universitas Dian Nuswantoro sebagai studi kasus sehingga penelitian ini bisa bermanfaat dalam waktu sekarang dan masa yang akan datang. 3.2. Manfaat Penelitian Bagi Pembaca Memperkenalkan Algoritma C4.5 sebagai algoritma yang bisa digunakan sebagai masalah prediksi. Diharapkan dapat digunakan sebagai sumber informasi untuk penelitian lebih lanjut. Dapat dijadikan acuan sebagai materi pembanding performa Algoritma C 5 dengan algoritma lain dalam hal prediksi Bagi Penulis Dengan penelitian ini diharapkan teknik tersebut menjadi sarana menerapkan materimateri yang telah didapat selama ini dan mengembangkan ilmu. Mengetahui performa Algoritma C 45 untuk masalah prediksi. Melatih penulis dalam memahami permasalahan yang ada tentang bagaimana prosedur pengolahan data yang baik dan benar berdasarkan kaedah dan aturan sistem yang ada. BAB 4. METODE PENELITIAN 4.1 Metode Penelitian Metode penelitian yang dilakukan adalah metode penelitian eksperimen dengan tahapan penelitian sebagai berikut(Santoso, 2007): PENGUMPULAN DATA Data yang dikumpulkan adalah data identitas mahasiswa dan data KRS Teknik Informatika S-1 Semester 1-8 Angkatan 2008 s.d 2011 UDINUS PENGOLAHAN AWAL DATA Data yang didapatkan selanjutnya diolah (preprocessing) dengan penerapan data integrasi dan data reduction MODEL/METODE YANG DIUSULKAN Metode menggunakan Decission Tree dengan Algoritma C4.5 EKSPERIMEN DAN PENGUJIAN MODEL Pengujian dilakukan dengan menggunakan sebagian data untuk training dansebagian lagi digunakan sebagai data testing EVALUASI DAN VALIDASI HASIL Evaluasi dilakukan dengan mengamati hasil prediksi menggunakan Algoritma C4.5 danvalidasi dilakukan dengan mengukur hasil prediksi dibandingkan dengan data asal Gambar 3Metode Penelitian 4.2 Tahapan, Luaran, dan Indikator Penelitian Bagian ini membahas mengenai tahapan yang akan dilakukan, luaran yang diharapkan. Beberapa indikator keberhasilan dapat dijabarkan pada Tabel 1: Tabel 2Tahapan, Luaran, dan Indikator Penelitian yang Akan Dilakukan Tahapan Luaran Indikator 1. Perancangan Algoritma Analisa masalah Identifikasi masalah yang ada dan Teori pendukung yang sesuai dan studi pustaka pengembangan teori pendukung dalam menyelesaikan masalah Desain Algoritma Memilih dan perancangan algoritma Kesesuaian desain algoritma yang sesuai dengan permasalahan dan dengan kebutuhan sistem dalam kebutuhan sistem penyelesaian masalah 2. Preprocessing (Pengolahan Data Awal) Data Integration Mengintegrasikan data mahasiswa Mendapatkan data utuh yaitu profil dengan data akademik (ipk, masa studi) mahasiswa beserta ipk dan masa studinya Data Reduction Mengeliminasi recordpada kolom jenis Mendapatkan data yang valid yaitu sekolah asal dan lokasi tinggal yang data yang tidak mempunyai nilai tidak terisi pada data mahasiswa kosong 3. Sampling dan Implementasi Algoritma Pengambilan Melakukan sampling data dengan Mendapatkan data untuk training Sample Data menggunakan random sampling dengan dan testing komposisi data training 80% dan data testing 20% dari data valid yang didapat Penerapan Menerapkan algoritma C4.5 dengan Mendapatkan graph pohon Algoritma C4.5 software Orange keputusan dan variabel penentu klasifikasi masa studi mahasiswa 4. Pengujian dan Evaluasi Pengujian dan Menguji dan mengevaluasi model Mendapatkan hasil nilai akurasi Evaluasi kinerja algoritma C4.5 klasifikasi algoritma C4.5 dan tabel confusion matrix 4.3 Desain Penelitian Desain penelitian ini adalahprosesperencanaanyang akandilakukan dalampenelitian. Penelitiakan memperolehinformasi lebih lanjutsehinggahipotesisyang dihasilkan dapatdiujidengan baik.Setiap tahapdibuatuntuk menentukankeberhasilanpenelitian yang dilakukan, mulai daripengumpulan datasampai dengancara memperolehpernyataanyang sahsesuaidenganhasilpengujian. Gambar 4mengilustrasikanlangkah-langkah yangakanditerapkandalam penelitian ini. Rincianinformasi yang akanditampilkan pada bagianberikut: Rumusan Masalah Sulitnya memahami dan menemukan pola studi mahasiswa terhadap atribut data mahasiswa dan data perkuliahan yang berpengaruh pada masa studi mahasiswa dalam jumlah data yang besar. Pendekatan Data Mining dengan algoritma C4.5 Implementasi Menggunakan software Orange untuk melakukan pekerjaan klasifikasi dan prediksi masa studi mahasiswa berdasarkan data identitas mahasiswa dan data krs Pengukuran Menggunakan Confussion matrix untuk mendapatkan nilai akurasi dari algoritma C4.5 Gambar 4Desain Penelitian 4.4 Metode yang Diusulkan Metode yang diusulkan dalam penelitian ini adalahDecision Treealgoritma C4.5 untuk memprediksi masa studi mahasiswa Teknik Informatika S-1 Fakultas Ilmu Komputer Universitas Dian Nuswantoro Semarang. Tahapan eksperimen pada penelitian ini adalah: 1. Menyiapkan data untuk melakukan eksperimen 2. Preprocessing data dengan mereduksi data – data yang kosong 3. Eksperimen menggunakan metode C4.5 dengan Software Orange 4. Menghitung akurasi dari penggunaan metode C4.5 5. Menganalisa hasil dari penggunaan metode C4.5 Pengujian terhadap model klasifikasi yang dihasilkan akan diukur dengan menggunakan confussion matrix. Confussion matrix merupakan alat ukur yang digunakan untuk mengukur performa klasifikasi. Dalam hal ini akan digunakan confussion matrix dua kelas sebagai berikut: Tabel 3Confussion Matrix Kelas Prediksi Kelas Aktual Kelas Tepat Kelas Tidak Tepat Waktu Waktu Kelas tepat waktu TP (True Positive) FN (False Negative) Kelas tidak tepat waktu FP(False Positive) TN (True negative) Matriks baris pertama menunjukkan data – data mahasiswa yang berada di kelas tepat waktu, di mana data yang diklasifikasikan dengan benar sejumlah TP dan jumlah data yang salah diklasifikasikan sebagai kelas tidak tepat waktu sejumlah FN. Matriks baris kedua menunjukkan data – data mahasiswa yang berada di kelas tidak tepat waktu, di mana data yang diklasifikasikan benar sejumlah TN dan jumlah data yang salah diklasifikasikan sebagai kelas tepat waktu sejumlah FP. Dari confussion matrix tersebut akan dilakukan pengukuran tentang akurasi, presisi dan recall dari model yang dihasilkan. Selanjutnya untuk dianalisa dari pengukuran tersebut. BAB V HASIL YANG DICAPAI 5.1 Laporan Kemajuan Penelitian 5.1.1 Indikator Pencapaian Adapun pencapaian yang telah didapat antara lain: a. Evaluasi Algoritma C4.5 dengan menggunakan aplikasi Orange sebesar 73,68% b. Pemaparan prosiding seminar nasional di Upgris (Universitas PGRI Semarang) pada tanggal 03 September 2016 c. Satu buah materi perkuliahan pada matakuliah data mining tentang algoritma C4.5. d. Jurnal telah terdaftar pada"MOMENTUM" (Jurnal Ilmiah yang dikelola oleh Fakultas Teknik Universitas Wahid Hasyim dengan ISSN 0216-7395) sedang dalam proses cetak 5.1.2 Laporan Kemajuan Adapun laporan kemajuan yang dapat dilaporkan antara lain: a. Kegiatan penelitian berjalan sesuai dengan jadwal penelitian yang telah ditetapkan. b. Kemajuan yang sudah diperoleh hingga laporan kemajuan disusun diuraikan pada Tabel 4. Tabel 4 Uraian Laporan Kemajuan PENYELESAIAN NO KEGIATAN 1 Permintaan Data ke Bagian Akademik (Pengumpulan Data) 2 Pengumpulan Dan Revisi Laporan Kemajuan 3 Pengolahan Data Awal 4 Eksperimen, Pengujian dan Evaluasi Model MULAI SELESAI 05-Mei 22-Jun 05-Mei 15-Mei 02-Jun CAPAIAN 100% 90% 06-Agt-16 27-Jul 100% 100% 11-Agt 5 Pembuatan Jurnal Nasional 17-Jun 06-Agt 100% 6 Pembuatan Makalah Seminar Nasional 02-Jul 05-Agt 100% 7 Pembuatan Materi Ajar Perkuliahan 19-Jul 15-Agt 100% 8 Pendaftaran dan Pemaparan Seminar Hasil 10-Agt 100% 10-Agt 5.2 Implementasi Hasil Penelitian Data yang didapat pada bagian akademik dari tahun 2008 sampai dengan 2011 sejumlah 1473 records. Data yang diperoleh diolah dengan mengintegrasikan data profil mahasiswa dengan data akademik. Data yang tidak terisi selanjutnya dieliminasi yaitu dari atribut lokasi tinggal dan nama sekolah asal (data profil mahasiswa) yang sering sekali tidak lengkap. Atribut lokasi tinggal digunakan untuk menentukan status tinggal mahasiswa Bersama Orang Tua atau Tidak Bersama Orang Tua. Atribut sekolah asal digunakan untuk mengkategorikan jenis sekolah SMA, SMK, Sekolah Lanjut, MA, Pesantren. Hasil pengolahan data awal (preprocessing) mengahasilkan data valid sejumlah 948 records. Gambar 5Hasil Pengolahan Data Awal Data valid yang telah didapatkan, selanjutnya dibagi 2 (dua) menjadi data training dan data testingdengan komposisi 80% untuk training dan 20% untuk testing. Validasi method yang digunakan untuk pengambilan data sampling, menggunakan random sampling. Dari pengolahan data tersebut, didapatkan tingkat akurasi klasifikasi (CA) algoritma C4.5sebesar 73,68% (tujuh puluh tiga koma enam delapan). Gambar 6 Hasil Classification Accuracy (CA) Algoritma C4.5 Akurasi klasifikasi didapatkan berdasarkan tabel confusion matrix. Confusion matrixmembagi data berdasarkan output kelas klasifikasi yaitu Tepat Waktu dan Tidak Tepat Waktu sepeti pada gambar dibawah ini: Gambar 7 Hasil Tabel Confusion Matrix Algoritma C4.5 BAB VI RENCANA TAHAPAN BERIKUTNYA Kegiatan selanjutnya yang akan dilakukan adalah sebagai berikut: a. Menyempurnakan hasil optimasi dari Algoritma C 45 untuk prediksi b. Submit 1 (satu) buah jurnal ke Jurnal Nasional ber-ISSN. c. Melaksanakan pemaparan hasil pada Seminar Nasional di UPGRIS tanggal 03 September 2016 d. Menyusun laporan akhir penelitian secara keseluruhan. DAFTAR PUSTAKA Abu Tair, M. M., & Al-Helees, A. M. (2012). Mining Educational Data to Improve Students’ Performance: A Case Study. International Journal of Information and Communication Technology Research , 2. B.K, B., & S, P. (2011). Data Mining: A prediction for performance improvement using classification. International Journal of Computer Science and Information Security (IJCSIS) , 9 (4), pp. 136-140. Baker, R. (2010). Data Mining for Education (3rd Edition ed.). UK: Elsevier. Firmansyah. (2011). Penerapan Algoritma Klasifikasi C4.5 Untuk Penentuan Kelayakan Pemberian Kredit Koperasi. Gurunescu, F. (2011). Data Mining Consepts, Models and Techniques (Volume 12 ed.). Verlag Berlin Heidelberg, Germany: Springer. Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques (2nd ed.). San Francisco, United State America: Morgan Kaufmann Publishers. J. R, Q. (1992). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, Inc. Kabakchieva, D. (2013). Predicting Student Performance by Using Data Mining. Cybernetics and Information Technologies . Kusrini, & Luthfi. (2009). Algoritma Data Mining. Yogyakarta: Andi Publishing. Larose, D. T. (2006). Data Mining Methods and Models. Hoboken, New Jersey, United State of America: John Wiley & Sons, Inc. Osmanbegovic, E., & Suljic, M. (2012). Data Mining Approach For Predicting Student Performance. Journal of Economics and Business , X (1). Pandey, U., & Pal, S. (2011). Data Mining: A prediction of performer or underperformer using classification. (IJCSIT) International Journal of Computer Science and Information Technology , 2(2) (ISSN:0975-9646), 686-690. Romero, C., & Ventura, S. (2007). Educational Data Mining: A Review of the Stateof-the-Art. IEEE Transactions On Systems, Man, And Cybernatics . Santoso, B. (2007). Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. Suhartinah, M. S., & Ernastuti. (2010). Graduation Prediction Of Gunadarma University Students Using C4.5 Algorithm And Naive Bayes Algorithm. Yadav, S. K., & Pal, S. (2012). Data Mining A Prediction for Performance Improvement of Engineering Students using Classification. World of Computer Science and Information Technology Journal (WCSIT) , 2, 51-56. Z. J, K. (2010). Early prediction of student success: Mining student enrollment data. Proceedings of Informing Science & IT Education Conference. LAMPIRAN-LAMPIRAN Lampiran 1.Justifikasi Penggunaan Anggaran Penelitian 1. Honor Honor Honor/ Jam (Rp) Waktu (Jam/Minggu) Minggu Honor per Tahun Ketua 19.000,- 2 jam 32 minggu 1.216.000 Anggota 1 17.500,- 2 jam 32 minggu 1.120.000 Anggota 2 17.500,- 2 jam 32 minggu 1.120.000 Sub Total (Rp) 3.456.000 Harga Satuan (Rp) 2. Peralatan Penunjang Material Justifikasi Jumlah Harddisk External 1 Tb Pengambilan data mahasiswa dan data akademik lima tahun 1 buah 873.000,- Harga total Peralatan (Rp) 873.000,- Flash disk 16 GB Perpindahan data 2 buah 55.000,- 110.000,- Log Book Mencatat eksperimen dan diskusi 2 buah 45.000,- 90.000,- Soddim Memory 4 GB Peningkatan pengolahan data dan hasil eksperimen komputasi 1 buah 400.000,- 400.000,- Modem USB Akses Internet di Luar Kantor 1 buah 300.000,- 300.000,- Folder File Penyimpanan berkas-berkas penting 3 buah 45.000,- 135.000,- Stopmap Manajemen berkas-berkas file 5 buah 10.000,- 50.000,- Sub Total (Rp) 1.958.000 3. Bahan Habis pakai Material Justifikasi Jumlah Harga Satuan (Rp) Harga total Catridge printer hitam Mencetak laporan dan dokumentasi 2 buah 180.000,- Peralatan (Rp) 360.000,- Catridge printer warna Mencetak laporan dan dokumentasi 1 buah 200.000,- 200.000,- Kertas A4 80gram Mencetak laporan dan dokumentasi 3 rim 40.000,- 120.000,- Jilid Laporan Menjilid Laporan penelitian 6 buah 20.000,- 120.000,- Pulsa Internet Akses internet di luar kantor 8 bulan x 3 orang 52.000,- 1.248.000,- Materai Pengesahan Laporan 10 Lembar 7.000,- 70.000,- Konsumsi Koordinasi dan komunikasi 8 bulan x 3 orang 30.000,- 720.000,- Pulsa HP Koordinasi dan komunikasi 8 bulan x 3 orang 52.000,- 1.248.000,- Sub Total (Rp) 4.086.000 4. Perjalanan Kegiatan Justifikasi Perjalanan publikasi Tranportasi publikasi (pulang pergi) Perjalanan dalam kota Transportasi kegiatan sehari-hari Jumlah Harga Satuan (Rp) Harga total Peralatan (Rp) 2 x 1 orang 200.000,- 400.000,- 3 orang 300.000,- 900.000,- Sub Total (Rp) 1.300.000,- 5. Lain-lain Kegiatan Seminar nasional Keterangan Publikasi hasil penelitian Jumlah 1 kali Harga Satuan (Rp) Harga total Peralatan (Rp) 800.000,- 800.000,- Sub Total (Rp) 800.000,- TOTAL ANGGARAN YANG DIPERLUKAN SELURUH TAHUN (Rp) 11.600.000,- Lampiran 1 Susunan Organisasi Tim Peneliti dan Pembagian Tugas No. Nama/NIDN Instansi Bidang Ilmu Alokasi Waktu Asal 1. Defri Kurniawan, M.Kom Uraian Tugas (Jam/Minggu) UDINUS Sistem / 2 jam Cerdas (SC) Ketua, riset dan pengujian sistem 2. Yani Parti Astuti,S.Si., UDINUS Sistem M.Kom. / 060610 2 Jam Cerdas (SC) Pembuatan 7401 3. Wibowo Wicaksono, ST, Anggota, Laporan UDINUS Sistem M.Kom / 06 2 Jam Cerdas (SC) Anggota, pengujian sistem Lampiran 2 Biodata Ketua Pelaksana A. Identitas Diri Nama Lengkap Defri Kurniawan, M.Kom. Jenis Kelamin L Jabatan Fungsional - NPP 0686.11.2013.536 NIDN 0613128502 Tempatdan Tanggal Lahir Semarang, 13 Desember 1985 Alamat Rumah Nomor Telepon/Fax/HP 085641417048 Alamat Kantor Jl. Nakula I no 5-11 Nomor Telepon/Faks (024)– 3517261 Alamat E-mail [email protected] Lulusan yang Telah Dihasilkan - Mata Kuliah yang Diampu 1. Rekayasa Perangkat Lunak 2. Rekayasa Perangkat Lunak Lanjut 3. Object Oriented Analisa dan Desain 4. Sistem Informasi 5. Sistem Operasi 6. Pengantar Teknologi Informasi B. Riwayat Pendidikan S-1 Nama Perguruan Tinggi Bidang Ilmu Universitas Dian Nuswantoro S-2 Universitas Dian Nuswantoro Teknik Informatika Tahun Masuk – Teknik Informatika 2004 - 2009 2009 - 2012 Lulus Judul Skripsi/Thesis Nama Pembimbing/Promotor Penerapan Metode Waterwall dalam Membangun Multimedia Pembelajaran Kelas III SMA IPA di Dipo Solution Semarang Kharis Widiyatmoko, M.Kom Optimasi Algortima Support Vector Machine Menggunakan AdaBoost Untuk Penilaian Resiko Kredit Dr. Abdul Syukur Catur Supriyanto, M.Cs C. Pengalaman Penelitian Dalam 5 Tahun Terakhir Judul Penelitian No tahu Pendanaan Sumber n Jml (Juta * - Rp) - - D. Pengalaman Pengabdian Kepada Masyarakat Dalam 5 Tahun Terakhir Pendanaan No Tahun Judul Pengabdian Kepada Masyarakat Sumber* Jml (Juta Rp) E. Pengalaman Penulisan Artikel Ilmiah Dalam Jurnal Dalam 5 Tahun Terakhir Judul Artikel Ilmiah 1 Optimasi Algortima Support Vector Machine Menggunakan AdaBoost Untuk Penilaian ResikoKredit Volume/Nomor/Tahun Jurnal Teknologi Informasi Nama Jurnal Vol 9/No 1/2013 F. Pengalaman Penulisan Artikel Ilmiah Secara Secara Oral Pada Pertemuan/Seminar Ilmiah Dalam 5 Tahun Terakhir Nama Pertemuan Judul Artikel Ilmiah Ilmiah/Seminar - Waktu dan Tempat - - Semua dapat yang terdapat dalam biodara ini adalah benar, dan apabila dkemudian hari terdapat ketidaksesuaian maka saya sanggup menerima sanksi.Demikian biodata ini saya buat dengan sebenarnya. Semarang, Agustus 2016 Ketua Peneliti, Defri Kurniawan, M.Kom. NPP. 0686.11.2013.536 Lampiran 3Biodata Anggota Peneliti A. Identitas Diri No Nama Lengkap Yani Parti Astuti, S.Si., M.Kom. 1 Jenis Kelamin P 2 Jabatan Fungsional - 3 NPP 0686.11.2013.532 4 NIDN 0606107401 5 Tempat dan Tanggal Lahir Madiun, 06 Oktober 1974 6 Alamat Rumah Perum Kandri Pesona Asri F2/3 RT 04/IV Gunungpati Semarang 7 Nomor Telepon/Fax/HP 02476916136 / 082133258726 8 Alamat Kantor Jl. Nakula I no 5-11 9 Nomor Telepon/Faks (024)– 3517261 10 Alamat E-mail [email protected] 11 Lulusan yang Telah Dihasilkan - 12 Mata Kuliah yang Diampu 1. Kalkulus 1 2. Kalkulus 2 3. Logika Informatika 4. Manajemen Sains 5. Matematika Diskrit 6. Matriks dan Ruang Vektor B. Riwayat Pendidikan S-1 S-2 Nama Perguruan Tinggi Universitas Diponegoro Universitas Dian Nuswantoro Bidang Ilmu Matematika Teknik Informatika Tahun Masuk – Lulus Judul Skripsi/Thesis 1992 – 1998 2013 – 2015 Algoritma Matching Bobot Model Prediksi Calon Nasabah Maksimum Dalam Graph dengan Pemasaran Langsung Bipartite Komplit Berbobot Menggunakan Algoritma Naïve Bayes Berbasis Forward Selection Nama Djuwandi, SU Catur Supriyanto, M.CS Pembimbing/Promotor Heru Agus santoso, P.hD C. Pengalaman Penelitian Dalam 5 Tahun Terakhir No Tahun Judul Penelitian Pendanaan Sumber* 1 2016 Optimasi Kriptografi Password Jml (Juta Rp) Universitas Dengan Algoritma Blowfish Rp 3.000.000,00 Dian Nuswantoro D. Pengalaman Pengabdian Kepada Masyarakat Dalam 5 Tahun Terakhir No Tahun Judul Pengabdian Kepada Masyarakat Pendanaan Sumber* 1 2 2013 2014 Pembelajaran Matematika bagi Siswa Universitas SMP Kartini Kelas IX untuk Persiapan Dian Ujian Nasional 2014 Nuswantoro Pengenalan Internet bagi Kelompok PKK Universitas RT 04 RW 04 Kelurahan Kandri Gunungpati Optimalisasi 3 2015 Dian Nuswantoro Penggunaan Fitur Rp 3.000.000,00 Rp 3.000.000,00 Universitas Smartphone pada Kelompok PKK RT 06/I Kelurahan Petompon Jml (Juta Rp) Dian Nuswantoro Rp 1.500.000,00 Pembelajaran Komputer bagi Anak Usia 3 – 5 Tahun Berbasis Game Edukasi di TK 4 2016 Universitas Dian Al Firdaus Kandri gunungpati Semarang Mandiri Nuswantoro E. Pengalaman Penulisan Artikel Ilmiah Dalam Jurnal Dalam 5 Tahun Terakhir No 1 Judul Artikel Ilmiah Optimasi Enkripsi Password Menggunakan Algoritma Blowfish Volume/Nomor/Tahun 15/1/2016 Nama Jurnal Techno.COM F. Pengalaman Penulisan Artikel Ilmiah Secara Secara Oral Pada Pertemuan/Seminar Ilmiah Dalam 5 Tahun Terakhir No Nama Pertemuan Judul Artikel Ilmiah Ilmiah/Seminar 1 SENDI_U Waktu dan Tempat Optimasi Metode Blowfish Untuk 28 Juli 2016 di Mengamankan Password Pada Unisbank Kriptografi Semarang Semua dapat yang terdapat dalam biodara ini adalah benar, dan apabila dkemudian hari terdapat ketidaksesuaian maka saya sanggup menerima sanksi.Demikian biodata ini saya buat dengan sebenarnya. Semarang, Agustus 2016 Anggota Peneliti, Yani Parti Astuti, S.Si, M.Kom NPP. 0686.11.2013.532 Lampiran 5 Biodata Anggota Peneliti A. Identitas Diri No Nama Lengkap Wibowo Wicaksono, ST., M.Kom 1 Jenis Kelamin L 2 Jabatan Fungsional Asisten Ahli 3 NPP 0686.11.2013.531 4 NIDN 0629107603 5 Tempat dan Tanggal Lahir Semarang, 29 Oktober 1976 6 Alamat Rumah Jl. Borobudur Selatan Rt.07 Rw.08 No. 39 Semarang 7 Nomor Telepon/Fax/HP 08122842434 8 Alamat Kantor Jl. Nakula I no 5-11 9 Nomor Telepon/Faks (024)– 3517261 10 Alamat E-mail [email protected] 11 Lulusan yang Telah Dihasilkan S-1 = 10 orang 12 Mata Kuliah yang Diampu 1. SistemOperasi 2. Organisasi dan Arsitektur Komputer 3. Sistem Terdistribusi 4. Pengolahan Citra Digital 5. Strategi Algoritma 6. Sistem Basis Data B. Riwayat Pendidikan S-1 S-2 Nama Perguruan Tinggi UniversitasIslam Indonesia Universitas Gadjah Mada Bidang Ilmu Teknik Sipil Ilmu Komputer Tahun Masuk – Lulus 1995 – 2002 2003 – 2006 Judul Skripsi/Thesis Perilaku Komponen Struktur Lantai Balok T Komposit Kayu-Beton Aplikasi Pengolahan Citra Digital untuk Identifikasi Biometrik Sidik Jari dengan Metode Fraktal Nama Ir. H. Susastrawan, MS. Ir. Fatkhurrohman N., MT. Drs. Agus Harjoko, M.Sc., Ph.D Pembimbing/Promotor C. Pengalaman Penelitian Dalam 5 Tahun Terakhir No Tahun Judul Penelitian Pendanaan Sumber* Jml (Juta Rp) D. Pengalaman Pengabdian Kepada Masyarakat Dalam 5 Tahun Terakhir No Tahun Judul Pengabdian Kepada Masyarakat Pendanaan Sumber* 1 2 2009 2010 Pelatihan Operator Komputer On Line Siaga SATBRIMOBDA JATENG STMIK Himsya Pelatihan Dasar Aplikasi Office untuk Mendukung Proses Belajar Mengajar Bagi Guru-Guru SMP & SMA Tarakan Kalimantan Timur STMIK Himsya Jml (Juta Rp) Rp 1.000.000,00 Rp 1.000.000,00 E. Pengalaman Penulisan Artikel Ilmiah Dalam Jurnal Dalam 5 Tahun Terakhir No Judul Artikel Ilmiah Volume/Nomor/Tahun Nama Jurnal F. Pengalaman Penulisan Artikel Ilmiah Secara Secara Oral Pada Pertemuan/Seminar Ilmiah Dalam 5 Tahun Terakhir No Nama Pertemuan Judul Artikel Ilmiah Ilmiah/Seminar Waktu dan Tempat Semua dapat yang terdapat dalam biodara ini adalah benar, dan apabila dkemudian hari terdapat ketidaksesuaian maka saya sanggup menerima sanksi.Demikian biodata ini saya buat dengan sebenarnya. Semarang, Agustus 2016 Anggota Peneliti, NPP. 0686.11.2013.531 Lampiran 6 Makalah pada Seminar di UPGRIS Educational Data Mining (EDM) Untuk Memprediksi Keterlambatan Masa Studi Mahasiswa Menggunakan Algoritma C4.5 Defri Kurniawan1), Wibowo Wicaksono2), Yani Parti Astuti3) 1Universitas Dian Nuswantoro (Udinus) email: [email protected] 2Universitas Dian Nuswantoro (Udinus) email: [email protected] 3Universitas Dian Nuswantoro (Udinus) email: [email protected] Abstrak – Bagaimana mahasiswa dapat lulus dengan tepat waktu merupakan suatu upaya yang terus dilakukan oleh tiap pengelola akademik. Mahasiswa yang memiliki masa studi lebih (tidak tepat waktu) merupakan ancaman bagi keberhasilan studinya dan universitas. Educational Data mining diusulkan sebagai suatu upaya dalam memprediksi masa studi mahasiswa dengan melihat data profil mahasiswa dan data akademik, apakah mahasiswa tersebut dapat lulus tepat waktu atau tidak tepat waktu. Algoritma C4.5 diterapkan untuk memberikan gambaran klasifikasi masa studi mahasiswa melalui pohon keputusan (decision tree) yang terbentuk. Penelitian menunjukkan algoritma C4.5 mampu memberikan hasil akurasi sebesar 73,68% dari pengolaan data mahasiswa Teknik Informatika Udinus angkatan 2008 sampai dengan 2011. Kata Kunci: Masa Studi Mahasiswa, Educational Data Mining, Data Mining, Algoritma C4.5, Decision Tree I. PENDAHULUAN Tersedianya data yang melimpah pada institusi pendidikan harus dimanfaatkan dengan baik.Salah satu cara untuk mencapai tingkat kualitas tertinggi dalam sistem pendidikan adalah dengan menemukan pengetahuan dari data-data pendidikan untuk dapat mempelajari atribut utama yang dapat mempengaruhi kinerja siswa[1]. Atribut masa studi merupakan hal penting bagi pengelola universitas, bagaimana mahasiswa dapat lulus dengan tepat waktu merupakan suatu upaya yang terus dilakukan. Mahasiswa yang memiliki masa studi lebih (tidak tepat waktu) memiliki potensi tidak lulus pada studinya. Menjadi suatu tantangan bagi univeritas modern saat ini, untuk dapat menganalisa kinerja mahasiswa (student performance), mengidentifikasi keunikankeunikan yang ada pada mahasiswa dan membangun suatu strategi pengembangan lebih lanjut dan tindakan-tindakan di masa depan[2]. Sulitnya memahami dan menemukan pola studi mahasiswa dari data profil dan akademik mahasiswa dalam jumlah data besar yang berpengaruh terhadap masa studi mahasiswa menjadi suatu permasalahan yang akan dijawab. Data mining dapat diusulkan sebagai salah satu pendekatan yang dapat dilakukan untuk memprediksi kinerja siswa [3].Data mining merupakan suatu cara dalam menggali informasi dari sejumlah data yang biasanya tersimpan dalam repositori dengan menggunakan teknologi pengenalan pola, statistik dan teknik matematika [4].Klasifikasi dan Prediksi merupakan pekerjaan-pekerjaan yang dapat dilakukan pada data mining. Klasifikasi adalah proses menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep[5]. Model tersebut akan digunakan untuk melakukan prediksi output terhadap sekumpulan data yang belum diketahui label kelasnya. Model terbentuk dari analisis suatu kumpulan data pelatihan (data objek yang telah memiliki label kelas)dengan menggunakan algoritma atau teknik tertentu. Penerapan metode data mining dalam menganalisis data yang tersedia di lembaga pendidikan didefinisikan sebagai Educational Data Mining (EDM) [6].EDM berkaitan dengan pengembangan metode untuk mengeksplorasi jenis yang unik dari data-data pada pengelolaan pendidikan dan menggunakannya untuk lebih memahami siswa dan pengelolaannya [7].EDM merupakan suatu aliran yang relatif baru dalam penelitian data mining. Pada penelitian Pandey dan Pal[8] EDM digunakan untuk mengukur kinerja siswa pendatang baru, apakah mereka bisa menjalankan studinya dengan baik (performed) atau tidak dengan memilih 600 mahasiswa dari perguruan tinggi yang berbeda dari Dr. R. M. L. Awadh University, Faizabad, India dengan menggunakan Byes Classification. Bharadwaj dan Pal [9]melakukan penelitian pada kinerja siswa dengan memilih 300 mahasiswa dari 5 perguruan tinggi sederajat yang berbeda pada BCA (Bachelor of Computer Application) dari Dr. R. M. L. Awadh University, Faizabad, Indiadengan menggunakan metode klasifikasi Bayesian pada 17 atribut, ditemukan bahwa faktor-faktor seperti ujian SLTA, lokasi tinggal, media pengajaran, kualifikasi ibu, kebiasaan lain mahasiswa, pendapatan tahunan keluarga dan status keluarga siswa tersebut sangat terkait dengan prestasi akademiksiswa. Penelitian oleh Z. J. Kovacic [10]berdasarkan studi kasus mengidentifikasi sampai sejauh mana data pendaftaran dapat digunakan untuk memprediksi keberhasilan siswa.Algoritma CHAID dan CART diterapkan pada data pendaftaran mahasiswa Sistem Informasi politeknik terbuka New Zealand untuk mendapatkan dua pohon keputusan dalam mengelompokkan siswa sukses dan tidak sukses. Akurasi diperoleh masingmasinguntuk CHAID dan CART adalah 59,4dan 60,5. Penelitian Yadav dan Pal [11]melakukan prediksi pada data pendidikan untuk mengidentifikasi siswa yang lemah dan membantu mereka untuk mencetak nilai yang lebih baik. Algoritma C4.5, ID3 dan CART diterapkan dan dibandingkan akurasinya, hasil menunjukkan bahwa teknik C4.5 memiliki akurasi paling tinggi yaitu 67,78% dibandingkan dengan teknik lainnya. Berdasarkan penelitian-penelitian yang telah dilakukan sebelumnya, algoritma C4.5 akan digunakan pada penelitian ini karena memiliki tingkat akurasi yang lebih baik dan dapat memberikan gambaran klasifikasi mahasiswa yang tepat waktu atau tidak tepat waktu berupa pohon keputusan (Decision Tree) yang bermanfaat bagi pengelola akademik. Algoritma C4.5 merupakan penerus dari ID3 yang dikembangkan oleh Quinlan Ross [12].Langkah awal algoritma C4.5 adalah dengan menghitung nilai gain ratiodari setiap atribut. Nilai gain ratio tertinggi akan menjadi simpul akar (root node). C4.5 akanmenghilangkan cabang yang tidak perlu dalam pohon keputusan untuk meningkatkan akurasi klasifikasi[11]. Algoritma C4.5, ID3 dan CART termasuk dalam pembelajaran pohon keputusan (Decision Tree Learner). Decision Treemenyerupai sebuah struktur pohon dimana terdapat node internal (bukan daun) yang mendeskripsikan atribut-atribut, setiap cabang menggambarkan hasil dari atribut yang diuji, dan setiap daun menggambarkan kelas[5]. Pohon keputusan bekerja mulai dari akar paling atas (root node), jika diberikan sejumlah data uji, misalnya X dimana kelas dari data X belum diketahui, maka pohon keputusan akan menelusuri mulai dari akar sampai node dan setiap nilai dari atribut sesuai data X diuji apakah sesuai dengan aturanDecision Tree, kemudian pohon keputusan akan memprediksi kelas dari tupel X. II. METODE PENELITIAN Metode penelitian yang dilakukan adalah metode penelitian eksperimen dengan tahapan penelitian sebagai berikut [13]: PENGUMPULAN DATA Data profil mahasiswa dan data akademik mahasiswa Teknik Informatika (TI) S-1 UDINUS Angkatan 2008 s.d 2011 PENGOLAHAN AWAL DATA Data awal diolah dengan menggabungkan data ldentitas mahasiswa dengan data akademik mahasiswa (data integration) dan melakukan pengurangan atribut dan record (data reduction) MODEL/METODE YANG DIUSULKAN Model Pembelajaran Decision Tree dengan Algoritma C4.5 EKSPERIMEN DAN PENGUJIAN MODEL Eksperimen dan pengujian model dilakukan dengan bantuan Software Orange Berbasis Bahasa Phyton EVALUASI DAN VALIDASI HASIL Evaluasi dan validasi hasil dilakukan dengan mengukur tingkat akurasi klasifikasi dengan menggunakan tabel Confusion Matrix Gambar 1. Tahapan Metode Penelitian A. Pengumpulan Data Data set yang digunakan dalam penelitian ini adalah data mahasiswa Teknik Informatika (TI) S-1 angkatan 2008, 2009, 2010, 2011 sejumlah 1473 records. Data mahasiswa yang diambil adalah data identitas mahasiswa yang menggambarkan informasi profil mahasiswa dan data akademik yang menggambarkan informasi akademik mahasiswa berupa IPK dan Masa Studi. dan mahasiswa disatukan dalam penyimpanan. yang diperoleh satu media 2. Data reduction yaitu untuk memperoleh data yang mempunyai atribut dan record yang lebih sedikit dengan cara mengurangi record yang tidak diperlukan atau yang tidak terisi. Pada data reduction,data yang tidak terisi selanjutnya dieliminasi yaitu dari atribut lokasi tinggal dan nama sekolah asal yang sering sekali tidak terisi. Atribut lokasi tinggal digunakan untuk menentukan status tinggal mahasiswa bersama orang tua atau tidak bersama orang tua.Atribut sekolah asal digunakan untuk mengkategorikan jenis sekolah SMA, SMK, Sekolah Lanjut, MA, Pesantren.Hasil pengolahan data awal (preprocessing) mengahasilkan data valid sejumlah 948 records serta atribut-atribut yang digunakan dalam penelitian yang tersaji pada tabel 1. Tabel 1. Atribut-atribut Data Pada Penelitian Atribut Deskripsi Nilai Jenis Menjelaskan jenis L atau P Kelamin kelamin mahasiswa laki- laki atau (L) perempuan (P). Jenis Menjelaskan jenis SMA, Sekolah sekolah asal dari SMK, Asal mahasiswa yang MA, bersangkutan. Pesantre B. Pengolahan Awal Data n, Pengolahan awal data diperlukan untuk proses penyederhanaan data, agar data tersebut dapat dikenali dan digunakan dalam algoritma yang diusulkan. Proses pengolahan awal data tersebut adalah: Sekolah 1. Data Integration yaitu menyatukan tempat penyimpanan. Data identitas Lanjut Status Menjelaskan Tinggal status Bersama tinggal Orang mahasiswa. Tua atau Apakah D. Eksperimen Dan Pengujian Model tinggal Tidak bersama orang tuanya atau tidak. Bersama Orang 1. Menyiapkan data untuk melakukan eksperimen. Tua Pekerjaa Menjelaskan n Orang status PNS, pekerjaan Swasta, Tua Wali orang tua wali TNI/P (Job) mahasiswa. OLRI, Wirausa ha, Petani/ Peterna k, Lainnya IPK Menjelaskan nilai 0 Index s.d Prestasi 4,00 Komulatif (IPK) Status Atribut Masa Masa Studi merupakan atau variabel Tidak outputatau Tahapan eksperimen dan pengujian model pada penelitian ini adalah: Status Tepat Studi Waktu 2. Pengolahan awal data (preprocessing) dengan mereduksi data – data yang kosong. 3. Implementasi data mining menggunakan bantuan softwareOrange untuk membangun model klasifikasi algoritma C4.5. Orange merupakan free software dengan model perangkat lunak berbasis komponen untuk machine learning dan data miningyang dikembangkan pada Bioinformatics Laboratory, Faculty of Computer and Information Science, University of Ljubljana,Slovenia, bersama dengan komunitas open source http://orange.biolab.si/ 4. Menguji model algoritma C4.5 dengan menghitung nilai akurasi klasifikasi dengan confusion matrix. label. Tepat Jika masa studi Waktu lebih besar dari empat tahun maka Tidak Tepat Waktu. Namun Jika kurang dari sama dengan maka empat, Tepat Waktu C. Model/Metode Yang Diusulkan Model/metode yang diusulkan dalam penelitian ini menggunakan pembelajaran pohon keputusan (Decision Tree Learner)dengan Algoritma C4.5. Gambar 2.Confusion Matrix Kasus Dua Kelas Model Kolom a (true positive-TP) dan d (true negative-TN) merupakan klasifikasi yang benar, dimana classifier memprediksi secara tepat dengan kondisi sebenarnya.Sedangkan Suatu false negative-FN / kolom b adalah suatu kondisi yang salah prediksi, ketika diperkirakan sebagai no (negative) namun hasil sebenarnya yes atau positif. Sedangkan false positive-FP / kolom c adalah suatu kondisi salah yaitu ketika diperkirakan yes atau positif, namun sebenarnya no atau negative[5]. Berdasarkan empat kondisi yang dihasilkan confusion matrix, nilai akurasi klasifikasi dapat dihitung sesuai dengan rumus (1). = (1) 5. Menganalisa hasil dari penggunaan algoritma C4.5. III. Data testing selanjutnya diuji dengan model klasifikasi yang telah dibangun dari data training untuk memprediksikan tingkat akurasi dari data pengujian yang digunakan. Akurasi klasifikasi didapatkan berdasarkan tabel confusion matrix.Confusion matrixdari data testing yang digunakan dengan keluaran Tepat Waktu dan Tidak Tepat Waktu sepeti pada gambar dibawah ini: HASIL DAN PEMBAHASAN Pada implementasi data mining, data dibagi menjadi 2 (dua) yaitu data training dan data testing. Data training digunakan sebagai data pelatihan untuk membangun model klasifikasi berdasarkan algoritma C4.5. Data testing digunakan sebagai pengujian untuk mengevaluasi kinerja dari algoritma yang digunakan. Pada penelitian ini menggunakan random samplinguntuk memilih data secara acak yang digunakan sebagai data training dan data testing dengan pembagian data training sebesar 80% dari 948 data yaitu 758 data. Data testing sebesar 20% dari 948 data yaitu 190 data. Gambar 3. Penerapan Random Sampling Dengan Orange Software Gambar 4 Hasil Tabel Confusion MatrixMenggunakan OrangeSoftware Berdasarkan pengolahan data di atas, didapatkan tingkat akurasi klasifikas algoritma C4.5 sebesar 73,68%. Penerapakan algoritma C4.5 menghasilkan pohon keputusan (decision tree) terhadap output kelas yang disajikan pada Gambar 4. Terlihat bahwa IPK merupakan atribut paling menentukan (root node) dari atributatribut lainnya.Warna merah mewakili Kelas Tidak Tepat Waktu dan warna biru mewakili Kelas Tepat Waktu. Gambar 5. Hasil Pohon Keputusan Kelas Tepat Waktu Dan Tidak Tepat Waktu IV. SIMPULAN Pada penelitian ini, penggunaan algoritma C4.5 mampu melakukan prediksi dengan baik (73,68%) terhadap masa studi mahasiswa yang tepat waktu dan tidak tepat waktu. Pembentukan pohon keputusan (Decision Tree) dapat digunakan oleh pengelola akademik di dalam memetakan mahasiswa yang berpotensi mengalami keterlambatan masa studi di masa mendatang.Penerapan Educational Data Mining(EDM) memberikan kemajuan dan kontribusi pada dunia pendidikan dan pada bidang riset data mining. V. REKOMENDASI Berdasarkan penelitian yang telah dilakukan, banyak atribut data yang tidak lengkap seperti alamat mahasiswa, pekerjaan orang tua wali, nama sekolah asal membuat banyak data yang tidak terpakai. Kami merekomendasikan untuk pengisian data mahasiswa harus divalidasi ketika akan melanjutkan perkuliahan. Jangan sampai mahasiswa lulus, data mahasiswa tidak lengkap.Sehingga data mahasiswa dapat digunakan untuk penelitian dengan baik. VI. UCAPAN TERIMA KASIH Penelitian ini tidak akan selesai, jika tidak ada dukungan dari berbagai pihak. Kami ucapkan terima kasih atas anggota tim penelitian ini ibu Yani Parti Astuti S.Si, M.Kom dan bapak Wibowo Wicaksono ST, M.Kom serta Kepala Pusat Sistem Informasi (PSI) bapak Ifan Rizqa M.Kom. VII. DAFTAR PUSTAKA Mohammed M Abu Tair and 1] Alaa M Al-Helees, "Mining Educational Data to Improve Students’ Performance: A Case Study," International Journal of Information and Communication Technology Research, vol. 2, February 2012. Dorina Kabakchieva, 2] "Predicting Student Performance by Using Data Mining," Cybernetics and Information Technologies, 2013. Edin Osmanbegovic and 3] Mirza Suljic, "Data Mining Approach For Predicting Student Performance," Journal of Economics and Business, vol. X, no. 1, May 2012. Daniel T Larose, Data Mining 4] Methods and Models. Hoboken, New Jersey, United State of America: John Wiley & Sons, Inc., 2006. Jiawei Han and Micheline 5] Kamber, Data Mining Concepts and Techniques, 2nd ed. San Francisco, United State America: Morgan Kaufmann Publishers, 2007. Cristobal Romero and 6] Sebastian Ventura, "Educational Data Mining: A Review of the State-of-theArt," IEEE Transactions On Systems, Man, And Cybernatics, 2007. R Baker, Data Mining for 7] Education, 3rd ed. UK: Elsevier, 2010. U. K. Pandey and S. Pal, 8] "Data Mining: A prediction of performer or underperformer using classification," (IJCSIT) International Journal of Computer Science and Information Technology, vol. 2(2), no. ISSN:0975-9646, pp. 686-690, 2011. Bharadwaj B.K and Pal. S, 9] "Data Mining: A prediction for performance improvement using classification," International Journal of Computer Science and Information Security (IJCSIS), vol. 9, no. 4, pp. pp. 136-140, 2011. Kovacic Z. J, "Early 10] prediction of student success: Mining student enrollment data," in Proceedings of Informing Science & IT Education Conference, 2010. Surjeet Kumar Yadav and 11] Saurabh Pal, "Data Mining A Prediction for Performance Improvement of Engineering Students using Classification," World of Computer Science and Information Technology Journal (WCSIT), vol. 2, pp. 51-56, 2012. Quinlan J. R, C4.5: Programs 12] for Machine Learning.: Morgan Kaufmann Publishers, Inc, 1992. Budi Santoso, Data Mining 13] Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu, 2007. Lampiran 7 Draf Materi Bahan Ajar Algoritma C4.5 Data Mining BAHAN AJAR ALGORITMA C 4.5 OLEH DEFRI KURNIAWAN