penerapan algoritma c4.5 dalam pemilihan bidang peminatan

advertisement
Seminar Nasional Informatika 2014
PENERAPAN ALGORITMA C4.5 DALAM PEMILIHAN BIDANG
PEMINATAN PROGRAM STUDI SISTEM INFORMASI
DI STMIK POTENSI UTAMA MEDAN
Fina Nasari1
1
3
Sistem Informasi, STMIK Potensi Utama
Jalan K.L. Yos Sudarso KM. 6,5 No. 3A Tanjung Mulia Medan
1
[email protected]
Abstrak
Saat ini mayoritas mahasiswa memilih bidang peminatan mengikuti pilihan yang diambil mayoritas temanteman satu kelas, tanpa mempertimbangkan faktor prestasi akademik mahasiswa. Hal ini berdampak pada
ketidaksesuaian bidang peminatan dengan minat dan keterampilan mahasiswa tersebut, akibatnya banyak
mahasiswa yang mengalami kesulitan ketika menyelesaikan tugas akhir. Penerapan algoritma C4.5 dalam
pilihan bidang peminatan akan membantu dalam pengklasifikasian variable-variabel yang mempengaruhi
pemilihan bidang peminatan. Algortima C4.5 adalah algoritma yang cukup efektif untuk membantu
membentuk sebuah pohon keputusan, pohon keputusan tersebut kemudian akan menghasilkan sebuah
pengetahuan baru. Berdasarkan hasil pengujian terhadap pohon keputusan diperoleh kecocokan data 82,14 %
terhadap data pemilihan bidang peminatan.
Kata kunci : Bidang Peminatan, Algoritma C4.5, Pohon Keputusan
1.
Pendahuluan
Bidang peminatan merupakan bagian dari
kurikulum berbasis kopetensi. Bidang peminatan
adalah kumpulan dari beberapa matakuliah
pendukung yang akan mengantarkan Mahasiswa
menuju proses penyelesaian skripsi. Adapun
bidang peminatan yang ada pada program studi
Sistem Informasi adalah Komputerisasi Akuntansi
(SIA), Sistem Informasi Grafis(SIG) dan Sistem
Bisnis Cerdas(SBC).
Liliana
Swastina
telah
menerapkan
algoritma C4.5 untuk penentuan jurusan
Mahasiswa, hasil yang diperoleh dalam penentuan
jurusan dengan tingkat akurasi 93.31 % dan
akurasi rekomendasi jurusan sebesar 82.64%[1].
Algoritma C4.5 umumnya digunakan untuk
pengklasifikasian data, selain algoritma C4.5
algoritma ID3 dan K-Nearest juga dapat
digunakan untuk pengklasifikasian data. Studi
kinerja K-Nearest Neighbor dan C4.5 sudah
dilakukan
penelitian
dalam
menentukan
kemungkinan pengunduran diri mahasiswa di
STMIK AMIKOM Yogyakarta, hasil penelitian
yang diperoleh adalah kinerja algoritma C4.5
lebih cepat dan akurat dibandingkan dengan
algoritma K-Nearest [2]. Algoritma C4.5
memiliki tingkat ketelitian yang tinggi dalam
menghasilkan sebuah keputusan, ketelitiannya
hingga 94 % pada tahap pelatihan dan 93 % pada
tahap uji coba [3]
30
2.
KDD ( Knowledge Discovery In Database )
Menurut Fayyad dalam buku (kusrini, 2009)
Istilah data mining dan knowledge discovery in
database (KDD) sering kali digunakan secara
bergantian untuk menjelaskan proses penggalian
informasi tersembunyi dalam suatu basis data
yang besar. Sebenarnya kedua istilah tersebut
memiliki konsep yang berbeda, tetapi berkaitan
satu sama lain. Dan salah satu tahapan dalam
keseluruhan proses KDD adalah data mining.
Proses KDD secara garis besar dapat dijelaskan
sebagai berikut :
1.
2.
Data Selection
Pemilihan (seleksi) data dari sekumpulan
data operasional perlu dilakukan sebelum
tahap penggalian informasi dalam KDD
dimulai. Data hasil seleksi yang akan
digunakan untuk proses data mining
disimpan dalam suatu berkas, terpisah dari
basis data operasional.
Pre- processing / Cleaning
Sebelum proses data mining dapat
dilaksanakan, perluh dilakukan proses
pembersihan pada data yang menjadi focus
KDD. Proses pembersihan mencakup antara
lain membuang duplikasi data, memeriksa
data yang inkosisten, dan memperbaiki
kesalahan pada data, seperti kesalahan cetak
(tipografi).
Seminar Nasional Informatika 2014
3.
4.
5.
Transformation
Coding adalah transformasi pada data yang
telah dipilih, sehingga data tersebut sesuai
untuk proses data mining. Proses coding
dalam KDD merupakan proses kreatif dan
sangat tergantung pada jenis atau pola
informasi yang akan dicari dalam basis data.
Data mining
Data mining adalah proses mencari pola
atau informasi menarik dalam data terpilih
dengan menggunakan teknik atau metode
tertentu. Teknik, metode, atau algoritma
dalam data mining sangat bervariasi.
Pemilihan metode atau algoritma yang tepat
sangat bergantung pada tujuan dan proses
KDD secara keseluruhan.
Interpretation / Evaluation
Pola informasi yang dihasilkan dari proses
data mining perlu ditampilkan dalam bentuk
yang mudah dimengerti oleh pihak yang
berkepentingan. Tahap ini merupakan
bagian dari proses KDD yang disebut
interpretation.
Tahap
ini
mencakup
pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta
atau hipotesis yang ada sebelumnya[4].
1.
Data Selection
Variable yang dipakai dalam pemilihan
bidang peminatan adalah IPK dari matakuliah
inti semester I - V yaitu matakuliah yang
berkaitan dengan keterampilan dan keahlian
dalam bidang komputerisasi, IPK dari matakuliah
wajib
semester
I-V
yaitu
matakuliah
pengembangan kepribadian dan Keterampilan
menghitung, dan jenis kelamin mahasiswa. Data
penelitian yang dipakai seperti terlihat pada tabel
1.
Tabel.1 Data Penelitian
2.
Gambar 1. Aliran Informasi dalam data
mining
3.
Analisa dan Pembahasan
Data penelitian ini bersarkan data pemilihan
bidang peminatan program studi sistem informasi
stambuk 2010 TA. 2012-2013 sebanyak 100 data.
Transformation
Proses transformasi yang dilakukan adalah
mengklasifikasikan Atribut IPK menjadi 3
variabel yaitu “Kecil” untuk IPK < 3.00,
“Sedang” untuk IPK >= 3.00 s/d IPK <= 3.5 dan
“Besar” untuk IPK > 3.5. Hasil transformasi dapat
dilihat pada tabel.2
31
Seminar Nasional Informatika 2014
Tabel.2 Data Transformasi
(2) [4]
Di mana :
1. S : Himpunan Kasus
2. A : Atribut
3. n : Jumlah Partisi S
4. pi : Proporsi dari Si terhadap S
hasil perhitungan menggunakan algoritma
C4.5 untuk mencari node pertama terlihat pada
tabel 2.
Tabel 3. Hasil Perhitungan Pencarian Node 1
3.
Penerapan Algoritma C4.5
Data hasil transformasi selanjutnya dianalisa
untuk menghasilkan sebuah pohon keputusan
dengan menggunakan algoritma C4.5, secara
umum algortima C4.5 untuk membangun pohon
keputusan adalah sebagai berikut:
1. Perhitungan Entropy dan Gain
2. Pemilihan Gain tertinggi sebagai akar ( Node )
3. Ulangi proses perhitungan Entropy dan Gain
untuk mencari cabang sampai semua kasus
pada cabang memiliki kelas yang sama yaitu
pada saat semua variabel telah menjadi bagian
dari pohon keputusan atau masing –masing
variabel telah memiliki daun atau keputusan.
4. Membuat Rule berdasarkan pohon keputusan.
Sesuai dengan hasil perhitungan algoritma
C4.5 mencari node 1 atau node akar, variable JK
atau Jenis kelamin mejadi varibel akar. Proses
perhitungan algoritma C4.5 dilanjutkan hingga
semua atribut sudah memiliki keputusan.
Untuk memilih atribut sebagai akar,
didasarkan pada nilai gain tertinggi dari atributatribut yang ada. Untuk menghitung gain
digunakan rumus sebagai berikut:
a.
(1) [4]
Di mana :
1. S : Himpunan Kasus
2. A : Atribut
3. n : Jumlah Partisi Atribut A
4. |Si| : Jumlah Kasus pada Partisi ke-i
5. |S| : Jumlah Kasus dalam S
Sementara itu, perhitungan nilai entropy
dapat dilihat pada persamaan berikut ini:
32
4.
Uji Coba
Uji coba sistem menggunakan tool Weka 35-5. Hasil proses klasifikasi dengan algoritma Id3
menghasilkan keputusan yang menjadi atribut
akar adalah jenis kelamin dan menghasilkan
pengetahuan sebagai berikut:
b.
c.
d.
e.
f.
Jika JK=LK and IPK_Wajib = Sedang and
IPK_Inti = Sedang Then Peminatan =
Sistem Bisnis Cerdas
Jika JK=LK and IPK_Wajib = Sedang and
IPK_Inti = Besar Then Peminatan = Sistem
Bisnis Cerdas
Jika JK=LK and IPK_Wajib = Sedang and
IPK_Inti = Kecil Then Peminatan = Sistem
Bisnis Cerdas
Jika JK=LK and IPK_Wajib = Besar Then
Peminatan = Sistem Informasi Geografis
Jika JK=LK and IPK_Wajib = Kecil and
IPK_Inti = Sedang Then Peminatan =
Sistem Informasi Geografis
Jika JK=LK and IPK_Wajib = Kecil and
IPK_Inti = Kecil Then Peminatan = Sistem
Informasi Geografis
Seminar Nasional Informatika 2014
g.
h.
i.
j.
k.
l.
m.
Jika JK=Pr and IPK_Inti = Sedang and
IPK_Wajib = Sedang Then Peminatan =
Sistem Informasi Akuntansi
Jika JK=Pr and IPK_Inti = Sedang and
IPK_Wajib = Besar Then Peminatan =
Sistem Informasi Akuntansi
Jika JK=Pr and IPK_Inti = Sedang and
IPK_Wajib = Kecil Then Peminatan =
Sistem Bisnis Cerdas
Jika JK=Pr and IPK_Inti = Besar and
IPK_Wajib = Sedang Then Peminatan =
Sistem Bisnis Cerdas
Jika JK=Pr and IPK_Inti = Besar and
IPK_Wajib = Besar Then Peminatan =
Sistem Bisnis Cerdas
Jika JK=Pr and IPK_Inti = Besar and
IPK_Wajib = Kecil Then Peminatan =
Sistem Bisnis Cerdas
Jika JK=Pr and IPK_Inti = Kecil Then
Peminatan = Sistem Informasi Geografis
Tabel 4 Data Uji Coba
Hasil pengujian terhadap data pemilihan
pemintan stambuk 2011 diperoleh kecocokan
hingga 80.14 %.
5.
Kesimpulan dan Saran
Dalam penelitian ini dapat ditarik kesimpulan
sebagai berikut:
1. Berdasarkan perhitungan menggunakan
algoritma C4.5 diperoleh factor dominan
seseorang memilih bidang peminatan adalah
berdasarkan nilai JK dengan tingkat
kecocokan data hingga 80.14%.
2. Variable penelitian ini masih melihat data
nilai
dan
jenis
kelamin,
untuk
pengembangannya perlu dilihat juga minat
dan bakat dari mahasiswa yang akan
memilih peminatan, sehingga pemilihan
peminatan akan lebih tepat.
Gambar 2. Pohon Keputusan Yang Dihasilkan
Uji coba dilakukan dengan menggunkan
data pemilihan bidang peminatan 100 mahasiswa
stambuk 2011. Data uji coba dapat dilihat pada
tabel 3.
Daftar Pustaka:
[1]
[2]
Badan Pusat Statistik, (2013). Listrik
yang
Didistribusikan
Kepada
Pelanggan
Menurut
Kelompok
Pelanggan (GWh), Medan
Kusrini,dkk (2009). Perbandingan
Metode
Nearest
Neighbor
dan
33
Seminar Nasional Informatika 2014
[3]
34
Algoritma C4.5 Untuk Menganalisis
Kemungkinan Pengunduran Diri Calon
Mahasiswa Di STMIK AMIKOM
YOGYAKARTA, JURNAL DASI ISSN:
1411-3201 Vol. 10 No. 1 Maret 2009
Anand, Dr. Sheila and K. Ranjesh,
(2011), Analyst Of Seer Dataset For
Breast Cancer Diagnosis Using C4.5
Classification Algorithm, International
Journal of Advanced Research in
Computer
and
Communication
[4]
Engineering Vol. 1, Issue 2, April
2012, Thandhalam
Kusrini, (2009). Algoritma Data
Mining, Andi Offcet, Yogyakarta
Download