laporan tugas akhir - Universitas Dian Nuswantoro

advertisement
LAPORAN TUGAS AKHIR
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5
DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION
UNTUK MEMPREDIKSI KELULUSAN MAHASISWA
Disusun Oleh :
Nama
: Khoirul Muarif
NIM
: A11.2009.05066
Program Studi
: Teknik Informatika
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2013
i
LAPORAN TUGAS AKHIR
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5
DAN C4.5 BERBASIS PARTICLE SWARM OPTIMIZATION
UNTUK MEMPREDIKSI KELULUSAN MAHASISWA
Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan
program studi Teknik Informatika S-1 pada Fakultas Ilmu Komputer
Universitas Dian Nuswantoro
Disusun Oleh :
Nama
: Khoirul Muarif
NIM
: A11.2009.05066
Program Studi
: Teknik Informatika
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2013
PERSETUJUAN LAPORAN TUGAS AKHIR
Nama Pelaksana
: Khoirul Muarif
NIM
: A11.2009.05066
Program Studi
: Teknik Informatika
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5
Berbasis
Particle
Swarm
Optimization
Untuk
Memprediksi Kelulusan Mahasiswa
Tugas Akhir ini telah diperiksa dan disetujui,
Semarang, 24 Juli 2013
Menyetujui :
Mengetahui :
Pembimbing
Dekan Fakultas Ilmu Komputer
L. Budi Handoko, M.Kom.
Dr. Abdul Syukur
ii
PENGESAHAN DEWAN PENGUJI
Nama Pelaksana
: Khoirul Muarif
NIM
: A11.2009.05066
Program Studi
: Teknik Informatika
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: Komparasi Pemodelan Data Menggunakan C4.5 dan C4.5
Berbasis
Particle
Swarm
Optimization
Untuk
Memprediksi Kelulusan Mahasiswa
Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir tanggal 18 Juli 2013. Menurut pandangan kami, tugas akhir ini
memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar
Sarjana Komputer (S.Kom.)
Semarang, 18 Juli 2013
Dewan Penguji:
Sendi Novianto, S.Kom, MT
Erna Zuni Astuti, M.Kom
Anggota
Anggota
Noor Ageng Setiyanto, M.Kom
Ketua Penguji
iii
PERNYATAAN KEASLIAN TUGAS AKHIR
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya:
Nama : Khoirul Muarif
NIM
: A11.2009.05066
Menyatakan bahwa karya ilmiah saya yang berjudul:
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5
BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK
MEMPREDIKSI KELULUSAN MAHASISWA
merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing
telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll).
Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya,
yang disertai dengan bukti-bukti yang cukup, maka saya bersedia untuk dibatalkan
gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian
surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di
: Semarang
Pada tanggal : 18 Juli 2013
Yang menyatakan,
(Khoirul Muarif)
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya:
Nama : Khoirul Muarif
NIM
: A11.2009.05066
demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada
Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-exclusive
Royalty-Free Right) atas karya ilmiah saya yang berjudul:
KOMPARASI PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5
BERBASIS PARTICLE SWARM OPTIMIZATION UNTUK
MEMPREDIKSI KELULUSAN MAHASISWA
beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy
ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan
data (database), mendistribusikannya dan menampilkan/mempublikasikannya di
internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari
saya selama tetap mencantumkan nama saya sebagai penulis/pencipta.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak
Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas
pelanggaran Hak Cipta dalam karya ilmiah saya ini.
Demikian surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di
: Semarang
Pada tanggal : 12 Juli 2013
Yang menyatakan,
(Khoirul Muarif)
v
KATA PENGANTAR
Alhamdulilah, puji syukur kehadirat Allah SWT atas kekuatan, rahmat dan
hidayah-Nya sehingga laporan tugas akhir dengan judul “KOMPARASI
PEMODELAN DATA MENGGUNAKAN C4.5 DAN C4.5 BERBASIS
PARTICLE
SWARM
OPTIMIZATION
UNTUK
MEMPREDIKSI
KELULUSAN MAHASISWA” dapat terselesaikan tepat waktu. Terimakasih
kepada :
1. Dr.Ir. Edi Noersasongko,M.Kom, selaku Rektor Universitas Dian Nuswantoro
Semarang.
2. Dr. Abdul Syukur selaku Dekan Fasilkom.
3. Dr. Heru Agus Santoso,M.Kom, selaku Ka.Progdi Teknik Informatika.
4. L. Budi Handoko, M.Kom, selaku pembimbing tugas akhir yang memberikan
bimbingan yang berkaitan dengan penelitian penulis.
5. Ardhyta Luthfiarta, M.Kom.,M.Cs, yang memberikan masukan dan saran
kepada penulis.
6. Amalia Hilda, yang memberikan lampiran berupa data kelulusan mahasiswa
dalam thesisnya sebagai dasar obyek penelitian bagi penulis.
7. Dosen-dosen Fasilkom Universitas Dian Nuswantoro Semarang yang telah
memberikan ilmu sehingga penulis dapat mengimplementasikan ilmu yang
telah disampaikan.
8. Keluarga dan rekan-rekan mahasiswa Fasilkom Universitas Dian Nuswantoro
yang telah memberikan dukungan material dan moral kepada penulis.
Semoga Tuhan yang Maha Esa memberikan balasan yang lebih besar kepada
beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas
akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya.
Semarang, 12 Juli 2013
Penulis
vi
ABSTRAK
Perguruan tinggi merupakan tempat bagi mahasiswa untuk mendapat pengetahuan
sebelum terjun bersaing dalam dunia kerja. Perguruan tinggi menjadi sangat
berperan untuk menciptakan lulusan terbaik bagi kebutuhan dunia kerja. Jumlah
kelulusan mahasiswa akan menjadi salah satu indikator keberhasilan suatu
perguruan tinggi yang berdampak pada akreditasi pemerintah dan penilaian
masyarakat. Penelitian tentang prediksi kelulusan mahasiswa telah banyak
dilakukan untuk mengetahui lulus tepat waktu atau terlambat. Berdasarkan
kondisi tersebut teknik data mining yang tepat digunakan adalah klasifikasi. Salah
satu teknik klasifikasi data mining adalah C4.5. Dalam penelitian ini,
membandingkan algoritma C4.5 dengan C4.5 berbasis PSO(Particle Swarm
Optimization) yang diterapkan pada data kelulusan mahasiswa. Dari hasil
pengujian digunakan tes cross validation, confusion matrix dan kurva ROC,
diketahui bahwa C4.5 berbasis PSO terbukti dapat meningkat akurasi dari prediksi
dengan 86.09% dan peforma yang ditunjukkan nilai AUC adalah 0.883 sedangkan
C4.5 memiliki akurasi prediksi 84.13% dan nilai AUC 0.837. Dari penelitian ini,
terbukti bahwa PSO dapat meningkatkan akurasi dan performa AUC.
Kata kunci : kelulusan mahasiswa, data mining, teknik klasifikasi data mining,
C4.5, C4.5 berbasis PSO.
xiii + 70 halaman; 28 gambar; 17 tabel
Daftar acuan: 24 (1995 – 2012)
vii
ABSTRACT
College is a place for students to gain knowledge before plunging to compete in
the working world. College became a very important role to create the best
graduates for the needs of the workforce. The minimum number of students would
be one indicator of the success of a college accreditation impact on government
and community assessment. Research on student graduation predictions have been
carried out to determine graduate on time or late. Under these conditions the exact
data mining techniques used are classification. One of the classification
techniques of data mining is C4.5. In this study, compared with C4.5 C4.5
algorithm based on PSO (Particle Swarm Optimization) is applied to the data
graduation. From the test results used cross validation test, confusion matrix and
ROC curves, it is known that the PSO-based C4.5 proven to increase the accuracy
of prediction by 86.09% and AUC values Performance shown is 0.883 while the
C4.5 has a 84.13% prediction accuracy and AUC values 0837. From this study, it
is evident that the PSO can improve the accuracy and performance of AUC.
Keywords: graduation, data mining, data mining classification techniques, C4.5,
C4.5 based PSO.
viii
DAFTAR ISI
Halaman
Halaman Sampul Dalam
i
Halaman Persetujuan
ii
Halaman Pengesahan
iii
Halaman Pernyataan Keaslian Tugas Akhir
iv
Halaman Pernyataan Persetujuan Publikasi
v
Halaman Kata Pengantar
vi
Halaman Abstrak
vii
Halaman Daftar Isi
ix
Halaman Daftar Tabel
xi
Halaman Daftar Gambar
xii
BAB I
PENDAHULUAN
1
1.1
1.2
1.3
1.4
1.5
Latar belakang
Rumusan masalah
Batasan masalah
Tujuan
Manfaat
1
5
6
6
7
BAB II TINJAUAN PUSTAKA
8
2.1
2.2
Tinjauan studi.
Landasan teori
2.2.1 Kelulusan Mahasiswa
2.2.2 Data mining
2.2.3 CRISP-DM
2.2.4 Pembobotan atribut
2.2.5 Algoritma C4.5
2.2.5.1 Pruning dalam pohon keputusan
2.2.6 Particle Swarm Optimization (PSO)
2.2.7 Cross validation
ix
8
12
12
12
13
15
15
18
20
21
2.2.8 Confusion matrix
2.2.9 Kurva ROC
2.2.10 Kerangka pemikiran
BAB III METODE PENELITIAN
3.1
3.2
25
Desain penelitian
3.1.1 Pengumpulan data
3.1.1.1 Pemahaman bisnis
3.1.1.2 Pemahaman data
3.1.2 Pengolahan data
3.1.3 Pemodelan
3.1.3.1 Model C4.5
3.1.3.2 Model C4.5 dioptimasi PSO
3.1.4 Validasi dan evaluasi
3.1.5 Penyebaran
Alat penelitian
BAB IV HASIL PENELITIAN DAN PEMBAHASAN
4.4
4.4
4.4
4.4
Validasi dan evaluasi
Hasil percobaan dan pengujian metode
4.2.1 C4.5
4.2.2 C4.5 berbasis PSO
Pembahasan
Hasil pemodelan pohon keputusan dan Ruleₐ
4.4.1 Model C4.5 berbasis PSO
4.4.2 Model C4.5
BAB V PENUTUP
5.1
5.2
22
23
23
25
25
25
26
27
28
30
35
39
39
40
41
41
44
44
45
50
51
51
59
67
Kesimpulan
Saran
67
67
DAFTAR PUSTAKA
69
x
DAFTAR TABEL
Halaman
Tabel 2.1 State of the art
9
Tabel 2.2 Contoh confusion matrix.
22
Tabel 3.1 Kedudukan atribut yang akan digunakan
27
Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan digunakan untuk
pemodelan dalam bentuk excel
28
Tabel 3.3 Contoh Data Traning yang telah di replace missing value
28
Tabel 3.4 Jumlah kasus dari tiap atribut
30
Tabel 3.5 Hasil perhitungan gain untuk menentukan node tertinggi
33
Tabel 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat kontinu
33
Tabel 3.7 Split point yang digunakan
35
Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai itersasi ke-25
35
Tabel 3.9 Split point berdasar weight yang digunakan
38
Tabel 3.10 Confusion matrik C4.5
39
Tabel 3.11 Spesifikasi Software dan Hardware
40
Tabel 4.1 Hasil akurasi dan AUC dari C4.5
45
Tabel 4.2 Hasil percobaan menggunakan population size dan maximum
number of generation secara berbeda
45
Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO
48
Tabel 4.4 Hasil pembobotan atribut
50
xi
DAFTAR GAMBAR
Halaman
Gambar 2.1 Siklus CRISP-DM .................................................................... 14
Gambar 2.2 Contoh pohon keputusan yang terbentuk .................................. 16
Gambar 2.3 Pohon keputusan dengan cabang A5 tidak konsisten ................ 19
Gambar 2.4 Pohon keputusan setelah di pruning .......................................... 20
Gambar 2.5 Ilustrasi tenfold cross validation ............................................... 21
Gambar 2.6 Confusion matrix untuk 2 model kelas ...................................... 22
Gambar 2.7 Kerangka pemikiran .................................................................. 24
Gambar 3.1 Data yang dilampirkan oleh Hilda ............................................. 26
Gambar 3.2 Data set dalam bentuk excel...................................................... 27
Gambar 3.3 Model yang di usulkan .............................................................. 29
Gambar 3.4 Model proses yang di usulkan ................................................... 29
Gambar 4.1 Setting parameter pada rapidminer ............................................ 41
Gambar 4.2 Desain model validasi C4.5 ....................................................... 42
Gambar 4.3 Desain model validasi C4.5 berbasis PSO ................................ 43
Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang ditampilkan
oleh RapidMiner ........................................................................ 44
Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh
RapidMiner ................................................................................ 44
Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar pada
population size dan maximum number of generation ................ 46
Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar pada
population size dan maximum number of generation ................ 46
xii
Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang ditampilkan
oleh RapidMiner berdasar pada population size bernilai 15
dan maximum number of generation bernilai 40 ....................... 47
Gambar 4.9
Hasil peforma AUC dari C4.5-PSO yang ditampilkan oleh
RapidMiner berdasar pada population size bernilai 15 dan
maximum number of generation bernilai 40 ............................. 48
Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5 dengan
C4.5-PSO .................................................................................. 49
Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5 dengan
C4.5-PSO .................................................................................. 49
Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri) ........................ 51
Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah) ................... 52
Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan) ..................... 53
Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri).................................. 59
Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah) ........................... 60
Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan) ............................. 61
xiii
BAB I
PENDAHULUAN
1.
Latar Belakang Masalah
Mahasiswa merupakan salah satu kelompok masyarakat elite yang
memiliki ciri intelektualitas lebih kompleks dibandingkan dengan kelompok
lain yang bukan mahasiswa seusia ataupun dibawah usia mereka. Kemampuan
untuk menghadapi kemudian mencari pemecahan, menyelesaikan masalah yang
mereka hadapi secara lebih sitematis merupakan ciri dari intelektualitas tersebut
(Hilda, 2012). Dalam masa kehidupan mahasiswanya, mereka berkembang
untuk mematangkan intelektualnya sebagai persiapan dalam bersaing di dunia
kerja nantinya dan lingkungan masyarakat.
Perguruan tinggi sekarang ini dituntut untuk mempunyai keunggulan
daya saing dengan memanfaatkan dan memaksimalkan semua sumber daya
yang dimiliki. Salah satunya adalah sistem informasi yang digunakan untuk
meningkatkan daya saing dan juga dapat digunakan dalam pengolahan data
menjadi informasi yang bernilai sebagai alat penunjang untuk kegiatan
pengambilan keputusan strategis. Ini sesuai dengan dasar bahwa perguruan
tinggi merupakan satuan pendidikan yang menjadi terminal terakhir bagi
seseorang yang berpeluang belajar setinggi-tingginya melalui jalur pendidikan
sekolah.(Hilda, 2012).
Dalam
lingkungan
yang
sangat
kompetitif
dan
tujuan
untuk
mendapatkan keuntungan yang lebih dari bisnis maka organisasi pendidikan
tinggi harus mampu meningkatkan kualitas layanan dan dapat memuaskan
pelangan mereka. Mereka menganggap bahwa dosen dan mahasiswa merupakan
aset utama, dengan menggunakan aset secara efektif dan efisien maka mereka
berusaha untuk meningkatkan indikator – indikator kunci mereka.(Quadri &
1
2
Kalyankar, 2010). Dalam dunia pendidikan, mahasiswa merupakan aset yang
penting di institusi pendidikan, maka harus diperhatikan tingkat kelulusan tepat
waktunya.
Berbagai perguruan tinggi
bersaing untuk meningkatkan tingkat
kelulusan sesuai dengan misi masing-masing pergururuan tinggi dalam
mendidik mahasiswa (yaitu menghasilkan lulusan) yang akan menjadi anggota
produktif masyarakat dan berkontribusi terhadap kesejahteraan ekonomi bangsa.
Selain itu, masing-masing perguruan tinggi mengetahui bahwa jumlah siswa
yang putus diterjemahkan sebagai hilangnya pendapatan bagi lembaga
pendidikan tersebut (Karamouiz & Vrettos, 2008). Penilaian publik biasanya
berdasar pada ketepatan lulus dari mahasiswa atau siswa sebuah institusi
pendidikan maka ini berpengaruh pada tingkat kredibilitas dan eksisnya institusi
tersebut.
Quadri et al(Quadri & Kalyankar, 2010) berpendapat bahwa wisuda
yang tepat waktu merupakan isu yang penting karena tingkat kelulusan sebagai
dasar efektifnya suatu kelembagaan. Jika terjadi penurunan tingkat kelulusan
secara signifikan dan terus berkembang maka akan menjadi permasalahan yang
serius. Bahkan dapat mempengaruhi akreditasi perguruan tinggi tersebut. Untuk
itu pemantauan dan evaluasi secara berkala terhadap kecenderungan tingkat
kelulusan mahasiswa diperlukan.
Berdasar pada peraturan yang disampaikan dalam buku II standard dan
prosedur tentang akreditasi institusi perguruan tinggi oleh BAN-PT(Badan
Akreditasi Nasional Perguruan Tinggi) tahun 2011 menyatakan bahwa salah
satu aspek penilaian akreditasi adalah mahasiswa dan lulusan(BAN-PT, 2011).
Jadi, tingkat kelulusan dan jumlah mahasiswa akan perpengaruh dalam proses
akreditasi yang dilakukan oleh pemerintah. Setelah diberikan akreditasi
terhadap komponen perguruan tinggi tersebut maka masyarakat umum akan
mengetahui informasi akreditasi tersebut. Ketika akreditasi terhadap komponen
3
perguruan tinggi tersebut rendah maka akan berpengaruh terhadap penilaian
masyarakat yang cinderung buruk dan penilaian buruk ini juga mempengaruhi
minat masyarakat untuk mendaftarkan diri sebagai calon mahasiswa pada
perguruan tinggi tersebut. Seperti yang tercantum pada berita replubika.co.id
tanggal 24 Maret 2013 bahwa dalam lima tahun terakhir 11 Perguruan Tinggi
Swasta(PTS) di Yogya tutup dikarenakan sepi peminat untuk menjadi calon
mahasiswa di PTS tersebut(replubika, 2013). Oleh karena itu, analisa prediksi
kelulusan mahasiswa diperlukan untuk memberikan informasi bagi civitas
akademik mengenai mahasiswa yang dimungkinkan lulus terlambat.
Dewasa ini pendekatan data mining berkembang untuk mengatasi
berbagai permasalahan menyangkut tentang pengolahan data. Beberapa peneliti
menggunakan teknik data mining untuk menyelesaikan permasalahan prediksi
kelulusan mahasiswa(Hilda, 2012), (Suhartina & Ernastuti, 2010).
Data mining adalah suatu cara yang bertujuan dalam penemuan pola
secara otomatis atau semi otomatis dari data yang sudah ada di dalam database
atau sumber data lain yang dimanfaatkan untuk menyelesaikan suatu masalah
melalui berbagai aturan proses(Witten, I.H, 2011 ). Data mining memiliki
beberapa teknik, diantaranya klasifikasi dan clustering. Teknik klasifikasi
adalah teknik pembelajaran yang digunakan untuk memprediksi nilai dari
atribut kategori target (Vercellis, 2009). Klasifikasi bertujuan untuk membagi
objek yang ditugaskan hanya ke salah satu nomor kategori yang disebut kelas (
Max Bramer, 2007). Clustering merupakan pengelompokkan objek atau data
berdasarkan kemiripan antar data, sehingga anggota dalam satu kelompok
memiliki banyak kemiripan dibandingkan dengan kelompok lain (Gorunescu,
2011). Untuk memprediksikan kelulusan mahasiswa, maka hasil pengolahan
data akan diklasifikasikan menjadi dua kelas, yaitu tepat dan terlambat.
Sehingga teknik klasifikasi paling tepat untuk digunakan dalam data mining ini.
Metode yang paling populer digunakan untuk teknik klasifikasi adalah Decision
4
Trees, Naïve Bayes Classifiers (NBC), Statistical analysis, dan lain lain
(Gorunescu, 2011).
Beberapa penelitian mengenai analisis prediksi kelulusan mahasiswa
dengan metode klasifikasi data mining telah banyak dilakukan diantaranya
adalah yang dilakukan oleh Hilda Amalia pada tahun 2012 yaitu
mengkomparasi algoritma C4.5, naïve bayes, dan neural network. Dalam
penelitian tersebut diketahui bahwa algoritma Nilai akurasi dan AUC tertinggi
adalah neural network dan ternyata C4.5 masih tergolong fair classifacition.
Dalam penelitian yang dilakukan Hilda belum ada optimasi dari algoritma yang
digunakan, maka dimungkinkan untuk menggabungkan teknik algoritma lain
dalam upaya meningkatkan akurasi dan AUC dari C4.5.
Decision tree memang populer dan sering digunakan dalam klasifikasi
karena memiliki hasil yang cukup baik jika dibanding algoritma lainnya. C4.5
juga dalam membentuk suatu model pembelajaran dari data tergolong cepat,
selain itu karena model digambarkan dalam bentuk diagram pohon
maka
mudah dipahami. Namun, jika ada data yang tidak relevan dapat menurunkan
akurasi C4.5 (Tsai & Chen, 2009). Di C4.5 seluruh atribut diseleksi untuk
kemudian dibagi menjadi himpunan bagian yang lebih kecil (wu, 2009).
Dengan jumlah data yang terlalu banyak, model yang terbentuk menjadi sulit
dibaca seperti terbentuknya node yang redundant. Data yang akan diolah
sebaiknya dilakukan proses pre-prosesing data.
Dibawah ini merupakan beberapa kelebihan dari pohon keputusan
(Gorunescu, 2011):
a. Hasil analisa berupa diagram pohon yang sangat mudah dimengerti.
b. Mudah untuk dibangun, serta membutuhkan data percobaan yang
lebih sedikit dibandingkan algoritma klasifikasi lainnya.
c. Mampu mengolah data nominal dan kontinyu.
5
d. Model yang dihasilkan dapat dengan mudah dimengeri, berbeda
dengan teknik klasifikasi yang lain seperti neural network yang
menyajikan model dengan informasi logis yang tersirat.
e. Menggunakan teknik statistik sehingga dapat divalidasikan.
f. Waktu komputasi relative lebih cepat dibandingkan teknik klasifikasi
yang lain.
g. Akurasi yang dihasilkan mampu menandingi teknik klasifikasi yang
lainnya.
Salah satu algoritma optimasi yang cukup populer adalah PSO (Particle
Swarm Optimization). PSO banyak digunakan untuk memecahkan masalah
optimasi, serta sebagai masalah seleksi fitur (Liu, Wang, Chen, Dong, Zhu, &
Wang, 2011). Algoritma PSO terinspirasi dari sekelompok burung yang
bergerak secara dinamis kemudian dapat bersinergi serta dapat terorganisir.
Ketika diterapkan dalam beberapa kasus untuk mengoptimalisasi algoritma
klasifikasi, mampu meningkatkan akurasi lebih baik daripada Genetic
Algorithm adalah PSO(Sousa, Silva, & Neves, 2004, p. 768).
2.
Rumusan Masalah
Prediksi kelulusan mahasiswa menjadi sangat penting untuk diketahui
bagi civitas akademik sebagai model pertimbangan dalam menentukan
kebijakan terkait kemudian memberikan treatment atau rangsangan terhadap
mahasiswa
diperkirakan
terlambat
lulus.
Berdasarkan
latar
belakang
permasalahan yang ada, penelitian yang menggunakan algoritma C4.5 untuk
prediksi kelulusan mahasiswa masih kurang akurat. Diperlukan algoritma
optimasi yang diterapkan untuk pembobotan atribut pada algoritma Particle
Swarm Optimization (PSO) agar nilai akurasi lebih tinggi. Kemudian hasil
6
pengolahan data dapat digunakan sebagai salahsatu dasar pertimbangan untuk
membuat suatu sistem pendukung keputusan dan dimanfaatkan oleh civitas
akademik perguruan tinggi.
3.
Batasan Masalah
Penelitian ini dibatasi pada perbandingan metode klasifikasi data mining
yang menggunakan algoritma C4.5 dengan algoritma C4.5 berbasis PSO pada
pembobotan
atribut
dalam
prediksi
kelulusan
mahasiswa
kemudian
mengevaluasi hasil perbandingan untuk mengetahui dampak dari optimalisasi
PSO. Data diperoleh dari kelulusan mahasiswa sebuah perguruan tinggi.
Batasan masalah lebih rinci adalah sebagai berikut :
1. Teknik yang digunakan merupakan teknik klasifikasi data mining.
2. Algoritma yang dipakai adalah decision tree khususnya C4.5 berdasar
pada information gain.
3. Teknik optimasi yang dipakai adalah Particle Swarm Optimization
(PSO).
4.
Tujuan Penelitian
Tujuan dari penelitian ini adalah membuktikan bahwa optimalisasi
dengan berdasar algoritma PSO yang digunakan untuk memilih dan memberi
bobot atribut dari dataset pada algoritma C4.5 dapat meningkatan akurasi
analisa
kelulusan
mahasiswa
menggunakan algoritma C4.5.
dibanding
akurasi
analisa
yang
hanya
7
5.
Manfaat Penelitian
a. Bagi Akademik
Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :
a. Memberikan
informasi
untuk
menganalisa
kelulusan
mahasiswa yang dimungkinkan akan lulus tepat atau terlambat
dan dapat membantu civitas akademik perguruan tinggi untuk
memberikan peringatan dini dan pembimbingan awal bagi
mahasiswa yang kemungkinan tidak lulus tepat waktu.
b. Membantu perguruan tinggi dalam membuat kebijakan untuk
bisa meningkatkan kelulusan mahasiswa.
b. Bagi Masyarakat dan Ilmu Pengetahuan
Hasil dari penelitian ini dapat dimanfaatkan sebagai berikut :
a. Memberikan
klasifikasi
pertimbangan
yang
digunakan
dimanfaatkan tidak hanya
bahwa
pada
teknik
atau
penelitian
fokus pada
ini
model
dapat
masalah dunia
pendidikan, seperti bank, penjualan, kasus bisnis lain.
c. Bagi Peneliti
Manfaat yang dapat di ambil dari penelitian ini adalah :
a. Memberikan kontribusi keilmuan pada penelitian bidang
klasifikasi data mining khususnya untuk prediksi kelulusan
mahasiswa.
b. Dapat mengetahui perbandingan tingkat akurasi dan error
terhadap algoritma yang digunakan.
c. Memberikan prediksi
digunakan untuk rujukan penelitian
selanjutnya dengan metode yang sama ataupun pengoptimalan
dengan algoritma lain.
BAB II
TINJAUAN PUSTAKA
Penelitian TA ini menggunakan beberapa referensi media sebagai landasan
teori diantaranya buku, jurnal baik jurnal nasional maupun internasional serta
prosiding sebagai referensi.
2.1
Tinjauan studi
Beberapa jurnal dan artikel penelitian yang berhubungan dengan
teknik klasifikasi algoritma data mining yang memiliki keterkaitan dalam
topik penelitian yaitu :
1. Analisa dan Komparasi Metode Klasifikasi Data Mining untuk Prediksi
Kelulusan Mahasiswa.(Hilda Amalia, 2012)
Membuat penelitian model dengan menggunakan tiga algoritma
yaitu C4.5, neural network dan naïve bayes dan membandingkannya
untuk menemukan algoritma terbaik dalam menyelesaikan masalah
prediksi
kelulusan
mahasiswa
menggunakan
variabel
fakultas,
IPS(Indeks Prestasi Semester), umur dan jenis kelamin.
2. Drop Out Feature of Student Data for Academic Using Decision Tree
Techniques (Quadri & Kaylanyar, 2010)
Melakukan penelitian dengan menggunakan algoritma J4.8 dan
nantinya akan menggunakan C4.5 untuk memodelkan prestasi akademik
siswa sangat penting bagi lembaga pendidikan untuk menyusun rencana
strategis menghasilkan pohon keputusan.
3. Graduation Prediction of Gunadarma Student Using Naïve Bayes and
Decision Tree (Suhartina & Ernastuti, 2010)
Penelitian ini membandingkan keakuratan antara algoritma native
bayes dengan C4.5 berdasar pada variabel ips(indek prestasi semester)
dan
gaji
orang
8
tua.
9
4. Prediksi Loyalitas Pelanggan Pada Perusahaan Penyedia Layanan
Multimedia
Dengan
Algoritma
C4.5
Berbasis
Particle
Swarm
Optimization(Desiyanna Lasut, 2012)
Penelitian yang dilakukan adalah memaksimalkan algoritma C4.5
dengan PSO dan membandingkan hasil keakurasian yang diperoleh
untuk memprediksikan kemungkinan loyal atau tidak.
Tabel 2.1 State of the art
n
o
1
2
Peneliti
Desiyan
na Lasut
Hilda
t
a
h
u
n
Judul
2
0
1
2
Prediksi Loyalitas
Pelanggan Pada
Perusahaan
Penyedia Layanan
Multimedia
Dengan Algoritma
C4.5 Berbasis
Particle Swarm
Optimization
2
0
1
2
ANALISA DAN
KOMPARASI
METODE
KLASIFIKASI DATA
MINING UNTUK
PREDIKSI
KELULUSAN
MAHASISWA
metode
Hasil
Catatan
C4.5 dan
C4.5
optimasi
dengan
PSO
Penggunaan PSO dalam
pembobotan
attribut
dapat mengolah data
numerik
sehingga
meningkatkan akurasi
model yang digunakan.
Dengan akurasi dari
78.40 menjadi 80.90
dan
AUC dari 0.794 menjadi
0.841
1. attribut yang diolah sebaiknya
diproses terlabih dahulu, proses
diskretisasi, pengelompokkan
nilai attribut dapat secara efektif
meningkatkan akurasi dari
algoritma C4.5, 2. atribut numerik
yang diolah dapat ditingkatkan,
dengan begitu optimasi bobot
oleh algoritma PSO dapat lebih
efektif.
1.
Algoritma
C4.5
menghasilkan
nilai
akurasi yaitu 74.33%
dan nilai AUC yaitu
0.787, 2. Naïve Bayes
menghasilkan
nilai
akurasi yaitu 69.72%
dan nilai AUC yaitu
0.829,
3.
Neural
Network menghasilkan
nilai
akurasi
yaitu
78.29% dan nilai AUC
yaitu 0.848, 4. Nilai
akurasi
dan
AUC
tertinggi adalah metode
Neural Network
1. Atribut jenis kelamin tidak
berpengaruh pada hasil pohon
keputusan,
sehingga
perlu
dilakukan penyeleksian atribut
seperti penggunaan Chi-Square,
2. Nilai akurasi yang dihasilkan
dari setiap metode berada pada
nilai 60-70 % saja, sehingga masih
bisa di tingkatkan dengan
menggunakan metode optimasi
seperti AdaBoost, PSO atau yang
lainnya, 3. Nilai akurasi dan AUC
tertinggi untuk penelitian ini
diperoleh oleh metode neural
network dengan nilai 78.13% dan
0.848, yang termasuk kategori
baik namun belum sangat baik,
sehingga
dapat
dilakukan
perbandingan
lagi
dengan
metode klasifikasi data mining
lainnya
C4.5,
neural
network
dan
naïve
bayes
10
3
4
5
Susanto
Kahfi
Heryandi
Suradiraj
a
Firmansy
ah
2
0
1
2
2
0
1
2
2
0
1
1
Segmentasi dan
Klasifikasi Perilaku
Pembayaran
Pelanggan pada
Perusahaan
Penyedia Layanan
Multimedia
dengan Algoritma
K-Means dan C4.5
DETEKSI
TRANSAKSI
PENCUCIAN UANG
DENGAN
ALGORITMA
KLASIFIKASI C4.5
Penerapan
Algoritma
Klasifikasi C4.5
untuk Penentuan
Kelayakan
Pemberian Kredit
Koperasi
C4.5 dan
C4.5
optimasi
dengan
K-Means
C4.5
C4.5
1.
Dengan
menggunakan k-means,
tingkat
potensial
pelanggan dapat diukur,
selain
itu
dapat
membentuk
atribut
yang handal untuk
proses klasifikasi, 2.
Peningkatan
model
yang terbentuk cukup
signifikan peningkatan.
Hasil
Akurasi dari
59.02% menjadi 77.31%
dan AUC dari 0.537
menjadi 0.836
1. algoritma klasifikasi
C4.5 pada data
transaksi perbankan
yang memiliki akurasi
terbaik untuk C4.5
adalah menggunakan
Pre-Pruning dan
Pruning yakni dengan
nilai AUC 0.936
(Excelent Classification).
2. Pengaruh penerapan
Pruning dan PrePruning keduanya
sebagai parameter
dapat meningkatkan
akurasi algoritma
decision tree, pada
information gain atau
ID3 memiliki nilai 0.865,
pada gini index memiliki
nilai AUC 0.907 dan
pada C4.5 memiliki nilai
AUC terbaik 0.936.
algoritma klasifikasi
C4.5 akurat diterapkan
untuk penentuan
kelayakan kredit
koperasi, dengan
tingkat keakuratan 90%
1. Karena data yang dimiliki
sebagian besar terdiri dari nilai
numerik,
dapat
dilakukan
diskretisasi. 2. Dapat menerapkan
algoritma
optimasi
untuk
pemilihan
atribut,
atau
penyesuaian nilai parameter.
Menggunakan algoritma lain yang
lebih cocok dalam pengolahan
data numerik seperti chi square
agar didapat titik perpecahan
yang lebih beragam
1. Membandingkan tingkat
akurasinya dengan model
algoritma lain seperti Naive Bayes
atau Support Vector Machine. 2.
Membandingkan hasil akurasinya
dengan data yang bukan
imbalance. 3. Membandingkan
pengukuran akurasi dengan
model evaluasi lain seperti
Precission and Recall atau Costsensitive Measure
1.Melakukan pruning sehingga
pohon yang terbentuk tidak
terlalu
besar,
untuk
mengefisienkan
kinerja
dari
pohon
keputusan
tanpa
mengurangi
keakuratannnya
2.Untuk menambah keakuratan,
algoritma
C4.5
dapat
digabungkan dengan metode lain
seperti naive bayes atau support
vector machine 3.Penelitian
dapat dikembangkan dengan
menggunakan metode seleksi
atribut yang lain seperti chisquare, gini index dan sebagainya
untuk ketepatan penyeleksian
atribut
11
2
0
1
1
Komparasi
Algoritma
Klasifikasi Data
Mining untuk
Penentuan
Kelayakan
Pembiayaan
Konsumen Kredit
Kendaraan
Bermotor
C4.5,
naïve
bayes
dan
neural
network
7
Siti
Masripa
h
2
0
1
1
Algoritma
Klasifikasi C4.5
berbasis PSO
(Particle Swarm
Optimization)
untuk Evaluasi
Penentuan
Kelayakan
Pemberian Kredit
Koperasi Syariah
C4.5 dan
C4.5
optimasi
dengan
PSO
8
M. N.
Quadri
and N.V.
Kalyanka
r
2
0
1
0
Drop Out Feature
of Student Data
for Academic
Performance
Using Decision
Tree Techniques
decision
tree J48
6
9
Henilei
Marselin
a Silvia
Suhartin
ah,
Ernastuti
2
0
1
0
GRADUATION
PREDICTION OF
GUNADARMA
UNIVERSITY
STUDENTS USING
ALGORITHM AND
NAIVE BAYES C4.5
ALGORITHM
Naive
Bayes,
C4.5
•metode
pengujian
Cross
Validation,
Confusion Matrix dan
Kurva ROC, diketahui
bahwa algoritma C4.5
memiliki nilai accuracy
dan AUC paling tinggi,
diikuti oleh metode
neural network, dan
yang paling rendah
metode naïve bayes
•Metode C4.5 dan
neural
network
termasuk
kelompok
klasifikasi sangat baik
karena nilai AUC-nya
antara
0.90-1.00
sedangkan nilai AUC
metode naïve bayes
termasuk
kelompok
klasifikasi baik karena
nilai AUC-nya antara
0.80-0.90.
1. Nilai akurasi untuk
algoritma
klasifikasi
C4.5
senilai
88%
sedangkan untuk nilai
akurasi algoritma C4.5
berbasis PSO (Particle
Swarm
Optimization)
senilai 94%, 2. Nilai AUC
untuk algoritma C4.5
senilai 0,898 dengan
diagnosa
Good
Classification.
Sedangkan nilai AUC
untuk algoritma C4.5
berbasis PSO (Particle
Swarm
Optimization)
senilai 0.955 dengan
diagnosa
Excellent
Classification
•Agar hasil penelitiannya lebih
bisa digeneralisasi secara luas,
untuk penelitian selanjutnya,
dapat
dilakukan
penelitian
dengan data yang berasal dari
banyak perusahaan leasing.
N.A
N.A
N.A
prediksi
ketepatan
dengan algoritma C4.5
85,7% dan error 14,3%,
sedangkan
algoritma
naïve bayes 80,85% dan
error 19,05%
Pada penelitian kali ini data
training yang digunakan terbatas
yaitu sebanyak 65 record data
dan ketidaklengkapan data yang
diperoleh . Untuk
melihat kinerja yang lebih baik
dalam hasil akurasi masingmasing algoritma maka jumlah
record data yang digunakan
untuk proses training sebaiknya
ditingkatkan mendekati jumlah
data sesungguhnya
12
Berdasarkan tinjauan studi diatas ada beberapa peneliti yang sudah
menggunakan C4.5 dan PSO dalam berbagai kasus. Sesuai tabel performa
terbukti menjadi lebih baik jika dikombinasikan dengan algoritma lain pada
seleksi atribut. PSO yang diterapkan pada seleksi atribut terbukti berhasil
meningkatkan akurasi pada C4.5. Penelitian ini menggunakan PSO untuk
menentukan fitur terbaik pada bobot atribut yang sesuai dan optimal pada
C4.5 sehingga hasil prediksi lebih akurat.
2.2
Landasan teori
Penulis meninjau beberapa buku dan jurnal sebagai landasan untuk
menjelaskan berbagai hal yang berhubungan dengan topik penelitian.
2.2.1 Kelulusan Mahasiswa
Mahasiswa merupakan salah satu kelompok masyarakat elite
yang memiliki ciri intelektualitas lebih kompleks dibandingkan dengan
kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia
mereka.
Kemampuan
untuk
menghadapi
kemudian
mencari
pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih
sitematis merupakan ciri dari intelektualitas tersebut (Hilda, 2012).
Kelulusan mahasiwa merupakan hal yang penting untuk diperhatikan,
karena penurunan jumlah kelulusan akan menghilangkan jumlah
pendapatan institusi dan juga akan berpengaruh pada penilaian
pemerintah dengan bentuk status akreditasi institusi (Karamouiz &
Vrettos, 2008). Beberapa faktor yang dapat mempengaruhi kelulusan
mahasiswa antara lain adalah nilai akhir SMA, Indeks Prestasi
Semester (IPS), gaji orang tua dan pekerjaan orang tua (Suhartinah &
Ernastuti, 2010).
2.2.2 Data Mining
Data mining adalah suatu proses untuk menemukan hubungan
baru dengan cara memilah-milah data yang sudah ada di dalam
13
database menggunakan teknologi pengenalan pola dan statistik
(Larose, 2005). Data mining adalah proses menggali informasi atau
pola dalam data berukuran besar yang sudah ada dalam database untuk
keperluan tertentu.
Salah satu teknik dari data mining adalah
klasifikasi yang tujuannya membagi objek untuk ditugaskan hanya ke
salah satu nomor kategori yang disebut kelas (Max Bramer, 2007).
Variable target dari klasifikasi adalah variable kategori (Larose, 2005).
Klasifikasi adalah suatu proses pencarian untuk memprediksi kelas
dari suatu obyek yang belum diketahui kelasnya.
2.2.3 CRIPS-DM
Cross-Industry Standart Proses for Data Mining (CRIPS-DM)
dikembangkan pada tahun 1996 oleh analis dari beberapa industri.
CRIPS-DM menyediakan standart proses data mining sebagai
pemecahan masalah secara umum dari bisnis atau unit penelitian.
CRIPS-DM memiliki siklus hidup yang terbagi dalam enam fase, yaitu
(Larose, 2005) :
14
Gambar 2.1 Siklus CRISP-DM (Larose, 2005)
a. Pemahaman Bisnis(Business Understanding)
Merupakan tahap awal yaitu pemahaman penelitian,
penentuan tujuan dan rumusan masalah data mining.
b. Pemahaman Data(Data Understanding)
Dalam tahap ini dilakukan pengumpulan data, mengenali
lebih lanjut data yang akan digunakan.
c. Pengolahan Data(Data Preparation)
Tahap ini adalah pekerjaan berat yang perlu dilaksanakan
secara intensif. Memilih kasus atau variable yang ingin dianalisis,
melakukan perubahan pada beberapa variable jika diperlukan
sehingga data siap untuk dimodelkan.
15
d. Pemodelan(Modeling)
Memilih teknik pemodelan yang sesuai dan sesuaikan
aturan model untuk hasil yang maksimal. Dapat kembali ke tahap
pengolahan untuk menjadikan data ke dalam bentuk yang sesuai
dengan model tertentu.
e. Evaluasi (Evaluation)
Mengevaluasi satu atau model yang digunakan dan
menetapkan apakah terdapat model yang memenuhi tujuan pada
tahap awal. Kemudian menentukan apakah ada permasalahan yang
tidak dapat tertangani dengan baik serta mengambil keputusan
hasil penelitian.
f. Penyebaran (Deployment)
Menggunakan model yang dihasilkan seperti pembuatan
laporan atau penerapan proses data mining pada institusi lain.
2.2.4 Pembobotan atribut
Tidak semua atribut memiliki peranan penting dalam akurasi.
Pembobotan atribut adalah proses pemberian nilai pada setiap atribut
dengan metode tertentu berdasarkan tingkat pengaruhnya
terhadap
nilai akurasi (Witten, 2011). Pembobotan atribut pada penelitian ini
menggunakan metode Particle Swarm Optimization (PSO).
2.2.5 Algoritma C4.5
Disebut juga dengan Desicion Tree adalah pengklasifikasian
statistik yang didasarkan pada Desicion Tree yang dapat digunakan
untuk memprediksi probabilitas keanggotaan suatu kelas. Desicion
Tree terbukti memiliki akurasi dan kecepatan yang tinggi saat
diaplikasikan ke dalam database yang besar (Kusrini, 2009).
16
Desicion Tree menyerupai struktur flowchart, yang masingmasing internal node-nya dinyatakan sebagai atribut pengujian, setiap
cabang mewakili output dari pengujian, dan setiap node daun (terminal
node) menentukan label class. Node paling atas dari sebuah pohon
adalah node akar (Han & Kamber, 2007). Salah satu metode klasifikasi
yang menarik melibatkan konstruksi pohon keputusan, koleksi node
keputusan, terhubung oleh cabang-cabang, memperpanjang bawah dari
simpul akar sampai berakhir di node daun. Dimulai di node root, yang
oleh konvensi
ditempatkan di bagian atas dari diagram pohon
keputusan, atribut diuji pada node keputusan, dengan setiap hasil yang
mungkin dihasilkan dalam suatu cabang. Setiap cabang kemudian
mengarah baik ke node lain keputusan atau ke node daun untuk
mengakhiri (Larose, 2005).
Gambar 2.2 Contoh pohon keputusan yang terbentuk (Santosa, 2007)
Beberapa tahap dalam membuat sebuah pohon keputusan dengan
algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:
1. Menyiapkan data training. Data training biasanya diambil dari
data histori yang pernah terjadi sebelumnya dan sudah
dikelompokan ke dalam kelas kelas tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari atribut
yang terpilih, dengan cara menghitung nilai gain dari masing-
17
masing atribut, nilai gain yang paling tinggi yang akan menjadi
akar pertama. Sebelum menghitung gain dari atribut, hitung
dahulu nilai entropy yaitu:
(2.1)
Keterangan:
S : himpunan kasus
A : atribut
N : jumlah partisi S
Pi : proporsi dari Si terhadap S
3. Kemudian hitung nilai gain dengan metode informasi gain:
(2.2)
4. Ulangi langkah ke-2 hingga semua tupel terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua tupel dalam node N mendapat kelas yang sama.
b. Tidak ada atribut di dalam tupel yang dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang kosong.
Langkah-langkah diatas digunakan untuk menangani atribut
nominal. Perhitungan dengan metode Entropy Based Discretization di
gunakan untuk menangani atribut yang bersifat kontinu. Metode ini
menggunakan entropy sebagai bagian dari proses pemisahan selang
data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai
pemisah yang terbaik maka harus dihitung nilai split ploint, nilai
informasi dari entropi antara 2 sample dengan rumus :
18
1. Urutkan data subset dari yang terkecil sampai yang terbesar.
2. Hitung rataan nilai per 2 data yang bersebelahan yang
digunakan untuk split point dengan formula 2.3. Setiap nilai
rata-rata merupakan titik nilai yang mungkin menjadi titik
perpecahan (split_point) untuk memilih titik terbaik, data akan
dipecah menurut titik yang diuji.
3. Hitung nilai informasi dari kedua sampel(Sₐ) dengan formula
2.5. Kemudian T(split point) yang memilki nilai informasi
terkecil diambil sebagai batas node.
(2.3)
(2.4)
(2.5)
Dimana, T merupakan nilai batas (split point)
2.2.5.1 Pruning dalam pohon keputusan
Untuk mendapatkan data yang benar benar sejenis, maka
akan terbentuk banyak sekali cabang dalam pohon keputusan.
Data yang terlalu beragam ataupun data acak akan membuat
struktur pohon keputusan menjadi terlalu rumit (Alpaydın,
2010). Di dalam pohon keputusan dikenal istilah pruning yaitu
memangkas cabang yang tidak terlalu besar pengaruhnya agar
diagram dihasilkan lebih akurat dan simple.
19
Ada dua pendekatan pruning yang digunakan :
a. Prepruning menghentikan proses pembuatan cabang pada
titik tertentu. Semakin besar perulangan pembuatan cabang
yang diperbolehkan, semakin besar pula kompleksitas dari
pohon keputusan yang didapat jika data beragam, namun
jika jumlah perulangan terlalu kecil, diagram pohon yang
dihasilkan menjadi kurang akurat.
b. Postpruning memotong cabang pohon yang kurang
mereprensentasikan data setelah sebuah pohon keputusan
terbentuk. Kelas yang diberikan akan diukur dari jumlah
persebaran label yang ada pada cabang tersebut.
Algoritma C4.5 menggunakan pessimistic pruning yang
mampu mengkalkulasi tingkat error yang digunakan sebagai
acuan dalam pemangkasan cabang pohon keputusan. Baik
postpruning dan prepruning dapat dikombinasikan karena
tidakada teknik yang lebih baik antara keduanya. Walaupun
pohonkeputusan yang muncul setelah pruning akan lebih
singkat, namun terkadang masih muncul repetisi dan replikasi
cabang.
Gambar 2.3 Pohon keputusan dengan cabang A5 tidak
konsisten(Desiyana, 2012)
20
Gambar 2.4 Pohon keputusan setelah di pruning(Desiyana, 2012)
2.2.6 Particle Swarm Optimization (PSO)
PSO adalah algoritma pencarian berbasis populasi yang
diinisialisasi dengan populasi solusi acak dan digunakan untuk
memecahkan masalah optimasi (Abraham, Grosan, & Ramos, 2006).
PSO adalah metode optimasi heuristic global yang diperkenalkan oleh
Dokter Kennedy dan Eberhart pada tahun 1995 berdasarkan penelitian
terhadap perilaku kawanan burung dan ikan (Bai, 2010).
Setiap partikel dalam PSO juga dikaitkan dengan kecepatan
partikel terbang melalui ruang pencarian dengan kecepatan yang
dinamis disesuaikan untuk perilaku historis mereka. Oleh karena itu,
partikel memiliki kecenderungan untuk terbang menuju daerah
pencarian yang lebih baik dan lebih baik selama proses pencarian
(Abraham, Grosan, & Ramos, 2006).
Rumus untuk menghitung perpindahan posisi dan kecepatan
partikel yaitu :
ܸ݅ ሺ‫ݐ‬ሻ ൌ ܸ݅ ሺ‫ ݐ‬െ ͳሻ ൅ ܿͳ ‫ ͳݎ‬ൣܺ‫ ݅ ݐݏܾ݁݌‬െ ܺ݅ ሺ‫ݐ‬ሻ൧ ൅ ܿʹ ‫ ʹݎ‬ሾܺ‫ ݐݏܾ݁ܩ‬െ ܺ݅ ሺ‫ݐ‬ሻሿ (2.6)
ܺ݅ ሺ‫ݐ‬ሻ ൌ ܺ݅ ሺ‫ ݐ‬െ ͳሻ ൅ ܸ݅ ሺ‫ݐ‬ሻ (2.7)
21
Dimana :
·
Vi (t) = kecepatan partikel i saat iterasi t
·
Xi (t) = posisi partikel i saat iterasi t
·
c1 dan c2 = learning rates untuk kemampuan individu (cognitive)
dan pengaruh sosial (group)
·
r1 dan r2 = bilangan random yang berdistribusi uniformal dalam
interval 0 dan 1
·
XPbesti = posisi terbaik partikel i
·
XGbest = posisi terbaik global
2.2.7 Cross validation
Cross validation adalah teknik pengambilan sampel secara
random yang menjamin setiap jumlah kemunculan data yang diamati
dama dengan jumlah data training dan hanya sekali pada data testing
(Vercellis, 2009).
Dalam cross validation kita harus menetapkan
jumlah partisi atau fold, standar yang biasa digunakan untuk
memperoleh estimasi kesalahan terbaik adalah 10 kali partisi atau
tenfold cross-validation (Gorunescu, 2011). Data dibagi secara random
menjadi 10 bagian dengan perbandingan yang sama kemudian error
rate dihitung bagian demi bagian, selanjutnya error rate secara
keseluruhan diperoleh dari menghitung rata-rata error rate dari 10
bagian
.
Gambar 2.5 Ilustrasi tenfold cross validation
22
2.2.8 Confusion matrix
Untuk
melakukan
evaluasi
terhadap
model
klasifikasi
berdasarkan perhitungan objek testing mana yang diprediksi benar dan
tidak benar. Perhitungan ini ditabulasikan kedalam tabel yang disebut
confusion matrix (Gorunescu, 2011). Confusion matrix merupakan
data set hanya memiliki dua kelas, kelas yang satu sebagai positif dan
kelas yang lain sebagai negatif. Terdiri dari empat sel yaitu True
Positives (TP), False Positives (FP), True Negatives (TN) dan False
Negatives (FN) (Max Bramer, 2007).
Gambar 2.6 Confusion matrix untuk 2 model kelas (Gorunescu, 2011)
Untuk menghitung akurasi menggunakan rumus (Gorunescu,
2011):
‫ ݕܿܽݎݑܿܿܣ‬ൌ
ܽ ൅݀
ܽ ൅ܾ൅ܿ൅݀
ൌ
ܶܲ൅ܶܰ
(2.8)
ܶܲ൅‫ܲܨ‬൅ܶܰ൅‫ܰܨ‬
Tabel 2.2 Contoh confusion matrix
Model C4.5
Kelas yang di amati
Kelas yang prediksi
250
45
5
200
Dari table di atas dapat dilakukan pengukuran akurasi model
C4.5 sebagai berikut :
23
—”ƒ•‹ ൌ ʹͷͲ ൅ ʹͲͲ
ͶͷͲ
ൌ
ൌ ͻͲΨ
ʹͷͲ ൅ Ͷͷ ൅ ͷ ൅ ʹͲͲ
ͷͲͲ
2.2.9 Kurva ROC
Kurva ROC menunjukan visualisasi dari akurasi model dan
perbandingkan
perbedaan
antar
model
klasifikasi.
mengekspresikan confusion matrix (Vercellis, 2009).
ROC
ROC adalah
grafik dua dimensi dengan false positives sebagai garis horizontal dan
true positives untuk mengukur perbedaaan performasi metode yang
digunakan.
menguji
Kurva ROC adalah teknik untuk memvisualisasi dan
kinerja
pengklasifikasian
berdasarkan
performanya
(Gorunescu, 2011). Model klasifikasi yang lebih baik adalah yang
mempunyai kurva ROC lebih besar (Vercellis, 2009).
Performa
keakurasian AUC dapat diklasifikasikan menjadi lima kelompok yaitu
(Gorunescu, 2011):
a. 0.90 – 1.00 = Unggul
b. 0.80 – 0.90 = Baik
c. 0.70 – 0.80 = Cukup
d. 0.60 – 0.70 = Kurang
e. 0.50 – 0.60 = Gagal
2.2.10 Kerangka pemikiran
Masalah yang ditemui pada penelitian ini adalah kurang
akuratnya
algoritma
C4.5
untuk
mahasiswa. Maka digunakan model
memprediksikan
kelulusan
algoritma Particle Swarm
Optimization (PSO) dalam seleksi atribut pada algoritma C4.5 untuk
meningkatkan akurasi. Desain penelitian ini menggunakan CRISP-DM
dan
RapidMiner
digunakan
sebagi
aplikasi
model
pengembangannya. Kemudian dilakukan pengujian hasil
untuk
terhadap
24
kinerja dari algoritma C4.5 dan algoritma C4.5 berbasis PSO dengan
menggunakan metode Cross Validation, tingkat akurasi algoritma
diukur dengan Confusion Matrix dan AUC dengan kurva ROC. Dari
hasil perbandingan nilai akurasi maka akan diketahui dampak
penerapan PSO di algoritma C4.5.
masalah
metode
Algoritma C4.5
Pengembangan
Rapid miner
framework
Penerapan CRISPDM
Data set mahasiswa
lulus tepat waktu dan
terlambat
Pengujiaan
confusion matrix
dan AUC
akurasi
Kurang akuratnya
algoritma C4.5 untuk
memprediksikan
kelulusan mahasiswa
Algoritma C4.5
berbasis PSO pada
seleksi atribut dan
bobot
Rapid miner
framework
Data set mahasiswa
lulus tepat waktu dan
terlambat
Gambar 2.7 Kerangka pemikiran
akurasi
BAB III
METODE PENELITIAN
3.1
Desain penelitian
Metode yang digunakan dalam penelitian ini adalah model CRISPDM, dengan langkah-langkah sebagai berikut :
3.1.1
Pengumpulan data
3.1.1.1
Pemahaman bisnis (Bussiness understanding)
Berbagai
perguruan
tinggi
bersaing
untuk
meningkatkan tingkat kelulusan sesuai dengan misi masingmasing pergururuan tinggi dalam mendidik mahasiswa (yaitu
menghasilkan lulusan) yang akan menjadi anggota produktif
masyarakat
dan
berkontribusi
terhadap
kesejahteraan
ekonomi bangsa. Selain itu, masing-masing perguruan tinggi
mengetahui bahwa jumlah siswa yang putus diterjemahkan
sebagai hilangnya pendapatan bagi lembaga pendidikan
tersebut (Karamouiz & Vrettos, 2008). Penilaian publik
biasanya berdasar pada ketepatan lulus dari mahasiswa atau
siswa sebuah institusi pendidikan maka ini berpengaruh pada
tingkat kredibilitas dan eksisnya institusi tersebut.
Quadri et al(Quadri & Kalyankar, 2010) berpendapat
bahwa wisuda yang tepat waktu merupakan isu yang penting
karena tingkat kelulusan sebagai dasar efektifnya suatu
kelembagaan. Jika terjadi penurunan tingkat kelulusan secara
signifikan dan terus berkembang maka akan menjadi
permasalahan yang serius. Bahkan dapat mempengaruhi
akreditasi perguruan tinggi tersebut. Untuk itu pemantauan
dan evaluasi secara berkala terhadap kecenderungan tingkat
kelulusan mahasiswa diperlukan. Jadi, prediksi untuk
25
26
kelulusan sangat diperlukan untuk dapat memberikan
pertimbangan kebijakan yang akan diambil oleh lembaga
pendidikan setelah mengetahui kemungkinan aset mereka
berupa mahasiswa akan telat untuk kelulusannya.
3.1.1.2
Pemahaman data (Data understanding)
Data yang digunakan pada penelitian ini berasal dari
penelitian Hilda tahun 2012 level thesis STIMIK NUSA
MANDIRI JAKARTA yang berupa lampiran data kelulusan
mahasiswa berjumlah 1632 record dan terdiri dari 14 atribut,
dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal.
Data tersebut digunakan oleh Hilda untuk dilakukan prediksi
kelulusan mahasiswa(Hilda, 2012).
Gambar 3.1 Data yang dilampirkan oleh Hilda (kolom status
terpotong)
27
Setelah data tersebut dilakukan penulisan kembali
dalam bentuk yang sama disimpan dengan ekstensi excel maka
tampilan data seperti dibawah ini :
Gambar 3.2 Data set dalam bentuk excel
3.1.2
Pengolahan Data (Data preparation)
Dalam tahap ini, data yang akan dipergunakan adalah
sebagai berikut :
Table 3.1 Kedudukan atribut yang akan digunakan
Atribut
NIP
NAMA
FALKULTAS
Jeniskelamin
Umur
IPS1
IPS2
IPS3
IPS4
IPS5
IPS6
IPS7
IPS8
STATUS
Kegunaan
√
X
√
√
√
√
√
√
√
X
X
X
X
√
ID
No
regular(nilai model)
regular(nilai model)
regular(nilai model)
regular(nilai model)
regular(nilai model)
regular(nilai model)
regular(nilai model)
No
No
No
No
Label (hasil)
28
Tabel 3.2 Ilustrasi Missing Data dan atribut yang akan
digunakan untuk pemodelan dalam bentuk excel
NIP
FALKULTAS
jeniskelamin
umur
IPS1
76183
ILMUPENDIDIKAN
PEREMPUAN
21
3.44
3.43
3.91
3.45
70029
76152
76174
ILMUPENDIDIKAN
ILMUPENDIDIKAN
ILMUPENDIDIKAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
21
4
0
3.56
3.13
2.9
3.26
3.43
3
3.91
3.55
3.03
3.36
21
IPS2
IPS3
IPS4
STATUS
TEPAT
TEPAT
TEPAT
TEPAT
Kemudian dari data diatas maka langkah berikutnya dilakukan
replace missing value berdasar pada model average yaitu
menggantikan nilai yang kosong dengan nilai rataan yang akan
muncul pada data traning tersebut.
Tabel 3.3 Contoh Data Traning yang telah di replace missing
value
3.1.3
NIP
FALKULTAS
jeniskelamin
IPS1
IPS2
IPS3
IPS4
76049
ILMUPENDIDIKAN
LAKI-LAKI
umur
27
0
0
2.76
2.99
STATUS
TEPAT
76050
ILMUPENDIDIKAN
PEREMPUAN
26
0
0
3
2.9
TEPAT
76120
ILMUPENDIDIKAN
PEREMPUAN
23
3.13
3.5
3.67
3.54
TEPAT
76149
ILMUPENDIDIKAN
LAKI-LAKI
22
3.33
3.52
4
3.55
TEPAT
76151
ILMUPENDIDIKAN
PEREMPUAN
22
3.44
3.26
3.65
3.45
TEPAT
76152
ILMUPENDIDIKAN
PEREMPUAN
24
0
2.9
3
3.03
TEPAT
76154
ILMUPENDIDIKAN
PEREMPUAN
22
3.22
3.35
3.3
3.36
TEPAT
76155
ILMUPENDIDIKAN
PEREMPUAN
23
3.22
3.26
3.65
3.82
TEPAT
76157
ILMUPENDIDIKAN
PEREMPUAN
22
2.89
3.3
3.65
3.09
TEPAT
Pemodelan (Modelling)
Terdapat dua metode yang digunakan yaitu algoritma C4.5
dan algoritma C4.5 yang dikombinasikan dengan algoritma PSO
pada seleksi atribut. Untuk membandingkan atau mengkomparasi
dalam penelitian ini akan menggunakan framework RapidMiner versi
5.3 sehingga akan ditemukan algoritma mana yang paling akurat.
29
Data set
Preprocesing
Replace Missing value
New data set
Modelling
C4.5
Traning Data
Modelling
C4.5 + PSO
Traning Data
Evaluation
Confusion Matrix
Data testing
Data testing
Kurva ROC
Compare
- Accuracy
- AUC Perform
Gambar 3.3 Model yang di usulkan
act Gambaran umum data proses
start
optimasi pso ?
replace missing v alue pada dataset
dengan model av erage
Pemberian bobot pada tiap
atribut
[ya]
[tidak]
menghitung nilai ENTROPY dari total
data traning berdasar j umlah kasus
meruj uk ke label/hasil
menghitung nilai ENTROPY tiap
atribut yang memiliki subset
berdasar j umlah kasus meruj uk ke
label/hasil
perhitungan
dikelompokkan per atribut
dari subset atribut yang
ada didalamnya
data bersifat kontinyu ?
[ya]
[tidak]
menghitung nilai
INFORMATION GAIN
subset data dari atribut
diurutkan dari yang
terkecil ke yang terbesar
menghitung nilai entropy
tiap atribut dikalikan bobot
menghitung information
gain atribut tersebut
menghitung nilai
information gain dari
entropy
menghitung rata-rata nilai
dari tiap subset data yang
bersebelahan per 2 data
(MEAN)sebagai split point
Setiap
perhitungan
information
gain, entropi
berdasar
nilai bobot
untuk
menentukan
split point
menghitung nilai entropi
tersendiri untuk nilai
rataan/split point berdasar
nilai entropy yang
mengapitnya
[ya]
[tidak]
menghitung information
gain berdasar bobot
menentukan nilai split
point yang diambil
berdasar information gain
atribut- entropi tersendiri
diambi split info nilainya
ter kecil
menetukan information
gain terbesar untuk
dij adikan node/tupel
tertinggi
node subset atribut
sebagai batas untuk
perhitungan node
dibaw ahnya
data bersifat kontinu ?
menentukan simpul
berikutnya/node
dibaw ahnya
proses selesai ?
[tidak]
[tidak]
[ya]
node terpilih berupa nilai kontinyu
nilai / range nilai node diatasnya
sebagai batas dan tidak bisa
muncul di node baw ahnya
Gambar 3.4 Model proses yang di usulkan
[ya]
finish
30
Setelah memodelkan alur proses yang akan dilakukan, maka akan
ilakukan pembentukan pohon keputusan. Perhitungan secara manual
diberikan berdasar model C4.5 dan C4.5+PSO pada sub-bab dibawah ini.
3.1.3.1
Model C4.5
Beberapa tahap dalam membuat sebuah pohon keputusan
dengan algoritma C4.5 (kusrini & Lutfi, 2009), yaitu:
1. Menyiapkan data training. Data training biasanya
diambil
dari
data
histori
yang
pernah
terjadi
sebelumnya dan sudah dikelompokan ke dalam kelas
kelas tertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari
atribut yang terpilih, dengan cara menghitung nilai gain
dari masing-masing atribut, nilai gain yang paling tinggi
yang akan menjadi akar pertama. Sebelum menghitung
gain dari atribut, hitung dahulu nilai entropy yaitu:
Table 3.4 Jumlah kasus dari tiap atribut
Simpul
Jumlahkasus
fakultas
bahasa dan seni
ekonomi
ilmu
keolahragaan
ilmu pendidikan
ilmu sosial
matematika dan
ipa
teknik
jenis kelamin
laki-laki
perempuan
Kasus
1632
Tepat
684
Terlambat
948
267
290
167
187
100
103
91
377
228
3
137
100
88
240
128
208
171
46
44
162
127
517
1115
Dst
155
529
362
586
31
(3.1)
Etotalkasus(684,948) = - (684/1632)*log2(684/1632)(948/1632)*log2(948/1632)
= 0.981
Dengan perhitungan yang sama dilakukan terhadap tiap
atribut dengan berdasar pada pengelompokan jumlah kasus
pada tiap atribut dan subset atribut didalamnya.
3. Kemudian hitung nilai gain dengan metode informasi
gain:
(3.2)
Contoh perhitungan gain pada atribut fakultas berdasar
jumlah kasus per subset atribut yaitu:
Ebahasa&seni(167,100)=
-(167/267)*log2(167/267)(100/267)*log2(100/267)
= 0.954
Eekonomi(187,103)
=
-
(187/290)*log2(187/290)-
(103/290)*log2(103/290)
= 0.939
Eilmuolahraga(3,88)
=
-
(3/91)*log2(3/91)-
(88/91)*log2(88/91)
= 0.209
32
Eilmpendidikn(137,240) = - (137/377)*log2(137/377)(240/377)*log2(240/377)
= 0.945
Eilmusosial(100,128) = - (100/228)*log2(100/228)(128/228)*log2(128/228)
= 0.989
Emtk&ipa(46,162)
=
-
(46/208)*log2(46/208)-
(162/208)*log2(162/208)
= 0.762
Eteknik(44,127)
=
-
(44/171)*log2(44/171)-
(127/171)*log2(127/171)
= 0.823
Setelah perhitungan subset
atribut diatas, maka
lanjutkan menghitung information gain yaitu :
Gain = 0.981-( (267/1632 * 0.954 )+(290/1632*0.939)+
(91/1632*0.209)+(377/1632*945)+(228/1632*98
9)+(208/1632*0.762)+(171/1632*0.823) )
= 0.107
4. Ulangi langkah ke-2 hingga semua tupel terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat:
a. Semua tupel dalam node N mendapat kelas yang sama.
b. Tidak ada atribut di dalam tupel yang dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang kosong.
33
Perhitungan gain selengkapnya akan ditampilkan pada
table berikut ini :
Tabel 3.5 Hasil perhitungan gain untuk menentukan
node tertinggi
Simpul
Jumlahkasus
Fakultas
bahasa dan seni
Ekonomi
ilmu keolahragaan
ilmu pendidikan
ilmu social
matematika dan ipa
Teknik
jenis kelamin
laki-laki
Perempuan
Umur
<= 22.5
>22.5
IP1
IP2
IP3
IP4
Kasus
1632
Tepat
684
Terlambat
948
entropi
0.981041
S/Stotal*E
Gain
267
290
91
377
228
208
167
187
3
137
100
46
100
103
88
240
128
162
0.954088
0.938603
0.20906
0.945465
0.989093
0.762269
0.156092
0.166786
0.011657
0.218407
0.138182
0.097152
171
44
127
0.82266
0.086198
517
1115
155
529
362
586
0.881054
0.998114
0.279109
0.681922
0.02001
532
1100
468
216
64
884
0.530225
0.714595
0.172843
0.481651
0.805966
0.869968
0.893624
0.874877
0.326546
0.106567
0.175075
0.111073
0.087416
0.106164
Perhitungan dengan metode Entropy Based Discretization di
gunakan untuk menangani atribut yang bersifat kontinu. Metode ini
menggunakan entropy sebagai bagian dari proses pemisahan selang
data selang kontinu(Jiawei Han, 2001). Untuk menemukan nilai
pemisah yang terbaik maka harus dihitung nilai split ploint, nilai
informasi dari entropi antara 2 sample dengan rumus :
Table 3.6 Jumlah kasus yang terjadi pada subset atribut bersifat
kontinu
umur
jumlah kasus
tepat
Terlambat
20
21
22
23
1632
1
67
464
487
684
1
67
400
125
948
0
0
64
362
24
267
59
208
25
151
14
137
26
70
6
64
40
2
38
27
Dst
34
1. Urutkan data subset dari yang terkecil sampai yang terbesar.
Contoh perhitungan pada atribut umur sebagai berikut :
2. Hitung rataan nilai per 2 data yang bersebelahan yang
digunakan untuk split point . Setiap nilai rata-rata merupakan
titik nilai yang mungkin menjadi titik perpecahan (split_point)
untuk memilih titik terbaik, data akan dipecah menurut titik
yang diuji.
(3.3)
3. Hitung nilai informasi dari kedua sampel(Sₐ). Kemudian T(split
point) yang memilki nilai informasi terkecil diambil sebagai
batas node. Rumus yang digunakan :
(3.4)
(3.5)
Dimana, T merupakan nilai batas (split point)
Dari perhitungan diatas, maka diperoleh nilai informasi
terkecil ialah split point pada 22.5 dengan nilai informasinya
adalah –0.04585.
35
Table 3.7 Split point yang digunakan
pemilihan split terbaik
Split point Nilai informasi
20.5
0.363902
21.5
0.199343
22.5
-0.04585
23.5
-0.00595
24.5
0.198029
25.5
0.304585
Dst
3.1.3.2
Status
no
no
yes
no
no
no
Model C4.5 dioptimasi PSO
Simulasi pembobotan atribut dengan PSO dihitung
berdasar rumus :
(3.6)
(3.7)
Akan ditampilkan seperti tabel dibawah ini dengan
pemisalan menggunakan
15 sampel subset data dalam
atribut yang dipilih secara acak dan iterasi sebanyak 25 kali
untuk menemukan nilai bobot yang terbaik untuk tiap
atribut yaitu minimal dengan nilai 0 atau maksimal dengan
nilai 1.
Tabel 3.8 Hasil perhitungan bobot dari iterasi ke-1 sampai
itersasi ke-25
iterasi fakultas
1
2
3
4
5
6
0.865
0.865
0.660
0.417
0.349
0.307
jenis
kelamin
0.244
0.244
0
0.305
0.343
0.363
umur
IPS1
IPS2
IPS3
IPS4
0.974
0.974
1
0.768
0.767
0.770
0.883
0.883
1
1
1
1
0.487
0.487
0.402
0.195
0.200
0.204
0.866
0.866
1
1
1
1
0.679
0.679
0.674
1
0.970
0.912
36
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0.279
0.259
0.243
0.231
0.221
0.214
0.207
0.201
0.197
0.193
0.189
0.186
0.183
0.322
0.324
0.868
0.869
0.873
0.875
0.375
0.383
0.388
0.392
0.395
0.397
0.398
0.399
0.400
0.401
0.402
0.402
0.403
0
0
0.565
0.574
0.352
0.358
0.774
0.778
0.781
0.785
0.788
0.791
0.793
0.795
0.797
0.799
0.801
0.802
0.804
0.747
0.737
0.969
0.937
0.890
0.862
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0.207
0.209
0.211
0.213
0.214
0.215
0.216
0.216
0.217
0.218
0.218
0.218
0.219
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
0.870
0.837
0.811
0.791
0.773
0.759
0.747
0.736
0.727
0.719
0.712
0.706
0.700
0
0
0
0
0.694
0.733
Berdasar perhitungan diatas, maka bobot memiliki
kecenderungan untuk mendekati nilai minimum dan
maksimum nilai ketika bobot tersebut mendekati nilai 0
lebih banyak daripada nilai 1 dalam rangkaian iterasi maka
dimungkinkan untuk iterasi selanjutnya bobotnya keluar
nilai 0, ketika nilai bobot tersebut mendekati nilai 1 lebih
banyak daripada nilai 0 dalam rangkaian iterasi maka
dimungkinkan untuk iterasi selanjutnya bobotnya keluar
nilai 1, dan jika nilai bobot tersebut bernilai antara 0 dan 1
maka kecenderungan nilai bobot akan menuju ke nilai
maksimum.
Langkah-langkah perhitungan weighting PSO pada
C4.5 seperti dibawah ini :
37
1. Setelah nilai weighting/bobot di peroleh untuk
tiap atribut. Kemudian dilakukan perkalian
bobot dengan probabilitas atribut atau subset
atribut (ping yau, 2009) merujuk pada (kai ming
ting,
2002).
Dengan
perhitungan
sebagai
berikut:
Jika nilai bobot belum terpenuhi penerapan pada
C4.5.
a. Perhitungan probabilitas
(3.8)
b. Perhitungan bobot untuk tiap atribut
(3.9)
c. Perhitungan bobot untuk subset atribut
(3.10)
Keterangan :
p(j|t) : probabilitas
pw(j|t) : prob. Bobot
sampel
w(j)
n(j)ᵗ : banyak sampel
njʷ(t) : nilai atribut
∑n(i)ᵗ : total sampel
yang memiliki bobot
: bobot atribut
∑niʷ(t) : total sampel
yang memiliki bobot
2. Bobot dikalikan dengan probabilitas sampel,
kemudian menghitung nilai entropi untuk tiap
sampel kasus menggunakan formula 3.1.
38
3. Menghitung nilai information gain dari entropi
yang telah ditentukan dilangkah kedua sesuai
formula 3.2.
4. Menghitung nilai split info berdasar formula 3.3.
5. Setelah ditemukan nilai information gain dan
nilai info, maka dihitung nilai informasi split
point dan diambil split point yang memiliki nilai
terkecil.
(3.11)
Keterangan :
Gainweight :
nilai
information
gain
dari
perhitungan entropi yang telah
dikalikan bobot.
Eweight(E,S):
total entropi dari dua sampel
yang
bersebelahan
sesuai
entropi yang telah diberi bobot.
Dari perhitungan diatas yang berdasar pada weight, maka
diperoleh nilai informasi terkecil ialah split point pada 22.5
dengan nilai informasinya adalah 0.521718.
Table 3.9 Split point berdasar weight yang digunakan
pemilihan split terbaik
Split point
Nilai informasi
20.5
0.699577
21.5
0.615132
22.5
0.521718
23.5
0.555593
24.5
0.62234
25.5
0.660614
Dst
Status
No
No
yes
No
No
No
39
3.1.4
Validasi dan evaluasi
Dalam tahap ini dilakukan validasi dan pengukuran
keakuratan hasil yang dicapai oleh model menggunakan beberapa
teknik yang terdapat dalam framework RapidMiner versi 5.3 yaitu
confusion matrix dan kurva ROC untuk pengukuran akurasi model,
dan cross-validation untuk validasi.
Tabel 3.10 Confusion matrik C4.5
true TEPAT
C4.5
true TERLAMBAT
pred. TEPAT
507
82
pred. TERLAMBAT
177
866
Dari table tersebut dapat dihitung akurasinya sebagai berikut :
—”ƒ•‹ ൌ ൬
3.1.5
ͷͲ͹ ൅ ͺ͸͸
൰ ‫ͲͲͳ כ‬Ψ ൌ ͺͶǤͳ͵Ψ
ͷͲ͹ ൅ ͺʹ ൅ ͳ͹͹ ൅ ͺ͸͸
Penyebaran (Deployment)
Hasil penelitian ini adalah analisa yang mengarah ke
Decission Suport System (DSS) dapat digunakan oleh institusi
pendidikan
setingkat
perguruan
tinggi
untuk
memberikan
pertimbangan dalam penentuan langkah selanjutnya menangani
masalah
keterlambatan
mempengaruhi
akreditasi
kelulusan
dari
perguruan
tinggi,
mahasiswa
yang
penilaian
sosial
masyarakat, dan juga dapat digunakan untuk rujukan penelitian
berikutnya serta dapat digunakan sebagai dasar perancangan sebuah
sistem.
40
3.2
Alat penelitian
Dalam penelitian ini penulis menggunakan spesifikasi software dan
hardware sebagai alat bantu dalam penelitian yang tercantum pada tabel 3.11
dibawah ini.
Software
Sistem
Hardware
operasi
:
Windows
Ultimate
7 Prosesor : Intel(R) Core(TM)2Duo
CPU P7570 @2.26Ghz
2.26Ghz
Data mining : RapidMiner versi RAM : 2.00 GB
5.3.008
BAB IV
HASIL DAN PEMBAHASAN
4.1
Validasi dan Evaluasi
Tujuan utama penelitian ini adalah untuk mengetahui nilai akurasi
dari algoritma C4.5 dan C4.5 berbasis PSO pada pembobotan atribut yang
digunakan akan berpengaruh pada hasil pohon keputusan yang terbentuk.
Kemudian, berdasar tingkat akurasi dan kurva AUC digunakan untuk
membandingkan kedua algoritma tersebut sehingga dapat diperoleh salah
satu algoritma yang terbaik.
Penggunaan parameter berpengaruh pada hasil akurasi dan model
yang akan dihasilkan oleh algoritma C4.5. Sesuai perhitungan sebelumnya
menggunakan information gain, maka setting parameter yang digunakan
adalah sebagai berikut :
Gambar 4.1 Setting parameter pada rapidminer
Untuk menentukan akurasi dari setiap algoritma, penelitian ini
menggunakan metode validasi tenfold cross-validation. Desain model C4.5
yang
terdapat
pada
RapidMiner
41
seperti
gambar
4.2.
42
Gambar 4.2 Desain model validasi C4.5
Retrieve berfungsi untuk memasukan data set ke dalam RapidMiner.
Model C4.5 ini menggunakan Entropy by Dizcretization yaitu transformasi
atribut menciptakan kelompok nilai batas rentang terbaik sehingga jumlah
nilai yang unik dalam kelompok rentang hampir sama.
Validation
menggunakan tenfold cross-validation. Didalam validation terdapat dua
kolom, training dan testing. Didalam kolom training terdapat algoritma
klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing
terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan
Performance untuk mengukur performa dari model C4.5 tersebut.
43
Sedangkan desain model C4.5 berbasis PSO pada pembobotan
atribut pada Rapidminer dapat dilihat pada gambar 4.3.
Gambar 4.3 Desain model validasi C4.5 berbasis PSO
Optimize Weights (PSO) untuk menerapkan algoritma PSO pada
pembobotan atribut. Didalam Optimize Weights (PSO) terdapat Validation
yang menggunakan tenfold cross-validation. Didalam validation terdapat
dua kolom, training dan testing. Didalam kolom training terdapat algoritma
klasjikaikasi yang diterapkan yaitu C4.5, sedangkan di dalam kolom testing
terdapat Apply Model untuk menjalankan algoritma/model C4.5 dan
Performance untuk mengukur performa dari model C4.5 tersebut.
44
4.2
Hasil percobaan dan pengujian metode
4.2.1
C4.5
Hasil pemodelan yang telah diproses oleh tools RapidMiner
adalah sebagai berikut :
Gambar 4.4 Hasil perhitungan nilai akurasi dari C4.5 yang
ditampilkan oleh RapidMiner
Gambar 4.5 Hasil peforma AUC dari C4.5 yang ditampilkan oleh
RapidMiner
45
Tabel 4.1 Hasil akurasi dan AUC dari C4.5
C4.5
Percobaaan
1
2
Akurasi
84.13%
84.13%
performa AUC
0.837
0.837
lama
waktu
eksekusi
3s
3s
Hasil di atas menunjukan algoritma C4.5 yang diterapkan
pada data set kelulusan mahasiswa (Hilda, 2012) data menghasilkan
nilai akurasi confusion matrix sebesar 84.13% dan akurasi AUC
0,837 dalam selang waktu 3 detik.
4.2.2
C4.5 berbasis PSO
Pertama, dilakukan uji coba dengan memberi nilai pada
parameter population size
dan maximum number of generation
bernilai default yaitu 5 dan 30.
Table 4.2 Hasil percobaan menggunakan population size dan
maximum number of generation secara berbeda
C4.5+pso
akurasi
performa AUC
lama waktu
eksekusi
parameter pso
85.54% 0.865
4 m 30 s
default
85.54% 0.865
4 m 53 s
default
85.79%
0.868
10 m 05 s
posize=10,generate=30
85.79% 0.868
13 m 15 s
posize=10,generate=40
86.09% 0.883
20 m 23 s
posize=15,generate=40
85.85% 0.865
33 m 24 s
posize=20,generate=50
86.09% 0.883
25 m 16 s
posize=15,generate=50
85.90% 0.870
37 m
posize=25,generate=50
85.97% 0.875
40 m 3 s
posize=30,generate=50
46
Tingkat akurasi
86.09%
86.09%
86.20%
85.97%
85.79%
86.00%
85.80%
85.90%
85.60%
85.85%
85.79%
85.40% 85.17%
85.20%
85.00%
85.17%
84.80%
84.60%
Gambar 4.6 Grafik perbedaan tingkat akurasi C4.5-PSO berdasar
pada population size dan maximum number of generation
Kurva AUC
0.9
0.895
0.89
0.885
0.88
0.875
0.87
0.865
0.86
0.855
0.85
0.845
0.896
0.883
0.896
0.883
0.875
0.868
0.87
0.868
0.865
Gambar 4.7 Grafik perbedaan peforma AUC C4.5-PSO berdasar
pada population size dan maximum number of generation
47
Dari table diatas menunjukkan hasil akurasi dari maximum
number of generation 15 sampai 40 sudah konvergen. Atrinya hasil
akurasi sudah maksimal, jika dilakukan percobaan lagi dengan
maximum number of generation lebih dari 40 maka akan terjadi
overfiting (kelebihan iterasi) yang berdampak pada meningkatnya
waktu eksekusi sedangkan hasil akurasi tidak meningkat. Dengan
demikian diketahui bahwa algoritma C4.5-PSO menghasilkan nilai
akurasi terbaik pada saat population size bernilai 15 dan maximum
number of generation bernilai 40 yaitu akurasi bernilai 86,09 % dan
AUC 0,883 dengan waktu eksekusi 20 menit 23 detik.
Gambar 4.8 Hasil perhitungan akurasi dari C4.5-PSO yang
ditampilkan oleh RapidMiner berdasar pada population size
bernilai 15 dan maximum number of generation bernilai 40
48
Gambar 4.9 Hasil peforma AUC dari C4.5-PSO yang ditampilkan
oleh RapidMiner berdasar pada population size bernilai 15 dan
maximum number of generation bernilai 40
Setelah melakukan pemodelan dan perhitungan berdasar
kedua algoritma diatas, kemudian dilakukan perbandingan hasil yang
berupa nilai akurasi dan peforma AUC. Maka diperoleh data
perbandingan sebagai berikut :
Tabel 4.3 Hasil komparasi C4.5 dan C4.5-PSO
Perbandingan
C4.5
C4.5-PSO
Akurasi confusion matrix (%)
84.13%
86.09%
performa AUC
0.837
0.883
Waktu eksekusi
3s
20 m 23 s
Table 4.3 merupakan hasil akhir percobaan. Memperlihatkan
perbandingan akurasi dan AUC antara algoritma C4.5 dan
algoritma C4.5-PSO.
49
Perbedaan Akurasi
87.00%
86.00%
85.00%
84.00%
83.00%
82.00%
81.00%
86.09%
84.13%
C4.5
C4.5+PSO
Gambar 4.10 Grafik perbedaan tingkat akurasi antara C4.5
dengan C4.5-PSO
Perbedaan kurva AUC
0.89
0.88
0.87
0.86
0.85
0.84
0.83
0.82
0.81
0.883
peforma
0.837
C4.5
C4.5+PSO
Gambar 4.11 Grafik perbedaan peforma AUC antara C4.5
dengan C4.5-PSO
Pembobotan atribut diperlukan karena tidak semua atribut
mempunyai pengaruh terhadap hasil akurasi. Hasil dari pembobotan
atribut oleh PSO pada saat hasil akurasi terbaik dapat dilihat pada
tabel 4.4.
50
Table 4.4 Hasil pembobotan atribut
Atribut
FALKULTAS
jeniskelamin
umur
IPS1
IPS2
IPS3
IPS4
Bobot
1
0
1
1
0
1
0
Terdapat 7 atribut yang digunakan, dan 3 atribut bobotnya
bernilai 0 atau tidak berpengaruh terhadap akurasi yaitu jenis
kelamin, IPS2, IPS4.
Beberapa atribut tersebut jika dihilangkan
dimungkinkan tidak akan mempengarui hasil akurasi.
Bobot dari atribut yang bernilai 1 dapat dimungkinkan
mempengaruhi hasil akurasi secara signjikaikan. Terdapat 4 atribut
yang bobotnya 1 yaitu fakultas, umur, IPS1, IPS3.
4.3
Pembahasan
Percobaan pada penelitian ini menggunakan RapidMiner 5.3.008.
Algoritma yang digunakan adalah C4.5 dan C4.5-PSO untuk pembobotan
atribut.
Validasinya menggunakan tenfold cross-validation, sedangkan
pengukuran performanya menggunakan confusion matrix dan kurva ROC.
Nilai dari population size dan maximum number of generation pada
PSO diubah-ubah untuk meningkatkan kinerja PSO yang berdampak pada
peningkatan akurasi.
Berdasarkan hasil percobaan, diperoleh akurasi C4.5-PSO tertinggi
terjadi pada saat population size bernilai 15 dan maximum number of
generation bernilai 40.
Akurasi C4.5-PSO 86,09%, dan AUC 0,883
sedangkan akurasi C4.5 hanya 84.13% dan AUC 0.837.
51
Hal tersebut membuktikan bahwa PSO yang diterapkan pada
pembobotan atribut meningkatkan akurasi C4.5. Akurasi meningkat 1,96%
sedangkat AUC meningkat 0,046. Dengan hasil pembobotan atribut yaitu 3
atribut mempunyai bobot 0, dan 4 atribut mempunyai bobot 1.
4.4
Hasil pemodelan pohon keputusan dan Ruleₐ
4.4.1 Model C4.5 berbasis PSO
Gambar 4.12 Hasil pemodelan tree C4.5-PSO bagian 1(kiri)
52
Gambar 4.13 Hasil pemodelan tree C4.5-PSO bagian 2(tengah)
53
Gambar 4.14 Hasil pemodelan tree C4.5-PSO bagian 3(kanan)
54
Rule yang tercipta dari gambar hasil pemodelan diatas adalah
sebagai berikut R₍n₊₊), n=1 :
1) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA
TERLAMBAT
2) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur > 25.500 MAKA TEPAT
3) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 > 3.570
MAKA TEPAT
4) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4 ≤ 3.570
MAKA TERLAMBAT
5) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA TEPAT
6) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur > 23.500
DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT
7) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤ 23.500
MAKA TEPAT
8) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 > 3.170 MAKA
TERLAMBAT
9) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin
= LAKI-LAKI MAKA TERLAMBAT
10) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin =
PEREMPUAN MAKA TEPAT
55
11) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI
MAKA TEPAT
12) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
DAN
FALKULTAS
=
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
13) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
ILMUPENDIDIKAN MAKA TERLAMBAT
14) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL
MAKA TERLAMBAT
15) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT
16) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN
FALKULTAS
=
IPS3 > 2.905 MAKA
TEPAT
17) JIKA
umur
>
22.500
DAN
IPS1
>
3.235
DAN
FALKULTAS
=
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA
TERLAMBAT
18) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT
19) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT
20) JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur ≤ 24.500 MAKA TERLAMBAT
21) JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
22) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
BAHASADANSENI MAKA TEPAT
23) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 > 3.205 MAKA TEPAT
24) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT
25) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 ≤ 2.900 MAKA TERLAMBAT
26) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI DAN
IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT
27) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT
FALKULTAS
=
56
28) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT
29) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 > 3.400
MAKA TEPAT
30) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT
31) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT
32) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300
DAN IPS3 > 3.740 MAKA TEPAT
33) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 > 3.300
DAN IPS3 ≤ 3.740 MAKA TERLAMBAT
34) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤ 3.300
MAKA TEPAT
35) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA TEPAT
36) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤ 3.400
DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT
37) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 > 3.050 MAKA TERLAMBAT
38) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 ≤ 3.050 MAKA TEPAT
57
39) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045
MAKA TEPAT
40) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA
TERLAMBAT
41) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070
MAKA TERLAMBAT
42) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070
MAKA TEPAT
43) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT
44) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT
45) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT
46) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT
47) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
FALKULTAS
=
MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT
48) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA TEPAT
49) JIKA
umur
≤
22.500
DAN
IPS1
>
2.705
DAN
FALKULTAS
=
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA
TERLAMBAT
50) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT
51) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT
52) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
53) JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 ≤ 3.075 MAKA TEPAT
54) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
DAN
BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT
FALKULTAS
=
58
55) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 > 2.435 MAKA
TERLAMBAT
56) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
DAN
FALKULTAS
=
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT
57) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI
MAKA TEPAT
58) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
DAN
FALKULTAS
=
DAN
FALKULTAS
=
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
59) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
ILMUPENDIDIKAN MAKA TERLAMBAT
60) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 > 2.615 MAKA TEPAT
61) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 ≤ 2.615 MAKA TERLAMBAT
62) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
DAN
FALKULTAS
=
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA
TERLAMBAT
63) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
DAN
FALKULTAS
=
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA TEPAT
64) JIKA
umur
≤
22.500
DAN
IPS1
≤
2.705
DAN
FALKULTAS
=
MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT
65) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 > 2.550 MAKA TERLAMBAT
66) JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 ≤ 2.550 MAKA TEPAT
59
4.4.2 Model C4.5
Gambar 4.15 Hasil pemodelan tree C4.5 bagian 1(kiri)
60
Gambar 4.16 Hasil pemodelan tree C4.5 bagian 2(tengah)
61
Gambar 4.17 Hasil pemodelan tree C4.5 bagian 3(kanan)
62
Rule yang tercipta dari gambar hasil pemodelan diatas adalah
sebagai berikut R₍n₊₊), n=1 :
1)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 > 3.865 MAKA
TERLAMBAT
2)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur > 25.500 MAKA TEPAT
3)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4
> 3.570 MAKA TEPAT
4)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 DAN IPS4 > 3.475 DAN IPS4
≤ 3.570 MAKA TERLAMBAT
5)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 DAN IPS4 > 3.230 AND IPS4 ≤ 3.475 MAKA
TEPAT
6)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur >
23.500 DAN umur ≤ 25.500 AND IPS4 ≤ 3.230 MAKA TERLAMBAT
7)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 > 2.975 DAN IPS2 ≤ 3.865 DAN umur ≤
23.500 MAKA TEPAT {TEPAT=24, TERLAMBAT=2}
8)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 > 3.170 MAKA
TERLAMBAT
9)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN
jeniskelamin = LAKI-LAKI MAKA TERLAMBAT
63
10)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
BAHASADANSENI DAN IPS3 ≤ 2.975 DAN IPS2 ≤ 3.170 DAN jeniskelamin
= PEREMPUAN MAKA TEPAT
11)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = EKONOMI
MAKA TEPAT
12)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
13)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
ILMUPENDIDIKAN MAKA TERLAMBAT
14)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = ILMUSOSIAL
MAKA TERLAMBAT
15)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur > 23.500 MAKA TERLAMBAT
16)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN
IPS3 > 2.905 MAKA
TEPAT
17)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS =
MATEMATIKADANIPA DAN umur ≤ 23.500 DAN IPS3 ≤ 2.905 MAKA
TERLAMBAT
18)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 > 3.395 MAKA TERLAMBAT
19)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur > 24.500 DAN IPS1 ≤ 3.395 MAKA TEPAT
20)
JIKA umur > 22.500 DAN IPS1 > 3.235 DAN FALKULTAS = TEKNIK DAN
umur ≤ 24.500 MAKA TERLAMBAT
21)
JIKA umur > 22.500 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
22)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
BAHASADANSENI MAKA TEPAT
23)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 > 3.205 MAKA TEPAT
24)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN IPS1 > 2.900 MAKA TEPAT
25)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 ≤ 3.205 DAN IPS3 > 3.095 DAN
TERLAMBAT
IPS1 ≤ 2.900 MAKA
64
26)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = EKONOMI
DAN IPS1 ≤ 3.205 DAN IPS3 ≤ 3.095 MAKA TEPAT
27)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN DAN IPS1 > 3.270 MAKA TEPAT
28)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN DAN IPS1 ≤ 3.270 MAKA TERLAMBAT
29)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 >
3.400 MAKA TEPAT
30)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 > 3.610 DAN IPS2 > 3.245 MAKA TEPAT
31)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 > 3.610 DAN IPS2 ≤ 3.245 MAKA TERLAMBAT
32)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 >
3.300 DAN IPS3 > 3.740 MAKA TEPAT
33)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 >
3.300 DAN IPS3 ≤ 3.740 MAKA TERLAMBAT
34)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 > 3.310 DAN IPS4 ≤
3.300 MAKA TEPAT
35)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 > 3.425 DAN IPS2 ≤ 3.310 MAKA
TEPAT
36)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 > 2.950 DAN IPS1 ≤
3.400 DAN IPS4 ≤ 3.610 DAN IPS3 ≤ 3.425 MAKA TEPAT
37)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 > 3.050 MAKA TERLAMBAT
65
38)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 > 3.045
DAN IPS4 ≤ 3.050 MAKA TEPAT
39)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 > 3.080 DAN IPS3 ≤ 2.950 DAN IPS2 ≤ 3.045
MAKA TEPAT
40)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 > 3.275 MAKA
TERLAMBAT
41)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 > 3.070
MAKA TERLAMBAT
42)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN DAN IPS1 ≤ 3.080 DAN IPS4 ≤ 3.275 DAN IPS2 ≤ 3.070
MAKA TEPAT
43)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 > 3.780 MAKA TERLAMBAT
44)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 > 2.740 DAN IPS1 ≤ 3.780 MAKA TEPAT
45)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 > 2.610 MAKA TEPAT
46)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS2 ≤ 2.740 DAN IPS2 ≤ 2.610 MAKA TERLAMBAT
47)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 > 2.900 MAKA TEPAT
48)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 > 3.165 MAKA
TEPAT
49)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS4 ≤ 2.900 DAN IPS2 ≤ 3.165 MAKA
TERLAMBAT
50)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 > 3.525 MAKA TEPAT
51)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 > 3.235 MAKA TEPAT
52)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 > 3.075 DAN IPS2 ≤ 3.525 DAN IPS1 ≤ 3.235 MAKA TERLAMBAT
66
53)
JIKA umur ≤ 22.500 DAN IPS1 > 2.705 DAN FALKULTAS = TEKNIK DAN
IPS1 ≤ 3.075 MAKA TEPAT
54)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 > 2.590 MAKA TEPAT
55)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 > 2.435 MAKA
TERLAMBAT
56)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
BAHASADANSENI DAN IPS1 ≤ 2.590 DAN IPS1 ≤ 2.435 MAKA TEPAT
57)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = EKONOMI
MAKA TEPAT
58)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
ILMUKEOLAHRAGAAN MAKA TERLAMBAT
59)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
ILMUPENDIDIKAN MAKA TERLAMBAT
60)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 > 2.615 MAKA TEPAT
61)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = ILMUSOSIAL
DAN IPS1 ≤ 2.615 MAKA TERLAMBAT
62)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 > 3.205 MAKA
TERLAMBAT
63)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 > 2.545 DAN IPS4 ≤ 3.205 MAKA
TEPAT
64)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS =
MATEMATIKADANIPA DAN IPS3 ≤ 2.545 MAKA TERLAMBAT
65)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 > 2.550 MAKA TERLAMBAT
66)
JIKA umur ≤ 22.500 DAN IPS1 ≤ 2.705 DAN FALKULTAS = TEKNIK DAN
IPS2 ≤ 2.550 MAKA TEPAT
BAB V
PENUTUP
5.1
Kesimpulan
Pada penelitian ini dilakukan pemodelan menggunakan algoritma
C4.5 dan C4.5-PSO dengan menggunakan data yang dilampirkan oleh Hilda
dalam thesisnya. Fokus penelitian ini adalah penerapan algoritma PSO pada
pembobotan atribut teknik klasifikasi data mining C4.5. Validasi model
menggunakan 10fold cross-validation dan evaluasi model menggunakan
confusion matrix dan kurva ROC.
Hasil penelitian menunjukan bahwa model C4.5-PSO memiliki
akurasi yang lebih baik yaitu 86,09 % dibandingkan dengan model C4.5
yang akurasinya 84,13 %. Namun waktu eksekusi C4.5-PSO lebih lama
dengan 20 menit 23 detik, sedangkan C4.5 hanya 3 detik.
Dengan demikian, terbukti bahwa PSO yang diterapkan pada
pembobotan atribut C4.5 meningkatkan nilai akurasi. Hal ini menjadikan
C4.5-PSO menjadi alternatif lain untuk model optimasi yang dapat
diterapkan pada kasus lain seperti penentuan pemberian kredit, analisa pasar.
5.2
Saran
Proses penelitian ini mendapatkan banyak hambatan seperti
terbatasnya data penelitian dan perangkat keras yang digunakan, untuk
penelitian selanjutnya terdapat beberapa saran sebagai berikut :
1. Untuk mempercepat waktu eksekusi model dapat menggunakan
perangkat keras dengan spesifikasi hardware yang lebih baik seperti
processor core i7 dengan RAM 4Gb atau spesifikasi yang lebih tinggi.
67
68
2. Penelitian ini mengkomparasikan algoritma C4.5 dan C4.5 yang
dikombinasikan dengan PSO untuk pembobotan atribut, untuk
penelitian selanjutnya dapat dikembangkan dengan menggunakan
algoritma klasifikasi lain seperti Suport Vector Machine (SVM),
Neural Network yang dikombinasikan dengan algoritma PSO atau
algoritma optimasi lain seperti
Ant Colony Optimization (ACO),
Genetic Algorithm (GA), Adaboost, atau algoritma optimasi lainnya.
3. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda
dalam thesisnya, data set tersebut merupakan data kelulusan
mahasiswa perguruan tinggi yang erat kaitannya dengan dunia
pendidikan, untuk penelitian selanjutnya dapat dikembangkan dengan
menggunakan data set lain yang memiliki atribut tambahan seperti
status pernikahan, status pekerjaan, pendapatan per bulan keluarga
sebagai inputan nilai model yang dapat mempengaruhi tingkat
akurasinya.
4. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda
dalam thesisnya dan data set tersebut terkait dengan dunia pendidikan,
kemudian data set tersebut dimodelkan berdasar pada algoritma C4.5
dengan C4.5 berbasis PSO untuk membandingkan tingkat akurasi dari
keduanya. Dalam penelitian selanjutnya, model yang digunakan pada
penelitian ini dapat diterapkan pada data set lain yang berbeda seperti
data perbankan terkait analisa penentuan kredit, data pemasaran
produk-produk tertentu untuk menguji kehandalan model yang
diusulkan.
DAFTAR PUSTAKA
[1]
Abraham, A., Grosan, C., & Ramos, V. (2006). Swarm Intelligence In Data Mining.
Verlag Berlin Heidelberg: Springer.
[2]
Alpaydın, E. (2010). Introduction to Machine Learning (Second Edition ed.).
London: The MIT Press.
[3]
Amalia, Hilda. (2012). Komparasi Metode Klasifikasi Data Mining Untuk Prediksi
Ketepatan Kelulusan Mahasiswa. Jakarta :STIMIK Nusa Mandiri.
[4]
Bai, Q. (2010). Analysis of Particle Swarm Optimization Algorithm. Computer dan
Informasi Science. Vol. 3, No. 1, February 2012. College of Computer Science and
Technology Inner Mongolia University for Nationalities.
[5]
Bramer, Max. (2007). Principles of Data Mining. London: Springer.
[6]
Gorunescu, Florin. (2011). Data Mining: Concepts and Techniques. Verlag berlin
Heidelberg: Springer.
[7]
Han, J., & Kamber, M. (2007). Data Mining Concepts and Techniques. San
Fransisco: Mofgan Kaufan Publisher.
[8]
http://ban-pt.kemdiknas.go.id/Instrumen%20AIPT%20(02-122011)/2%20BUKU%202%20STANDAR%20DAN%20PROSEDUR%20AIPT%20
2011.docx. diakses 18 Juli 2013
[9]
http://www.republika.co.id/berita/pendidikan/dunia-kampus/13/03/24/mk53wrlima-tahun-terakhir-11-pts-di-yogya-tutup. diakses 18 Juli 2013
[10] Karamouzis, T. S., & Vrettos, A. (2008). An Artificial Neural Network for
Predicting Student Graduation Outcomes. Preceeding of World Congress on
Engineering and Computer Science, 978-988-98671-02.
[11] Kusrini,&Luthfi, E. T. (2009). Algoritma Data Mining. Yogyakarta: Andi
Publishing
[12] Larose, D. T. (2005).Discovering Knowledge in Data. New Jersey: John Willey &
Sons, Inc.
69
[13] Lasut, Desiyana. (2012). Prediksi Loyalitas Pelanggan pada Perusahaan Penyedia
Layanan
Multimedia
dengan
Algoritma
C4.5
Berbasis
Particle
Swarm
Optimization. Jakarta: STIMIK Eresha.
[14] Liu, Y., Wang, G., Chen, H., Dong, H., Zhu, X., & Wang, S. (2011). An Improved
Particle Swarm Optimization for Feature Selection. Journal of Bionic Engineering
Vol 8 , 1-10.
[15] Ming, Kai Ting. (2002). An instance-weighting method to induce cost-sensitive.
IEEE transactions on knowledge and data engineering, vol. 14, no. 3.
[16] Quadri, M. N., & Kalyankar, N. V. (2010). Drop Out Feature of Student Data for
Academic Performance Using Decision Tree techniques. Global Journal of
Computer Science and Technology , 2-4.
[17] Santosa, B. (2007). Data Mining Teknik Pemanfaat Data Untuk Keperluan Bisnis.
Yogyakarta: Graha Ilmu.
[18] Sousa, T., Silva, A., & Neves, A. (2004). Particle Swarm Based Data Mining
Algorithms for Classification Tasks. Parallel Computing , 30, 767-783.
[19] Suhartina & Ernastuti. (2010). Graduation Prediction of Gunadarma Student Using
Naïve Bayes and Decision Tree. Jakarta: Universitas Gunadarma.
[20] Tsai, C. F., & Chen, M. Y. (2009). Variable Selection by Association Rules for
Customer Churn Prediction of Multimedia on Demand. Expert Systems with
Applications.
[21] Vercellis, Carlo (2009). Business Intelligent: Data Mining and Optimization for
Decision Making. Southern Gate, Chichester, West Sussex: John Willey & Sons,
Ltd.
[22] Witten, H. I., Eibe, F., & Hall, A. M. (2011). Data Mining Machine Learning Tools
and Techiques. Burlington: Morgan Kaufmann Publisher.
[23] Wu, X., & Kumar, V. (2009). The Top Ten Algorithms in Data Mining. Taylor &
Francis Group, LLC.
[24] Yao, Ping. (2009). Comparative Study on Class Imbalance Learning for Credit
Scoring. Ninth International Conference on Hybrid Intelligent
Heilongjiang Institute of Science and Technology, Harbin, 150027, China.
70
Systems.
Download