laporan tugas akhir - Universitas Dian Nuswantoro

advertisement
LAPORAN TUGAS AKHIR
KOMPARASI PEMODELAN DATA MENGGUNAKAN
SUPPORT VECTOR MACHINE DAN NEURAL NETWORK
UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN
MAHASISWA
Disusun Oleh :
Nama
: Totok Triswanto
NIM
: A11.2009.04765
Program Studi
: Teknik Informatika
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2013
LAPORAN TUGAS AKHIR
KOMPARASI PEMODELAN DATA MENGGUNAKAN
SUPPORT VECTOR MACHINE DAN NEURAL NETWORK
UNTUK PREDIKSI KETEPATAN WAKTU KELULUSAN
MAHASISWA
Laporan ini disusun guna memenuhi salah satu syarat untuk menyelesaikan
program studi Teknik Informatika S-1 pada Fakultas Ilmu Komputer
Universitas Dian Nuswantoro
Disusun Oleh :
Nama
: Totok Triswanto
NIM
: A11.2009.04765
Program Studi
: Teknik Informatika
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2013
PERSETUJUAN LAPORAN TUGAS AKHIR
Nama Pelaksana
: Totok Triswanto
NIM
: A11.2009.04765
Program Studi
: Teknik Informatika
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: Komparasi Pemodelan Data Menggunakan Support
Vector Machine dan Neural Network Untuk Prediksi
Ketepatan Waktu Kelulusan Mahasiswa
Tugas Akhir ini telah diperiksa dan disetujui,
Semarang, 27 September 2013
Menyetujui :
Mengetahui :
Pembimbing
Dekan Fakultas Ilmu Komputer
Setia Astuti, Ssi., M.Kom.
Dr. Abdul Syukur
ii
PENGESAHAN DEWAN PENGUJI
Nama Pelaksana
: Totok Triswanto
NIM
: A11.2009.04765
Program Studi
: Teknik Informatika
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: Komparasi Pemodelan Data Menggunakan Support
Vector Machine dan Neural Network Untuk Prediksi
Ketepatan Waktu Kelulusan Mahasiswa
Tugas akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir tanggal 3 Oktober 2013. Menurut pandangan kami, tugas akhir
ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan
gelar Sarjana Komputer (S.Kom.)
Semarang, 3 oktober 2013
Dewan Penguji:
T. Sutojo, SSi., M.Kom.
Edy Mulyanto, S.SI, M.Kom
Anggota
Anggota
Y. Tyas Catur P, SSi., M.Kom.
Ketua Penguji
PERNYATAAN KEASLIAN TUGAS AKHIR
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya:
Nama : Totok Triswanto
NIM
: A11.2009.04765
Menyatakan bahwa karya ilmiah saya yang berjudul:
KOMPARASI PEMODELAN DATA MENGGUNAKAN SUPPORT
VECTOR MACHINE DAN NEURAL NETWORK UNTUK PREDIKSI
KETEPATAN WAKTU KELULUSAN MAHASISWA
merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing
telah saya jelaskan sumbernya). Apabila di kemudian hari, karya saya disinyalir
bukan merupakan karya asli saya, yang disertai dengan bukti-bukti yang cukup,
maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang
melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan
sebenarnya.
Dibuat di
: Semarang
Pada tanggal : 27 September 2013
Yang menyatakan
(Totok Triswanto)
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya:
Nama : Totok Triswanto
NIM
: A11.2009.04765
demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada
Universitas Dian Nuswantoro Hak Bebas Royalti Non-Ekskusif (Non-exclusive
Royalty-Free Right) atas karya ilmiah saya yang berjudul:
KOMPARASI PEMODELAN DATA MENGGUNAKAN SUPPORT
VECTOR MACHINE DAN NEURAL NETWORK UNTUK PREDIKSI
KETEPATAN WAKTU KELULUSAN MAHASISWA
beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy
ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan
data (database), mendistribusikannya dan menampilkan/mempublikasikannya di
internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari
saya selama tetap mencantumkan nama saya sebagai penulis/pencipta.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak
Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas
pelanggaran Hak Cipta dalam karya ilmiah saya ini.
Demikian surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di
: Semarang
Pada tanggal : 27 September 2013
Yang menyatakan
(Totok Triswanto)
v
UCAPAN TERIMAKASIH
Alhamdulilah, puji syukur kehadirat Allah SWT atas kekuatan, rahmat dan
hidayah-Nya sehingga laporan tugas akhir dengan judul “KOMPARASI
PEMODELAN DATA MENGGUNAKAN SUPPORT VECTOR MACHINE
DAN NEURAL NETWORK UNTUK PREDIKSI KETEPATAN WAKTU
KELULUSAN MAHASISWA” dapat terselesaikan tepat waktu. Terimakasih
kepada :
1. Dr. Ir. Edi Noersasongko, M.Kom, selaku Rektor Universitas Dian
Nuswantoro Semarang.
2. Dr. Abdul Syukur selaku Dekan Fasilkom.
3. Dr. Heru Agus Santoso, M.Kom, selaku Ka. Progdi Teknik Informatika.
4. Setia Astuti, SSI, M.Kom, selaku pembimbing tugas akhir yang memberikan
bimbingan yang berkaitan dengan penelitian penulis.
5. Ardhyta Luthfiarta, M.Kom., M.Cs, yang memberikan masukan dan saran
kepada penulis.
6. Dosen-dosen Fasilkom Universitas Dian Nuswantoro Semarang yang telah
memberikan ilmu sehingga penulis dapat mengimplementasikan ilmu yang
telah disampaikan.
7. Keluarga dan rekan-rekan mahasiswa Fasilkom Universitas Dian Nuswantoro
yang telah memberikan dukungan material dan moral kepada penulis.
Semoga Tuhan yang Maha Esa memberikan balasan yang lebih besar kepada
beliau-beliau, dan pada akhirnya penulis berharap bahwa penulisan laporan tugas
akhir ini dapat bermanfaat dan berguna sebagaimana fungsinya.
Semarang,
27 September 2013
Penulis
vi
ABSTRAK
Kelulusan mahasiswa merupakan masalah penting dalam suatu lembaga
pendidikan karena mempengaruhi pandangan publik terhadap kredibilitas suatu
instansi pendidikan. Selain itu kelulusan mahasiswa dianggap sebagai indikator
keberhasilan perguruan tinggi baik negeri atau swasta. Penelitian untuk
memprediksi kelulusan mahasiswa dengan teknik data mining telah banyak
dilakukan dan menunjukan bahwa Neural Network memiliki akurasi lebih baik
dibanding Naïve Bayes dan C4.5. Namun Neural Network mempunyai kelemahan
terutama karena solusi yang dihasilkan bersifat local optimum. Metode prediksi
lain yang bisa mengatasi kelemahan Neural Network salah satunya yaitu Support
Vector Machine yang mampu memberikan solusi secara global optimum.
Penelitian ini membandingkan antara Support Vector Machine dan Neural
Network untuk menyelesaikan masalah prediksi kelulusan mahasiswa. Desain
penelitian menggunakan model proses CRISP-DM yang merupakan standart
proses dalam penelitian data mining. Proses validasi menggunakan tenfold-cross
validation, sedangkan pengujian modelnya menggunakan confusion matrix dan
kurva ROC. Hasil pengujian menunjukan Support Vector Machine memiliki
akurasi sebesar 81.17% dan nilai AUC 0.882 sedangkan Neural Network memiliki
akurasi sebesar 78.83% dan nilai AUC sebesar 0.858.
Kata kunci : Kelulusan mahasiswa, data mining, teknik prediksi, Support
Vector Machine, Neural Network.
xv + 73 halaman; 31 gambar; 24 tabel; 2 lampiran
Daftar acuan: 15 (2005 – 2013)
vii
ABSTRACT
The graduation of students is an important issue in an institution because it affects
the public view of the credibility of an educational institution. Besides the
graduation students are regarded as an indicator of the success of the College both
public or private. Research for predicting graduation students with techniques of
data mining has been widely performed and indicates that the Neural Network has
accuracy better than Naive Bayes and C 4.5. But the Neural Network has a
weakness mainly because of the resulting solution is a local optimum. Other
prediction methods that could address the Neural Network is one that Support
Vector Machine that is able to provide optimum solutions globally. This study
compares between Support Vector Machine and Neural Network to solve the
problem of prediction of graduation students. Design research process model
using CRISP-DM which is a standard process in research on data mining. The
validation process using tenfold cross-validation, while testing his model using
the confusion matrix and ROC curves. The test results showed Support Vector
Machine has an accuracy of 81.17% and AUC values of Neural Network while
0.882 have accuracy of 78.83% and AUC values of 0.858.
Keyword
: Graduation, data mining, prediction, Support Vector Machine,
Neural Network
viii
DAFTAR ISI
Halaman
Halaman Sampul Dalam
i
Halaman Persetujuan
ii
Halaman Pengesahan
iii
Halaman Pernyataan Keaslian Tugas Akhir
iv
Halaman Pernyataan Persetujuan Publikasi
v
Halaman Ucapan Terimakasih
vi
Halaman Abstrak
vii
Halaman Daftar Isi
ix
Halaman Daftar Tabel
xi
Halaman Daftar Gambar
xii
Halaman Daftar Lampiran
xiv
Halaman Arti Lambang, Singkatan dan Istilah
xv
BAB I
PENDAHULUAN
1
1.1
1.2
1.3
1.4
1.5
1
3
4
4
4
Latar belakang
Rumusan masalah
Batasan masalah
Tujuan
Manfaat
BAB II LANDASAN TEORI
2.1
2.2
5
Tinjauan studi
Tinjauan Pustaka
2.2.1 Kelulusan Mahasiswa
2.2.2 Data mining
2.2.3 CRISP-DM
2.2.4 Support Vector Machine
2.2.5 Artificial Neural Network
ix
5
9
9
9
12
13
19
2.3
2.2.6 Cross validation
2.2.7 Confusion matrix
2.2.8 Kurva ROC
Model Kerangka pemikiran
BAB III METODE PENELITIAN
3.1
3.2
31
Desain penelitian
3.1.1 Pengumpulan data
3.1.1.1 Pemahaman bisnis
3.1.1.2 Pemahaman data
3.1.2 Pengolahan data
3.1.3 Pemodelan data
3.1.4 Validasi dan evaluasi
3.1.5 Penyebaran (Deployment)
Alat penelitian
BAB IV HASIL PENELITIAN DAN PEMBAHASAN
4.1
4.2
4.3
4.4
Hasil eksperiment dan pengujian metode
4.1.1 Support Vector Machine
4.1.2 Neural Network
Evaluasi dan Validasi Hasil
4.2.1 Hasil pengujian model
4.2.1.1 Support Vector Machine Linear
4.2.1.2 Artificial Neural Network
4.2.2 Analisis evaluasi dan validasi model
Pembahasan
Implementasi penelitian
BAB V PENUTUP
5.1
5.2
27
27
29
30
31
31
31
32
33
35
36
37
37
38
38
38
39
49
51
51
55
58
60
61
64
Kesimpulan
Saran
64
64
DAFTAR PUSTAKA
66
LAMPIRAN
68
x
DAFTAR TABEL
Halaman
Tabel 2.1 State of the art
6
Tabel 2.2 Problem AND
18
Tabel 2.3 Keterangan persamaan confusion matrix
28
Tabel 2.4 Contoh confusion matrik
29
Tabel 3.1 Ilustrasi missing data pada data training
33
Tabel 3.2 Data Training setelah dilakukan validasi
34
Tabel 3.3 Atribut yang digunakan
35
Tabel 3.4 Spesifikasi Software dan Hardware
37
Tabel 4.1 Hasil pengujian dengan SVM – linear
38
Tabel 4.2 Attribut weight dengan metode Support Vector Machine Linear 38
Tabel 4.3 Nilai bobot akhir untuk hidden layer dengan 4 layer
43
Tabel 4.4 Nilai bobot akhir untuk hidden layer dengan 6 layer
43
Tabel 4.5 Nilai bobot akhir untuk hidden layer dengan 8 layer
44
Tabel 4.6 Nilai bobot akhir untuk hidden layer dengan 10 layer
45
Tabel 4.7 Nilai bobot akhir untuk hidden layer dengan 12 layer
46
Tabel 4.8 Nilai bobot akhir untuk output layer dengan 4 Layer
47
Tabel 4.9 Nilai bobot akhir untuk output layer dengan 6 Layer
47
Tabel 4.10 Nilai bobot akhir untuk output layer dengan 8 layer
47
Tabel 4.11 Nilai bobot akhir untuk output layer dengan 10 layer
48
Tabel 4.12 Nilai bobot akhir untuk output layer dengan 12 layer
48
Tabel 4.13 Hasil pengujian dengan Neural Network
48
Tabel 4.14 Nilai accuracy, tn, tp, fn, dan fp untuk metode SVM – Linear
54
Tabel 4.15 Nilai accuracy, tn, tp, fn, dan fp untuk metode Neural Network
Backpropagation
57
Tabel 4.16 Perbandingan performance metode Support Vector Machine dan
Neural Network
58
xi
DAFTAR GAMBAR
Halaman
Gambar 2.1 Siklus CRISP-DM .....................................................................12
Gambar 2.2 Hyperplane yang mungkin untuk set data .................................14
Gambar 2.3 Margin hyperplane.....................................................................15
Gambar 2.4 Arsitektur Neural Network MLP ...............................................20
Gambar 2.5 Ilustrasi tenfold cross validation ...............................................27
Gambar 2.6 Confusion matrix untuk 2 model kelas......................................28
Gambar 2.7 Kerangka pemikiran ..................................................................30
Gambar 3.1 Data yang dilampirkan Hilda.....................................................23
Gambar 3.2 Model yang diusulkan ...............................................................23
Gambar 4.1 Pramater yang digunakan pada pelatihan Neural Network ......39
Gambar 4.2 Neural Net dengan 4 layer.........................................................40
Gambar 4.3 Neural Net dengan 6 layer.........................................................40
Gambar 4.4 Neural Net dengan 8 layer.........................................................41
Gambar 4.5 Neural Net dengan 10 layer .......................................................41
Gambar 4.6 Neural Net dengan 12 layer .......................................................42
Gambar 4.7 Desain model validasi................................................................49
Gambar 4.8 Desain model validasi Support Vector Machine .......................50
Gambar 4.9 Desain model validasi Neural Network.....................................51
Gambar 4.10 Confusion matrix metode SVM-Linear ditampilkan oleh
RapidMiner................................................................................52
Gambar 4.11 Perbandingan prediksi benar dan prediksi salah menggunakan
SVM ..........................................................................................52
xii
Gambar 4.12 Tingkat akurasi dengan metode SVM . .....................................53
Gambar 4.13 Hasil performa AUC metode SVM-Linear ditampilkan oleh
kurva ROC pada RapidMiner...................................................54
Gambar 4.14 Confusion matrix metode Neural Network ditampilkan oleh
RapidMiner ...............................................................................55
Gambar 4.15 Perbandingan prediksi benar dan salah dengan metode Nueral
Network ....................................................................................56
Gambar 4.16 Tingkat akurasi menggunakan metode Neural Network
Backpropagation .......................................................................56
Gambar 4.17 Hasil performa AUC metode Neural Network ditampilkan
oleh kurva ROC pada RapidMiner ...........................................58
Gambar 4.18 Grafik perbedaan tingkat akurasi antara metode SVM dan
Neural Network .........................................................................59
Gambar 4.19 Grafik perbandingan performa AUC antara Support Vector
Machine dan Nural Network .....................................................60
Gambar 4.20 Tampilan awal sistem pendukung keptutusan ..........................61
Gambar 4.21 Tampilan sistem prediksi dengan satu data input .....................62
Gambar 4.22 Tampilan sistem prediksi dengan data input import
dari file Excel . ..........................................................................62
xiii
DAFTAR LAMPIRAN
Halaman
Lampiran 1 Data Mahasiswa .........................................................................
68
Lampiran 2 Data Training .............................................................................
71
xiv
ARTI LAMBANG, SINGKATAN DAN ISTILAH
SVM
= Support Vector Machine
ANN
= Artificial Neural Network
TA
= Tugas akhir
ROC
= Receiver Operating Characteristic
AUC
= Area Under Curve
CRIPS-DM = Cross-Industry Standart Proses for Data Mining
TP
= True Positives
TN
= True Negatives
FP
= False Positives
FN
= False Negatives
xv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Mahasiswa merupakan elite masyarakat dengan ciri intelektual yang lebih
komplek dibanding kelompok seusia mereka yang bukan mahasiswa, atau usia
lain di bawah mahasiswa. Kemampuan mahasiswa dalam mencari pemecahan
masalah yang lebih sistematis merupakan ciri intelektual yang dimiliki
mahasiswa [1]. Sehingga waktu perkuliahan di perguruan tinggi merupakan
waktu yang penting bagi mahasiswa untuk melatih intelektualitas agar nanti
bisa bersaing di dunia kerja dan masyarakat.
Perguruan tinggi merupakan satuan pendidikan yang menjadi terminal
terakhir bagi seseorang yang berpeluang belajar setinggi-tingginya melalui
jalur pendidikan sekolah [1]. Perguruan tinggi yang baik dituntut untuk
memiliki keunggulan bersaing dan memanfaatkan sumber daya yang dimiliki.
Selain sumber daya manusia, sarana, dan prasana, sistem informasi adalah
salah satu sumber daya yang bisa meningkatkan keunggulan bersaing. Sistem
informasi dapat digunakan salah satunya untuk menunjang kegiatan
pengambilan keputusan yang tepat dan strategias.
Dalam sistem pendidikan di perguruan tinggi, mahasiswa dan dosen
dianggap sebagai asset utama dan mereka ingin terus meningkatkan indikator
indikator kunci mereka dengan menggunakan asset secara efektif dan efisien
[4]. Salah satu masalah yang harus diperhatikan dalam meningkatkan kualitas
asset tersebut adalah upaya meningkatkan jumlah kelulusan mahasiswa
dengan tepat waktu.
Administrator di institusi pendidikan selalu berusaha meningkatkan
tingkat kelulusan untuk berbagai alasan. Pertama, disebabkan karena misi
masing-masing institusi pendidikan untuk menghasilkan lulusan yang menjadi
anggota produktif masyarakat dan berkontribusi terhadap kesejahteraan
ekonomi bangsa. Selain itu, masing-masing institusi pendidikan selalu
1
2
beranggapan bahwa jumlah mahasiswa yang putus diterjemahkan sebagai
hilangnya pendapatan bagi lembaga [1]. Mahasiswa yang tidak lulus tepat
waktu juga akan mempengaruhi pandangan publik terhadap kredibilitas suatu
instansi pendidikan.
Tingkat penurunan kelulusan mahasiswa yang signifikan dan terus
berkembang adalah sebuah masalah yang ada pada perguruan tinggi karena
akan berpengaruh pada akreditasi perguruan tinggi tersebut [1]. Sehingga
perlu adanya evaluasi terhadap kecenderungan mahasiswa lulus tepat waktu
atau tidak.
Prediksi awal terhadap ketapatan waktu kelulusan adalah hal yang penting
bagi institusi untuk meningkatkan kebijakan selanjutnya. Mahasiswa yang
pada pertengahan waktu perkuliahan terindikasi beresiko terlambat lulus perlu
mendapat perlakuan khusus agar meningkatkan kegigihan belajar mahasiswa
sehingga mampu lulus tepat waktu. Beberapa peneliti sebelumnya
menggunakan teknik data mining untuk menyelesaikan masalah prediksi
terhadap ketepatan waktu kelulusan mahasiswa [1][3][4].
Data mining merupakan suatu cara untuk memanfaatkan data yang
berjumlah besar dan kompleks dengan menganalisis secara otomatis data
untuk menemukan suatu pola yang penting dan tersembunyi di dalamnya yang
mungkin selama ini tidak disadari keberadaanya. Data mining bisa
dikelompokkan berdasar tugas – tugas yang dapat dilakukan yaitu deskripsi,
estimasi, prediksi, klasifikasi, pengklusteran dan asosiasi [8].
Beberapa teknik yang telah digunakan oleh para peneliti dan berhasil
untuk membuat model prediksi pada data mahasiswa diantaranya Artificial
Neural Network [1], Decision Tree [4], dan Naive Bayes [3][6]. Kemudian
penelitian dilanjutkan dengan membandingkan tingkat akurasi ketiga metode
data mining tersebut dan menunjukan bahwa Artificia Neural Network (ANN)
mempunyai akurasi terbaik dari ketiga model tersebut [1]. Namun hasil
akurasi yang dihasilkan model ANN tersebut masih dianggap kurang sehingga
diperlukan metode lain untuk mendapatkan hasil akurasi yang lebih baik.
3
Artificial Neural Network (ANN) dikenal mempunyai kelebihan pada
kemampuan untuk mentoleransi kesalahan, baik untuk prediksi nonlinear, dan
kuat pada parallel processing. Namun Artificial Neural Network (ANN)
mempunyai kelemahan karena sifatnya yang local optimum, menyebabkan
solusi yang dihasilkan pada setiap training selalu berbeda, membutuhkan data
training yang besar, lambatnya konvergensi, dan over-fitting [8].
Metode data mining lain yang dapat digunakan untuk prediksi dan
klasifikasi salah satunya adalah Support Vector Machine (SVM). Teknik ini
mampu mengatasi masalah yang ada pada ANN seperti over-fitting, sedikitnya
data training, dan lambatnya konvergensi [8]. Teknik SVM ini relatif baru,
ditemukan pada tahun 1995 dan populer di waktu sekarang. Teknik ini sudah
digunakan oleh para peneliti dan para ahli untuk menyelesaikan masalah
prediksi pada dunia nyata seperti pada prediksi cuaca, finansial, dan bidang
kedokteran. Dalam banyak implementasi, SVM memberi hasil yang lebih baik
dari teknik prediksi lain seperti Artificial Neural Network (ANN) [7].
Sehingga pada penelitian ini akan dilakukan penerapan metode Support
Vector Machine (SVM) pada kasus prediksi ketepatan kelulusan mahasiswa
kemudian dibandingkan hasil akurasinya dengan metode Artificial Neural
Network yang dipakai peneliti sebelumnya [1] untuk mengetahui metode yang
lebih baik dalam menyelesaikan masalah prediksi kelulusan mahasiswa.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, rumusan masalah pada penelitian ini
adalah membandingkan model prediksi ketepatan waktu kelulusan mahasiswa
menggunakan metode Support Vector Machine (SVM) dan metode Artificial
Neural Network untuk mengetahui metode mana yang lebih baik.
4
1.3 Batasan Masalah
Batasan masalah yang ada pada penelitian ini adalah sebagi berikut :
1. Fokus penelitian ini terbatas pada penggunaan metode Support Vector
Machine linear untuk memprediksi kelulusan mahasiswa.
2. Atribut yang digunakan adalah fakultas, usia, jenis kelamin, IP semester 1,
IP semester 2, IP semester 3, dan IP semester 4.
3. Pengujian masing - msiang metode pada penelitian ini menggunakan
bantuan tool RapidMiner 5.3.
1.4 Tujuan Penelitian
Tujuan dari penelitian ini adalah membuktikan apakah teknik Support
Vector Machine linear (SVM) mempunyai akurasi yang lebih baik
dibandingkan dengan metode Artificial Neural Network pada kasus prediksi
ketepatan kelulusan mahasiswa.
1.5 Manfaat Penelitian
a. Bagi Masyarakat dan Ilmu Pengetahuan
Memberikan kontribusi pada ilmu pengetahuan khususnya di
bidang data mining dalam membandingkan penggunaan algortima dan
teknik yang berbeda pada kasus yang sama.
b. Bagi Akademik
Model prediksi yang dihasilkan pada penelitian ini dapat
digunakan
oleh
software
developer
dan
programmer
untuk
mengembangkan aplikasi yang bisa digunakan untuk memprediksi
ketepatan kelulusan.
c. Bagi Peneliti
Memberikan kontribusi keilmuan pada penelitian bidang klasifikasi
data mining khususnya untuk prediksi kelulusan mahasiswa.
5
BAB II
LANDASAN TEORI
Pada penelitian tugas akhir ini, referensi yang digunakan dalam penulisan
antara lain menggunakan buku – buku, beberapa jurnal baik jurnal nasional
maupun internasional, serta beberapa tesis yang berkaitan dengan topik prediksi
data mining.
2.1 Tinjauan studi
Ada beberapa jurnal dan artikel penelitian yang berhubungan dengan
prediksi menggunakan teknik data mining yang punya keterkaitan pada
panelitian ini.
1. Drop Out Feature of Student Data for Academic Using Decision Tree
Techniques [4]
Penelitian yang dilakukan oleh Quadri & Kaylanyar pada tahun
2010 menggunakan metode decision tree dangan algoritma J4.8 dan C4.5
untuk memodelkan prestasi akademik siswa.
2. Graduation Prediction of Gunadarma Student Using Naïve Bayes and
Decision Tree [9]
Penelitian ini membandingkan metode Naive Bayes dan C4.5 untuk
memprediksi kelulusan mahasiswa berdasarkan variabel IPS (indek
prestasi semester), dan gaji orang tua.
3. Perbandingan Klasifikasi Tingkat Keganasan Breast Cancer Dengan
Menggunakan Regresi Logistik Ordinal dan Support Vector Machine
(SVM)
Penelitian yang dilakukan oleh Farizi Rachman dan Santi Wulan
Purnami pada tahun 2012 ini menggunakan metode Support Vector
Machine dan Regresi Logistik Ordinal untuk menganalisa tingkat
keganasan breast cancer.
6
4. Analisa dan Komparasi Metode Klasifikasi Data Mining untuk Prediksi
Kelulusan Mahasiswa [1].
Dengan menggunakan tiga metode data mining C4.5, Naive Bayes,
dan Neural Network, Hilda Amalia pada tahun 2012 membandingkan
tingkat akurasi ketiga metode untuk memprediksi kelulusan mahasiswa.
Variabel yang digunakan pada penelitian ini antara lain fakultas, jenis
kelamin, umur, dan indek prestasi semester (IPS).
Tabel 2.1: State of The Art
T
a
No Peneliti
h Judul
u
n
Drop
Out
Feature of
Student
2
Data
for
Quadri dan 0
1
Academic
Kaylanyar 1
Using
0
Decision
Tree
Techniques
Meto
de
Hasil
Catatan
Decis
ion
Tree,
C4.5,
dan
J.48
N.A
N.A
Prediksi
ketepatan
Graduation
kelulusan
Prediction
dengan
of
algoritma C4.5
Gunadarma Naive
85,7% dan error
Student
Bayes
14,3%,
Using Naïve , C4.5
sedangkan
Bayes and
algoritma naïve
Decision
bayes 80,85%
Tree
dan
error
19,05%
2
Marselina
Silvia
Suhartinah
, Ernastuti
2
0
1
0
3
Farizi
Rachman
dan Santi
Wulan
Purnami
Perbandinga
2
n Klasifikasi
0
Tingkat
1
Keganasan
0
Breast
Regre
si
Logis
tik
Ordin
Berdasarkan
hasil penelitian
dengan metode
regresi
logistik ordinal,
Data training yang
digunakan
terbatas
yaitu sebanyak 65
record
data
dan
ketidaklengkapan data
yang diperoleh. Untuk
mengetahui
kinerja
masing – masing
algoritma yang lebih
baik diperlukan data
yang
lebih
besar
mendekati jumlah data
sesungguhnya.
N.A
7
Cancer
Dengan
Menggunak
an Regresi
Logistik
Ordinal dan
Support
Vector
Machine
(SVM)
4
Yakub
Kara,
Melek
Acar,
Omeer
Kaan
2
0
1
0
5
Hangsen
Wang,
Phinchhan
g Ou
2
0
0
9
al dan
Supp
ort
Vecto
r
Mach
ine
(SV
M)
Prediction
Direction of
Stock Price
Index
Movement
SVM
using ANN
dan
and SVM:
ANN
The Sample
of
the
Istanbul
Stock
Excahnge
LDA,
QDA,
KNN,
Naive
Prediction
Bayes
of
Stock
Classi
Market
ficati
Index
on,
Movement
Logit
by Ten Data
Mode
Mining
l,
Techniques
Decis
ion
Tree,
Neura
l
menunjukka
ketepatan
klasifikasi
tertinggi
56.60%.
Sedangkan
dengan
menggunakan
SVM
ketepatan
klasifikasi
tertinggi dengan
menggunakan
kernel RBF
dan polynomial
mencapai
98.11%
ANN memiliki
rata - rata
kinerja prediksi
lebih bagus
dibanding
SVM. Rata rata akurasi dari
ANN sekitar
75,74 %
sedangkan
SVM sekitar
71,52 %.
SVM dan LSSVM
merupakan
teknik yang
paling baik
digunakan
untuk
memprediksi
pergerakan data
saham. Karena
secara teoritis
SVM tidak
membutuhkan
asumsi apriori
di properti data.
Dan algortima
SVM memberi
Peneliti menyatakan
bahwa akurasi bisa
lebih
tinggi
jika
parameter
bisa
disesuaikan
dengan
tepat atau dengan cara
mengganti
inputan
pembentuk model atau
dataset
yang
digunakan.
N.A.
8
Netw hasil yang
ork,
paling optimal.
SVM,
LSSVM
6
Hida
Amalia
2
0
1
2
Algoritma C4.5
menghasilkan
nilai
akurasi
yaitu
74.33%
dan nilai AUC
yaitu 0.787, 2.
Naïve
Bayes
Analisa dan Naive menghasilkan
Komparasi
Bayes nilai
akurasi
Metode
,
yaitu
69.72%
Klasifikasi
C4.5, dan nilai AUC
Data Mining dan
yaitu 0.829, 3.
untuk
Neura Neural Network
Prediksi
l
menghasilkan
Kelulusan
Netw nilai
akurasi
Mahasiswa
ork
yaitu
78.29%
dan nilai AUC
yaitu 0.848, 4.
Nilai
akurasi
dan
AUC
tertinggi adalah
metode Neural
Network
Nilai akurasi dan AUC
tertinggi
untuk
penelitian
ini
diperoleh oleh metode
neural network dengan
nilai 78.13% dan
0.848.Sehingga dapat
dilakukan
perbandingan
lagi
dengan
metode
klasifikasi data mining
lainnya
Berdasarkan tinjauan studi di atas beberapa peneliti telah berhasil
membuat model untuk memprediksi kelulusan mahasiswa, namun hasil akurasi
tertinggi dengan metode Artificial Neural Network sebesar 78.29% diharapkan
masih bisa ditingkatkan. Oleh karena itu diperlukan metode lain agar akurasi
prediksi kelulusan bisa ditingkatkan. Support Vector Machine (SVM) digunakan
beberapa peneliti untuk menyelesaikan beberapa kasus dan akurasi yang
dihasilkan terbukti baik. Sehingga pada penelitian ini akan dibandingkan metode
Support Vector Machine (SVM) dan Neural Network pada kasus prediksi
ketepatan waktu kelulusan mahasiswa untuk mengetahui metode yang mempunyai
akurasi lebih baik.
9
2.2 Tinjauan Pustaka
2.2.1 Kelulusan Mahasiswa
Mahasiswa merupakan salah satu kelompok masyarakat elite yang
memiliki ciri intelektualitas lebih kompleks dibandingkan dengan
kelompok lain yang bukan mahasiswa seusia ataupun dibawah usia
mereka.
Kemampuan
untuk
menghadapi
kemudian
mencari
pemecahan, menyelesaikan masalah yang mereka hadapi secara lebih
sitematis merupakan ciri dari intelektualitas tersebut [1]. Kelulusan
mahasiwa merupakan hal yang penting untuk diperhatikan, karena
penurunan jumlah kelulusan akan menghilangkan jumlah pendapatan
institusi dan juga akan berpengaruh pada penilaian pemerintah dengan
bentuk status akreditasi institusi [1]. Beberapa faktor yang dapat
mempengaruhi kelulusan mahasiswa antara lain adalah nilai akhir
SMA, Indeks Prestasi Semester (IPS), gaji orang tua dan pekerjaan
orang tua [9].
2.2.2 Data Mining
Data mining adalah suatu proses analisa terhadap kumpulan data
yang biasanya berukuran besar dengan menggunakan teknik
pengenalan pola sepeti teknik statistik dan matematika untuk
menemukan hubungan yang jelas dan pola yang tersembunyi guna
memberikan informasi dan berguna bagi pemilik data [8][12].
Salah satu teknik data mining adalah klasifikasi yang tujuanya
untuk menilai suatu objek data yang kemudian memasukkanya ke
dalam kelas tertentu dari beberapa kelas yang tersedia. Beberapa
metode yang dapat ditrapakan pada teknik klasifikasi data mining
antara lain Nearest Neighbor Classifer, Naive Bayes Classifer,
Artificial Neural Network, dan Support Vector Machine [13].
10
Berdasarkan tugasnya, data mining dikelompokkan menjadi [5]:
1. Deskripsi
Mencari cara untuk menggambarkan pola dan trend yang
terdapat dalam data. Sebagai contoh, seorang pengumpul suara
mengungkap bukti bahwa mereka yang diberhentikan dari
jabatannya saat ini, akan kurang mendukung dalam pemilihan
presiden.
Untuk
deskripsi
exploratory data analysis,
ini
bisa
dilakukan
yaitu metode
dengan
grafik untuk
menelusuri data dalam mencari pola dan tren.
2. Estimasi
Estimasi mirip seperti klasifikasi tapi variabel sasaran
adalah numerik. Model dibuat menggunakan record yang
lengkap, juga ada variable targetnya. Kemudian untuk data
baru, estimasi nilai variable target dibuat berdasarkan nilai
prediktor. Contoh, untuk estimasi tekanan darah pada pasien,
variabel prediktornya umur, jenis kelamin, berat badan, dan
tingkat sodium darah. Hubungan antara tekanan darah, dan
variable prediktor pada data training akan menghasilkan model
kemudian diaplikasikan pada data baru. Untuk melakukan
estimasi bisa digunakan neural network atau metode statistic
seperti point estimation dan confidence interval estimations,
simple linear regression dan correlation, dan multiple
regression.
3. Prediksi
Prediksi mirip seperti klasifikasi dan estimasi, tapi hasilnya
untuk memprediksi masa depan. Contoh, memprediksi harga
barang tiga bulan mendatang, memprediksi presentasi kenaikan
angka kematian karena kecelakaan tahun mendatang jika
kecepatan berkendara dinaikkan. Metode dan teknik untuk
klasifikasi dan estimasi, jika cocok, bisa juga digunakan untuk
11
prediksi, termasuk metode statistik. Algoritma untuk prediksi
antara lain regression tree dan model tree.
4. Klasifikasi
Dalam klasifikasi, sasarannya adalah variabel kategori,
misalkan atribut penghasilan, yang bisa dikategorikan menjadi
tiga kelas atau kategori yaitu, tinggi, sedang, dan rendah.
Model data mining membaca sejumlah besar record tiap record
berisi informasi pada variabel target. Contoh, dari sebuah data
set misalkan mau mengklasifikasikan penghasilan seseorang
yang datanya tidak terdapat pada dataset, berdasarkan
karakteristik yang berhubungan dengan orang itu seperti, umur,
jenis kelamin, dan pekerjaan. Tugas klasifikasi ini cocok untuk
metode dan teknik data mining. Algoritma akan mengolah
dengan cara membaca data set yang berisi variabel predictor
dan
variabel
taget
yang
telah
diklasifikasikan,
yaitu
penghasilan. Di sini algoritma (software) “mempelajari”
kombinasi
variabel
mana
yang
berhubungan
dengan
penghasilan yang mana. Data ini disebut training set.
Kemudian algoritma akan melihat ke data baru yang belum
termasuk klasifikasi manapun. Berdasarkan klasifikasi pada
data set kemudian algoritma akan memasukkan data baru
tersebut ke dalam klasifikasi yang mana. Misalkan seorang
professor wanita berusia 63 tahun bisa jadi diklasifikasikan ke
dalam kelas penghasilan tinggi. Algoritma klasifikasi yang
banyak digunakan secara luas untuk klasifikasi antara lain
decision tree, bayesian classifier, dan neural network [15].
5. Clustering
Clustering mengacu pada pengelompokkan record-record,
observasi, atau kasus-kasus ke dalam kelas-kelas dari objek
yang mirip. Pada clustering tidak ada variabel sasaran. Sebuah
cluster adalah koleksi record yang mirip satu sama lain, dan
12
tidak mirip dengan record pada cluster. Tidak seperti
klasifikasi, pada clustering tidak ada variabel target. Clustering
tidak menglasifikasi atau mengestimasi atau memprediksi
tetapi mencari untuk mensegmentasi seluruh data set ke
subgroup yang relative sejenis atau cluster, dimana kemiripan
record di dalam cluster dimaksimalkan dan kemiripan dengan
record di luar cluster diminimalkan. Contoh clustering,
untuk akunting dengan tujuan audit untuk mensegmentasi
financial behaviour.
2.2.3 CRISP-DM
Cross-Industry Standart Proses for Data Mining (CRIPS-DM)
dikembangkan pada tahun 1996 oleh analis dari beberapa industri dan
menunjukan standart proses penelitian data mining sebagai strategi
pemecahan masalah dari bisnis atau unit penelitian [8]. Siklus hidup
CRISP-DM terbagi menjadi 6 fase yaitu :
Gambar 2.1: Siklus CRISP-DM [8]
13
a. Pemahaman Bisnis (Business Understanding)
Merupakan tahap awal yaitu pemahaman penelitian,
penentuan tujuan dan rumusan masalah data mining.
b. Pemahaman Data (Data Understanding)
Dalam tahap ini dilakukan pengumpulan data, mengenali
lebih lanjut data yang akan digunakan.
c. Pengolahan Data (Data Preparation)
Tahap ini adalah pekerjaan berat yang perlu dilaksanakan
secara intensif. Memilih kasus atau variable yang ingin dianalisis,
melakukan perubahan pada beberapa variable jika diperlukan
sehingga data siap untuk dimodelkan.
d. Pemodelan (Modeling)
Memilih teknik pemodelan yang sesuai dan sesuaikan
aturan model untuk hasil yang maksimal. Dapat kembali ke tahap
pengolahan untuk menjadikan data ke dalam bentuk yang sesuai
dengan model tertentu.
e. Evaluasi (Evaluation)
Mengevaluasi satu atau model yang digunakan dan
menetapkan apakah terdapat model yang memenuhi tujuan pada
tahap awal.
Kemudian menentukan apakah ada permasalahan
yang tidak dapat tertangani dengan baik serta mengambil
keputusan hasil penelitian.
f. Penyebaran (Deployment)
Menggunakan model yang dihasilkan seperti pembuatan
laporan atau dijadikan sebuah sistem pendukung keputusan dan
penerapan proses data mining pada departemen lain.
2.2.4 Support Vector Machine (SVM)
Support Vector Machine (SVM) merupakan metode klasifikasi
jenis terpandu (supervised) yang memerlukan target pembelajaran
tertentu dalam proses pelatihan [12]. Ide dasar dari SVM adalah
14
berusaha untuk mencari fungsi pemisah (klasifier/hyperplane) yang
mampu memisahkan dua set data dari dua kelas yang berbeda [9].
SVM mencoba mencari hyperplane dangan margin yang maksimal
agar mampu memberikan generalisasi yang lebih baik pada metode
klasifikasi, meskipun sebenarnya juga bisa dengan menggunakan
sembarang hyperplane [13]. Cara kerja SVM diilustrasikan pada
gambar 2.2 berikut :
Gambar 2.2: Hyperplane yang mungkin untuk set data
Pada gambar 2.2 (a) menunjukan beberapa hyperplane yang
mungkin untuk set data. Sedangkan gambar 2.2 (b) menunjukan
hyperplane dengan margin yang paling maksimal. Usaha untuk
mencari lokasi hyperplane merupakan inti dari proses pelatihan pada
SVM.
Gambar 2.2 memperlihatkan beberapa pola yang merupakan
anggota dari dua buah kelas data. Data yang tergabung ke dalam kelas
-1 disimbolkan dalam bentuk lingkaran, sedangkan pada kelas +1
disimbolkan dengan bentuk bujur sangkar. Data yang paling dekat
dengan hyperplane disebut support vector.
SVM linear digunakan untuk menyelesaikan masalah klasifikasi
secara linear. Setiap data training akan dinyatakan dengan (xi,yi),
dimana i = 1, 2, ... , N dan xi = {xi1, xi2, ..., xiq) merupakan atribut
15
(fitur) set untuk data training ke-i. yi ∈{-1+1} menyatakan lebel kelas
[13].
Diasumsikan kedua kelas –1 dan +1 dapat terpisah secara
sempurna oleh hyperplane, maka didefinisikan:
w .x + b = 0
(2-1)
w dan b adalah parameter model. w . x merupakan inner-product
dalam antara w dan x .
Sebuah pattern x yang termasuk kelas -1 (sampel negatif) dapat
dirumuskan sebagai pattern yang memenuhi pertidaksamaan:
w . x + b ≤ −1
(2-2)
w . x + b ≥ +1
(2-3)
sedangkan pattern yang termasuk kelas +1 (sampel positif):
Gambar 2.3: Margin Hyperplane
16
Sesuai dengan gambar 2.3 di atas, jika ada data dalam kelas -1
(misalnya, x ) yang bertempat di hyperplane, maka persamaan 2-1
akan terpenuhi. Untuk data kelas -1 dinotasikan dengan
w .x + b = 0
(2-4)
w .x + b = 0
(2-5)
w . (x − x ) = 0
(2-6)
Sementara kelas +1 (misal x ) akan memenuhi persamaan
Dengan mengurangi persamaan 2-5 dengan 2-4 didapatkan
x − x adalah vektor paralel di posisi hyperplane dan diarahkan dari
x ke x . Karena inner product dalam bernilai nol, arah w harus tegak
lurus terhadap hyperplane sesuai gambar 2.3. Dengan memberikan
label -1 untuk kelas pertama dan +1 untuk kelas kedua, prediksi semua
data uji dapat didefinisikan menggunakan formula:
y={
,
,
.
.
(2-7)
Sesuai gambar 2.3, hyperplane untuk kelas -1 (garis putus-putus)
adalah data pada support vector yang memenuhi persamaan
w. x + b = −1
(2-8)
Sementara hyperplane kelas +1 (garis putus-putus) memenuhi
persamaan
w. x + b = +1
(2-9)
Sehingga margin dapat dihitung dengan mengurangi persamaan (2-9)
dengan (2-8) didapatkan
17
w. (x − x ) = 2
(2-10)
Margin hyperplane diberikan oleh jarak antara dua hyperplane dari
dua kelas tersebut. Notas di atas diringkas menjadi
|w| x d = 2 atau d =
||
(2-11)
||
Klasifikasi kelas data pada SVM pada persamaan (2-2) dan (2-3)
dapat digabungkan dengan notasi
y (w. x + b) ≥ 1, i = 1, 2, 3, … , N
(2-12)
Margin terbesar dapat ditemukan dengan memaksimalkan nilai jarak
antara hyperplane dan titik terdekatnya. Jarak ini dirumuskan dengan
persamaan (2-11) ( |w| adalah vektor bobot w). Selanjutnya masalah
ini diformulasikan ke dalam Quadratic programming (QP) problem,
dengan meminimalkan invers persamaan (2-11)
syarat sebagai berikut:
|w| , di bawah
Minimalkan :
|w|
(2-13)
Syarat :
y (w. x + b) ≥ 1, i = 1, 2, 3, … , N
Problem ini dapat dipecahkan dengan berbagai teknik komputasi,
diantaranya Lagrange Multiplier sebagaimana ditunjukkan pada
persamaan (2-14)
=
1
|w| −
2
i
y (x . w + b) − 1
( = 1, 2, … )
(2 − 14)
αi adalah Lagrange multipliers, yang bernilai nol atau positif (αi ≥ 0).
Nilai optimal dari persamaan (2-14) dapat dihitung dengan
18
meminimalkan L terhadap w dan b , dan memaksimalkan L terhadap
αi. Dengan memperhatikan sifat bahwa pada titik optimal gradient L =
0, persamaan langkah (2-14) dapat dimodifikasi sebagai maksimalisasi
problem yang hanya mengandung αi saja, sebagaimana persamaan (215).
Maximize :
(2-15)
Subject to :
(2-16)
Dari hasil dari perhitungan ini diperoleh αi yang kebanyakan
bernilai positif. Data yang berkorelasi dengan αi yang positif inilah
yang disebut sebagai support vector..
Untuk menunjukan ilustrasi cara kerja SVM Linear, kita gunakan
problem AND dimana data bisa dipisahkan secara linier sehingga
tidak diperlukan kernelisasi dalam pemetaan. Langkah pertama adalah
mengkonversi data set agar sesuai dengan format SVM karena SVM
mensyaratkan bahwa kelas yang digunakan memakai nilai -1 dan +1
ditunjukan pada tabel 2.1.
Tabel 2.2: Problem AND [13]
x
1
1
-1
-1
x
1
-1
1
-1
kelas (y)
1
-1
-1
-1
Karena ada dua fitur / atribut (x1 dan x2) maka w juga akan
mempunyai dua fitur (w1 dan w2). Formulasi yang bisa digunakan
adalah sebagai berikut :
Minimalkan : (w + w )
19
Syarat: y (w. x + b) ≥ 1, i = 1, 2, 3, … , N
1. (w + w + b ≥ 1) , untuk y = 1; x = 1; x = 1
2. (−w + w − b ≥ 1) , untuk y = −1; x = 1; x = −1
3. (w − w − b ≥ 1) , untuk y = −1; x = −1; x = 1
4. (w + w − b ≥ 1) , untuk y = −1; x = −1; x = −1
Dengan menjumlahkan persamaan syarat (1) dan (2) di dapatkan
w = 1; dengan menjumlahkan persamaan syarat (1) dan (3)
didapatkan w = 1; dengan menjumlahkan persamaan syarat (2) dan
(3) didapatkan b = -1 sehingga persamaan yang didapat adalah
f(x) = w x + w x + b
f(x) = x + x − 1
Persamaan fungsi pemisahnya adalah f(x) = x1 + x2 – 1 Untuk
menentukan output atau label dari setiap titik data/obyek kita gunakan
fungsi g(x) = sign(x). Dengan fungsi sign ini semua nilai f(x) < 0
diberi label −1 dan lainnya diberi label +1 [6].
2.2.5 Artificial Neural Network (ANN)
Neural network adalah suatu usaha untuk meniru fungsi otak
manusia. Otak manusia diyakini terdiri dari jutaan unit pengolahan
kecil, yang disebut neuron, yang bekerja secara parallel [1]. Artificial
Neural Network merupakan metode yang popular untuk modeling data
dan analis sejak tahun1980. Ide dari ANN diperkenalkan untuk
menstimulasi mekanisme kerja biologis jaringan syaraf, yang terdiri
dari bermacam-macam unit yang disebut neuron dan terhubung satu
sama lain.
ANN berusaha untuk meniru struktur dan cara kerja otak manusia
sehingga mampu menggantikan beberapa perkerjaan manusia.
Pekerjaan seperti mengenali pola (pattern recognition), prediksi,
20
klasifikasi, pendekatan fungsi optomasi adalah pekerjaan-pekerjaan
yang diharapkan bisa diselesaikan dengan ANN. Ada 3 periode yang
menandai perkembangan ANN, pertama tahun 1940-an dimana
McCulloach dan Pitt memulai riset tentan ANN, dilanjutkan
Rosenblatt pada 1960-an ketika dia menemukan mekanisme teknik
perceptron. Disusul dalam periode yang sama yaitu Minsky dan papert
membuktikan kelemahan dari teknik perception yang ditemukan
Rosenblatt [7]. Diantara tahun 1959 sampai 1960, Bernard Wildrow
and Marcian Hoff of Stanford University mengembangkan model
Adaptive Linear Element (ADALINE) dan Multiple Adaptive Linear
Elements (MADELINE), David E. Rurnelhart, Geoffrey E. Hilton,
dan Ronald J. Williams mengajukan algoritma back propagation [1].
Gambar 2.4: Arsitektur Neural Network MLP
Artificial Neuron terdiri dari sejumlah input. Informasi ini
diberikan sebagai masukan melalui input koneksi, masing-masing
yang memiliki beberapa berat yang berhubungan. Masukan tambahan
yang dikenal sebagai bias, diberikan ke artificial neuron. Neuron juga
21
terdiri dari satu output. Outputnya adalah terbentuk dari pengolahan
berbagai input oleh neuron [1].
Menurut strategi pembelajaran, kita dapat membagi mereka ke
dalam tiga besar yaitu associate learning networks, supervised
learning networks, and unsupervised learning networks (Liao, 2007).
1. Associate learning networks
Sebuah associate learning networks adalah belajar dari variabel
status, menjaga aturan dalam jaringan dan menerapkan kasus baru
dengan status tidak lengkap memperkirakan status lengkap.
Aplikasi
khas
termasuk
pola
ekstraksi
dan
penyaringan
kebisingan. Hopfield neural networks dan annealed neural
networks adalah algoritma yang sering digunakan untuk associate
learning networks. Annealed neural network (Van den Bout &
Miller, 1989) adalah pendekatan yang dikembangkan dari
algoritma simulated annealing, yang diterapkan untuk pencarian
high-climbing untuk menghindari masalah yang sering terlihat
pada algoritma lain. Aplikasi AnNNs berfokus pada pemecahan
masalah optimasi, yang meliputi masalah salesman bepergian dan
masalah partisi grafik. Para keuntungan dari menerapkan AnNNs
termasuk hasil yang optimal dekat dan cepat konvergensi seperti
HNN.
2. Supervised learning network
Supervised learning network menggunakan training set yang ada
diatur dengan input dan output variabel, dan membangun aturan
pemetaan internal untuk input dan output melalui pelatihan.
Sebuah kasus baru dengan variabel input hanya nilai-nilai
dimasukkan ke dalam jaringan belajar untuk meramalkan nilai
outputnya. Dua jenis algoritma ini yaitu Back-Propagation
Networks (BPNs) dan Radial Basis Function Neural Networks
(RBFs). Back-Propagation Networks (BPNs) adalah JST yang
paling banyak digunakan. Ini adalah model pertama untuk
22
menyertakan lapisan tersembunyi untuk menentukan bobot
koneksi oleh belajar berulang [1].
3. Unsupervised learning networks
Metode Unsupervised learning networks merupakan metode yang
unik dalam jaringan memberikan satu set input tanpa indikasi apa
output
seharusnya.
Kita
dapat
membagi
pembelajaran
unsupervised jaringan ke dalam dua kategori: (1) variabel input
biner 0 atau 1 mengambil sebagai nilainya; (2) variabel input
kontinu. Ada dua utama ANNs jenis pembelajaran unsupervised:
Self-Organizing Maps (SOMs) dan Adaptive Resonance Theory
(ART) (Liao, 2007).
Penemuan algoritma backpropagation untuk multilayer perceptron,
merupakan metode yang sistematis untuk training sehingga bisa
dilakukan dan lebih efisien. Algoritma backpropagation berasal dari
learning rule Widrow dan Hoff, disusun oleh Werbos (1974), dibuat
oleh Parker (1985), Rumelhart Hinton, Williams (Rumelhart dan
Williams, 1986) dan peneliti lainnya (Maimon, 2005). Multilayer
perceptron (MLP) disebut juga multilayer feedforward neural network
merupakan algoritma yang paling luas digunakan. Menurut Wong,
Bodnovich dan Selvi (1997), sekitar 95% aplikasi bisnis yang
menggunakan neural network, memakai algoritma ini [1].
MLP terdiri dari input layer, satu atau lebih hidden layer, dan
output layer. Berikut penjelasan masing-masing layer [13]:
1. Input layer
Input layer untuk menerima nilai masukan dari tiap record
pada data.Jumlah simpul input sama dengan jumlah variabel
prediktor.
2. Hidden layer
Hidden layer mentransformasikan nilai input di dalam
network. Tiap simpul pada hidden layer terhubung dengan
simpul-simpul pada hiden layer sebelumnya atau dari simpul-
23
simpul pada input layer dan ke simpul simpul pada hidden
layer berikutnya atau ke simpul-simpul pada output layer.
3. Output layer
Garis yang terhubung dengan Output layer berasal dari
hidden layer atau input layer dan mengembalikan nilai
keluaran yang bersesuaian dengan variabel prediksi. Keluaran
dari output layer biasanya merupakan nilai floating antara 0
sampai 1 [5].
Langkah pembelajaran dalam algoritma backproparagation adalah
sebagai beikut [13]:
Neuron dalam MLP backpropagation menghitung v dengan formula
sebagai berikut :
v=∑
x .w
(2-17)
Nilai n adalah jumlah masukan (fitur) data input, x merupakan nilai
fitur/vektor, dan w adalah bobot vektor. Nilai v kemudian diaktivasi
untuk menghasilkan sinyal output. Fungsi aktivasi yang digunakan
adalah fungsi aktivasi sigmoid, dan untuk mendapatkan output y
digunakan persamaan :
y=
(2-18)
Pelatihan algoritma backpropagation ditunjukan seperti gambar 2.4,
MLP dengan tiga layer (satu layer tersembunyi). Untuk indeks i, j, k
masing – masing menyatakan indeks neuron dalam layer masukan,
tersembunyi dan keluaran. Sinyal masukan x1, x2, dan xn dirambatkan
dari kiri ke kanan. Sedangkan sinyal error e1, e2, ..., el dirambatkan
balik dari kanan ke kiri. Simbol
menyatakan bobot untuk koneksi
dari layer masukan ke layer tersembunyi, dimana i menyatakan neuron
24
dalam layer masukan dan j menyatakan neuron dalam layer
tersembunyi. Simbol
menyatakan bobot dari layer tersembunyi ke
neuron k dalam layer keluaran.
Perambatan dari sinyal error dimulai dari layer keluaran dan berjalan
kembali ke layer tersembunyi. Sinyal error di neuron keluaran k pada
iterasi p diformulasikan dengan
e (p) = y (p) − y (p)
(2-19)
y (p) adalah nilai keluaran yang menjadi target untuk neuron k, dan
y (p) adalah keluaran nyata yang didapatkan oleh neuron k di layer
keluaran. Karena sinyal balik pada semua neuron dalam layer keluaran
disuplai langsung oleh nilai keluaran yang diharapkan, prosedur untuk
memperbarui bobot w menjadi sederhana. Prosedur yang digunakan
untuk memperbarui bobot pada koneksi anter layer tersembunyi ke
layer keluaran adalah sebagai berikut :
w (p + 1) = w (p) + ∆w (p)
(2-20)
∆w ( ) adalah koreksi bobot dan dapat dihitung dengan persamaan
berikut :
∆w (p) = ∩× y (p) × δ (p)
(2-21)
∩ adalah laju pembelajaran (learning rate), δ (p) adalah gradien error
pada neuron k dalam layer output pada iterasi ke p. Sedangkan untuk
menghitung gradien error pada fungsi aktivasi sigmoid dengan cara
δ (p) = y (p) × 1 − y (p) × e (p)
(2-22)
y (p) =
(2-23)
Di mana
( )
25
Untuk menghitung koreksi bobot pada layer tersembunyi, cara yang
sama juga digunakan
∆w (p) = ∩× x (p) × δ (p)
(2-24)
δ (p) merepresentasikan gradien error pada neuron j dalam layer
tersembunyi. Persamaan yang digunakan untuk menghitung gradien
error pada layer tersembunyi adalah sebagai berikut
δ (p) = y (p) × 1 − y (p) + ∑
δ (p) . w (p)
(2-25)
Secara prosedural, pelatihan backpropagation dijelaskan paa
algortima berikut. Fungsi aktivasi yang digunakan adalah sigmoid.
Langkah 1: Inisialisasi
Inisialisasi semua bobot pada layer tersembunyi dan layer
keluaran, tetapkan fungsi aktivasi yang digunakan untuk setiap layer.
Tetapkan laju pembelajaran.
Inisialisasi semua bobot, biasanya digunakan bilangan acak dalm
jangkauan [-0.5,0.5]
Langkah 2: Aktivasi
Mangaktifkan
jaringan
x (p), x (p), … , x (p)
dan
dengan
menerapakan
keluaran
yang
masukan,
diharapkan
y (p), y (p), … , y (p) .
a. Hitung keluaran yang didapatkan dari neuron dalam layer
tersembunyi
v (p) =
y (p) =
x (p) . w (p)
1
1+e
( )
n adalah jumlah masukan pada neuron j dalam layer tersembunyi.
26
b. Hitung keluaran yang didapatkan dari neuron dalam layer
keluaran:
v (p) =
y (p) =
x (p) . w (p)
1
1+e
( )
m adalah jumlah masukan pada neuron k dalam layer keluaran.
Langkah 3: Perbarui bobot
Bobot diperbarui pada saat error dirambatkan balik dalam ANN,
error yang dikembalikan sesuai dengan arah keluarnya sinyal output.
a. Hitung gradien error untuk neuron dalam layer keluaran
e (p) = y (p) − y (p)
δ (p) = y (p) × 1 − y (p) × e (p)
Hitung koreksi bobot:
∆w (p) = ∩× y (p) × δ (p)
Perbarui bobot pada neuron layer keluaran:
w (p + 1) = w (p) + ∆w (p)
b. Hitung gradien error untuk neuron dalam layer tersembunyi
δ (p) = y (p) × 1 − y (p) +
Hitung koreksi bobot:
δ (p) . w (p)
∆w (p) = ∩× x (p) × δ (p)
Perbarui bobot pada neuron layer tersembunyi:
w (p + 1) = w (p) + ∆w (p)
Langkah 4: Iterasi
Naikan 1 untuk iterasi p, kembali ke langkah 2 dan ulangi proses
tersebut sampai kriteria error tercapai.
27
2.2.6 Cross validation
Cross Validation adalah cara menemukan parmeter terbaik dari
suatu model dengan cara menguji besarnya error pada data test. Dalam
cross validation, data akan dibagi menjadi k sampel dengan ukuran
yang sama. Kemudian k -1 sampel digunakan untuk training dan 1
sampel sisanya untuk testing. Cara ini sering disebut validasi k-fold
[9]. Kemudian dilakukan proses silang dimana data testing dijadikan
sebagai data training dan sebaliknya data training sebelumnya
dijadikan sebagai data testing [12].
Dalam cross validation kita harus menetapkan jumlah partisi atau
fold, standar yang biasa dan terkenal digunakan untuk memperoleh
estimasi kesalahan terbaik adalah 10 kali partisi atau tenfold crossvalidation [12].
Gambar 2.5: Ilustrasi tenfold cross validation
2.2.7 Confusion Matrix
Untuk melakukan evaluasi terhadap model klasifikasi berdasarkan
perhitungan objek testing mana yang diprediksi benar dan tidak benar,
perhitungan ini ditabulasikan kedalam tabel yang disebut confusion
matrix [14]. Confusion matrix merupakan data set hanya memiliki
dua kelas, kelas yang satu sebagai positif dan kelas yang lain sebagai
negatif. Terdiri dari empat sel yaitu True Positives (TP), False
Positives (FP), True Negatives (TN) dan False Negatives (FN) [14].
28
Gambar 2.6: Confusion matrix untuk 2 model kelas
Untuk menghitung akurasi menggunakan rumus [15]:
=
=
=
=
(2-26)
(2-27)
=
=
(2-28)
=
=
(2-29)
=
=
(2-30)
Tabel 2.3: Keterangan persamaan confusion matrix.
Keterangan
acc
proporsi jumlah prediksi yang benar
tn
proporsi kasus negatif yang diklasifikasikan dengan benar
tp
proporsi kasus positif yang diklasifikasikan dengan benar
fn
proposi kasus positif yang salah diklasifikasikan sebagai
29
negatif.
fp
proporsi kasus negatif yang salah diklasifikasikan sebagai
positif.
Tabel 2.4: Contoh confusion matrix
Model SVM
Kelas yang prediksi
Kelas yang di amati
250
45
5
200
Dari table di atas dapat dilakukan pengukuran akurasi model
SVM sebagai berikut :
Akurasi =
250 + 200
450
=
= 90%
250 + 45 + 5 + 200
500
2.2.8 Kurva ROC
Kurva ROC menunjukan visualisasi dari akurasi model dan
perbandingkan
perbedaan
antar
model
mengekspresikan confusion matrix [16].
klasifikasi.
ROC
ROC adalah grafik dua
dimensi dengan false positives sebagai garis horizontal dan true
positives untuk mengukur perbedaaan performasi metode yang
digunakan.
Kurva ROC adalah teknik untuk memvisualisasi dan
menguji kinerja pengklasifikasian berdasarkan performanya [15].
Model klasifikasi yang lebih baik adalah yang mempunyai kurva ROC
lebih besar [16]. Performa keakurasian AUC dapat diklasifikasikan
menjadi lima kelompok yaitu [15]:
a. 0.90 – 1.00 = Sempurna
b. 0.80 – 0.90 = Bagus
c. 0.70 – 0.80 = Cukup
d. 0.60 – 0.70 = Kurang
e. 0.50 – 0.60 = Gagal
30
2.3 Model Kerangka Pemikiran
Masalah (problem) dalam penelitian ini adalah hasil akurasi yang
dihasilkan Neural Network untuk prediksi tingkat kelulusan masih kurang
akurat. Kemudian digunakan metode prediksi lain yaitu Support Vector
Machine untuk mengetahui metode yang mempunyai akurasi terbaik.
Desain penelitian menggunakan CRISP-DM dan RapidMiner digunakan
untuk pengujian dan validasi model. Teknik pengujian terhadap kinerja dari
metode Support Vector Machine dan metode Neural Network dengan
menggunakan Cross Validation. Evaluasi terhadap akurasi model dukur
dengan Confusion Matrix dan performa AUC diukur dengan kurva ROC.
Dari hasil perbandingan nilai akurasi akan diketahui metode mana yang
mempunyai akurasi lebih baik untuk memprediksi ketepatan waktu kelulusan
mahasiswa.
Masalah
Akurasi metode prediksi kelulusan mahasiswa dengan Neural Network masih kurang
Metode
Support Vector Machine
Neural Network
Pengembangan
RapidMiner 5.3
Penerapan CRISP-DM
Data set mahasiswa lulus tepat waktu dan terlambat
Validasi dan Evaluasi
Cross Validation
Confusion Matrix
AUC
Produk
Sistem Pendukung Keputusan
Coding (Matlab 7.01)
Gambar 2.7: Kerangka pemikiran
31
BAB III
METODOLOGI PENELITIAN
3.1 Desain Penelitian
Pengertian penelitian dalam akademik yaitu digunakan untuk mengacu
pada aktivitas yang rajin dan penyelidikan sistematis atau investigasi di suatu
daerah, dengan tujuan menemukan atau merevisi fakta, teori, aplikasi dan
tujuannya adalah untuk menemukan dan menyebarkan pengetahuan baru.
Metode yang umum digunakan dalam penelitian yaitu tindakan penelitian,
eksperimen, studi kasus dan survei [2].
Desain penelitian yang akan digunakan adalah metode CRISP-DM yang
merupakan standart proses penelitian data mining yang meliputi pemahaman
bisnis, pemahaman data, pengolahan data, pemodelan, evaluasi dan
penyebaran [5].
3.1.1 Pengumpulan Data
3.1.1.1 Pemahaman Bisnis (Bussiness Understanding)
Perguruan tinggi bersaing meningkatkan tingkat
kelulusan agar mahasiswa segera berkontribusi dalam
masyarakat nyata dan dapat meningkatkan kesejahteraan
ekonomi bangsa. Tingkat kelulusan juga menjadi penilaian
publik terhadap suatu lembaga pendidikan yang dapat
mempengaruhi kredibilitas dan akreditasi suatu lembaga
pendidikan.
Quadri et al [4] berpendapat bahwa wisuda yang tepat
waktu merupakan masalah penting karena efektifitas suatu
lembaga pendidikan dapat diukur dari tingkat kelulusan.
Evaluasi secara berkala terhadap kecenderungan ketepatan
waktu kelulusan mahasiswa sangat diperlukan agar dapat
meningkatkan kredibilitas dan akreditasi perguruan tinggi.
Oleh karena itu prediksi terhadap ketepatan waktu
kelulusan mahasiswa sangat diperlukan, sehingga lembaga
32
pendidikan dapat segera mengambil kebijakan guna
mengantisipasi adanya mahasiswa yang terlambat lulus.
3.1.1.2 Pemahaman Data (Data Understanding)
Dalam pengumpulan data terdapat sumber data,
sumber data yang terhimpun langsung oleh peneliti disebut
dengan sumber primer, sedangkan apabila melalui tangan
kedua disebut sumber sekunder [2]. Trend penelitian data
mining saat ini adalah menguji metode yang dikembangkan
oleh peneliti dengan public dataset atau data sekunder,
sehingga penelitian dapat bersifat comparable, repeatable
dan verifiable.
Data yang akan digunakan pada penelitian ini
merupakan data sekunder berasal dari penelitian Hilda
tahun 2012 level thesis STIMIK NUSA MANDIRI
JAKARTA
yang
berupa
lampiran
data
kelulusan
mahasiswa berjumlah 1582 record dan terdiri dari 14
atribut, dengan 9 atribut bertipe numerik dan 5 bertipe
kategorikal. Data tersebut digunakan oleh Hilda untuk
dilakukan prediksi kelulusan mahasiswa.
Gambar 3.1: Data yang dilampirkan Hilda [1]
33
3.1.2 Pengolahan Data
Data yang diambil berjumlah 1582 record terdiri dari 14 atribut,
dengan 9 atribut bertipe numerik dan 5 bertipe kategorikal, namun
tidak semua data digunakan karena harus melalui beberapa tahap
pengolahan awal data (preparation data). Teknik yang digunakan agar
mendapatkan data yang berkualitas sebelum dimodelkan adalah
sebagai berikut [2] :
1. Data Validation, digunakan untuk mengientifikasi dan menghapus
data yang ganjil (outlier/noise) atau yang tidak konsisten, dan data
yang tidak lengkap (missing value). Missing data terlihat pada
tabel 3.1 dan hasil validasi terlihat pada tabel 3.2.
2. Data Integration and Transformation, karena beberapa atribut data
yang digunakan pada penelitian kali ini bertipe kategorikal maka
harus dirubah ke dalam bentuk numerical agar dapat dimodelkan
menggunakan metode Support Vector Machine.
3. Data size reduction and dicrtization, untuk memperoleh data set
dengan atribut dan record yang lebih sedikit dan lebih informatif.
Dalam penelitian ini akan dihapus beberpa atribut yang tidak
relevan seperti nim, nama, jurusan, indeks prestasi semester lima,
enam, tujuh dan delapan seperti terlihat pada tabel 3.3 sehingga
atribut yang digunakan menjadi tujuah atribut prediktor dan satu
atribut label.
Tabel 3.1: Ilustrasi missing data pada data training
Fakultas
Ilmu
Pendidikan
Ilmu
Pendidikan
Ilmu
Pendidikan
Ilmu
Jenis
Kelamin
Laki-Laki
Umur IPS IPS2 IPS3 IPS4 Status
1
24
2,95 3,55 2,71 4
Tepat
Laki-Laki
22
3,88 3,3
3,3
3,25
Terlambat
Perempuan 22
3,18 3,43
3,57
3,88
Tepat
Perempuan 22
3,78 3,57
3,65
3,78
Terlambat
34
Pendidikan
Bahasa dan
Seni
Bahasa dan
Seni
Bahasa dan
Seni
Bahasa dan
Seni
Matematika
dan IPA
Matematika
dan IPA
Matematika
dan IPA
Matematika
dan IPA
Ilmu Sosial
Laki-Laki
24
3,45 3,3
3,21
3,39
Tepat
Laki-Laki
29
3,11 2,21
2,00
3,00
Terlambat
Perempuan 23
3,82 3,48
3,08
3,57
Tepat
Perempuan 23
2,91 2.32
2,78
2,35
Terlambat
Laki-Laki
23
2,95 2,3
2,24
4,00
Tepat
Laki-Laki
22
3,89 3,3
3,3
3,25
Terlambat
Perempuan 26
2,5
2,33
2,00
2,71
Tepat
Perempuan 24
3,45 3,38
3,48
3,09
Terlambat
Laki-Laki
0
2,77
3,3
Tepat
23
0
Data yang tidak ada nilainya atau bernilai tersebut (missing
value) diubah dengan nilai rata – rata nilai atribut yang sama pada
data training yang disebut model average. Hasil data setelah
dilakukan validasi terhadap data missing value ditunjukan pada
tabel 3.2.
Tabel 3.2: Data Training setelah dilakukan validasi
Fakultas
Ilmu
Pendidikan
Ilmu
Pendidikan
Ilmu
Pendidikan
Ilmu
Pendidikan
Bahasa dan
Seni
Bahasa dan
Seni
Bahasa dan
Seni
Jenis
Kelamin
Laki-Laki
Umur IPS IPS2 IPS3 IPS4 Status
1
24
2,95 3,55 2,71 4
Tepat
Laki-Laki
22
3,88 3,3
3,3
3,25
Terlambat
Perempuan 22
3,18 3,43
3,57
3,88
Tepat
Perempuan 22
3,78 3,57
3,65
3,78
Terlambat
Laki-Laki
24
3,45 3,3
3,21
3,39
Tepat
Laki-Laki
29
3,11 2,21
2,00
3,00
Terlambat
Perempuan 23
3,82 3,48
3,08
3,57
Tepat
35
Bahasa dan
Seni
Matematika
dan IPA
Matematika
dan IPA
Matematika
dan IPA
Matematika
dan IPA
Ilmu Sosial
Perempuan 23
2,91 2.32
2,78
2,35
Terlambat
Laki-Laki
23
2,95 2,3
2,24
4,00
Tepat
Laki-Laki
22
3,89 3,3
3,3
3,25
Terlambat
Perempuan 26
2,5
2,33
2,00
2,71
Tepat
Perempuan 24
3,45 3,38
3,48
3,09
Terlambat
Laki-Laki
3,17 3,00
2,77
3,3
Tepat
23
Tabel 3.3: Atribut yang digunakan
Atribut
NIP
NAMA
FALKULTAS
Jeniskelamin
Umur
IPS1
IPS2
IPS3
IPS4
IPS5
IPS6
IPS7
IPS8
STATUS
Kegunaan
X
X
√
√
√
√
√
√
√
X
X
X
X
√
ID
No
Prediktor (nilai model)
Prediktor (nilai model)
Prediktor (nilai model)
Prediktor (nilai model)
Prediktor (nilai model)
Prediktor (nilai model)
Prediktor (nilai model)
No
No
No
No
Label (hasil)
3.1.3 Pemodelan Data
Pada tahap modeling ini dilakukan pemprosesan terhadap data
set dengan metode Support Vector Machine dan Neural Network.
Paremeter diatur dan disesuaikan agar diperoleh model terbaik.
Pengujian terhadap model yang dihasilkan dengan menggunakan kfold cross validation, kemudian dilakukan evaluasi hasil dengan
confusion matrix dan kurva ROC.
Metode dengan hasil akurasi
terbaik selanjutnya diterapakan ke dalam sebuah sistem pendukung
keputusan. Tahapan – tahapan yang diusulkan pada penelitian ini
akan digambarkan seperti berikut:
36
Data set Mahasiswa
Data set Mahasiswa
Support Vector Machine
Neural Network
Model
Model
Support Vector Machine Linear
Neural Network (Backpropagation)
Pengujian :
Pengujian :
k-Cross Validation
k-Cross Validation
Evaluasi :
Evaluasi :
Confusion Matrix, kurva ROC
Confusion Matrix, kurva ROC
Komparasi
Gambar 3.2: Model yang diusulkan
Pada penelitian kali ini yang digunakan adalah penelitian
Experiment. Penelitian eksperimen melibatkan penyelidikan hubungan
kausal menggunakan tes dikendalikan oleh peneliti [2].
3.1.4 Validasi dan Evaluasi
Dalam tahap ini dilakukan validasi dan pengukuran keakuratan
hasil yang dicapai oleh model menggunakan beberapa teknik yang
terdapat dalam framework RapidMiner versi 5.3 yaitu confusion
matrix dan kurva ROC untuk pengukuran akurasi model, dan crossvalidation untuk validasi.
37
3.1.5 Penyebaran (Deployment)
Hasil penelitian ini adalah analisa yang mengarah ke Decission
Suport System (DSS) dan dapat digunakan oleh institusi pendidikan
setingkat perguruan tinggi untuk memberikan pertimbangan dalam
penentuan langkah selanjutnya menangani masalah keterlambatan
kelulusan dari mahasiswa yang mempengaruhi akreditasi perguruan
tinggi, penilaian sosial masyarakat. Model yang dihasilkan juga dapat
digunakan untuk rujukan penelitian berikutnya serta dapat digunakan
sebagai dasar perancangan sebuah sistem.
3.2 Alat Penelitian
Dalam penelitian eksperimen ini digunakan spesifikasi software dan
hardware sebagai alat bantu dalam penelitian seperti pada tabel 3.4.
Tabel 3.4: Spesifikasi Software dan Hardware
Software
Hardware
Sistem operasi : Windows 7 Ultimate
Prosesor : Intel Atom CPU N570
1.66 GHz (4CPUs),
~1.7GHz
Data mining : RapidMiner versi 5.3.008 RAM : 1.00 GB
38
BAB IV
HASIL PENELITIAN DAN PEMBAHASAN
4.1 Hasil Eksperimen dan Pengujian Metode
4.1.1 Support Vector Machine
Support Vector Machine linear menggunakan fungsi dotproduct untuk melakukan pemetaan ke feature space, sehingga
dalam eksperimen ini tidak memerlukan pengubahan parameter
kernel. Hasil pengujian metode SVM - linear akan ditunjukan
pada tabel 4.1 berikut :
Tabel 4.1: Hasil pengujian dengan SVM - linear
Percobaan
1
2
3
4
5
SVM-Linear
Accuracy
AUC
81.17%
81.17%
81.17%
81.17%
81.17%
0.882
0.882
0.882
0.882
0.882
Hasil terbaik pada eksperiment Support Vector Machine di
atas mengahasilkan akurasi 81.17%, dan performa Area Under
Curve (AUC) sebesar 0.878. Nilai bias (b) yang dihasilkan dari
penggunaan metode Support Vector Machine sebesar 0.771
sedangkan Attribut weight yang dihasilkan ditunjukan pada tabel
4.2 berikut :
Tabel 4.2: Attribut weight dengan metode Support Vector
Machine Linear
Attribut
Fakultas
Jenis Kelamin
Umur
IPS1
IPS2
IPS3
IPS4
Weight
-0.114
0.041
3.281
-1.041
-0.014
-0.051
-0.160
39
4.1.2 Neural Network
Neural Network yang digunakan pada penelitian prediksi
kelulusan mahasiswa ini adalah metode neural network multilayer
perceptron (MLP).
Untuk mendapatkan hasil yang paling akurat dengan
menggunakan metode Neural Network, pengujian dilakukan
dengan mengubah jumlah layer yang terdapat pada hidden layer.
Percobaan dilakukan dengan menggunakan tiga layer yang terdiri
input layer terdiri dari delapan simpul sesuai dengan jumlah atribut
prediktor yang digunakan yaitu fakultas, umur, jenis kelamin, IP
semester satu, IP semester dua, IP semester tiga dan IP semester
empat ditambah satu simpul bias. Layer yang kedua adalah hidden
layer. Pada hidden layer akan digunakan 4 simpul layer, 6 simpul
layer, 8 simpul layer, 10 simpul layer, dan 12 simpul layer
ditambah 1 simpul bias untuk mencari hasil akurasi terbaik. Layer
yang ketiga adalah output layer terdapat dua simpul yakni
mewakili kelas TEPAT dan TERLAMBAT.
Paramater yang digunakan pada percobaan adalah sebagai berikut :
Gambar 4.1: Pramater yang digunakan pada pelatihan Neural
Network
Hasil percobaan dengan menggunakan neural network 1
hidden layer untuk jumlah simpul layer yang berbeda pada hidden
layer akan ditunjukan pada gambar berikut :
40
Gambar 4.2: Neural Net dengan 4 layer
Gambar 4.3: Neural Net dengan 6 layer
41
Gambar 4.4: Neural Net dengan 8 layer
Gambar 4.5: Neural Net dengan 10 layer
42
Gambar 4.6: Neural Net dengan 12 layer
Bobot awal untuk input layer, hidden layer, dan bias
diinisialisasi secara acak. Simpul bias terdiri dari dua, yaitu pada
input layer yang terhubung dengan simpul-simpul pada hidden
layer, dan hidden layer yang terhubung pada output layer. Setelah
semua nilai awal diinisialisasi, kemudian dihitung masukan,
keluaran dan error. Selanjutnya membangkitkan output untuk
simpul menggunakan fungsi aktifasi sigmoid.
Setelah nilai error dihitung, selanjutnya dibalik ke layer
sebelumnya (backpropagation), fungsi aktivasi untuk simpul pada
hidden layer akan ditampilkan pada tabel - tabel berikut :
43
Tabel 4.3: Nilai bobot akhir untuk hidden layer dengan 4 layer
Node 1 (Sigmoid)
---------------FALKULTAS: 4.648
Jenis Kelamin: 0.094
Umur: 32.576
IPS1: 6.430
IPS2: -0.001
IPS3: 1.026
IPS4: 0.534
Bias: 27.913
Node 2 (Sigmoid)
---------------FALKULTAS: -2.038
Jenis Kelamin: -0.860
Umur: 17.790
IPS1: -5.888
IPS2: -8.578
IPS3: -2.676
IPS4: -2.053
Bias: 27.077
Node 3 (Sigmoid)
---------------FALKULTAS: -1.438
Jenis Kelamin: 1.038
Umur: 39.792
IPS1: -6.487
IPS2: 1.560
IPS3: -0.015
IPS4: -1.447
Bias: 41.746
Node 4 (Sigmoid)
---------------FALKULTAS: -10.778
Jenis Kelamin: -9.315
Umur: 16.806
IPS1: -6.132
IPS2: 8.067
IPS3: -0.697
IPS4: 12.193
Bias: 6.276
Tabel 4.4: Nilai bobot akhir untuk hidden layer dengan 6 layer
Node 1 (Sigmoid)
---------------FALKULTAS: -2.783
Jenis Kelamin: -8.191
Umur: 9.909
IPS1: -8.421
IPS2: 15.317
IPS3: -0.422
IPS4: -12.097
Bias: -0.924
Node 2 (Sigmoid)
---------------FALKULTAS: -1.022
Jenis Kelamin: 14.258
Umur: 25.210
IPS1: -9.540
IPS2: 0.598
IPS3: -1.458
IPS4: -1.845
Bias: 19.109
Node 3 (Sigmoid)
---------------FALKULTAS: -17.632
Jenis Kelamin: 1.873
Umur: 23.611
IPS1: -1.577
IPS2: 3.183
IPS3: -5.363
IPS4: 9.129
Bias: 1.073
Node 4 (Sigmoid)
---------------FALKULTAS: -1.709
Jenis Kelamin: -0.055
Umur: 11.178
IPS1: -8.984
IPS2: -18.632
IPS3: -2.227
IPS4: -1.110
Bias: 25.501
Node 5 (Sigmoid)
---------------FALKULTAS: -10.004
Jenis Kelamin: -2.358
Umur: 9.590
IPS1: 1.189
Node 6 (Sigmoid)
---------------FALKULTAS: 0.932
Jenis Kelamin: -1.444
Umur: 33.602
IPS1: -1.291
44
IPS2: -5.982
IPS3: -12.529
IPS4: -0.220
Bias: 2.688
IPS2:
IPS3:
IPS4:
Bias:
3.207
0.733
-0.024
31.161
Tabel 4.5: Nilai bobot akhir untuk hidden layer dengan 8 layer
Node 1 (Sigmoid)
---------------FALKULTAS: -22.059
Jenis Kelamin: 1.956
Umur: 19.652
IPS1: -1.283
IPS2: -6.661
IPS3: -6.221
IPS4: 2.885
Bias: 1.574
Node 2 (Sigmoid)
---------------FALKULTAS: -12.217
Jenis Kelamin: -11.110
Umur: 15.973
IPS1: -4.651
IPS2: 8.865
IPS3: -0.424
IPS4: 12.609
Bias: 2.761
Node 3 (Sigmoid)
---------------FALKULTAS: 0.376
Jenis Kelamin: 17.400
Umur: 29.889
IPS1: -7.964
IPS2: 0.810
IPS3: 0.811
IPS4: 0.482
Bias: 16.353
Node 4 (Sigmoid)
---------------FALKULTAS: 1.529
Jenis Kelamin: -1.870
Umur: 15.041
IPS1: -11.486
IPS2: 1.423
IPS3: 8.855
IPS4: -1.016
Bias: 12.164
Node 5 (Sigmoid)
---------------FALKULTAS: 0.182
Jenis Kelamin: -0.177
Umur: 25.937
IPS1: 0.832
IPS2: -0.314
IPS3: -0.483
IPS4: -0.333
Bias: 23.616
Node 6 (Sigmoid)
---------------FALKULTAS: -0.455
Jenis Kelamin: 0.244
Umur: 16.206
IPS1: -3.287
IPS2: -10.528
IPS3: -1.427
IPS4: -0.088
Bias: 22.773
Node 7 (Sigmoid)
---------------FALKULTAS: 0.477
Jenis Kelamin: -0.809
Umur: 16.400
IPS1: 2.917
IPS2: 7.090
IPS3: -9.175
IPS4: -1.294
Bias: 13.939
Node 8 (Sigmoid)
---------------FALKULTAS: -0.595
Jenis Kelamin: -0.006
Umur: 15.055
IPS1: -0.982
IPS2: 7.794
IPS3: 5.705
IPS4: -13.551
Bias: 9.825
45
Tabel 4.6: Nilai bobot akhir untuk hidden layer dengan 10 layer
Node 1 (Sigmoid)
---------------FALKULTAS: 0.159
Jenis Kelamin: -1.528
Umur: 13.908
IPS1: -12.139
IPS2: -3.078
IPS3: 7.384
IPS4: 5.113
Bias: 12.721
Node 3 (Sigmoid)
---------------FALKULTAS: -1.009
Jenis Kelamin: -1.349
Umur: 13.052
IPS1: -5.604
IPS2: 6.792
IPS3: 3.111
IPS4: -12.191
Bias: 11.984
Node 5 (Sigmoid)
---------------FALKULTAS: -14.964
Jenis Kelamin: 1.903
Umur: 18.362
IPS1: -5.480
IPS2: 5.618
IPS3: -3.635
IPS4: 6.466
Bias: 0.774
Node 7 (Sigmoid)
---------------FALKULTAS: -1.655
Jenis Kelamin: 16.905
Umur: 20.438
IPS1: -4.825
IPS2: -14.503
IPS3: -3.848
IPS4: 2.732
Bias: 14.276
Node 9 (Sigmoid)
---------------FALKULTAS: -7.519
Jenis Kelamin: 14.512
Umur: 20.949
IPS1: -11.211
IPS2: 4.844
IPS3: 1.722
IPS4: -1.636
Bias: 15.610
Node 2 (Sigmoid)
---------------FALKULTAS: 0.398
Jenis Kelamin: 12.493
Umur: 24.846
IPS1: -5.389
IPS2: 5.603
IPS3: 1.802
IPS4: -4.678
Bias: 13.481
Node 4 (Sigmoid)
---------------FALKULTAS: 0.309
Jenis Kelamin: -0.593
Umur: 23.068
IPS1: 2.252
IPS2: -0.643
IPS3: -0.081
IPS4: -0.856
Bias: 20.837
Node 6 (Sigmoid)
---------------FALKULTAS: 0.408
Jenis Kelamin: -0.898
Umur: 19.255
IPS1: 2.154
IPS2: 1.788
IPS3: -7.013
IPS4: 2.982
Bias: 15.960
Node 8 (Sigmoid)
---------------FALKULTAS: 5.158
Jenis Kelamin: 2.128
Umur: 22.848
IPS1: 3.111
IPS2: -0.831
IPS3: 2.551
IPS4: -1.879
Bias: 19.084
Node 10 (Sigmoid)
----------------FALKULTAS: -17.317
Jenis Kelamin: -18.648
Umur: 10.152
IPS1: -1.212
IPS2: -4.636
IPS3: 1.046
IPS4: -4.997
Bias: 13.024
46
Tabel 4.7: Nilai bobot akhir untuk hidden layer dengan 12 layer
Node 1 (Sigmoid)
---------------FALKULTAS: 7.411
Jenis Kelamin: -10.510
Umur: 4.720
IPS1: -0.632
IPS2: -1.279
IPS3: -6.783
IPS4: -1.409
Bias: 6.063
Node 3 (Sigmoid)
---------------FALKULTAS: 2.896
Jenis Kelamin: -0.790
Umur: 13.512
IPS1: -7.372
IPS2: -4.025
IPS3: 15.169
IPS4: -1.102
Bias: 7.449
Node 5 (Sigmoid)
---------------FALKULTAS: 1.864
Jenis Kelamin: -3.278
Umur: 24.003
IPS1: 2.729
IPS2: 6.801
IPS3: -0.832
IPS4: 2.396
Bias: 17.736
Node 7 (Sigmoid)
---------------FALKULTAS: 3.000
Jenis Kelamin: 8.766
Umur: 14.602
IPS1: -6.082
IPS2: 2.650
IPS3: 0.951
IPS4: -2.145
Bias: 8.825
Node 9 (Sigmoid)
---------------FALKULTAS: -1.558
Jenis Kelamin: 17.793
Umur: 13.162
IPS1: -10.192
IPS2: -18.511
IPS3: -4.747
IPS4: 2.455
Bias: 11.335
Node 2 (Sigmoid)
---------------FALKULTAS: 9.120
Jenis Kelamin: 7.367
Umur: 14.210
IPS1: 12.762
IPS2: -8.708
IPS3: -0.720
IPS4: -4.932
Bias: 8.342
Node 4 (Sigmoid)
---------------FALKULTAS: 7.111
Jenis Kelamin: 2.245
Umur: 9.403
IPS1: -3.587
IPS2: 8.308
IPS3: -2.886
IPS4: -4.690
Bias: 4.537
Node 6 (Sigmoid)
---------------FALKULTAS: -13.993
Jenis Kelamin: 0.680
Umur: 23.542
IPS1: -4.078
IPS2: 5.325
IPS3: -9.163
IPS4: 8.956
Bias: 8.713
Node 8 (Sigmoid)
---------------FALKULTAS: 24.271
Jenis Kelamin: 1.614
Umur: 10.566
IPS1: 5.436
IPS2: 9.797
IPS3: -0.217
IPS4: 0.781
Bias: -18.126
Node 10 (Sigmoid)
----------------FALKULTAS: -4.408
Jenis Kelamin: 1.336
Umur: 20.285
IPS1: -6.533
IPS2: 0.393
IPS3: 2.398
IPS4: -3.720
Bias: 22.230
Node 11 (Sigmoid)
----------------FALKULTAS: 4.451
Node 12 (Sigmoid)
----------------FALKULTAS: 14.568
47
Jenis Kelamin: -2.426
Umur: 4.578
IPS1: 6.307
IPS2: -9.250
IPS3: -8.099
IPS4: -3.587
Bias: 10.150
Jenis Kelamin: -2.221
Umur: 11.434
IPS1: -12.976
IPS2: 6.664
IPS3: 3.280
IPS4: -4.660
Bias: 3.192
Nilai akhir fungsi aktifasi pada output layer akan ditunjukan
pada tabel 4.8 sampai 4.12. Baris pertama pada tabel menyatakan
class, yaitu atribut kelas yang dinyatakan dengan simpul pada
output layer. Nilai yang terdapat pada baris di bawahnya adalah
nilai bias terbaru yang terdapat pada relasi antar simpul pada
hidden layer dan simpul pada output layer.
Tabel 4.8: Nilai bobot akhir untuk output layer dengan 4 Layer
Class 'TEPAT'
(Sigmoid)
Node 1: -4.828
Node 2: -3.555
Node 3: -5.707
Node 4: -2.813
Threshold: 7.157
Class 'TERLAMBAT'
(Sigmoid)
Node 1: 4.828
Node 2: 3.555
Node 3: 5.707
Node 4: 2.813
Threshold: -7.157
Tabel 4.9: Nilai bobot akhir untuk output layer dengan 6 Layer
Class 'TEPAT'
(Sigmoid)
Class'TERLAMBAT'
(Sigmoid)
Node 1: -7.563
Node 2: -3.059
Node 3: -2.203
Node 4: -2.954
Node 5: -5.807
Node 6: -4.299
Threshold: 4.862
Node 1: 7.563
Node 2: 3.059
Node 3: 2.203
Node 4: 2.954
Node 5: 5.807
Node 6: 4.299
Threshold: -4.862
Tabel 4.10: Nilai bobot akhir untuk output layer dengan 8 layer
Class 'TEPAT'
(Sigmoid)
Node 1: -2.397
Node 2: -1.834
Node 3: -3.360
Node 4: -2.766
Node 5: -4.048
Node 6: -2.469
Node 7: -2.409
Class 'TERLAMBAT'
(Sigmoid)
Node 1: 2.397
Node 2: 1.834
Node 3: 3.360
Node 4: 2.766
Node 5: 4.048
Node 6: 2.469
Node 7: 2.409
48
Node 8: -4.694
Threshold: 4.054
Node 8: 4.694
Threshold: -4.054
Tabel 4.11: Nilai bobot akhir untuk output layer dengan 10 layer
Class 'TEPAT'
(Sigmoid)
Node 1: -2.921
Node 2: -2.861
Node 3: -5.556
Node 4: -2.887
Node 5: -2.955
Node 6: -3.315
Node 7: -3.581
Node 8: -3.839
Node 9: -4.188
Node 10: -6.401
Threshold: 9.293
Class 'TERLAMBAT'
(Sigmoid)
Node 1: 2.921
Node 2: 2.861
Node 3: 5.556
Node 4: 2.887
Node 5: 2.955
Node 6: 3.315
Node 7: 3.581
Node 8: 3.840
Node 9: 4.188
Node 10: 6.401
Threshold: -9.293
Tabel 4.12: Nilai bobot akhir untuk output layer dengan 12 layer
Class 'TEPAT' (Sigmoid)
Node 1: -3.994
Node 2: -3.452
Node 3: -2.532
Node 4: -3.602
Node 5: -3.786
Node 6: -3.018
Node 7: -3.210
Node 8: 8.467
Node 9: -2.735
Node 10: -4.624
Node 11: -1.580
Node 12: -3.402
Threshold: 7.990
Class 'TERLAMBAT'
(Sigmoid)
Node 1: 3.994
Node 2: 3.452
Node 3: 2.532
Node 4: 3.602
Node 5: 3.786
Node 6: 3.018
Node 7: 3.210
Node 8: -8.467
Node 9: 2.735
Node 10: 4.624
Node 11: 1.580
Node 12: 3.402
Threshold: -7.990
Nilai akurasi dan performa AUC yang dihasilkan dari
pengujian
menggunakan
model
Neural
Network
dengan
menggunakan tool Rapidminer 5.3 dirangkum pada tabel berikut :
Tabel 4.13: Hasil pengujian dengan Neural Network
Hidden Layer
4 layer
6 layer
8 layer
10 layer
12 layer
Neural Network
Accuracy
AUC
76.80%
0.852
78.19%
0.848
78.83%
0.858
78.00%
0.851
77.18%
0.861
49
Hasil terbaik pada percobaan menggunakan Neural Network
di atas, terdapat pada percobaan dengan menggunakan 1 hidden
layer dan 8 simpul layer di dalamnya. Akurasi yang dihasilkan
sebesar 81.17%, dan nilai performa Area Under Curve (AUC)
sebesar 0.878 .
4.2 Evaluasi dan Validasi Hasil
Hasil dari pengujian model yang dilakukan adalah memprediksi
ketepatan waktu kelulusan mahasiswa dengan support vector machine dan
Neural Network untuk menentukan nilai accuracy dan AUC. Metode
pengujian menggunakan tenfold cross validation dengan desain modelnya
sebagai berikut:
.
Gambar 4.7: Desain model validasi
Desain model yang digunakan untuk memprediksi ketepatan waktu
kelulusan mahasiswa dengan metode Support Vector Machine dan Neural
Network menggunakan software RapidMiner dan metode pengujian
tenfold cross validation ditampilkan pada gambar 4.2 dan 4.3 berikut.
50
Gambar 4.8: Desain model validasi Support Vector Machine
51
Gambar 4.9: Desain model validasi Neural Network
Retrieve berfungsi untuk memasukan data set ke dalam RapidMiner.
Validation menggunakan tenfold cross-validation.
terdapat dua kolom, training dan testing.
Didalam validation
Di dalam kolom training
terdapat algoritma klasifikasi yang diterapkan yaitu Support Vector
Machine, dan Neural Network sedangkan di dalam kolom testing terdapat
Apply Model untuk menjalankan model Support Vector Machine dan
Neural Network. Performance digunakan untuk mengukur performa dari
model yang diterapkan.
4.2.1 Hasil Pengujian Model
4.2.1.1 Support Vector Machine Linear
Nilai accuracy, precision, dan recall dari data
training dapat dihitung dengan menggunakan RapidMiner.
Pemodelan dengan hasil akurasi terbaik sesuai dengan tabel
52
4.1 menggunakan metode Support Vector Machine yang
telah diproses oleh tools RapidMiner adalah sebagai
berikut:
Gambar 4.10 : Confusion matrix metode SVM-Linear
ditampilkan oleh RapidMiner.
Hasil yang ditampilkan tabel confusion matrix sesuai
gambar 4.3 di atas menunjukan dari 1582 record data, 516
data diprediksikan TEPAT dan sesuai dengan metode
SVM-Linear. 143 data diprediksi TEPAT tetapi hasil
prediksi
TERLAMBAT.
768
data
diprediksi
TERLAMBAT hasilnya sesuai, dan 155 data diprediksi
TERLAMBAT tetapi hasil prediksi TEPAT.
Perbandingan prediksi TEPAT dan TERLAMBAT
digambarkan pada grafik sebagai berikut:
900
800
700
600
500
400
300
200
100
0
768
516
143
155
Prediksi Benar
Prediksi Salah
Gambar 4.11: Perbandingan prediksi benar dan prediksi
salah dengan SVM
53
18,83
Prediksi Salah
81,17
Prediksi Benar
Gambar 4.12: Tingkat akurasi dengan metode SVM.
Tingkat
akurasi
dengan
Support Vector Machine
menggunakan
metode
seperti gambar di atas adalah
sebesar 81.17%. Dari tabel confusion matrix sesuai gambar
4.3 dapat pula dihitung untuk mencari nilai accuracy, tn, tp,
fn, dan fp sesuai persamaan di bawah ini.
=
=
=
=
= 0.811
= 0.783
=
=
= 0.832
=
=
= 0.167
=
=
= 0.216
Hasil perhitungan dapat dilihat pada tabel 4.14 berikut :
54
Tabel 4.14: Nilai accuracy, tn, tp, fn, dan fp untuk metode
SVM - Linear
Nilai
Accuracy
0.811
tn
0.783
tp
0.832
fn
0.167
fp
0.216
Kurva ROC digunakan untuk mengekspresikan
confusion matrix. Garis horizontal adalah false positives
dan garis vertikal true positives. Kurva ROC yang
memvisualisasikan perhitungan confusion matrix untuk
metode Support Vector Machine kernel linear akan
ditampilkan pada gambar 4.4.
Gambar 4.13: Hasil performa AUC metode SVM-Linear
ditampilkan oleh kurva ROC pada RapidMiner
55
Dari kurva ROC di atas, dapat diketahui nilai AUC
(Area Under Curve) sebesar 0.882 dan masuk kategori
good classification.
4.2.1.2 Artificial Neural Network
Nilai accuracy, precision, dan recall dari data
training dihitung dengan menggunakan RapidMiner.
Pemodelan dengan hasil akurasi terbaik sesuai dengan tabel
4.2 menggunakan metode Neural Network yang telah
diproses oleh tools RapidMiner adalah sebagai berikut:
Gambar 4.14: Confusion matrix metode Neural Network
ditampilkan oleh RapidMiner.
Hasil yang ditampilkan tabel confusion matrix sesuai
gambar 4.3 di atas menunjukan dari 1582 record data, 474
data diprediksikan TEPAT dan sesuai. 138 data diprediksi
TEPAT tetapi hasil prediksi TERLAMBAT. 773 data
diprediksi TERLAMBAT hasilnya sesuai, dan 197 data
diprediksi TERLAMBAT tetapi hasil prediksi TEPAT.
Perbandingan prediksi TEPAT dan TERLAMBAT
yang benar dan salah digambarkan pada grafik sebagai
berikut:
56
900
800
700
600
500
400
300
200
100
0
773
474
197
138
Prediksi Benar
Prediksi Salah
Gambar 4.15: Perbandingan prediksi benar dan salah
dengan metode Nueral Network
21,17
Prediksi Salah
78,83
Prediksi Benar
Gambar 4.16: Tingkat akurasi menggunakan metode
Neural Network Backpropagation
Tingkat akurasi dengan menggunakan metode Neural
Network adalah sebesar 78.83%. Dari tabel confusion
matrix sesuai gambar 4.3 dapat pula dihitung untuk mencari
nilai accuracy, tn, tp, fn, dan fp sesuai persamaan di bawah
ini.
=
=
= 0.788
57
=
=
= 0.774
=
=
= 0.796
=
=
= 0.203
=
=
= 0.225
Hasil perhitungan dapat dilihat pada tabel 4.4 berikut :
Tabel 4.15: Nilai accuracy, tn, tp, fn, dan fp untuk metode
Neural Network Backpropagation
Nilai
Accuracy
0.788
tn
0.774
Tp
0.796
Fn
0.203
Fp
0.225
Kurva ROC digunakan untuk mengekspresikan
confusion matrix. Garis horizontal adalah false positives
dan garis vertikal true positives. Kurva ROC yang
memvisualisasikan perhitungan confusion matrix untuk
metode Neural Network akan ditampilkan pada gambar 4.7.
58
Gambar 4.17: Hasil performa AUC metode Neural Network
ditampilkan oleh kurva ROC pada RapidMiner
Dari kurva ROC di atas, dapat diketahui nilai AUC
(Area Under Curve) sebesar 0.858 dan masuk kategori
good classification.
4.2.2 Analisis Evaluasi dan Validasi Model
Berdasarkan hasil pengujian di atas, hasil evaluasi untuk
metode SVM dan Neural Network baik menggunkan confusion
matrix dan kurva ROC dapat dirangkum hasilnya pada tabel 4.7
berikut:
Tabel 4.16: Perbandingan performance metode Support Vector
Machine dan Neural Network
SVM
Linear
Neural
Network
Accuracy
81.17%
78.83%
AUC
0.882
0.858
59
Dari tabel perbandingan performance di atas, terbukti bahwa
pengujian menggunakan metode Support Vector Machine memiliki
akurasi yang lebih baik dibanding dengan pegujian menggunakan
Neural Network. Nilai akurasi yang dihasilkan Support Vector
Machine sebesar 81.17% sedangkan nilai akurasi yang dihasilkan
Neural Network sebesar 78.83% dengan selisih akurasi 2.34%.
81,5
81
80,5
80
79,5
79
78,5
78
77,5
SVM
Neural Network
Gambar 4.18 : Grafik perbedaan tingkat akurasi antara
metode SVM dan Neural Network
Untuk evaluasi menggunakan kurva ROC, dapat dilihat
bahwa nilai performa AUC yang dihasilkan Support Vector
Machine sebesar 0.882 dan masuk kategori good classification
sedangkan performa AUC yang dihasilkan Neural Network sebesar
0.858 dan termasuk kategori good classification. Dapat diketahui
bahwa performa AUC yang dihasilkan Support Vector Machine
lebih baik dibanding AUC yang dihasilkan Neural Network.
60
0,89
0,88
0,87
0,86
0,85
0,84
SVM
Neural Network
Gambar 4.19 : Grafik perbandingan performa AUC antara Support
Vector Machine dan Nural Network
Dari hasil nilai akurasi dan performance AUC di atas, dapat
diketehaui bahwa dalam kasus prediksi ketepatan waktu keleulusan
mahasiswa, Support Vector Machine memberikan hasil yang lebih
baik dalam hal akurasi maupun performa AUC dibandingkan dengan
penggunaan Neural Network.
4.3 Pembahasan
Percobaan pada penelitian ini menggunakan RapidMiner 5.3.008.
Algoritma yang digunakan adalah Support Vector Machine Linear dan
Neural Network Backpropagation.
Validasinya menggunakan tenfold
cross-validation, sedangkan pengukuran performanya menggunakan
confusion matrix dan kurva ROC.
Berdasarkan
hasil
eksperiment
yang
dilakukan
untuk
membandingkan penggunaan metode Support Vector Mchine dan Neural
Network dalam menyelesaikan masalah prediksi ketepatan waktu
kelulusan mahasiswa, dapat disimpulkan bahwa metode Support Vector
Machine mempunyai akurasi sebesar 81.17% dan mempunyai nilai AUC
sebesar 0.882 sehingga terbukti lebih baik dibandingkan dengan metode
Neural Network yang menghasilkan akurasi sebesar 78.83% dan
mempunyai nilai AUC 0.858.
61
Untuk implementasi metode yang digunakan untuk pengembangan
sistem pendukung keputusan maka akan digunakan metode Support Vector
Machine untuk mendapat sistem dengan kemampuan prediksi terbaik.
4.4 Implementasi Penelitian
Implementasi pada penelitian ini akan diarahkan pada 2 hal sebagai
berikut:
1. Aspek Sistem
Model yang dihasilkan pada penelitian ini dapat dijadikan acuan
untuk pengembangan sebuah sistem pendukung keputusan yang dapat
digunakan untuk memprediksi ketepatan waktu kelulusan mahasiswa.
Pada penelitian ini metode yang digunakan untuk dibuat sistem adalah
Support Vector Machine yang memiliki hasil akurasi lebih baik dari
Neural Network.
Pengembangan sistem menggunakan Matlab 7.10 dan tampilan
user interface seperti pada gambar berikut:
Gambar 4.20: Tampilan awal sistem pendukung keptutusan
62
Gambar 4.21: Tampilan sistem prediksi dengan satu data input
Gambar 4.22: Tampilan sistem prediksi dengan data import dari file
Excel
63
2. Penelitian Lanjutan
Penelitian pada kasus prediksi ketepatan waktu kelulusan
mahasiswa seperti ini dapat dikembangkan dengan metode klasifikasi
lain atau penambahan penggunaan algoritma optimasi agar mendapat
model dengan tingkat akurasi yang lebih tinggi.
64
BAB V
KESIMPULAN
5.1 Kesimpulan
Pada penelitian ini dilakukan pemodelan menggunakan metode
Support Vector Machine dan Neural Network Backpropagation dengan
menggunakan data set mahasiswa untuk prediksi ketepatan waktu kelulusan.
Fokus penelitian ini adalah membuktikan bahwa metode Support Vector
Machine mampu memberikan hasil akurasi yang lebih baik dari pada Neural
Network. Validasi model menggunakan 10fold cross-validation dan evaluasi
model menggunakan confusion matrix dan kurva ROC.
Hasil penelitian menunjukan bahwa model Support Vector Machine
memiliki akurasi yang lebih baik yaitu 81.17 % dibandingkan dengan model
Neural Network yang akurasi terbaiknya 78.83%.
Dengan demikian, terbukti bahwa penggunaan metode Support
Machine lebih baik dari pada Neural Network dalam kasus prediksi
ketepatan waktu kelulusan mahasiswa. Hal ini menjadikan Support Vector
Machine menjadi alternatif lain sebagai metode yang layak dijadikan acuan
untuk mengambangkan model prediksi pada kasus – kasus lain. Serta dapat
dikembangkan menjadi sebuah sistem pendukung keputusan untuk
memprediksi ketepatan waktu kelulusan.
5.2 Saran
Proses penelitian ini mendapatkan banyak hambatan seperti
terbatasnya data penelitian dan perangkat keras yang digunakan, untuk
penelitian selanjutnya terdapat beberapa saran sebagai berikut :
1. Untuk
penelitian
selanjutnya
dapat
dikembangkan
dengan
mengkombinasikan metode Support Vector Machine dengan algoritma
optimasi seperti Ant Colony Optimization (ACO), Genetic Algorithm
65
(GA), Particle Swarm Optimization (PSO) atau algoritma optimasi
lainnya.
2. Penelitian ini menggunakan data set yang dilampirkan oleh Hilda
dalam thesisnya, untuk penelitian selanjutnya dapat dikembangkan
dengan menggunakan data set mahasiswa lain yang memiliki atribut
tambahan seperti status pernikahan, status pekerjaan, pendapatan per
bulan keluarga sebagai inputan nilai model yang mempengaruhi
akurasi.
3. Penelitian ini digunakan untuk menyelesaikan kasus prediksi kelulusan
mahasiswa, dalam penelitian selanjutnya dapat diaplikasikan pada data
set yang berbeda seperti data perbankan untuk analisa kredit, data
pemasaran produk tertentu untuk menguji kehandalan model yang
diusulkan.
66
DAFTAR PUSTAKA
[1]
Amalia, H. 2012. “Komparasi Metode Data Mining Untuk Prediksi
Ketepatan Kelulusan Mahasiswa”. Tesis Magister Ilmu Komputer.
Sekolah Tinggi Managemen Informatika dan Komputer Nusa Mandiri.
[2]
Handayana, F. 2009. “Penerapan Particle Swarm Optimization untuk
Seleksi Atribut pada Metode Support Vector Machine Untuk Prediksi
Penyakit Diabetes”. Tesis Magister Ilmu Komputer. Sekolah Tinggi
Managemen Informatika dan Komputer Nusa Mandiri.
[3]
Jananto, A. 2013. “Algoritma Naive Bayes untuk Perkiraan Waktu
Studi Mahasiswa”. Jurnal Teknologi Informasi DINAMIK Volume 18,
No.1: 09-16.
[4]
Kalyankar, N.V. dan Quadril, M.N. 2010. Drop Out Feature of Student
Data for Academic Performance Using Decision Tree Techniques.
Global Journal of Computer Science and Technology: page 2 vol. 10 Issue 2.
[5]
Kusrini,
dan Luthfy, E. T. 2009. “Algoritma Data Mining”.
Yogyakarta: Andi Publishing.
[6]
Ridwan, M dan Suyono, H. et al. 2013. “Penerapan Data Mining
Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma
Naive Bayes Classifier”. Jurnal EECCIS Vol.7, No. 1.
[7]
Santosa, B. 2007. “Data Mining : Teknik Pemanfaatan Data untuk
Keperluan Bisnis”. Yogyakarta: Graha Ilmu.
[8]
Wei Fei, S. et al. 2008. “Chinese Grain Production Forecasting
Method Based on Particle Swarm Optimization-based Support Vector
Machine”. Recent Patents on Engineering. Vol 3, no 1 - 9.
67
[9]
Suhartinah, M.S dan Ernastuti .2010. “Graduation Prediction of
Gunadarma University Student Using Algorithm and Naive Bayes C4.5
Algorithm”. Undergraduate Program, Faculty of Industrial Engineering,
Gunadarma University.
[10] Rahman, F. dan Purnami, S.W. 2012. “Perbandingan Klasifikasi
Tingkat Keganasan Breast Cancer Dengan Menggunakan Regresi
Logistik Ordinal dan Support Vector Machine (SVM)”. Jurnal Sains
dan Seni ITS. Vol 1, No 1.
[11] Larose, D.T. 2005. “Data Mining Methods And Models”. Canada: John
Wiley & Sons, Inc.
[12] Widodo, P.B. et al. 2013. “Penerapan Data Mining Dengan
Matlab”.Bandung: Penerbit Rekayasa Sains.
[13] Prasetyo, E. 2012. ”Data Mining Konsep dan Aplikasi Menggunakan
Matlab”. Yogyakarta: Penerbit Andi.
[14] Larose, D. T. (2005).Discovering Knowledge in Data. New Jersey:
John Willey & Sons, Inc.
[15] Gorunescu, F. (2011). Data Mining Concepts,Models And Techniques.
Verlag Berlin Heidelberg: Springer.
68
Lampiran 1. Sampel 50 data set mahasiswa.
NIM
7116
0
7114
4
7618
7
7501
6
7618
8
7649
8
7649
2
7649
6
7651
6
7137
2
7181
6
7015
2
7186
0
7184
7
7684
1
7710
4
7020
0
NAMA
FAKULTAS
JENIS
KELAMIN
achmad firdaus hendranata
ILMU PENDIDIKAN
LAKI-LAKI
22
3,89
3,3
rian dwi kusuma
ILMU PENDIDIKAN
22
3,78
DERI KURNIA ARAFAH
MOHAMMAD AMIR
PURNOMO
ILMU PENDIDIKAN
LAKI-LAKI
PEREMPUA
N
22
ANNISA KARTIKASARI
BELLA GASTYANA
YOSEFINE
ILMU PENDIDIKAN
AHADEA NURSYABANI
BAHASA DAN SENI
LELA PUSPITA DEWI
CATUR WULAN
AYUNINGTIAS
BAHASA DAN SENI
DITA TRICAHYANI
NURFITRIANI ZAKARIA
BAHASA DAN SENI
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
SAIPIATUN
ILMU SOSIAL
DITA INDAH PURNAMA
ILMU SOSIAL
LAKI-LAKI
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
LIDYA PEBRIANTI
NINTA
MARIANA PERMANASARI
DIAN MAULIDAH
ILMU PENDIDIKAN
BAHASA DAN SENI
BAHASA DAN SENI
UMU
R
IPS
1
IPS
2
IPS
3
IPS
4
IPS5
IPS
6
3,3
3,25
3,36
3,18
3,26
3,39
3,45
3,42
3,78
3,57
3,65
3,73
24
3,45
3,38
3,48
22
3,67
3,35
23
3,59
22
IPS
7
IPS
8
STATUS
4
3,67
TEPAT
3,67
4
3,67
TEPAT
3,79
3,67
4
3,67
TEPAT
3,09
3,33
3,27
4
3
TEPAT
3,74
3,36
3,63
3,33
4
3,67
TEPAT
3,43
3,5
3,17
3,52
3,75
4
4
TEPAT
3,5
3,35
3,17
3,39
3,52
3,33
4
3,83
TEPAT
24
3,41
3,39
3
3,43
3,43
3,04
4
3,83
TEPAT
23
3,36
3,39
3,17
3,13
3,35
3,25
4
4
TEPAT
22
3,77
3,17
3,5
3,17
3,7
3,5
4
3,83
TEPAT
21
3,11
3,53
3,75
3,5
3
3,75
3,5
4
TEPAT
22
3,5
3,6
3,22
3,29
3,54
3,5
3,7
4
TEPAT
23
3,32
3,33
3
3,04
3,58
3,32
3,7
3,55
TEPAT
22
3,32
2,89
2,95
3,33
3,5
3,22
4
3,22
TEPAT
22
3,32
3,22
2,91
2,8
3,75
3,63
4
3,95
TEPAT
22
3,1
3,39
2,9
3,65
3,75
3,33
4
3,5
TEPAT
21
3
3,18
2,64
3,35
2,88
3,26
3,7
3,81
TEPAT
69
7209
9
7210
0
7207
9
7747
1
7745
2
7745
3
7237
7
4112
8
4111
7
4114
7
4500
5
4707
5
4141
5
4143
5
4688
5
4143
7
4188
4
4188
7
4748
6
YULIA PURNAWATI
ILMU SOSIAL
RAHMAN
ILMU SOSIAL
NELI HANIAH
HERDIKA BENY
AMBARISMA
PEREMPUA
N
22
2,83
3,4
3,27
3,42
3,04
3,38
3,3
3,75
TEPAT
23
0
0
2,77
3,3
3,05
3,03
2,9
3,3
TEPAT
ILMU SOSIAL
LAKI-LAKI
PEREMPUA
N
23
3,67
3,42
3,36
3,63
2,96
2,95
3,3
3
TEPAT
TEKNIK
LAKI-LAKI
24
3
3
3,09
3,17
3,09
3,1
3,2
4
TEPAT
MUHAMMAD JANUAR
TEKNIK
LAKI-LAKI
24
3,06
3,05
3,37
3,09
3,53
3,39
3
4
TEPAT
AHMAD JANUAR
TEKNIK
LAKI-LAKI
0
2,89
3
2,9
3,45
2
2,45
4
ARIEF NEIRIZA
TEKNIK
LAKI-LAKI
22
3
3,33
2,81
2,85
3,2
3,13
3,1
4
LEONARDO DOSSIMAR
ILMU PENDIDIKAN
25
3
3
2,5
3,09
3,13
2,86
3,5
2,5
MARYANI NORA SARI
ILMU PENDIDIKAN
LAKI-LAKI
PEREMPUA
N
24
3,7
3,42
3,42
3,58
3,36
3,5
4
0
ARY BAYU NUGRAHA
ILMU PENDIDIKAN
26
2,9
3,6
3,08
3,8
3,45
2,89
2,7
1,75
ROCHMAH
ILMU PENDIDIKAN
27
3,2
2,24
2,76
2,73
2,73
1,21
3
1,09
WINARNI PUJI WHYUNI
ILMU PENDIDIKAN
LAKI-LAKI
PEREMPUA
N
PEREMPUA
N
34
3,18
2,65
2,79
2,44
0
1,33
1
1,67
BUDHI CHRISTIANTO
BAHASA DAN SENI
LAKI-LAKI
25
3,44
2,9
3,29
3,11
3,22
3,78
3,2
3,75
SUDRAJAT
BAHASA DAN SENI
LAKI-LAKI
26
3,11
2,1
2,56
2,44
2,22
3,38
2,9
4
AGUS PAMUNGKAS
BAHASA DAN SENI
LAKI-LAKI
28
0,33
1,83
1,14
1
2,5
2,9
2,9
2,63
ANDIKA HADIE PUTRA
BAHASA DAN SENI
LAKI-LAKI
25
1,44
1
1,83
2
1,88
2,43
1,6
2,29
MUHAMMAD SALAMUN
ILMU SOSIAL
LAKI-LAKI
26
3,3
3,43
3,26
3,3
3,25
3,19
4
2
MUHAMMAD SYAFE'I
ILMU SOSIAL
LAKI-LAKI
27
3,3
3,43
3,26
3,61
3,67
3,39
4
1,27
ARNOLD YULIANDOS
ILMU SOSIAL
LAKI-LAKI
25
2,15
3,06
3,17
2,09
0
1,17
2,5
2,5
TEPAT
TEPAT
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
70
4186
7
4185
2
4355
1
4343
9
4357
0
4344
8
5204
0
5204
0
5205
9
5208
6
5704
1
5713
1
5718
8
5713
6
NANDI KURNIAWAN
ILMU SOSIAL
LAKI-LAKI
25
3
3,22
3,13
3,3
3
3,13
4
0,92
RIZKY DIAN HADI
LAKI-LAKI
226
2,35
2,44
2,53
2,72
1,7
2,47
2,4
1,83
LAKI-LAKI
25
2,67
1,75
1,67
2,86
2,41
2,56
3,3
2,6
LAKI-LAKI
28
3
2,75
3
3,5
1,88
3,14
1,3
2,4
FANNY LESMANA
JOHANNES
PARLINDUNGAN S
ILMU SOSIAL
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
LAKI-LAKI
25
0,88
1
1,75
1,43
0
2,17
2,5
3
LAKI-LAKI
28
0,38
2,5
3,17
2,75
1,8
3
3
3,38
FAZRI NURDIANSYAH
TEKNIK
LAKI-LAKI
22
2,3
2,94
1,9
3,33
2,82
3,62
3,5
3,55
MOHAMAD RIADI
YANUAR ADHIL
SYAPUTRA
TEKNIK
LAKI-LAKI
24
2,3
2,94
1,9
3,33
2,82
3,62
3,5
3,55
TEKNIK
LAKI-LAKI
24
3,2
2,57
2,77
2,8
2,42
2,72
3,2
3,22
ROMADHON MS
TEKNIK
LAKI-LAKI
25
2,3
2,82
2,4
2,56
2,15
2,78
2,3
1,28
YERMIA BANO
TEKNIK
27
2,65
2,11
2,33
2,11
2,5
2,45
3,4
2,21
MEGA
EKONOMI
25
2,8
3
2,42
2,83
3,15
0,43
3,2
2,87
PUJI HARTATI
EKONOMI
24
2,8
2,45
2,78
2,5
3,25
2,92
4
2,87
NURLITA ASTUTI
EKONOMI
LAKI-LAKI
PEREMPUA
N
PEREMPUA
N
PEREMPUA
N
24
2,8
2,9
3,2
3,22
3,21
3,2
4
3,5
YOGI ANGGIONO
HERMANTO
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
TERLAMBA
T
71
Lampiran 2. Sampel 100 data training.
No
1
2
3
4
FALKULTAS
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
Jenis Kelamin
LAKI-LAKI
LAKI-LAKI
PEREMPUAN
LAKI-LAKI
Umur
22
22
22
24
IPS1
3,89
3,78
3,78
3,45
IPS2
3,3
3,26
3,57
3,38
IPS3
3,3
3,39
3,65
3,48
IPS4
3,3
3,5
3,7
3,1
Status
TEPAT
TEPAT
TEPAT
TEPAT
5
6
7
8
9
10
ILMU PENDIDIKAN
BAHASA DAN SENI
BAHASA DAN SENI
BAHASA DAN SENI
BAHASA DAN SENI
BAHASA DAN SENI
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
ILMU SOSIAL
ILMU SOSIAL
ILMU SOSIAL
ILMU SOSIAL
ILMU SOSIAL
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
22
23
22
24
23
22
3,67
3,59
3,5
3,41
3,36
3,77
3,35
3,43
3,35
3,39
3,39
3,17
3,74
3,5
3,17
3
3,17
3,5
3,4
3,2
3,4
3,4
3,1
3,2
TEPAT
TEPAT
TEPAT
TEPAT
TEPAT
TEPAT
PEREMPUAN
21
3,11
3,53
3,75
3,5
TEPAT
PEREMPUAN
22
3,5
3,6
3,22
3,3
TEPAT
PEREMPUAN
23
3,32
3,33
3
3
TEPAT
PEREMPUAN
22
3,32
2,89
2,95
3,3
TEPAT
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
22
22
21
22
23
23
3,32
3,1
3
2,83
3,67
3,5
3,22
3,39
3,18
3,4
3,42
3,33
2,91
2,9
2,64
3,27
3,36
3,14
2,8
3,7
3,4
3,4
3,6
3,5
TEPAT
TEPAT
TEPAT
TEPAT
TEPAT
TEPAT
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
PEREMPUAN
24
24
22
25
22
3
3,06
3
3,39
3,76
3
3,05
3,33
3,76
3,67
3,09
3,37
2,81
3,32
3,29
3,2
3,1
2,9
3,1
3,3
TEPAT
TEPAT
TEPAT
TEPAT
TEPAT
LAKI-LAKI
44
3,58
3,79
4
3,3
TEPAT
PEREMPUAN
21
3,32
3,33
2,92
3,4
TEPAT
28
29
30
31
32
TEKNIK
TEKNIK
TEKNIK
TEKNIK
TEKNIK
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
EKONOMI
EKONOMI
EKONOMI
EKONOMI
PEREMPUAN
LAKI-LAKI
PEREMPUAN
LAKI-LAKI
LAKI-LAKI
22
22
22
24
31
3,79
3
3,4
3,6
3,05
4
3
3,26
3,38
3,61
3,82
3,13
3,46
3,57
3,54
3,9
3,1
3,1
3,7
3,7
TEPAT
TEPAT
TEPAT
TEPAT
TEPAT
33
34
35
36
37
38
EKONOMI
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
PEREMPUAN
LAKI-LAKI
PEREMPUAN
LAKI-LAKI
PEREMPUAN
PEREMPUAN
28
25
24
26
27
34
3,3
3
3,7
2,9
3,2
3,18
3,82
3
3,42
3,6
2,24
2,65
3,33
2,5
3,42
3,08
2,76
2,79
3,7
3,1
3,6
3,8
2,7
2,4
TEPAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
39
ILMU PENDIDIKAN
PEREMPUAN
34
3,27
3,56
0
0
TERLAMBAT
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
72
40
41
BAHASA DAN SENI
BAHASA DAN SENI
LAKI-LAKI
LAKI-LAKI
25
26
3,44
3,11
2,9
2,1
3,29
2,56
3,1
2,4
TERLAMBAT
TERLAMBAT
42
43
44
BAHASA DAN SENI
BAHASA DAN SENI
BAHASA DAN SENI
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
ILMU SOSIAL
ILMU SOSIAL
ILMU SOSIAL
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
28
25
25
0,33
1,44
3
1,83
1
2,3
1,14
1,83
3
1
2
2,9
TERLAMBAT
TERLAMBAT
TERLAMBAT
LAKI-LAKI
26
1,29
1,36
2,08
2,2
TERLAMBAT
PEREMPUAN
25
3,14
2,4
2,63
2,4
TERLAMBAT
PEREMPUAN
25
0,76
0
3
1,7
TERLAMBAT
PEREMPUAN
25
2
1,25
2,92
2,4
TERLAMBAT
PEREMPUAN
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
27
26
27
25
3,62
3,3
3,3
2,15
3,45
3,43
3,43
3,06
3,16
3,26
3,26
3,17
3,3
3,3
3,6
2,1
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
25
27
26
26
26
29
3
2,95
2,95
3
3
2,65
3,22
2,79
2,89
2,71
2,71
3,15
3,13
3,28
2,3
3,1
3,1
2,88
3,3
0
2,7
2,2
2,2
3
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
LAKI-LAKI
25
2,67
1,75
1,67
2,9
TERLAMBAT
LAKI-LAKI
28
3
2,75
3
3,5
TERLAMBAT
LAKI-LAKI
25
0,88
1
1,75
1,4
TERLAMBAT
LAKI-LAKI
28
0,38
2,5
3,17
2,8
TERLAMBAT
63
64
65
66
67
68
69
ILMU SOSIAL
TEKNIK
TEKNIK
TEKNIK
TEKNIK
TEKNIK
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
EKONOMI
EKONOMI
EKONOMI
EKONOMI
ILMU SOSIAL
ILMU SOSIAL
LAKI-LAKI
LAKI-LAKI
PEREMPUAN
PEREMPUAN
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
25
24
26
25
26
27
26
0,78
2,6
2,2
2,5
3,2
2,75
2,79
1
1,84
2
2,74
2,87
2,84
2,56
0,8
1,71
2
2,9
3,26
2,89
3,59
2
1,7
2,9
3,5
2,5
2,8
2,6
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
70
71
72
73
74
75
TEKNIK
TEKNIK
TEKNIK
TEKNIK
TEKNIK
TEKNIK
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
LAKI-LAKI
PEREMPUAN
LAKI-LAKI
26
26
26
26
26
27
2,54
2,46
2,64
3,21
2,68
2,86
2,4
2,7
2,9
3,1
2,5
2,4
3
2,63
2,95
3,47
3,18
3,29
2,2
2,2
2,6
3,4
2,8
2,7
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
76
TEKNIK
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
LAKI-LAKI
27
2,62
2,4
3
3,2
TERLAMBAT
LAKI-LAKI
24
2,36
2
2,78
2,7
TERLAMBAT
PEREMPUAN
24
3
2,67
3,38
3,3
TERLAMBAT
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
77
78
73
84
85
86
87
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU
KEOLAHRAGAAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
88
89
90
91
92
93
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
ILMU PENDIDIKAN
BAHASA DAN SENI
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
24
23
23
22
23
23
3,63
3,25
3,11
3,32
3,11
2,92
3,27
3,36
3,32
3,23
2,77
2,9
3,25
3,08
3,36
3,59
2,9
2,9
3,1
3,1
3,2
3,9
3,4
3,7
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
94
95
96
97
98
BAHASA DAN SENI
BAHASA DAN SENI
BAHASA DAN SENI
BAHASA DAN SENI
BAHASA DAN SENI
MATEMATIKA DAN
IPA
MATEMATIKA DAN
IPA
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
PEREMPUAN
22
23
23
23
24
2,5
3
3,67
3,65
2,67
2
2,33
3,78
3,67
3
3,22
3,89
0
3,43
3
3,1
3,2
0
3,5
3,1
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
PEREMPUAN
23
3,69
2,38
2,82
2,1
TERLAMBAT
PEREMPUAN
23
3,11
2,76
2,79
2,8
TERLAMBAT
79
80
81
82
83
99
100
LAKI-LAKI
25
2,91
2,2
3
3,1
TERLAMBAT
LAKI-LAKI
25
2,82
2,4
3
2,6
TERLAMBAT
LAKI-LAKI
25
3
2,6
3,44
2,8
TERLAMBAT
LAKI-LAKI
25
2,4
2,53
2,1
2,7
TERLAMBAT
PEREMPUAN
23
2,9
3,11
3,25
3,5
TERLAMBAT
LAKI-LAKI
PEREMPUAN
PEREMPUAN
PEREMPUAN
26
22
23
24
2,89
3
2,89
3,22
3,3
3,18
3,3
3,55
2,88
3
2,75
3,33
3,2
3,2
2,9
3,1
TERLAMBAT
TERLAMBAT
TERLAMBAT
TERLAMBAT
Download