perbandingan kinerja metode klasifikasi data mining menggunakan

advertisement
PERBANDINGAN KINERJA METODE KLASIFIKASI DATA
MINING MENGGUNAKAN NAÏVE BAYES DAN
ALGORITMA C4.5 UNTUK PREDIKSI KETEPATAN WAKTU
KELULUSAN MAHASISWA
Gian Fiastantyo A11.2009.04932
Program Studi Teknik Informatika –S1
Fakultas Ilmu Komputer
Universitas Dian Nuswantoro, Jl. Nakula 1 No. 5-11. Semarang
[email protected]
ABSTRAK
Perguruan tinggi adalah jenjang pendidikan yang dianggap sebagai gerbang terakhir bagi pelajar
untuk menimba ilmu sebelum akhirnya melibatkan diri dalam persaingan kerja. Jumlah mahasiswa
yang lulus tepat waktu menjadi indikator efektifitas dari sebuah perguruan tinggi baik negeri dan
swasta. Penelitian dalam hal memprediksi tingkat kelulusan mahasiswa telah banyak dilakukan.
Dalam penelitian ini dilakukan perbandingan metode data mining yaitu algoritma naïve bayes dan
C4.5, yang diterapkan pada data mahasiswa strata 1 Fakultas Ilmu Komputer Universitas Dian
Nuswantoro. Naïve bayes adalah metode yang menghitung probabilitas dari tingkat kemunculan
data yang satu terhadap data yang lainnya. Algoritma C4.5 adalah satu dari sebagian algoritma
dalam metode decision tree yang mengubah data menjadi pohon keputusan, untuk kemudian dapat
disimpulkan menjadi rule-rule. Berdasarkan hasil pengujian dengan mengukur kinerja kedua
metode tersebut menggunakan metode pengujian confusion matrix, kemudian diketahui bahwa
C4.5 memiliki nilai akurasi yang lebih baik yakni sebesar 77,354% , sedangkan naïve bayes
memiliki nilai akurasi mencapai 74,094%. Kemudian berdasarkan perbandingan kinerja kedua
metode tersebut, metode dengan pencapaian nilai akurasi terbaik akan diimplementasikan dalam
bentuk sebuah Decision Support System.
Kata Kunci
: data mining, klasifikasi, kelulusan, algoritma C4.5, naïve bayes
I. Pendahuluan
Perguruan tinggi
jenjang
sumber daya yang dapat digunakan guna
pendidikan yang dianggap sebagai gerbang
meningkatkan kemampuan dan daya saing
terakhir bagi pelajar untuk menimba ilmu
perguruan tinggi. Sistem informasi dalam
sebelum akhirnya melibatkan diri dalam
hal ini dapat digunakan guna memperoleh,
persaingan
institusi
mengolah serta menyebarkan informasi
perguruan tinggi berada dalam lingkungan
yang telah diolah, agar dapat menunjang
yang
berbagai kegiatan operasional, sekaligus
kerja.
sangat
perguruan
memiliki
tinggi
adalah
Saat
ini
kompetitif.
kini
keunggulan
Sehingga
dituntut
dalam
untuk
dapat berperan serta dalam mendukung
bersaing
pengambilan keputusan strategis yang akan
dengan memanfaatkan semua sumber daya
yang
dimiliki.
Selain
sumber
daya
dilakukan.
Institusi
perguruan
tinggi
kini
manusia, sarana, serta prasarana, sistem
diwajibkan meningkatkan kualitas layanan
informasi adalah contoh lain dari beberapa
dan memuaskan para mahasiswa serta
ruang publik disekitar mereka. Perguruan
mahasiswa yang lulus terlambat.
tinggi menganggap mahasiswa dan dosen
Penelitian dalam hal pengolahan data
sebagai resource utama dan mereka ingin
siswa atau mahasiswa telah dilakukan
tersebut
dengan beberapa metode yaitu [7], [14],
dengan cara yang lebih efektif [18]. Dalam
[19]. Tetapi belum ada yang melakukan
struktur pendidikan saat ini, mahasiswa
perbandingan kinerja antara metode naïve
memiliki
bayes dan algoritma C4.5 sehingga belum
terus
menggunakan
peran
resource
penting
bagi
sebuah
institusi pendidikan. Oleh karena itu perlu
ditinjau ulang mengenai tingkat kelulusan
diketahui metode yang paling akurat.
Oleh sebab itu dalam penelitian ini
akan
mahasiswa tepat pada waktunya.
dilakukan
perbandingan
metode
Kelulusan tepat waktu merupakan isu
Naïve Bayes, dan Algoritma C4.5 sehingga
penting yang perlu disikapi dengan bijak
dapat diperoleh metode dengan akurasi
oleh institusi pendidikan. Tingkat kelulusan
prediksi ketepatan kelulusan mahasiswa
dianggap sebagai salah satu parameter
yang terbaik berdasar model data yang
efektifitas
ada.
institusi
pendidikan
[18].
Sehingga saat ini memperhatikan tingkat
II. Latar Belakang
kelulusan tepat waktu suatu perguruan
A. Naïve Bayes
tinggi menjadi hal penting. Penurunan
Bayes
merupakan
teknik
prediksi
berbasis
berpengaruh terhadap akreditasi perguruan
sederhana
yang
tinggi tersebut. Oleh karena itu perlu
penerapan
teorema
adanya monitoring serta evaluasi terhadap
aturan
kecenderungan kelulusan mahasiswa, tepat
independensi
waktu atau tidak.
yang kuat (naif). Dengan kata lain,
tingkat
kelulusan
Berdasar
mahasiswa
deskripsi
di
atas,
akan
jelas
Bayes)
probabilistic
berdasar
pada
Bayes
(atau
dengan
asumsi
(ketidaktergantungan)
dalam Naïve Bayes, model yang
bahwa memprediksi kelulusan adalah hal
digunakan
yang penting bagi institusi dan potensi
independen”.
adalah
“model
fitur
besar bagi institusi untuk menyikapi serta
Dalam Naïve Bayes, maksud
menentukan kebijaksaan strategis perihal
independensi yang kuat pada fitur
kelulusan tepat waktu. Setelah institusi
adalah bahwa sebuah fitur pada
melakukan identifikasi mahasiswa yang
sebuah data tidak berkaitan dengan
beresiko, kemudian dilanjutkan dengan
ada atau tidaknya fitur lain dalam
mekanisme evaluasi dan monitoring, guna
data yang sama. Contohnya pada
meningkatkan
kasus klasifikasi hewan dengan fitur
kegigihan
mahasiswa,
tingkat
penutup kulit, melahirkan, berat, dan
dapat
menyusui. Dalam dunia nyata, hewan
dianggap membagi mahasiswa menjadi dua
yang berkembang biak dengan cara
kelas yaitu “tepat” bagi mahasiswa yang
melahirkan dapat dipastikan juga
lulus tepat waktu dan “terlambat” bagi
menyusui. Di sini ada ketergantungan
dengan
harapan
kelulusan.
Tugas
meningkatnya
prediksi
ini
pada fitur menyusui karena hewan
berisi fitur dan Y adalah label kelas.
menyusui biasanya melahirkan, atau
Naïve
hewan yang bertelur biasanya tidak
P(Y|X). Notasi ini disebut juga
menyusui. Dalam Bayes, hal tersebut
probabilitas
tidak dipandang sehingga masing-
probability) untuk Y, sedangkan
masing fitur seolahtidak memiliki
P(Y) disebut probabilitas awal (prior
hubungan apa pun.
probability) Y.
Bayes
Prediksi Bayes didasarkan
dituliskan
akhir
Selama
dengan
(posterior
proses
pada teorema Bayes dengan formula
harus
umum sebagai berikut:
probabilitas akhir P(Y|X) pada model
pembelajaran
(6)
( | ) ( )
( )
( | )=
dilakukan
pelatihan
untuk setiap kombinasi X dan Y
berdasarkan informasi yang didapat
Ide dasar dari aturan Bayes
dari data latih. Dengan membangun
adalah bahwa hasil dari hipotesis atau
model tersebut, suatu data uji X’
peritiwa
diperkirakan
dapat diklasifikan dengan mecari
berdasarkan pada beberapa bukti (E)
nilai Y’ dengan memaksimalkan nilai
yang diamati. Ada beberapa hal
P(Y’|X’) yang didapat.
(H)
dapat
penting dari aturan Bayes tersebut,
yaitu:
Formulasi Naïve Bayes untuk
klasifikasi adalah
1. Sebuah
probabilitas
( | )=
awal/priori H atau P(H)
( )∏
( | )
( )
adalah probabilitas dari
P(Y|X) adalah probabilitas
suatu hipotesis sebelum
data dengan vector X pada kelas Y.
bukti diamati.
P(Y) adalah probabilitas awal kelas
2. Sebuah probabilitas akhir
Y. ∏
( | ) adalah probabilitas
H atau P(H|E) adalah
independen kelas Y dari semua fitur
probabilitas
hipotesis
dari
suatu
dalam vector X. Nilai P(X) selalu
setelah
bukti
tetap sehingga dalam perhitungan
diamati.
prediksi
Kaitan antara Naïve Bayes
dengan klasifikasi, korelasi hipotesis,
nantinya
kita
tinggal
menghitung
( )∏
bagian
( | ) dengan memilih
dan bukti dengan klasifikasi adalah
yang terbesar sebagai kelas yang
bahwa
dipilih
hipotesis
dalam
teorema
sebagai
hasil
prediksi.
Bayes merupakan label kelas yang
Sementara probabilitas independen
menjadi
∏
klasifikasi,
target
pemetaan
sedangkan
dalam
bukti
merupakan fitur-fitur yang menjadi
masukan dalam model klasifikasi.
Jika X adalah vector masukan yang
( | )
tersebut
merupakan
pengaruh semua fitur dari data
terhadap
setiap
dinotasikan dengan:
kelas
Y,
yang
( | = ) =
( | = )
sejumlah calon variabel input dengan
sebuah
Dan
{
,
setiap
,
fitur
,….,
X=
} terdiri atas q
atribut.
decision tree
eksplorasi
target.
Karena
memadukan antara
data
dan
pemodelan.
Decision tree digunakan untuk kasus-
B. Algoritma C4.5
kasus dimana outputnya bernilai
Tree atau pohon banyak dikenal
sebagai
variabel
bagian
dari
Graph,
yan
diskrit [10].
decison
Sebuah
tree
adalah
termasuk dalam irisan bidang ilmu
sebuah struktur yang dapat digunakan
otomata
serta
untuk membagi kumpulan data yang
sendiri
besar menjadi himpunan-himpunan
yang
record yang lebih kecil dengan
dan
matematika
merupakan
teori
bahasa
Tree
diskrit.
graf
tak-berarah
terhubung, serta tidak mengandung
menerapkan
sirkuit. [15] Dalam sebuah tree, setiap
keputusan. Dengan masing-masing
pasang simpul terhubung hanya oleh
rangkaian
satu lintasan, dan sebuah tree terdiri
himpunan hasil menjadi mirip dengan
dari [25]:
yang lain [4]
a) Root/akar, yang merupakan simpul
tertinggi.
pembagian,
tanpa anak lagi .
aturan
anggota
Proses pada decision tree adalah
mengubah
b) Leaf/daun, yang berupa simpul
serangkaian
bentuk
data
(tabel)
menjadi model pohon, mengubah
model pohon menjadi rule, dan
c) Branch/cabang, yang merupakan
simpul-simpul selain daun.
menyederhanakan rule [3].
Sebuah model decision tree terdiri
Decision tree merupakan metode
dari
sekumpulan
aturan
untuk
klasifikasi dan prediksi yang sangat
membagi sejumlah populasi yang
kuat dan terkenal. Metode decision
heterogen menjadi lebih kecil, lebih
tree mengubah fakta yang sangat
homogen
besar menjadi pohon keputusan yang
pada variabel tujuannya. Variabel
merepresentasikan
tujuan
dapat
dengan
aturan.
memperhatikan
biasanya
dikelompokkan
dipahami
dengan pasti dan lebih mengarah
dengan bahasa alami. Selain itu
pada perhitungan probabilitas dari
aturan
tiap-tiap record terhadap kategori-
juga
mudah
Aturan
dengan
dapat
diekspresikan
dalam bentuk bahasa basis data
kategori
seperti Structured Query Language
mengklasifikasi
(SQL) untuk mencari record pada
mengelompokkannya
kategori tertentu.
kelas.
Decision tree juga berguna dalam
mengeksplorasi
hubungan
data,
menemukan
tersembunyi
antara
tersebut
atau
record
untuk
dengan
dalam
satu
Data dalam decision tree biasanya
dinyatakan
dalam
bentuk
tabel
dengan atribut dan record. Atribut
menyatakan suatu parameter yang
dapat
dibuat
menggunakan
sebagai
kriteria
dalam
dilakukan
dengan
konsep
Entropy,
pembentukan pohon. Atribut ini juga
Entropy menyatakan impurity suatu
memiliki
kumpulan
nilai
yang
terkandung
objek.
Jika
diberikan
didalamnya yang disebut instance.
sekumpulan
Dalam decision tree setiap atribut
label/output y yang terdiri dari objek
akan
simpul.
berlabel 1, 2 sampai n, Entropy dari
akan
objek dengan n kelas ini dapat
menempati
Selanjutnya
posisi
setiap
simpul
memiliki jawaban yang dibentuk
objek
dengan
dihitung dengan rumus berikut.
dalam cabang-cabang, jawaban ini
( ) =−
adalah instance dari atribut (simpul)
yang
ditanyakan.
penelusuran,
Pada
pertanyaan
….−
saat
akan
(1)
pertama
akan ditanyakan pada simpul akar.
Selanjutnya
−
Kemudian
setelah
itu
ada
dilakukan
beberapa kriteria yang dibahas, yakni
penelusuran
ke
cabang-cabang
Information Gain, Gain Ratio, Indeks
simpul
dan
simpul-simpul
Gini.
akar
berikutnya.
Penelusuran
setiap
1. Information Gain
simpul ke cabang-cabangnya akan
Information
gain
adalah
berakhir ketika suatu cabang telah
kriteria yang paling
populer
menemukan simpul kelas atau obyek
untuk
atribut.
yang dicari.
Information gain dapat dihitung
Saat menyusun sebuah decision
pemilihan
dari output data atau variabel
tree pertama yang harus dilakukan
dependent
adalah menentukan atribut mana
dikelompokkan
yang akan menjadi simpul akar dan
atribut A, dinotasikan dengan
atribut mana yang akan menjadi
gain (y,A). Information gain,
simpul selanjutnya. Pemilihan atribut
gain (y,A), dari atribut A relatif
yang
terhadap output data y adalah :
baik
adalah
atribut
yang
yang paling kecil
( )(2)
−
∈
obyek
berdasarkan
( )
=
ukurannya. Atau atribut yang bisa
memisahkan
yang
( , )
memungkinkan untuk mendapatkan
decision tree
y
( )
menurut
Dimana nilai(A) adalah semua
kelasnya. Secara heuristik atribut
nilai yang mungkin dari atribut A,
yang dipilih adalah atribut yang
dan
menghasilkan simpul yang paling
mempunyai nilai c.
”purest” (paling bersih). Ukuran
2.
adalah subset dari y dimana A
Gain Ratio
purity dinyatakan dengan tingkat
Untuk
impurity, dan untuk menghitungnya,
diperlukan
menghitung
suatu
gain
ratio
term
SplitInformation.
SplitInformation
Secara umum langkah algoritma C4.5
dapat dapat dihitung dengan formula
untuk membangun pohon keputusan
sebagai berikut :
adalah sebagai berikut:
Dimana
subset
sampai
yang
adalah c
dihasilkan
dari
pemecahan S demgan menggunakan
atribut A yang mempunyai sebanyak
c
nilai.
Selanjutnya
gain
a.
Pilih atribut sebagai akar.
b.
Buat cabang untuk tiap-tiap nilai.
c.
Bagi kasus dalam cabang.
d.
Ulangi
proses
untuk
setiap
cabang sampai semua kasus pada
cabang memiliki kelas
yang
sama.
ratio
dihitung dengan cara :
C. Tahap-Tahap Data Mining
3. Indeks Gini
Jika
kelas
obyek
dinyatakan
dengan k, k-1,2, ...C, dimana C
adalah
jumlah
kelas
untuk
variabel/output dependent y, Indeks
Gini untuk suatu cabang atau kotak A
dihitung sebagai berikut :
Dimana pk adalah ratio observasi
Sebagai
dalam kotak A yang masuk dalam
suatu
rangkaian
kelas k. Jika IG(A) = 0 berarti semua
proses, data mining dapat dibagi
data dalam kotak A berasal dari kelas
menjadi beberapa tahap. Tahap-tahap
yang sama. Nilai IG(A) mencapai
maksimum jika dalam kelas
A
proporsi data dari masing-masing
kelas yang ada mencapai nilai yang
merupakan
algortima
pemakai
terlibat
C4.5
pengembangan
ID3,
sendiri
dari
dimana
pengembangan dilakukan dalam hal:
bisa mengatasi missing data, bisa
mengatasi data kontiyu, pruning.
langsung
atau
dengan perantaraan knowledge base.
a. Business
Understanding
pemahaman
sama.
Algortima
tersebut bersifat interaktif di mana
domain
atau
(penelitian).
Pada fase ini dibutuhkan pemahaman
tentang substansi dari kegiatan data
mining
yang
akan
dilakukan,
kebutuhan dari perspektif bisnis.
Kegiatannya antara lain: menentukan
sasaran atau tujuan bisnis, memahami
situasi bisnis, menentukan tujuan
presentasi dari pengetahuan yang
data
didapat dari evaluasi pada proses
mining
dan
membuat
perencanaan strategi serta jadwal
penelitian.
b. Data
data mining [11].
D. Confusion Matrix
Understanding
pemahaman
data
mengumpulkan
atau
adalah
(tools)
visualisasi
yang
biasa
awal,
digunakan pada supervised learning.
bisa
Tiap kolom pada matriks adalah
mengenal data yang akan dipakai.
contoh kelas prediksi, sedangkan tiap
Fase
baris mewakili kejadian di kelas yang
mempelajari
data
fase
Confusion Matrix adalah alat
data
untuk
ini
mencoba
mengidentifikasikan masalah yang
berkaitan
dengan
kualitas
sebenarnya (Gorunescu, 2011).
data,
Confusion
matrix
berisi
mendeteksi subset yang menarik dari
informasi aktual (actual) dan prediksi
data untuk membuat hipotesa awal.
(predicted) pada sisitem klasifikasi.
c. Data preparation atau persiapan
Tabel
2.2
adalah
contoh
tabel
data. Fase ini sering disebut sebagai
confusion matrix yang menunjukan
fase yang padat karya. Aktivitas yang
klasifikasi dua kelas.
dilakukan antara lain memilih table
field
dan
yang
Prediksi
akan
ditransformasikan ke dalam database
Aktual
Negaif
A
C
Positif
B
D
baru untuk bahan data mining (set
Keterangan:
data mentah).
d. Modeling adalah fase menentukan
teknik data mining yang digunakan,
menentukan tools data mining, teknik
data mining, algoritma data mining,
menentukan parameter dengan nilai
A = jumlah prediksi yang tepat bahwa
instance bersifat negatif
B =jumlah prediksi yang salah bahwa
instance bersifat positif
C =jumlah prediksi yang salah bahwa
instance bersifat negatif
yang optimal.
e. Evaluation adalah fase interpretasi
terhadap hasil data mining yang
D =jumlah prediksi yang tepat bahwa
instance bersifat positif.
ditunjukan dalam proses pemodelan
Beberapa persyaratan standar yang
pada
telah
fase
sebelumnya.
Evaluasi
didefiniskan
untuk
matrik
dilakukan secara mendalam dengan
klasifikasi dua kelas:
tujuan menyesuaikan model yang
a. Keakuratan (AC) adalah proposi
didapat agar sesuai dengan sasaran
jumlah
yang
persamaannya:
ingin
dicapai
dalam
fase
f. Deployment atau penyebaran adalah
penyusunan
benar.
Rumus
AC = A + D/A + B + C + D
pertama.
fase
prediksi
laporan
atau
b. Penarikan
kembali
(recall)
atau
tingkat positif benar (TP) adalah
proporsi
kasus
positif
yang
yang sangat kompetitif. Sehingga
diidentifikasi dengan benar, yang
perguruan tinggi kini dituntut untuk
dihitung dengan persamaan:
memiliki
TP = D/C + D
keunggulan
bersaing
c. Tingkat positif salah (FP) adalah
dan
meningkatkan
dalam
diwajibkan
kualitas
layanan
proporsi kasus negatif yang salah
serta memuaskan para mahasiswa
diklasifikasikan sebagai positif, yang
serta ruang publik disekitar mereka.
dihitung
Dalam struktur pendidikan saat ini,
dengan
menggunakan
persamaan:
mahasiswa memiliki peran penting
FP = B/A+B
d. Tingkat
negatif
sejati
bagi sebuah institusi pendidikan.
(TN)
Karena itu perlu ditinjau ulang
didefinisikan sebagai proporsi kasus
mengenai
negative
mahasiswa tepat pada waktunya.
yang
diklasifikasikan
dengan benar, yang dihitung dengan
tingkat
Kelulusan
kelulusan
tepat
waktu
menggunakan persamaan:
merupakan isu penting yang perlu
TN = A/A + B
disikapi dengan bijak oleh institusi
(12)
e. Tingkat negatif palsu (FN) adalah
pendidikan.
Tingkat
kelulusan
proporsi kasus positif yang salah
dianggap
diklasifikasikan sebagai negatif, yang
parameter
dihitung
pendidikan (Qudri & Kalyankar,
dengan
menggunakan
persamaan:
f. Presisi (P) adalah proporsi prediksi
positif
dihitung
yang benar,
dengan
yang
menggunakan
persamaan:
P = D/B + D
salah
efektifitas
2010).
FN = C/C + D
kasus
sebagai
satu
institusi
saat(13) ini
Sehingga
memerhatikan
tingkat kelulusan
tepat
suatu
waktu
tinggi
menjadi
hal
Penurunan
tingkat
mahasiswa
akan
terhadap
perguruan
penting.
kelulusan
(14)
berpengaruh
akreditasi
perguruan
tinggi tersebut. Oleh karena itu
III. Desain Penelitian
perlu adanya monitoring serta
Metode yang digunakan dalam
evaluasi terhadap kecenderungan
penelitian ini adalah model CRISP-
kelulusan mahasiswa, tepat waktu
DM (Cross Industry Standard Process
atau tidak.
for Data Mining), dengan langkah-
b. Pemahaman
langkah sebagai berikut:
Data
(Data
Understanding)
Data yang digunakan dalam
a. Pemahaman
Bisnis
(Bussiness
Understanding)
Saat ini institusi perguruan
tinggi berada dalam lingkungan
penelitian ini tidak diperoleh dari
sumber
data,
mahasiswa,
dalam
secara
hal
ini
langsung.
Melainkan data ini diperoleh dari
database mahasiswa yang dimiliki
menandakan
bahwa
atribut
oleh Universitas Dian Nuswantoro
bersangkutan akan digunakan dalam
Semarang, yaitu melalui bagian
penelitian, sedangkan indikator no (×)
ruang data yang dimiliki oleh
menandakan bahwa atribut tersebut
fakultas Ilmu Komputer. Data yang
akan dieliminasi pada tahap data
dikumpulkan adalah data mahasiswa
preparation.
fakultas Ilmu Komputer dengan
program studi strata satu (S1) untuk
d. Pemodelan (Modelling)
tahun angkatan 2008 dan 2009. Data
Terdapat dua metode yang akan
terkumpul sebanyak 1919 data,
digunakan dalam penelitian ini, yaitu
dengan atribut nim (nomor induk
Naïve Bayes dan Algoritma C4.5.
mahasiswa), nama, program studi,
Untuk melakukan pengukuran serta
umur, jenis kelamin, status marital,
perbandingan akurasi dalam penelitian
status pekerjaan, ip (indeks prestasi)
ini akan menggunakan framework
semester
RapidMiner versi 6.
1
sampai
dengan
ip
semester 8, dengan label keterangan
tepat atau terlambat.
c. Pengolahan Data (Data Preparation)
Pada tahap ini atribut data yang akan
digunakan adalah sebagai berikut
Atribut
Detail Penggunaan
NIM
√
ID
Nama
×
No
Program Studi
√
Nilai Model
Jenis Kelamin
√
Nilai Model
Umur
√
Nilai Model
Status Marital
√
Nilai Model
validasi serta pengukuran keakuratan
Status
√
Nilai Model
hasil
IPS 1
√
Nilai Model
menggunakan beberapa teknik yang
IPS 2
√
Nilai Model
terdapat dalam framework RapidMiner
IPS 3
√
Nilai Model
IPS 4
√
Nilai Model
IPS 5
×
No
untuk
IPS 6
×
No
model, dan Split Validation untuk
IPS 7
×
No
validasi.
IPS 8
×
No
Keterangan
√
Label Target
e. Validasi dan Evaluasi
Dalam tahapan ini akan dilakukan
yang
dicapai
oleh
model
versi. 5.13 yaitu Confusion Matrix
pengukuran
tingkat
akurasi
f. Penyebaran (Deployment)
Hasil dari penelitian ini berupa
Tabel diatas menjelaskan mengenai
analisa
yang
mengarah
ke
DSS
atribut yang akan digunakan dalam
(Decision
Support
System),
yang
penelitian,
diharapkan
dapat
digunakan
oleh
indikator
yes
(√)
institusi
perguruan
bahan
tinggi
sebagai
pertimbangan
dalam
menentukan langkah guna mengatasi
permasalahan
ketepatan
kelulusan
mahasiswa, dan juga dapat digunakan
sebagai bahan rujukan untuk penelitian
selanjutnya. Selain itu hasil analisa ini
juga akan digunakan sebagai dasar
perancangan
sebuah
pengambilan
keputusan
melakukan
sistem
idemtifikasi
guna
ketepatan
dan ratio perbandingan yang berbeda-
IV. Hasil Pengujian
a. Pembahasan model Naïve Bayes
Pengaturan
dan
serta
framework
Berdasarkan sembilan kali pengujian
yang dilakukan dengan metode sampling
kelulusan mahasiswa.
operator
c. Hasil Komparasi
penggunaan
parameter
RapidMiner
beda dari data training dan data testing
dengan menggunakan kedua metode
dalam
diatas,
didapatkan
sangat
sebagai berikut:
hasil
pengujian
berpengaruh terhadap akurasi dan
model
yang
terbentuk,
sebagai
contoh dalam penggunaan operator
metode naïve bayes dibawah ini.
Tabel
menampilkan
perbandingan
hasil
pengujian
diatas
dari
metode naïve bayes dan C4.5 dengan
metode sampling yang bervariasi, serta
ratio penggunaan data training yang
bertahap, mulai dari 10% hingga 90%
b. Pembahasan model Algoritma C4.5
Serupa
membangun
dengan
model
proses
dalam
naïve
bayes,
pengaturan dan penggunaan operator
serta parameter pada model C4.5 juga
sangat berpengaruh terhadap akurasi
yang dihasilkan. Berikut desain model
C4.5 yang akan digunakan.
dari keseluruhan 1919 data mahasiswa
yang tersedia di dataset. Dan dapat
disimpulkan bahwa metode sampling
Linear serta metode algortima C4.5
memiliki tingkat akurasi yang lebih baik
dalam melakukan prediksi ketepatan
kelulusan mahasiswa.
V. KESIMPULAN
VI. DAFTAR PUSTAKA
Berdasarkan hasil penelitian yang
telah dilakukan maka dapat diambil
beberapa kesimpulan, antara lain:
1. Dalam melakukan prediksi tingkat
ketepatan
kelulusan
mahasiswa,
dengan menggunakan pemodelan
metode Decision Tree didapatkan
tingkat akurasi tertinggi sebesar
82.43%,
parameter
dengan
Split
menggunakan
Relative
dan
Sampling Type Linear, sedangkan
pada pemodelan metode Naïve
Bayes memperoleh rata-rata tingkat
akurasi tertinggi sebesar 74.09%,
dengan menggunakan parameter
Split Relative dan Sampling Type
Stratified. Oleh karena itu dapat
disimpulkan berdasarkan tingkat
akurasi, bahwa pemodelan metode
Decision Tree lebih baik dalam
melakukan
prediksi
ketepatan
kelulusan mahasiswa pada data
penelitian mahasiswa strata 1 (S1)
Fakultas
Ilmu
Komputer
Universitas
Dian
Nuswantoro
angkatan 2008 dan 2009.
2. Aplikasi
yang
dibangun
berdasarkan hasil analisa dengan
menggunakan RapidMiner, dapat
digunakan
sebagai
Decision
Support System (DSS) atau alat
bantu pengambilan keputusan bagi
pihak Fakultas Ilmu Komputer
Universitas Dian Nuswantoro, guna
merancang serta mempersiapkan
langkah-langkah strategis dalam
menyikapi permasalahan ketepatan
kelulusan mahasiswa.
[1] Azwar, S. (2004). Penyusunan
Skala
Psikologi.
Yogyakarta:
Pustaka pelajar.
[2] Balagatabi,
Z.
N.
(2012).
Comparison of Decision Tree and
Naïve
Bayes
Methods
in
Classification of Researcher’s
Cognitive Styles in Academic
Environment. Journal of Advances
in Computer Research.
[3] Basuki, A., & Syarif, I. (2004).
Modul Ajar Decision Tree.
Surabaya: PENS-ITS.
[4] Berry, M. J., & Linoff, G. S.
(2004). Data Mining Techniques.
New Jersey: John Willey and Sons
Inc.
[5] Darmawan, A. (2012). Pembuatan
Aplikasi Data Mining untuk
Memprediksi
Masa
Studi
Mahasiswa
Menggunakan
Algoritma
K-Nearest
Neighborhood. Digilab Unikom.
[6] Gorunescu, F. (2011). Data
Mining: Concepts, Models, and
Techniques.
Verlag
Berlin
Heidelberg: Springer.
[7] Hamidah, I. (2012). Aplikasi Data
Mining untuk Memprediksi Masa
Studi Mahasiswa Menggunakan
Algoritma C4.5. Digilab Unikom.
[8] Han, J., & Kamber, M. (2006).
Data Mining Concepts and
Techniques. San Francisco: Mofgan
Kaufann Publishers.
[9] Karamouzis, T. S., & Vrettos, A.
(2008). An Artificial Neural
Network for Predicting Student
Graduation Outcomes. Preceeding
of World Congress on Engineering
and Computer Science.
[10] Kusrini, & Luthfi, E. T. (2009).
Algoritma
Data
Mining.
Yogyakarta: Penerbit ANDI.
[11] Larose, D. T. (2005). Discovering
Knowledge in Databases. New
Jersey: John Willey and Sons Inc.
[12] Larose, D. T. (2006). Data Mining
Methods and Models. New Jersey:
John Wiley and Sons.
[13] Latifah, E. (2013). Perancangan
Sistem Klasifikasi Masa Studi
Mahasiswa Menggunakan Data
Mining Berbasis Algoritma ID3.
Digilab Unikom.
[14] Meinanda, M. H., Annisa, M.,
Muhandri, N., & Suryadi, K.
(2009). Prediksi Masa Studi
Sarjana dengan Artificial Neural
Network.
Internetworking
Indonesia Journal, 31-35.
[15] Munir, R. (2010). Matematika
Diskrit. Bandung: Informatika
Bandung.
[16] Nuswantoro, U. D. (2006).
Peraturan Akademik.
[17] Prasetyo, E. (2012). Data Mining
Konsep dan Aplikasi menggunakan
Matlab. Yogyakarta:
Penerbit
ANDI.
[18] Quadril, M. N., & Kalyankar, N. V.
(2010). Drop Out Feature of
Student Data for Academic
Performance Using Decision Tree
Techniques. Global Journal of
Computer Science.
[19] Ridwan, M., Suyono, H., & Sarosa,
M. (2013). Penerapan Data
MiningUntuk Evaluasi Kinerja
Akademik
Mahasiswa
Menggunakan Algoritma Naive
Bayes Classifier. Jurnal EECCIS,
59-63.
[20] Santosa, B. (2007). Data Mining
Teknik Pemanfaatan Data untuk
Keperluan Bisnis. Surabaya: Graha
Ilmu.
[21] Shearer, C. (2000). The CRISP-DM
Model: The New Blueprint for
Data.
Journal
of
Data
Warehousing.
[22] Shereker, S. S., & Patil, T. R.
(2013). Performance Analysis of
Naive Bayes and J48 Classification
Algorithm for Data Classification.
International Journal Of Computer
Science And Applications.
[23] Siregar, A. R. (2006). Motivasi
Belajar Mahasiswa ditinjau dari
Pola Asuh. USU Repository.
[24] Sivakumari,
Priyadarsini,
&
Amudha.
(2009).
Accuracy
Evaluation of C4.5 and Naïve
Bayes Classifiers Using Atribute
Ranking Method.
[25] Utdirartatmo, F. (2005). Teori
Bahasa dan Otomata. Yogyakarta:
Graha Ilmu.
[26] Witten, I. H., Frank, E., & Hall, M.
A. (2011). Data Mining Machine
Learning Tools and Techniques.
Burlington: Morgan Kaufmann
Publishers.
[27] Yingkuachat, J., Praneetpolgrang,
P., & Kijsirikul, B. (2007). An
Application of the Probabilistic
Model to the Prediction of Student
Graduation Using Bayesian Belief
Networks. ECTI Transaction on
Computer and Technology.
Download