Jurnal Dinamika, September 2016, halaman 34-41 P

advertisement
Jurnal Dinamika, September 2016, halaman 34-41
P-ISSN: 2087 – 7889
E-ISSN: 2503 – 4863
Vol. 07. No.2
KLASIFIKASI KARAKTERISTIK MAHASISWA UNIVERSITAS COKROAMINOTO
PALOPO MENGGUNAKAN METODE NAÏVE BAYES DAN DECISION TREE
Yuli Hastuti
Program Studi Matematika Fakultas Sains
Universitas Cokroaminoto Palopo
Email: [email protected]
ABSTRAK
Masalah yang dihadapi dalam proses penerimaan mahasiswa baru di Universitas
Cokroaminoto Palopo (UNCP) adalah jumlah pendaftar prodi pendidikan sangat tinggi
dibandingkan pendaftar prodi sains. Setiap pendaftar memiliki kriteria masing-masing dalam
menentukan pilihan prodi. Klasifikasi merupakan metode statistika yang digunakan untuk
mengelompokkan data. dalam aplikasi klasifikasi, sering dijumpai data yang tidak memenuhi
asumsi klasik metode klasifikasi seperti asumsi kenormalan data dan multikolinearitas. Metode
yang dapat mengatasi masalah tersebut antara lain Metode Naïve Bayes dan Decision Tree. Naïve
Bayes mengaplikasikan Teorema Bayes yang mengestimasi parameter mengikuti distribusi data.
sedangkan Decision Tree bersifat nonparametrik. Oleh karena itu, kedua metode tersebut dapat
digunakan untuk mengklasifikasikan data yang tidak memenuhi asumsi normal. Dalam hal ini,
mengidentifikasi karakteristik mahasiswa berdasarkan klasifikasi Prodi Matematika dan
mengklasifikasikan mahasiswa prodi pendidikan dan pendaftar prodi sains di UNCP . Penelitian
ini menggunakan variabel yang saling independen. Untuk mengataasi masalah tersebut, metode
klasifikasi yang dapat digunakan adalah Naïve Bayes dan Decision Tree. Naïve Bayes merupakan
metode klasifikasi yang merapkan teorema bayes dalam membangun struktur modelnya. Metode
ini mengasumsikan variabel saling independen meskipun variabel tidak memenuhi asumsi
tersebut. Sedangkan Decision Tree merupakan metode klasifikasi yang dapat mengakomodir
independensi variabel. Hasil analisis data menunjukkan bahwa metode Naïve Bayes lebih baik
dibandingkan metode Decision Tree dalam mengklasifikasikan kriteria pendaftar di UNCP
dengan ketepatan klasifikasi berturut-turut 98,18% dan 97,82%.
Kata Kunci: Klasifikasi, Naïve Bayes, Decision Tree
adalah
PENDAHULUAN
Universitas
Cokroaminoto
Palopo
menghadapi masalah dalam hal jumlah
pendaftar
yang
tersebut
dapat
dilakukan
menggunakan metode klasifikasi.
Klasifikasi merupakan proses penentuan
Pendidikan jauh lebih banyak dibandingkan
model atau fungsi yang dapat digunakan
dengan
Sains,
untuk mengelompokkan obyek ke dalam
khususnya Prodi Sains Matematika. Salah
beberapa kategori berdasarkan karakteristik
satu cara untuk mengatasi masalah tersebut
yang
pada
pada
identifikasi
karakteristik
Prodi
pendaftar
berminat
mengidentifikasi
Prodi
diamati.
Dalam
penelitian
ini,
34
Yuli Hastuti (2016)
pengelompokan mahasiswa terdiri dari dua
Metode
kategori yaitu mahasiswa Prodi Matematika
nonparametrik
atau Mahasiswa Pendidikan Matematika
memenuhi asumsi-asumsi klasik metode
berdasarkan karakteristik yang diamati yaitu
klasifikasi. Proses estimasi metode ini
penilaian mahasiswa terhadap fasilitas prodi
sangat
(X1), Kesesuaian prodi dengan lapangan
entropi.
kerja
yang diinginkan
(X2),
Pengaruh
Decision
Tree
sehingga
mudah
bersifat
tidak
menggunakan
harus
pembobot
Berdasarkan gambaran umum di atas,
lingkungan sosial dalam memilih prodi (X3)
diharapkan
dan status ada atau tidak paksaan dari
Decision Tree
orangtua dalam pemilihan prodi (X4).
mengetahui karakteristik mahasiswa Prodi
Metode
klasifikasi
klasik
metode
Naïve
dapat
Bayes
dan
digunakan untuk
harus
Matematika
dan
Prodi
memenuhi beberapa asumsi antara lain
Matematika
Universitas
asumsi multikolinearitas dan asumsi normal.
Palopo.
Umumnya, asumsi tersebut sulit dipenuhi
TINJAUAN PUSTAKA
dalam aplikasi data. Metode klasifikasi yang
Teorema Bayes
Pendidikan
Cokroaminoto
dapat mengatasi masalah tersebut antara lain
Teorema Bayes diperkenalkan oleh
metode Bayes Network dan metode Decision
Thomas Bayes yang menyatakan jika A dan
Tree. Metode Bayes Network
B
merupakan
merupakan
suatu
kejadian
dimana
metode klasifikasi yang mengaplikasikan
P( X )  0 , maka peluang Y dengan syarat X
teorema bayes. Metode ini mengestimasi
dinyatakan dalam persamaan berikut :
parameter mengikuti distribusi data sehingga
tidak harus memenuhi asumsi normal. Salah
satu metode Bayes Network yang sering
digunakan adalah metode Naïve Bayes. Pada
tahun
2005,
Adrien
dan
David
P A B  

P A  B 
P B 
P APA B 
PA B  merupakan
P B 
peluang
A
dengan
untuk
syarat B, yang disebut posterior dan P A
klasifikaasi cerita detektif. Kemudian Zhang
disebut prior A. PB  merupakan marginal
dan Feng (2011) menggunakannya untuk
dari P A  B  dan bernilai konstan.
mengaplikasikan
klasifikasi teks
metode
(NB).
NB
Metode ini dapat
mengatasi dependensi data.
35
Klasifikasi Karakteristik Mahasiswa Universitas Cokroaminoto Palopo Menggunakan Metode
Naïve Bayes dan Decision Tree
1. Membangun struktur jaringan dengan
Bayes Network
Bayesian networks (BNs), yang juga disebut
mengarahkan edge dari semua atribut ke
Bayesian
node variabel respon.
Belief
Networks
(BBNs)
merupakan model graph peluang yang
2. Mengestimasi parameter NB
merepresentasikan
Decision Tree
random
dan
menggunakan
himpunan
peluang
Directed
variabel
bersyaratnya
Acyclic
Decision Tree atau analisis pohon keputusan
Graph
merupakan salah satu metode klasifikasi
(DAG).
BN dapat didefinisikan sebagai
yang mengaplikasikan teori graf dalam
kejadian
B  G,  , dimana G adalah
membagi
model Directed Acyclic Graph dan 
menunjukkan himpunan parameter dari BN.
Directed graph G terdiri dari himpunan
node V dan edge E sehingga himpunan
graph G dapat dituliskan G = (V,E)
(Johnsonbaugh, 2009). Node merepresentasi
kan variabel random baik berupa data
kelompok
data
himpunan-himpunan data. Hasil analisis
metode ini sangat mudah dinterpretasikan
karena divisualisasikan dalan bentuk pohon.
Adapun langkah-langkah metode Decision
Tree secara umum adalah:
a. Menghitung nilai Entropi dengan
rumus berikut.
n
numerik maupun data kategorik dan edges
Entopi (S)    pi 2 log pi
merepresentasikan hubungan langsung antar
keterangan:
variabel yang digambarkan sebagai anak
S = Himpunan kasus
panah antara node.
n
Naïve Bayes
pi = proporsi Si terhadap S
Metode
Naïve
Bayes
mengasumsikan
variabel prediktor saling independen dimana
strukturnya
dibangun
dengan
menjadi
i 1
= jumlah partisi S
b. Menghitung nilai Gain dengan rumus:
n S
i
Gain(S, A)  Entropi (S) - 
* Entropi (Si )
i 1 S
menghubungkan semua variabel prediktor
terhadap variabel respon. Struktur metode
Naïve Bayes untuk data penelitian ini
sebagai berikut.
Langkah-langkah algoritma Naïve
Bayes sebagai berikut:
c. Menentukan root node
d. Proses partisi berhenti jika,
 Semua record dalam simpul n
mendapat kategori yang sama
 Tidak ada atribut dalam record
yang terpartisi lagi
36
Yuli Hastuti (2016)
 Tidak ada record dalam cabang
yang kosong
Tabel 1. Variabel Penelitian
Variabel Respon
Y
Prodi Pilihan
HASIL DAN PEMBAHASAN
Skala Data
Kategorik
1:
Penelitian dilakukan terhadap 276
Matematika
mahasiswa UNCP Tahun Ajaran 2014/2015
yang terdiri dari 270 mahasiswa Pendidikan
Matematika dan enam mahasiswa Prodi
Pend.
0: Matematika
Variabel Prediktor
Fasilitas,
Kategorik
Matematika. Data terdiri atas satu variabel
Penilaian
1: Memadai
respon dan empat variabel prediktor. Data
mahasiswa
0: Tidak
tersebut
terhadap
memadai
dikalsifikasikan
X1
Skala Data
menggunakan
metode Naïve Bayes dan Decision Tree.
ketersediaan
Hasil Klasifikasi Metode Naïve Bayes
fasilitas prodi
Struktur metode Naïve Bayes untuk
dalam proses
data penelitian ini sebagai berikut.
belajar mengajar
X2
Pilihan
Prodi
Lapangan Kerja, 1: Sesuai
Kesesuaian
0: Tidak
lapangan kerja
Sesuai
yang diharapkan
X1
X4
X2
X3
dengan prodi
X3
METODE PENELITIAN
Data diperoleh dari hasil survei
terhadap 270 mahasiswa Prodi Matematika
dan Prodi Pendidikan Matematika yang
terdaftar pada Tahun Ajaran 2014/2015.
Variabel penelitian yang digunakan sebagai
berikut.
Lingkungan
1:
sosial, pengaruh
Dipengaruhi
lingkungan sosial
0: Tidak
terhadap pilihan
dipengaruhi
prodi
X4
Paksaan
1: Terdapat
Orangtua,
paksaan
pengaruh
0: Tidak ada
orangtua terhadap
paksaan
pilihan prodi
37
Klasifikasi Karakteristik Mahasiswa Universitas Cokroaminoto Palopo Menggunakan Metode
Naïve Bayes dan Decision Tree
Berdasarkan
tujuan
penelitian,
teknik
analisis data sebagai berikut.
1. Menentukan node variabel respon dan
prediktor
2. Mengklasifikasikan data menggunakan
Metode Naïve Bayes dengan algoritma
sebagai berikut:
a. Membentuk struktur NB dengan
menghubungkan edge semua atribut
ke node respon sedemikian sehingga
node respon menjadi parent semua
atribut.
b. Menghitung
P X i Y 
c. Menghitung
 Tidak ada atribut dalam record
yang terpartisi lagi
 Tidak ada record dalam cabang
yang kosong
4. Membandingkan hasil klasifikasi Naïve
Bayes dan Decision Tree
HASIL DAN PEMBAHASAN
Penelitian dilakukan terhadap 276
mahasiswa UNCP Tahun Ajaran 2014/2015
yang terdiri dari 270 mahasiswa Pendidikan
Matematika dan enam mahasiswa Prodi
Matematika. Data terdiri atas satu variabel
dan PY 
peluang
bersyarat
PY X   PY  PX i Y 
i
respon dan empat variabel prediktor. Data
tersebut
diperoleh dari PY  y k X 
menggunakan
metode Naïve Bayes dan Decision Tree.
Hasil Klasifikasi Metode Naïve Bayes
d. Mengklasifikasikan data ke dalam
kategori ke-k jika nilai maksimum
dikalsifikasikan
Struktur metode Naïve Bayes untuk
data penelitian ini sebagai berikut.
Pilihan
e. Menghitung akurasi klasifikasi
3. Mengklasifikasikan data menggunakan
metode Decision Tree dengan prosedur
sebagai berikut:
e. Menghitung nilai Entropi
f. Menghitung nilai Gain
Prodi
X1
X4
X2
g. Menentukan root node, atribut yang
memiliki nilai gain paling tinggi yang
menjadi root node
h. Ulangi prosedur a, b, dan c hingga
semua record terpartisi
i. Proses partisi berhenti jika,
 Semua record dalam simpul n
mendapat kategori yang sama
X3
Gambar 1. Struktur Naïve Bayes data
mahasiswa UNCP
Tabel
bahwa
2
memberikan
metode
mengklasifikasikan
informasi
Naïve
data
dengan
Bayes
tepat
sebanyak 271 yaitu 270 mahasiswa Prodi
Pendidikan Matematika dan satu orang
38
Yuli Hastuti (2016)
mahasiswa UNCP
mahasiswa Matematika. Sedangkan, lima
orang
mahasiswa
Graf Decision Tree pada Gambar 2.
Matematika
diklasifikasikan sebagai mahasiswa Prodi
menginterpretasikan
Pendidikan Matematika.
mahasiswa dalam menentukan pilihan Prodi
Pendidikan
Tabel 2. Hasil klasifikasi metode Naïve
Matematika
Naïve Bayes
PM
PM
M
270
0
Total
Prodi
a. Jika mahasiswa menilai fasilitas Prodi
Pendidikan Matematika tidak memadai
270
dan
mendapatkan
lingkungan,
Hasil
M
Total
dari
mahasiswa
akan
1
6
memilih Prodi Pendidikan Matematika.
275
1
276
b. Jika mahasiswa menilai fasilitas Prodi
Pendidikan Matematika memadai dan
Hasil Klasifikasi Metode Decision Tree
Berdasarkan
maka
pengaruh
5
*PM: Pendidikan Matematika, M: Matematika
menggunakan
atau
Matematika dengan kondisi sebagai berikut.
Bayes
Survei
karakteristik
hasil
Metode
mendapatkan paksaan dari orangtua maka
analisis
data
mahasiswa
Decision
Tree
Pendidikan Matematika meskipun tidak
diperoleh informasi bahwa faktor utama
akan
memilih
Prodi
mendapat pengaruh dari lingkungan.
yang mempengaruhi mahasiswa memilih
c. Meskipun mahasiswa menilai fasilitas
Prodi Pendidikan Matematika atau Prodi
Prodi Pendidikan Matematika memadai
Matematika adalah ketersediaan fasilitas
tetapi
prodi. Informasi tersebut diperoleh dari
lingkungan
struktur graph data berikut.
profesi pekerjaan yang diinginkan maka
mendapatkan
mahasiswa
dan
akan
pengaruh
belum
dari
menentukan
memilih
Prodi
Matematika.
d. Jika mahasiswa menilai fasilitas Prodi
Pendidikan
Matematika
memadai,
lapangan kerja sesuai dan mendapatkan
pengaruh
mahasiswa
dari
akan
lingkungan
maka
memilih
Prodi
Pendidikan Matematika.
Gambar 2. Struktur Decision Tree data
e. Bagi mahasiswa yang belum menentukan
39
Klasifikasi Karakteristik Mahasiswa Universitas Cokroaminoto Palopo Menggunakan Metode
Naïve Bayes dan Decision Tree
profesi
pekerjaan
yang
diinginkan,
klasifikasi 97,82% dengan nilai MSE 0,07.
apabila
menilai
fasilitas
Matematika
Semakin tinggi nilai persentase ketepatan
memadai atau menilai fasilitas Prodi
klasifikasi maka metode semakin baik.
Pendidikan Matematika memadai tetapi
Sedangkan interpretasi nilai MSE, semakin
mendapatkan pengaruh dari lingkungan,
rendah nilai MSE maka metode semakin
mahasiswa tersebut akan memilih Prodi
baik. Sehingga dapat disimpulkan bahwa
Matematika.
metode
Naïve
Bayes
lebih
baik
Hasil klasifikasi metode Decision
dibandingkan metode Decision Tree dalam
Tree dalam Tabel 3 menunjukkan bahwa
mengklasifikasikan data mahasiswa UNCP
pilihan prodi yang diklasifikasikan sesuai
Prodi
yaitu
Matematika Tahun Ajaran 2014/2015.
270
Pendidikan
Sedangkan
Matematika.
ketidaksesuaian
klasifikasi
Prodi
Matematika
diklasifikasikan
Prodi
tetapi
Pendidikan
Matematika
dan
KESIMPULAN
sebanyak enam mahasiswa yang sebenarnya
memilih
Pendidikan
Metode Naïve Bayes lebih baik
dibandingkan
Decision
mengidentifikasi
Tree
dalam
karakteristik
data
Matematika.
Mahasiswa Prodi Matematika dan Prodi
Tabel 3. Hasil klasifikasi metode Decision
Pendidikan
Tree
PM
M
270
0
Total
Total
dengan
struktur data menunjukkan bahwa faktor
utama
270
yang
mempengaruhi
pemilihan
mahasiswa terhadap Prodi Matematika atau
Pendidikan Matematika adalah ketersediaan
Hasil
Survei M
UNCP
ketepatan klasifikasi 98,18%. Interpretasi
Decision Tree
PM
Matematika
6
0
6
276
0
276
*PM: Pendidikan Matematika, M: Matematika
fasilitas prodi.
DAFTAR PUSTAKA
Neapolitan, R.E. (2008), Learning Bayesian
Perbandingan Ketepatan klasifikasi Naïve
Networks,
Pearson
Bayes dan Decision Tree
Newhaven, Connecticut.
Prentice
Hall,
Persentase ketepatan klasifikasi metode
Sunjana, (2010), Aplikasi Mining Data
Naïve Bayes yaitu 98,18% dengan nilai
Mahasiswa Dengan Metode Klasifikasi
Mean Square Error 0,0429. Sedangkan,
Decision
Tree,
Seminar
Nasional
metode Decision Tree memiliki ketepatan
40
Yuli Hastuti (2016)
Aplikasi
Teknologi
Informasi,
Yogyakarta
Webb, G.I, Boughton, J. dan Wang, Z.
(2005), Not so Naïve Bayes:
Aggregating
One-Dependence
Estimators”,
Machine-Learning
58, hal.5-24.
Zheng, F. dan Webb, G.I. (2005), A
Comparative Study of Semi Naïve
Bayes Methods in Classification
Learning,
Procceeding
of
The
Fourth Australian Data Mining
Conference, hal. 141-156.
Zheng, F. dan Webb, G.I. (2008), Semi
Naïve
Bayesian
Journal
of
Classification,
Machine
Learning
Research, hal.1-56.
Zhang, W. dan Feng, G. (2011), An
Improvement to Naïve Bayes for Text
Classification, Procedia Engineering 15,
hal. 2160-2164.
41
Download