penerapan metode c4.5 dan naïve bayes untuk

advertisement
Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015)
Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015
Vol. 1, Oktober 2015
ISSN : 2460 - 4690
PENERAPAN METODE C4.5 DAN NAÏVE BAYES UNTUK
KLASIFIKASI TIPE BELAJAR SISWA DI SMKN 4
SAMARINDA
Siti Qomariah1), Andi Yushika Rangan2)
Teknik Informatika, STMIK Widya Cipta Dharma,
e-mail: [email protected], email: [email protected]
1,2
Abstrak
Belajar merupakan proses yang ditandai dengan perubahan pada diri seseorang seperti
perubahan pengetahuan, pemahaman, sikap dan tingkah laku, keterampilan, kecakpan dan lain-lain.
Keberhasilan proses belajar dapat diindikasikan dengan keberhasilan peserta didik dalam menyerap
pengajaran yang telah diberikan. Setiap individu siswa memiliki tipe belajar sendiri-sendiri,ada tipe
belajar audio, kinestetik dan visual. Tipe belajar ini adalah cara siswa dalam menangkap informasi
yang diberikan oleh pengajar atau guru. Ketidakmampuan siswa dalam menyerap informasi bisa
dikarenakan ketidak cocokan gaya belajar siswa dengan gaya penyampaian guru. Untuk melakukan
klasifikasi tipe belajar digunakan penerapan metode C4.5 dan Naïve bayes, dari kedua metode
tersebut akan dibandingkan tingkat akurasi dari masing-masing metode. Dari hasil yang didapat untuk
algoritma Naive bayes lebih tinggi hasil akurasinya dari metode C4.5 sebesar 4,41 %..
Kata Kunci : Belajar, tipe_belajar, klasifikasi, C4.5, Naïve_Nayes
1. PENDAHULUAN
Belajar merupakan proses perubahan
tingkah laku dari seseorang yang asalnya tidak
tahu menjadi tahu, yang tidak terampil
menjadi terampil, yang tidak tahu cara
mengerjakan sesuatu menjadi mampu
mengerjakan
sesuatu
yang
semuanya
merupakan hasil dari pengalaman atau
interakasi dengan lingkungan yang dilakukan
secara sengaja. Dengan demikian, perubahanperubahan yang terjadi pada perserta didik
adalah prose belajar mengajar dengan kata lain
disebut hasil belajar.Para ahli di bidang
pendidikan menemukan fakta bahwa setiap
individu siswa memiliki tipe belajarnya
sendiri-sendiri.
Tipe-tipe belajar tersebut cenderung
berbeda satu sama lain (walaupun ada juga
yang sama). Alangkah tidak bijak jika guru
hanya menggunakan satu metode mengajar
saja secara monoton dalam setiap KBM-nya.
Dengan kata lain, guru tersebut terindikasi
hanya mengakomodasi salah satu dari sekian
banyak tipe belajar siswanya. klasifikasi tipe
belajar siswa, hal ini akan membantu
pemetaan tipe belajar siswa di setiap kelasnya
sehingga
guru
dapat
mengakomodir
penyampaian informasi kedalam bentukbentuk metode pengajaran yang di pahami
siswa
Data mining (larose, 2006) Menurut
David Hand, Heikki Manila dan Padhraic
Smyth dari MIT, Data mining adalalah analisa
terhadap data (biasanya data yang berukuran
Siti Qomariah1), Andi Yushika Rangan2)
1,2
Teknik Informatika, STMIK Widya Cipta Dharma
besar) untuk menemukan hubungan yang jelas
serta menyimpulkan yang belum diketahui
sebelumnya dengan cara terkini dipahami dan
berguna bagi pemilik data tersebut. Salah satu
dari penerapan dari data mining adalah
klasifikasi. [1]
SMK Negeri 4 Samarinda adalah salah
satu sekolah negeri yang ada di kota
Samarinda.Algoritma C4.5 adalah algoritma
klasifikasi data dengan teknik pohon
keputusan yang terkenal dan disukai karena
memiliki kelebihan-kelebihan. Kelebihan ini
misalnya dapat mengolah data numerik
(kontinyu) dan diskret, dapat menangani nilai
atribut yang hilang, menghasilkan aturanaturan yang mudah diintrepetasikan dan
tercepat diantara algoritma-algoritma yang
lain. Keakuratan prediksi yaitu kemampuan
model untuk dapat memprediksi label kelas
terhadap data baru atau yang belum diketahui
sebelumnya dengan baik. Dalam hal kecepatan
atau efisiensi waktu komputasi yang
diperlukan untuk membuat dan menggunakan
model.
Algoritman Naive Bayes adalah
algoritma yang merupakan salah satu
algoritma dalam teknik data mining yang
menerapkan
teori
Bayes
dalam
klasifikasi.Naive bayes didasarkan pada
asumsi penyederhanaan bahwa nilai atribut
secara konditional saling bebas jika diberikan
nilai output. Dengan kata lain, diberikan nilai
output, probabilitas mengamati secara
289
Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015)
Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015
bersama adalah produk dari probabilitas
individu.
Pada penelitian ini akan dilakukan
pengolahan data tipe belajar siswa di SMK
Negeri 4 Samarinda dengan Algoritma C4.5
dan algoritmana Naïve Bayes dengan tujuan
memberikan proses pembelajaran yang baik
dan efektif.
Hasil akhir penelitian ini diharapkan dapat
meningkatkan kemampuan siswa dalam
menyerap pengetahuan dari guru serta
membandingkan akurasi dari kedua metode
tersebut.
2. KAJIAN LITERATUR
2.1 Belajar
Konsep belajar menurut UNESCO
(2002: 63)Pendidikan hendaknya diatur
menjadi empat jenis belajar yang fundamental
sifatnya sepanjang masa bagi seseorang. Jenis
belajar tersebut meliputi (1) learning to
knowyakni mendapatkan instrument atau
pemahaman, (2) learning to do adalah
belajaruntuk
bertindak
kreatif
dilingkungannya, dalam hal ini peserta didik
dituntut untuk terampil dalam melakukan
sesuatu,(3) learning to live togetheradalah
belajar berperanserta dan bekerjasama dengan
orang-orang lain dilingkungannya.dan(4)
learning to bemerupakan kelanjutan dari
ketiga sendi diatas belajar untuk menjadi
seseorang. [2]
2.2Tipe Belajar
Setiap orang memiliki cara dan metode
belajarnya sendiri.Menurut (flemming dan
Mills : 1992) dikutip dari buku Tools for
teaching setiap orang diasumsikan memiliki
tipe belajar dalam menyerap informasi seperti
Penglihatan (visual), pendengaran (aural),
membaca atau menulis (reading and writing)
serta gerakan atau maipulasi tangan
(Kinestetic). [3]
Menurut DePetter dan
Hearchi(2003) tipe belajar merupakan gaya
belajar yang dimiliki oleh setiap individu yang
merupakan cara termudah dalam menyerap,
mengatur dan mengolah informasi membagi
tipe belajar seseorang menjadi tiga hal:
a. Manusia visual, dimana ia akan secara
optimal menyerap informasi yang
dibacanya/dilihatnya.
b. Manusia auditori, dimana informasi yang
masuk melalui apa yang didengarnya
akan diserap secara optimal.
c. Manusia kinestetik, dimana ia akan sangat
senang dan cepat mengerti bila informasi
yang harus diserapnya terlebih dahulu
“dicontohkan” atau ia membayangkan
orang lain melakukan hal yang akan
dipelajarinya. [4]
2.3 Data Mining
Siti Qomariah1), Andi Yushika Rangan2)
1,2
Teknik Informatika, STMIK Widya Cipta Dharma
Vol. 1, Oktober 2015
ISSN : 2460 - 4690
Data mining adalah proses menemukan
korelasi baru yang bermakna, pola dan tren
dengan memilah-milah sejumlah besar data
yang
tersimpan
dalam
repositoru,
menggunakan teknologi penalaran pola serta
teknik-teknik statistik dan matematika
(Larose, 2005). [5]
Istilah data mining
memiliki hakikat sebagai disiplin ilmu yang
tujuan utamanya adalah untuk menemukan,
menggali, atau menambang pengetahuan dari
data atau informasi yang kita miliki (Susanto
& Suryadi, 2010).
Fungsi-fungsi dalam data mining
mengacu pada Larose (2005) terdapat enam
fungsi yaitu (Susanto & Suryadi, 2010):
a. Fungsi deskripsi (desciption)
Fungsi deskripsi adalah cara yang
digunakan untuk menggambarkan
sekumpulan data secara ringkas.
Keragaman.
b. Fungsi Estimasi
Fungsi estimasi adalah fungsi untuk
memperkirakan suatu hal yang sudah
ada datanya.
c. Fungsi Prediksi
Fungsi
prediksi
adalah
memperkirakan hasil dari hal yang
belum diketahui, untuk mendapatkan
hal baru yang akan muncul
selanjutnya.
d. Fungsi Klasifikasi
Fungsi
klasifikasi
atau
menggolongkan suatu data. Cara
yang digunakan terdiri dari algoritma
Mean Vector, algoritme K-nearest
Neighbor, algoritma ID3, algoritma
C4.5, dan algoritma C5.0
e. Fungsi Peneglompokan (cluster)
Fungsi pengelompokan, data yang
dikelompokan disebut objek atau
catatan yang memiliki kemiripan
atribut kemudian dikelompokan pada
kelompok yang berbeda.
f. Fungsi asosiasi
Fungsi Asosiasi adalah untuk
menemukan
aturan
asosiasi
(association rule) yang mampu
mengidentifikasi item-item yang
menjadi objek. [6]
Sedangkan fungsi data mining yang
digunakan dalam penelitian ini adalah fungsi
Klasifikasi dengan algoritma C4.5 dan Naïve
bayes.
2.4Algoritma C4.5
Algoritma C4.5 merupakan algoritma
yang digunakan untuk membentuk pohon
keputusan.Pohon keputusan bisa digunakan
untuk metode klasifikasi dan prediksi pada
datamining.Metode
Pohon
keputusan
mengubah fakta yang sangat besar menjadi
290
Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015)
Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015
pohon keputusan yang merepresintasikan
aturan.Aturan mudah dipahami dengan Bahasa
alami.
Dan mereka juga dapat diekspresikan
dalam bentuk Bahasa basis data seperti
Structured Query Language untuk mencari
record pada kategori tertentu. Pohon
Keputusan
juga
berguna
untuk
mengeksplorasi data, menemukan hubungan
tersembunyi antara sejumlah calon variabel
input dengan sebuah variabel target. Karena
pohon
keputusan
memadukan
antara
eksplorasi data dan pemodelan, dia sangat
bagus sebagai langkah awal dalam proses
pemodelan bahkan ketika dijadikan sebagai
model akhir dari beberapa teknik lain. Sebuah
pohon keputusan adalah sebuah struktur yang
dapat digunakan untuk membagi kumpulan
data yang besar menjadi himpunan-himpunan
record yang lebih kecil dengan menerapkan
serangkaian aturan keputusan. Dengan
masing-masing rangkaian pembagian, anggota
himpunan hasil menjadi mirip satu dengan
yang lain (Berry & Linoff, 2004) [7]
2.5 Algoritma Naïve Bayes
Naïve
Bayes
merupakan
pengklasifikasian dengan metode probabilitas
dan statistik yang dikemukakan oleh ilmuwan
Inggris Thomas Bayes, yaitu memprediksi
peluang di masa depan berdasarkan
pengalaman di masa sebelumnya sehingga
dikenal sebagai Teorema Bayes. Menurut
Olson dan Delen (2008:102) menjelaskan
Naïve bayes untuk setiap kelas keputusan,
menghitung probabilitas dengan syarat bahwa
kelas keputusan adalah benar, mengingat
vektor informasi obyek.Algoritma ini
mengasumsikan bahwa atribut obyek adalah
independen. Probabilitas yang terlibat dalam
memproduksi perkiraan akhir dihitung
sebagai jumlah frekuensi dari "master" tabel
keputusan.
3 METODE PENELITIAN
Penelitian ini bertujuan untuk
mengklasifikasikan tipe belajar siswa serta
mambandingkan dari dua metode yang
digunakan untuk klasifikasi yang mana
memiliki tingkat akurasi paling tinggi. Dengan
tahapan penelitian seperti berikut:
a. Pengumpulan data
Data tersebut harus jelas, memiliki relasi,
dapat diukur, dapat diprediksi, memiliki
generalisasi serta teori (Dawson, 2009: p. 4).
Berdasarkan jenisnya data dibedakan menjadi:
1. Data Sekunder yang merupakan data yang
digunakan dari penelitian orang lain.
2. Data
Primer
adalah
data
yang
dikumpulkan langsung dari sumber data.
b. Pengolahan awal data
Siti Qomariah1), Andi Yushika Rangan2)
1,2
Teknik Informatika, STMIK Widya Cipta Dharma
Vol. 1, Oktober 2015
ISSN : 2460 - 4690
Data yang sudah dikumpulkan diolah
dengan algoritma soft-computing untuk
mengurangi data yang tidak relevan, atau data
dengan atribut yang hilang.Pengolahan juga
dapat berupa konversi nilai nilai redundan atau
nilai yang terlalu beragam kedalam kelompok
yang lebih kecil untuk mempermudah
pembentukan model.
c. Eksperimen dan pengujian model
Menjabarkan bagaimana eksperimen
yang dilakukan hingga terbentuknya model,
serta menjelaskan cara menguji model yang
terbentuk.
d. Evaluasi dan akurasi hasil
Evaluasi dilakukan dengan mengamati
hasil prediksi menggunakan Algoritma Soft
computing. Pengukuran akrasi dilakukan
dengan mengukur hasil prediksi dibandingkan
dengan
data
asal.Pengukuran
kinerja
dilakukan dengan membandingkan nilai error
hasil prediksi masing-masing algoritma
sehingga dapat diketahui algoritma yang lebih
akurat.
4 HASIL DAN PEMBAHASAN
Penelitian ini menguji data sebanyak 238
siswa kelas X dari berbagai jurusan di SMKN
4 Samarinda dengan menerapkan dua metode
klasifikasi yaitu Naïve Bayes dan C4.5. Dari
238 data dibagi menjadi dua yaitu data
training sebanyak 170 data (71%) dan data
testing sebanyak 68 data (29%).
Berikut adalah table data training
yang digunakan untuk membangun model
untuk metode naïve bayes yang di masukan
sebagai contoh hanya 15 baris data.
Table 4.1 data training
X1 X2 X3 X4 X5 X6
Tipe
Belajar
30
42
46
44
44
44
AUD
44
40
42
40
40
36
VIS
46
44
44
38
38
44
VIS
36
34
38
34
34
28
AUD
34
34
34
34
34
32
AUD
44
38
42
36
36
30
VIS
36
36
30
38
38
20
KIN
Data diatas diolah dengan menggunakan tool
matlab dengan perintah
>> nb = NaiveBayes.fit(meas, species)
nb =
k metode
Naive Bayes classifier with 3 classes for 6
dimensions.
Feature Distribution(s):normal
Classes:AUD, VIS, KIN
Berikut adalah table 4.2 yang memuat data
testing sebanyak 68 data (29 %)
Table 4.2 data testing
291
Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015)
Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015
X1
X2
X3
X4
X5
X6
36
40
40
40
40
34
Tipe
Belajar
AUD
40
30
32
40
40
20
KIN
34
28
32
28
28
32
AUD
42
38
26
38
38
34
VIS
40
34
24
20
20
36
VIS
Vol. 1, Oktober 2015
ISSN : 2460 - 4690
30
36
34
36
36
32
KIN
40
30
32
32
32
26
VIS
Dengan perintah matlab di bawah ini, maka
kita melakukan perintah mengguji hasil rule
yang dibangun di matlab dengan data testing
>> [post,cpre,logp] = posterior(nb,meas1)
Table 4.3 Hasil pengecekan data testing
X1
X2
X3
X4
X5
X6
Tipe
LO
Belajar GP
36 40 40 40 40 34 AUD
-17,17
40 30 32 40 40 20 KIN
-18,47
34 28 32 28 28 32 AUD
-21,09
42 38 26 38 38 34 VIS
-17,38
40 34 24 20 20 36 VIS
-26,11
30 36 34 36 36 32 KIN
-17,28
40 30 32 32 32 26 VIS
-18,41
45 data benar jadi akurasinya adalah =
45/68*100 = 66,17 % . Nilai eror = 33,82%.
Data diatas table 4.1 dan 4.2 diolah dengan
menggunakan
tool
matlab
denga
menggunakan metode C4.5 dengan perintah
>> a = treefit(meas,species) maka akan
menghasilkan rule pohon keputusan :
a=
Decision tree for classification
1 if x4<39 then node 2 elseif x4>=39
node 3 else VIS
2 if x1<37 then node 4 elseif x1>=37
node 5 else VIS
3 if x1<41 then node 6 elseif x1>=41
node 7 else KIN
4 if x3<35 then node 8 elseif x3>=35
node 9 else AUD
5 if x3<45 then node 10 elseif x3>=45
node 11 else VIS
6 if x3<39 then node 12 elseif x3>=39
node 13 else KIN
7 if x4<45 then node 14 elseif x4>=45
node 15 else VIS
8 if x4<33 then node 16 elseif x4>=33
node 17 else VIS
9 if x4<29 then node 18 elseif x4>=29
node 19 else AUD
10 class = VIS
11 class = AUD
12 class = KIN
13 if x4<41 then node 20 elseif x4>=41
node 21 else AUD
14 class = VIS
15 class = KIN
16 if x1<32 then node 22 elseif x1>=32
node 23 else VIS
17 if x3<32 then node 24 elseif x3>=32
node 25 else KIN
18 class = VIS
19 class = AUD
Test
20
21
22
23
24
25
aud
kin
vis
vis
vis
aud
vis
class = AUD
class = KIN
class = AUD
class = VIS
class = KIN
class = AUD
STA
TUS
T
T
F
T
T
F
T
then
then
then
then
then
then
then
then
then
then
then
then
Siti Qomariah1), Andi Yushika Rangan2)
1,2
Teknik Informatika, STMIK Widya Cipta Dharma
Gambar 4.1 Pohon Keputusan
Pada aturan nomor 1 jika nilai X4 kurang
dari 39 maka akan membaca aturan nomor 2
tetapi jika nilai X4 lebih besar atau sama
dengan 39 maka akan membaca aturan nomor
3 selain dari itu maka tipe belajar adalah VIS
(visual), Pada aturan nomor 3 jika nilai X1
lebih kecil dari 41 maka akan membaca aturan
nomor 6 tetapi jika nilai X1 lebih besar atau
sama dengan 41 maka akan membaca aturan
nomor 7 selain dari itu maka tipe belajarnya
KIN (kinestetik), Pada aturan nomor 4 jika
nilai X3 lebih kecil dari 35 maka membaca
atuaran nomor 8 tetapi jika X3 lebih besar atau
sama dengan 35 maka membaca aturan nomor
9 selain dari itu tipe belajarnya adalah AUD
(audio) dan seterusnya.
Berdasarkan pohon keputusan yang sudah
dibuat kita menguji data testing. Berikut
292
Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015)
Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015
gambar tabel 4.4 hasil Pengujian Metode
C4.5.
Tabel 4.4 Hasil Pengujian Metode C4.5
X1
X2
X3
X4 X5 X6
Tipe
Test
Belajar
36
40
40
40
40
34
AUD
AUD
Vol. 1, Oktober 2015
ISSN : 2460 - 4690
STATUS
True
40
30
32
40
40
20
KIN
KIN
True
34
28
32
28
28
32
AUD
AUD
True
42
38
26
38
38
34
VIS
VIS
True
40
34
24
20
20
36
VIS
VIS
True
30
36
34
36
36
32
KIN
AUD
False
40
30
32
32
32
26
VIS
VIS
True
36
36
34
32
32
30
VIS
VIS
True
38
34
34
32
32
34
VIS
VIS
True
44
38
28
36
36
24
VIS
VIS
True
42 data benar akurasinya adalah = 42/68*100
= 61,76 % . Nilai eror = 38,2% ,
5 KESIMPULAN
Hasil penelitian untuk nilai akurasi algoritma
klasifikasi C4.5 senilai 61,76% dengan nilai
eror 38,24%, sedangkan untuk nilai akurasi
algoritma klasifikasi Naïve Bayes senilai
66,17% dengan nilai error 33,82%. Sehingga
dapat disimpulkan bahwa penerapan algoritma
C4.5
lebih rendah
nilai
keakuratan
akurasinya.Berdasarkan pemetaan tipe belajar
siswa kelas X SMKN 4 Samarinda, paling
banyak tipe belajar Visual.
Hasil
pemetaan
tipe
belajar
menunjukan tipe belajar kinestetik sebesar 29
%, Tipe belajar Auditori sebesar 22%
sedangkan tipe bejar visual sebesar 49% dari
jumlah responden siswa sebesar 238 siswa
kelas X di berbagai jurusan SMKN 4
Samarinda.
[6] Susanto dan Suryadi (2010), Pengantar
Data Mining Mengali Penegtahuan dari
Bangkahan Data”, Andi Jogja.
[7] berry and Linoff (2004) , “data mining
Techniques 2nd Edition for marketing,
sales
and
customer
relationship
Management”, Wiley
[8] Gibert Karina, Miguel Sanchez, Victor
Codina
(2010),
International
Environmental Modeling and Software
Society (iEMSs)
REFERENSI
[1] Daniel Larose (2006), “Data Mining
Methods and Models”, Wiley
[2] Jaque Delor (1996) “Belajar: Harta Karun
di Dalamnya”, UNESCO, Komisi
Nasional Indonesia.
[3] Barbara Gross David (2013),”Tools for
Teaching: Perangkat Pembelajaran Teknik
Mempersiapkan dan Melaksanakan yang
Efektif Edisi Kedua”, Rajawali Press
[4]http://sandurezu.wordpress.com/2013/02/05
/mengenal-tipe-belajarmu-visual-auditoriatau-kinestetik/ diakses tanggal 7 Agustus
2014
[5]Daniel
Larose
(2005),”Discovering
Knowledge in Data An Introduction to
Data Mining”, Wiley
Siti Qomariah1), Andi Yushika Rangan2)
1,2
Teknik Informatika, STMIK Widya Cipta Dharma
293
Download