Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015) Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015 Vol. 1, Oktober 2015 ISSN : 2460 - 4690 PENERAPAN METODE C4.5 DAN NAÏVE BAYES UNTUK KLASIFIKASI TIPE BELAJAR SISWA DI SMKN 4 SAMARINDA Siti Qomariah1), Andi Yushika Rangan2) Teknik Informatika, STMIK Widya Cipta Dharma, e-mail: [email protected], email: [email protected] 1,2 Abstrak Belajar merupakan proses yang ditandai dengan perubahan pada diri seseorang seperti perubahan pengetahuan, pemahaman, sikap dan tingkah laku, keterampilan, kecakpan dan lain-lain. Keberhasilan proses belajar dapat diindikasikan dengan keberhasilan peserta didik dalam menyerap pengajaran yang telah diberikan. Setiap individu siswa memiliki tipe belajar sendiri-sendiri,ada tipe belajar audio, kinestetik dan visual. Tipe belajar ini adalah cara siswa dalam menangkap informasi yang diberikan oleh pengajar atau guru. Ketidakmampuan siswa dalam menyerap informasi bisa dikarenakan ketidak cocokan gaya belajar siswa dengan gaya penyampaian guru. Untuk melakukan klasifikasi tipe belajar digunakan penerapan metode C4.5 dan Naïve bayes, dari kedua metode tersebut akan dibandingkan tingkat akurasi dari masing-masing metode. Dari hasil yang didapat untuk algoritma Naive bayes lebih tinggi hasil akurasinya dari metode C4.5 sebesar 4,41 %.. Kata Kunci : Belajar, tipe_belajar, klasifikasi, C4.5, Naïve_Nayes 1. PENDAHULUAN Belajar merupakan proses perubahan tingkah laku dari seseorang yang asalnya tidak tahu menjadi tahu, yang tidak terampil menjadi terampil, yang tidak tahu cara mengerjakan sesuatu menjadi mampu mengerjakan sesuatu yang semuanya merupakan hasil dari pengalaman atau interakasi dengan lingkungan yang dilakukan secara sengaja. Dengan demikian, perubahanperubahan yang terjadi pada perserta didik adalah prose belajar mengajar dengan kata lain disebut hasil belajar.Para ahli di bidang pendidikan menemukan fakta bahwa setiap individu siswa memiliki tipe belajarnya sendiri-sendiri. Tipe-tipe belajar tersebut cenderung berbeda satu sama lain (walaupun ada juga yang sama). Alangkah tidak bijak jika guru hanya menggunakan satu metode mengajar saja secara monoton dalam setiap KBM-nya. Dengan kata lain, guru tersebut terindikasi hanya mengakomodasi salah satu dari sekian banyak tipe belajar siswanya. klasifikasi tipe belajar siswa, hal ini akan membantu pemetaan tipe belajar siswa di setiap kelasnya sehingga guru dapat mengakomodir penyampaian informasi kedalam bentukbentuk metode pengajaran yang di pahami siswa Data mining (larose, 2006) Menurut David Hand, Heikki Manila dan Padhraic Smyth dari MIT, Data mining adalalah analisa terhadap data (biasanya data yang berukuran Siti Qomariah1), Andi Yushika Rangan2) 1,2 Teknik Informatika, STMIK Widya Cipta Dharma besar) untuk menemukan hubungan yang jelas serta menyimpulkan yang belum diketahui sebelumnya dengan cara terkini dipahami dan berguna bagi pemilik data tersebut. Salah satu dari penerapan dari data mining adalah klasifikasi. [1] SMK Negeri 4 Samarinda adalah salah satu sekolah negeri yang ada di kota Samarinda.Algoritma C4.5 adalah algoritma klasifikasi data dengan teknik pohon keputusan yang terkenal dan disukai karena memiliki kelebihan-kelebihan. Kelebihan ini misalnya dapat mengolah data numerik (kontinyu) dan diskret, dapat menangani nilai atribut yang hilang, menghasilkan aturanaturan yang mudah diintrepetasikan dan tercepat diantara algoritma-algoritma yang lain. Keakuratan prediksi yaitu kemampuan model untuk dapat memprediksi label kelas terhadap data baru atau yang belum diketahui sebelumnya dengan baik. Dalam hal kecepatan atau efisiensi waktu komputasi yang diperlukan untuk membuat dan menggunakan model. Algoritman Naive Bayes adalah algoritma yang merupakan salah satu algoritma dalam teknik data mining yang menerapkan teori Bayes dalam klasifikasi.Naive bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara konditional saling bebas jika diberikan nilai output. Dengan kata lain, diberikan nilai output, probabilitas mengamati secara 289 Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015) Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015 bersama adalah produk dari probabilitas individu. Pada penelitian ini akan dilakukan pengolahan data tipe belajar siswa di SMK Negeri 4 Samarinda dengan Algoritma C4.5 dan algoritmana Naïve Bayes dengan tujuan memberikan proses pembelajaran yang baik dan efektif. Hasil akhir penelitian ini diharapkan dapat meningkatkan kemampuan siswa dalam menyerap pengetahuan dari guru serta membandingkan akurasi dari kedua metode tersebut. 2. KAJIAN LITERATUR 2.1 Belajar Konsep belajar menurut UNESCO (2002: 63)Pendidikan hendaknya diatur menjadi empat jenis belajar yang fundamental sifatnya sepanjang masa bagi seseorang. Jenis belajar tersebut meliputi (1) learning to knowyakni mendapatkan instrument atau pemahaman, (2) learning to do adalah belajaruntuk bertindak kreatif dilingkungannya, dalam hal ini peserta didik dituntut untuk terampil dalam melakukan sesuatu,(3) learning to live togetheradalah belajar berperanserta dan bekerjasama dengan orang-orang lain dilingkungannya.dan(4) learning to bemerupakan kelanjutan dari ketiga sendi diatas belajar untuk menjadi seseorang. [2] 2.2Tipe Belajar Setiap orang memiliki cara dan metode belajarnya sendiri.Menurut (flemming dan Mills : 1992) dikutip dari buku Tools for teaching setiap orang diasumsikan memiliki tipe belajar dalam menyerap informasi seperti Penglihatan (visual), pendengaran (aural), membaca atau menulis (reading and writing) serta gerakan atau maipulasi tangan (Kinestetic). [3] Menurut DePetter dan Hearchi(2003) tipe belajar merupakan gaya belajar yang dimiliki oleh setiap individu yang merupakan cara termudah dalam menyerap, mengatur dan mengolah informasi membagi tipe belajar seseorang menjadi tiga hal: a. Manusia visual, dimana ia akan secara optimal menyerap informasi yang dibacanya/dilihatnya. b. Manusia auditori, dimana informasi yang masuk melalui apa yang didengarnya akan diserap secara optimal. c. Manusia kinestetik, dimana ia akan sangat senang dan cepat mengerti bila informasi yang harus diserapnya terlebih dahulu “dicontohkan” atau ia membayangkan orang lain melakukan hal yang akan dipelajarinya. [4] 2.3 Data Mining Siti Qomariah1), Andi Yushika Rangan2) 1,2 Teknik Informatika, STMIK Widya Cipta Dharma Vol. 1, Oktober 2015 ISSN : 2460 - 4690 Data mining adalah proses menemukan korelasi baru yang bermakna, pola dan tren dengan memilah-milah sejumlah besar data yang tersimpan dalam repositoru, menggunakan teknologi penalaran pola serta teknik-teknik statistik dan matematika (Larose, 2005). [5] Istilah data mining memiliki hakikat sebagai disiplin ilmu yang tujuan utamanya adalah untuk menemukan, menggali, atau menambang pengetahuan dari data atau informasi yang kita miliki (Susanto & Suryadi, 2010). Fungsi-fungsi dalam data mining mengacu pada Larose (2005) terdapat enam fungsi yaitu (Susanto & Suryadi, 2010): a. Fungsi deskripsi (desciption) Fungsi deskripsi adalah cara yang digunakan untuk menggambarkan sekumpulan data secara ringkas. Keragaman. b. Fungsi Estimasi Fungsi estimasi adalah fungsi untuk memperkirakan suatu hal yang sudah ada datanya. c. Fungsi Prediksi Fungsi prediksi adalah memperkirakan hasil dari hal yang belum diketahui, untuk mendapatkan hal baru yang akan muncul selanjutnya. d. Fungsi Klasifikasi Fungsi klasifikasi atau menggolongkan suatu data. Cara yang digunakan terdiri dari algoritma Mean Vector, algoritme K-nearest Neighbor, algoritma ID3, algoritma C4.5, dan algoritma C5.0 e. Fungsi Peneglompokan (cluster) Fungsi pengelompokan, data yang dikelompokan disebut objek atau catatan yang memiliki kemiripan atribut kemudian dikelompokan pada kelompok yang berbeda. f. Fungsi asosiasi Fungsi Asosiasi adalah untuk menemukan aturan asosiasi (association rule) yang mampu mengidentifikasi item-item yang menjadi objek. [6] Sedangkan fungsi data mining yang digunakan dalam penelitian ini adalah fungsi Klasifikasi dengan algoritma C4.5 dan Naïve bayes. 2.4Algoritma C4.5 Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.Pohon keputusan bisa digunakan untuk metode klasifikasi dan prediksi pada datamining.Metode Pohon keputusan mengubah fakta yang sangat besar menjadi 290 Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015) Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015 pohon keputusan yang merepresintasikan aturan.Aturan mudah dipahami dengan Bahasa alami. Dan mereka juga dapat diekspresikan dalam bentuk Bahasa basis data seperti Structured Query Language untuk mencari record pada kategori tertentu. Pohon Keputusan juga berguna untuk mengeksplorasi data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Karena pohon keputusan memadukan antara eksplorasi data dan pemodelan, dia sangat bagus sebagai langkah awal dalam proses pemodelan bahkan ketika dijadikan sebagai model akhir dari beberapa teknik lain. Sebuah pohon keputusan adalah sebuah struktur yang dapat digunakan untuk membagi kumpulan data yang besar menjadi himpunan-himpunan record yang lebih kecil dengan menerapkan serangkaian aturan keputusan. Dengan masing-masing rangkaian pembagian, anggota himpunan hasil menjadi mirip satu dengan yang lain (Berry & Linoff, 2004) [7] 2.5 Algoritma Naïve Bayes Naïve Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Menurut Olson dan Delen (2008:102) menjelaskan Naïve bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek.Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan. 3 METODE PENELITIAN Penelitian ini bertujuan untuk mengklasifikasikan tipe belajar siswa serta mambandingkan dari dua metode yang digunakan untuk klasifikasi yang mana memiliki tingkat akurasi paling tinggi. Dengan tahapan penelitian seperti berikut: a. Pengumpulan data Data tersebut harus jelas, memiliki relasi, dapat diukur, dapat diprediksi, memiliki generalisasi serta teori (Dawson, 2009: p. 4). Berdasarkan jenisnya data dibedakan menjadi: 1. Data Sekunder yang merupakan data yang digunakan dari penelitian orang lain. 2. Data Primer adalah data yang dikumpulkan langsung dari sumber data. b. Pengolahan awal data Siti Qomariah1), Andi Yushika Rangan2) 1,2 Teknik Informatika, STMIK Widya Cipta Dharma Vol. 1, Oktober 2015 ISSN : 2460 - 4690 Data yang sudah dikumpulkan diolah dengan algoritma soft-computing untuk mengurangi data yang tidak relevan, atau data dengan atribut yang hilang.Pengolahan juga dapat berupa konversi nilai nilai redundan atau nilai yang terlalu beragam kedalam kelompok yang lebih kecil untuk mempermudah pembentukan model. c. Eksperimen dan pengujian model Menjabarkan bagaimana eksperimen yang dilakukan hingga terbentuknya model, serta menjelaskan cara menguji model yang terbentuk. d. Evaluasi dan akurasi hasil Evaluasi dilakukan dengan mengamati hasil prediksi menggunakan Algoritma Soft computing. Pengukuran akrasi dilakukan dengan mengukur hasil prediksi dibandingkan dengan data asal.Pengukuran kinerja dilakukan dengan membandingkan nilai error hasil prediksi masing-masing algoritma sehingga dapat diketahui algoritma yang lebih akurat. 4 HASIL DAN PEMBAHASAN Penelitian ini menguji data sebanyak 238 siswa kelas X dari berbagai jurusan di SMKN 4 Samarinda dengan menerapkan dua metode klasifikasi yaitu Naïve Bayes dan C4.5. Dari 238 data dibagi menjadi dua yaitu data training sebanyak 170 data (71%) dan data testing sebanyak 68 data (29%). Berikut adalah table data training yang digunakan untuk membangun model untuk metode naïve bayes yang di masukan sebagai contoh hanya 15 baris data. Table 4.1 data training X1 X2 X3 X4 X5 X6 Tipe Belajar 30 42 46 44 44 44 AUD 44 40 42 40 40 36 VIS 46 44 44 38 38 44 VIS 36 34 38 34 34 28 AUD 34 34 34 34 34 32 AUD 44 38 42 36 36 30 VIS 36 36 30 38 38 20 KIN Data diatas diolah dengan menggunakan tool matlab dengan perintah >> nb = NaiveBayes.fit(meas, species) nb = k metode Naive Bayes classifier with 3 classes for 6 dimensions. Feature Distribution(s):normal Classes:AUD, VIS, KIN Berikut adalah table 4.2 yang memuat data testing sebanyak 68 data (29 %) Table 4.2 data testing 291 Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015) Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015 X1 X2 X3 X4 X5 X6 36 40 40 40 40 34 Tipe Belajar AUD 40 30 32 40 40 20 KIN 34 28 32 28 28 32 AUD 42 38 26 38 38 34 VIS 40 34 24 20 20 36 VIS Vol. 1, Oktober 2015 ISSN : 2460 - 4690 30 36 34 36 36 32 KIN 40 30 32 32 32 26 VIS Dengan perintah matlab di bawah ini, maka kita melakukan perintah mengguji hasil rule yang dibangun di matlab dengan data testing >> [post,cpre,logp] = posterior(nb,meas1) Table 4.3 Hasil pengecekan data testing X1 X2 X3 X4 X5 X6 Tipe LO Belajar GP 36 40 40 40 40 34 AUD -17,17 40 30 32 40 40 20 KIN -18,47 34 28 32 28 28 32 AUD -21,09 42 38 26 38 38 34 VIS -17,38 40 34 24 20 20 36 VIS -26,11 30 36 34 36 36 32 KIN -17,28 40 30 32 32 32 26 VIS -18,41 45 data benar jadi akurasinya adalah = 45/68*100 = 66,17 % . Nilai eror = 33,82%. Data diatas table 4.1 dan 4.2 diolah dengan menggunakan tool matlab denga menggunakan metode C4.5 dengan perintah >> a = treefit(meas,species) maka akan menghasilkan rule pohon keputusan : a= Decision tree for classification 1 if x4<39 then node 2 elseif x4>=39 node 3 else VIS 2 if x1<37 then node 4 elseif x1>=37 node 5 else VIS 3 if x1<41 then node 6 elseif x1>=41 node 7 else KIN 4 if x3<35 then node 8 elseif x3>=35 node 9 else AUD 5 if x3<45 then node 10 elseif x3>=45 node 11 else VIS 6 if x3<39 then node 12 elseif x3>=39 node 13 else KIN 7 if x4<45 then node 14 elseif x4>=45 node 15 else VIS 8 if x4<33 then node 16 elseif x4>=33 node 17 else VIS 9 if x4<29 then node 18 elseif x4>=29 node 19 else AUD 10 class = VIS 11 class = AUD 12 class = KIN 13 if x4<41 then node 20 elseif x4>=41 node 21 else AUD 14 class = VIS 15 class = KIN 16 if x1<32 then node 22 elseif x1>=32 node 23 else VIS 17 if x3<32 then node 24 elseif x3>=32 node 25 else KIN 18 class = VIS 19 class = AUD Test 20 21 22 23 24 25 aud kin vis vis vis aud vis class = AUD class = KIN class = AUD class = VIS class = KIN class = AUD STA TUS T T F T T F T then then then then then then then then then then then then Siti Qomariah1), Andi Yushika Rangan2) 1,2 Teknik Informatika, STMIK Widya Cipta Dharma Gambar 4.1 Pohon Keputusan Pada aturan nomor 1 jika nilai X4 kurang dari 39 maka akan membaca aturan nomor 2 tetapi jika nilai X4 lebih besar atau sama dengan 39 maka akan membaca aturan nomor 3 selain dari itu maka tipe belajar adalah VIS (visual), Pada aturan nomor 3 jika nilai X1 lebih kecil dari 41 maka akan membaca aturan nomor 6 tetapi jika nilai X1 lebih besar atau sama dengan 41 maka akan membaca aturan nomor 7 selain dari itu maka tipe belajarnya KIN (kinestetik), Pada aturan nomor 4 jika nilai X3 lebih kecil dari 35 maka membaca atuaran nomor 8 tetapi jika X3 lebih besar atau sama dengan 35 maka membaca aturan nomor 9 selain dari itu tipe belajarnya adalah AUD (audio) dan seterusnya. Berdasarkan pohon keputusan yang sudah dibuat kita menguji data testing. Berikut 292 Prosiding Seminar Ilmiah Nasional Teknologi Komputer (SENATKOM 2015) Universitas Putra Indonesia YPTK Padang - 23 Oktober 2015 gambar tabel 4.4 hasil Pengujian Metode C4.5. Tabel 4.4 Hasil Pengujian Metode C4.5 X1 X2 X3 X4 X5 X6 Tipe Test Belajar 36 40 40 40 40 34 AUD AUD Vol. 1, Oktober 2015 ISSN : 2460 - 4690 STATUS True 40 30 32 40 40 20 KIN KIN True 34 28 32 28 28 32 AUD AUD True 42 38 26 38 38 34 VIS VIS True 40 34 24 20 20 36 VIS VIS True 30 36 34 36 36 32 KIN AUD False 40 30 32 32 32 26 VIS VIS True 36 36 34 32 32 30 VIS VIS True 38 34 34 32 32 34 VIS VIS True 44 38 28 36 36 24 VIS VIS True 42 data benar akurasinya adalah = 42/68*100 = 61,76 % . Nilai eror = 38,2% , 5 KESIMPULAN Hasil penelitian untuk nilai akurasi algoritma klasifikasi C4.5 senilai 61,76% dengan nilai eror 38,24%, sedangkan untuk nilai akurasi algoritma klasifikasi Naïve Bayes senilai 66,17% dengan nilai error 33,82%. Sehingga dapat disimpulkan bahwa penerapan algoritma C4.5 lebih rendah nilai keakuratan akurasinya.Berdasarkan pemetaan tipe belajar siswa kelas X SMKN 4 Samarinda, paling banyak tipe belajar Visual. Hasil pemetaan tipe belajar menunjukan tipe belajar kinestetik sebesar 29 %, Tipe belajar Auditori sebesar 22% sedangkan tipe bejar visual sebesar 49% dari jumlah responden siswa sebesar 238 siswa kelas X di berbagai jurusan SMKN 4 Samarinda. [6] Susanto dan Suryadi (2010), Pengantar Data Mining Mengali Penegtahuan dari Bangkahan Data”, Andi Jogja. [7] berry and Linoff (2004) , “data mining Techniques 2nd Edition for marketing, sales and customer relationship Management”, Wiley [8] Gibert Karina, Miguel Sanchez, Victor Codina (2010), International Environmental Modeling and Software Society (iEMSs) REFERENSI [1] Daniel Larose (2006), “Data Mining Methods and Models”, Wiley [2] Jaque Delor (1996) “Belajar: Harta Karun di Dalamnya”, UNESCO, Komisi Nasional Indonesia. [3] Barbara Gross David (2013),”Tools for Teaching: Perangkat Pembelajaran Teknik Mempersiapkan dan Melaksanakan yang Efektif Edisi Kedua”, Rajawali Press [4]http://sandurezu.wordpress.com/2013/02/05 /mengenal-tipe-belajarmu-visual-auditoriatau-kinestetik/ diakses tanggal 7 Agustus 2014 [5]Daniel Larose (2005),”Discovering Knowledge in Data An Introduction to Data Mining”, Wiley Siti Qomariah1), Andi Yushika Rangan2) 1,2 Teknik Informatika, STMIK Widya Cipta Dharma 293