幻灯片 1 - Digilib ITS - Institut Teknologi Sepuluh Nopember

advertisement
Pengolahan Data
Algoritma C4.5
Menghitung entropi :
Data Training (75%) = 220 data
Data Testing (25%) = 73 data
Entropi (y) = -p1 log2 p1 – p2 log2 p2 ...... –pn log2 pn
Entropi IPK
-28/220*LOG2(28/220)-156/220*LOG2(156/220)-36/220*LOG2(36/220) = 1.1575
Menghitung Information Gain :
gain (y,A) = entropi (y) -
Information Gain Jenis Kelamin :
1.1575-(101/220)*1.1592-(119/220)*1.1013 = 0.0397
Node Awal
Pengolahan Data
PMDK
Jalur
Masuk
PMDK
S1 Kerjasama
Jalur
Masuk
S1 Kerjasama
3 Data
Cukup
DKI & JABAR
variabel
jenis kelamin
Gaji
Asal Daerah
Cukup
Asal
Daerah
gain
1.11908
1.11369
1.12065
Baik
6 Data
Jawa Timur
Jenis
Kelamin
P
Jawa Timur
L
Cukup
Bidik Misi
Jenis
Kelamin
Bidik Misi
Baik
L
Surabaya
Jalur
Masuk
Cukup
P
Asal
Daerah
Jenis kelamin
0.8242
0.8242
Gaji
0.3650
0.8242
variabel
jenis kelamin
Gaji
Asal Daerah
Gain
1.1146
1.1164
1.1170
Jawa Timur
10 Data
Jenis
Kelamin
P
L
Cukup
Baik
DKI & JABAR
Surabaya
Jenis
Kelamin
Gaji
0.9575
0.8820
Jawa
Timur
0.8820
0.6065
PKM Kemitraan
PKM Mandiri
Jalur
Masuk
Jalur Masuk
62 Data
37 Data
PKM
PKM Kemitraan
Kemitraan
PKM Mandiri
Jawa
Jawa Timur
Timur
Asal
Daerah
Surabaya
Jawa Timur
Luar Jawa
DKI
DKI &
& JABAR
JABAR
L
rendah
Gaji
Cukup
Cukup
L
Kurang
Kurang
0.6380
0.6197
Gaji
Jawa
Timur
Cukup
Cukup
Baik
Baik
Sedang
Sedang
1.0819
1.0946
1.1575
1.1575
LL
kurang
kurang
LL
Cukup
Cukup
Cukup
P
P
Cukup
Cukup
variabel
jenis kelamin
Gaji
Asal daerah
Luar
Jawa
1.0993
1.1052
Baik
Baik
P
P
Jenis
Kelamin
gain
0.9025
0.9030
0.9375
DKI &
JABAR
Jenis
Kelamin
tinggi
tinggi
P
P
Kurang
Kurang
variabel
jenis kelamin
Gaji
Asal daerah
jenis
kelamin
gaji
Kurang
Kurang
rendah
rendah
P
Cukup
Surabaya
Surabaya
Surabaya
Cukup
Sedang
Cukup
Jenis
Kelamin
LL
Jenis
Kelamin
P
Tinggi
Luar
Luar Jawa
Jawa
DKI & JABAR
Cukup
Cukup
Jenis
Kelamin
Asal
Daerah
Surabaya
jenis
kelamin
gaji
0.8312
0.8403
Jawa
Timur
0.9424
0.9399
gain
0.9995
0.9930
1.0188
DKI &
JABAR
1.1035
1.0831
Luar
Jawa
1.0494
1.0494
SBMPTN
Jalur
Masuk
102 Data
SBMPTN
Asal
Daerah
Surabaya
variabel
jenis kelamin
Gaji
Asal Daerah
Luar Jawa
Jawa Timur
gain
DKI & JABAR
0.6745
0.6711
0.7023
Jawa Tengah
Cukup
Jenis
Kelamin
Cukup
L
Jenis
Kelamin
Cukup
L
P
P
Kurang
Cukup
Baik
Gaji
Rendah
Tinggi
Sedang
Baik
Cukup
Cukup
Surabaya
jenis
kelamin
gaji
0.7337
0.7665
Jawa
Timur
0.7531
0.7353
Jawa
Tengah
1.0951
1.0983
DKI &
JABAR
1.1575
1.1575
Luar Jawa
1.1575
1.1379
Perhitungan Akurasi :
Software Matlab
Data Training (75%) = 220 data
Data Testing (25%) = 73 data
Tingkat error rata-rata = 42,01%
Analisis & Interpretasi
Variabel yang paling berpengaruh adalah jalur masuk
Semakin tinggi jumlah data & beragam data, tree semakin
kompleks.
Penentuan data training & data testing sangat berpengaruh
terhadap error
Tingginya error disebabkan data memiliki penyebaran yang tinggi
Kesimpulan :
1. Kelompok mahasiswa berdasarkan IPK terdiri dari 3 kelas yaitu kurang, cukup,
dan baik. Variabel yang dipertimbangkan dalam perhitungan yaitu jenis
kelamin, jalur masuk,asal daerah, dan gaji orang tua.
2. Variabel yang paling berpengaruh terhadap nilai IPK mahasiswa Teknik Industri
ITS adalah jalur masuk, kedua yaitu asal daerah. Kemudian untuk jenis kelamin
dan gaji orang tua sama besar pengaruhnya.
3. Perhitungan decision tree algoritma c4.5 mampu mengelompokkan data ke
dalam kategori yang telah ditentukan.
4. Decision rule yang dihasilkan memiliki tingkat error rata-rata sebesar
Saran :
1. Perlu dilakukan perbandingan beberapa metode klasifikasi di samping untuk
mengetahui tingkat akurasi dari metode klasifikasi tersebut.
2. Data mining memiliki cakupan dalam berbagai bidang, sehingga perlu dilakukan
penelitian dengan metode data mining untuk bidang yang lain
Daftar Pustaka
Han, J., & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Fransisco: Morgan Kaufman
Publisher
Kumar, B., & Pal, S. (2011). Data mining: A prediction for performance improving using classification.
IJCSIS, vol 9
Ridwan, M., Suyono, H., & M.Sarosa. (2013). Penerapan Data Mining Untuk Evaluasi Kinerja Akademik
Mahasiswa Menggunakan Algoritma Naive Bayes Classifier. Jurnal EECCIS, vol 7
Santosa, B. (2007). Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu
Sembiring, S., M.Zarlis, H, D., S, R., & Wani, E. (2011). Prediction of student academic performance by an
application of data mining technique. IPEDR, vol 6
Sumathi, D. S., & S.N.Sivanandan, D. (2006). Introduction to Data Mining and its applications. Verlag Berlin
Heidelberg: Springer
Sunjana. (2010). Aplikasi Mining Data Mahasiswa Dengan Metode Klasifikasi Decision tree. ISSN: 1907-5022
T.Larose, D. (2005). DISCOVERY KNOWLEDGE IN DATA : An Introduction to Data Mining. New Jersey: John
Wiley & Sons, Inc
Alfina, T. (2012). Analisa Perbandingan Metode Hierarchical Clustering, K-Means dan Gabungan Keduanya
Dalam Membentuk Cluster Data. Surabaya: Institut Teknologi Sepuluh Nopember Surabaya.
Download