usulan penelitian dosen pemula judul penelitian

advertisement
Kode / Nama Rumpun Ilmu:
458 / Teknik Informatika
USULAN
PENELITIAN DOSEN PEMULA
JUDUL PENELITIAN:
PENGGUNAAN EDUCATIONAL DATA MINING (EDM)UNTUK MENDETEKSI
KETERLAMBATAN MASA STUDI MAHASISWA
(STUDI KASUS UDINUS)
TIM PENGUSUL:
(Ketua) Defri Kurniawan, M.Kom
NIDN: 0613128502
(Anggota 1) Wibowo Wicaksono, S.T, M.Kom
NIDN: 0629107603
(Anggota 2) Yani Parti Astuti, S.Si
NIDN: 0606107401
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
APRIL 2015
HALAMAN PENGESAHAN
ii
DAFTAR ISI
HALAMAN PENGESAHAN ................................................................................................ ii
DAFTAR ISI ........................................................................................................................ iii
DAFTAR GAMBAR ............................................................................................................. v
DAFTAR TABEL................................................................................................................. vi
RINGKASAN ........................................................................................................................ 1
BAB 1. PENDAHULUAN..................................................................................................... 2
1.1 Latar Belakang Masalah.................................................................................... 2
1.2 Rumusan Masalah............................................................................................. 3
1.3 Tujuan Penelitian .............................................................................................. 4
1.4Luaran Yang Diharapkan ................................................................................... 4
1.5Ruang Lingkup Penelitian .................................................................................. 4
1.6Kontribusi Penelitian ......................................................................................... 4
BAB 2. STUDI PUSTAKA.................................................................................................... 5
2.1 Educational Data Mining (EDM) ...................................................................... 5
2.2Algoritma C4.5 .................................................................................................. 8
2.3 Penelitian Serupa yang Pernah Dilakukan Sebelumnya ................................... 10
bab 3. METODE PENELITIAN........................................................................................... 11
3.1 Metode Penelitian ........................................................................................... 11
3.2 Metode Pengumpulan Data ............................................................................. 11
3.3Metode Pengolahan Awal Data ........................................................................ 12
3.4 Metode yang Diusulkan .................................................................................. 12
3.5 Eksperimen dan Pengujian Model ................................................................... 12
3.6 Evaluasi dan Validasi...................................................................................... 12
3.7 Kerangka Pemikiran ....................................................................................... 13
BAB 4. BIAYA DAN JADWAL PENELITIAN .................................................................. 14
4.1 Biaya Penelitian .............................................................................................. 14
4.2 Jadwal Penelitian ............................................................................................ 14
iii
DAFTAR PUSTAKA .......................................................................................................... 15
LAMPIRAN-LAMPIRAN ................................................................................................... 16
iv
DAFTAR GAMBAR
Gambar 1Data Mining Roots.................................................................................................. 6
Gambar 2 Contoh konsep pohon keputusan untuk menentukan pembelian komputer
berdasarkan atribut age, student dan credit rating. ................................................................. 8
v
DAFTAR TABEL
Tabel 1Confussion Matrix .................................................................................................... 12
vi
RINGKASAN
Atribut masa studi merupakan hal penting bagi pengelola akademik, bagaimana
mahasiswa dapat lulus dengan tepat waktu merupakan suatu upaya yang terus dilakukan.
Masih banyaknya mahasiswa yang tidak lulus tepat waktu merupakan masalah serius bagi
universitas. Data mining dapat diusulkan sebagai salah satu pendekatan yang dapat dilakukan
untuk memprediksi kinerja siswa.Penerapan metode data mining dalam menganalisis data
yang tersedia di lembaga pendidikan didefinisikan sebagai Educational Data Mining
(EDM).Pada penelitian ini algoritma C4.5 diusulkan untuk memprediksi masa studi
mahasiswa pada program studi Teknik Informatika S-1 UDINUS.Mendapatkan suatu
pengetahuan (knolwledge) dari aktivitas penggalian data akademik merupakan tujuan yang
dihatapkan dalam penelitian ini, sehingga dapat membantu universitas dalam proses
pengambilan keputusan sebagai antisipasi kegagalan studi mahasiswa.
Kata Kunci: Masa Studi Mahasiswa, Educational Data Mining, Data Mining,
Algoritma C4.5
1
BAB 1. PENDAHULUAN
1.1 Latar Belakang Masalah
Universitas Dian Nuswantoro (UDINUS) memiliki Fakultas Ilmu Komputer
(Fasilkom) yang merupakan fakultas terbesar dari 4 (empat) fakultas yang ada.Hal ini dapat
dilihat dari jumlah program studi yang ada, Fasilkom memiliki 6 (enam) program studi.Salah
satu program studi dengan mahasiswa terbesar ada pada Teknik Informatika S-1.Jumlah
mahasiswa yang besar tersebut harus dapat diimbangi dengan kualitas sistem pendidikan yang
diberikan kepada mahasiswa. Salah satu cara untuk mencapai tingkat kualitas tertinggi dalam
sistem pendidikan tinggi adalah dengan menemukan pengetahuan dari data pendidikan untuk
mempelajari atribut utama yang dapat mempengaruhi kinerja siswa (Abu Tair & Al-Helees,
2012). Atribut masa studi merupakan hal penting bagi pengelola akademik, bagaimana
mahasiswa dapat lulus dengan tepat waktu merupakan suatu upaya yang terus dilakukan.
Masih banyaknya mahasiswa yang tidak lulus tepat waktu merupakan masalah serius bagi
universitas. Dengan dapat memprediksi masa studi mahasiswa yang tidak tepat waktu, pihak
universitas dapat meminimalisir kegagalan kelulusan mahasiswa dengan membuat
perencanaan, pengawalan studi dan bimbingan lebih intensif. Menganalisa kinerja mahasiswa
(student performance), mengidentifikasi keunikan-keunikan yang ada pada mahasiswa dan
membangun suatu strategi pengembangan lebih lanjut dan tindakan-tindakan di masa depan,
merupakan tantangan utama bagi universitas modern saat ini(Kabakchieva, 2013).
Data miningdapat diusulkan sebagai salah satu pendekatan yang dapat dilakukan
untuk memprediksi kinerja siswa (Osmanbegovic & Suljic, 2012).Hal ini didukung dengan
adanya data yang melimpah pada universitas.Data mining merupakan suatu cara dalam
menggali informasi dari sejumlah data yang biasanya tersimpan dalam repositori dengan
menggunakan teknologi pengenalan pola, statistik dan teknik matematika(Larose,
2006).Penerapan metode data miningdalam menganalisis data yang tersedia di lembaga
pendidikan didefinisikan sebagai Educational Data Mining (EDM)(Romero & Ventura,
2007). Dan merupakan suatu aliran yang relatif baru dalam penelitian data mining.EDM
menggunakan beberapa teknik sepertiDecision Trees, Neural Networks, Naïve Bayes, KNearest Neighbordan lainnya(Yadav & Pal, 2012). EDM berkaitan dengan pengembangan
metode untuk mengeksplorasi jenis yang unik dari data-data pada pengelolaan pendidikan dan
menggunakannya
untuk
lebih
memahami
siswa
dan
pengelolaannya(Baker,
2010).Pengetahuan yang ditemukan dari data mining dapat digunakan untuk menawarkan
suatu rekomendasi kepada perencana akademik di lembaga pendidikan tinggi dalam
meningkatkan proses pengambilan keputusan (decision making), meningkatkan kinerja
akademik dan memangkas tingkat kegagalan siswa serta lebih memahami perilaku para
2
siswa(Abu Tair &Al-Helees, 2012). Hal tersebutmerupakan tujuan-tujuan yang ingin dicapai
dalam pemanfaatan data mining di bidang pendidikan.
Penetian mengenai data mining pada lembaga pendidikan telah banyak dilakukan oleh
para peneliti.Dorina Kabakchieva melakukan penelitian yang bertujuan untuk menganalisis
kinerja algoritma klasifikasi data mining yang berbeda menggunakan Decision Tree classifier,
Bayes classifiers dan Nearest Neighbour classifier pada University of National and World
Economy (UNWE), Bulgaria (Kabakchieva, 2013). Hasil performa pengklasifikasi
menunjukkan bahwa klasifikasi pohon keputusan / Decision Tree classifier (J48) memiliki
akurasi keseluruhan tertinggi, diikuti oleh rule learner (JRip) dan k-NN classifier serta Bayes
classifier kurang akurat daripada yang lain. Penelitian yang lainyaitu Marselina Silvia
Suhartinah dan Ernastuti melakukan penelitian untuk memprediksi mahasiswa yang lulus atau
tidak lulus sesuai dengan waktu studi menggunakan algoritma C4.5 dan Naive Bayes serta
membandingkan hasil akurasi kedua algoritma tersebut(Suhartinah & Ernastuti, 2010). Hasil
penelitian ini, menunjukkan bahwa akurasi algoritma C4.5 lebih baik 85,7% dari Naive
Bayes80,85%. Pada penelitian Surjeet Kumar Yadav dan Saurabh Pal membandingkan
metode pengklasifikasi Decision Tree ID3, CART dan C4.5 untuk memprediksi performas
siswa (Yadav & Pal, 2012).Hasil penelitian menunjukkan bahwa algoritma C4.5 memiliki
akurasi tertinggi dari algoritma ID3 dan CART serta algoritma C4.5 menunjukkansebagai
model yang berhasil mengidentifikasi siswa yang cenderung gagal. Dari penelitian di atas,
decision treemenunjukkan keunggulan dibandingkan dengan algoritma yang lain. Karena
pada algoritma C4.5setiap nilai dalam suatu atribut ditelusuri dan diproses untuk
mendapatkan entropi masing-masing nilai yang akan digunakan untuk mencari ukuran purity
masing-masing atribut yang dinyatakan dengan information gain(Suhartinah & Ernastuti,
2010). Proses penelusuran ini akan membentuk sebuah pola berupa pohon keputusan. Dari
keunggulan-keunggulan di atas, pada penelitian ini algoritma C4.5 diusulkan untuk
memprediksi masa studi mahasiswa di program studi Teknik Informatika S-1 UDINUS.
1.2 Rumusan Masalah
Berdasarkan latar belakang di atas, didapatkan rumusan masalahyaitu:
Sulitnya memahami dan menemukan pola studi mahasiswa terhadap atribut data
mahasiswa dan data perkuliahan yang berpengaruh pada masa studi mahasiswa dalam jumlah
data besar.
Pertanyaan penelitian:
Atribut manakahyang merupakan penentu,mahasiswa dapat lulus tepat waktu atau
tidak apabila algoritma C4.5 diterapkan dalam membangun pohon keputusan?
3
1.3 Tujuan Penelitian
Penelitian ini bertujuan untuk:
1. Menerapkan pendekatan data mining dengan menggunakan algoritma C4.5 untuk
memprediksi masa studi mahasiswa di program studi Teknik Informatika S-1
UDINUS.
2. Menemukan suatu pola berupa pohon keputusan yang dapat membantu universitas
dalam
prosespengambilan
keputusan
sebagai
antisipasi
kegagalan
studi
mahasiswa.
1.4Luaran Yang Diharapkan
Secara spesifik luaran yang akan dicapai pada penelitian ini, yaitu:
1. Bahan Ajar Perkuliahan
Hasil penelitian ini dapat digunakan sebagai studi kasus dalam perkuliahan data
mining.
2. Publikasi Ilmiah
Hasil penelitian ini akan dipublikasikan secara ilmiah melalui konferensi
nasional/internasional dan dalam jurnal ilmiah terakreditasi.
1.5 Ruang Lingkup Penelitian
Ruang lingkup atau batasan penelitian yang dilakukan meliputi:
1. Data yang digunakan adalah dataidentitas mahasiswa Teknik Informatika S-1 dan
data kartu rencana studi (krs) perkuliahantahun ajaran 2005/2006 sampai dengan
tahun ajaran 2010/2011, semester 1 – 8 di UDINUS
2. Algoritma yang digunakan adalah algoritma C4.5 (decision tree).
3. Perangkat lunak untuk data mining yang digunakan adalah MatLab.
1.6 Kontribusi Penelitian
Bagi Ilmu Komputer:
-
Penelitian ini dapat digunakan sebagai referensi bagi peneliti lain di bidang
Education Data Mining (EDM) yang relatif baru.
BagiPerguruan Tinggi:
-
Mendapatkan pengetahuan (knowledge)yang dapat digunakan sebagai suatu
rekomendasi kepada universitas dalam membuat kebijakan dan langkah-langkah
strategis dalam upaya pengawalan kululusan mahasiswa.
4
BAB 2. STUDI PUSTAKA
2.1Educational Data Mining (EDM)
Penerapan metode data miningdalam menganalisis data yang tersedia di lembaga
pendidikan didefinisikan sebagai Educational Data Mining (EDM)(Romero & Ventura,
2007).Data mining merupakan suatu cara dalam penggalian informasi dari sejumlah data yang
biasanya tersimpan dalam repositori dengan menggunakan teknologi pengenalan pola,
statistik dan teknik matematika(Larose, 2006). Penggunaan data mining telah muncul untuk
diterapkan di berbagai bidang, baik dari bidang akademis, bisnis ataupun kegiatan medis pada
khususnya(Gurunescu, 2011). Secara umum, data mining dikenal dengan proses penggalian
data.
Data mining diperlukan untuk mengungkapkan informasi yang tersembunyi, dimana
adanya
keterbatasan
kemampuan
analisis
manusia
dan
cara
tradisional
yang
dilakukan(Gurunescu, 2011). Tekanan adanya metode baru ini muncul, seiring dengan
berkembangnya ilmu komputer dan kemampuan komputasi.Data mining juga dikenal
sebagai "knowledgediscovery
in
databases"(KDD), memiliki
tiga akar generik
meliputi(Gurunescu, 2011):
1. Statistik
Merupakan akar tertua, tanpa adanya statistik data mining tidak akan pernah ada.
Pada statistik terdapat teknik analisis yaitu Exploratory Data Analysis (EDA)yang
digunakan untuk mengidentifikasi hubungan antara variabel yang berbeda. Teknik EDA
pada data mining bisa disebutkan dengan:

Metode Komputasi (computational methods) yaitu dengan adanya parameter statistik
klasik meliputi means, median, standar deviasi, dan lain-lain. Teknik eksplorasi
multivariant (analisis klaster, faktor analisis, analisis komponen utama dan
klasifikasi,analisis diskriminan, pohon klasifikasi, analisis korespondensi), advanced
linear / non linier models (linear / non-linear regresi, time series / peramalan dan lainlain).

Visualisasi Data (Data Visualization) bertujuan untuk mewakili informasi dalam
bentuk visual. Di antara teknik-teknik visualisasi yang paling umum, dapat ditemukan:
histogram dari segala jenis (kolom, silinder, kerucut, piramida, pie, bar, dan lain-lain),
kotak plot, scatter plot, plot kontur, plot matriks.
2. Kecerdasan Buatan (Artificial Intelligence)
5
Kecerdasan Buatan memberikan kontribusi dengan teknik pengolahaninformasi
yang mendasarkan pada penalaran model manusia terhadap pengembangan data
mining. Terkait dengan Kecerdasan Buatan, Machine Learning (ML) merupakan disiplin
ilmu yang sangat penting dalam pembangunan data mining. ML menggunakan teknik
yang memungkinkan mesin dalam hal ini komputer untuk belajar melalui suatu proses
training ataupelatihan. Dalam konteks ini, dapat dipertimbangkan pula Natural
Computing (NC) sebagai akar tambahan yang kuat untuk data mining.
3. Sistem Basis Data (Database Systems)
Dianggap
sebagai
akar
ketiga
pada
data
mining,
menyediakan
informasi yang akan 'ditambang' menggunakan metode-metode yang disebutkan di atas.
Artificial Intelligence
Machine Learning
Statistics
Natural Computing
DATA
MINING
Database Systems
Gambar 1Data Mining Roots
Keperluan akandata mining dapat terlihat pada area atau sektor kehidupan nyata yang
membutuhkan teknik-teknik investigasi tersebut yaitu:

Ekonomi (Bisnis-Keuangan)
Ada sejumlah besar data yang telah dikumpulkan di berbagai bidang seperti: data
web, e-commerce, super / hypermarket data, keuangan dan transaksi perbankan, dll, siap
untuk dianalisis dalam rangka mengambil keputusan yang optimal.

Perawatan Kesehatan
6
Saat ini terdapat banyak database dalam perawatan kesehatan baik dari medis
maupun dari farmasi. Namun sebagian hanya dianalisis, terutama dengan adanya alat
medis tertentu yang berisi informasi yang besar namun tidak cukup dieksplorasi.

Penelitian Ilmiah
Ada database besar dikumpulkan selama bertahun-tahun di berbagai bidang baik
pada astronomi, meteorologi, biologi, linguistik, dan lain-ainl yang tidak dapat
dieksplorasi dengan cara tradisional.
Proses ‘penambangan data’ dapat diidentifikasi dengan tiga langkah karekteristik dari
proses data mining yang meliputi(Gurunescu, 2011):
1. Eksplorasi Data (Exploring data)
Penjelajahan data yang terdiri dari cleaning atau pembersihan data, transformasi
data, dimensi pengurangan, seleksi fitur subset dan lain-lain.
2. Membangun Model dan Melakukan Validasi (Building the model and its validation)
Membangun modeldan melakukan validasi yang mengacu pada analisis dari
berbagai modeldan memilih yang memiliki kinerja terbaik dari perkiraan model evaluasi
yang kompetitif.
3. Menerapkan (Applying)
Menerapkan model data baru untuk menghasilkan perkiraan yang benar/perkiraan
untuk masalah yang diselidiki.
Data mining dapat digunakan untuk menyelesaikan tugas – tugas yang paling umum,
berhubungan dengan tugas seperti (Larose, 2006):
1. Description (Deskripsi)
Hasil dari data mining dapat menjelaskan pola yang ditemukan dengan jelas yang
mengarah pada suatu hasil yang transparan dengan berbagai metode yang dapat
digunakan.
2. Estimation (Estimasi)
Model yang dibagun menggunakan catatan lengkap yang memberikan nilai dari
variabel sasaran serta prediktornya.Ketika ada pengamatan baru, perkiraan dari nilai
variabel target yang dibuat didasarkan pada nilai-nilai prediktornya.
3. Prediction (Peramalan)
Prediksi mirip dengan klasifikasi dan estimasi, hal ini dapat dilihat dari metode
dan teknik yang digunakan untuk klasifikasi dapat juga digunakan untuk memprediksi
suatu keadaan dengan tepat.
7
4. Classification (Klasifikasi)
Pada tugas klasifikasi ada variabel target yang dibuat kategoris, misalkan variabel
pendapatan dapat dikategorikan menjadi tiga kelas: pendapatan tinggi, menengah dan
rendah. Ketika ada data baru untuk mengklasifikasikan data tersebut masuk kategori yang
mana. Maka dengan menggunakan algoritma akan memeriksa variabel prediktor
kemudian menggolongkan data baru tersebut pada suatu klasifikasi.
5. Clustering (Pengelompokan)
Clustering berbeda dengan klasifikasi, dimana clustering tidak punya tujuan untuk
mengklasifikasi, estimasi, atau prediksi.Clustering mencoba untuk mengelompokkan
segmen dari beberapa data yang memiliki suatu kesamaan / homogen.
6. Association (Asosiasi)
Tugas asosiasi adalah menemunkan suatu pola dari hubungan beberapa
variabel.Dalam dunia bisnis lazim dikenal dengan Market Based Analysis.Dengan aturan
dari asosiasi yaitu “if antecedent, then consequent”.
2.2Algoritma C4.5
Pohon keputusan mirip sebuah sebuah struktur pohon dimana terdapat node internal
(bukan daun) yang mendeskripsikan atribut-atribut, setiap cabang menggambarkan hasil dari
atribut yang diuji, dan setiap daun menggambarkan kelas. Pohon keputusan bekerja mulai dari
akar paling atas, jika diberikan sejumlah data uji, misalnya X dimana kelas dari data X belum
diketahui, maka pohon keputusan akan menelusuri mulai dari akar sampai node dan setiap
nilai dari atribut sesuai data X diuji apakah sesuai dengan aturan pohon keputusan, kemudian
pohon keputusan akan memprediksi kelas dari tupel X (Firmansyah, 2011).
Gambar 2 Contoh konsep pohon keputusan untuk menentukan pembelian komputer
berdasarkan atribut age, student dan credit rating.
8
Gambar 2 menggambarkan pohon keputusan untuk memprediksi apakahseseorang
membeli komputer. Node internal disimbolkan dengan persegi, cabangdisimbolkan dengan
garis, dan daun disimbolkan dengan oval.
Algoritma C4.5 dan pohon keputusan merupakan dua model yang takterpisahkan,
karena untuk membangun sebuah pohon keputusan, dibutuhanalgoritma C4.5. Di akhir tahun
1970 hingga di awal tahun 1980-an, J. RossQuinlan seorang peneliti di bidang mesin
pembelajaran mengembangkan sebuahmodel pohon keputusan yang dinamakan ID3 (Iterative
Dichotomiser), walaupunsebenarnya proyek ini telah dibuat sebelumnya oleh E.B. Hunt, J.
Marin, dan P.T.Stone. Kemudian Quinlan membuat algoritma dari pengembangan ID3
yangdinamakan C4.5 yang berbasis supervised learning.
Ada beberapa tahap dalam membuat sebuah pohon keputusan denganalgoritma C4.5
(Kusrini & Luthfi, 2009), yaitu :
1. Menyiapkan data training. Data training biasanya diambil dari data histori yangpernah
terjadi sebelumnya dan sudah dikelompokkan ke dalam kelas-kelastertentu.
2. Menentukan akar dari pohon. Akar akan diambil dari atribut yangterpilih,dengan cara
menghitung nilai Gain dari masing-masing atribut, nilaiGain yang paling tinggi yang
akan menjadi akar pertama. Sebelum menghitungnilai Gain dari atribut, hitung dahulu
nilai entropy yaitu :
( )=
−
∗ log
)
Keterangan :
S : himpunan kasus
n : jumlah partisi S
pi: proporsi dari Si terhadap S
3. Kemudian hitung nilai Gain dengan metode information gain :
( , )=
( )−
| |
∗
| |
( )
Keterangan :
S : himpunan kasus
|Si| : jumlah kasus pada partisi ke-i
A : atribut
|S| : jumlah kasus dalam S
n : jumlah partisi atribut A
4. Ulangi langkah ke-2 hingga semua tupel terpartisi.
5. Proses partisi pohon keputusan akan berhenti saat :
9
a. Semua tupel dalam node N mendapat kelas yang sama.
b. Tidak ada atribut di dalam tupel yang dipartisi lagi.
c. Tidak ada tupel di dalam cabang yang kosong.
2.3 Penelitian Serupa yang Pernah Dilakukan Sebelumnya
Penelitian yang dilakukan dengan menggunakan pendekatan data mining untuk
memprediksi kinerja siswa (student performance) telah dilakukan oleh peneliti-peneliti
sebelumnya. Berikut merupakan beberapa penelitian terkait baik international maupun
nasional yang pernah dilakukan, meliputi:
Tahun
2012
Peneliti
Judul Penelitian
Publikasi
Surjeet Kumar
Data Mining A Prediction forPerformance
World of Computer
Yadav
Improvement ofEngineering Students
Science and Information
danSaurabh Pal
usingClassification
Technology Journal
(WCSIT)
2012
Edin
Data Mining Approach For Predicting
Economic Review –
Osmanbegović
Student Performance
Journal of Economics
dan Mirza
and Business
Suljić
2013
2010
Dorina
Predicting Student Performance by
Cybernetics And
Kabakchieva
Using Data Mining Methods for
Information
Classification
Technologies
Diana Laily
Sistem Pendukung Keputusan Untuk
Prosiding SNATIF Ke-1
Fithri dan Eko
Memprediksi KelulusanMahasiswa
Tahun 2014
Darmanto
Menggunakan Metode Naïve Bayes
10
BAB 3. METODE PENELITIAN
3.1 Metode Penelitian
Metode penelitian yang dilakukan adalah metode penelitian eksperimen dengan
tahapan penelitian sebagai berikut(Santoso, 2007):
PENGUMPULAN DATA
Data yang dikumpulkan adalah data identitas mahasiswa dan data
KRS Teknik Informatika S-1 Semester 1-8 Tahun Ajaran
2005/2006 s.d 2010/2011 UDINUS
PENGOLAHAN AWAL DATA
Data yang didapatkan selanjutnya diolah (preprocessing) dengan
penerapan data integrasi dan data reduction
MODEL/METODE YANG DIUSULKAN
Metode menggunakan Decission Tree dengan Algoritma C4.5
EKSPERIMEN DAN PENGUJIAN MODEL
Pengujian dilakukan dengan menggunakan sebagian data untuk
training dansebagian lagi digunakan sebagai data testing
EVALUASI DAN VALIDASI HASIL
Evaluasi dilakukan dengan mengamati hasil prediksi menggunakan
Algoritma C4.5 danvalidasi dilakukan dengan mengukur hasil
prediksi dibandingkan dengan data asal
3.2 Metode Pengumpulan Data
Data yang digunakan dalam penelitian ini berupa data identitas mahasiswa dan kartu
rencana studi (krs) mahasiswa Teknik Informatika S-1 Fakultas Ilmu Komputer Universitas
Dian Nuswantoro Semarang.Data diambil dari tahun ajaran 2005/2006 sampai dengan tahun
ajaran 2010/2011. Data tersebut sengaja penulis ambil lima tahun sebelum tahun sekarang,
karena untuk bisa memprediksi masa studi mahasiswa yang disesuaikan masa studi secara
umum mahasiswa Strata-1 (S-1) yaitu selama 8 semester (4 tahun).
11
3.3Metode Pengolahan Awal Data
Pengolahanawal data diperlukan untuk proses penyederhanaan data agar data tersebut
dapat dikenali dan digunakan dalam algoritma yang diusulkan. Proses pengolahan awal data
tersebut adalah:
1. Data integrasi yaitu menyatukan tempat penyimpanan. Data identitas dan krs
mahasiswa yang diperoleh disatukan dalam satu media penyimpanan.
2. Data reduction yaitu untuk memperoleh data yang mempunyai atribut dan record yang
lebih sedikit dengan cara mengurangirecord yang tidak diperlukan atau yang tidak
terisi.
3.4 Metode yang Diusulkan
Metode yang diusulkan dalam penelitian ini adalahDecision Treealgoritma C4.5 untuk
memprediksi masa studi mahasiswa Teknik Informatika S-1 Fakultas Ilmu Komputer
Universitas Dian Nuswantoro Semarang.
3.5 Eksperimen dan Pengujian Model
Tahapan eksperimen pada penelitian ini adalah:
1. Menyiapkan data untuk melakukan eksperimen
2. Preprocessing data dengan mereduksi data – data yang kosong
3. Eksperimen menggunakan metode C4.5 dengan MatLab
4. Menghitung akurasi dari penggunaan metode C4.5
5. Menganalisa hasil dari penggunaan metode C4.5
3.6 Evaluasi dan Validasi
Pengujian terhadap model klasifikasi yang dihasilkan akan diukur dengan
menggunakan confussion matrix. Confussion matrix merupakan alat ukur yang digunakan
untuk mengukur performa klasifikasi. Dalam hal ini akan digunakan confussion matrix dua
kelas sebagai berikut:
Tabel 1Confussion Matrix
Kelas Prediksi
Kelas
Aktual
Kelas Tepat
Kelas Tidak Tepat
Waktu
Waktu
Kelas tepat waktu
TP (True Positive)
FN (False Negative)
Kelas tidak tepat waktu
FP(False Positive)
TN (True negative)
12
Matriks baris pertama menunjukkan data – data mahasiswa yang berada di kelas tepat
waktu, di mana data yang diklasifikasikan dengan benar sejumlah TP dan jumlah data yang
salah diklasifikasikan sebagai kelas tidak tepat waktu sejumlah FN.
Matriks baris kedua menunjukkan data – data mahasiswa yang berada di kelas tidak
tepat waktu, di mana data yang diklasifikasikan benar sejumlah TN dan jumlah data yang
salah diklasifikasikan sebagai kelas tepat waktu sejumlah FP.
Dari confussion matrix tersebut akan dilakukan pengukuran tentang akurasi, presisi
dan recall dari model yang dihasilkan. Selanjutnya untuk dianalisa dari pengukuran tersebut.
3.7 Kerangka Pemikiran
Rumusan Masalah
Sulitnya memahami dan menemukan pola studi mahasiswa terhadap atribut data
mahasiswa dan data perkuliahan yang berpengaruh pada masa studi mahasiswa dalam
jumlah data yang besar.
Pendekatan
Data Mining dengan algoritma C4.5
Implementasi
Menggunakan software MatLab untuk melakukan pekerjaan
klasifikasi dan prediksi masa studi mahasiswa berdasarkan data
identitas mahasiswa dan data krs
Pengukuran
Menggunakan Confussion matrix untuk mendapatkan nilai akurasi
dari algoritma C4.5
13
BAB 4. BIAYA DAN JADWAL PENELITIAN
4.1 Biaya Penelitian
Untuk melakukan kegiatan-kegiatan dalam penelitian ini diperlukan anggaran dana
untuk menunjang jalannyakegiatan tersebut. Berikut merupakan anggaran biaya secara global
yang diusulkan pada penelitian ini:
No
Jenis Pengeluaran
Presentase
Biaya yang diusulkan (Rp)
1
Gaji dan Upah
30%
3.456.000
2
Bahan habis pakai dan peralatan
52%
6.044.000
3
Perjalanan
11%
1.300.000
4
Lain-lain
7%
800.000
100%
Jumlah
11.600.000,-
4.2 Jadwal Penelitian
No
1
2
3
4
5
6
7
Tahap Penelitian
1
2
3
Identifikasi Masalah dan Studi
Literatur
Pengumpulan Data
Pengolahan Awal Data
a. Data Integrasi
b. Data Reduction
Pengusulan Metode/Model
Eksperimen dan Pengujian
Evaluasi dan Validasi
Publikasi Hasil dan Penulisan
Laporan
14
4
5
Tahun 1
6 7 8
9
10 11
12
DAFTAR PUSTAKA
Abu Tair, M. M., & Al-Helees, A. M. (2012). Mining Educational Data to Improve
Students’ Performance: A Case Study. International Journal of Information and
Communication Technology Research, 2.
Baker, R. (2010). Data Mining for Education (3rd Edition ed.). UK: Elsevier.
Firmansyah. (2011). Penerapan Algoritma Klasifikasi C4.5 Untuk Penentuan
Kelayakan Pemberian Kredit Koperasi.
Gurunescu, F. (2011). Data Mining Consepts, Models and Techniques (Volume 12
ed.). Verlag Berlin Heidelberg, Germany: Springer.
Kabakchieva, D. (2013). Predicting Student Performance by Using Data Mining.
Cybernetics and Information Technologies .
Kusrini, & Luthfi. (2009). Algoritma Data Mining. Yogyakarta: Andi Publishing.
Larose, D. T. (2006). Data Mining Methods and Models. Hoboken, New Jersey,
United State of America: John Wiley & Sons, Inc.
Osmanbegovic, E., & Suljic, M. (2012). Data Mining Approach For Predicting
Student Performance. Journal of Economics and Business, X (1).
Romero, C., & Ventura, S. (2007). Educational Data Mining: A Review of the Stateof-the-Art. IEEE Transactions On Systems, Man, And Cybernatics .
Santoso, B. (2007). Data Mining Teknik Pemanfaatan Data Untuk Keperluan Bisnis.
Yogyakarta: Graha Ilmu.
Suhartinah, M. S., & Ernastuti. (2010). Graduation Prediction Of Gunadarma
University Students Using C4.5 Algorithm And Naive Bayes Algorithm.
Yadav, S. K., & Pal, S. (2012). Data Mining A Prediction for Performance
Improvement of Engineering Students using Classification. World of Computer Science and
Information Technology Journal (WCSIT), 2, 51-56.
15
LAMPIRAN-LAMPIRAN
Lampiran 1. Anggaran Penelitian
1. Honor
Honor
Honor/ Jam (Rp)
Waktu
(Jam/Minggu)
Minggu
Honor per Tahun
Ketua
19.000,-
2 jam
32 minggu
1.216.000
Anggota 1
17.500,-
2 jam
32 minggu
1.120.000
Anggota 2
17.500,-
2 jam
32 minggu
1.120.000
Sub Total (Rp)
3.456.000
Harga total Peralatan (Rp)
873.000,-
2. Peralatan Penunjang
Material
Justifikasi
Jumlah
Harddisk External 1 Tb
Pengambilan data mahasiswa dan data
akademik lima tahun
1 buah
Harga Satuan (Rp)
873.000,-
Flash disk 16 GB
Perpindahan data
2 buah
55.000,-
110.000,-
Log Book
Mencatat eksperimen dan diskusi
2 buah
45.000,-
90.000,-
Soddim Memory 4 GB
Peningkatan pengolahan data dan hasil
eksperimen komputasi
1 buah
400.000,-
400.000,-
Modem USB
Akses Internet di Luar Kantor
1 buah
300.000,-
300.000,-
Folder File
Penyimpanan berkas-berkas penting
3 buah
45.000,-
135.000,-
Stopmap
Manajemen berkas-berkas file
5 buah
10.000,-
50.000,-
Sub Total (Rp)
1.958.000
3. Bahan Habis pakai
Material
Justifikasi
Jumlah
16
Harga Satuan (Rp)
Harga total Peralatan (Rp)
Catridge printer hitam
Mencetak laporan dan dokumentasi
2 buah
180.000,-
360.000,-
Catridge printer warna
Mencetak laporan dan dokumentasi
1 buah
200.000,-
200.000,-
Kertas A4 80gram
Mencetak laporan dan dokumentasi
3 rim
40.000,-
120.000,-
Jilid Laporan
Menjilid Laporan penelitian
6 buah
20.000,-
120.000,-
Pulsa Internet
Akses internet di luar kantor
8 bulan x 3 orang
52.000,-
1.248.000,-
Materai
Pengesahan Laporan
10 Lembar
7.000,-
70.000,-
Konsumsi
Koordinasi dan komunikasi
8 bulan x 3 orang
30.000,-
720.000,-
Pulsa HP
Koordinasi dan komunikasi
8 bulan x 3 orang
52.000,-
1.248.000,-
Sub Total (Rp)
4.086.000
4. Perjalanan
Kegiatan
Justifikasi
Perjalanan publikasi
Tranportasi publikasi (pulang pergi)
Perjalanan dalam kota
Transportasi kegiatan sehari-hari
Jumlah
Harga Satuan (Rp)
Harga total Peralatan (Rp)
2 x 1 orang
200.000,-
400.000,-
3 orang
300.000,-
900.000,-
Sub Total (Rp)
1.300.000,-
5. Lain-lain
Kegiatan
Seminar nasional
Keterangan
Publikasi hasil penelitian
Jumlah
1 kali
Harga Satuan (Rp)
Harga total Peralatan (Rp)
800.000,-
800.000,-
Sub Total (Rp)
800.000,-
TOTAL ANGGARAN YANG DIPERLUKAN SELURUH TAHUN (Rp)
11.600.000,-
17
Lampiran 2. Susunan Organisasi Tim Peneliti dan Pembagian Tugas
No
Nama
Instansi
Alokasi Waktu
Bidang Ilmu
(jam/minggu)
Uraian Tugas
1
Defri Kurniawan
UDINUS
Teknik Informatika
3
Ketua Penelitian dan pengembang aplikasi
2
Wibowo Wicaksono
UDINUS
Teknik Informatika
3
Dokumentasi dan kolektor data
3
Yani Parti Astuti
UDINUS
Teknik Informatika
3
Penguji dan validasi model
18
Lampiran 3. Susunan Organisasi Tim Peneliti dan Pembagian Tugas
Biodata Ketua Peneliti
A. Identitas Diri
1
Nama Lengkap (dengan gelar)
Defri Kurniawan, M.Kom
2
Jenis Kelamin
L
3
Jabatan Fungsional
-
4
NIP/NIK/No. Identitas Lainnya
0686.11.2013.536
5
NIDN
0613128502
6
Tempat dan Tanggal Lahir
Semarang, 13Desember 1985
7
E-mail
[email protected]
8
Nomor Telepon / HP
085641417048
9
Alamat Kantor
Jl. Nakula I 1-5 Semarang
10 Nomor Telepon/Faks
(024) 70793727 / (024) 3547038
11 Lulusan yang Telah Dihasilkan
-
12 Mata Kuliah yang Diampu
1.
2.
3.
4.
5.
6.
Rekayasa Perangkat Lunak
Rekayasa Perangkat Lunak Lanjut
Object Oriented Analisa dan Desain
Sistem Informasi
Sistem Operasi
Pengantar Teknologi Informasi
B. Riwayat Pendidikan
S-1
S-2
Nama Perguruan Tinggi
UDINUS
UDINUS
Bidang Ilmu
Teknik Informatika
Teknik Informatika
Tahun Masuk-Lulus
2004-2009
2009-2012
JudulSkripsi/Thesis/Disertasi
Penerapan Metode
Waterwall dalam
Membangun
Multimedia
Pembelajaran Kelas III
SMA IPA di Dipo
Solution Semarang
Optimasi Algortima
Support Vector Machine
Menggunakan AdaBoost
Untuk Penilaian Resiko
Kredit
Nama Pembimbing/Promotor
Kharis Widiyatmoko,
M.Kom
Dr. Abdul Syukur
Catur Supriyanto, M.Cs
19
S-3
C. Pengalaman Penelitian Dalam 5 Tahun Terakhir
Pendanaan
No.
-
Tahun
-
Judul Penelitian
Sumber*
-
Jml (Juta Rp)
-
-
D. Pengalaman Pengabdian Kepada Masyarakat dalam 5 Tahun Terakhir
Pendanaan
No.
Tahun
Judul Pengabdian Kepada Masyarakat
Sumber*
Jml (Juta Rp)
E. Publikasi Artikel Ilmiah Dalam Jurnal alam 5 Tahun Terakhir
No.
1
Judul Artikel Ilmiah
Volume/
Nomor/Tahun
Nama Jurnal
Optimasi Algortima Support Vector Machine
Menggunakan AdaBoost Untuk Penilaian Resiko
Kredit
Jurnal
Teknologi
Informasi
Vol 9/No 1/2013
F. Pemakalah Seminar Ilmiah (Oral Presentation) dalam 5 Tahun Terakhir
No
Nama Pertemuan
Judul Artikel Ilmiah
Waktu dan Tempat
-
-
Seminar internasional
-
-
Seminar nasional
G. Karya Buku Dalam 5 Tahun Terakhir
No
Judul Buku
Tahun
20
Jumlah
Penerbit
21
Biodata Anggota Tim Peneliti
A. Identitas Diri
1
Nama Lengkap (dengan gelar)
Wibowo Wicaksono, ST., M.Kom
2
Jenis Kelamin
L
3
Jabatan Fungsional
AsistenAhli
4
NPP
0686.11.2013.531
5
NIDN
0629107603
6
Tempat dan Tanggal Lahir
Semarang, 29 Oktober 1976
7
Alamat Rumah
Jl. Borobudur Selatan Rt.07 Rw.08 No. 39
Semarang
8
Nomor Telepon/Faks/ HP
08122842434
9
Alamat Kantor
Jl. Nakula I No. 5-11 Semarang
10
Nomor Telepon/Faks
024-3569684
11
Alamat e-mail
[email protected]
12
Lulusan yang Telah Dihasilkan
S-1 = 10 orang
13
Mata Kuliah yang Diampu
1. SistemOperasi
2. Organisasi dan Arsitektur Komputer
3. Sistem Terdistribusi
4. Pengolahan Citra Digital
5. Strategi Algoritma
6. Sistem Basis Data
B. Riwayat Pendidikan
S1
S2
Nama Perguruan Tinggi
UniversitasIslam Indonesia
Universitas Gadjah Mada
Bidang ilmu
Teknik Sipil
Ilmu Komputer
Tahun Masuk – Lulus
1995 – 2002
2003 – 2006
Judul Skirpsi / Thesis
Perilaku Komponen Struktur Aplikasi Pengolahan Citra
Lantai Balok T Komposit Kayu- Digital untuk Identifikasi
Beton
Biometrik Sidik Jari dengan
Metode Fraktal
Nama Pembimbing
Ir. H. Susastrawan, MS.
Ir. Fatkhurrohman N., MT.
22
Drs. Agus Harjoko, M.Sc.,
Ph.D
C. Pengalaman Penelitian Dalam 5 Tahun Terakhir
Pendanaan
Sumber
Jumlah
(Juta Rp)
No
Tahun
Judul
1
2002
Perilaku Komponen Struktur Lantai Balok T
Komposit Kayu-Beton
Skripsi
S1
-
2
2006
Aplikasi Pengolahan Citra Digital untuk Identifikasi
Biometrik Sidik Jari dengan Metode Fraktal
Thesis
S2
-
D. Pengalaman Pengabdian Masyarakat Dalam 5 Tahun Terakhir
Pendanaan
Sumber
Jumlah
(Rp)
No
Tahun
Judul
1
2009
Pelatihan Operator Komputer On Line Siaga SAT
BRIMOBDA JATENG.
STMIK
Himsya
1.000.000
2
2010
Pelatihan Dasar Aplikasi Office untuk Mendukung
Proses Belajar Mengajar Bagi Guru-Guru SMP &
SMA Tarakan Kalimantan Timur
STMIK
Himsya
1.000.000
E. Pengalaman Menulis Artikel Ilmiah Dalam 5 Tahun Terakhir
No
Judul Artikel
Volume / Nomor /
Nama Jurnal
Tahun
1
Keamanan Data Teks Dengan Algoritma
Enkripsi Playfair
Vol. 2 No. 3 Januari
2006, ISSN: 19072074
Teknologi
Informasi
HIMSYATECH
2
Identifikasi Biometrik Sidik Jari Dengan
Pendekatan Karakteristik Fraktal (Fingerprint
Biometric Identification with Approach of
Characteristic of Fractal)
Vol. 2 No. 4 Juni
2006, ISSN: 19072074
Teknologi
Informasi
HIMSYATECH
3
Pengolahan Citra Digital Untuk Menentukan
Intensitas Citra Awan Berdasarkan Indeks
Warnanya
Vol. 3 No. 6 Juni
2007, ISSN: 19072074
Teknologi
Informasi
HIMSYATECH
4
Pengantar Sistem Pakar
Vol. 4 No. 8 Juni
2008, ISSN: 19072074
Teknologi
Informasi
HIMSYATECH
5
Implementasi Sistem Scanner & ICR untuk
Merekam Secara Digital Berkas Hasil Pemilu
Vol. 5 No. 10 Juni
2009, ISSN: 19072074
Teknologi
Informasi
HIMSYATECH
23
F. PengalamanPenyampaianMakalahSecara
Ilmiahdalam 5 TahunTerakhir
No Nama PertemuanIlmiah
Oral
PadaPertemuan
Judul Artikel Ilmiah
/
Seminar
Waktu dan Tempat
/ Seminar
Seminar internasional
-
-
-
-
-
-
Seminar nasional
-
-
G. Karya Buku Dalam 5 Tahun Terakhir
No
Judul Buku
Tahun
Jumlah
Penerbit
H. Perolehan HKI Dalam 5 – 10 Tahun Terakhir
No.
Judul/Tema HKI
Tahun Jenis
Nomor P/ID
-
-
-
-
-
I. Pengalaman Merumuskan Kebijakan Publik/Rekayasa Sosial Lainnya Dalam 5
Tahun Terakhir
No.
-
Judul/Tema/Jenis Rekayasa Sosial Lainnya yang Tahun Tempat
Respon
Telah Diterapkan
Penerapan Masyarakat
-
24
25
Biodata Anggota Tim Peneliti
A. Identitas Diri
1
Nama Lengkap (dengan gelar)
Yani Parti Astuti, S.Si
2
Jenis Kelamin
Perempuan
3
Jabatan Fungsional
-
4
NPP
0686.11.2013.532
5
NIDN
0606107401
6
Tempat dan Tanggal Lahir
Madiun, 06 Oktober 1974
7
Alamat Rumah
Perum Kandri Pesona Asri F2 no 3 RT 04 RW 04
Kelurahan Kandri kecamatan Gunungpati Semarang
8
Nomor Telepon/Faks/ HP
024-76916136 / 082133258726
9
Alamat Kantor
Jl. Nakula I No. 5-11 Semarang
10
Nomor Telepon/Faks
024-3517261/024-3569684
11
Alamat e-mail
[email protected]
13
Mata Kuliah yang Diampu
1. Kalkulus I / II
2. Matematika Diskrit
3. Vektor dan Matriks Transformasi
4. Manajemen Sains
5. Statistika dan Probabilitas
6. Logika Informatika
B. Riwayat Pendidikan
S1
S2
Nama Perguruan Tinggi
UniversitasDiponegoro Semarang
Universitas Dian Nuswantoro (on going)
Bidang ilmu
Matematika FMIPA
Teknik Informatika
Tahun Masuk – Lulus
1992-1998
2013 – 2015
Judul Skirpsi / Thesis
Algoritma
Matching
Bobot
Model Prediksi Calon Nasabah dengan
Maksimum dalam Graph Bipartit Pemasaran Langsung Menggunakan
Komplit Berbobot
Algoritma Naïve Bayes Berbasis
Forward Selection
Pembimbing
Drs. Djuwandi, SU
Heru Agus Santoso, P.hD
Dra Widowati
Catur Supriyanto, M.CS
26
C. Pengalaman Penelitian Dalam 5 Tahun Terakhir
No
Tahun
-
-
Pendanaan
Sumber
Jumlah
(Juta Rp)
Judul
-
-
-
D. Pengalaman Pengabdian Masyarakat Dalam 5 Tahun Terakhir
Pendanaan
No
Tahun
Judul
Sumber
Jumlah
(Juta Rp)
1
2014
Pelatihan Pembelajaran Matematika bagi Siswa SMP Udinus
Kartini Semarang untuk Persiapan Ujian Nasional 2014
2,7
E. Publikasi Artikel Ilmiah Dalam Jurnal alam 5 Tahun Terakhir
No.
Judul Artikel Ilmiah
Volume/
Nomor/Tahun
Nama Jurnal
F. Pemakalah Seminar Ilmiah (Oral Presentation) dalam 5 Tahun Terakhir
No
Nama Pertemuan
Judul Artikel Ilmiah
Waktu dan Tempat
-
-
Seminar internasional
-
-
Seminar nasional
G. Karya Buku Dalam 5 Tahun Terakhir
No
Judul Buku
Tahun
27
Jumlah
Penerbit
28
29
30
Download