Implementasi Algoritma K-Means untuk Klasterisasi Kinerja - j

advertisement
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Vol. 2, No. 6, Juni 2018, hlm. 2243-2251
e-ISSN: 2548-964X
http://j-ptiik.ub.ac.id
Implementasi Algoritma K-Means untuk Klasterisasi Kinerja Akademik
Mahasiswa
Fajar Nur Rohmat Fauzan Jaya Aziz1, Budi Darma Setiawan2, Issa Arwani3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: [email protected], [email protected], [email protected]
Abstrak
Seleksi penerimaan mahasiswa dalam sebuah perguruan tinggi menghasilkan data yang melimpah dan
dapat dimanfaatkan untuk memperoleh informasi yang berguna bagi perguruan tinggi. Dalam penelitian
ini, data mahasiswa yang diambil oleh penulis adalah nomor induk mahasiswa, jalur masuk perguruan
tinggi, pendapatan orang tua dan indeks prestasi komulatif. Penggalian informasi pada sebuah data
berukuran besar tidak dapat dilakukan dengan mudah dan hal ini bisa dilakukan dengan teknologi data
mining. Data mining yang disebut juga dengan Knowledge Discovery in Database adalah sebuah proses
secara otomatis atas pencarian data didalam sebuah memori yang amat besar dari data untuk mengetahui
pola dengan menggunakan alat seperti klasifikasi hubungan (association) atau pengelompokan
(clustering). Dengan menggunakan metode k-means clustering, peneliti mencoba untuk mengekstrak
pengetahuan yang bisa menggambarkan kinerja prestasi akademik mahasiswa pada akhir semester dan
hasil dari penelitian tersebut menunjukkan bahwa dari semua jumlah cluster yang dimasukkan, untuk
cluster yang berjumlah 3 memiliki nilai silhouette coefficient yang paling mendekati nilai Si = 1, yaitu
dengan nilai 0,108690751. Selain itu pendapatan orang tua tidak mempengaruhi tingkat kinerja
akademik mahasiswa dan nilai akademis mahasiswa yang masuk melalui jalur reguler & jalur prestasi
akademik mempunyai nilai IPK rata-rata tertinggi. Sehingga, pihak fakultas dapat mempertimbangkan
untuk lebih memprioritaskan penerimaan mahasiswa baru melalui jalur reguler & prestasi akademik.
Kata Kunci : data mahasiswa, data mining, k-means clustering, jalur penerimaan mahasiswa
Abstract
Selection of student acceptance in a college produces abundant data and can be utilized to obtain useful
information for the college. In this study, student data taken by the authors are Student ID Number,
University Entrance Path, Parent Revenue and Student Achievement Index. Excavation of information
on a large data could not be done easily and this can be done with data mining technology. Data mining
also known as Knowledge Discovery in Database is an automated process of searching data in a very
large memory of data to know patterns by using tools such as association or clustering. By using kmeans clustering method, the researcher tries to extract the knowledge which can depict the
performance of student achievement at the end of semester and the result of the research indicates that
of all cluster quantities inserted, for clusters amounting to 3 (three) has the value of silhouette coefficient
closest to the value of š‘†š‘– = 1, that is with the value of 0.108690751. In addition, parental income does
not affect the level of academic performance of students and the academic value of students who enter
through the regular path & achievement paths have the value of the highest average GPA. Thus, the
faculty can consider to prioritize the acceptance of new students through regular channels &
achievement contract.
Keywords : student data, data mining, k-means clustering, student admission path
mulai dari bidang industri, kesehatan, ekonomi,
pendidikan, ilmu dan teknologi serta berbagai
bidang kehidupan lainnya.
Seperti halnya seleksi penerimaan
mahasiswa dalam sebuah perguruan tinggi,
1. PENDAHULUAN
Dalam berbagai bidang kehidupan saat ini,
banyak sekali data yang dihasilkan oleh
teknologi informasi yang semakin canggih,
Fakultas Ilmu Komputer
Universitas Brawijaya
2243
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
pada umumnya perguruan tinggi akan
memberikan soal-soal test yang harus calon
mahasiswa selesaikan, yang bertujuan untuk
mengetahui kemampuan dan pengetahuan
mereka. Setelah tahap seleksi selesai dan calon
mahasiswa diterima dan mengalami proses
belajar mengajar, maka akan diketahui prestasi
mahasiswa disetiap akhir semester. Hal ini akan
terjadi secara berulang pada sebuah perguruan
tinggi setiap tahunnya, sehingga akan
menghasilkan banyak sekali data mahasiswa
yang apabila diolah akan dapat memberikan
informasi yang bermanfaat bagi pihak
perguruan tinggi.
Institusi pendidikan adalah bagian penting
dalam masyarakat dan memainkan peranan
yang penting dalam pertumbuhan dan
pembangunan suatu bangsa. Selain itu institusi
pendidikan juga berperan untuk mengontrol dan
melakukan evaluasi serta prediksi prestasi
akademik siswanya. Prestasi akademik siswa
dapat didasarkan pada berbagai faktor seperti
kepribadian, lingkungan sosial serta psikologi
dari siswa tersebut. Educational data mining
mengimplementasikan algoritma data mining
untuk menemukan pengetahuan dari data yang
berasal dari domain pendidikan. Hasil
penelitian ini menyebutkan bahwa data mining
dapat digunakan sebagai tool pengambilan
suatu keputusan yang dapat menemukan suatu
pengetahuan dari sejumlah besar data yang bisa
digunakan dalam menilai prestasi siswa
(Tiwari, M. Singh, R. Vimal, N. 2013). Dalam
penelitian ini, data mahasiswa yang diambil
oleh penulis adalah jenis kelamin, angkatan,
asal sekolah (SMA / Sederajat), jalur masuk
perguruan tinggi, pekerjaan orang tua,
penghasilan orang tua, penghasilan tambhan
orangtua, asal daerah, jumlah mata kuliah yang
diulang, jumlah mata kuliah semester pendek
yang diambil mahasiswa, indeks prestasi lulus
dan beban per semster, jumlah SKS lulus dan
beban per semester, jumlah mata kuliah lulus
dan beban per semester, Indeks prestasi
komulatif lulus dan beban per semester, jumlah
SKS komulatif lulus dan beban per semester,
jumlah mata kuliah komulatif lulus dan beban
per semester, jumlah kehadiran mahasiswa per
semester.
Penggalian informasi pada sebuah data
berukuran besar tidak dapat dilakukan dengan
mudah dan salah satu alat bantu yang dapat
digunakan untuk menemukan pengetahuan /
informasi yang tersembunyi dalam database
adalah teknologi data mining. Data mining
Fakultas Ilmu Komputer, Universitas Brawijaya
2244
merupakan proses pengekstrakan informasi dari
jumlah kumpulan data yang besar dengan
menggunakan algoritma dan teknik gambar
statistic, mesin pembelajaran dan sistem
manajemen database (HAN, J & Kamber, M.
2001).
Data mining yang disebut juga dengan
Knowledge Discovery in Database (KDD)
adalah sebuah proses secara otomatis atas
pencarian data didalam sebuah memori yang
amat besar dari data untuk mengetahui pola
dengan menggunakan alat seperti klasifikasi
hubungan (association) atau pengelompokan
(clustering). Untuk itu data mining dapat
digunakan untuk mengevaluasi kinerja siswa.
Dengan menggunakan algoritma yang ada
dalam data mining, dicoba untuk mengekstrak
pengetahuan yang bisa menggambarkan kinerja
siswa pada akhir semester. Hasil ekstraksi ini
dapat digunakan untuk membantu dalam
mengidentifikasi siswa yang mungkin akan
putus sekolah dan membantu siswa yang
membutuhkan
perhatian
khusus
serta
mengantisipasi keadaan tersebut dengan
memberikan seorang profesor yang tepat untuk
membantu menasehati dan membimbing para
siswa (Chuchra, R. 2012).
Pada penelitian ini analisa data mining
dilakukan dengan menggunakan metode kmeans clustering. Adapun alasan penggunaan
metode k-means clustering adalah karena
metode
k-means
clustering
mampu
mengelompokkan data mahasiswa dengan
kriteria yang bisa menjadi acuan untuk
mengetahui bagaimana kinerja akademik
mahasiswa tersebut. K-means clustering juga
mampu mengelompokkan data dengan
memaksimalkan kemiripan data antar cluster
dan meminimalkan kemiripan data antar
cluster, dimana ukuran kemiripan yang
digunakan dalam cluster adalah fungsi jarak,
sehingga pemaksimalan kemiripan data
didapatkan berdasarkan jarak terpendek antara
data terhadap titik pusat. Dengan menggunakan
metode ini, data-data yang telah didapatkan
dapat dikelompokkan kedalam beberapa cluster
berdasarkan kemiripan dari data-data tersebut,
sehingga data-data yang memiliki karakteristik
yang sama akan dikelompokkan dalam satu
cluster dan yang memiliki karakteristik yang
berbeda akan dikelompokkan dalam cluster lain
yang memiliki karakteristik yang sama (Ong, J
O. 2013).
Dengan adanya pengelompokan data
tersebut diharapkan dapat mengetahui kinerja
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
akademik mahasiswa berdasarkan latar
belakang pendapatan orang tua dan jalur masuk
perguruan tinggi.
2. LANDASAN KEPUSTAKAAN
2.1 Kajian Pustaka
Berikut
beberapa
penelitian
yang
digunakan penulis sebagai bahan referensi
dalam melakukan penelitian.
Penelitian O. J et al., (2010), Shovon &
Haque, (2012) yang berjudul “Application of kMeans Clustering algorithm for prediction of
Students’ Academic Performance” dan
“Prediction of Student Academic Performance
by an Application of K-Means Clustering
Algorithm” menunjukkan bahwa clustering
dapat digunakan untuk memonitor kinerja
mahasiswa di suatu universitas. Metode ini juga
dapat digunakan untuk memonitor kinerja per
semester dalam meningkatkan prestasi
akademik. Penelitian yang dilakukan O. J et al.,
(2010) menggunakan 79 data mahasiswa untuk
uji coba clustering pada Universitas Nigeria,
sedangkan penelitian Shovon & Haque, (2012)
menggunakan 60 data mahasiswa untuk uji
coba penelitiannya.
Penelitian Arora & Badal, (2013) yang
berjudul “Evaluating Student’s Performance
Using K-Means Clustering”, menggunakan
algoritma k-means karena dinilai dapat dengan
cepat dan efisien membantu memantau
perkembangan kinerja mahasiswa di suatu
instansi pendidikan. Jumlah data yang dianalisis
adalah 118 data siswa untuk mendapatkan nilai
rata-rata mahasiswa tiap semester. Metode ini
dapat memainkan peran penting bagi analisis
akademik untuk menentukan alasan penurunan
kinerja mahasiswa selama semester tertentu
sehingga dapat diambil tindakan untuk
meningkatkan kinerja tersebut di semester
berikutnya.
2.2 Mahasiswa
Mahasiswa adalah seseorang yang sedang
dalam proses menimba ilmu ataupun belajar
dan terdaftar sedang menjalani pendidikan pada
salah satu bentuk perguruan tinggi yang terdiri
dari akademik, politeknik, sekolah tinggi,
institut dan universitas (Hartaji, D A. 2012).
Seorang mahasiswa bisa diartikan sebagai
seorang individual yang sedang menimba ilmu
pada tingkatan perguruan tinggi negeri maupun
swasta ataupun lembaga yang lain yang setara
Fakultas Ilmu Komputer, Universitas Brawijaya
2245
dengan perguruan tinggi. Seorang mahasiswa
dinilai mempunyai kepandaian dalam berpikir,
tingkat intelektualitas yang tinggi dan
mempunyai persiapan yang matang dalam
melakukan
sesuatu.
Setiap
mahasiswa
cenderung memiliki sifat berpikir secara kritis
dan bertindak dengan cepat dan tepat,
merupakan suatu prinsip yang saling
melengkapi satu sama lain (Santoso, B. 2007).
Mahasiswa digolongkan dalam tingkatan
perkembangan pada usia 18 sampai dengan 25
tahun. Tingkatan tersebut dikelompokkan pada
masa remaja akhir sampai dengan masa dewasa
awal serta dapat diamati dari segi
perkembangan, pemantapan pendirian hidup
merupakan tugas perkembangan pada usia
mahasiswa (Yusuf, S. 2012).
Berdasarkan uraian tersebut penulis dapat
menyimpulkan bahwa mahasiswa adalah
seseorang yang sedang menimba ilmu dan
masih berusia 18 sampai dengan 25 tahun serta
terdaftar dan menjalani pendidikannnya di
perguruan tinggi baik dari universitas,
politeknik, akademik, institut dan sekolah
tinggi. Sedangkan untuk subyek dalam
penelitian ini adalah menggunakan mahasiswa
yang masih aktif dan tercatat sebagai
mahasiswa aktif dan berusia sekitar 23 tahun.
2.3 Pendapatan
Pendapatan adalah segala penerimaan setiap
orang dalam bentuk apapun sebagai imbalan
jasanya didalam suatu proses produksi. Imbalan
jasa tersebut dapat berupa bunga, laba, upah
serta hasil sewa sesuai dengan faktor produksi
pada yang dilibatkan dalam suatu proses
produksi (Yuliana, S. 2007).
Pendapatan merupakan sejumlah dana yang
didapatkan melalui pemanfaatan faktor
produksi yang dimiliki. Meliputi : (Suyanto.
2000)
1. Menyewakan sesuatu terhadap orang lain,
seperti menyewakan alat transportasi, ruko,
kebun, dsb.
2. Hasil gaji atau upah dari hasil bekerja
terhadap orang lain atau bekerja sebagai
pegawai negeri.
3. Hasil dari bunga dari hasil membeli saham
atau mendapatkan bunga dari bank.
4. Hasil usaha sebagai wiraswasta dapat
berupa menjadi pedagang, petani maupun
pengusaha.
Dari semua uraian di atas dapat diketahui
bahwa pendapatan adalah suatu gaji, upah,
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
2246
tunjangan, baik kesehatan maupun pensiunan
yang diterima selama kurun waktu tertentu yang
diperoleh dari imbalan jasa dari suatu
perusahaan.
clustering
dan
non-hierarchical
data
clustering. Algoritma k-means merupakan
bagian dari metode non-hierarchical data
clustering.
2.4 Clustering
2.5 Algoritma K-Means
Clustering pada suatu data pada dasarnya
adalah suatu tahapan untuk menggolongkan
suatu himpunan data yang atribut kelas belum
dideskripsikan, berdasarkan kosepnya prinsip
clustering adalah untuk memaksimalkan dan
meminimalkan kemiripan intra kelas. Misalnya,
ada suatu himpunan obyek, langkah pertama
dapat di klasterisasi menjadi beberapa
himpunan kelas kemudian menjadi sebuah
himpunan beraturan sehingga dapat diturunkan
berdasarkan klasifikasi tertentu.
Cluster dapat juga diartikan sebagai
kelompok atau himpunan atau bagian atau
golongan. Oleh hal itu analisa clustering pada
dasarnya akan menghasilkan sejumlah cluster
(kelompok / golongan / himpunan). Sebelum
melakukan
analisa
perlu
diterapkan
pemahaman bahwa suatu himpunan data
tertentu sebenarnya memiliki kemiripan di
antara anggotanya tersebut. Oleh karena itu,
setiap anggota-anggota yang memiliki
kemiripan
karasteristik
dapat
untuk
dikelompokkan di dalam satu atau lebih dari
suatu kelompok (Santoso, B. 2007).
Analisa clustering adalah salah satu dari
teknik multivariat metode interdependensi
(saling ketergantungan). Oleh sebab itu dalam
analisa clustering antara variabel bebas
(independent variable) dan variabel terikat
(dependent variable) tidak ada pembedaan satu
dengan yang lain (Nuningsih, S. 2010). Analisa
clustering merupakan suatu proses yang
digunakan sebagai metode penggabungan
observasi ke dalam kelompok, sehingga :
a. Setiap himpunan homogen akan memiliki
karakteristik tertentu. Dengan demikian
observasi di dalam setiap kelompok sama
dengan observasi lain di dalam satu
kelompok yang sama.
b. Setiap himpunan seharusnya berbeda dari
himpunan lain. Dengan demikian observasi
dalam himpunan satu seharusnya berbeda
dari observasi dalam himpunan lain.
Data clustering merupakan bagian dari
metode data mining yang mempunyai sifat tidak
berarahan
(unsupervised).
Dalam
pengelompokan data ada dua jenis metode yang
sering digunakan yaitu hierarchical data
Algoritma k-means adalah bagian dari
metode non-hierarchical data clustering yang
bertujuan untuk membagi-bagi data ke dalam
bentuk satu atau lebih kelompok. Metode ini
membagi-bagi data ke dalam kelompok dengan
pemahaman setiap data yang mempunyai
karakteristik yang sama dikelompokkan ke
dalam satu kelompok yang sama dan begitu
pula terhadap setiap data yang sifat
karakteristiknya berbeda akan dikelompokkan
ke dalam kelompok yang lain.
Data clustering yang menggunakan metode
k-means ini secara umum dilakukan dengan
algoritma dasar sebagai berikut:
1. Menentukan jumlah cluster.
2. Mengasumsikan pusat cluster.
3. Menghitung jarak objek pada centroid.
4. Mengalokasikan objek dengan patokan
jarak terkecil.
5. Menghitung titik pusat baru.
6. Menghitung kembali jarak objek pada
centroid sampai objek tidak perpindahpindah cluster.
Fakultas Ilmu Komputer, Universitas Brawijaya
2.5.1 Perkembangan Penerapan K-Means
Perkembangan metode k-means meliputi:
1. Metode distance space digunakan sebagai
perhitungan jarak antara suatu data dengan
centroid.
Metode
distance
space
telah
diimplementasikan dalam menghitung
jarak (distance) antara suatu data dengan
titik pusat. termasuk di antaranya L1 Norm
(Manhattan distance), L2 Norm (Euclidean
distance) dan Lp (Minkowski distance).
Penghitungan jarak di antara dua titik
š‘„1 dan š‘„2 pada manhattan distance space
adalah sebagai berikut:
š·š‘–1 (š‘„2 , š‘„1 ) = ||š‘„1 − š‘„2 ||1
ā“
=∑
|š‘„2š‘— − š‘„1š‘— |
š‘—=1
dimana:
š·š‘–1 : jarak data i pertama
š‘„1 : nilai data pertama
š‘„2 : nilai data kedua
p : dimensi data
(1)
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
| . | : nilai absolut
2.6 Silhouette Coefficient
Sedangkan untuk perhitungan jarak di
antara dua titik š‘„1 dan š‘„2 pada L2
Euclidean distance space, adalah sebagai
berikut:
š·š‘–1 (š‘„2 , š‘„1 ) = ||š‘„1 − š‘„2 ||1
ā“
= √∑
dimana:
š·š‘–1
š‘„1
š‘„2
p
|.|
2
(š‘‹2š‘— − š‘‹1š‘— )
(2)
š‘—=1
: jarak data i pertama
: nilai data pertama
: nilai data kedua
: dimensi data
: nilai absolut
Dari beberapa jenis metode pengukuran
jarak
metode
Euclidean
sering
dipergunakan karena dalam perhitungan
pada metode tersebut jarak terpendek antara
dua titik yang diperhitungkan, sedangkan
untuk metode pengukuran jarak dengan
menggunakan metode manhattan sering
digunakan karena kemampuannya dalam
mendeteksi keberadaan objek yang
memiliki karakteristik yang unik dengan
lebih baik.
2. Metode pengelomokan data kembali ke
dalam setiap kelompok.
Pada dasarnya terdapat dua cara
pengelompokan data kembali ke dalam
masing-masing kelompok pada saat proses
iterasi clustering. Cara tersebut adalah
dengan menggunakan metode hard kmeans dan fuzzy k-means. Perbedaan kedua
metode ini adalah terletak pada asumsi yang
digunakan
sebagai
dasar
pendistribusiannya. Pengalokasian data
dalam metode hard k-means didasarkan
pada perbandingan jarak antar data dan titik
pusat pada setiap kelompok yang ada. Data
didistribusikan berulang-ulang secara tegas
ke dalam kelompok yang memiliki titik
pusat terdekat dengan data tersebut.
Pengalokasian data pada setiap kelompok
dapat dirumuskan menjadi:
š‘Žš‘–š‘˜ = {10 d = min{D(š‘„š‘˜ , Vš‘– )
dimana:
š‘Žš‘–š‘˜ :
Vš‘–
:
2247
(3)
Metode silhouette coefficient berfungsi
untuk menguji kualitas dari cluster yang
dihasilkan serta sebagai metode untuk
pengesahan suatu cluster yang menggabungkan
antara metode cohesion dan metode separation.
Untuk perhitungan nilai silhoutte coefisient
dibutuhkan nilai jarak antar objek dengan
menggunakan metode euclidean distance.
Tahapan-tahapan dalam menentukan nilai
silhoutte coeffisien adalah sebagai berikut :
1. Pada setiap objek š‘– dihitung nilai rata-rata
titik satu dengan semua objek yang berada
dalam satu cluster. Maka akan diperoleh
nilai rata-rata yang disebut dengan ai .
2. Pada setiap objek š‘– dihitung nilai minimal
jarak rata-rata dari titik satu ke titik yang
lain yang berbeda cluster. Maka akan
diperoleh nilai rata-rata minimum yang
disebut dengan bi .
3. Kemudian setelah semua nilai diketahui
maka nilai silhoutte coefisien dapat
ditentukan dengan menggunakan rumus
sebagai berikut:
š‘ −š‘Ž
š‘–
Si = max š‘–{š‘Ž −š‘
}
š‘–
š‘–
dimana :
Si : nilai silhoutte coefisien.
š‘Žš‘– : rata-rata jarak titik satu dengan
semua data yang berada dalam satu
cluster.
š‘š‘– : minimal jarak rata-rata dari titik satu
ke titik yang lain yang berbeda
cluster.
Hasil perhitungan nilai silhoutte coeffisien
memiliki range antara -1 hingga 1. Hasil dapat
dikatakan baik apabila bernilai positif, hal ini
berarti titik sudah berada di dalam cluster yang
tepat. Sedangkan jika nilainya negative ini
menandakan terjadinya overlapping sehingga
titik berada di antara dua cluster. Nilai silhoutte
berdasarkan teori Kaufman dan Rousseeuw :
1. Strong Stucture
0,7 < š‘†š¶ ≤ 1
Fakultas Ilmu Komputer, Universitas Brawijaya
(5)
2. Medium Structure
0,5 < š‘†š¶ ≤ 0,7
(6)
3. Weak Structure
0,25 < š‘†š¶ ≤ 0,5
Keanggotaan data ke-k ke
kelompok ke-i
Nilai titik pusat kelompok ke-i
(4)
(7)
4. Nostructure
š‘†š¶ ≤ 0,25
(8)
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
3. METODOLOGI
Metodologi penelitian ini membahas
tentang metode dan alur penelitian yang
diterapkan dan yang menjadi dasar pada
tahapan implementasi dan pengujian sistem.
Berikut dijelaskan mengenai uraian tentang
penelitian dalam bentuk diagram alir seperti
ditunjukkan pada Gambar 1.
Mulai
Pengumpulan Data
Praproses
Cleaning data &
Konversi Data
Clustering (Algoritma K-Means)
Silhouette Coefficient
2248
d. Mengalokasikan objek dengan patokan
jarak terkecil.
e. Menghitung titik pusat baru.
f. Menghitung kembali jarak objek pada
centroid sampai objek tidak perpindahpindah cluster.
3.4 Evaluasi
Tahap evaluasi ini menunjukkan ketepatan
sebuah pengelompokkan, seberapa baik proses
pengelompokkan dan kualitas kelompok yang
terbentuk. Terdapat beberapa macam ukuran
ketepatan untuk mengetahui kualitas suatu
pengelompokkan. Salah satu ukuran ketepatan
yang dapat digunakan dalam menentukan
ketepatan pengelompokkan deret waktu adalah
dengan metode silhouette coefficient.
Evaluasi
4. IMPLEMENTASI
Selesai
Gambar 1. Diagram Alir Penelitian
3.1 Pengumpulan Data
Data yang dibutuhkan untuk penelitian
yaitu data mahasiswa dan data dasar. Untuk
data mahasiswa menggunakan data mahasiswa
tahun masuk ajaran 2012 selama lima semester
dengan jumlah data sebanyak 90.
Sembilan puluh data mahasiswa ini terdiri
dari data dasar dan data akademik, dimana
kedua jenis data ini akan menjadi fitur untuk
proses pengklasifikasian kinerja akademik
mahasiswa.
3.2 Praproses
Pada tahapan ini untuk mendapatkan suatu
data yang baik maka dilakukan tahapan seleksi
data. Seleksi data yang dilakukan yaitu merubah
beberapa data yang bertujuan memudahkan
pemahaman dengan mengacu pada kesetabilan
data, data yang hilang dan pengulangan pada
data. Sedangkan data nominal dirubah kedalam
bentuk angka dengan beberapa tahapan supaya
dapat diolah.
3.3 Clustering (Algoritma K-Means)
Berikut adalah alur tahapan dari metode
Algoritma k-means dalam menentukan
klasterisasi kinerja mahasiswa yang terbagi atas
beberapa tahapan, yaitu :
a. Menentukan jumlah cluster.
b. Mengasumsikan pusat cluster.
c. Menghitung jarak objek pada centroid.
Fakultas Ilmu Komputer, Universitas Brawijaya
4.1 Spesifikasi Software & Hardware
Kriteria software atau perangkat lunak yang
digunakan
untuk
mengimplementasikan
algoritma k-means ditunjukkan pada Tabel 1.
Tabel 1. Spesifikasi Software
Nama Software
Sistem Operasi
Bahasa
Pemrograman
Tools
Server
DBMS
Spesifikasi
Windows 7 Professional
32-bit
Java
NetBeans IDE 7.3.1
XAMPP 2.5
MySQL
Kriteria hardware atau perangkat keras
yang digunakan untuk mengimplementasikan
algoritma k-means ditunjukkan pada Tabel 2.
Tabel 2. Spesifikasi Hardware
Nama
Hardware
Processor
Memory RAM
Hardisk
Display
Spesifikasi
Intel® Core™ i3-2348M (2.3ghz,
3MB L3 cache)
2 GB
300 GB
Intel® HD Graphics 3000
4.2 Implementasi Algoritma
Implementasi algoritma yang digunakan
dalam penentuan klasterisasi kinerja akademik
mahasiswa, yang meliputi hal berikut :
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
a. Implementasi
Algoritma
Proses
Pengolahan Data
b. Implementasi Algoritma K-Means
c. Implementasi Algoritma Proses Clustering
d. Implementasi Algoritma Proses Pengujian
4.3 Implementasi Antarmuka
Implementasi antarmuka sistem mengacu
pada perancangan yang telah dilakukan pada
bab sebelumnya. Tampilan antarmuka sistem
yang diimplementasikan meliputi tampilan
halaman home, halaman algoritma, halaman
proses clustering, dan halaman proses
pengujian.
4.3.1
2249
clustering dilakukan. Didalam halaman ini
terdapat fitur form input jumlah cluster, fitur
tabel yang menampilkan jumlah titik pusat
beserta data titik pusat tersebut dan fitur
tampilan hasil proses clustering. Pada halaman
ini terdapat 2 tombol, yaitu tombol proses yang
berfungsi sebagai tombol eksekusi perhitungan
dan tombol clear yang berfungsi menghapus
atau membersihkan field form input jumlah
cluster. Berikut adalah implementasi dari
antarmuka halaman Proses Clustering seperti
yang ditunjukkan pada Gambar 4.
Halaman Home
Antarmuka halaman home merupakan antar
muka yang menampilkan data mahasiswa
sekaligus pengolahan data terhadap data
mahasiswa. Berikut adalah implementasi dari
antarmuka halaman Home seperti yang
ditunjukkan pada Gambar 2.
Gambar 4. Implementasi Halaman Proses
Clustering
4.3.4
Gambar 2. Implementasi Halaman Home
4.3.2
Halaman Proses Pengujian
Antarmuka halaman proses Pengujian
merupakan halaman dimana pemprosesan
Pengujian dilakukan. Didalam halaman ini
terdapat fitur form input jumlah cluster dan fitur
tabel hasil pengujian terhadap jumlah cluster
dengan nilai silhouette. Berikut adalah
implementasi dari antarmuka halaman Proses
Pengujian seperti ditunjukkan pada Gambar 5.
Halaman Algoritma
Antarmuka halaman algoritma merupakan
antar muka yang menampilkan diagram alir
algoritma
k-means.
Berikut
adalah
implementasi dari antarmuka halaman
algoritma seperti yang ditunjukkan pada
Gambar 3.
Gambar 5. Implementasi Halaman Proses
Pengujian
5 PENGUJIAN DAN ANALISIS
5.1 Pengujian
Gambar 3. Implementasi Halaman Algoritma
4.3.3
Halaman Proses Clustering
Antarmuka halaman proses clustering
merupakan halaman dimana pemprosesan
Fakultas Ilmu Komputer, Universitas Brawijaya
Pengujian dilakukan terhadap semua data
mahasiswa dengan memasukkan beberapa titik
pusat yang kemudian dihitung nilai silhouette
coefficien dari setiap titik pusat yang
dimasukkan tersebut. Berikut adalah tabel
proses pengujian terhadap data mahasiswa
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
dengan memasukkan tujuh cluster yang
berbeda seperti yang ditunjukkan pada Tabel 3.
Tabel 3. Hasil Pengujian
Jumlah Cluster
3
4
5
6
7
8
9
Silhouette Coefficient
0,108690751
-0,06494322
-0,079308
-0,08930547
-0,06812677
-0,07658779
-0,10394574
Dari tabel data hasil pengujian diatas
dapat dipetakan menjadi grafik hasil pengujian
seperti ditunjukkan pada gambar 6.
Grafik Hasil
Pengujian
0,10869
0751
0,06494
0,06812
0,07658
0,07930
0,08930
0,10394
3 3217
4
5
6
7
8
9
8003 547 6768 7792 5736
Nilai Si
Gambar 6. Grafik Hasil Pengujian
5.2 Analisis
Analisa yang dilakuan adalah dengan
memilih salah satu dari ketujuh inputan yang
dimasukkan tersebut dengan melihat nilai
silhouette coefficien yang terbaik. Nilai
silhoutte dapat dikatakan baik apabila bernilai
positif, hal ini berarti titik sudah berada di
dalam cluster yang tepat. Sedangkan jika
nilainya negative ini menandakan terjadinya
overlapping sehingga titik berada di antara dua
cluster.
Pada pengujian diatas bisa dilihat dan
diamati bahwa dari semua jumlah cluster yang
dimasukkan untuk cluster yang berjumlah 3
(tiga) memiliki nilai silhouette coefficien yang
paling mendekati nilai Si = 1, yaitu dengan nilai
0,108690751.
Pada saat cluster terbagi menjadi 3 titik
pusat diketahui bahawa:
1. Pada hasil perhitungan di cluster 1, terlihat
bahwa karakteristik mahasiswa pada cluster
1 didominasi oleh mahasiswa dengan jalur
masuk perguruan tinggi melalui Minat dan
Kemampuan.
Fakultas Ilmu Komputer, Universitas Brawijaya
2250
Cluster 1 terdiri dari 21 mahasiswa, dengan
deskripsi sebagai berikut :
a. Jalur masuk perguruan tinggi :
1) Minat dan kemampuan : 9
mahasiswa
2) UB IV : 7 mahasiswa
3) Jalur Prestasi Non Akademik : 5
mahasiswa
b. Pendapatan orang tua :
1) ≤1jt : 2 mhs
2) >1jt s/d ≤2jt : 2 mhs
3) >2jt s/d ≤3jt : 3 mhs
4) >3t s/d ≤4jt : 2 mhs
5) >4jt s/d ≤5jt : 2 mhs
6) >6jt s/d ≤7jt : 2 mhs
7) >7jt s/d ≤8jt : 2 mhs
8) >8jt s/d ≤9jt : 1 mhs
9) >10jt : 5 mhs
c. Dengan rata-rata nilai IPK : 2.731
2. Pada hasil perhitungan di cluster 2, terlihat
bahwa karakteristik mahasiswa pada cluster
2 tidak ada jalur masuk perguruan tinggi
yang mendominasi.
Cluster 2 terdiri dari 7 mahasiswa, dengan
deskripsi sebagai berikut :
a. Jalur masuk perguruan tinggi :
1) Kemitraan Instansi : 2 mhs
2) Kemitraan Daerah : 2 mhs
3) Alih Program : 2 mhs
4) Program Khusus Penyandang
Disabilitas : 1 mhs
b. Dari pendapatan orang tua :
1) ≤1jt : 1 mhs
2) >1jt s/d ≤2jt : 1 mhs
3) >2jt s/d ≤3jt : 1 mhs
4) >3t s/d ≤4jt : 1 mhs
5) >10jt : 3 mhs
c. Dengan rata-rata nilai IPK : 2.8775
3. Pada hasil perhitungan di cluster 3, terlihat
bahwa karakteristik mahasiswa pada cluster
3 terdiri dari mahasiswa yang masuk
melalui jalur Reguler dan Jalur Prestasi
Akademik.
Cluster 3 terdiri dari 40 mahasiswa, dengan
deskripsi sebagai berikut :
a. Jalur masuk perguruan tinggi :
1) Jalur Prestasi Akademik: 20 mhs
2) Reguler : 20 mhs
b. Dari pendapatan orang tua :
1) ≤1jt : 8 mhs
2) >1jt s/d ≤2jt : 5 mhs
3) >2jt s/d ≤3jt : 6 mhs
4) >3t s/d ≤4jt : 4 mhs
5) >4jt s/d ≤5jt : 4 mhs
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
6) >5jt s/d ≤6jt : 1 mhs
7) >6jt s/d ≤7jt : 3 mhs
8) >7jt s/d ≤8jt : 3 mhs
9) >8jt s/d ≤9jt : 1 mhs
10) >9jt s/d ≤10jt : 2 mhs
11) >10jt : 3 mhs
c. Dengan rata-rata nilai IPK : 3.471
6
KESIMPULAN
Kesimpulan yang dapat diambil dari
penelitian tentang implementasi algoritma kmeans dalam menentukan klasterisasi kinerja
akademik mahasiswa adalah sebagai berikut:
1. Dari hasil 7 kali pengujian terhadap jumlah
titik pusat dengan nilai 3, 4, 5, 6, 7, 8 dan 9
titik pusat, yang berjumlah 3 memiliki nilai
silhouette coefficien yang paling mendekati
nilai Si = 1, yaitu dengan nilai 0,108690751.
2. Setelah proses pengolahan data, hasil
clustering menunjukkan bahwa pendapatan
orang tua tidak mempengaruhi tingkat
kinerja akademik mahasiswa.
3. Nilai akademis mahasiswa yang masuk
perguruan tinggi melalui jalur reguler dan
jalur prestasi akademik mempunyai nilai
IPK rata-rata tertinggi
DAFTAR PUSTAKA
Chuchra, Rimmy. 2012, Use of Data Mining
Techniques for The Evaluation of
Student Performance : A Case Study,
International Journal of Computer
Science and Management Research, Vol
1.
Han, Jiawei; & Kamber, Micheline. 2001. Data
Mining Concepts and Techniques Second
Edition. San Francisco: Morgan
Kauffman
Hartaji, Damar Adi. 2012. Motivasi Berprestasi
Pada Mahasiswa yang Berkuliah Dengan
Jurusan Pilihan Orang tua. Fakultas
Psikologi Universitas Gunadarma.
Nuningsih, S. 2010. K-Means Clustering (Studi
Kasus Pada Data Pengujian Kualitas
Susu di Koperasi Peternakan Bandung
Selatan. Skripsi FPMIPA UPI, Bandung.
Ong,
Johan Oscar. 2013. Implementasi
Algoritma K-Means Clustering Untuk
Menentukan
Strategi
Marketing
President University(12):10-20.
Fakultas Ilmu Komputer, Universitas Brawijaya
2251
Santoso, Budi. 2007. Data Mining: Teknik
Pemanfaatan Data untuk Keperluan
Bisnis. Graha Ilmu, Yogyakarta.
Suyanto. 2000. IPS Ekonomi I. Gelora Aksara
Pratama. Jakarta.
Tiwari, M. Singh, R. Vimal, N. 2013. An
Empirical Study of Data Mining
Techniques for Predicting Student
Performance in Higher Education,
IJCSMC, Vol. 2, Issue 2.
Yuliana, Sudremi. 2007. Pengetahuan Sosial
Ekonomi Kelas X. BumiAksara. Jakarta.
Yusuf, S. 2012. Psikologi Perkembangan Anak
dan Remaja. Remaja Rosdakarya.
Bandung.
Download