Student Clustering Based on Academic Using K

advertisement
Student Clustering Based on Academic Using K-Means Algoritms
Hironimus Leong, Shinta Estri Wahyuningrum
Faculty of Computer Science, Faculty of Computer Science Unika Soegijapranata
[email protected]
Abstract
One goal of clustering data mining is to find a cluster of a particular data modeling. By modeling
the data, it can provide more description of the data being analyzed and can be visualized in
graphical form. One of the methods used in data mining to search for data modeling is to use KMeans algorithm analysis. K-Means algorithm is used to find groupings of data with specific
points, called the centroid. By grouping the data, then large amounts of data, grouped in a simpler
visualization. The final results can be used as Decision Support System.
Keyword: K-Means Algoritms, Data Mining, Clustering
1. Pendahuluan
Sistem pembelajaran di perguruan
tinggi dibangun berdasarkan perencanaan
yang relevan dengan tujuan pendidikan yang
ingin dicapai. Sehingga perlu diterapkan
berbagai strategi dan teknik yang menunjang
pengembangan mahasiswa untuk berpikir
kritis, bereksplorasi, berkreasi dalam
memanfaatkan
berbagai
sumber
pengetahuan.
Salah
satu
proses
dalam
pengembangan sistem pembelajaran tersebut
adalah pengembangan dan pembaharuan
proses dan kegiatan perkuliahan antara dosen
dan mahasiswa. Keseluruhan pengembangan
dan pembaharuan, tertuang dalam proses
kegiatan belajar mengajar yang diatur oleh
kurikulum.
Kurikulum memberikan perangkat
rencana dan pengaturan tentang isi, bahan
kajian maupun bahan pelajaran sampai pada
cara penyampaian dan penilaian yang
digunakan
sebagai
pedoman
dalam
penyelenggaraan kegiatan belajar mengajar.
Pedoman
penilaian
kepada
mahasiswa menjadi tolak ukur bagi suatu
program studi dalam pengembangan
kurikulum dan kualitas pendidikan yang
ingin dicapai.
Penelitian
tentang
‘Student
Clustering Based On Academic Using KMeans Algorithms’ adalah penelitian yang
ingin menggambarkan proses penilaian
mahasiswa dalam bentuk analisis data
mining. Bahan analisis adalah nilai akademik
mahasiswa secara keseluruhan.
Hasil akhir yang ingin dicapai dari
penelitian
ini
adalah
penggambaran
mahasiswa secara cluster atau secara
pemodelan kelompok nilai baik indeks
prestasi komulatif (IPK) mahasiswa maupun
nilai mahasiswa pada mata kuliah-mata
kuliah tertentu dan dapat divisualisasikan
dalam bentuk tabel dan grafik.
2. Tinjauan Pustaka
2.1 Konsep Data Mining
Pengertian data mining mengacu pada
kata “menyaring” atau “menambang”
pengetahuan dari sejumlah data berukuran
besar. Berry dan Linoff mendefinisikan data
mining sebagai: “suatu proses eksplorasi dan
analisis, dengan cara otomatis atau semi
otomatis, dari sejumlah data yang besar
supaya menemukan pola dan aturan yang
sangat penting”
Umumnya data mining mempunyai
pengertian yang sama dengan istilah
“Knowledge Discovery in Databases” atau
menemukan pengetahuan dalam database.
Proses menemukan pengetahuan dalam
database menggunakan beberapa langkah
iteratif secara sekuensial yaitu sebagai
berikut:
1. Data cleaning (untuk membersihkan data
pencilan dan tidak konsisten)
2. Data integration (menggabungkan data
dari beberapa sumber data yang berbeda)
3. Data selection (mengambil data yang
relevan dari database yang akan
digunakan dalam proses analisis)
4. Data
transformation
(data
ditransformasikan atau digabungkan
dalam bentuk form untuk proses analisis)
5. Data mining (proses-proses mendasar
dengan menggunakan metode kecerdasan
buatan dalam menemukan pola-pola
yang khusus dari analisis data)
6. Pattern Evaluation (mengidentifikasikan
pola
yang
menarik
berdasarkan
pengukuran tertentu dari pengetahuan)
7. Knowledge presentation (teknik yang
digunakan
untuk
visualisasi
dan
representasi pengetahuan)
Berdasarkan fungsi dan tujuannya,
semua proses eksplorasi dalam data mining
dapat digolongkan ke dalam 2 kategori besar
yaitu proses data mining yang bersifat
deskriptif atau menjelaskan dan proses data
mining yang bersifat prediktif atau
meramalkan.
2.2 Algoritma K-Means
Algoritma K-Means adalah metode
clustering secara partisi yang membagi data
ke dalam beberapa kelompok yang berbeda
yang disebut sebagai cluster. Dalam proses
algoritma K-Means, dilakukan proses secara
iteratif dengan penentuan kelompok/cluster
dilakukan secara acak. Setiap data akan
dibagi berdasarkan jarak minimal rata-rata
data tersebut ke cluster terdekat.
Berikut
adalah
langkah-langkah
algoritma K-Means:
Tentukan jumlah cluster K yang akan
dibentuk
1. Tentukan centroid C secara acak
2. Hitunglah jarak setiap data ke masingmasing centroid menggunakan rumus
jarak antar data (euclidian distance)
d ( x, y ) 
n
 (x
i
 yi ) 2
i 1
Keterangan:
d = distance/jarak titik (X, Y)
xi = titik x data ke-i
yi = titik y data ke-i
3. kelompokkan setiap data berdasarkan
jarak terdekat data tersebut dengan setiap
centroid C. Tentukan posisi centroid C
yang baru dengan cara menghitung nilai
rata-rata dari data-data yang ada pada
centroid yang sama
 1 
C k    d i
 nk 
Keterangan:
nk adalah jumlah data dalam cluster k dan
di adalah data ke-i dalam cluster k
4. Lakukan kembali langkah 3, jika posisi
centroid baru tidak sama dengan centroid
yang lama (proses iterasi sampai kondisi
centroid ke n sama dengan centroid n-1)
3. Metodologi Penelitian
Metode
yang
digunakan
dalam
penelitian adalah metode CRISP-DM (CRoss
Industry Standard Process for Data Mining).
Metode CRISP-DM adalah standarisasi yang
berhubungan dengan proses pemodelan data
mining. Standarisasi ini tidak mengacu pada
teknologi tertentu, melainkan pada semua
tingkatan pengguna data mining untuk
menyelesaikan masalah perusahaan atau
lembaga secara umum.
Gambar 3.1 Metode CRISP-DM
Business Understanding: merupakan
fase inisialisasi awal pengembangan data
mining
yaitu
pemahaman
tentang
obyektivitas dan kebutuhan. Pemahaman
tersebut diterjemahkan ke dalam definisi
masalah yang akan diselesaikan dengan data
mining
sehingga
dapat
dirancang
perencanaan awal untuk mencapai tujuan.
Data Understanding: Fase data
understanding dimulai dengan eksplorasi
data
yang
akan
digunakan
dalam
permasalahan data mining, verifikasi dan
menemukan pengertian awal dari data yang
akan digunakan dalam proses analisis. Dari
proses-proses tersebut, maka dapat diperoleh
hal-hal menarik untuk penyusunan hipotesis
dari informasi yang tersembunyi.
Data Preparation: Hampir sebagian
besar dari proses pemodelan data mining
terfokus pada fase data preparation atau
persiapan data. Pengumpulan data, penilaian
terhadap data, konsolidasi dan pembersihan
data,
seleksi dan transformasi data
dibutuhkan dalam fase ini.
Modeling: Fase modeling adalah fase
pemilihan model analisis yang akan
diimplementasikan dalam data mining,
misalnya decision tree, neural network,
aturan asosiasi, dan lain-lain. Pemilihan
model
analisis
disesuaikan
dengan
permasalahan yang diselesaikan, bahkan
beberapa model dapat diimplementasikan
dalam penyelesaian masalah.
Evaluation: Fase evaluation atau
evaluasi adalah fase analisis terhadap model
yang digunakan, bagaimana kinerja model
terhadap analisis data yang digunakan;
apakah model yang diimplementasikan
sudah atau belum memenuhi fase pertama
Deployment:
Fase
deployment
mendefinisikan
bagaimana
model
dikembangkan dalam bentuk sistem, siapa
yang akan menggunakannya, dan seberapa
sering sistem tersebut digunakan. Terdapat 3
langkah yang ada dalam fase ini, yaitu:
Perencanaan
deployment,
Perencanaan
pengawasan dan pemeliharaan; langkah ini
penting apabila hasil dari pemodelan dalam
data mining digunakan secara periodik.
4. Hasil Penelitian dan Pembahasan
Persiapan data adalah proses awal dari
implementasi
sistem.
Dalam
proses
persiapan data, perlu dilakukan persiapan
database mahasiswa Fakultas Ilmu Komputer
yaitu sebagai berikut:
Gambar 4.1 Schema Database
Tiga tabel utama menyimpan data
tentang mahasiswa, mata kuliah dan hasil
studi mahasiswa. Dari sejumlah kolom yang
tersedia, maka diambil data yang dijadikan
bahan analisis yaitu data mahasiswa (nim
dan nama mahasiswa), data mata kuliah
(kode matakuliah, nama mata kuliah dan
besar sks) dan data hasil studi berupa nilai.
Berikut adalah contoh penerapan
algoritma clustering untuk analisis data nilai
mata kuliah dengan nama Relational
Database Management System (RDBMS).
Tabel 4.1 Data IPK dan Nilai RDBMS
nim
ipk
rdbms
09.02.0001
3.83
4.0
09.02.0002
3.90
4.0
09.02.0003
3.14
3.0
09.02.0004
3.88
4.0
09.02.0005
2.95
3.5
09.02.0007
2.76
1.0
09.02.0008
3.88
4.0
09.02.0010
2.58
1.0
09.02.0011
2.68
2.5
09.02.0013
3.76
3.5
09.02.0016
3.74
3.5
09.02.0017
3.62
3.5
09.02.0021
2.97
4.0
09.02.0029
2.73
3.0
09.02.0030
3.71
4.0
09.02.0033
3.28
3.0
09.02.0051
2.95
2.5
09.02.0052
3.42
3.0
09.02.0056
2.65
2.5
09.02.0058
2.57
2.5
Langkah pertama adalah menentukan
jumlah cluster yang akan dibentuk. Sebagai
contoh: ditentukan dua cluster secara acak
sebagai berikut:
C1 = (2.75, 3.00)
C2 = (3.25, 3.75)
Langkah kedua adalah menghitung jarak
setiap titik terhadap C1 dan C2
menggunakan rumus distance. Perhitungan
jarak data pertama dengan nim 09.02.0001
adalah sebagai berikut:
d 2 ( x, y )  (3.83  3.25) 2  (4.0  3.75) 2 0.63
Nilai minimal 0.63 sehingga data pertama
masuk ke dalam pengelompokan cluster C2
Dengan cara yang sama, maka data
selanjutnya dapat diperoleh perhitungan
jarak dan pengelompokan clusteringdalam
bentuk tabel sebagai berikut:
Tabel 4.2 Hasil Hitungan Iterasi 1
nim
ipk rdbms d1
d2 CLUSTER
09.02.0001 3.83 4.0 1.47 0.63
C2
09.02.0002 3.90 4.0 1.52 0.69
C2
09.02.0003 3.14 3.0 0.39 0.76
C1
09.02.0004 3.88 4.0 1.51 0.68
C2
09.02.0005 2.95 3.5 0.54 0.39
C2
09.02.0007 2.76 1.0 2.00 2.79
C1
09.02.0008 3.88 4.0 1.51 0.68
C2
09.02.0010 2.58 1.0 2.01 2.83
C1
09.02.0011 2.68 2.5 0.50 1.37
C1
09.02.0013 3.76 3.5 1.13 0.57
C2
09.02.0016 3.74 3.5 1.11 0.55
C2
09.02.0017 3.62 3.5 1.00 0.45
C2
09.02.0021 2.97 4.0 1.02 0.38
C2
09.02.0029 2.73 3.0 0.02 0.91
C1
09.02.0030 3.71 4.0 1.38 0.52
C2
09.02.0033 3.28 3.0 0.53 0.75
C1
09.02.0051 2.95 2.5 0.54 1.29
C1
09.02.0052 3.42 3.0 0.67 0.77
C1
09.02.0056 2.65 2.5 0.51 1.39
C1
09.02.0058 2.57 2.5 0.53 1.42
C1
Apabila data dalam bentuk tabel di atas,
digambarkan dalam bentuk grafik clustering,
maka didapatkan visualisasi sebagai berikut:
Clustering
4,5
4
3,5
3
RDBMS
d1 ( x, y )  (3.83  2.75) 2  (4.0  3.00) 2 1.47
Grafik
2,5
2
1,5
1
0,5
0
2,4
2,6
2,8
3
3,2
3,4
3,6
3,8
4
IPK
Gambar 4.2 Visualisasi Clustering Iterasi 1
Langkah terakhir adalah menentukan posisi
titik centroid yang baru dengan perhitungan
mengambil nilai rata-rata dari data yang ada pada
centroid C1 dan centroid C2.
nim
ipk
rdbms
09.02.0003
3,14
3
09.02.0007
2,76
1
09.02.0010
2,58
1
09.02.0011
2,68
2,5
09.02.0029
2,73
3
09.02.0033
3,28
3
09.02.0051
2,95
2,5
09.02.0052
3,42
3
09.02.0056
2,65
2,5
09.02.0058
2,57
2,5
C1 baru = AVERAGE (IPK, RDBMS) =
(2.88, 2.4)
nim
ipk
rdbms
09.02.0002
3,9
4
09.02.0004
3,88
4
09.02.0005
2,95
3,5
09.02.0008
3,88
4
09.02.0013
3,76
3,5
09.02.0016
3,74
3,5
09.02.0017
3,62
3,5
09.02.0021
2,97
4
09.02.0030
3,71
4
C2 baru = AVERAGE (IPK, RDBMS) =
(3.62, 3.8)
Dengan cara yang sama pada
pembahasan di atas, maka dapat dilakukan
proses untuk iterasi berikut. Hasilnya dari
iterasi berikut adalah sebagai berikut:
Tabel 4. 3 Hasil Perhitungan Iterasi 2
nim
ipk rdbms d1
d2 CLUSTER
09.02.0001 3.83 4.0
1.86 0.29
C2
09.02.0002 3.90 4.0
1.90 0.34
C2
09.02.0003 3.14 3.0
0.65 0.93
C1
09.02.0004 3.88 4.0
1.89 0.33
C2
09.02.0005 2.95 3.5
1.10 0.74
C2
09.02.0007 2.76 1.0
1.41 2.93
C1
09.02.0008 3.88 4.0
1.89 0.33
C2
09.02.0010 2.58 1.0
1.43 2.99
C1
09.02.0011 2.68 2.5
0.22 1.60
C1
09.02.0013 3.76 3.5
1.41 0.33
C2
09.02.0016 3.74 3.5
1.40 0.32
C2
09.02.0017 3.62 3.5
1.33 0.30
C2
09.02.0021 2.97 4.0
1.60 0.68
C2
09.02.0029 2.73 3.0
0.62 1.20
C1
09.02.0030 3.71 4.0
1.80 0.22
C2
09.02.0033 3.28 3.0
0.72 0.87
C1
09.02.0051 2.95 2.5
0.12 1.46
C1
09.02.0052 3.42 3.0
0.80 0.83
C1
09.02.0056 2.65 2.5
0.26 1.62
C1
09.02.0058 2.57 2.5
0.32 1.67
C1
Grafik
Clustering
4,5
4
3,5
RDBMS
3
2,5
2
1,5
1
0,5
0
2,4
2,6
2,8
3
3,2
3,4
3,6
3,8
4
IPK
Gambar 4.3 Visualisasi Clustering Iterasi 2
5. Kesimpulan dan Saran
5.1 Kesimpulan
1. Algoritma K-Means dapat digunakan
untuk mengelola nilai IPK mahasiswa
menjadi pengelompokan clustering.
Pengelompokan IPK dapat dilakukan
dengan perhitungan jarak dan nilai
centroid menggunakan rumusan dan
formula K-Means
2. Terdapat 3 analisis utama yang dapat
diselesaikan menggunakan algoritma KMeans yaitu analisis data nilai IPK
mahasiswa, analisis perbandingan nilai
mata kuliah tertentu terhadap nilai IPK
dan analisis perbandingan nilai mata
kuliah terhadap mata kuliah dalam
rumpun mata kuliah yang sama dalam
kurikulum.
3. Dengan melakukan proses analisis
terhadap nilai baik IPK maupun mata
kuliah, maka didapatkan gambaran
secara umum tentang data hasil studi
mahasiswa.
5.2 Saran
Penelitian yang dilakukan masih sebatas
dalam penggambaran data secara umum
sehingga pengembangan di masa-masa
mendatang
perlu
mempertimbangkan
pengembangan sistem pendukung keputusan
menggunakan algoritma yang sama.
Daftar Pustaka
[1] Michael J.A Berry and Gordons S.
Linnoff, “Data Mining Techniques”, Wiley
Publishing, Inc, 2004
[2] Cross Industry Standard Process for Data
Mining, http://www.crisp-dm.org/
[3] Jiawei Han dan Micheline Kamber, “Data
Mining : Concepts and Techniques”, Morgan
Kaufmann Publisher, 2001
[4] Mehmed Kantardzic, “Data MiningConcepts,
Models,
Methods,
and
Algorithms”, New John Wiley & Sons, Inc.,
2003
[5] Sean Kelly, “Data Warehouse in Action”,
John Wiley & Sons, Inc., 1997
[6] Efrem G. Mallach, “Decision Support
and Data Warehouse Systems”, McGrawHill, 2000
[7] George M. Marakas , “Modern Data
Warehousing, Mining, and Visualization Core Concepts”, Prentice Hall, Inc., 2003
Download