IMPLEMENTASI K-MEANS CLUSTERING

advertisement
Artikel Skripsi
Universitas Nusantara PGRI Kediri
IMPLEMENTASI K-MEANS CLUSTERING
UNTUK PEMBAGIAN KELAS SISWA
SKRIPSI
Diajukan Untuk Memenuhi Sebagian Syarat Guna
Memperoleh Gelar Sarjana Komputer (S.Kom)
Pada Program Studi Teknik Informatika
OLEH :
NISIA YUANITA
NPM : 12.1.03.02.0017
FAKULTAS TEKNIK (FT)
UNIVERSITAS NUSANTARA PERSATUAN GURU REPUBLIK INDONESIA
UN PGRI KEDIRI
2016
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
simki.unpkediri.ac.id
|| 1||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
simki.unpkediri.ac.id
|| 2||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
simki.unpkediri.ac.id
|| 3||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
IMPLEMENTASI K-MEANS CLUSTERING
UNTUK PEMBAGIAN KELAS SISWA
Nisia Yuanita
12.1.03.02.0017
Teknik – Teknik Informatika
nesya.yuan0129
Ahmad Bagus Setiawan, S.T., M.Kom., M.M dan Risky Aswi Ramadhani, M.Kom
UNIVERSITAS NUSANTARA PGRI KEDIRI
ABSTRAK
Dalam membagi kelas siswa sering kali dijumpai sistem yang digunakan masih manual sehingga
pembagian kelas menjadi tidak merata. Hal tersebut memungkinkan terjadi persaingan yang tidak sehat
baik antar siswa dan antar kelas sehingga dinilai kurang efektif dan efisien.
Permasalahan penelitian ini adalah (1) Bagaimana cara membangun aplikasi guna membantu
pengambilan keputusan untuk pengelompokan dan pembagian kelas siswa? (2) Bagaimana
mengimplementasikan K-Means untuk pengelompokan dan pembagian kelas siswa secara merata ?
Penelitian ini menggunakan nilai UTS siswa kelas VII semester gasal MTs Sunan Ampel yang
terdiri dari nilai bidang studi matematika, bahasa indonesia, bahasa inggris, dan ilmu pengetahuan alam.
Kesimpulan penelitian ini adalah (1) Dihasilkan sebuah aplikasi untuk pengelompokan kelas
siswa menggunakan metode k-means. (2) Dari sampel 150 siswa, 51 siswa masuk di kelas A, 50 siswa
masuk di kelas B, dan siswa dengan jumlah 49 masuk di kelas C.
Berdasarkan simpulan hasil penelitian ini direkomendasikan : (1) Jumlah sampel dan
penambahan variabel lebih di perbanyak. (2) Menggunakan perangkat lunak lain dan algoritma lain
seperti Fuzzy Clustering dan K-Means++.
Kata Kunci : Data Mining, K-Means Clustering, Pembagian Kelas.
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
simki.unpkediri.ac.id
|| 4||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
I.
pengelompokkan
LATAR BELAKANG
Ilmu
pengetahuan
dan
secara
merata
berdasarkan kriteria nilai yang sudah
teknologi mempunyai peranan yang
ditentukan.
sangat penting dalam pertumbuhan
era
globalisasi.
Hal
mendorong
tersebut
upaya-upaya
pemanfaatan
teknologi
II.
METODE
A. Data Mining
dalam
Data mining diartikan
berbagai bidang kehidupan, salah
sebagai pengekstrakan informasi
satunya adalah membangun suatu
baru
sistem yang dapat dimanfaatkan
bongkahan
untuk pembagian kelas siswa.
membantu dalam pengambilan
Pembagian kelas di MTs
Sunan
Ampel
saat
ini
masih
yang
diambil
data
dari
besar
yang
keputusan (Tan, 2006).
B. K-Means
menggunakan sistem manual. Agar
K-Means
pembagian kelas dalam tiap-tiap
salah
tingkat
maka
clustering non hierarki yang
dibutuhkan sebuah alat bantu untuk
berusaha mempartisi data yang
memudahkan
dalam
ada ke dalam bentuk satu atau
pembagian kelas siswa. Data yang
lebih cluster/kelompok. (Agusta,
dibutuhkan untuk Pembagian kelas
2007).
lebih
merata,
pekerjaan
siswa berupa nilai akademik yang
satu
merupakan
metode
data
Pengelompokan
data
meliputi bidang studi Matematika,
dengan metode K-Means secara
Bahasa Indonesia, Bahasa Inggris,
umum
dan Ilmu Pengetahuan Alam. Nilai-
algoritma sebagai berikut :
nilai tersebut diambilkan dari nilai
1.
Pilih jumlah klaster k.
UTS tingkat VII pada semester gasal.
2.
Inisialisasi k pusat cluster
dilakukan
dengan
Tujuan membangun sebuah
ini bisa dilakukan dengan
sistem untuk pembagian kelas agar
berbagai cara. Yang paling
dapat dijadikan sebagai alat bantu
sering
untuk mempermudah admin dalam
dengan cara random. Pusat-
pembagian kelas siswa. Agar sistem
pusat cluster diberi nilai
yang
awal dengan angka-angka
akan
diterapkan
digunakan
dibangun
dengan
baik,
K-Means
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
berhasil
maka
dilakukan
adalah
random.
untuk
simki.unpkediri.ac.id
|| 2||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
3.
Tempatkan
setiap
data/
kembali lagi ke langkah
obyek ke cluster terdekat.
nomor
Kedekatan
cluster
dua
ditentukan
obyek
berdasarkan
3
sampai
tidak
pusat
berubah
lagi.(Santosa, 2007).
jarak kedua objek tersebut.
Demikian juga kedekatan
CONTOH KASUS :
suatu data ke cluster tertentu
pengelompokan
ditentukan jarak antara data
menggunakan
dengan pusat cluster. Dalam
Clustering,
tahap ini perlu dihitung
beberapa data siswa kelas VII
jarak tiap data ke tiap pusat
semester gasal dengan parameter-
cluster. Jarak paling dekat
parameter sebagai berikut :
antara satu data dengan satu
Jumlah Cluster : 3
cluster
akan
Jumlah data : 12
data
Jumlah atribut : 4 meliputi bidang
tertentu
menentukan
4.
suatu
siswa
K-Means
maka
dibutuhkan
masuk dalam cluster mana.
studi
Hitung
Indonesia, Bahasa Inggris, dan
kembali
pusat
cluster dengan keanggotaan
data/objek
dalam
cluster
tertentu.
Jika
Nama Siswa
Mat
Bind
Bing
Ipa
Abil Oktaviano
72
84
83
86
Afif Nur Rifai
80
72
82
80
Alfredo Sundy
75
80
80
84
bisa
juga
Ahmat Nur
82
82
73
80
median
dari
Akhmad Alan
80
70
82
83
Aminiya Ulfa
82
80
87
88
dikehendaki
memakai
Bahasa
Tabel 1. nilai siswa
cluster adalah rata-rata dari
semua
Matematika,
IPA
cluster yang sekarang. Pusat
cluster tersebut. Jadi rata-
Anwar Azis
78
81
83
82
rata (mean) bukan satu-
Apriliani Fira
80
85
80
82
satunya ukuran yang bisa
Detik Kusuma
82
80
85
85
Devon Fahreza
72
82
83
85
Difa Galih
80
80
80
82
Difan Ade
84
82
85
86
dipakai.
5.
kelas
Tugaskan lagi setiap objek
dengan
memakai
pusat
cluster yang baru. Jika pusat
cluster sudah tidak berubah
lagi,
maka
proses
pengclusteran selesai. Atau,
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
Iterasi ke-1
1.
Penentuan pusat awal cluster
Penentuan awal pusat cluster
menggunakan nilai dari beberapa
data siswa secara random / acak
simki.unpkediri.ac.id
|| 3||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
Tabel 2. Pusat Cluster
2.
C1
80
80
81
81
Anwar Azis
3,16
5
6,16
C2
82
81
80
82
Apriliani Fira
4,24
4,47
7,549
C3
76
81
80
87
Detik Kusuma
6
5,91
8,12
Perhitungan jarak pusat cluster
Devon Fahreza
9,38
10,90
5,47
Untuk pengukuran jarak antara
Difa Galih
1,41
2,236
6,48
data
dengan
digunakan
pusat
Euclidean
Difan Ade
cluster
Setiap
Distance
7,81
kolom
6,78
9,53
pada
mariks
menunjukkan nilai jarak data
dengan rumus :
terhadap
pusat
cluster.
Baris
pertama pada matriks menunjukan
√∑
nilai jarak data terhadap titik
pusat cluster pertama, baris kedua
: Pusat Cluster
pada matriks menunjukkan nilai
: Data
jarak data terhadap titik pusat
Berikut
adalah
perhitungan
cluster kedua dan seterusnya.
menggunakan euclidean distance
3.
Pengelompokan data
dari data ke-1 terhadap pusat
Jarak hasil dari perhitungan akan
cluster :
dilakukan
C1
dipilih jarak terdekat antara data
=
perbandingan
dan
dengan pusat cluster, jarak ini
√
menunjukkan bahwa data tersebut
berada
dalam
satu
kelompok
=√
dengan pusat cluster terdekat.
= √
Berikut ini akan ditampilkan data
= √
matriks pengelompokan group.
GI =
yang kemudian akan didapatkan
Tabel 4. Jarak Terdekat Dengan
matriks jarak sebagai berikut :
Pusat Cluster
D1 =
C1
Tabel 3. Hasil Perhitungan Jarak
Nama Siswa
C1
C2
C3
Abil Oktaviano
10,44
11,57
5,91
Afif Nur Rifai
8,12
9,64
12,24
Alfredo Sundy
6,16
7,34
3,31
Ahmat Nur
8,54
7,34
11,61
Akhmad Alan
81,63
11,40
12,52
Aminiya Ulfa
81,24
9,27
9,32
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
80
72
82
C2
C3
72
84
83
86
75
80
80
84
80
78
81
83
82
80
85
80
82
82
82
73
80
80
70
82
83
82
80
87
88
simki.unpkediri.ac.id
|| 4||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
data anggota tiap-tiap
82
80
85
sesuai
85
72
80
80
80
82
83
85
anggota
82
84
82
85
dengan
cluster
rumus
cluster
pusat
sehingga
didapatkan perhitungan:
86
Tabel 5. Pusat Cluster Baru
Keterangan :
C1
79,5
80
81,25
81,5
a. Jika nilai D1 lebih dekat
C2
82
79
82,4
84,4
jaraknya dengan nilai hasil
C3
73
82
82
85
perhitungan data cluster ke-1
Iterasi ke-2
(C1) atau data cluster ke-2
Ulangi langkah pertama pada
(C2) atau data cluster ke-3
iterasi ke-2 hingga iterasi ke... N
(C3) maka GI bernilai 0 dan
tidak
termasuk
group
hingga
/
berikut :
dari nilai hasil perhitungan
Tabel 6. Hasil Clustering
data cluster ke-1 (C1) atau
Nama Siswa
data cluster ke-2 (C2) atau
Abil Oktaviano
data cluster ke-3 (C3) dan
0
tidak
diperoleh hasil Clustering sebagai
nilai D1 lebih jauh jaraknya
selain
data
mengalami perubahan,, sehingga
kelompok cluster baru. Jika
bernilai
posisi
Afif Nur Rifai
Alfredo Sundy
maka
Ahmat Nur
termasuk kelompok cluster
Akhmad Alan
Aminiya Ulfa
baru.
Anwar Azis
b. Jika DI lebih jauh jaraknya
Apriliani Fira
Detik Kusuma
dari nilai hasil perhitungan
Devon Fahreza
data cluster ke-1 (C1) atau
Difa Galih
data cluster ke-2 (C2) atau
Difan Ade
Cluster
C3
C1
C1
C1
C2
C2
C1
C1
C2
C3
C1
C2
data cluster ke-3 (C3) maka
GI bernilai selain 0 dan
termasuk group / kelompok
Setelah diketahui anggota tiapcluster,
kemudian
Berdasarkan penelitian yang
maka dihasilkan sebuah aplikasi
Penentuan pusat cluster baru
tiap
HASIL DAN KESIMPULAN
dilakukan di MTs Sunan Ampel,
cluster baru.
4.
I.
pusat
cluster baru dihitung berdasarkan
untuk pengelompokan kelas siswa
menggunakan teknik data mining
dengan metode k-means. Variabel
yang digunakan adalah nilai UTS
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
simki.unpkediri.ac.id
|| 5||
Artikel Skripsi
Universitas Nusantara PGRI Kediri
pada semester gasal meliputi bidang
Jogiyanto. 2010. Analisis dan Desain
studi Matematika, Bahasa Indonesia,
Sistem Informasi. Yogyakarta :
Bahasa
Andi.
Inggris,
dan
Ilmu
Pengetahuan Alam. Data siswa yang
digunakan
untuk
pengelompokan
Mardiani.
2014.
Perbandingan
algoritma K-Means dan EM
kelas yaitu data siswa tingkat VII
untuk
yang berjumlah 150 data. Siswa
mahasiswa berdasarkan asal
dengan jumlah 51 menempati kelas
sekolah. STMIK GI MDP
A,
siswa
dengan
jumlah
menempati kelas B,
50
dan siswa
clusterisasi
Muzakir, Ari. 2014. Analisa dan
pemanfaatan
algoritma
K-
dengan jumlah 49 menempati kelas
Means Clustering pada data
C.
nilai siswa sebagai penentu
penerima
II.
nilai
Universitas
DAFTAR PUSTAKA
Agusta,
Y.
2007.
Penerapan,
K-Means
–
Permasalahan,
dan Metode Terkait.
Arikunto,
S.
Prosedur
Pendekatan
Praktik. Jakarta : Rineka Cipta.
Eka
,Fenty,
et.
Implementasi
Means
al.
2015.
algoritma
untuk
K-
menentukan
Bina
Darma
Palembang.
Nugroho,
B.
2005.
Relational
2013.
Penelitian-Suatu
beasiswa.
dengan
Database
MySQL.
Yogyakarta : Andi
Parno, 2012. Data Flow Diagram.
Prasetyo, E. 2012. Data MiningKonsep
dan
Menggunakan
Aplikasi
Matlab.
Yogyakarta : Andi.
kelompok pengayaan materi
Santosa, B. 2007. Data Mining-
mata pelajaran ujian nasional.
Teknik Pemanfaatan Data
Universitas
untuk
Islam
Negeri
Syarif Hidayatullah.
Febriani,
Lusia.
et,
Pengelompokan
Keperluan
Bisnis.
Yogyakarta : Graha Ilmu
al.
2012.
Suprihatin.
2011.
Klastering
K-
mahasiwa
Means untuk penentuan nilai
sistem informasi berdasarkan
ujian. Yogyakarta : Universitas
tingkat kompetensi akademik
Ahmad Dahlan.
dengan Fuzzy K-Means.
Nisia Yuanita | 12.1.03.02.0017
Teknik – Teknik Informatika
simki.unpkediri.ac.id
|| 6||
Download