pengelompokan sekolah menengah atas di

advertisement
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI PROVINSI
DAERAH ISTIMEWA YOGYAKARTA BERDASARKAN NILAI UJIAN
NASIONAL MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING
SKRIPSI
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Oleh:
Kresentia Nita Kurniadewi
125314031
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2016
i
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
THE CLUSTERING OF SENIOR HIGH SCHOOLS IN DAERAH
ISTIMEWA YOGYAKARTA PROVINCE BASED ON THE SCORE OF
NATIONAL EXAM USING K-MEANS CLUSTERING ALGORITHM
FINAL PROJECT
Present as Partiaal Fullfillment of the Requirements
to Obtain the Sarjana Komputer Degree
in Informatics Engineering Study Program
By:
Kresentia Nita Kurniadewi
125314031
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATIC ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2016
ii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
MOTO
Mintalah, maka akan diberikan kepadamu; carilah, maka kamu akan
mendapat; ketoklah, maka pintu akan dibukakan bagimu.
(Matius 7:7)
v
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
HALAMAN PERSEMBAHAN
Karya ini kupersembahkan kepada:
Tuhan Yesus Kristus
Bunda Maria
Keluarga
Sahabat
vi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRAK
Ujian Nasional (UN) sebagai tolok ukur atau parameter akhir dari suatu
proses pendidikan. Hasil Ujian Nasional digunakan sebagai dasar untuk pemetaan
mutu program dan/atau satuan pendidikan di Indonesia. Setiap tahun UN
diselenggarakan untuk mendapatkan sebuah informasi yang dapat bermanfat
untuk peningkatan mutu pendidikan. Data mining merupakan salah satu bidang
ilmu yang dapat digunakan untuk mendapatkan informasi dari kumpulan data.
Pada tugas akhir ini digunakan algoritma K-means Clustering yang akan
menghasilkan sebuah sistem perangkat lunak yang dapat digunakan untuk
mengelompokkan Sekolah Menengah Atas di DIY berdasarkan nilai Ujian
Nasional. Sistem ini diuji dengan perbandingan pengujian manual dengan hasil
sistem, pengujian black box, pengujian hasil pengelompokan menggunakan
Silhouette Coeficient.
Dalam melakukan proses mengubah data mentah menjadi sebuah
informasi yang bermanfaat, penulis menggunakan proses Knowledge Discovery in
Database (KDD) yang terdiri dari pembersihan data, integrasi data, seleksi data,
transformasi data, penambangan data, evaluasi data, dan presentasi pengetahuan.
Pada tahap pembersihan data dilakukan secara manual, untuk itegrasi data dan
transformasi data tidak dilakukan, sedangkan untuk seleksi data dan penambangan
data penulis merancang perangkat lunak sebagai alat untuk melakukan tahaptahap tersebut. Sedangkan untuk evaluasi pola dan presentasi pengetahuan,
penulis melakukan evaluasi dari hasil penambangan data yang diperoleh dari hasil
perangkat lunak dan menjelaskannya agar informasi tersebut dapat diterima oleh
pihak-pihak yang membutuhkan. Perangkat lunak diujikan terhadap 8 dataset
yang merupakan data Ujian Nasional SMA jurusan IPA dan IPS tahun 2014/2015.
Berdasarkan penelitian yang telah dilakukan, dapat diketahui bahwa
algoritma K-means dapat digunakan untuk mengelompokkan data tersebut dengan
nilai k yang diberikan. Pengujian hasil pengelompokan dengan menggunakan
Silhouette Coeficient(SC) terhadap kedua set data yang digunakan yaitu IPA dan
IPS tahun ajaran 2014/2015 dihasilkan nilai SC untuk data IPA sebesar 0.49 pada
k = 2 yang dikategorikan sebagai weak Classification dan untuk data IPS sebesar
0.57 pada k = 2 dan 0.51 pada k=3 yang dikategorikan sebagai good
Classification. Dengan demikian jumlah cluster yang disarankan untuk data nilai
ujian jurusan IPA adalah 2 dan untuk IPS adalah 2 atau 3.
Kata Kunci : Clustering, K-Means, data mining, nilai ujian nasional, Silhouette
Coeficient
ix
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ABSTRACT
As The National Exam is used as the final parameter of am educational
proccess, the score resulted from National Exam is used as the basis to set the
mapping of program quality and/or education unit in Indonesia. National Exam is
conducted every year to get sufficient information in the purpose of upgrading the
education quality. Data mining is one of disciplines aiming in gaining information
among the data collection. In this undergraduate thesis, K-means Clustering
alogarithm is used to develop a software that can be used to clasify Senior High
School in Jogjakarta based on the the Final Score of National Exam. This system
can be tested by compare the manual testing with result of system, black box
testing, and result of clustering tested using Silhouette Coeficient.
In conducting the proccess of converting raw data into a useful
information, the writer used the proccess of Knowledge Discovery in Database
(KDD) consisting the data cleaning, data integration, data selection, data mining,
data evaluation, and knowledge presentation. Data cleaning was done manually,
data integration and data transformation were not conducted, while at the stage of
data selection and data mining, the writer designed a software as the tool to
succeed the whole stages. Meanwhile, for the pattern evaluation and knowledge
presentation, the writer conducted an evaluation from the result of data mining
that was obtained from the software result and the writer explained in order
tohave the information accepted by the people who required it. The software will
be observed toward 8 datasets that were National Exam of Senior High School,
both from Social and Exact Discipline –Year 2014/2015.
According to the research conducted, it is known that the K-means
Alogarithm can be used to clasify the data by the given value of k. Result of
clustering, tested using Silhouette Coeficient, toward both data set, that is Social
and Exact Discipline year 2014/2015, resulting the value of SC for Exact
Discipline 0.49 at k = 2, categorized as weak Classification and for Social
Discipline 0.57 at k = 2 and 0.51 at k=3 which was categorized as good
Classification. Therefore, the number of clusters recommended for the scoring of
Exact Discipline is 2, and 2 or 3 for Social Discipline.
Keywords : Clustering, K-Means, data mining, National Exam Score, Silhouette
Coeficient
x
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
KATA PENGANTAR
Puji dan Syukur kepada Tuhan Yang Maha Esa, karena pada akhirnya
penulis dapat menyelesaikan penelitian tugas akhir ini yang ber judul
“PENGELOMPOKAN
BERDASARKAN
SEKOLAH
NILAI
MENENGAH
UJIAN
NASIONAL
ATAS
DI
DIY
MENGGUNAKAN
ALGORITMA K-MEANS CLUSTERING”
Dalam menyelesaikan seluruh penyusun tugas akhir ini, penulis tak lepas
dari dosa, bantuan, dukungan, dan motivasi dari banyak pihak. Oleh karena itu,
penulis ingin mengucapkan banyak terima kasih kepada:
1. Tuhan Yesus Kristus dan Bunda Maria yang selalu memberikan anugrah,
rahmat,
kekuatan,
dan
keberuntungan
sehingga
penulis
dapat
menyelesaikan tugas akhir ini.
2. Kedua orang tua penulis, Johanes Bosco Heru Nuryono dan Maria
Imaculata Respita Murti atas doa, kasih sayang, perhatian, kepercayaan,
dukungan baik moral maupun financial yang diberikan kepada penulis.
3. Kakak penulis, Ambrosius Hans Gigih Kurniadi dan Ignasius Hans Veda
Kurnia yang selalu memberikan semangat, dukungan, dan doa kepada
penulis.
4. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan Fakultas
Sains dan Teknoologi.
5. Ibu Dr. Anastasia Rita Widiarti selaku ketua Program Studi Teknik
Informatika.
6. Ibu Paulina Heruningsih Prima Rosa, M.Sc. selaku Dosen Pembimbing
Skripsi yang telah memberikan waktu, bimbingan, nasihat, dan motivasi
kepada penulis.
7. Bapak Iwan Binanto M.Cs. selaku Dosen Pembimbing Akademik penulis.
8. Seluruh Dosen yang telah mendidik dan memberikan pengetahuan dan
pengalaman berharga selama penulis belajar di Universitas Sanata Dharna.
9. Seluruh dosen, sekretariat, laboran, staff, dan perpustakaan yang telah
membimbing dan membantu selama proses perkuliahan di Universitas
Sanata Dharma.
xi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR ISI
HALAMAN PERSETUJUAN..............................................................................iii
HALAMAN PENGESAHAN...............................................................................vi
MOTTO..................................................................................................................v
HALAMAN PERSEMBAHAN............................................................................vi
PERNYATAAN KEASLIAN KARYA...............................................................vii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI..............................viii
ABSTRAK.............................................................................................................ix
ABCTRACT...........................................................................................................x
KATA PENGANTAR...........................................................................................xi
DATAR ISI..........................................................................................................xiii
DATAR GAMBAR..............................................................................................xvi
DATAR TABEL..................................................................................................xvii
BAB I PENDAHULUAN .................................................................................... 1
1.1.
LATAR BELAKANG ........................................................................ 1
1.2.
RUMUSAN MASALAH ................................................................... 2
1.3.
TUJUAN PENELITIAN .................................................................... 2
1.4.
BATASAN MASALAH .................................................................... 2
1.5.
MANFAAT PENELITIAN ................................................................ 3
1.6.
SISTEMATIKA PENULISAN ........................................................... 3
BAB II LANDASAN TEORI .............................................................................. 6
2.1.
PENAMBANGAN DATA ................................................................. 6
2.1.1.
Pengertian Penambangan Data ........................................................... 6
2.1.2.
Fungsi Penambangan Data ................................................................. 6
2.1.3.
Knowledge Discovery in Database (KDD) ......................................... 8
2.2.
Ujian Nasional ................................................................................. 10
2.2.1.
Definisi Ujian Nasional .................................................................... 10
2.2.2.
Tujuan dan Fungsi Ujian Nasional .................................................... 10
2.2.3.
Peserta Ujian Nasional ..................................................................... 11
2.2.4.
Penyelenggaran Ujian Nasional ........................................................ 12
2.2.5.
Strandar Kelulusan ........................................................................... 12
2.3.
Konsep Data Mining ........................................................................ 13
2.3.1.
Clustering ........................................................................................ 13
2.3.2.
K-Means........................................................................................... 13
2.3.3.
Distance Space ................................................................................. 16
xiii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.4.
Validitas Cluster ............................................................................... 16
2.4.1.
Analisis Cluster ................................................................................ 16
2.4.2.
Validitas Internal .............................................................................. 17
2.4.3.
Silhouette ......................................................................................... 17
BAB III METODOLOGI PENELITIAN............................................................ 23
3.1.
Sumber Data .................................................................................... 23
3.1.1.
Data yang digunakan ........................................................................ 23
3.2.
Spesifikasi Alat ................................................................................ 23
3.2.1.
Spesifikasi Hardware ....................................................................... 23
3.2.2.
Spesifikasi Software ......................................................................... 23
3.3.
Tahap-Tahap Penelitian .................................................................... 23
3.3.1.
Studi Kasus ...................................................................................... 23
3.3.2.
Penelitian Pustaka ............................................................................ 24
3.3.3.
Knowledge Discovery in Database (KDD) ....................................... 24
3.3.4.
Pengembangan Perangkat Lunak ...................................................... 24
3.3.5.
Analisis dan Pembuatan Laporan ...................................................... 26
BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT
LUNAK PENAMBANGAN DATA .................................................................. 26
4.1.
PEMROSESAN AWAL ................................................................... 26
4.1.1.
Pembersihan Data (Data Cleaning) .................................................. 26
4.1.2.
Itegrasi Data (Data Integration) ....................................................... 26
4.1.3.
Seleksi Data (Data Selection) ........................................................... 26
4.1.4.
Tranformasi Data (Data Transformation) ......................................... 29
4.2.
PERANCANGAN PERANGKAT LUNAK PENAMBANGAN
DATA ............................................................................................. 29
4.2.1.
Diagram Use Case............................................................................ 29
4.2.1. 1. Gambaran Umum Use Case .............................................................. 30
4.2.1. 2. Narasi Use Case ................................................................................ 30
4.2.2.
Perancangan Umum ......................................................................... 30
4.2.2.1. Input Sistem ..................................................................................... 30
4.2.2.2. Proses Sistem ................................................................................... 31
4.2.2.3. Output Sistem................................................................................... 33
4.2.3.
Diagram Aktivitas (Activity diagram). .............................................. 33
4.2.4.
Diagram Kelas Desain ...................................................................... 33
4.2.5.
Diagram Sekuen (Sequence Diagram). ............................................. 34
4.2.6.
Algoritma per Method ...................................................................... 34
xiv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4.2.7.
Perancangan Struktur Data ............................................................... 34
4.2.7.1. Array ................................................................................................ 35
4.2.7.2. ArrayList .......................................................................................... 35
4.2.7.3 HashMap ............................................................................................ 36
4.2.8.
Perancangan Antarmuka .................................................................. 37
4.2.8.1. Halaman Halaman Awal ................................................................... 37
4.2.8.2. Halaman Bantuan ............................................................................. 38
4.2.8.3. Halaman Tentang ............................................................................. 39
4.2.8.4. Halaman Clustering K-Means .......................................................... 40
BAB V IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL
.......................................................................................................................... 41
5.1 IMPLEMENTASI RANCANGAN PERANGKAT LUNAK .................... 41
5.1.1.
Implementasi Kelas .......................................................................... 41
5.2.
EVALUASI HASIL ......................................................................... 51
5.2.1.
Pengujian Perangkat Lunak (Black Box) .......................................... 51
5.2.1.1. Rencana Pengujian Black Box .......................................................... 51
5.2.1.2. Prosedur Pengujian Black Box dan Kasus Uji ................................... 52
5.2.1.3. Evaluasi Pengujian Black Box .......................................................... 52
5.2.2.
Pengujian Perbandingan Hasil Hitung Manual dengan Hasil Perangkat
Lunak .............................................................................................. 52
5.2.2.1. Penghitungan Manual ....................................................................... 52
5.2.2.2. Penghitungan Perangkat Lunak ........................................................ 53
5.2.2.3. Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil
Perangkat Lunak .............................................................................. 54
5.2.2.4. Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian
Nasional Jurusan IPA Tahun Ajaran 2014/2015 ............................... 55
5.2.2.5. Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian
Nasional Jurusan IPS Tahun Ajaran 2014/2015................................ 58
5.3. KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK .............. 62
5.3.1. Kelebihan Perangkat Lunak .................................................................. 62
5.3.2. Kekurangan Perangkat Lunak .............................................................. 62
BAB VI ............................................................................................................. 64
PENUTUP ......................................................................................................... 64
6.1.
SIMPULAN ..................................................................................... 64
6.2.
SARAN ............................................................................................ 65
DAFTAR PUSTAKA............................................................................................67
LAMPIRAN...........................................................................................................69
xv
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR TABEL
Tabel 2. 1 Kriteria Subjektif Kualitas Pengelompokkan Berdasarkan Silhouette
Coeficient (SC) .................................................................................. 21
Tabel 3. 1Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPA
2014/2015 .......................................................................................... 23
Tabel 3. 2 Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPS
2014/2015 .......................................................................................... 23
Tabel 4. 1 Atribut yang tidak digunakan pada data Ujian Nasional 2015 ............ 28
Tabel 4. 2 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPA
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015 ................... 28
Tabel 4. 3 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPS
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015 ................... 29
Tabel 5. 1 Implementasi Kelas Home ................................................................. 41
Tabel 5. 2 Implementasi Kelas Clustering_KMeans ........................................... 43
Tabel 5. 3 Implementasi Kelas Tentang .............................................................. 47
Tabel 5. 4 Implementasi Kelas Bantuan ............................................................. 49
Tabel 5. 5 Implementasi Kelas KMeans ............................................................. 51
Tabel 5. 6 Implementasi Kelas KMeans ............................................................. 51
Tabel 5. 7 Rencana pengujian dengan menggunakan metode black box. ............. 52
Tabel 5. 8 Hasil uji perbandingan member percluster secara manual dan sistem . 54
Tabel 5. 9 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai
Ujian Nasional Jurusan IPA 2014/2015 .............................................. 55
Tabel 5. 10 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai
Ujian Nasional Jurusan IPS 2014/2015 .............................................. 58
xvi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR GAMBAR
Gambar 2. 1 Tahap-tahap proses Knowledge Discovery in Databese
(Han&Kamber, 2006). ....................................................................... 8
Gambar 4. 1 Use Case Diagram ......................................................................... 30
Gambar 4. 2 Diagram flowchart ......................................................................... 32
Gambar 4. 3 Diagram Kelas Desain ................................................................... 34
Gambar 4. 4 Ilustrasi Konsep Array ................................................................... 35
Gambar 4. 5 Ilustrasi Konsep ArrayList ............................................................. 35
Gambar 4. 6 Perancangan ArrayList ................................................................... 36
Gambar 4. 7 Antarmuka Halaman Beranda ........................................................ 37
Gambar 4. 8 Antarmuka Halaman Bantuan ........................................................ 38
Gambar 4. 9 Antarmuka Halaman Tentang ........................................................ 39
Gambar 4. 10 Antarmuka Halaman Proses ......................................................... 40
Gambar 5. 1 Implementasi Antarmuka kelas Home ............................................ 43
Gambar 5. 2 Implementasi Antaramuka Kelas Clustering_Kmeans .................... 46
Gambar 5. 3 Implementasi Antaramuka Kelas Tentang ...................................... 48
Gambar 5. 4 Implementasi Antaramuka Kelas Bantuan ...................................... 50
Gambar 5. 5 Hasil Penambangan Data Menggunakan Perangkat Lunak ............. 53
Gambar 5. 6 Rata-rata Silhouette data set Jurusan IPA ..................................... 587
Gambar 5. 7 Rata-rata Silhouette data set Jurusan IPS ....................................... 61
xvii
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB I
PENDAHULUAN
1.1.
LATAR BELAKANG
Data mining adalah proses yang menggunakan teknik statistik, matematika,
kecerdasan
buatan,
dan
machine
learning
untuk
mengekstrasi
dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dengan
database besar (Kusrini, 2009). Data mining bisa digunakan oleh perusahan atau
instansi besar untuk menggali data untuk mendapatkan informasi yang dapat
menunjang dan meningkatkan kualitas perusahaan/instansi tersebut. Terdapat
banyak metode yang digunakan dalam data mining salah satunya adalah metode
clustering. Clustering untuk menemukan kumpulan objek hingga objek-objek
dalam kelompok sama (atau punya hubungan) dengan yang lain dan berbeda (atau
tidak berhubungan) dengan objek-objek dalam kelompok lain. Tujuan dari analisis
cluster adalah meminimalkan jarak di dalam cluster dan memaksimalkan jarak
antara cluster (Hermawati, 2013). Salah satu algoritma clustering adalah KMeans. Algoritma K-Means merupakan algoritma pengelompokan interaktif yang
melakukan partisi set data ke dalam sejumlah K cluster yang sudah ditetapkan di
awal (Prasetyo, 2014). Salah satu data yang dapat digunakan dalam penambangan
data adalah data Ujian Akhir Nasional.
Pendidikan sangat diperlukan untuk mempersiapkan generasi muda agar
menjadi sumber daya manusia (SDM) yang mampu bersaing. Badan Standar
Pendidikan Nasional Tahun 2010 menyebutkan pendidikan adalah usaha sadar
dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran ajar
peserta didik secara aktif menyumbangkan potensi dirinya untuk memiliki
kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak
mulia, serta keterampilan yang diperlukan dirinya, masyarakat, bangsa dan negara
yang tertuang dalam UU No 20 Tahun 2003. Sejak tahun 2002/2003 pemerintah
mengganti Evaluasi Belajar Tahap Akhir Nasional (EBTANAS) menjadi Ujian
Akhir Nasional (UAN) sebagai tolok ukur atau parameter akhir dari suatu proses
pendidikan (Sulistyo, 2007). Menurut Peraturan Pemerintah Republik Indonesia
1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
No. 13 Tahun 2015 Pasal 68 menyebutkan bahwa
Hasil Ujian Nasional
digunakan sebagai dasar untuk pemetaan mutu program dan/atau satuan
pendidikan, pertimbangan seleksi masuk jenjang pendidikan berikutnya, dan
pembinaan dan pemberian bantuan kepada satuan pendidikan dalam upaya
meningkatkan mutu pendidikan. Sesuai dengan konsep clustering yang membagi
data menjadi kelompok-kelompok maka dapat dilakukan pengelompokan Sekolah
Menengah Atas yang ada di DIY menggunakan data Nilai Ujian Nasional untuk
melihat peta mutu pendidikan.
Berdasarkan hal di atas, maka penulis mengangkat judul skripsi yaitu
“Pengelompokan Sekolah Menengah Atas Di DIY Berdasarkan Nilai Ujian
Nasional Menggunakan Algoritma K-Means Clustering”.
1.2.
RUMUSAN MASALAH
Dari latar belakang diatas, maka rumusan masalah dalam penelitian ini
adalah:
1.
Apakah
algoritma
K-Means
dapat
dipergunakan
untuk
mengelompokkan Sekolah Menengah Atas di DIY berdasarkan nilai
Ujian Nasional ?
2.
Bagaimana
evaluasi
hasil clustering
menggunakan
Silhouette
Coeficient?
1.3.
TUJUAN PENELITIAN
Tujuan penelitian ini adalah mengimplementasi algoritma K-Means untuk
mempermudah pengelompokkan Sekolah Menengah Atas berdasarkan nilai Ujian
Nasional.
1.4.
BATASAN MASALAH
Masalah dibatasi sebagai berikut:
1.
Metode yang digunakan dalam penelitian ini adalah metode clustering
algoritma K-Means
2.
Data yang digunakan adalah data nilai Ujian Nasional SMA di DIY pada
2014/2015 jurusan IPA dan IPS.
3.
Aplikasi akan dibuat menggunakan pemrograman Java Desktop Standard
Edition.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1.5.
MANFAAT PENELITIAN
Manfaat penulisan tugas akhir ini adalah sebagai berikut:
1. Penelitian ini diharapkan dapat memberikan manfaat untuk pihak-pihak
dalam dunia pendidikan, terutama dinas pendidikan. Dinas pendidikan dapat
menggunakan penelitian ini sebagai salah satu bahan masukan pengambilan
kebijakan pembinaan dan pemberian bantuan kepada satuan pendidikan
dalam upaya meningkatkan mutu pendidikan.
2. Sebagai referensi bagi peneliti yang berkaitan dengan clustering pemetaan
atau pengelompokan sekolah.
1.6.
SISTEMATIKA PENULISAN
Sistematika penulisan Tugas Akhir ini adalah sebgai berikut:
1. BAB I. PENDAHULUAN
Pada Bab ini memberikan gambaran singkat dan menyeluruh mengenai
sistem pengelompokan nilai ujian nasional SMA pada tiap kompetensi. Bab I
ini meliput latar belakang masalah, batasan masalah, tujuan dan manfaat
penelitian, rumusan masalah, metodologi penelitian, dan sistematika
penulisan.
2. BAB II. LANDASAN TEORI
Pada Bab ini mengemukakan teori-teori yang digunakan sebagai acuan
dalam perancangan dan pengimplementasikan sistem pengelompokan nilai
ujian nasional SMA pada tiap kompetensi.
3. BAB III. METODOLOGI PENELITIAN
Bab ketiga ini akan menjelaskan gambaran umum penelitian, data,
spesifikasi alat, dan tahap-tahap penelitian.
4. BAB
IV
:
PEMROSESAN
AWAL
DAN
PERANGKAT LUNAK PENAMBANGAN DATA
PERANCANGAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
Pada bab keempat ini berisi pemrosesan awal dalam proses Knowledge
Discovery in Database (KDD) yaitu pembersihan data, integrasi data, seleksi
data, dan transformasi data. Selain itu bab ini juga akan berisi perancangan
perangkat lunak yang akan digunakan dalam tahap penambangan data.
Perancangan perangkat lunak tersebut terdiri dari perancangan umum,
diagram use case, diagram aktivitas, diagram sekuen, algoritma per method,
struktur data, dan perancangan antarmuka.
5. BAB V. IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI
HASIL
Pada bab kelima ini berisi implementasi rancangan perangkat lunak
penambangan data dan evaluasi hasil yang terdiri dari pengujian perangkat
lunak (black box), pengujian perbandingan hitung manual dengan hasil
sistem, Evaluasi hasil clustering menggunakan Silhouette Index, kelebihan
sistem, dan kekurangan sistem.
6. BAB VI. PENUTUP
Pada Bab ini berisi tentang kesimpulan dan saran dari skripsi yang telah
dibuat serta pengembangan penelitian ke depan.
.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB II
LANDASAN TEORI
2.1.
PENAMBANGAN DATA
2.1.1. Pengertian Penambangan Data
Penambangan data (Data Mining) menghadirkan suatu proses yang
dikembangkan untuk menguji sejumlah data besar. Data-data yang dapat
digunakan dalam penambangan data adalah data pemasaraan, kesehatan,
pendidikan, dan lain-lain.
Data mining adalah proses yang menggunakan teknik statistik,
matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan
mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari
berbagai database besar (Turban,2005). Data mining mempunyai tujuan untuk
mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang
bermanfaat.
2.1.2. Fungsi Penambangan Data
Menurut Han dkk. (2006) fungsionalitas data mining yang digunakan
untuk menentukan pola dapat ditemukan pada tugas data mining. Secara umum
tugas data mining dapat di klasifikasikan ke dalam dua kategori: deskriptif dan
prediktif. Tugas penambangan deskriptif adalah melakukan karakterisasi sifat
umum dari data dalam basis data. Sedangkan Tugas penambangan prediksi adalah
untuk melakukan inferensi pada data saat ini untuk membuat prediksi.
Fungsi data mining dan jenis pola yang dapat ditemukan, yaitu:
a.
Konsep/Deskripsi Kelas
Data dapat dikaitkan dengan kelas atau konsep. Deskripsi seperti
kelas atau konsep yang disebut deskripsi kelas/konsep. Deskripsi tersebut
dapat diturunkan melalui karakterisasi data, dengan merangkum data dari
kelas yang diteliti(sering disebut kelas target) secara umum, atau dengan
diskriminasi data, dengan perbandingan target kelas dengan satu atau satu
5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
set kelas komparatif (sering disebut kelas kontras), atau baik
krakterisasi data dan diskriminasi.
b.
Penambangan Kemunculan Pola, Asosiasi, Korelasi
Pola yang sering adalah pola yang sering terjadi di data. Jenis pola
yang dimaksud adalah itemset, subsequences, dan substructure. Sebuah
itemset biasanya mengacu pada satu set item yang sering muncul bersamasama. Sebuah subsequences sering terjadi misalnya pada pola pelanggan
cenderung membeli PC pertama, diikuti oleh kamera digital, dan kemudian
kartu memori. Sebuah substructure dapat merujuk untuk bentuk struktural
yang berbeda, seperti grafik, tree atau kisi yang dapat dikombinasikan
dengan itemset atau subsequences. Substructure yang sering terjadi, itu
disebut (Frequent) pola terstruktur. Penambangan pola yang sering
mengarah pada penemuan asosiasi yang menarik dan korelasi dalam data.
c.
Klasifikasi dan Prediksi
Klasifikasi adalah proses menemukan model (fungsi) yang
menggambarkan dan yang membedakan kelas data atau konsep dengan
tujuan mampu menggunakan model untuk memprediksi kelas objek yang
label kelas tidak diketahui. Ada banyak metode untuk membangun
classificationmodels, seperti naive bayesian classification, support vector
machines, dan k-nearest neighbor classification.
Prediksi digunakan untuk
memprediksi
hilang
atau tidak
tersedianya data nilai numerik pada label kelas. Analisis regresi adalah
metodologi statistik yang paling sering digunakan untuk prediksi numerik.
Prediksi juga meliputi identifikasi tren distribusi berdasarkan data yang
tersedia.
Klasifikasi dan prediksi mungkin perlu didahului dengan analisis
relevansi, yang mencoba untuk mengidentifikasi atribut yang tidak
memberikan kontribusi terhadap klasifikasi atau prediksi proses.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
d.
Analisis Cluster
Analisis klaster objek data tanpa berkonsultasi dengan label kelas
yang diketahui. Data dikelompokkan berdasarkan prinsip memaksimalkan
kesamaan intraclass dan meminimalkan kesamaan antar kelas. Dengan
kata lain, kelompok benda terbentuk sehingga objek dalam cluster
memiliki kesamaan yang tinggi dibandingkan satu sama lain , tetapi sangat
berbeda untuk objek dalam cluster lainnya . Setiap cluster yang terbentuk
dapat dilihat sebagai kelas objek.
e.
Analisi Outlier
Sebuah basis data dapat berisi objek data yang tidak sesuai dengan
perilaku umum atau model data. Peristiwa langka bisa lebih menarik
daripada yang terjadi lebih teratur . Sebagian besar metode data mining
membuang outlier sebagai noise atau pengecualian. Namun, dalam
beberapa aplikasi seperti deteksi penipuan, peristiwa langka bisa lebih
menarik daripada peristiwa yang sering terjadi. Analisis data outlier
disebut sebagai outlier mining.
Outlier
dapat
dideteksi
menggunakan
uji
statistik
yang
mengasumsikan distribusi atau model probabilitas data, atau menggunakan
pendekatan jarak di mana objek yang berbeda dari setiap lainnya dianggap
outlier .
f. Analisi Evolution
Analisis evolusi menggambarkan data dan model keteraturan atau
tren untuk objek yang perilakunya berubah dari waktu ke waktu. Meskipun
termasuk dalam karakterisasi, diskriminasi, asosiasi dan analisis korelasi,
klasifikasi, prediksi, atau pengelompokan data, fitur yang berbeda dari
analisis tersebut meliputi analisis data time-series, urutan atau periodisitas
pencocokan pola, dan analisis data berbasis kesamaan.
(Han dkk,2006)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
2.1.3. Knowledge Discovery in Database (KDD)
Menurut Han dkk. (2006), penambangan data tidak dapat dipisahkan dari
proses Knowledge Discovery in Databese (KDD). KDD merupakan sebuah proses
mengubah data mentah menjadi suatu informasi yang berguna. Illustrasi proses
KDD dapat dilihat pada gambar 2.1.
Gambar 2. 1 Tahap-tahap proses Knowledge Discovery in Databese
(Han&Kamber, 2006).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Knowledge Discovery merupakan suatu proses digambarkan dalam Gambar
2.1 dan terdiri dari langkah-langkah sebagai berikut:
1. Pembersihan Data ( Data Cleaning)
Pembersihan Data dilakukan untuk menghilangkan noise dan data yang
tidak konsisten. Sebelum proses data mining dapat dilaksanakan, perlu
dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses
cleaning mencakup antara lain membuang duplikasi data, memeriksa data
yang inkonsisten dan memperbaiki kesalahan pada data, seperti kesalahan
cetak (tipografi). Lalu dilakukan juga proses enrichment, yaitu proses
“memperkaya” data yang sudah ada dengan data atau informasi lain yang
relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
2. Integrasi Data (Data Integration)
Tahap ini berisikan penggabungann dari beberapa sumber data.
3. Seleksi Data (Data Selection)
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Seleksi
data merupakan proses menganalisi data yang relevan dari dalam database.
4. Transformasi Data (Data Transformation)
Tahap ini mengubah atau mengkonsolidasi data ke dalam bentuk yang
sesuai untuk dilakukan penambangan data.
5. Penambangan Data (Data Mining)
Data mining adalah proses proses penting di mana metode cerdas yang
diterapkan untuk mengekstrak pola data.
6. Evaluasi Pola (Pattern Evaluation)
Evaluasi pola digunakan untuk mengidentifikasi pola-pola yang benarbenar menarik yang mewakili pengetahuan berdasarkan pada beberapa
langkah penting.
7. Presentasi Pengetahuan (Knowledge Presentation)
Tahap ini merupakan proses teknik visualisasi dan representasi
pengetahuan digunakan untuk menyajikan pengetahuan hasil penambangan
kepada pengguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
2.2.
Ujian Nasional
2.2.1. Definisi Ujian Nasional
Ujian adalah kegiatan yang dilakukan untuk mengukur pencapaian
Kompetensi Peserta Didik debagai pengakuan prestasi belajar dan penyelesaian
dari salah satu pendidikan.
Ujian Nasional adalah evaluasi tahap Akhir yang
merupakan salah satu proses pengukuran hasil belajar dan mutu pendidikan yang
telah dilaksanakan secara nasional di Indonesia sejak tahun 1985. Ujian Nasional
diadakan untuk peningkatan mutu pendidikan dan daya saing sumber daya
manusia Indonesia. Pemerintah telah menetapkan standar kelulusan minimal yang
harus dicapai peserta didik.
Hasil Ujian Nasional bertujuan untuk pemetakan mutu program dan satuan
pendidikan yaitu; (1) pemetaan mutu pendidikan yaitu memperoleh gambaran
perbandingan mutu pendidikan antar sekolah/madrasah, dan antar wilayah dari
tahun ke tahun, (3) pertimbangan seleksi masuk jenjang pendidikan berikutnya,
(5) pembinaan dan memberian bantuan kepada satuan pendidikan dalam upaya
meningkatkkan mutu pendidikan di Indonesia.
Dalam pelaksanaan UN tahun 2015 mengenai standar nasional pendidikam
pemerintah telah mengatur dalam Peratuaran Pemerinrah Republik Indonesia
Nomor 13 Tahun 2015 tentang Perubahan Kedua Atas Peraturan Pemerintah
Nomor 19 Tahun 2005 Tentang Standar Nasional Pendidikan. Disebut dalam
pasal 1 ayat 29 Badan Standar Nasional Pendidikan (BSNP) adalah badan mandiri
dan Independen yang bertugas mengembangkan, memantau, dan mengendalikan
Standar Nasional Pendidikan.
Pembinaan sekolah misalnya oleh pengawas sekolah, pelaksanaan
pembinaan oleh pengawas untuk SMP/MTs, SMA/MA, dan SMK/MAK paling
sedikit 7 (tujuh) satuan pendidikan menurut Peraturan Menteri Pendidikan dan
Kebudayaan No 143 Tahun 2014.
2.2.2. Tujuan dan Fungsi Ujian Nasional
Berdasarkan Peraturan Menteri Pendidikan dan Kebudayaan Republik
Indonesia Nomor 5 Tahun 2015 BSNP (Badan Standar Nasional Pendidikan)
menyelengarakan Ujian Nasional bekerja sama dengan instansi terkait di
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
lingkungan Pemerintah, Pemerintah provinsi, pemerintah kabupaten/kota dan
satuan pendidikan sesuai dengan kurikulum yang berlaku.
Penilaian hasil belajar bertujuan untuk menilai pencapaian kompetensi
lulusan secara nasional paada mata pelajaran tertentu dan di lakukan dalam bentuk
ujian nasional. (ps. 66, peraturan pemerintah republik indonesia nomor 13 tahun
2015). Hasil ujian nasional digunakan sebagai dasar untuk :
a.
pemetaan mutu program dan/atau satuan pendidikan.
b.
pertimbangan seleksi jenjang pendidikan berikutnya.
c.
pembinaan dan pemberian bantuan kepada satuan pendidikan dalam upaya
untuk meningkatkkan mutu pendidikan.
2.2.3. Peserta Ujian Nasional
Setiap peserta didik jalur pendidikan formal pendidikan dasar dan
menengah dan jalur pendidikan nonformal kesetaraan berhak mengikuti Ujian
nasioal dan berhak mengulainya sepanjang belum dinyatakan memenuhi kriteria
pencapaian kompetensi lulusan. Peserta didik wajib mengikuti satu kali Ujian
nasional tanpa dipungut biaya. Peserta Didik jalur pendidikan formal pendidikan
dikecualikan untuk Peserta Didik SD/MI/SDLB atau bentuk lain yang sederajat.
Peserta Didik pendidikan informal dapat mengikuti Ujian nasional setelah
memenuhi syarat yang ditetapkan oleh BSNP. Peserta Ujian nasional memperoleh
surat keterangan hasil Ujian nasional yang diterbitkan oleh satuan pendidikan
penyelenggara Ujian nasional. (ps.69, Peraturan Pemerintah Republik Indonesia
Nomor 13 Tahun 2015). Dalam Peraturan Menteri Pendidikan dan Kebuyaan
Republiik Indonesia No. 15 tahun 2015 Persyaratan peserta didik pada jalur
formal yang mengikuti ujian nasional adalah telah atau pernah berada pada tahun
terakhir pada suatu jenjang pendidikan di satuan pendidikan, dan memiliki
laporan lengkap penilaian hasil belajar pada suatu jenjang pendidikan di satuan
pendidikan tertentu mulai semester I sampai dengan semester V. Persyaratan
peserta pendidikan kesetaraan yang mengikuti ujian nasional adalah berasal dari
PKBM, kelompok belajar pada SKB, Pondok Pesantren penyelenggara Program
Wustha, atau kelompok belajar sejenis dan memiliki laporan lengkap penilaian
hasil belajar pada Pendidikan Kesetaraan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
2.2.4. Penyelenggaran Ujian Nasional
Dalam Peraturan Mentri Pendidikan dan Kebudayaan Republik Indonesia
No 5 tahun 2015 pasal 14 menyebutkan bahwa BSNP (Badan Standar Nasional
Pendidikan) menyelenggarakan UN bekerja sama dengan instansi terkait di
lingkungan Pemerintah, pemerintah provinsi, pemerintah kabupaten/kota, dan
satuan pendidikan. BSNP sebagai penyelengara UN bertugas untuk menelaah dan
menetapkan kisi-kisi UN, menyusun dan menetapkan POS pelaksanaan UN,
menelaah dan menetapkan naskah soal UN, memberikan rekomendasi kepada
Menteri tentang pembentukan Panitia UN Tingkat Pusat, melakukan koordinasi
persiapan dan pengawasan pelaksanaan UN secara nasional, dan melakukan
evaluasi dan menyusun rekomendasi perbaikan pelaksanaan UN.
2.2.5. Strandar Kelulusan
Peserta didik dinyatakan lulus dari suatu pendidikan setelah menyelesaikan
seluruh program belajar, memperoleh nilai sikap.perilaku minimal baik, dan lulus
ujian S/M/PK. Kelulusan peserta didik dari ujian S/M ditetapkan oleh satuan
pendidikan. Kelulusan peserta didik dari ujian PK ditetapkan oleh Dinas
Pendidikan Provinsi. Dan Kelulusan peserta didik ditetapkan setelah satua
pendidikan menerima hasil ujian nasional peserta didik yang bersangkutan. (ps.2
Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun
2015).
Kriteria kelulusan peserta didik mencakup minimal rata-rata nilai dan
minimal nilai setiap mata pelajaran yang ditetapkan oleh satuan pendidikan. Nilai
S/M/PK sebagaimana dimaksud pada ayat (1) dan ayat (2) diperoleh dari
gabungan:
a. Rata-rata nilai rapor dengan bobot 50% (lima puluh persen) sampai dengan
70% (tujuh puluh persen):
1. Semester I sampai dengan semester V atau yang setara pada SMP/MTs,
SMPLB, dan Paket B/Wustha;
2. Semester III sampai dengan semester V atau yang setara pada
SMA/MA/SMAK/SMTK, SMALB, SMK/MAK, dan Paket C;
3. Semester I sampai dengan semester V atau yang setara bagi SMP/MTs
dan SMA/MA/SMAK/SMTK yang menerapkan sistem SKS.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
b. Nilai Ujian S/M/PK dengan bobot 30% sampai dengan 50% (lima puluh
persen).
(ps. 4. Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5
tahun 2015).
Kelulusan peserta didik SMP/MTs, SMPLB, SMA/MA/SMAK/SMTK,
SMALB, SMK/MAK ditetapkan oleh
setiap satuan pendidikan yang
bersangkutan dalam rapat dewan guru. (ps. 5. Peraturan menteri Pendidikan dan
Kebudayaan Republik Indonesia No. 5 tahun 2015).
2.3.
Konsep Data Mining
2.3.1. Clustering
Konsep cluster yaitu menemukan kumpulan objek hingga objek-objek
dalam satu kelompok sama (punya hubungan) dengan yang lain dan berbeda
(tidak berhunungan) dengan objek-objek dalam kelompok lain. Tujuan dari
analisa cluster adalah meminimalkan jarak didalam cluster dan memaksimalkan
jarak antar cluster. Tidak di perlukan label kelas untuk setiap data yang diproses
karena label baru dapat diberikan ketika cluster sudah terbentuk.
Ada beberapa pendekatan yang digunakan dalam metode clustering. Dua
pendekatan yang utama adalah clustering dengan pendekatan partisi yang biasa
disebut partition-bassed clustering mengelomokan data dengan memilah-milah
data yang dianalisa ke dalam cluster-cluster yang ada. Metode yang menggunakan
partisi salah satunya adalah K-Means. Selain itu juga terdapat pendekatan
hierarchical clustering yaitu mengelompokan data dengan membuat suatu hirarki
berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang
berdekatan dan yang tidak pada hirarki berjauhan (Prasetyo,2014).
2.3.2. K-Means
K-Means merupakan algoritma pengelompokan iteratif yang melakukan
partisi set data ke dalam sejumlah K cluster yang sudah diteteepkan diawal.
Algoritma K-Means sederhana untuk diimplementasikan dan dijalankan, relatif
cepat dan mudah beradaptasi.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
K-Means dapat diterapkan pada data yang direpresentasikan dalam rdimensi ruang tempat. K-Means mengelompokan set data r-dimensi, X = {x1|i=1,
...,N}, dimana xi ϵ Ɽd yang mengatakan bahwa data ke-i sebagai “titik data”. Perlu
diperhatikan titik harus berada dalam cluster yang mana, dilakukan dengan cara
memberikan setiap titik sebuah ID cluster. Titik dengan ID yang sama berarti
berada dalam satu cluster yang sama, sedangkan titik dengan ID cluster yang
berbeda berada dalam cluster yang berbeda. Dapat dinyatakan dengan vektor
keanggotaan cluster m dengan panjang N dimana mi bernilai ID cluster titik xi.
Parameter yang dimasukan ketika menggunakan algoritma K-Means adalah nilai
K. Nilai K digunakan berdasarkan informasi yang diketahui sebelumnya tentang
sebenarnya berapa banyak cluster data yang muncul dalam X.
Dalaam K-Means, setiap cluster dari K cluster diwakili oleh titik tunggal
dalam Ɽd . Set representatif cluster dinyatakan C= {cj|j=1, ..., K}. Pada saat data
sudah dihutung ketidakmiripan terhadap centroid, maka dipilih ketidakmiripan
yang paling kecil sebagai cluster yang akan diikuti sebagai relokasi data pada
cluster di sebuah iterasi. Relokasi sebuah data dalam cluster yang diikuti dapat
dinyatakan dengan nilai keanggotaan a yang bernilai 0 atau 1. Jika 0 maka tidak
menjadi anggota cluster 1, begitupun sebaliknya.
K-Means mengelompokan
secara tegas data hanya pada satu cluster, maka dari nilai a sebuah data pada
semua cluster, hanya satu yang bernilai 1, sedangkan lainnya 0 seperti dinyatakan
oleh persamaan berkut:
{
..............................................(2.1)
Di mana:
= nilai keanggotaan
i = index data
j = cluster ke j
= data yang masuk ke cluster
= ketidakmiripan (jarak) dari data ke-i ke cluster
.
Relokasi centroid untuk mendapatkan titik centroid C didapatkan dengan
menghitung rata-rata setiap fitur dari semua data yang tergantung dalam setiap
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
cluster. Rata-rata sebuah fitur dari semua data dalam sebuah cluster dinyatakan
oleh persamaan berikut:
∑
Di mana:
= cluster
= anggota cluster ke- k
= nilai pusat cluster baru
= banyaknya anggota cluster ke- k
Untuk meminimalkan fungsi objektif/fungsi biaya non-negatif dinyatakan
oleh persamaan berikut:
∑∑
= jumlah cluster
= jumlah data
= data ke i
= data yang masuk ke cluster
= ketidakmiripan (jarak) dari data ke-i ke cluster
.
Algoritma K-Means untuk mengelompokan suatu data X sebagai berikut:
(Prasetyo, 2014)
1.
Inisiasi: tentukaan nilai K sebagai jumlah cluster yang diinginkan
dan metrik ketidakmiripan (jarak) yang diinginkan. Jika perlu,
tetapkan ambang batas perubahan fungsi objektif dan ambang batas
perubahan posisi centroid.
2.
Pilih K data dari set data X sebagai centroid.
3.
Alokasikan semua data ke centroid terdekat dengan metrik jarak
yang sudah ditetapkan (memperbaharui cluster ID setiap data)
4.
Hitung kembali centroid C berdasarkan data yang mengikuti cluster
masing-masing.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
5.
Ulangi langkah 3 dan 4 hingga kondisi konvergen tercapai, yaitu
(a) perubahan fungsi objektif sudah dibawah ambang batas yang
diinginkan; atau (b) tidak ada data yang berpindah cluster; atau (c)
perubahan posisi centroid sudah dibawah ambang batas yang
ditetapkan.
2.3.3. Distance Space
Distance space adalah proses penghitungan jarak antara suatu dokumen
dengan dokumen lainnya. Euclidean distance adalah salah satu cara untuk
menghitung Distance space. Rumus Euclidean distance dinyatakan pada
persamaan berikut:
√
........(2.4)
Di mana:
= data ke
= data ke j
jarak antara data ke i dan data ke j
= nilai atribut ke satu dari data ke i
= nilai atribut ke satu dari data ke j
= jumlah atribut yang digunakan
(Handoyo dkk, 2014).
2.4.
Validitas Cluster
2.4.1. Analisis Cluster
Analisis cluster merupakan pemrosesan data secara alami dengan algoritma
yang berjalan sendiri sehingga didapatkan kelompok-kelompok yang terbentuk
secara alami pula. Selain parameter-parameter diawal algoritma yang berjalan,
tidak ada lagi yang diberikan kepada sistem setelah alggoritma selesai dilakukan.
Pada dasarnya analisis cluster
adalah proses penggalian informasi yang
sebelumnya tidak ada sehingga seolah-olah menjadi pertanyaan mengapa harus
harus dilakukan evaluasi.
Dalam evaluasi cluster terdapat dua metode yaitu metode unsupervised dan
metode supervided. Metode unsupervised untuk mengukur kebagusan struktur
cluster tanpa membutuhkan eksternal. Metode unsupervised untuk mengukur
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
sejauh mana struktur cluster yang ditemukan olehh algoritma clustering cocok
dengan struktur eksternal. Metode relatif melakukan perbandingan cluster
menggunakan ukuran evaluasi unsupervised dan supervided. (Prasetyo, 2014).
2.4.2. Validitas Internal
Banyak matrik internal yang mengukur validitas cluster pada metode
pengelompokan berbasis partisi didasarkan pada nilai kohesi dan separasi. Kohesi
dalam pengelompokan berbasis partisi didefinisikan sebagai jumalh dari
kedekatan data terhadap centroid dari cluster yang diikutinya. Sedangkan separasi
di antara dua sluster dapat diukur dengan kedekatan dua prototipe (centroid)
cluster. (Prasetyo, 2014)..
2.4.3. Silhouette
Ketepatan sebuah pengelompokan menunjukan seberapa baik proses
pengelompokan dan kualitas kelompok yang terbentuk. Salah satu ukuran
ketepatan yang dapat digunakan dalam menentukan ketepatan pengelompkan
adalah Silhouette Coeficient (Muhammad).
Silhouette dapat digunakan untuk memvalidasi baik sebuah data, cluster
tunggal (satu cluster dari sejumlah cluster), atau keseluruhan cluster. Metode ini
paling banyak digunakan untuk memvalidasi cluster yang menggabungkan nilai
kohesi dan separasi. Untuk menghitung nilai SI dari sebuah data ke-i, ada 2
komponen yaitu
dan
.
adalah rata-rata jarak data ke- terhadap semua data
lainnya dalam satu cluster, sedangkan bi didapatkan dengan menghitung rata-rata
jarak data ke- terhadap semua data dari cluster yang lain tidak dalam satu cluster
dengan data ke- , kemudian diambil yang terkecil. (Prasetyo, 2014).
Berikut formula untuk menghitung
∑
Di mana:
= cluster
= index data
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
= rata-rata jarak data ke – terhadap semua data lainnya dalam satu
cluster.
= jumlah data dalam cluster ke- .
adalah jarak data ke- dengan data ke- dalam suatu cluster .
Berikut adalah formula untuk menghitung
{
∑
}
Di mana:
= cluster
n
= cluster
= index data
= jumlah data dalam cluster ke- .
= Nilai terkecil dari rata-rata jarak data ke- terhadap semua data
dari cluster yang lain tidak dalam satu cluster dengan data ke- .
= jarak data ke- dalam cluster j dengan data ke- dalam suatu
cluster .
(Prasetyo, 2014).
Untuk mendapatkan nilai jumlah Silhouette data ke-
menggunakan
persamaan berikut:
{
}
Di mana:
= Silhouette data ke i dalam 1 cluster
= Nilai terkecil dari rata-rata jarak data ke- terhadap semua data dari
cluster yang lain tidak dalam satu cluster dengan data ke- .
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
= rata-rata jarak data ke – terhadap semua data lainnya dalam satu
cluster.
(Kaufman dan Rousseeuw, 2005)
Nilai S(
rata nilai S(
rata-rata dari sebuah cluster didapatkan dengan menghitung ratasemua data yang bergabung dalam cluster tersebut, seperti pada
persamaan berikut:
∑
= Rata-rata Silhouette cluster j
= Silhouette data ke i dalam 1 cluster j
= index
= jumlah data dalam cluster ke- .
Nilai rata-rata
nilai
dari data set didapatkan dengan menghitung rata-rata
dari semua cluster seperti pada persamaan berikut:
∑
= jumlah cluster.
= Rata-rata Silhouette dari data set
= Rata-rata Silhouette cluster j
(Prasetyo, 2014).
Nilai
mengukur seberapa mirip sebuah data dengan cluster yang
diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut
berada dalam cluster tersebut. Nilai
yang besar menandakan seberapa jeleknya
data terhadap cluster yang lain. (Prasetyo, 2014)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
Hasil perhitungan nilai Silhouette Coeficient dapat bervariasi antara -1
hingga 1. Jika
0 maka objek
= 1 maka objek berada dalam cluster yang tepat. Jika
=
berada di antara dua cluster sehingga objek tersebut tidak jelas
harus dimasukan ke dalam cluster A atau B. Akan tetapi, jika
cluster yang dihasilkan overlapping, sehingga objek
= -1 artinya
lebih tepat dimasukan ke
dalam cluster lain.(Alfian dkk, 2012). Silhouette Coeficient adalah ukuran yang
berguna dari jumlah struktur clustering yang telah ditemukan oleh algoritma
klasifikasi. Silhouette Coeficient adalah berdimensi kuantitas yang paling sama
dengan 1.
Perhitungan nilai Silhouette Coeficient dapat dirumuskan sebagai berikut:
Di mana:
SC = Silhouette Coeficient
= Nilai Silhouette
= cluster
= Nilai maksimum dari semua k.
Rata-rata dari
untuk semua objects
pada sebuah cluster, yang
disebut rata-rata silhouette dalam sebuah cluster. Rata-rata dari
untuk
=
1,2,...n, yang disebut rata-rata silhouette pada data set. Nilai maksimum
didapatkan dari semua percobaan k pada silhouette, dimana
= 2,3,... n-1.
Menurut interpretasi subjektif dari Kauffman dan Rousseeuw(2005) dapat
dilihat pada tabel 2.1. (Kauffman dan Rousseeuw,2005).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Tabel 2. 1 Kriteria Subjektif Kualitas Pengelompokkan Berdasarkan Silhouette
Coeficient (SC)
Nilai SC
0,72 – 1,00
0,51-0,70
0,26-0,50
0-0,25
Interpretasi Oleh Kauffman
Strong Classification
Good Classification
Weak Classification
Bad Classification
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB III
METODOLOGI PENELITIAN
3.1. Sumber Data
Data
yang
digunakan
pada
penelitian
ini
didapat
dari
situs
http://litbang.kemdikbud.go.id/index.php/un untuk data tahun ajaran 2014/2015.
Data yang didapatkan berekstensi .xls dan berisikan nilai SMA dari jurusan IPA
dan IPS.
3.1.1. Data yang digunakan
Data yang digunakan merupakan data nilai siswa program IPA dan IPS.
Untuk program studi IPA terdiri dari mata pelajaran Bahasa Indonesia, Bahasa
Inggris, Matematika, Biologi, Fisika dan Kimia. Sedangkan untuk program studi
IPS terdiri dari mata pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika,
Ekonomi, Sosiologi, dan Geografi. Salah satu contoh data yang digunakan berisi
data seperti yang terdapat dalam tabel 3.1 sampai dengan tabel 3.4.
Tabel 3. 1Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPA
2014/2015
Nama Atribut
Keterangan
Kode Sek.
Kode Sekolah
NAMA SEKOLAH
Nama Sekolah
Sts Sek.
Status Sekolah(Swasta/Negeri)
Jm. Pes
Jumlah Peserta
BIN
Ujian Nasional Bahasa Indonesia
ING
Ujian Nasional Bahasa Ingris
MAT
Ujian Nasional Matematika
FIS
Ujian Nasional Fisika
KIM
Ujian Nasional Kimia
BIO
Ujian Nasional Biologi
TOT
Total Nilai Ujian
22
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
Tabel 3. 2 Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPS
2014/2015
Nama Atribut
Keterangan
Kode Sek.
Kode Sekolah
NAMA SEKOLAH
Nama Sekolah
Sts Sek.
Status Sekolah(Swasta/Negeri)
Jm. Pes
Jumlah Peserta
BIN
Ujian Nasional Bahasa Indonesia
ING
Ujian Nasional Bahasa Ingris
MAT
Ujian Nasional Matematika
EKO
Ujian Nasional Ekonomi
SOS
Ujian Nasional Sosiologi
GEO
Ujian Nasional Geografi
TOT
Total Nilai Ujian
3.2. Spesifikasi Alat
Sistem dibuat dengan menggunakan hardware dan software sebagai berikut:
3.2.1. Spesifikasi Hardware
a.
Proses Intel Pentium Core i5 2.40GHz
b.
RAM 2.00 GB
3.2.2. Spesifikasi Software
a.
Sistem Operasi Microsoft Windows 7
b.
Compiler IDE NetBeans 7.2
Software ini akan digunakan untuk membuat interface dan sekaligus untuk
membuat source code.
3.3.
Tahap-Tahap Penelitian
3.3.1. Studi Kasus
Nilai Ujian Nasional merupakan tolak ukur atau parameter akhir dari
proses pembelajaran di suatu tingkat pendidikan di suatu daerah. Dari nilai Ujian
Nasional tersebut dapat digunakan untuk pemetaan kualitas pendidikan. Untuk
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
mengevaluasi nilai ujian nasional agar dapat terlihat pemetaannya dapat
menggunakan nilai dari mata pelajaran yang diujikan pada program IPA maupun
IPS. Dengan penelitian ini diharapkan dapat menemukan suatu pengelompokan
sekolah yang telah menjalankan Ujian Nasional untuk mengetahui keberhasilan
dari Ujian Nasional.
3.3.2. Penelitian Pustaka
Pada tahap ini, dilakukan penelitian pustaka untuk memperoleh informasi
dan menggali teori-teori tentang teknik data mining. Dalam penelitian ini penulis
mempelajari literatur yang berkaitan dengan teknik data mining asosiasi
khususnya algoritma K-Means dan literatur lainnya yang berguna bagi sistem
yang akan dibangun.
3.3.3. Knowledge Discovery in Database (KDD)
Dalam melakukan proses mengubah data mentah menjadi suatu informasi
yang bermanfaat, penulis menggunakan proses Knowledge Discovery in Database
(KDD) yang terdiri dari pembersihan data, integrasi data, seleksi data,
transformasi data, penambangan data, evaluasi pola, dan presentasi pengetahuan.
Pada tahap pembersihan data dan integrasi data, penulis melakukan secara
manual dengan menggunakan aplikasi microsoft excel. Tahap selanjutnya yaitu
seleksi data, transformasi data, dan penambangan data, penulis mengembangkan
perangkat lunak sebagai alat bantu untuk melakukan tahap-tahap tersebut.
Sedangkan untuk tahap evaluasi pola dan presentasi pengetahuan, penulis
melakukan evaluasi dari hasil penambangan data yang didapat dari perangkat
lunak yang telah dibangun dan menjelaskan hasil evaluasi tersebut agar informasi
yang didapat dapat diterima oleh pihak-pihak yang membutuhkan.
3.3.4. Pengembangan Perangkat Lunak
Pada tahap seleksi data, transformasi data, dan penambangan data di dalam
proses Knowledge Discovery in Database (KDD), penulis mengembangkan
perangkat lunak sebagai alat untuk mengolah Dataset yang penulis miliki untuk
mendapatkan informasi yang berguna.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
Metode yang digunakan oleh penulis dan pengembang sistem adalah
metode waterfall. Metode ini merupakan metode yang paling sering digunakan
oleh para pengembang perangkat lunak. Metode ini menggunakan sistem linier
yaitu apa yang dilakukan pada tahap sebelumnya akan mempengaruhi tahap
selanjutnya.
Metode waterfall mempunyai langkah-langkah sebagai berikut:
1.
Analisa
Pada
langkah
ini
analisa
terhadap
kebutuhan
sistem.
Pengumpulan data dalam tahap ini bisa dilakukan melalui sebuah
penelitian, wawancara atau studi literatur. Seorang sistem analis
bertugas dalam mencari informasi sebanyak mungkin dari user
sehingga sistem yang dibuat dapat sesuai dengan kebutuhan user.
Pada tahapan ini menghasilkan dokumen user requirement yang dapat
digunakan sistem analis untuk menerjemahkan ke dalam bahasa
pemrograman.
2.
Desain
Pada proses desain akan menerjemahkan syarat kebutuhan ke
sebuah perancangan perangkat lunak yang dapat dapat diperkirakan
sebelum diubah ke dalam bahasa pemrograman. Fokus dari proses ini
pada struktur data, arsitektur perangkat lunak, representasi interface,
dan detail algoritma. Tahapan ini akan menghasilkan dokumen yang
disebut software requirement. Dokumen ini yang digunakan seorang
programmer untuk membangun sistemnya.
3.
Pemrograman
Pemrograman merupakan penerjemahan design ke dalam bahasa
pemrograman. Pada tahap ini programmer akan mengubah proses
transaksi yang diinginkan user ke dalam sistem yang dibangun.
4.
Pengujian Perangkat Lunak
Pada tahap pengujian perangkat lunak dilakukan setelah
pemrograman
selesai.
Pengujian
yang
digunakan
adalah
membandingkan perhitungan manual dengan hasil yang diperoleh dari
perangkat lunak. Tujuan pengujian ini adalah untuk menemukan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
kesalahan – kesalahan yang terdapat pada perangkat lunak tersebut
agar kemudian dapat diperbaiki.
3.3.5. Analisis dan Pembuatan Laporan
Analisis yang akan dilakukan adalah analisis kinerja dari alat uji yang
dibuat menggunakan algoritma K-Means, dan hasil analisis tersebut nantinya akan
diolah
kedalam
sebuah
laporan
tugas
akhir.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB IV
PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK
PENAMBANGAN DATA
4.1.
PEMROSESAN AWAL
4.1.1. Pembersihan Data (Data Cleaning)
Sebelum proses data mining dapat dilakukan, perlu proses cleaning pada
data yang menjadi fokus. Pemrosesan pendahuluan dan pembersihan data
merupakan operasi dasar seperti penghapusan noise dilakukan. Pada penelitian ini
ada beberapa sekolah yang tidak ada nilainya maka peneliti menghapus sekolah
yang tidak ada nilai hasil ujian.
4.1.2. Itegrasi Data (Data Integration)
Tahap ini berisikan penggabungan data dari bermacam-macam sumber.
Peneliti menggunakan 2 data terdiri dari data nilai ujian nasional 2014/2015
jurusan IPA dan IPS. Peneliti tidak menggunakan tahap ini dikarenakan data
berasal dari sumber yang sama sehingga tidak perlu melakukan proses integrasi
data karena range nilai yang digunakan juga sudah sama.
4.1.3. Seleksi Data (Data Selection)
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan
sebelum tahap penggalian informasi dalam KDD dimulai. Seleksi data merupakan
proses menganalisis data yang relevan dari dalam database.
Atribut yang tidak digunakan pada data ujian nasional jurusan IPA dan IPS
di DIY tahun 2014/2015 dijelaskan tabel 4.1.
27
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
Tabel 4. 1 Atribut yang tidak digunakan pada data Ujian Nasional 2015
Tahun
2015
Atribut
No.
Kode Sek.
Sts Sek.
Jumlah Peserta
TOT
RANK
Atribut pada tabel tabel 4.5 tidak digunakan sebab atribut dalam tabel-tabel
tersebut hanya atribut pendukung yang tidak digunakan dalam proses clustering.
Proses clustering membutuhkan atribut nama sekolah dan mata pelajaran.
Hasil dari seleksi atribut pada data nilai ujian nasional IPA dan IPS di
Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 dijelaskan pada tabel 4.2
dan 4.3.
Tabel 4. 2 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPA
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015
Nama Atribut
Keterangan
NAMA SEKOLAH
Nama Sekolah
BIN
Ujian Nasional Bahasa Indonesia
ING
Ujian Nasional Bahasa Ingris
MTK
Ujian Nasional Matematika
FSK
Ujian Nasional Fisika
KMA
Ujian Nasional Kimia
BIO
Ujian Nasional Biologi
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
Tabel 4. 3 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPS
di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015
Nama Atribut
Keterangan
NAMA SEKOLAH
Nama Sekolah
BIN
Ujian Nasional Bahasa Indonesia
ING
Ujian Nasional Bahasa Ingris
MTK
Ujian Nasional Matematika
EKO
Ujian Nasional Ekonomi
SOS
Ujian Nasional Sosiologi
GEO
Ujian Nasional Geografi
4.1.4. Tranformasi Data (Data Transformation)
Pada penelitian ini tidak dilakukan normalisasi karena data yang digunakan
memiliki interval yang sama, yaitu 0-100, sehingga tahap ini tidak dilakukan.
Tahap kedua dalam transformasi data yaitu mengubah data numerik menjadi
sebuah keputusan misal Tuntas atau Tidak Tuntas. Dalam penelitian ini pada
tahap ini tidak dilakukan.
4.2.
PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA
4.2.1. Diagram Use Case
Suatu sistem selalu memiliki interaksi antara pengguna dengan sistem itu
sendiri, hal ini digambarkan dalam bentuk diagram use case. Diagram use case
dapat dilihat pada gambar 4.1.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
Gambar 4. 1 Use Case Diagram
Pengguna dalam sistem yang akan dibangun ini hanya satu, diinisialkan
dengan nama pengguna. Interaksi yang dilakukan pengguna adalah: memilih
berkas atau memasukkan data yang akan di kelompokkan, seleksi atribut yang
digunakan, sistem melakukan proses clustering, dan simpan hasil clustering
menggunakan algoritma K-Means dan menyimpan hasil clustering.
4.2.1. 1. Gambaran Umum Use Case
Diagram use case pada lampiran 2 memiliki gambaran umum dari
masing-masing use case. Gambaran umum use case terlampir pada lampiran 3.
4.2.1. 2. Narasi Use Case
Diagram use case pada gambar 4.1 juga memiliki narasi yang merupakan
penjelasan lebih lengkap dari masing-masing use case. Narasi tersebut terdapat
pada lampiran 4.
4.2.2. Perancangan Umum
4.2.2.1.
Input Sistem
Data input dari sistem yang akan dibangun berasal dari file dengan
ekstensi .xls yang dipilih langsung oleh pengguna (user) dari direktori Komputer.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
User juga berperan untuk memasukan nilai k pada textfield yang diinginkan oleh
user. Data yang digunakan adalah data nilai hasil ujian nasional IPA dan IPS
untuk tahun ajaran 2011/2012 sampai 2014/2015.
4.2.2.2.
Proses Sistem
Proses sitem yang akan dibangun terdiri dari beberaapa tahap untuk dapat
melakukan pengelompokan (clustering). Proses sistem yang terdiri dari beberapa
langkah berikut:
1. Pengambilan data yang sudah melalui preprosesing untuk digunakan
pada proses data mining.
2. Menentukan k sesuai dengan keinginan user
3. Proses pengelompokan menggunakan K-Means.
4. Menganalisa hasil pengelompokan K-Means terhadap proses data
mining yang telah dijalankan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
Proses sistem digambarkan pada gambar 4.2 dibawah ini:
Start
Masukan file
tidak
Jumlah
cluster K
File XLS?
tidak
ya
Cek Isi Data
Tentukan Centroid
Data numerik
?
ya
Hitung jarak obyek
ke pusat
Ya
Kelompokan obyek
berdasarkan jarak
terkecil
Proses Clustering
Tidak
Tampilkan Data
Tentukan centroid
baru
Simpan Data
Ada selisih pusat
cluster lama dengan
cluster baru ?
Gambar 4. 2 Diagram flowchart
End
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
4.2.2.3.
Output Sistem
Sistem yang dibangun akan memberikan keluaran (output) berupa data
hasil pengelompokan menggunakan K-Means sesuai dengan k yang telah di
berikan oleh user.
4.2.3.
Diagram Aktivitas (Activity diagram).
Diagram aktivitas digunakan untuk menunjukan aktivitas yang
dikerjakan oleh pengguna dan sistem dalam setiap use case yang disebutkan
dalam gambar 4.1. Berikut adalah diagram aktivitas dari setiap use case.
1. Diagram Aktivitas Input Berkas File .xls
2. Diagram Aktivitas Seleksi Atribut
3. Diagram Aktivitas Proses Clustering input k
4. Diagram Aktivitas Simpan Hasil Clustering.
Detail diagram aktivitas dari setiap use case dapat dilihat pada bagian
lampiran 5.
4.2.4.
Diagram Kelas Desain
Diagram kelas dapat memperlihatkan hubungan antar kelas. Diagram ini
dapat membantu memvisualisasikan struktur kelas-kelas dalam suatu sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Detail kelas dapat dilihat pada gambar dibawah ini:
Home
-JMenuBeranda :JMenuBar
-JMenuBantuan :JMenuBar
-JMenuTentang :JMenuBar
-bt_MasukSistem :jButton
- JMenuBerandaMouseClicked :void
-JMenuBantuanMouseClicked :Void
-JMenuTentangMouseClicked :Void
Clustering_KMeans
Bantuan
-JMenuBeranda :JMenuBar
-JMenuBantuan :JMenuBar
-JMenuTentang :JMenuBar
+ Bantuan () : Constractor
- JMenuBerandaMouseClicked :void
-JMenuBantuanMouseClicked :Void
-JMenuTentangMouseClicked :Void
Tentang
-JMenuBeranda :JMenuBar
-JMenuBantuan :JMenuBar
-JMenuTentang :JMenuBar
+ Tentang () : Constractor
- JMenuBerandaMouseClicked :void
-JMenuBantuanMouseClicked :Void
-JMenuTentangMouseClicked :Void
-JMenuBeranda :JMenuBar
-JMenuBantuan :JMenuBar
-JMenuTentang :JMenuBar
- jfile :JTextField
-jpilihfile :JButton
-table : JTable
-TableSeleksiAtribut :JTable
-jtableatribut2 : JTable
-jButtonPilihAtribut : JButton
- jpreprosesing : JButton
- jmlclustertext : JTextField
- jproses :JButton
- Output :JTextArea
- runTime : JTextArea
- jreset :JButton
-jsimpan : JButton
KMeans
- JMenuBerandaMouseClicked :void
-JMenuBantuanMouseClicked :Void
-JMenuTentangMouseClicked :Void
- initComponents()
+ Clustering_KMeans() : Constractor
+ Preprosesing() : void
+ openFile() : void
+ read() : void
+ KMeans(ArrayList) :void
+ MenentukanCluster (List) :int[]
- Pembersihan() : void
+ Proses() :void
+ Simpan() :void
+Hitung Jarak() : void
Sillhouette
+ Centroid (ArrayList<String> ) : ArrayList<Integer>
+ findCentroid(ArrayList<ArrayList<String>> arr, int[]
indexCluster, int indexCentroid, int ClusterKei) :float
+ KMeans getKmeans() : Constractor
+ min() : static
+sequentialsearch (Double[] number2, double value2)
:int
+ Sillhoutte getsillhoutte() : Constractor
+ hitungjarakSilhoute(ArrayList<ArrayList<String>>
DataSekolah) : ArrayList<ArrayList<Double>>
+ Sillhoute (ArrayList<ArrayList<String>>
TampungNamaSekolah, ArrayList<ArrayList<Integer>>
TampungindeksSekolah, ArrayList<ArrayList<String>>
arr): StringBuffer
Gambar 4. 3 Diagram Kelas Desain
4.2.5. Diagram Sekuen (Sequence Diagram).
Diagram Sekuen adalah diagram yang memperlihatkan atau menampilkan
interaksi-interaksi antar objek di dalam sistem. Diagram sekuen pada sistem ini
terdiri dari 3 diagram sesuai dengan usecase. Diagram dapat dilihat pada lampiran
7.
4.2.6. Algoritma per Method
Rincian algoritma per method terdapat pada lampiran 8.
4.2.7. Perancangan Struktur Data
Sistem pengelompokan K-Means ini membutuhkan suatu tempat
penyimpanan data yang tidak membutuhkan memori yang terlalu banyak dan
tidak menghabiskan waktu yang cukup banyak ketika sistem dijalankan karena
dapat mengolah data dengan efisien. Peneliti menggunakan konsep penyimpanan
data menggunakan struktur data. Struktur data yang digunakan pada sistem ini
adalah ArrayList. ArrayList pada sistem ini mampu menyimpan banyak nilai
dalam sebuah variabel dengan tipe data yang sama dan ukurannya bisa berubah
secara dinamis.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
4.2.7.1.
Array
Array adalah sebuah struktur data yang mampu menyimpan banyak nilai
dalam sebuah variabel dengan tipe data yang sama. Array bagaikan basis data
mini yang berada di memori.
Untuk dapat menggunakan Array dalam kode program, dapat dengan cara
mendeklarasikan
sebuah
variabel
untuk
direferensikan
ke
Array
dan
menspesifikasikan tipe data dari Array. Deklarasi variable Array tidak
mengalokasi ruang di memori hanya mengalokasikan tempat untuk referensi ke
Array yang dibuat. Ukuran Array tidak dapat diubah setelah Array dibuat.
Perhatikan ilustrasi Array pada gambar 4.4 berikut ini:
Gambar 4. 4 Ilustrasi Konsep Array
4.2.7.2.
ArrayList
ArrayList merupakan sebuah struktur data yang mampu menyimpan
banyak nilai dalam sebuah variabel dengan tipe data yang sama dan ukurannya
bisa berubah secara dinamis.
Perhatikan ilustrasi ArrayList pada gambar 4.5 berikut ini:
java.util.ArrayList
size:5
elementData
0
Value1
1
Value2
2
Value3
3
4
Value4
...
...
Value5
Gambar 4. 5 Ilustrasi Konsep ArrayList
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Pada Penelitian ini, penulis menggunakan arraylist dalam arraylist
ArrayList<ArrayList<String>> untuk membuat matriks. Daftar nilai ujian
nasional sebagai elementData. Daftar nilai ujian nasional memiliki nama
sekolah yang saling terhubung dengan nilai mata pelajaran akan berada
dalam index yang sama pada ArrayList. Objek arraylist baru akan selaku
dibuat untuk setiap kode sekolah yang berbeda. Setelah membuat objek
arraylist untuk setiap sekolah maka akan dibuat objek arraylist untuk
menjadikan satu semua objek arraylist sebelumnya. Sebagai contoh akan
dijelaskan pada gambar 4.6 berikut ini:
java.util.ArrayList
size:5
elementData: Dafar
nilai Ujian Nasional
0
Nama
Sekolah
1
1
Nama
Sekolah
2
0
Nama
Sekolah
1
Nilai
Map
el 1
2
Nilai
Map
el 1
3
Nama
Sekolah
3
1
Nama
Sekolah
2
Nama
Sekolah
4
2
3
Nama
Sekolah
4
Nilai
Map
el 1
3
Nama
Sekolah
5
4
Nama
Sekolah
Nilai
Map
el 1
4
Nama
Sekolah
Nilai
Map
el 1
5
dst...
Gambar 4. 6 Perancangan ArrayList
4.2.7.3 HashMap
Secara prinsip ArrayList dibuat dengan memasukan data kedalam sebuah
indeks dengan cara terurut, sedangkan hashmap dengan cara pemetaan, dengan
kata lain tidak berurut. Map seperti array yang indeksnya adalah objek sembarang
bukan integer. Pada map, objek yang digunakan sebagai indeks disebut key dan
objek yang ditunjuk oleh indeks disebut value.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
4.2.8. Perancangan Antarmuka
Sistem clustering yang akan dibangun, memiliki 4 antarmuka yang terdiri
dari antar muka halaman awal, antarmuka bantuan, antarmuka tentang, dan
antarmuka proses clustering.
4.2.8.1.
Halaman Halaman Awal
Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.7
berikut ini:
Beranda Bantuan Tentang
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Table Nilai Ujian Nasional
Logo
Application Title
Masuk Sistem
KRESENTIA NITA KURNIADEWI – 125314031
FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2016
Gambar 4. 7 Antarmuka Halaman Beranda
Halaman ini merupakan halaman utama yang akan tampil. Halaman ini
berisi 3 menu yaitu Beranda, Bantuan, dan Tentang serta tombol Masuk Sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
4.2.8.2.
Halaman Bantuan
Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.8
berikut ini:
Beranda Bantuan Tentang
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Panduan Penggunaan
Table Nilai Ujian Nasional
Application Title
KRESENTIA NITA KURNIADEWI – 125314031
FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2016
Gambar 4. 8 Antarmuka Halaman Bantuan
Halaman ini berisi petunjuk penggunaan sistem yang akan membantu user
ketika user kesulitan atau bingung menggunakan sistem.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
4.2.8.3.
Halaman Tentang
Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.9
berikut ini:
Beranda Bantuan Tentang
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Informasi Sistem
Table Nilai Ujian Nasional
Application Title
KRESENTIA NITA KURNIADEWI – 125314031
FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2016
Gambar 4. 9 Antarmuka Halaman Tentang
Halaman ini berisi tentang mengenai tujuan sistem dibangun dan kegunaanya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
4.2.8.4.
Halaman Clustering K-Means
Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.10
berikut ini:
Beranda Bantuan Tentang
Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas
Menggunakan Metode Clustering K-Means
Browse
Data
Table Nilai Ujian Nasional
Application Title
Seleksi Atribut
Atribut
Output
Pilih
Jumlah Cluster
Reset
Proses
Simpan
Runing Time
KRESENTIA NITA KURNIADEWI – 125314031
FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA
2016
Gambar 4. 10 Antarmuka Halaman Proses
Halaman ini merupakan halaman yang akan ditampilkan ketika pengguna
menekan tombol Masuk Sistem pada halaman Beranda. Halaman ini berfungsi
sebagai sarana untuk memasukan data, memilih atribut yang akan digunakan serta
memberikan k yang diinginkan.
Kemudian
Halaman
Clustering
K-Means
ini
digunakan
untuk
menampilkan hasil iterasi yang telah dilakukan menggunakan algoritma K-Means.
Halaman Clustering K-Means ini akan tampil ketika user menekan tombol Proses
pada halaman praprosesing. Pada halaman ini user juga bisa melihat Running
Time yang dihasilkan, pengguna juga dapat menyimpan hasil clustering.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB V
IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL
5.1 IMPLEMENTASI RANCANGAN PERANGKAT LUNAK
Perangkat lunak pengelompokan menggunakan meetode K-Means ini
memiliki 5 buah kelas.
5.1.1. Implementasi Kelas
Selanjutnya dijelaskan spesifikasi detail dari setiap antarmukka yang ada
pada perangkat lunak ini. Spesifikasi detail dari kelas home dapat dilhat pada
tabel 5.1 berikut:
Tabel 5. 1 Implementasi Kelas Home
ID_Objek
Jenis
Teks
Keterangan
jMenuBeranda
JMenu
Beranda
Jika di klik,
akanmenuju ke
halaman home.java
jMenuBantuan
JMenu
Bantuan
Jika di klik,
akanmenuju ke
halaman Bantuan.java
jMenuTentang
JMenu
Tentang
Jika di klik,
akanmenuju ke
halaman Tentang.java
jtitle1
JLabel
Pengelompokan
Judul perangkat lunak
Nilai Ujian
yang dibangun
Nasional Sekolah
Menengah Atas
jtitle2
JLabel
Menggunakan
Judul perangkat lunak
Metode
yang dibangun
Clustering KMeans
bt_MasukSistem jButton
Masuk Sistem
Jika di klik, akan
menuju halaman
41
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
Clustering_Kmeans.ja
va
jLabel1
JLabel
KRESENTIA
Identitas pembuat
NITA
perangkat lunak
KURNIADEWI125314031
jLabel2
JLabel
FAKULTAS
Identitas fakultas dan
SAINS DAN
universitas pembuat
TEKNOLOGI
perangkat lunak
UNIVERSITAS
SANATA
DHARMA
jLabel5
JLabel
YOGYAKARTA Identitas fakultas dan
universitas pembuat
perangkat lunak
jLabel6
JLabel
2016
Identitas tahun
pembuatan perangkat
lunak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Implementasi antarmuka dari kelas home dapat dilihat pada gambar 5.1
berikut ini.
Gambar 5. 1 Implementasi Antarmuka kelas Home
Spesifikasi detail dari kelas Clustering_Kmeans dapat dilhat pada tabel 5.2
berikut:
Tabel 5. 2 Implementasi Kelas Clustering_KMeans
ID_Objek
Jenis
Teks
Keterangan
jMenuBeranda
JMenu
Beranda
Jika di klik, akan
menuju ke halaman
home.java
jMenuBantuan
JMenu
Bantuan
Jika di klik, akan
menuju ke halaman
Bantuan.java
jMenuTentang
JMenu
Tentang
Jika di klik, akan
menuju ke halaman
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
Tentang.java
jtitle1
JLabel
Pengelompokan
Judul perangkat lunak
Nilai Ujian
yang dibangun
Nasional
Sekolah
Menengah Atas
jtitle2
JLabel
Menggunakan
Judul perangkat lunak
Metode
yang dibangun
Clustering KMeans
jData
JLabel
Jpath
JTextField
Data
Keterangan label
Isi path directory dari
file yang dimasukkan
ke dalam tabel.
Jpilihfile
JButton
Browse
Jika diklik, akan
membuka directory
file yang akan dipilih
Table
JTable
Menampilkan data file
yang dipilih
TableSeleksiAt JTable
Menampilkan nama
ribut
kolom (atribut) pada
tabel, yang akan di
seleksi.
jButtonPilihAt
JButton
Pilih
ribut
Jika diklik, akan
menampilkan nama
kolom (atribut) ke
jtableatribut2.
jtableatribut2
JTable
Menampilkan nama
kolom (atribut) pada
tabel, yang telah di
seleksi.
jLabel2
JLabel
Jumlah Cluster
Keterangan label
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
Jmlclustertext
JTextField
Untuk memasukan
jumlah klaser
Jproses
JButton
Proses
Jika di klik, sistem
akan melakukan
proses clustering.
jTextArea1
jTextArea
Menampilkan hasil
clustering
jLabel9
JLabel
runTime
JTextField
Runing Time :
Keterangan label
Menampilkan running
time
Jreset
JButton
Reset
Jika di klik akan
mereset sistem.
Jsimpan
JButton
Simpan
Jika di klik akan
menyimpan hasil
clustering kedalam
file.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
Implementasi antarmuka dari kelas home dapat dilihat pada gambar 5.2
berikut ini.
Gambar 5. 2 Implementasi Antaramuka Kelas Clustering_Kmeans
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Spesifikasi detail dari kelas Tentang dapat dilhat pada tabel 5.3 berikut:
Tabel 5. 3 Implementasi Kelas Tentang
ID_Objek
Jenis
Teks
Keterangan
jMenuBeranda
JMenu
Beranda
Jika di klik, akan
menuju ke halaman
home.java
jMenuBantuan
JMenu
Bantuan
Jika di klik,
akanmenuju ke
halaman
Bantuan.java
jMenuTentang
JMenu
Tentang
Jika di klik,
akanmenuju ke
halaman Tentang.java
jtitle1
JLabel
Pengelompokan
Judul perangkat lunak
Nilai Ujian
yang dibangun
Nasional Sekolah
Menengah Atas
jtitle2
JLabel
Menggunakan
Judul perangkat lunak
Metode
yang dibangun
Clustering KMeans
jLabel7
JLabel
Jinformasi
jTextField
Informasi Sistem
Keterangan Label
Berisi Informasi
Sistem
jLabel1
JLabel
KRESENTIA
Identitas pembuat
NITA
perangkat lunak
KURNIADEWI125314031
jLabel2
JLabel
FAKULTAS
Identitas fakultas dan
SAINS DAN
universitas pembuat
TEKNOLOGI
perangkat lunak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
UNIVERSITAS
SANATA
DHARMA
jLabel5
JLabel
YOGYAKARTA Identitas fakultas dan
universitas pembuat
perangkat lunak
jLabel6
JLabel
2016
Identitas tahun
pembuatan perangkat
lunak
Implementasi antarmuka dari kelas Tentang dapat dilihat pada gambar 5.3
berikut ini.
Gambar 5. 3 Implementasi Antaramuka Kelas Tentang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Spesifikasi detail dari kelas Tentang dapat dilhat pada tabel 5.4 berikut:
Tabel 5. 4 Implementasi Kelas Bantuan
ID_Objek
Jenis
Teks
Keterangan
jMenuBeranda
JMenu
Beranda
Jika di klik, akan
menuju ke halaman
home.java
jMenuBantuan
JMenu
Bantuan
Jika di klik,
akanmenuju ke
halaman
Bantuan.java
jMenuTentang
JMenu
Tentang
Jika di klik, akan
menuju ke halaman
Tentang.java
jtitle1
JLabel
Pengelompokan
Judul perangkat lunak
Nilai Ujian
yang dibangun
Nasional Sekolah
Menengah Atas
jtitle2
JLabel
Menggunakan
Judul perangkat lunak
Metode
yang dibangun
Clustering KMeans
jLabel7
JLabel
Panduan
Keterangan Label
Penggunaan
Jinformasi
jTextField
Berisi Panduan
Penggunaan
jLabel1
JLabel
KRESENTIA
Identitas pembuat
NITA
perangkat lunak
KURNIADEWI125314031
jLabel2
JLabel
FAKULTAS
Identitas fakultas dan
SAINS DAN
universitas pembuat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
TEKNOLOGI
perangkat lunak
UNIVERSITAS
SANATA
DHARMA
jLabel5
JLabel
YOGYAKARTA Identitas fakultas dan
universitas pembuat
perangkat lunak
jLabel6
JLabel
2016
Identitas tahun
pembuatan perangkat
lunak
Implementasi antarmuka dari kelas Tentang dapat dilihat pada gambar 5.4
berikut ini.
Gambar 5. 4 Implementasi Antaramuka Kelas Bantuan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
Spesifikasi detail dari kelas KMeans dapat dilhat pada tabel 5.5 berikut:
Tabel 5. 5 Implementasi Kelas KMeans
Method
Tipe
Keterangan
findCentroidBaru()
float
Method untuk menemukan
centroid baru
sequentialsearch()
int
Mencari index nilai yang
kecil
Min ()
static
Menemukan nilai yang
lebih kecil
Centroid()
ArrayList<Integer>
Menentukan centroid awal
Spesifikasi detail dari kelas KMeans dapat dilhat pada tabel 5.6 berikut:
Tabel 5. 6 Implementasi Kelas KMeans
Method
Tipe
Keterangan
hitungjarakSilhoute()
ArrayList<ArrayList
Menghitung jarak anatar
<Double>>
data
StringBuffer
Menghitung Sillhouette
Sillhoute()
Index
5.2.
EVALUASI HASIL
5.2.1. Pengujian Perangkat Lunak (Black Box)
5.2.1.1.
Rencana Pengujian Black Box
Pada tabel 5.7 dibawah ini akan dijelaskan rencana pengujian dengan
menggunakan metode black box.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
Tabel 5. 7 Rencana pengujian dengan menggunakan metode black box.
No. Use Case
Butir Uji
Pengujian input berkas data dari file
1.
Input Berkas
bertipe .xls
Pengujian input berkas data dari file
selain bertipe .xls
2.
Seleksi
Pengujian memilih atribut yang
Atribut
digunakan untuk clustering
Pengujian tidak memilih atribut
yang akan digunakan
4.
5.
5.2.1.2.
Proses
Clustering
Simpan Hasil
Clustering
Pengujian melakukan proses
clustering K-Means
Pengujian menyimpan hasil
clustering K-Means ke dalam file.
Kasus Uji
UC1-01
UC1-02
UC2-01
UC2-02
UC4-01
UC5-01
Prosedur Pengujian Black Box dan Kasus Uji
Setelah menyusun rencana pengujian pada tabel 5.7, maka dilakukan
prosedur pengujian serta kasus uji yang terlampir pada lampiran 9.
5.2.1.3.
Evaluasi Pengujian Black Box
Seluruh hasil pengujian black box pada lampiran 15 menunjukan bahwa
perangkat lunak sudah dapat berjalan dengan baik dan sesuai dengan
perancaangan yang sudah dibuat. Hal ini dapat dilihat dari semua fungsi yang
sudah berjalan sesuai dengan yang diharapkan. Perangkat lunak ini juga mampu
menampilkan pesan kesalahan atau error saat perangkat lunak sedang dijalankan
kesalahan user. Hal ini sangat baik karena dapat memudahkan user dalam
menggunakan perangkat lunak ini.
5.2.2. Pengujian Perbandingan Hasil Hitung Manual dengan Hasil
Perangkat Lunak
5.2.2.1.
Penghitungan Manual
Pengujian manual menggunakan data ujian nasional IPA di Daerah
Istimewa Yogyakarta tahun ajaran 2014/2015.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
Proses penghitungan manual dilakukan dengan menggunakan aplikasi
Microsoft Excel. Dalam proses clustering ini menggunakan k=2. Proses
penghitungan manual beserta dengan hasilnya dapat dilihat pada Lampiran 10.
5.2.2.2.
Penghitungan Perangkat Lunak
Pengujian perhitungan perangkat lunak menggunakan data yang sama
dengan perhitungan manual yaitu data nilai ujian nasional IPA di Daerah
Istimewa Yogyakarta tahun ajaran 2014/2015.
Proses penghitungan menggunakan perangkat lunak. Dalam proses
clustering ini menggunakan k=2.
Proses penghitungan manual beserta dengan hasilnya dapat dilihat pada
gambar 5.5 berikut ini.
Gambar 5. 5 Hasil Penambangan Data Menggunakan Perangkat Lunak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
5.2.2.3.
Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil
Perangkat Lunak
Hasil clustering K-Means secara manual dengan dihasilkan oleh perangkat
lunak tidak memiliki perbedaan. Hasil yang diperoleh perangkat lunak sama
dengan hasil yang diperoleh dengan menghitung manual. Disimpulkan perangkat
lunak sudah berjalan dengan baik dan sesuai dengan yang diharapkan.
Tabel 5. 8 Hasil uji perbandingan member percluster secara manual dan sistem
Cluster
1
2
Manual
SMA NEGERI 1
YOGYAKARTA
SMA NEGERI 3
YOGYAKARTA
SMA NEGERI 8
YOGYAKARTA
SMA NEGERI 2
YOGYAKARTA
SMA NEGERI 9
YOGYAKARTA
SMA NEGERI 5
YOGYAKARTA
SMA NEGERI 6
YOGYAKARTA
SMA NEGERI 7
YOGYAKARTA
Sistem
SMA NEGERI 1
YOGYAKARTA
SMA NEGERI 3
YOGYAKARTA
SMA NEGERI 8
YOGYAKARTA
SMA NEGERI 2
YOGYAKARTA
SMA NEGERI 9
YOGYAKARTA
SMA NEGERI 5
YOGYAKARTA
SMA NEGERI 6
YOGYAKARTA
SMA NEGERI 7
YOGYAKARTA
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
5.2.2.4.
Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian
Nasional Jurusan IPA Tahun Ajaran 2014/2015
Pada pengujian perangkat lunak dengan menggunakan Dataset nilai
ujian nasional SMA jurusan IPA 2014/2015 dengan memberikan nilai k =
2,3,4...139 didapatkan hasil seperti pada tabel 5.9.
Tabel 5. 9 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai Ujian
Nasional Jurusan IPA 2014/2015
k
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
Rata-rata
Silhouette
data set
0,49
0,41
0,38
0,33
0,45
0,26
0,25
0,22
0,19
0,23
0,20
0,19
0,18
0,23
0,15
0,15
0,17
0,17
0,15
0,29
0,28
0,29
0,15
0,19
0,19
0,19
0,18
0,12
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
0,13
0,12
0,11
0,13
0,16
0,17
0,25
0,32
0,34
0,32
0,34
0,32
0,30
0,31
0,31
0,31
0,33
0,29
0,28
0,28
0,25
0,30
0,31
0,32
0,29
0,30
0,35
0,32
0,39
0,37
0,36
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
0,39
0,38
0,37
0,38
0,39
0,38
0,40
0,41
0,44
0,44
0,50
0,54
0,55
0,55
0,54
0,57
0,57
0,58
0,54
0,59
0,58
0,55
0,58
0,56
0,59
0,62
0,61
0,61
0,58
0,59
0,61
0,63
0,64
0,67
0,68
0,67
0,68
0,70
0,69
0,70
0,70
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
0,70
0,73
0,72
0,73
0,74
0,76
0,77
0,77
0,80
0,79
0,78
0,79
0,81
0,81
0,82
0,83
0,83
0,84
0,85
0,86
0,87
0,88
0,89
0,89
0,90
0,91
0,92
0,92
0,93
0,93
0,94
0,95
0,96
0,97
0,97
0,98
0,99
0,99
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
Silhouette
Rata-rata Silhouette data set
Jurusan IPA
1,2
1
0,8
0,6
0,4
0,2
0
0
20
40
60
80
100
120
140
160
Jumlah k
Gambar 5. 6 Rata-rata Silhouette data set Jurusan IPA
Berdasarkan hasil pengujian seperti yang terlihat pada tabel 5. 9 data
set Nilai Ujian Nasional SMA Jurusan IPA tahun 2014/2015 dengan memberikan
k = 2,3,4 ... 139 didapatkan hasil sebagai berikut :
1.
Nilai rata-rata silhouette data set tertinggi adalah
0.99 yang
terdapat pada k = 139. Hal ini menurut interpretasi Kauffman dan
Rousseeuw (1990) SC dengan nilai 0.99 dikatakan Strong Classification.
Namun pada kasus data set pengelompokan sekolah SMA berdasarkan
nilai ujian nasional jika dikelompokan menjadi 139 cluster dirasa tidak
rasional dan tidak bermanfaat karena tujuan pengelompokan sekolah salah
satunya adalah untuk pembinaan (misal oleh pengawas sekolah). Menurut
peraturan mentri pendidikan dan kebudayaan pengawas sekolah minimal
mengawasi 7 sekolah berarti untuk n=140 k yang rasional berkisar antara 2
sampai 20.
2.
Berdasarkan tabel 5.9 dan gambar 5.6 dapat dilihat hasil rata-rata
Silhouette data set Jurusan IPA ketika diberi k = 2 hasil silhouette = 0.49
dan ketika diberikan k yang semakin besar hasil silhouette semakin kecil,
Silhouette dataset terkecil pada k = 32 yaitu sebesar 0.11 selanjutnya pada
k = 33 nilai Silhouette dataset beranjak semakin membesar hingga k =138
dengan nilai 0.99. Berdasarkan hal tersebut nilai rata-rata Silhouette data
set tertinggi dan yang paling rasional ketika k = 2 dengan nilai 0.49 yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
dapat dikategorikan sebagai weak Classification. (Kauffman dan
Rousseeuw .1990).
5.2.2.5.
Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian
Nasional Jurusan IPS Tahun Ajaran 2014/2015
Pada pengujian perangkat lunak dengan menggunakan Dataset nilai
ujian nasional SMA jurusan IPS 2014/2015 dengan memberikan nilai k =
2,3,4...158 didapatkan hasil seperti pada tabel 5.11.
Tabel 5. 10 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai
Ujian Nasional Jurusan IPS 2014/2015
k
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
Rata-rata
Silhouette
data set
0,57
0,51
0,43
0,37
0,38
0,32
0,29
0,24
0,28
0,25
0,27
0,22
0,20
0,26
0,20
0,19
0,22
0,18
0,24
0,23
0,22
0,22
0,22
0,23
0,21
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
0,23
0,21
0,20
0,21
0,21
0,19
0,19
0,25
0,24
0,28
0,31
0,30
0,29
0,31
0,30
0,30
0,29
0,29
0,29
0,29
0,29
0,29
0,30
0,29
0,29
0,28
0,31
0,38
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
0,38
0,41
0,42
0,40
0,47
0,46
0,45
0,45
0,46
0,45
0,45
0,45
0,44
0,43
0,41
0,42
0,46
0,47
0,49
0,49
0,50
0,51
0,51
0,50
0,50
0,51
0,51
0,52
0,54
0,55
0,54
0,58
0,56
0,60
0,61
0,61
0,61
0,62
0,63
0,65
0,65
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
0,66
0,68
0,69
0,69
0,71
0,71
0,73
0,73
0,74
0,74
0,76
0,77
0,77
0,78
0,77
0,77
0,78
0,79
0,81
0,81
0,82
0,81
0,81
0,81
0,81
0,81
0,82
0,82
0,82
0,82
0,83
0,84
0,84
0,84
0,85
0,86
0,86
0,86
0,87
0,87
0,87
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
0,88
0,89
0,90
0,90
0,91
0,91
0,92
0,92
0,93
0,94
0,94
0,94
0,95
0,95
0,96
0,97
0,97
0,98
0,98
0,98
0,99
0,99
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
Rata-rata Silhouette data set
Jurusan IPS
1,2
Silhouette
1
0,8
0,6
0,4
0,2
0
0
50
100
150
200
Jumlah k
Gambar 5. 7 Rata-rata Silhouette data set Jurusan IPS
Berdasarkan hasil pengujian seperti yang terlihat pada tabel 5. 11 data
set Nilai Ujian Nasional SMA Jurusan IPS tahun 2014/2015 dengan memberikan
k = 2,3,4 ... 158 didapatkan hasil sebgai berikut :
1. Nilai rata-rata Silhouette data set tertinggi adalah 0.99 yang terdapat pada k
= 158. Hal ini menurut interpretasi Kauffman dan Rousseeuw (1990) SC
dengan nilai 0.99 dikatakan Strong Classification. Namun pada kasus data
set pengelompokan sekolah SMA berdasarkan nilai ujian nasional jika
dikelompokan menjadi 158 cluster dirasa tidak rasional dan tidak
bermanfaat karena tujuan pengelompokan sekolah sekolah salah satunya
untuk pembinaan (misaln oleh pengawas sekolah). Menurut peraturan
mentri pendidikan dan kebudayaan pengawas sekolah minimal mengawasi 7
sekolah berarti untuk n = 159 nilai k yang rasional berkisar antara 2 sampai
22.
2. Berdasarkan tabel 5.10 dan gambar 5.7 dapat dilihat hasil rata-rata
Silhouette data set Jurusan IPS ketika diberi k = 2 hasil silhouette = 0.57
dan ketika diberikan k yang semakin besar hasil silhouette semakin kecil,
Silhouette dataset terkecil pada k = 19 yaitu sebesar 0.19 selanjutnya pada k
= 20 nilai Silhouette dataset beranjak semakin membesar hingga k = 31
namun pada k = 32 dan k = 33 Silhouette dataset kembali mengecil yaitu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
dengan nilai 0.19. Pada k = 34 nilai Silhouette dataset semakin membesar
hingga k = 158 dengan nilai 0.99. Berdasarkan hal tersebut nilai rata-rata
Silhouette data set tertinggi dan yang paling rasional ketika k = 2 dengan
nilai 0.57 dan k = 3 dengan nilai 0.51 yang dapat dikategorikan sebagai
good Classification. (Kauffman dan Rousseeuw.1990).
5.3. KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK
5.3.1. Kelebihan Perangkat Lunak
Kelebihan
yang
dimiliki
oleh
perangkat
lunak
pengelompokan
menggunakan algoritma K-Means ini adalah :
1. Sistem dapat menerima masukan file bertipe .xls
2. Sistem dapat menyeleksi atribut sehingga user tidak perlu menghapus
kolom atau atribut yang tidak ingin digunakan secara manual.
3. Sistem menyediakan isian nilai k sesuai yang diinginkan user.
4. Sistem dapat menampilkan hasil pengelompokan yang mudah dipahami
oleh user.
5. Sistem dapat menampilkan waktu lama proses clustering
6. Sistem dapat menyimpan hasil pengelompokan menggunakan algoritma
K-Means dengan hasil penyimpanan bertipe .xls.
7. Data yang disimpan setelah dilakukan pengelompokan tidak hanya nama
sekolah saja melainkan nilai sekolah juga ikut menyertainya.
5.3.2. Kekurangan Perangkat Lunak
Kekurangan yang dimiliki oleh perangkat
lunak pengelompokan
menggunakan algoritma K-Means ini adalah:
1. Data masuk yang diterima oleh sistem masih terbatas yaitu hanya dari
file bertipe .xls.
2. Sistem hanya dapat melakukan seleksi kolom, tidak dapat melakukan
seleksi baris.
3. Sistem tidak dapat mengubah nilai data secara langsung dari tabel data
pada sistem
4. Ketentuan seleksi atribut diharuskan baris pertama nama sekolah.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
5. Sistem hanya dapat menyimpan hasil pengelompokan menggunakan
algoritma K-Means berupa file bertipe .csv.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
BAB VI
PENUTUP
6.1.
SIMPULAN
Dari pengujian-pengujian yang dilakukan pada sistem Pengelompokan
Sekolah Menengah Atas Di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015
jurusan IPA dan IPS berdasarkan Nilai Ujian Nasional Menggunakan Algoritma
K-Means Clustering ditarik kesimpulan sebagai berikut:
1. Aplikasi pengelompokan Sekolah Menengah Atas Di Daerah Istimewa
Yogyakarta Berdasarkan Nilai Ujian Nasional Menggunakan Metode
Clustering Algoritma K-Means telah berhasil dibangun dan dapat
digunakan untuk mengelompokkan Sekolah Menengah Atas di DIY.
2. Algoritma K-Means dapat digunakan untuk mengelompokkan Nilai Hasil
Ujian Nasional SMA jurusan IPA dan IPS tahun ajaran 2014/2015 di
Daerah Istimewa Yogyakarta dengan cara melakukan proses awal
pembersihan data, integrasi data dan seleksi data. Proses selanjutnya
adalah melakukan proses data mining dengan menerapkan algoritma KMeans yang diawali dengan memasukan nilai k. Selanjutnya menghitung
jarak antara data dengan centroid cluster yang dilakukan berulang hingga
kondisi centroid lama dengan centroid baru bernilai sama, maka akan
didapatkan hasil pengelompokan. Dalam satu kelompok terdapat anggota
sekolah dengan nilai-nilai yang berdekatan.
3. Telah dilakukan evaluasi pengelompokan Data Ujian Nasional Jurusan
IPA dan IPS tahun ajaran 2014/2015 menggunakan Silhouette Coeficient
(SC) dengan nilai k=2 samapi dengan k = n-1. Berdasarkan hasil
Silhouette Coeficient (SC) pengelompokan tersebut dapat disimpulkan
bahwa:
-
Tidak ada nilai Silhouette yang negatif, maka berarti data-data yang
dikelompokan tepat berada pada cluster masing-masing.
64
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
-
Silhouette dataset yang didapatkan untuk data nilai ujian jurusan IPA
berkisar antara 0.12 yang berada di k = 29 sampai 0.99 ketika k=138.
Sedangkan Silhouette dataset yang didapatkan untuk data nilai ujian
jurusan IPS berkisar antara 0.18 yang berada di k = 19 sampai 0.99
ketika k=158.
-
Untuk data nilai ujian jurusan IPA ketika k = 2 diperoleh Silhouette
dataset 0.49 dan ketika diberikan k yang semakin besar maka diperoleh
Silhouette dataset yang didapatkan semakin kecil, Silhouette dataset
terkecil pada k = 32 yaitu sebesar 0.11 selanjutnya pada k = 33 hasil
nilai Silhouette dataset semakin membesar hingga k =138 dengan nilai
0.99.
-
Untuk data nilai ujian jurusan IPS ketika k = 2 diperoleh Silhouette
dataset 0.57 dan ketika diberikan k yang semakin besar maka diperoleh
Silhouette dataset yang didapatkan semakin kecil, Silhouette dataset
terkecil pada k = 19 yaitu sebesar 0.19 selanjutnya pada k = 20 hasil
nilai Silhouette dataset semakin membesar hingga k = 31 namun pada k
= 32 dan k = 33 Silhouette dataset kembali mengecil yaitu dengan nilai
0.19. Pada k = 34 nilai Silhouette dataset semakin membesar hingga k =
158 dengan nilai 0.99.
-
Dari kedua data yang digunakan yaitu IPA dan IPS tahun ajaran
2014/2015 dihasilkan nilai SC untuk data IPA sebesar 0.49 pada k = 2
yang dikategorikan sebagai weak Classification dan untuk data IPS
sebesar 0.57 pada k = 2 dan 0.51 pada k=3 yang dikategorikan sebagai
good Classification. Dengan demikian jumlah cluster yang disarankan
untuk data nilai ujian jurusan IPA adalah 2 dan untuk IPS adalah 2 atau
3.
6.2.
SARAN
Berdasarkan hasil pada tugas akhir ini, penulis memberikan saran untuk
perbaikan dan pengembangan program lebih lanjut antara lain:
1. Sistem ini bisa dilengkapi dengan tambahan pembaca data dari format
selain .xls misal .csv, .doc, dan .txt.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
2. Perangkat Lunak dapat menyimpan hasil clustering kedalam file
selain.csv.
3. Perangkat lunak dapat menampilkan hasil clustering ke dalam
tampilan yang lebih menarik misalnya plot diagram.
4. Pada bagian seleksi atribut, perangkat lunak dapat dilakukan seleksi
baris.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
DAFTAR PUSTAKA
Anonim.2014.Lampiran Peraturan Menteri Pendidikan dan Kebudayaan Nomor
143 Tahun 2014.Jakarta
Anonim.2014.Peraturan Menteri Pendidikan dan Kebudayaan Nomor 143 Tahun
2014.Jakarta
Anonim.2015.Peraturan Pemerintah Republik Indonesia.Jakarta
Han, Jiawei dan Kamber, Micheline.2006. Data Mining Consepts and Techniques
2Edition .San Fransisco:Morgan Kaudmann
Han, Jiawei dan Kamber, Micheline.2012. Data Mining Consepts and Techniques
3Edition .San Fransisco:Morgan Kaudmann
Handoyo, Rendy dkk.2014. Perbandingan Metode Clustering Menggunakan
Metode Single Linkage Dan K - Means Pada Pengelompokan Dokumen.
VOL 15, NO 2, Oktober 2014.
Hermawati, Fajar Astuti.2013. Data Mining. Yogyakarta:Andi
Kadir,
Abdul.2014.Teori
dan
Aplikasi
Struktur
Data
Menggunakan
Java.Yogyaakarta:Andi
Kaufman, Leonard dan Rousseeuw,Peter J.1990. Finding Groups in Data: An
Introduction to Cluster Analysis. New York:Wiley
Kemendikbud, 2015. Kemendikbud Umumkan Tujuh Provinsi Dengan Indeks
Integritas
Tertinggi
Dalam
UN
2015.
http://litbang.kemdikbud.go.id/index.php/un diakses tanggal 7 Februari
2015.
Kusrini dan Luthfi, Emha Taufiq.2009.Algoritma Data Mining.Yogyakarta:Andi
67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
Muhammad, Ardiansyah. Penggunaan Jarak Dynamic Time Warping (Dtw) Pada
Analisis Cluster Data Deret Waktu (Studi Kasus Pada Dana Pihak Ketiga
Provinsi Seindonesia), hal. 2.
Nugroho, Adi.2009.Algoritma dan Struktur Data dengan C#. Yogyakarta:Andi
Prasetyo,
Eko.2014.
Data
Mining-Mengolah
Data
Menjadi
Informasi
Menggunakan Matlab. Yogyakarta: Andi
Sismoro,Heri dan Iskandar, Kusrini.2004.Struktur Data dan Pemrograman
dengan Pascal .Yogyakarta:Andi
Sulistyo,Gunadi H.Ujian Nasional(UN):Harapan, Tantangan, dan Peluang. Jurnal
Ujian Nasional. Vol.9 No.1, April 2007
Turban, E, Ramesh Sharda, Dursun Delen 2015. Decision Support System and
Intelligent System (System Pendukung Keputusan dan Sistem Cerdas).
Andi: Yogyakarta
Download