PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PENGELOMPOKAN SEKOLAH MENENGAH ATAS DI PROVINSI DAERAH ISTIMEWA YOGYAKARTA BERDASARKAN NILAI UJIAN NASIONAL MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh: Kresentia Nita Kurniadewi 125314031 PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2016 i PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI THE CLUSTERING OF SENIOR HIGH SCHOOLS IN DAERAH ISTIMEWA YOGYAKARTA PROVINCE BASED ON THE SCORE OF NATIONAL EXAM USING K-MEANS CLUSTERING ALGORITHM FINAL PROJECT Present as Partiaal Fullfillment of the Requirements to Obtain the Sarjana Komputer Degree in Informatics Engineering Study Program By: Kresentia Nita Kurniadewi 125314031 INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATIC ENGINEERING FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2016 ii PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI MOTO Mintalah, maka akan diberikan kepadamu; carilah, maka kamu akan mendapat; ketoklah, maka pintu akan dibukakan bagimu. (Matius 7:7) v PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI HALAMAN PERSEMBAHAN Karya ini kupersembahkan kepada: Tuhan Yesus Kristus Bunda Maria Keluarga Sahabat vi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI ABSTRAK Ujian Nasional (UN) sebagai tolok ukur atau parameter akhir dari suatu proses pendidikan. Hasil Ujian Nasional digunakan sebagai dasar untuk pemetaan mutu program dan/atau satuan pendidikan di Indonesia. Setiap tahun UN diselenggarakan untuk mendapatkan sebuah informasi yang dapat bermanfat untuk peningkatan mutu pendidikan. Data mining merupakan salah satu bidang ilmu yang dapat digunakan untuk mendapatkan informasi dari kumpulan data. Pada tugas akhir ini digunakan algoritma K-means Clustering yang akan menghasilkan sebuah sistem perangkat lunak yang dapat digunakan untuk mengelompokkan Sekolah Menengah Atas di DIY berdasarkan nilai Ujian Nasional. Sistem ini diuji dengan perbandingan pengujian manual dengan hasil sistem, pengujian black box, pengujian hasil pengelompokan menggunakan Silhouette Coeficient. Dalam melakukan proses mengubah data mentah menjadi sebuah informasi yang bermanfaat, penulis menggunakan proses Knowledge Discovery in Database (KDD) yang terdiri dari pembersihan data, integrasi data, seleksi data, transformasi data, penambangan data, evaluasi data, dan presentasi pengetahuan. Pada tahap pembersihan data dilakukan secara manual, untuk itegrasi data dan transformasi data tidak dilakukan, sedangkan untuk seleksi data dan penambangan data penulis merancang perangkat lunak sebagai alat untuk melakukan tahaptahap tersebut. Sedangkan untuk evaluasi pola dan presentasi pengetahuan, penulis melakukan evaluasi dari hasil penambangan data yang diperoleh dari hasil perangkat lunak dan menjelaskannya agar informasi tersebut dapat diterima oleh pihak-pihak yang membutuhkan. Perangkat lunak diujikan terhadap 8 dataset yang merupakan data Ujian Nasional SMA jurusan IPA dan IPS tahun 2014/2015. Berdasarkan penelitian yang telah dilakukan, dapat diketahui bahwa algoritma K-means dapat digunakan untuk mengelompokkan data tersebut dengan nilai k yang diberikan. Pengujian hasil pengelompokan dengan menggunakan Silhouette Coeficient(SC) terhadap kedua set data yang digunakan yaitu IPA dan IPS tahun ajaran 2014/2015 dihasilkan nilai SC untuk data IPA sebesar 0.49 pada k = 2 yang dikategorikan sebagai weak Classification dan untuk data IPS sebesar 0.57 pada k = 2 dan 0.51 pada k=3 yang dikategorikan sebagai good Classification. Dengan demikian jumlah cluster yang disarankan untuk data nilai ujian jurusan IPA adalah 2 dan untuk IPS adalah 2 atau 3. Kata Kunci : Clustering, K-Means, data mining, nilai ujian nasional, Silhouette Coeficient ix PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI ABSTRACT As The National Exam is used as the final parameter of am educational proccess, the score resulted from National Exam is used as the basis to set the mapping of program quality and/or education unit in Indonesia. National Exam is conducted every year to get sufficient information in the purpose of upgrading the education quality. Data mining is one of disciplines aiming in gaining information among the data collection. In this undergraduate thesis, K-means Clustering alogarithm is used to develop a software that can be used to clasify Senior High School in Jogjakarta based on the the Final Score of National Exam. This system can be tested by compare the manual testing with result of system, black box testing, and result of clustering tested using Silhouette Coeficient. In conducting the proccess of converting raw data into a useful information, the writer used the proccess of Knowledge Discovery in Database (KDD) consisting the data cleaning, data integration, data selection, data mining, data evaluation, and knowledge presentation. Data cleaning was done manually, data integration and data transformation were not conducted, while at the stage of data selection and data mining, the writer designed a software as the tool to succeed the whole stages. Meanwhile, for the pattern evaluation and knowledge presentation, the writer conducted an evaluation from the result of data mining that was obtained from the software result and the writer explained in order tohave the information accepted by the people who required it. The software will be observed toward 8 datasets that were National Exam of Senior High School, both from Social and Exact Discipline –Year 2014/2015. According to the research conducted, it is known that the K-means Alogarithm can be used to clasify the data by the given value of k. Result of clustering, tested using Silhouette Coeficient, toward both data set, that is Social and Exact Discipline year 2014/2015, resulting the value of SC for Exact Discipline 0.49 at k = 2, categorized as weak Classification and for Social Discipline 0.57 at k = 2 and 0.51 at k=3 which was categorized as good Classification. Therefore, the number of clusters recommended for the scoring of Exact Discipline is 2, and 2 or 3 for Social Discipline. Keywords : Clustering, K-Means, data mining, National Exam Score, Silhouette Coeficient x PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI KATA PENGANTAR Puji dan Syukur kepada Tuhan Yang Maha Esa, karena pada akhirnya penulis dapat menyelesaikan penelitian tugas akhir ini yang ber judul “PENGELOMPOKAN BERDASARKAN SEKOLAH NILAI MENENGAH UJIAN NASIONAL ATAS DI DIY MENGGUNAKAN ALGORITMA K-MEANS CLUSTERING” Dalam menyelesaikan seluruh penyusun tugas akhir ini, penulis tak lepas dari dosa, bantuan, dukungan, dan motivasi dari banyak pihak. Oleh karena itu, penulis ingin mengucapkan banyak terima kasih kepada: 1. Tuhan Yesus Kristus dan Bunda Maria yang selalu memberikan anugrah, rahmat, kekuatan, dan keberuntungan sehingga penulis dapat menyelesaikan tugas akhir ini. 2. Kedua orang tua penulis, Johanes Bosco Heru Nuryono dan Maria Imaculata Respita Murti atas doa, kasih sayang, perhatian, kepercayaan, dukungan baik moral maupun financial yang diberikan kepada penulis. 3. Kakak penulis, Ambrosius Hans Gigih Kurniadi dan Ignasius Hans Veda Kurnia yang selalu memberikan semangat, dukungan, dan doa kepada penulis. 4. Bapak Sudi Mungkasi, S.Si, M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan Teknoologi. 5. Ibu Dr. Anastasia Rita Widiarti selaku ketua Program Studi Teknik Informatika. 6. Ibu Paulina Heruningsih Prima Rosa, M.Sc. selaku Dosen Pembimbing Skripsi yang telah memberikan waktu, bimbingan, nasihat, dan motivasi kepada penulis. 7. Bapak Iwan Binanto M.Cs. selaku Dosen Pembimbing Akademik penulis. 8. Seluruh Dosen yang telah mendidik dan memberikan pengetahuan dan pengalaman berharga selama penulis belajar di Universitas Sanata Dharna. 9. Seluruh dosen, sekretariat, laboran, staff, dan perpustakaan yang telah membimbing dan membantu selama proses perkuliahan di Universitas Sanata Dharma. xi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR ISI HALAMAN PERSETUJUAN..............................................................................iii HALAMAN PENGESAHAN...............................................................................vi MOTTO..................................................................................................................v HALAMAN PERSEMBAHAN............................................................................vi PERNYATAAN KEASLIAN KARYA...............................................................vii LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI..............................viii ABSTRAK.............................................................................................................ix ABCTRACT...........................................................................................................x KATA PENGANTAR...........................................................................................xi DATAR ISI..........................................................................................................xiii DATAR GAMBAR..............................................................................................xvi DATAR TABEL..................................................................................................xvii BAB I PENDAHULUAN .................................................................................... 1 1.1. LATAR BELAKANG ........................................................................ 1 1.2. RUMUSAN MASALAH ................................................................... 2 1.3. TUJUAN PENELITIAN .................................................................... 2 1.4. BATASAN MASALAH .................................................................... 2 1.5. MANFAAT PENELITIAN ................................................................ 3 1.6. SISTEMATIKA PENULISAN ........................................................... 3 BAB II LANDASAN TEORI .............................................................................. 6 2.1. PENAMBANGAN DATA ................................................................. 6 2.1.1. Pengertian Penambangan Data ........................................................... 6 2.1.2. Fungsi Penambangan Data ................................................................. 6 2.1.3. Knowledge Discovery in Database (KDD) ......................................... 8 2.2. Ujian Nasional ................................................................................. 10 2.2.1. Definisi Ujian Nasional .................................................................... 10 2.2.2. Tujuan dan Fungsi Ujian Nasional .................................................... 10 2.2.3. Peserta Ujian Nasional ..................................................................... 11 2.2.4. Penyelenggaran Ujian Nasional ........................................................ 12 2.2.5. Strandar Kelulusan ........................................................................... 12 2.3. Konsep Data Mining ........................................................................ 13 2.3.1. Clustering ........................................................................................ 13 2.3.2. K-Means........................................................................................... 13 2.3.3. Distance Space ................................................................................. 16 xiii PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2.4. Validitas Cluster ............................................................................... 16 2.4.1. Analisis Cluster ................................................................................ 16 2.4.2. Validitas Internal .............................................................................. 17 2.4.3. Silhouette ......................................................................................... 17 BAB III METODOLOGI PENELITIAN............................................................ 23 3.1. Sumber Data .................................................................................... 23 3.1.1. Data yang digunakan ........................................................................ 23 3.2. Spesifikasi Alat ................................................................................ 23 3.2.1. Spesifikasi Hardware ....................................................................... 23 3.2.2. Spesifikasi Software ......................................................................... 23 3.3. Tahap-Tahap Penelitian .................................................................... 23 3.3.1. Studi Kasus ...................................................................................... 23 3.3.2. Penelitian Pustaka ............................................................................ 24 3.3.3. Knowledge Discovery in Database (KDD) ....................................... 24 3.3.4. Pengembangan Perangkat Lunak ...................................................... 24 3.3.5. Analisis dan Pembuatan Laporan ...................................................... 26 BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA .................................................................. 26 4.1. PEMROSESAN AWAL ................................................................... 26 4.1.1. Pembersihan Data (Data Cleaning) .................................................. 26 4.1.2. Itegrasi Data (Data Integration) ....................................................... 26 4.1.3. Seleksi Data (Data Selection) ........................................................... 26 4.1.4. Tranformasi Data (Data Transformation) ......................................... 29 4.2. PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA ............................................................................................. 29 4.2.1. Diagram Use Case............................................................................ 29 4.2.1. 1. Gambaran Umum Use Case .............................................................. 30 4.2.1. 2. Narasi Use Case ................................................................................ 30 4.2.2. Perancangan Umum ......................................................................... 30 4.2.2.1. Input Sistem ..................................................................................... 30 4.2.2.2. Proses Sistem ................................................................................... 31 4.2.2.3. Output Sistem................................................................................... 33 4.2.3. Diagram Aktivitas (Activity diagram). .............................................. 33 4.2.4. Diagram Kelas Desain ...................................................................... 33 4.2.5. Diagram Sekuen (Sequence Diagram). ............................................. 34 4.2.6. Algoritma per Method ...................................................................... 34 xiv PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 4.2.7. Perancangan Struktur Data ............................................................... 34 4.2.7.1. Array ................................................................................................ 35 4.2.7.2. ArrayList .......................................................................................... 35 4.2.7.3 HashMap ............................................................................................ 36 4.2.8. Perancangan Antarmuka .................................................................. 37 4.2.8.1. Halaman Halaman Awal ................................................................... 37 4.2.8.2. Halaman Bantuan ............................................................................. 38 4.2.8.3. Halaman Tentang ............................................................................. 39 4.2.8.4. Halaman Clustering K-Means .......................................................... 40 BAB V IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL .......................................................................................................................... 41 5.1 IMPLEMENTASI RANCANGAN PERANGKAT LUNAK .................... 41 5.1.1. Implementasi Kelas .......................................................................... 41 5.2. EVALUASI HASIL ......................................................................... 51 5.2.1. Pengujian Perangkat Lunak (Black Box) .......................................... 51 5.2.1.1. Rencana Pengujian Black Box .......................................................... 51 5.2.1.2. Prosedur Pengujian Black Box dan Kasus Uji ................................... 52 5.2.1.3. Evaluasi Pengujian Black Box .......................................................... 52 5.2.2. Pengujian Perbandingan Hasil Hitung Manual dengan Hasil Perangkat Lunak .............................................................................................. 52 5.2.2.1. Penghitungan Manual ....................................................................... 52 5.2.2.2. Penghitungan Perangkat Lunak ........................................................ 53 5.2.2.3. Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil Perangkat Lunak .............................................................................. 54 5.2.2.4. Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian Nasional Jurusan IPA Tahun Ajaran 2014/2015 ............................... 55 5.2.2.5. Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian Nasional Jurusan IPS Tahun Ajaran 2014/2015................................ 58 5.3. KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK .............. 62 5.3.1. Kelebihan Perangkat Lunak .................................................................. 62 5.3.2. Kekurangan Perangkat Lunak .............................................................. 62 BAB VI ............................................................................................................. 64 PENUTUP ......................................................................................................... 64 6.1. SIMPULAN ..................................................................................... 64 6.2. SARAN ............................................................................................ 65 DAFTAR PUSTAKA............................................................................................67 LAMPIRAN...........................................................................................................69 xv PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR TABEL Tabel 2. 1 Kriteria Subjektif Kualitas Pengelompokkan Berdasarkan Silhouette Coeficient (SC) .................................................................................. 21 Tabel 3. 1Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPA 2014/2015 .......................................................................................... 23 Tabel 3. 2 Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPS 2014/2015 .......................................................................................... 23 Tabel 4. 1 Atribut yang tidak digunakan pada data Ujian Nasional 2015 ............ 28 Tabel 4. 2 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPA di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015 ................... 28 Tabel 4. 3 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPS di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015 ................... 29 Tabel 5. 1 Implementasi Kelas Home ................................................................. 41 Tabel 5. 2 Implementasi Kelas Clustering_KMeans ........................................... 43 Tabel 5. 3 Implementasi Kelas Tentang .............................................................. 47 Tabel 5. 4 Implementasi Kelas Bantuan ............................................................. 49 Tabel 5. 5 Implementasi Kelas KMeans ............................................................. 51 Tabel 5. 6 Implementasi Kelas KMeans ............................................................. 51 Tabel 5. 7 Rencana pengujian dengan menggunakan metode black box. ............. 52 Tabel 5. 8 Hasil uji perbandingan member percluster secara manual dan sistem . 54 Tabel 5. 9 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai Ujian Nasional Jurusan IPA 2014/2015 .............................................. 55 Tabel 5. 10 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai Ujian Nasional Jurusan IPS 2014/2015 .............................................. 58 xvi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR GAMBAR Gambar 2. 1 Tahap-tahap proses Knowledge Discovery in Databese (Han&Kamber, 2006). ....................................................................... 8 Gambar 4. 1 Use Case Diagram ......................................................................... 30 Gambar 4. 2 Diagram flowchart ......................................................................... 32 Gambar 4. 3 Diagram Kelas Desain ................................................................... 34 Gambar 4. 4 Ilustrasi Konsep Array ................................................................... 35 Gambar 4. 5 Ilustrasi Konsep ArrayList ............................................................. 35 Gambar 4. 6 Perancangan ArrayList ................................................................... 36 Gambar 4. 7 Antarmuka Halaman Beranda ........................................................ 37 Gambar 4. 8 Antarmuka Halaman Bantuan ........................................................ 38 Gambar 4. 9 Antarmuka Halaman Tentang ........................................................ 39 Gambar 4. 10 Antarmuka Halaman Proses ......................................................... 40 Gambar 5. 1 Implementasi Antarmuka kelas Home ............................................ 43 Gambar 5. 2 Implementasi Antaramuka Kelas Clustering_Kmeans .................... 46 Gambar 5. 3 Implementasi Antaramuka Kelas Tentang ...................................... 48 Gambar 5. 4 Implementasi Antaramuka Kelas Bantuan ...................................... 50 Gambar 5. 5 Hasil Penambangan Data Menggunakan Perangkat Lunak ............. 53 Gambar 5. 6 Rata-rata Silhouette data set Jurusan IPA ..................................... 587 Gambar 5. 7 Rata-rata Silhouette data set Jurusan IPS ....................................... 61 xvii PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB I PENDAHULUAN 1.1. LATAR BELAKANG Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dengan database besar (Kusrini, 2009). Data mining bisa digunakan oleh perusahan atau instansi besar untuk menggali data untuk mendapatkan informasi yang dapat menunjang dan meningkatkan kualitas perusahaan/instansi tersebut. Terdapat banyak metode yang digunakan dalam data mining salah satunya adalah metode clustering. Clustering untuk menemukan kumpulan objek hingga objek-objek dalam kelompok sama (atau punya hubungan) dengan yang lain dan berbeda (atau tidak berhubungan) dengan objek-objek dalam kelompok lain. Tujuan dari analisis cluster adalah meminimalkan jarak di dalam cluster dan memaksimalkan jarak antara cluster (Hermawati, 2013). Salah satu algoritma clustering adalah KMeans. Algoritma K-Means merupakan algoritma pengelompokan interaktif yang melakukan partisi set data ke dalam sejumlah K cluster yang sudah ditetapkan di awal (Prasetyo, 2014). Salah satu data yang dapat digunakan dalam penambangan data adalah data Ujian Akhir Nasional. Pendidikan sangat diperlukan untuk mempersiapkan generasi muda agar menjadi sumber daya manusia (SDM) yang mampu bersaing. Badan Standar Pendidikan Nasional Tahun 2010 menyebutkan pendidikan adalah usaha sadar dan terencana untuk mewujudkan suasana belajar dan proses pembelajaran ajar peserta didik secara aktif menyumbangkan potensi dirinya untuk memiliki kekuatan spiritual keagamaan, pengendalian diri, kepribadian, kecerdasan, akhlak mulia, serta keterampilan yang diperlukan dirinya, masyarakat, bangsa dan negara yang tertuang dalam UU No 20 Tahun 2003. Sejak tahun 2002/2003 pemerintah mengganti Evaluasi Belajar Tahap Akhir Nasional (EBTANAS) menjadi Ujian Akhir Nasional (UAN) sebagai tolok ukur atau parameter akhir dari suatu proses pendidikan (Sulistyo, 2007). Menurut Peraturan Pemerintah Republik Indonesia 1 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 2 No. 13 Tahun 2015 Pasal 68 menyebutkan bahwa Hasil Ujian Nasional digunakan sebagai dasar untuk pemetaan mutu program dan/atau satuan pendidikan, pertimbangan seleksi masuk jenjang pendidikan berikutnya, dan pembinaan dan pemberian bantuan kepada satuan pendidikan dalam upaya meningkatkan mutu pendidikan. Sesuai dengan konsep clustering yang membagi data menjadi kelompok-kelompok maka dapat dilakukan pengelompokan Sekolah Menengah Atas yang ada di DIY menggunakan data Nilai Ujian Nasional untuk melihat peta mutu pendidikan. Berdasarkan hal di atas, maka penulis mengangkat judul skripsi yaitu “Pengelompokan Sekolah Menengah Atas Di DIY Berdasarkan Nilai Ujian Nasional Menggunakan Algoritma K-Means Clustering”. 1.2. RUMUSAN MASALAH Dari latar belakang diatas, maka rumusan masalah dalam penelitian ini adalah: 1. Apakah algoritma K-Means dapat dipergunakan untuk mengelompokkan Sekolah Menengah Atas di DIY berdasarkan nilai Ujian Nasional ? 2. Bagaimana evaluasi hasil clustering menggunakan Silhouette Coeficient? 1.3. TUJUAN PENELITIAN Tujuan penelitian ini adalah mengimplementasi algoritma K-Means untuk mempermudah pengelompokkan Sekolah Menengah Atas berdasarkan nilai Ujian Nasional. 1.4. BATASAN MASALAH Masalah dibatasi sebagai berikut: 1. Metode yang digunakan dalam penelitian ini adalah metode clustering algoritma K-Means 2. Data yang digunakan adalah data nilai Ujian Nasional SMA di DIY pada 2014/2015 jurusan IPA dan IPS. 3. Aplikasi akan dibuat menggunakan pemrograman Java Desktop Standard Edition. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 3 1.5. MANFAAT PENELITIAN Manfaat penulisan tugas akhir ini adalah sebagai berikut: 1. Penelitian ini diharapkan dapat memberikan manfaat untuk pihak-pihak dalam dunia pendidikan, terutama dinas pendidikan. Dinas pendidikan dapat menggunakan penelitian ini sebagai salah satu bahan masukan pengambilan kebijakan pembinaan dan pemberian bantuan kepada satuan pendidikan dalam upaya meningkatkan mutu pendidikan. 2. Sebagai referensi bagi peneliti yang berkaitan dengan clustering pemetaan atau pengelompokan sekolah. 1.6. SISTEMATIKA PENULISAN Sistematika penulisan Tugas Akhir ini adalah sebgai berikut: 1. BAB I. PENDAHULUAN Pada Bab ini memberikan gambaran singkat dan menyeluruh mengenai sistem pengelompokan nilai ujian nasional SMA pada tiap kompetensi. Bab I ini meliput latar belakang masalah, batasan masalah, tujuan dan manfaat penelitian, rumusan masalah, metodologi penelitian, dan sistematika penulisan. 2. BAB II. LANDASAN TEORI Pada Bab ini mengemukakan teori-teori yang digunakan sebagai acuan dalam perancangan dan pengimplementasikan sistem pengelompokan nilai ujian nasional SMA pada tiap kompetensi. 3. BAB III. METODOLOGI PENELITIAN Bab ketiga ini akan menjelaskan gambaran umum penelitian, data, spesifikasi alat, dan tahap-tahap penelitian. 4. BAB IV : PEMROSESAN AWAL DAN PERANGKAT LUNAK PENAMBANGAN DATA PERANCANGAN PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 4 Pada bab keempat ini berisi pemrosesan awal dalam proses Knowledge Discovery in Database (KDD) yaitu pembersihan data, integrasi data, seleksi data, dan transformasi data. Selain itu bab ini juga akan berisi perancangan perangkat lunak yang akan digunakan dalam tahap penambangan data. Perancangan perangkat lunak tersebut terdiri dari perancangan umum, diagram use case, diagram aktivitas, diagram sekuen, algoritma per method, struktur data, dan perancangan antarmuka. 5. BAB V. IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL Pada bab kelima ini berisi implementasi rancangan perangkat lunak penambangan data dan evaluasi hasil yang terdiri dari pengujian perangkat lunak (black box), pengujian perbandingan hitung manual dengan hasil sistem, Evaluasi hasil clustering menggunakan Silhouette Index, kelebihan sistem, dan kekurangan sistem. 6. BAB VI. PENUTUP Pada Bab ini berisi tentang kesimpulan dan saran dari skripsi yang telah dibuat serta pengembangan penelitian ke depan. . PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB II LANDASAN TEORI 2.1. PENAMBANGAN DATA 2.1.1. Pengertian Penambangan Data Penambangan data (Data Mining) menghadirkan suatu proses yang dikembangkan untuk menguji sejumlah data besar. Data-data yang dapat digunakan dalam penambangan data adalah data pemasaraan, kesehatan, pendidikan, dan lain-lain. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstrasi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari berbagai database besar (Turban,2005). Data mining mempunyai tujuan untuk mendapatkan hubungan atau pola yang mungkin memberikan indikasi yang bermanfaat. 2.1.2. Fungsi Penambangan Data Menurut Han dkk. (2006) fungsionalitas data mining yang digunakan untuk menentukan pola dapat ditemukan pada tugas data mining. Secara umum tugas data mining dapat di klasifikasikan ke dalam dua kategori: deskriptif dan prediktif. Tugas penambangan deskriptif adalah melakukan karakterisasi sifat umum dari data dalam basis data. Sedangkan Tugas penambangan prediksi adalah untuk melakukan inferensi pada data saat ini untuk membuat prediksi. Fungsi data mining dan jenis pola yang dapat ditemukan, yaitu: a. Konsep/Deskripsi Kelas Data dapat dikaitkan dengan kelas atau konsep. Deskripsi seperti kelas atau konsep yang disebut deskripsi kelas/konsep. Deskripsi tersebut dapat diturunkan melalui karakterisasi data, dengan merangkum data dari kelas yang diteliti(sering disebut kelas target) secara umum, atau dengan diskriminasi data, dengan perbandingan target kelas dengan satu atau satu 5 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 6 set kelas komparatif (sering disebut kelas kontras), atau baik krakterisasi data dan diskriminasi. b. Penambangan Kemunculan Pola, Asosiasi, Korelasi Pola yang sering adalah pola yang sering terjadi di data. Jenis pola yang dimaksud adalah itemset, subsequences, dan substructure. Sebuah itemset biasanya mengacu pada satu set item yang sering muncul bersamasama. Sebuah subsequences sering terjadi misalnya pada pola pelanggan cenderung membeli PC pertama, diikuti oleh kamera digital, dan kemudian kartu memori. Sebuah substructure dapat merujuk untuk bentuk struktural yang berbeda, seperti grafik, tree atau kisi yang dapat dikombinasikan dengan itemset atau subsequences. Substructure yang sering terjadi, itu disebut (Frequent) pola terstruktur. Penambangan pola yang sering mengarah pada penemuan asosiasi yang menarik dan korelasi dalam data. c. Klasifikasi dan Prediksi Klasifikasi adalah proses menemukan model (fungsi) yang menggambarkan dan yang membedakan kelas data atau konsep dengan tujuan mampu menggunakan model untuk memprediksi kelas objek yang label kelas tidak diketahui. Ada banyak metode untuk membangun classificationmodels, seperti naive bayesian classification, support vector machines, dan k-nearest neighbor classification. Prediksi digunakan untuk memprediksi hilang atau tidak tersedianya data nilai numerik pada label kelas. Analisis regresi adalah metodologi statistik yang paling sering digunakan untuk prediksi numerik. Prediksi juga meliputi identifikasi tren distribusi berdasarkan data yang tersedia. Klasifikasi dan prediksi mungkin perlu didahului dengan analisis relevansi, yang mencoba untuk mengidentifikasi atribut yang tidak memberikan kontribusi terhadap klasifikasi atau prediksi proses. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 7 d. Analisis Cluster Analisis klaster objek data tanpa berkonsultasi dengan label kelas yang diketahui. Data dikelompokkan berdasarkan prinsip memaksimalkan kesamaan intraclass dan meminimalkan kesamaan antar kelas. Dengan kata lain, kelompok benda terbentuk sehingga objek dalam cluster memiliki kesamaan yang tinggi dibandingkan satu sama lain , tetapi sangat berbeda untuk objek dalam cluster lainnya . Setiap cluster yang terbentuk dapat dilihat sebagai kelas objek. e. Analisi Outlier Sebuah basis data dapat berisi objek data yang tidak sesuai dengan perilaku umum atau model data. Peristiwa langka bisa lebih menarik daripada yang terjadi lebih teratur . Sebagian besar metode data mining membuang outlier sebagai noise atau pengecualian. Namun, dalam beberapa aplikasi seperti deteksi penipuan, peristiwa langka bisa lebih menarik daripada peristiwa yang sering terjadi. Analisis data outlier disebut sebagai outlier mining. Outlier dapat dideteksi menggunakan uji statistik yang mengasumsikan distribusi atau model probabilitas data, atau menggunakan pendekatan jarak di mana objek yang berbeda dari setiap lainnya dianggap outlier . f. Analisi Evolution Analisis evolusi menggambarkan data dan model keteraturan atau tren untuk objek yang perilakunya berubah dari waktu ke waktu. Meskipun termasuk dalam karakterisasi, diskriminasi, asosiasi dan analisis korelasi, klasifikasi, prediksi, atau pengelompokan data, fitur yang berbeda dari analisis tersebut meliputi analisis data time-series, urutan atau periodisitas pencocokan pola, dan analisis data berbasis kesamaan. (Han dkk,2006) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 8 2.1.3. Knowledge Discovery in Database (KDD) Menurut Han dkk. (2006), penambangan data tidak dapat dipisahkan dari proses Knowledge Discovery in Databese (KDD). KDD merupakan sebuah proses mengubah data mentah menjadi suatu informasi yang berguna. Illustrasi proses KDD dapat dilihat pada gambar 2.1. Gambar 2. 1 Tahap-tahap proses Knowledge Discovery in Databese (Han&Kamber, 2006). PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 9 Knowledge Discovery merupakan suatu proses digambarkan dalam Gambar 2.1 dan terdiri dari langkah-langkah sebagai berikut: 1. Pembersihan Data ( Data Cleaning) Pembersihan Data dilakukan untuk menghilangkan noise dan data yang tidak konsisten. Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Lalu dilakukan juga proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. 2. Integrasi Data (Data Integration) Tahap ini berisikan penggabungann dari beberapa sumber data. 3. Seleksi Data (Data Selection) Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Seleksi data merupakan proses menganalisi data yang relevan dari dalam database. 4. Transformasi Data (Data Transformation) Tahap ini mengubah atau mengkonsolidasi data ke dalam bentuk yang sesuai untuk dilakukan penambangan data. 5. Penambangan Data (Data Mining) Data mining adalah proses proses penting di mana metode cerdas yang diterapkan untuk mengekstrak pola data. 6. Evaluasi Pola (Pattern Evaluation) Evaluasi pola digunakan untuk mengidentifikasi pola-pola yang benarbenar menarik yang mewakili pengetahuan berdasarkan pada beberapa langkah penting. 7. Presentasi Pengetahuan (Knowledge Presentation) Tahap ini merupakan proses teknik visualisasi dan representasi pengetahuan digunakan untuk menyajikan pengetahuan hasil penambangan kepada pengguna. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 10 2.2. Ujian Nasional 2.2.1. Definisi Ujian Nasional Ujian adalah kegiatan yang dilakukan untuk mengukur pencapaian Kompetensi Peserta Didik debagai pengakuan prestasi belajar dan penyelesaian dari salah satu pendidikan. Ujian Nasional adalah evaluasi tahap Akhir yang merupakan salah satu proses pengukuran hasil belajar dan mutu pendidikan yang telah dilaksanakan secara nasional di Indonesia sejak tahun 1985. Ujian Nasional diadakan untuk peningkatan mutu pendidikan dan daya saing sumber daya manusia Indonesia. Pemerintah telah menetapkan standar kelulusan minimal yang harus dicapai peserta didik. Hasil Ujian Nasional bertujuan untuk pemetakan mutu program dan satuan pendidikan yaitu; (1) pemetaan mutu pendidikan yaitu memperoleh gambaran perbandingan mutu pendidikan antar sekolah/madrasah, dan antar wilayah dari tahun ke tahun, (3) pertimbangan seleksi masuk jenjang pendidikan berikutnya, (5) pembinaan dan memberian bantuan kepada satuan pendidikan dalam upaya meningkatkkan mutu pendidikan di Indonesia. Dalam pelaksanaan UN tahun 2015 mengenai standar nasional pendidikam pemerintah telah mengatur dalam Peratuaran Pemerinrah Republik Indonesia Nomor 13 Tahun 2015 tentang Perubahan Kedua Atas Peraturan Pemerintah Nomor 19 Tahun 2005 Tentang Standar Nasional Pendidikan. Disebut dalam pasal 1 ayat 29 Badan Standar Nasional Pendidikan (BSNP) adalah badan mandiri dan Independen yang bertugas mengembangkan, memantau, dan mengendalikan Standar Nasional Pendidikan. Pembinaan sekolah misalnya oleh pengawas sekolah, pelaksanaan pembinaan oleh pengawas untuk SMP/MTs, SMA/MA, dan SMK/MAK paling sedikit 7 (tujuh) satuan pendidikan menurut Peraturan Menteri Pendidikan dan Kebudayaan No 143 Tahun 2014. 2.2.2. Tujuan dan Fungsi Ujian Nasional Berdasarkan Peraturan Menteri Pendidikan dan Kebudayaan Republik Indonesia Nomor 5 Tahun 2015 BSNP (Badan Standar Nasional Pendidikan) menyelengarakan Ujian Nasional bekerja sama dengan instansi terkait di PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 11 lingkungan Pemerintah, Pemerintah provinsi, pemerintah kabupaten/kota dan satuan pendidikan sesuai dengan kurikulum yang berlaku. Penilaian hasil belajar bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional paada mata pelajaran tertentu dan di lakukan dalam bentuk ujian nasional. (ps. 66, peraturan pemerintah republik indonesia nomor 13 tahun 2015). Hasil ujian nasional digunakan sebagai dasar untuk : a. pemetaan mutu program dan/atau satuan pendidikan. b. pertimbangan seleksi jenjang pendidikan berikutnya. c. pembinaan dan pemberian bantuan kepada satuan pendidikan dalam upaya untuk meningkatkkan mutu pendidikan. 2.2.3. Peserta Ujian Nasional Setiap peserta didik jalur pendidikan formal pendidikan dasar dan menengah dan jalur pendidikan nonformal kesetaraan berhak mengikuti Ujian nasioal dan berhak mengulainya sepanjang belum dinyatakan memenuhi kriteria pencapaian kompetensi lulusan. Peserta didik wajib mengikuti satu kali Ujian nasional tanpa dipungut biaya. Peserta Didik jalur pendidikan formal pendidikan dikecualikan untuk Peserta Didik SD/MI/SDLB atau bentuk lain yang sederajat. Peserta Didik pendidikan informal dapat mengikuti Ujian nasional setelah memenuhi syarat yang ditetapkan oleh BSNP. Peserta Ujian nasional memperoleh surat keterangan hasil Ujian nasional yang diterbitkan oleh satuan pendidikan penyelenggara Ujian nasional. (ps.69, Peraturan Pemerintah Republik Indonesia Nomor 13 Tahun 2015). Dalam Peraturan Menteri Pendidikan dan Kebuyaan Republiik Indonesia No. 15 tahun 2015 Persyaratan peserta didik pada jalur formal yang mengikuti ujian nasional adalah telah atau pernah berada pada tahun terakhir pada suatu jenjang pendidikan di satuan pendidikan, dan memiliki laporan lengkap penilaian hasil belajar pada suatu jenjang pendidikan di satuan pendidikan tertentu mulai semester I sampai dengan semester V. Persyaratan peserta pendidikan kesetaraan yang mengikuti ujian nasional adalah berasal dari PKBM, kelompok belajar pada SKB, Pondok Pesantren penyelenggara Program Wustha, atau kelompok belajar sejenis dan memiliki laporan lengkap penilaian hasil belajar pada Pendidikan Kesetaraan. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 12 2.2.4. Penyelenggaran Ujian Nasional Dalam Peraturan Mentri Pendidikan dan Kebudayaan Republik Indonesia No 5 tahun 2015 pasal 14 menyebutkan bahwa BSNP (Badan Standar Nasional Pendidikan) menyelenggarakan UN bekerja sama dengan instansi terkait di lingkungan Pemerintah, pemerintah provinsi, pemerintah kabupaten/kota, dan satuan pendidikan. BSNP sebagai penyelengara UN bertugas untuk menelaah dan menetapkan kisi-kisi UN, menyusun dan menetapkan POS pelaksanaan UN, menelaah dan menetapkan naskah soal UN, memberikan rekomendasi kepada Menteri tentang pembentukan Panitia UN Tingkat Pusat, melakukan koordinasi persiapan dan pengawasan pelaksanaan UN secara nasional, dan melakukan evaluasi dan menyusun rekomendasi perbaikan pelaksanaan UN. 2.2.5. Strandar Kelulusan Peserta didik dinyatakan lulus dari suatu pendidikan setelah menyelesaikan seluruh program belajar, memperoleh nilai sikap.perilaku minimal baik, dan lulus ujian S/M/PK. Kelulusan peserta didik dari ujian S/M ditetapkan oleh satuan pendidikan. Kelulusan peserta didik dari ujian PK ditetapkan oleh Dinas Pendidikan Provinsi. Dan Kelulusan peserta didik ditetapkan setelah satua pendidikan menerima hasil ujian nasional peserta didik yang bersangkutan. (ps.2 Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015). Kriteria kelulusan peserta didik mencakup minimal rata-rata nilai dan minimal nilai setiap mata pelajaran yang ditetapkan oleh satuan pendidikan. Nilai S/M/PK sebagaimana dimaksud pada ayat (1) dan ayat (2) diperoleh dari gabungan: a. Rata-rata nilai rapor dengan bobot 50% (lima puluh persen) sampai dengan 70% (tujuh puluh persen): 1. Semester I sampai dengan semester V atau yang setara pada SMP/MTs, SMPLB, dan Paket B/Wustha; 2. Semester III sampai dengan semester V atau yang setara pada SMA/MA/SMAK/SMTK, SMALB, SMK/MAK, dan Paket C; 3. Semester I sampai dengan semester V atau yang setara bagi SMP/MTs dan SMA/MA/SMAK/SMTK yang menerapkan sistem SKS. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 13 b. Nilai Ujian S/M/PK dengan bobot 30% sampai dengan 50% (lima puluh persen). (ps. 4. Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015). Kelulusan peserta didik SMP/MTs, SMPLB, SMA/MA/SMAK/SMTK, SMALB, SMK/MAK ditetapkan oleh setiap satuan pendidikan yang bersangkutan dalam rapat dewan guru. (ps. 5. Peraturan menteri Pendidikan dan Kebudayaan Republik Indonesia No. 5 tahun 2015). 2.3. Konsep Data Mining 2.3.1. Clustering Konsep cluster yaitu menemukan kumpulan objek hingga objek-objek dalam satu kelompok sama (punya hubungan) dengan yang lain dan berbeda (tidak berhunungan) dengan objek-objek dalam kelompok lain. Tujuan dari analisa cluster adalah meminimalkan jarak didalam cluster dan memaksimalkan jarak antar cluster. Tidak di perlukan label kelas untuk setiap data yang diproses karena label baru dapat diberikan ketika cluster sudah terbentuk. Ada beberapa pendekatan yang digunakan dalam metode clustering. Dua pendekatan yang utama adalah clustering dengan pendekatan partisi yang biasa disebut partition-bassed clustering mengelomokan data dengan memilah-milah data yang dianalisa ke dalam cluster-cluster yang ada. Metode yang menggunakan partisi salah satunya adalah K-Means. Selain itu juga terdapat pendekatan hierarchical clustering yaitu mengelompokan data dengan membuat suatu hirarki berupa dendogram dimana data yang mirip akan ditempatkan pada hirarki yang berdekatan dan yang tidak pada hirarki berjauhan (Prasetyo,2014). 2.3.2. K-Means K-Means merupakan algoritma pengelompokan iteratif yang melakukan partisi set data ke dalam sejumlah K cluster yang sudah diteteepkan diawal. Algoritma K-Means sederhana untuk diimplementasikan dan dijalankan, relatif cepat dan mudah beradaptasi. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 14 K-Means dapat diterapkan pada data yang direpresentasikan dalam rdimensi ruang tempat. K-Means mengelompokan set data r-dimensi, X = {x1|i=1, ...,N}, dimana xi ϵ Ɽd yang mengatakan bahwa data ke-i sebagai “titik data”. Perlu diperhatikan titik harus berada dalam cluster yang mana, dilakukan dengan cara memberikan setiap titik sebuah ID cluster. Titik dengan ID yang sama berarti berada dalam satu cluster yang sama, sedangkan titik dengan ID cluster yang berbeda berada dalam cluster yang berbeda. Dapat dinyatakan dengan vektor keanggotaan cluster m dengan panjang N dimana mi bernilai ID cluster titik xi. Parameter yang dimasukan ketika menggunakan algoritma K-Means adalah nilai K. Nilai K digunakan berdasarkan informasi yang diketahui sebelumnya tentang sebenarnya berapa banyak cluster data yang muncul dalam X. Dalaam K-Means, setiap cluster dari K cluster diwakili oleh titik tunggal dalam Ɽd . Set representatif cluster dinyatakan C= {cj|j=1, ..., K}. Pada saat data sudah dihutung ketidakmiripan terhadap centroid, maka dipilih ketidakmiripan yang paling kecil sebagai cluster yang akan diikuti sebagai relokasi data pada cluster di sebuah iterasi. Relokasi sebuah data dalam cluster yang diikuti dapat dinyatakan dengan nilai keanggotaan a yang bernilai 0 atau 1. Jika 0 maka tidak menjadi anggota cluster 1, begitupun sebaliknya. K-Means mengelompokan secara tegas data hanya pada satu cluster, maka dari nilai a sebuah data pada semua cluster, hanya satu yang bernilai 1, sedangkan lainnya 0 seperti dinyatakan oleh persamaan berkut: { ..............................................(2.1) Di mana: = nilai keanggotaan i = index data j = cluster ke j = data yang masuk ke cluster = ketidakmiripan (jarak) dari data ke-i ke cluster . Relokasi centroid untuk mendapatkan titik centroid C didapatkan dengan menghitung rata-rata setiap fitur dari semua data yang tergantung dalam setiap PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 15 cluster. Rata-rata sebuah fitur dari semua data dalam sebuah cluster dinyatakan oleh persamaan berikut: ∑ Di mana: = cluster = anggota cluster ke- k = nilai pusat cluster baru = banyaknya anggota cluster ke- k Untuk meminimalkan fungsi objektif/fungsi biaya non-negatif dinyatakan oleh persamaan berikut: ∑∑ = jumlah cluster = jumlah data = data ke i = data yang masuk ke cluster = ketidakmiripan (jarak) dari data ke-i ke cluster . Algoritma K-Means untuk mengelompokan suatu data X sebagai berikut: (Prasetyo, 2014) 1. Inisiasi: tentukaan nilai K sebagai jumlah cluster yang diinginkan dan metrik ketidakmiripan (jarak) yang diinginkan. Jika perlu, tetapkan ambang batas perubahan fungsi objektif dan ambang batas perubahan posisi centroid. 2. Pilih K data dari set data X sebagai centroid. 3. Alokasikan semua data ke centroid terdekat dengan metrik jarak yang sudah ditetapkan (memperbaharui cluster ID setiap data) 4. Hitung kembali centroid C berdasarkan data yang mengikuti cluster masing-masing. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 16 5. Ulangi langkah 3 dan 4 hingga kondisi konvergen tercapai, yaitu (a) perubahan fungsi objektif sudah dibawah ambang batas yang diinginkan; atau (b) tidak ada data yang berpindah cluster; atau (c) perubahan posisi centroid sudah dibawah ambang batas yang ditetapkan. 2.3.3. Distance Space Distance space adalah proses penghitungan jarak antara suatu dokumen dengan dokumen lainnya. Euclidean distance adalah salah satu cara untuk menghitung Distance space. Rumus Euclidean distance dinyatakan pada persamaan berikut: √ ........(2.4) Di mana: = data ke = data ke j jarak antara data ke i dan data ke j = nilai atribut ke satu dari data ke i = nilai atribut ke satu dari data ke j = jumlah atribut yang digunakan (Handoyo dkk, 2014). 2.4. Validitas Cluster 2.4.1. Analisis Cluster Analisis cluster merupakan pemrosesan data secara alami dengan algoritma yang berjalan sendiri sehingga didapatkan kelompok-kelompok yang terbentuk secara alami pula. Selain parameter-parameter diawal algoritma yang berjalan, tidak ada lagi yang diberikan kepada sistem setelah alggoritma selesai dilakukan. Pada dasarnya analisis cluster adalah proses penggalian informasi yang sebelumnya tidak ada sehingga seolah-olah menjadi pertanyaan mengapa harus harus dilakukan evaluasi. Dalam evaluasi cluster terdapat dua metode yaitu metode unsupervised dan metode supervided. Metode unsupervised untuk mengukur kebagusan struktur cluster tanpa membutuhkan eksternal. Metode unsupervised untuk mengukur PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 17 sejauh mana struktur cluster yang ditemukan olehh algoritma clustering cocok dengan struktur eksternal. Metode relatif melakukan perbandingan cluster menggunakan ukuran evaluasi unsupervised dan supervided. (Prasetyo, 2014). 2.4.2. Validitas Internal Banyak matrik internal yang mengukur validitas cluster pada metode pengelompokan berbasis partisi didasarkan pada nilai kohesi dan separasi. Kohesi dalam pengelompokan berbasis partisi didefinisikan sebagai jumalh dari kedekatan data terhadap centroid dari cluster yang diikutinya. Sedangkan separasi di antara dua sluster dapat diukur dengan kedekatan dua prototipe (centroid) cluster. (Prasetyo, 2014).. 2.4.3. Silhouette Ketepatan sebuah pengelompokan menunjukan seberapa baik proses pengelompokan dan kualitas kelompok yang terbentuk. Salah satu ukuran ketepatan yang dapat digunakan dalam menentukan ketepatan pengelompkan adalah Silhouette Coeficient (Muhammad). Silhouette dapat digunakan untuk memvalidasi baik sebuah data, cluster tunggal (satu cluster dari sejumlah cluster), atau keseluruhan cluster. Metode ini paling banyak digunakan untuk memvalidasi cluster yang menggabungkan nilai kohesi dan separasi. Untuk menghitung nilai SI dari sebuah data ke-i, ada 2 komponen yaitu dan . adalah rata-rata jarak data ke- terhadap semua data lainnya dalam satu cluster, sedangkan bi didapatkan dengan menghitung rata-rata jarak data ke- terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke- , kemudian diambil yang terkecil. (Prasetyo, 2014). Berikut formula untuk menghitung ∑ Di mana: = cluster = index data PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 18 = rata-rata jarak data ke – terhadap semua data lainnya dalam satu cluster. = jumlah data dalam cluster ke- . adalah jarak data ke- dengan data ke- dalam suatu cluster . Berikut adalah formula untuk menghitung { ∑ } Di mana: = cluster n = cluster = index data = jumlah data dalam cluster ke- . = Nilai terkecil dari rata-rata jarak data ke- terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke- . = jarak data ke- dalam cluster j dengan data ke- dalam suatu cluster . (Prasetyo, 2014). Untuk mendapatkan nilai jumlah Silhouette data ke- menggunakan persamaan berikut: { } Di mana: = Silhouette data ke i dalam 1 cluster = Nilai terkecil dari rata-rata jarak data ke- terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke- . PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 19 = rata-rata jarak data ke – terhadap semua data lainnya dalam satu cluster. (Kaufman dan Rousseeuw, 2005) Nilai S( rata nilai S( rata-rata dari sebuah cluster didapatkan dengan menghitung ratasemua data yang bergabung dalam cluster tersebut, seperti pada persamaan berikut: ∑ = Rata-rata Silhouette cluster j = Silhouette data ke i dalam 1 cluster j = index = jumlah data dalam cluster ke- . Nilai rata-rata nilai dari data set didapatkan dengan menghitung rata-rata dari semua cluster seperti pada persamaan berikut: ∑ = jumlah cluster. = Rata-rata Silhouette dari data set = Rata-rata Silhouette cluster j (Prasetyo, 2014). Nilai mengukur seberapa mirip sebuah data dengan cluster yang diikutinya, nilai yang semakin kecil menandakan semakin tepatnya data tersebut berada dalam cluster tersebut. Nilai yang besar menandakan seberapa jeleknya data terhadap cluster yang lain. (Prasetyo, 2014) PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 20 Hasil perhitungan nilai Silhouette Coeficient dapat bervariasi antara -1 hingga 1. Jika 0 maka objek = 1 maka objek berada dalam cluster yang tepat. Jika = berada di antara dua cluster sehingga objek tersebut tidak jelas harus dimasukan ke dalam cluster A atau B. Akan tetapi, jika cluster yang dihasilkan overlapping, sehingga objek = -1 artinya lebih tepat dimasukan ke dalam cluster lain.(Alfian dkk, 2012). Silhouette Coeficient adalah ukuran yang berguna dari jumlah struktur clustering yang telah ditemukan oleh algoritma klasifikasi. Silhouette Coeficient adalah berdimensi kuantitas yang paling sama dengan 1. Perhitungan nilai Silhouette Coeficient dapat dirumuskan sebagai berikut: Di mana: SC = Silhouette Coeficient = Nilai Silhouette = cluster = Nilai maksimum dari semua k. Rata-rata dari untuk semua objects pada sebuah cluster, yang disebut rata-rata silhouette dalam sebuah cluster. Rata-rata dari untuk = 1,2,...n, yang disebut rata-rata silhouette pada data set. Nilai maksimum didapatkan dari semua percobaan k pada silhouette, dimana = 2,3,... n-1. Menurut interpretasi subjektif dari Kauffman dan Rousseeuw(2005) dapat dilihat pada tabel 2.1. (Kauffman dan Rousseeuw,2005). PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 21 Tabel 2. 1 Kriteria Subjektif Kualitas Pengelompokkan Berdasarkan Silhouette Coeficient (SC) Nilai SC 0,72 – 1,00 0,51-0,70 0,26-0,50 0-0,25 Interpretasi Oleh Kauffman Strong Classification Good Classification Weak Classification Bad Classification PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB III METODOLOGI PENELITIAN 3.1. Sumber Data Data yang digunakan pada penelitian ini didapat dari situs http://litbang.kemdikbud.go.id/index.php/un untuk data tahun ajaran 2014/2015. Data yang didapatkan berekstensi .xls dan berisikan nilai SMA dari jurusan IPA dan IPS. 3.1.1. Data yang digunakan Data yang digunakan merupakan data nilai siswa program IPA dan IPS. Untuk program studi IPA terdiri dari mata pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika, Biologi, Fisika dan Kimia. Sedangkan untuk program studi IPS terdiri dari mata pelajaran Bahasa Indonesia, Bahasa Inggris, Matematika, Ekonomi, Sosiologi, dan Geografi. Salah satu contoh data yang digunakan berisi data seperti yang terdapat dalam tabel 3.1 sampai dengan tabel 3.4. Tabel 3. 1Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPA 2014/2015 Nama Atribut Keterangan Kode Sek. Kode Sekolah NAMA SEKOLAH Nama Sekolah Sts Sek. Status Sekolah(Swasta/Negeri) Jm. Pes Jumlah Peserta BIN Ujian Nasional Bahasa Indonesia ING Ujian Nasional Bahasa Ingris MAT Ujian Nasional Matematika FIS Ujian Nasional Fisika KIM Ujian Nasional Kimia BIO Ujian Nasional Biologi TOT Total Nilai Ujian 22 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 23 Tabel 3. 2 Table Atribut Data Mentah Nilai Hasil Ujian Nasional Program IPS 2014/2015 Nama Atribut Keterangan Kode Sek. Kode Sekolah NAMA SEKOLAH Nama Sekolah Sts Sek. Status Sekolah(Swasta/Negeri) Jm. Pes Jumlah Peserta BIN Ujian Nasional Bahasa Indonesia ING Ujian Nasional Bahasa Ingris MAT Ujian Nasional Matematika EKO Ujian Nasional Ekonomi SOS Ujian Nasional Sosiologi GEO Ujian Nasional Geografi TOT Total Nilai Ujian 3.2. Spesifikasi Alat Sistem dibuat dengan menggunakan hardware dan software sebagai berikut: 3.2.1. Spesifikasi Hardware a. Proses Intel Pentium Core i5 2.40GHz b. RAM 2.00 GB 3.2.2. Spesifikasi Software a. Sistem Operasi Microsoft Windows 7 b. Compiler IDE NetBeans 7.2 Software ini akan digunakan untuk membuat interface dan sekaligus untuk membuat source code. 3.3. Tahap-Tahap Penelitian 3.3.1. Studi Kasus Nilai Ujian Nasional merupakan tolak ukur atau parameter akhir dari proses pembelajaran di suatu tingkat pendidikan di suatu daerah. Dari nilai Ujian Nasional tersebut dapat digunakan untuk pemetaan kualitas pendidikan. Untuk PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 24 mengevaluasi nilai ujian nasional agar dapat terlihat pemetaannya dapat menggunakan nilai dari mata pelajaran yang diujikan pada program IPA maupun IPS. Dengan penelitian ini diharapkan dapat menemukan suatu pengelompokan sekolah yang telah menjalankan Ujian Nasional untuk mengetahui keberhasilan dari Ujian Nasional. 3.3.2. Penelitian Pustaka Pada tahap ini, dilakukan penelitian pustaka untuk memperoleh informasi dan menggali teori-teori tentang teknik data mining. Dalam penelitian ini penulis mempelajari literatur yang berkaitan dengan teknik data mining asosiasi khususnya algoritma K-Means dan literatur lainnya yang berguna bagi sistem yang akan dibangun. 3.3.3. Knowledge Discovery in Database (KDD) Dalam melakukan proses mengubah data mentah menjadi suatu informasi yang bermanfaat, penulis menggunakan proses Knowledge Discovery in Database (KDD) yang terdiri dari pembersihan data, integrasi data, seleksi data, transformasi data, penambangan data, evaluasi pola, dan presentasi pengetahuan. Pada tahap pembersihan data dan integrasi data, penulis melakukan secara manual dengan menggunakan aplikasi microsoft excel. Tahap selanjutnya yaitu seleksi data, transformasi data, dan penambangan data, penulis mengembangkan perangkat lunak sebagai alat bantu untuk melakukan tahap-tahap tersebut. Sedangkan untuk tahap evaluasi pola dan presentasi pengetahuan, penulis melakukan evaluasi dari hasil penambangan data yang didapat dari perangkat lunak yang telah dibangun dan menjelaskan hasil evaluasi tersebut agar informasi yang didapat dapat diterima oleh pihak-pihak yang membutuhkan. 3.3.4. Pengembangan Perangkat Lunak Pada tahap seleksi data, transformasi data, dan penambangan data di dalam proses Knowledge Discovery in Database (KDD), penulis mengembangkan perangkat lunak sebagai alat untuk mengolah Dataset yang penulis miliki untuk mendapatkan informasi yang berguna. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 25 Metode yang digunakan oleh penulis dan pengembang sistem adalah metode waterfall. Metode ini merupakan metode yang paling sering digunakan oleh para pengembang perangkat lunak. Metode ini menggunakan sistem linier yaitu apa yang dilakukan pada tahap sebelumnya akan mempengaruhi tahap selanjutnya. Metode waterfall mempunyai langkah-langkah sebagai berikut: 1. Analisa Pada langkah ini analisa terhadap kebutuhan sistem. Pengumpulan data dalam tahap ini bisa dilakukan melalui sebuah penelitian, wawancara atau studi literatur. Seorang sistem analis bertugas dalam mencari informasi sebanyak mungkin dari user sehingga sistem yang dibuat dapat sesuai dengan kebutuhan user. Pada tahapan ini menghasilkan dokumen user requirement yang dapat digunakan sistem analis untuk menerjemahkan ke dalam bahasa pemrograman. 2. Desain Pada proses desain akan menerjemahkan syarat kebutuhan ke sebuah perancangan perangkat lunak yang dapat dapat diperkirakan sebelum diubah ke dalam bahasa pemrograman. Fokus dari proses ini pada struktur data, arsitektur perangkat lunak, representasi interface, dan detail algoritma. Tahapan ini akan menghasilkan dokumen yang disebut software requirement. Dokumen ini yang digunakan seorang programmer untuk membangun sistemnya. 3. Pemrograman Pemrograman merupakan penerjemahan design ke dalam bahasa pemrograman. Pada tahap ini programmer akan mengubah proses transaksi yang diinginkan user ke dalam sistem yang dibangun. 4. Pengujian Perangkat Lunak Pada tahap pengujian perangkat lunak dilakukan setelah pemrograman selesai. Pengujian yang digunakan adalah membandingkan perhitungan manual dengan hasil yang diperoleh dari perangkat lunak. Tujuan pengujian ini adalah untuk menemukan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 26 kesalahan – kesalahan yang terdapat pada perangkat lunak tersebut agar kemudian dapat diperbaiki. 3.3.5. Analisis dan Pembuatan Laporan Analisis yang akan dilakukan adalah analisis kinerja dari alat uji yang dibuat menggunakan algoritma K-Means, dan hasil analisis tersebut nantinya akan diolah kedalam sebuah laporan tugas akhir. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB IV PEMROSESAN AWAL DAN PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA 4.1. PEMROSESAN AWAL 4.1.1. Pembersihan Data (Data Cleaning) Sebelum proses data mining dapat dilakukan, perlu proses cleaning pada data yang menjadi fokus. Pemrosesan pendahuluan dan pembersihan data merupakan operasi dasar seperti penghapusan noise dilakukan. Pada penelitian ini ada beberapa sekolah yang tidak ada nilainya maka peneliti menghapus sekolah yang tidak ada nilai hasil ujian. 4.1.2. Itegrasi Data (Data Integration) Tahap ini berisikan penggabungan data dari bermacam-macam sumber. Peneliti menggunakan 2 data terdiri dari data nilai ujian nasional 2014/2015 jurusan IPA dan IPS. Peneliti tidak menggunakan tahap ini dikarenakan data berasal dari sumber yang sama sehingga tidak perlu melakukan proses integrasi data karena range nilai yang digunakan juga sudah sama. 4.1.3. Seleksi Data (Data Selection) Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Seleksi data merupakan proses menganalisis data yang relevan dari dalam database. Atribut yang tidak digunakan pada data ujian nasional jurusan IPA dan IPS di DIY tahun 2014/2015 dijelaskan tabel 4.1. 27 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 28 Tabel 4. 1 Atribut yang tidak digunakan pada data Ujian Nasional 2015 Tahun 2015 Atribut No. Kode Sek. Sts Sek. Jumlah Peserta TOT RANK Atribut pada tabel tabel 4.5 tidak digunakan sebab atribut dalam tabel-tabel tersebut hanya atribut pendukung yang tidak digunakan dalam proses clustering. Proses clustering membutuhkan atribut nama sekolah dan mata pelajaran. Hasil dari seleksi atribut pada data nilai ujian nasional IPA dan IPS di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 dijelaskan pada tabel 4.2 dan 4.3. Tabel 4. 2 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPA di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015 Nama Atribut Keterangan NAMA SEKOLAH Nama Sekolah BIN Ujian Nasional Bahasa Indonesia ING Ujian Nasional Bahasa Ingris MTK Ujian Nasional Matematika FSK Ujian Nasional Fisika KMA Ujian Nasional Kimia BIO Ujian Nasional Biologi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 29 Tabel 4. 3 Tabel Atribut Terseleksi Data Nilai Ujian Nasional Program Strudi IPS di Daerah Istimewa Yogyakarta Tahun ajaran 2014/2015 Nama Atribut Keterangan NAMA SEKOLAH Nama Sekolah BIN Ujian Nasional Bahasa Indonesia ING Ujian Nasional Bahasa Ingris MTK Ujian Nasional Matematika EKO Ujian Nasional Ekonomi SOS Ujian Nasional Sosiologi GEO Ujian Nasional Geografi 4.1.4. Tranformasi Data (Data Transformation) Pada penelitian ini tidak dilakukan normalisasi karena data yang digunakan memiliki interval yang sama, yaitu 0-100, sehingga tahap ini tidak dilakukan. Tahap kedua dalam transformasi data yaitu mengubah data numerik menjadi sebuah keputusan misal Tuntas atau Tidak Tuntas. Dalam penelitian ini pada tahap ini tidak dilakukan. 4.2. PERANCANGAN PERANGKAT LUNAK PENAMBANGAN DATA 4.2.1. Diagram Use Case Suatu sistem selalu memiliki interaksi antara pengguna dengan sistem itu sendiri, hal ini digambarkan dalam bentuk diagram use case. Diagram use case dapat dilihat pada gambar 4.1. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 30 Gambar 4. 1 Use Case Diagram Pengguna dalam sistem yang akan dibangun ini hanya satu, diinisialkan dengan nama pengguna. Interaksi yang dilakukan pengguna adalah: memilih berkas atau memasukkan data yang akan di kelompokkan, seleksi atribut yang digunakan, sistem melakukan proses clustering, dan simpan hasil clustering menggunakan algoritma K-Means dan menyimpan hasil clustering. 4.2.1. 1. Gambaran Umum Use Case Diagram use case pada lampiran 2 memiliki gambaran umum dari masing-masing use case. Gambaran umum use case terlampir pada lampiran 3. 4.2.1. 2. Narasi Use Case Diagram use case pada gambar 4.1 juga memiliki narasi yang merupakan penjelasan lebih lengkap dari masing-masing use case. Narasi tersebut terdapat pada lampiran 4. 4.2.2. Perancangan Umum 4.2.2.1. Input Sistem Data input dari sistem yang akan dibangun berasal dari file dengan ekstensi .xls yang dipilih langsung oleh pengguna (user) dari direktori Komputer. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 31 User juga berperan untuk memasukan nilai k pada textfield yang diinginkan oleh user. Data yang digunakan adalah data nilai hasil ujian nasional IPA dan IPS untuk tahun ajaran 2011/2012 sampai 2014/2015. 4.2.2.2. Proses Sistem Proses sitem yang akan dibangun terdiri dari beberaapa tahap untuk dapat melakukan pengelompokan (clustering). Proses sistem yang terdiri dari beberapa langkah berikut: 1. Pengambilan data yang sudah melalui preprosesing untuk digunakan pada proses data mining. 2. Menentukan k sesuai dengan keinginan user 3. Proses pengelompokan menggunakan K-Means. 4. Menganalisa hasil pengelompokan K-Means terhadap proses data mining yang telah dijalankan. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 32 Proses sistem digambarkan pada gambar 4.2 dibawah ini: Start Masukan file tidak Jumlah cluster K File XLS? tidak ya Cek Isi Data Tentukan Centroid Data numerik ? ya Hitung jarak obyek ke pusat Ya Kelompokan obyek berdasarkan jarak terkecil Proses Clustering Tidak Tampilkan Data Tentukan centroid baru Simpan Data Ada selisih pusat cluster lama dengan cluster baru ? Gambar 4. 2 Diagram flowchart End PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 33 4.2.2.3. Output Sistem Sistem yang dibangun akan memberikan keluaran (output) berupa data hasil pengelompokan menggunakan K-Means sesuai dengan k yang telah di berikan oleh user. 4.2.3. Diagram Aktivitas (Activity diagram). Diagram aktivitas digunakan untuk menunjukan aktivitas yang dikerjakan oleh pengguna dan sistem dalam setiap use case yang disebutkan dalam gambar 4.1. Berikut adalah diagram aktivitas dari setiap use case. 1. Diagram Aktivitas Input Berkas File .xls 2. Diagram Aktivitas Seleksi Atribut 3. Diagram Aktivitas Proses Clustering input k 4. Diagram Aktivitas Simpan Hasil Clustering. Detail diagram aktivitas dari setiap use case dapat dilihat pada bagian lampiran 5. 4.2.4. Diagram Kelas Desain Diagram kelas dapat memperlihatkan hubungan antar kelas. Diagram ini dapat membantu memvisualisasikan struktur kelas-kelas dalam suatu sistem. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 34 Detail kelas dapat dilihat pada gambar dibawah ini: Home -JMenuBeranda :JMenuBar -JMenuBantuan :JMenuBar -JMenuTentang :JMenuBar -bt_MasukSistem :jButton - JMenuBerandaMouseClicked :void -JMenuBantuanMouseClicked :Void -JMenuTentangMouseClicked :Void Clustering_KMeans Bantuan -JMenuBeranda :JMenuBar -JMenuBantuan :JMenuBar -JMenuTentang :JMenuBar + Bantuan () : Constractor - JMenuBerandaMouseClicked :void -JMenuBantuanMouseClicked :Void -JMenuTentangMouseClicked :Void Tentang -JMenuBeranda :JMenuBar -JMenuBantuan :JMenuBar -JMenuTentang :JMenuBar + Tentang () : Constractor - JMenuBerandaMouseClicked :void -JMenuBantuanMouseClicked :Void -JMenuTentangMouseClicked :Void -JMenuBeranda :JMenuBar -JMenuBantuan :JMenuBar -JMenuTentang :JMenuBar - jfile :JTextField -jpilihfile :JButton -table : JTable -TableSeleksiAtribut :JTable -jtableatribut2 : JTable -jButtonPilihAtribut : JButton - jpreprosesing : JButton - jmlclustertext : JTextField - jproses :JButton - Output :JTextArea - runTime : JTextArea - jreset :JButton -jsimpan : JButton KMeans - JMenuBerandaMouseClicked :void -JMenuBantuanMouseClicked :Void -JMenuTentangMouseClicked :Void - initComponents() + Clustering_KMeans() : Constractor + Preprosesing() : void + openFile() : void + read() : void + KMeans(ArrayList) :void + MenentukanCluster (List) :int[] - Pembersihan() : void + Proses() :void + Simpan() :void +Hitung Jarak() : void Sillhouette + Centroid (ArrayList<String> ) : ArrayList<Integer> + findCentroid(ArrayList<ArrayList<String>> arr, int[] indexCluster, int indexCentroid, int ClusterKei) :float + KMeans getKmeans() : Constractor + min() : static +sequentialsearch (Double[] number2, double value2) :int + Sillhoutte getsillhoutte() : Constractor + hitungjarakSilhoute(ArrayList<ArrayList<String>> DataSekolah) : ArrayList<ArrayList<Double>> + Sillhoute (ArrayList<ArrayList<String>> TampungNamaSekolah, ArrayList<ArrayList<Integer>> TampungindeksSekolah, ArrayList<ArrayList<String>> arr): StringBuffer Gambar 4. 3 Diagram Kelas Desain 4.2.5. Diagram Sekuen (Sequence Diagram). Diagram Sekuen adalah diagram yang memperlihatkan atau menampilkan interaksi-interaksi antar objek di dalam sistem. Diagram sekuen pada sistem ini terdiri dari 3 diagram sesuai dengan usecase. Diagram dapat dilihat pada lampiran 7. 4.2.6. Algoritma per Method Rincian algoritma per method terdapat pada lampiran 8. 4.2.7. Perancangan Struktur Data Sistem pengelompokan K-Means ini membutuhkan suatu tempat penyimpanan data yang tidak membutuhkan memori yang terlalu banyak dan tidak menghabiskan waktu yang cukup banyak ketika sistem dijalankan karena dapat mengolah data dengan efisien. Peneliti menggunakan konsep penyimpanan data menggunakan struktur data. Struktur data yang digunakan pada sistem ini adalah ArrayList. ArrayList pada sistem ini mampu menyimpan banyak nilai dalam sebuah variabel dengan tipe data yang sama dan ukurannya bisa berubah secara dinamis. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 35 4.2.7.1. Array Array adalah sebuah struktur data yang mampu menyimpan banyak nilai dalam sebuah variabel dengan tipe data yang sama. Array bagaikan basis data mini yang berada di memori. Untuk dapat menggunakan Array dalam kode program, dapat dengan cara mendeklarasikan sebuah variabel untuk direferensikan ke Array dan menspesifikasikan tipe data dari Array. Deklarasi variable Array tidak mengalokasi ruang di memori hanya mengalokasikan tempat untuk referensi ke Array yang dibuat. Ukuran Array tidak dapat diubah setelah Array dibuat. Perhatikan ilustrasi Array pada gambar 4.4 berikut ini: Gambar 4. 4 Ilustrasi Konsep Array 4.2.7.2. ArrayList ArrayList merupakan sebuah struktur data yang mampu menyimpan banyak nilai dalam sebuah variabel dengan tipe data yang sama dan ukurannya bisa berubah secara dinamis. Perhatikan ilustrasi ArrayList pada gambar 4.5 berikut ini: java.util.ArrayList size:5 elementData 0 Value1 1 Value2 2 Value3 3 4 Value4 ... ... Value5 Gambar 4. 5 Ilustrasi Konsep ArrayList PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 36 Pada Penelitian ini, penulis menggunakan arraylist dalam arraylist ArrayList<ArrayList<String>> untuk membuat matriks. Daftar nilai ujian nasional sebagai elementData. Daftar nilai ujian nasional memiliki nama sekolah yang saling terhubung dengan nilai mata pelajaran akan berada dalam index yang sama pada ArrayList. Objek arraylist baru akan selaku dibuat untuk setiap kode sekolah yang berbeda. Setelah membuat objek arraylist untuk setiap sekolah maka akan dibuat objek arraylist untuk menjadikan satu semua objek arraylist sebelumnya. Sebagai contoh akan dijelaskan pada gambar 4.6 berikut ini: java.util.ArrayList size:5 elementData: Dafar nilai Ujian Nasional 0 Nama Sekolah 1 1 Nama Sekolah 2 0 Nama Sekolah 1 Nilai Map el 1 2 Nilai Map el 1 3 Nama Sekolah 3 1 Nama Sekolah 2 Nama Sekolah 4 2 3 Nama Sekolah 4 Nilai Map el 1 3 Nama Sekolah 5 4 Nama Sekolah Nilai Map el 1 4 Nama Sekolah Nilai Map el 1 5 dst... Gambar 4. 6 Perancangan ArrayList 4.2.7.3 HashMap Secara prinsip ArrayList dibuat dengan memasukan data kedalam sebuah indeks dengan cara terurut, sedangkan hashmap dengan cara pemetaan, dengan kata lain tidak berurut. Map seperti array yang indeksnya adalah objek sembarang bukan integer. Pada map, objek yang digunakan sebagai indeks disebut key dan objek yang ditunjuk oleh indeks disebut value. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 37 4.2.8. Perancangan Antarmuka Sistem clustering yang akan dibangun, memiliki 4 antarmuka yang terdiri dari antar muka halaman awal, antarmuka bantuan, antarmuka tentang, dan antarmuka proses clustering. 4.2.8.1. Halaman Halaman Awal Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.7 berikut ini: Beranda Bantuan Tentang Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas Menggunakan Metode Clustering K-Means Table Nilai Ujian Nasional Logo Application Title Masuk Sistem KRESENTIA NITA KURNIADEWI – 125314031 FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2016 Gambar 4. 7 Antarmuka Halaman Beranda Halaman ini merupakan halaman utama yang akan tampil. Halaman ini berisi 3 menu yaitu Beranda, Bantuan, dan Tentang serta tombol Masuk Sistem. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 38 4.2.8.2. Halaman Bantuan Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.8 berikut ini: Beranda Bantuan Tentang Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas Menggunakan Metode Clustering K-Means Panduan Penggunaan Table Nilai Ujian Nasional Application Title KRESENTIA NITA KURNIADEWI – 125314031 FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2016 Gambar 4. 8 Antarmuka Halaman Bantuan Halaman ini berisi petunjuk penggunaan sistem yang akan membantu user ketika user kesulitan atau bingung menggunakan sistem. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 39 4.2.8.3. Halaman Tentang Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.9 berikut ini: Beranda Bantuan Tentang Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas Menggunakan Metode Clustering K-Means Informasi Sistem Table Nilai Ujian Nasional Application Title KRESENTIA NITA KURNIADEWI – 125314031 FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2016 Gambar 4. 9 Antarmuka Halaman Tentang Halaman ini berisi tentang mengenai tujuan sistem dibangun dan kegunaanya. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 40 4.2.8.4. Halaman Clustering K-Means Perancangan antarmuka halaman awal dapat dilihat pada gambar 4.10 berikut ini: Beranda Bantuan Tentang Pengelompokan Nilai Ujian Nasional Sekolah Menengah Atas Menggunakan Metode Clustering K-Means Browse Data Table Nilai Ujian Nasional Application Title Seleksi Atribut Atribut Output Pilih Jumlah Cluster Reset Proses Simpan Runing Time KRESENTIA NITA KURNIADEWI – 125314031 FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2016 Gambar 4. 10 Antarmuka Halaman Proses Halaman ini merupakan halaman yang akan ditampilkan ketika pengguna menekan tombol Masuk Sistem pada halaman Beranda. Halaman ini berfungsi sebagai sarana untuk memasukan data, memilih atribut yang akan digunakan serta memberikan k yang diinginkan. Kemudian Halaman Clustering K-Means ini digunakan untuk menampilkan hasil iterasi yang telah dilakukan menggunakan algoritma K-Means. Halaman Clustering K-Means ini akan tampil ketika user menekan tombol Proses pada halaman praprosesing. Pada halaman ini user juga bisa melihat Running Time yang dihasilkan, pengguna juga dapat menyimpan hasil clustering. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB V IMPLEMENTASI PENAMBANGAN DATA DAN EVALUASI HASIL 5.1 IMPLEMENTASI RANCANGAN PERANGKAT LUNAK Perangkat lunak pengelompokan menggunakan meetode K-Means ini memiliki 5 buah kelas. 5.1.1. Implementasi Kelas Selanjutnya dijelaskan spesifikasi detail dari setiap antarmukka yang ada pada perangkat lunak ini. Spesifikasi detail dari kelas home dapat dilhat pada tabel 5.1 berikut: Tabel 5. 1 Implementasi Kelas Home ID_Objek Jenis Teks Keterangan jMenuBeranda JMenu Beranda Jika di klik, akanmenuju ke halaman home.java jMenuBantuan JMenu Bantuan Jika di klik, akanmenuju ke halaman Bantuan.java jMenuTentang JMenu Tentang Jika di klik, akanmenuju ke halaman Tentang.java jtitle1 JLabel Pengelompokan Judul perangkat lunak Nilai Ujian yang dibangun Nasional Sekolah Menengah Atas jtitle2 JLabel Menggunakan Judul perangkat lunak Metode yang dibangun Clustering KMeans bt_MasukSistem jButton Masuk Sistem Jika di klik, akan menuju halaman 41 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 42 Clustering_Kmeans.ja va jLabel1 JLabel KRESENTIA Identitas pembuat NITA perangkat lunak KURNIADEWI125314031 jLabel2 JLabel FAKULTAS Identitas fakultas dan SAINS DAN universitas pembuat TEKNOLOGI perangkat lunak UNIVERSITAS SANATA DHARMA jLabel5 JLabel YOGYAKARTA Identitas fakultas dan universitas pembuat perangkat lunak jLabel6 JLabel 2016 Identitas tahun pembuatan perangkat lunak PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 43 Implementasi antarmuka dari kelas home dapat dilihat pada gambar 5.1 berikut ini. Gambar 5. 1 Implementasi Antarmuka kelas Home Spesifikasi detail dari kelas Clustering_Kmeans dapat dilhat pada tabel 5.2 berikut: Tabel 5. 2 Implementasi Kelas Clustering_KMeans ID_Objek Jenis Teks Keterangan jMenuBeranda JMenu Beranda Jika di klik, akan menuju ke halaman home.java jMenuBantuan JMenu Bantuan Jika di klik, akan menuju ke halaman Bantuan.java jMenuTentang JMenu Tentang Jika di klik, akan menuju ke halaman PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 44 Tentang.java jtitle1 JLabel Pengelompokan Judul perangkat lunak Nilai Ujian yang dibangun Nasional Sekolah Menengah Atas jtitle2 JLabel Menggunakan Judul perangkat lunak Metode yang dibangun Clustering KMeans jData JLabel Jpath JTextField Data Keterangan label Isi path directory dari file yang dimasukkan ke dalam tabel. Jpilihfile JButton Browse Jika diklik, akan membuka directory file yang akan dipilih Table JTable Menampilkan data file yang dipilih TableSeleksiAt JTable Menampilkan nama ribut kolom (atribut) pada tabel, yang akan di seleksi. jButtonPilihAt JButton Pilih ribut Jika diklik, akan menampilkan nama kolom (atribut) ke jtableatribut2. jtableatribut2 JTable Menampilkan nama kolom (atribut) pada tabel, yang telah di seleksi. jLabel2 JLabel Jumlah Cluster Keterangan label PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 45 Jmlclustertext JTextField Untuk memasukan jumlah klaser Jproses JButton Proses Jika di klik, sistem akan melakukan proses clustering. jTextArea1 jTextArea Menampilkan hasil clustering jLabel9 JLabel runTime JTextField Runing Time : Keterangan label Menampilkan running time Jreset JButton Reset Jika di klik akan mereset sistem. Jsimpan JButton Simpan Jika di klik akan menyimpan hasil clustering kedalam file. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 46 Implementasi antarmuka dari kelas home dapat dilihat pada gambar 5.2 berikut ini. Gambar 5. 2 Implementasi Antaramuka Kelas Clustering_Kmeans PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 47 Spesifikasi detail dari kelas Tentang dapat dilhat pada tabel 5.3 berikut: Tabel 5. 3 Implementasi Kelas Tentang ID_Objek Jenis Teks Keterangan jMenuBeranda JMenu Beranda Jika di klik, akan menuju ke halaman home.java jMenuBantuan JMenu Bantuan Jika di klik, akanmenuju ke halaman Bantuan.java jMenuTentang JMenu Tentang Jika di klik, akanmenuju ke halaman Tentang.java jtitle1 JLabel Pengelompokan Judul perangkat lunak Nilai Ujian yang dibangun Nasional Sekolah Menengah Atas jtitle2 JLabel Menggunakan Judul perangkat lunak Metode yang dibangun Clustering KMeans jLabel7 JLabel Jinformasi jTextField Informasi Sistem Keterangan Label Berisi Informasi Sistem jLabel1 JLabel KRESENTIA Identitas pembuat NITA perangkat lunak KURNIADEWI125314031 jLabel2 JLabel FAKULTAS Identitas fakultas dan SAINS DAN universitas pembuat TEKNOLOGI perangkat lunak PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 48 UNIVERSITAS SANATA DHARMA jLabel5 JLabel YOGYAKARTA Identitas fakultas dan universitas pembuat perangkat lunak jLabel6 JLabel 2016 Identitas tahun pembuatan perangkat lunak Implementasi antarmuka dari kelas Tentang dapat dilihat pada gambar 5.3 berikut ini. Gambar 5. 3 Implementasi Antaramuka Kelas Tentang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 49 Spesifikasi detail dari kelas Tentang dapat dilhat pada tabel 5.4 berikut: Tabel 5. 4 Implementasi Kelas Bantuan ID_Objek Jenis Teks Keterangan jMenuBeranda JMenu Beranda Jika di klik, akan menuju ke halaman home.java jMenuBantuan JMenu Bantuan Jika di klik, akanmenuju ke halaman Bantuan.java jMenuTentang JMenu Tentang Jika di klik, akan menuju ke halaman Tentang.java jtitle1 JLabel Pengelompokan Judul perangkat lunak Nilai Ujian yang dibangun Nasional Sekolah Menengah Atas jtitle2 JLabel Menggunakan Judul perangkat lunak Metode yang dibangun Clustering KMeans jLabel7 JLabel Panduan Keterangan Label Penggunaan Jinformasi jTextField Berisi Panduan Penggunaan jLabel1 JLabel KRESENTIA Identitas pembuat NITA perangkat lunak KURNIADEWI125314031 jLabel2 JLabel FAKULTAS Identitas fakultas dan SAINS DAN universitas pembuat PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 50 TEKNOLOGI perangkat lunak UNIVERSITAS SANATA DHARMA jLabel5 JLabel YOGYAKARTA Identitas fakultas dan universitas pembuat perangkat lunak jLabel6 JLabel 2016 Identitas tahun pembuatan perangkat lunak Implementasi antarmuka dari kelas Tentang dapat dilihat pada gambar 5.4 berikut ini. Gambar 5. 4 Implementasi Antaramuka Kelas Bantuan PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 51 Spesifikasi detail dari kelas KMeans dapat dilhat pada tabel 5.5 berikut: Tabel 5. 5 Implementasi Kelas KMeans Method Tipe Keterangan findCentroidBaru() float Method untuk menemukan centroid baru sequentialsearch() int Mencari index nilai yang kecil Min () static Menemukan nilai yang lebih kecil Centroid() ArrayList<Integer> Menentukan centroid awal Spesifikasi detail dari kelas KMeans dapat dilhat pada tabel 5.6 berikut: Tabel 5. 6 Implementasi Kelas KMeans Method Tipe Keterangan hitungjarakSilhoute() ArrayList<ArrayList Menghitung jarak anatar <Double>> data StringBuffer Menghitung Sillhouette Sillhoute() Index 5.2. EVALUASI HASIL 5.2.1. Pengujian Perangkat Lunak (Black Box) 5.2.1.1. Rencana Pengujian Black Box Pada tabel 5.7 dibawah ini akan dijelaskan rencana pengujian dengan menggunakan metode black box. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 52 Tabel 5. 7 Rencana pengujian dengan menggunakan metode black box. No. Use Case Butir Uji Pengujian input berkas data dari file 1. Input Berkas bertipe .xls Pengujian input berkas data dari file selain bertipe .xls 2. Seleksi Pengujian memilih atribut yang Atribut digunakan untuk clustering Pengujian tidak memilih atribut yang akan digunakan 4. 5. 5.2.1.2. Proses Clustering Simpan Hasil Clustering Pengujian melakukan proses clustering K-Means Pengujian menyimpan hasil clustering K-Means ke dalam file. Kasus Uji UC1-01 UC1-02 UC2-01 UC2-02 UC4-01 UC5-01 Prosedur Pengujian Black Box dan Kasus Uji Setelah menyusun rencana pengujian pada tabel 5.7, maka dilakukan prosedur pengujian serta kasus uji yang terlampir pada lampiran 9. 5.2.1.3. Evaluasi Pengujian Black Box Seluruh hasil pengujian black box pada lampiran 15 menunjukan bahwa perangkat lunak sudah dapat berjalan dengan baik dan sesuai dengan perancaangan yang sudah dibuat. Hal ini dapat dilihat dari semua fungsi yang sudah berjalan sesuai dengan yang diharapkan. Perangkat lunak ini juga mampu menampilkan pesan kesalahan atau error saat perangkat lunak sedang dijalankan kesalahan user. Hal ini sangat baik karena dapat memudahkan user dalam menggunakan perangkat lunak ini. 5.2.2. Pengujian Perbandingan Hasil Hitung Manual dengan Hasil Perangkat Lunak 5.2.2.1. Penghitungan Manual Pengujian manual menggunakan data ujian nasional IPA di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 53 Proses penghitungan manual dilakukan dengan menggunakan aplikasi Microsoft Excel. Dalam proses clustering ini menggunakan k=2. Proses penghitungan manual beserta dengan hasilnya dapat dilihat pada Lampiran 10. 5.2.2.2. Penghitungan Perangkat Lunak Pengujian perhitungan perangkat lunak menggunakan data yang sama dengan perhitungan manual yaitu data nilai ujian nasional IPA di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015. Proses penghitungan menggunakan perangkat lunak. Dalam proses clustering ini menggunakan k=2. Proses penghitungan manual beserta dengan hasilnya dapat dilihat pada gambar 5.5 berikut ini. Gambar 5. 5 Hasil Penambangan Data Menggunakan Perangkat Lunak PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 54 5.2.2.3. Evaluasi Pengujian Perbandingan Hitung Manual dengan Hasil Perangkat Lunak Hasil clustering K-Means secara manual dengan dihasilkan oleh perangkat lunak tidak memiliki perbedaan. Hasil yang diperoleh perangkat lunak sama dengan hasil yang diperoleh dengan menghitung manual. Disimpulkan perangkat lunak sudah berjalan dengan baik dan sesuai dengan yang diharapkan. Tabel 5. 8 Hasil uji perbandingan member percluster secara manual dan sistem Cluster 1 2 Manual SMA NEGERI 1 YOGYAKARTA SMA NEGERI 3 YOGYAKARTA SMA NEGERI 8 YOGYAKARTA SMA NEGERI 2 YOGYAKARTA SMA NEGERI 9 YOGYAKARTA SMA NEGERI 5 YOGYAKARTA SMA NEGERI 6 YOGYAKARTA SMA NEGERI 7 YOGYAKARTA Sistem SMA NEGERI 1 YOGYAKARTA SMA NEGERI 3 YOGYAKARTA SMA NEGERI 8 YOGYAKARTA SMA NEGERI 2 YOGYAKARTA SMA NEGERI 9 YOGYAKARTA SMA NEGERI 5 YOGYAKARTA SMA NEGERI 6 YOGYAKARTA SMA NEGERI 7 YOGYAKARTA PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 55 5.2.2.4. Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian Nasional Jurusan IPA Tahun Ajaran 2014/2015 Pada pengujian perangkat lunak dengan menggunakan Dataset nilai ujian nasional SMA jurusan IPA 2014/2015 dengan memberikan nilai k = 2,3,4...139 didapatkan hasil seperti pada tabel 5.9. Tabel 5. 9 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai Ujian Nasional Jurusan IPA 2014/2015 k 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Rata-rata Silhouette data set 0,49 0,41 0,38 0,33 0,45 0,26 0,25 0,22 0,19 0,23 0,20 0,19 0,18 0,23 0,15 0,15 0,17 0,17 0,15 0,29 0,28 0,29 0,15 0,19 0,19 0,19 0,18 0,12 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 0,13 0,12 0,11 0,13 0,16 0,17 0,25 0,32 0,34 0,32 0,34 0,32 0,30 0,31 0,31 0,31 0,33 0,29 0,28 0,28 0,25 0,30 0,31 0,32 0,29 0,30 0,35 0,32 0,39 0,37 0,36 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 56 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 0,39 0,38 0,37 0,38 0,39 0,38 0,40 0,41 0,44 0,44 0,50 0,54 0,55 0,55 0,54 0,57 0,57 0,58 0,54 0,59 0,58 0,55 0,58 0,56 0,59 0,62 0,61 0,61 0,58 0,59 0,61 0,63 0,64 0,67 0,68 0,67 0,68 0,70 0,69 0,70 0,70 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 0,70 0,73 0,72 0,73 0,74 0,76 0,77 0,77 0,80 0,79 0,78 0,79 0,81 0,81 0,82 0,83 0,83 0,84 0,85 0,86 0,87 0,88 0,89 0,89 0,90 0,91 0,92 0,92 0,93 0,93 0,94 0,95 0,96 0,97 0,97 0,98 0,99 0,99 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 57 Silhouette Rata-rata Silhouette data set Jurusan IPA 1,2 1 0,8 0,6 0,4 0,2 0 0 20 40 60 80 100 120 140 160 Jumlah k Gambar 5. 6 Rata-rata Silhouette data set Jurusan IPA Berdasarkan hasil pengujian seperti yang terlihat pada tabel 5. 9 data set Nilai Ujian Nasional SMA Jurusan IPA tahun 2014/2015 dengan memberikan k = 2,3,4 ... 139 didapatkan hasil sebagai berikut : 1. Nilai rata-rata silhouette data set tertinggi adalah 0.99 yang terdapat pada k = 139. Hal ini menurut interpretasi Kauffman dan Rousseeuw (1990) SC dengan nilai 0.99 dikatakan Strong Classification. Namun pada kasus data set pengelompokan sekolah SMA berdasarkan nilai ujian nasional jika dikelompokan menjadi 139 cluster dirasa tidak rasional dan tidak bermanfaat karena tujuan pengelompokan sekolah salah satunya adalah untuk pembinaan (misal oleh pengawas sekolah). Menurut peraturan mentri pendidikan dan kebudayaan pengawas sekolah minimal mengawasi 7 sekolah berarti untuk n=140 k yang rasional berkisar antara 2 sampai 20. 2. Berdasarkan tabel 5.9 dan gambar 5.6 dapat dilihat hasil rata-rata Silhouette data set Jurusan IPA ketika diberi k = 2 hasil silhouette = 0.49 dan ketika diberikan k yang semakin besar hasil silhouette semakin kecil, Silhouette dataset terkecil pada k = 32 yaitu sebesar 0.11 selanjutnya pada k = 33 nilai Silhouette dataset beranjak semakin membesar hingga k =138 dengan nilai 0.99. Berdasarkan hal tersebut nilai rata-rata Silhouette data set tertinggi dan yang paling rasional ketika k = 2 dengan nilai 0.49 yang PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 58 dapat dikategorikan sebagai weak Classification. (Kauffman dan Rousseeuw .1990). 5.2.2.5. Hasil Pengujian Dataset dengan Silhouette Coeficient Nilai Ujian Nasional Jurusan IPS Tahun Ajaran 2014/2015 Pada pengujian perangkat lunak dengan menggunakan Dataset nilai ujian nasional SMA jurusan IPS 2014/2015 dengan memberikan nilai k = 2,3,4...158 didapatkan hasil seperti pada tabel 5.11. Tabel 5. 10 Hasil Pengujian Dataset dengan rata-rata Silhouette data set Nilai Ujian Nasional Jurusan IPS 2014/2015 k 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Rata-rata Silhouette data set 0,57 0,51 0,43 0,37 0,38 0,32 0,29 0,24 0,28 0,25 0,27 0,22 0,20 0,26 0,20 0,19 0,22 0,18 0,24 0,23 0,22 0,22 0,22 0,23 0,21 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 0,23 0,21 0,20 0,21 0,21 0,19 0,19 0,25 0,24 0,28 0,31 0,30 0,29 0,31 0,30 0,30 0,29 0,29 0,29 0,29 0,29 0,29 0,30 0,29 0,29 0,28 0,31 0,38 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 59 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 0,38 0,41 0,42 0,40 0,47 0,46 0,45 0,45 0,46 0,45 0,45 0,45 0,44 0,43 0,41 0,42 0,46 0,47 0,49 0,49 0,50 0,51 0,51 0,50 0,50 0,51 0,51 0,52 0,54 0,55 0,54 0,58 0,56 0,60 0,61 0,61 0,61 0,62 0,63 0,65 0,65 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 0,66 0,68 0,69 0,69 0,71 0,71 0,73 0,73 0,74 0,74 0,76 0,77 0,77 0,78 0,77 0,77 0,78 0,79 0,81 0,81 0,82 0,81 0,81 0,81 0,81 0,81 0,82 0,82 0,82 0,82 0,83 0,84 0,84 0,84 0,85 0,86 0,86 0,86 0,87 0,87 0,87 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 60 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 0,88 0,89 0,90 0,90 0,91 0,91 0,92 0,92 0,93 0,94 0,94 0,94 0,95 0,95 0,96 0,97 0,97 0,98 0,98 0,98 0,99 0,99 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 61 Rata-rata Silhouette data set Jurusan IPS 1,2 Silhouette 1 0,8 0,6 0,4 0,2 0 0 50 100 150 200 Jumlah k Gambar 5. 7 Rata-rata Silhouette data set Jurusan IPS Berdasarkan hasil pengujian seperti yang terlihat pada tabel 5. 11 data set Nilai Ujian Nasional SMA Jurusan IPS tahun 2014/2015 dengan memberikan k = 2,3,4 ... 158 didapatkan hasil sebgai berikut : 1. Nilai rata-rata Silhouette data set tertinggi adalah 0.99 yang terdapat pada k = 158. Hal ini menurut interpretasi Kauffman dan Rousseeuw (1990) SC dengan nilai 0.99 dikatakan Strong Classification. Namun pada kasus data set pengelompokan sekolah SMA berdasarkan nilai ujian nasional jika dikelompokan menjadi 158 cluster dirasa tidak rasional dan tidak bermanfaat karena tujuan pengelompokan sekolah sekolah salah satunya untuk pembinaan (misaln oleh pengawas sekolah). Menurut peraturan mentri pendidikan dan kebudayaan pengawas sekolah minimal mengawasi 7 sekolah berarti untuk n = 159 nilai k yang rasional berkisar antara 2 sampai 22. 2. Berdasarkan tabel 5.10 dan gambar 5.7 dapat dilihat hasil rata-rata Silhouette data set Jurusan IPS ketika diberi k = 2 hasil silhouette = 0.57 dan ketika diberikan k yang semakin besar hasil silhouette semakin kecil, Silhouette dataset terkecil pada k = 19 yaitu sebesar 0.19 selanjutnya pada k = 20 nilai Silhouette dataset beranjak semakin membesar hingga k = 31 namun pada k = 32 dan k = 33 Silhouette dataset kembali mengecil yaitu PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 62 dengan nilai 0.19. Pada k = 34 nilai Silhouette dataset semakin membesar hingga k = 158 dengan nilai 0.99. Berdasarkan hal tersebut nilai rata-rata Silhouette data set tertinggi dan yang paling rasional ketika k = 2 dengan nilai 0.57 dan k = 3 dengan nilai 0.51 yang dapat dikategorikan sebagai good Classification. (Kauffman dan Rousseeuw.1990). 5.3. KELEBIHAN DAN KEKURANGAN PERANGKAT LUNAK 5.3.1. Kelebihan Perangkat Lunak Kelebihan yang dimiliki oleh perangkat lunak pengelompokan menggunakan algoritma K-Means ini adalah : 1. Sistem dapat menerima masukan file bertipe .xls 2. Sistem dapat menyeleksi atribut sehingga user tidak perlu menghapus kolom atau atribut yang tidak ingin digunakan secara manual. 3. Sistem menyediakan isian nilai k sesuai yang diinginkan user. 4. Sistem dapat menampilkan hasil pengelompokan yang mudah dipahami oleh user. 5. Sistem dapat menampilkan waktu lama proses clustering 6. Sistem dapat menyimpan hasil pengelompokan menggunakan algoritma K-Means dengan hasil penyimpanan bertipe .xls. 7. Data yang disimpan setelah dilakukan pengelompokan tidak hanya nama sekolah saja melainkan nilai sekolah juga ikut menyertainya. 5.3.2. Kekurangan Perangkat Lunak Kekurangan yang dimiliki oleh perangkat lunak pengelompokan menggunakan algoritma K-Means ini adalah: 1. Data masuk yang diterima oleh sistem masih terbatas yaitu hanya dari file bertipe .xls. 2. Sistem hanya dapat melakukan seleksi kolom, tidak dapat melakukan seleksi baris. 3. Sistem tidak dapat mengubah nilai data secara langsung dari tabel data pada sistem 4. Ketentuan seleksi atribut diharuskan baris pertama nama sekolah. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 63 5. Sistem hanya dapat menyimpan hasil pengelompokan menggunakan algoritma K-Means berupa file bertipe .csv. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI BAB VI PENUTUP 6.1. SIMPULAN Dari pengujian-pengujian yang dilakukan pada sistem Pengelompokan Sekolah Menengah Atas Di Daerah Istimewa Yogyakarta tahun ajaran 2014/2015 jurusan IPA dan IPS berdasarkan Nilai Ujian Nasional Menggunakan Algoritma K-Means Clustering ditarik kesimpulan sebagai berikut: 1. Aplikasi pengelompokan Sekolah Menengah Atas Di Daerah Istimewa Yogyakarta Berdasarkan Nilai Ujian Nasional Menggunakan Metode Clustering Algoritma K-Means telah berhasil dibangun dan dapat digunakan untuk mengelompokkan Sekolah Menengah Atas di DIY. 2. Algoritma K-Means dapat digunakan untuk mengelompokkan Nilai Hasil Ujian Nasional SMA jurusan IPA dan IPS tahun ajaran 2014/2015 di Daerah Istimewa Yogyakarta dengan cara melakukan proses awal pembersihan data, integrasi data dan seleksi data. Proses selanjutnya adalah melakukan proses data mining dengan menerapkan algoritma KMeans yang diawali dengan memasukan nilai k. Selanjutnya menghitung jarak antara data dengan centroid cluster yang dilakukan berulang hingga kondisi centroid lama dengan centroid baru bernilai sama, maka akan didapatkan hasil pengelompokan. Dalam satu kelompok terdapat anggota sekolah dengan nilai-nilai yang berdekatan. 3. Telah dilakukan evaluasi pengelompokan Data Ujian Nasional Jurusan IPA dan IPS tahun ajaran 2014/2015 menggunakan Silhouette Coeficient (SC) dengan nilai k=2 samapi dengan k = n-1. Berdasarkan hasil Silhouette Coeficient (SC) pengelompokan tersebut dapat disimpulkan bahwa: - Tidak ada nilai Silhouette yang negatif, maka berarti data-data yang dikelompokan tepat berada pada cluster masing-masing. 64 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 65 - Silhouette dataset yang didapatkan untuk data nilai ujian jurusan IPA berkisar antara 0.12 yang berada di k = 29 sampai 0.99 ketika k=138. Sedangkan Silhouette dataset yang didapatkan untuk data nilai ujian jurusan IPS berkisar antara 0.18 yang berada di k = 19 sampai 0.99 ketika k=158. - Untuk data nilai ujian jurusan IPA ketika k = 2 diperoleh Silhouette dataset 0.49 dan ketika diberikan k yang semakin besar maka diperoleh Silhouette dataset yang didapatkan semakin kecil, Silhouette dataset terkecil pada k = 32 yaitu sebesar 0.11 selanjutnya pada k = 33 hasil nilai Silhouette dataset semakin membesar hingga k =138 dengan nilai 0.99. - Untuk data nilai ujian jurusan IPS ketika k = 2 diperoleh Silhouette dataset 0.57 dan ketika diberikan k yang semakin besar maka diperoleh Silhouette dataset yang didapatkan semakin kecil, Silhouette dataset terkecil pada k = 19 yaitu sebesar 0.19 selanjutnya pada k = 20 hasil nilai Silhouette dataset semakin membesar hingga k = 31 namun pada k = 32 dan k = 33 Silhouette dataset kembali mengecil yaitu dengan nilai 0.19. Pada k = 34 nilai Silhouette dataset semakin membesar hingga k = 158 dengan nilai 0.99. - Dari kedua data yang digunakan yaitu IPA dan IPS tahun ajaran 2014/2015 dihasilkan nilai SC untuk data IPA sebesar 0.49 pada k = 2 yang dikategorikan sebagai weak Classification dan untuk data IPS sebesar 0.57 pada k = 2 dan 0.51 pada k=3 yang dikategorikan sebagai good Classification. Dengan demikian jumlah cluster yang disarankan untuk data nilai ujian jurusan IPA adalah 2 dan untuk IPS adalah 2 atau 3. 6.2. SARAN Berdasarkan hasil pada tugas akhir ini, penulis memberikan saran untuk perbaikan dan pengembangan program lebih lanjut antara lain: 1. Sistem ini bisa dilengkapi dengan tambahan pembaca data dari format selain .xls misal .csv, .doc, dan .txt. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 66 2. Perangkat Lunak dapat menyimpan hasil clustering kedalam file selain.csv. 3. Perangkat lunak dapat menampilkan hasil clustering ke dalam tampilan yang lebih menarik misalnya plot diagram. 4. Pada bagian seleksi atribut, perangkat lunak dapat dilakukan seleksi baris. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI DAFTAR PUSTAKA Anonim.2014.Lampiran Peraturan Menteri Pendidikan dan Kebudayaan Nomor 143 Tahun 2014.Jakarta Anonim.2014.Peraturan Menteri Pendidikan dan Kebudayaan Nomor 143 Tahun 2014.Jakarta Anonim.2015.Peraturan Pemerintah Republik Indonesia.Jakarta Han, Jiawei dan Kamber, Micheline.2006. Data Mining Consepts and Techniques 2Edition .San Fransisco:Morgan Kaudmann Han, Jiawei dan Kamber, Micheline.2012. Data Mining Consepts and Techniques 3Edition .San Fransisco:Morgan Kaudmann Handoyo, Rendy dkk.2014. Perbandingan Metode Clustering Menggunakan Metode Single Linkage Dan K - Means Pada Pengelompokan Dokumen. VOL 15, NO 2, Oktober 2014. Hermawati, Fajar Astuti.2013. Data Mining. Yogyakarta:Andi Kadir, Abdul.2014.Teori dan Aplikasi Struktur Data Menggunakan Java.Yogyaakarta:Andi Kaufman, Leonard dan Rousseeuw,Peter J.1990. Finding Groups in Data: An Introduction to Cluster Analysis. New York:Wiley Kemendikbud, 2015. Kemendikbud Umumkan Tujuh Provinsi Dengan Indeks Integritas Tertinggi Dalam UN 2015. http://litbang.kemdikbud.go.id/index.php/un diakses tanggal 7 Februari 2015. Kusrini dan Luthfi, Emha Taufiq.2009.Algoritma Data Mining.Yogyakarta:Andi 67 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 68 Muhammad, Ardiansyah. Penggunaan Jarak Dynamic Time Warping (Dtw) Pada Analisis Cluster Data Deret Waktu (Studi Kasus Pada Dana Pihak Ketiga Provinsi Seindonesia), hal. 2. Nugroho, Adi.2009.Algoritma dan Struktur Data dengan C#. Yogyakarta:Andi Prasetyo, Eko.2014. Data Mining-Mengolah Data Menjadi Informasi Menggunakan Matlab. Yogyakarta: Andi Sismoro,Heri dan Iskandar, Kusrini.2004.Struktur Data dan Pemrograman dengan Pascal .Yogyakarta:Andi Sulistyo,Gunadi H.Ujian Nasional(UN):Harapan, Tantangan, dan Peluang. Jurnal Ujian Nasional. Vol.9 No.1, April 2007 Turban, E, Ramesh Sharda, Dursun Delen 2015. Decision Support System and Intelligent System (System Pendukung Keputusan dan Sistem Cerdas). Andi: Yogyakarta