DATA MINING LANJUT Langkah Kerja Klasifikasi Dataset Glass Identification Database Menggunakan KNN (K-Nearest Neighbors) Praktikum Data Mining Lanjut Disusun Oleh: FITRA RIYANDA 1208107010079 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA DARUSSALAM, BANDA ACEH APRIL, 2013 LANGKAH KERJA 1. Pengambilan Data Sampel Dataset Glass Identification Database diambil dari alamat http://archive.ics.uci.edu/ml/datasets/Glass+Identification. Dataset ini merupakan hasil analisa apakah suatu kaca dapat mengembang atau tidak. 2. Deklarasi Dataset Dalam format ARFF (AttributeāRelation File Format) Dataset yang diperoleh dari dari UCI tersebut kemudian dirapikan dan dibuat sesuai format untuk pembentukan file ARFF yang akan di jalankan melalui aplikasi Weka. Untuk melakukan pembuatan format file tersebut, maka diperlukan suatu program yang dapat melakukan format ARFF secara otomatis sesuai dataset yang tertera. Gambar 1 Dataset Orisinil Pada UCI Gambar 2 ARFF Creator Untuk Merubah Format Text Ke ARFF Dari data yang telah diambil dari UCI kemudian dirubah formatnya dengan beberapa tahapan sesuai yang dibutuhkan sehingga tampak pada gambar berikut: Gambar 3 Hasil Output Format ARFF Tampak dari gambar 3.3 memperlihatkan format ARFF telah terbentuk dan siap untuk dijalankan pada Weka. a. Membagi Dataset Menjadi Trainingset dan Testingset Pada metode klasifikasi dataset menggunakan algoritma KNN dibutuhkan trainingset sebagai pembelajaran dan sebagai histori atau acuan untuk dataset yang ingin diuji dengan sample missing value. Uji coba dataset dilakukan dengan menentukan nilai k sebagai jarak data yang ingin diuji dengan pendekatan nilai tersebut sesuai dengan nilai k yang memiliki akurasi yang tinggi dan dengan testingset sebagai data sample-nya. Dari itu data trainingset dan testingset dibagi 70-75% sebagai trainingset dan 25-30% sebagai testingset dari jumlah data yang ada pada dataset tersebut. b. Menguji Akurasi Uji akurasi dataset dengan metode klasifikasi menggunakan KNN (KNearest Neighbor Classifier ) menggunakan Software Weka. Pada metode ini dilakukan pengambilan sampel dengan nilai akurasi diambil K=1, K=3, K=5, K=7, K=10 dan no distance weighting pada parameter distanceWeighting.