penerapan algoritma k-means untuk clustering data

advertisement
PENERAPAN ALGORITMA K-MEANS UNTUK
CLUSTERING DATA ANGGARAN PENDAPATAN
BELANJA DAERAH DI KABUPATEN XYZ
SKRIPSI
Oleh
Dwi Noviati Nango
531408022
JURUSAN TEKNIK INFORMATIKA
PROGRAM STUDI SISTEM INFORMASI
FAKULTAS TEKNIK
UNIVERSITAS NEGERI GORONTALO
JULI 2012
PENERAPAN ALGORITMA K-MEANS UNTUK
CLUSTERING DATA ANGGARAN PENDAPATAN
BELANJA DAERAH DI KABUPATEN XYZ
SKRIPSI
Diajukan untuk memenuhi salah satu syarat memperoleh Gelar Sarjana pada Program
Studi Sistem Informasi
Oleh
Dwi Noviati Nango
531408022
JURUSAN TEKNIK INFORMATIKA
PROGRAM STUDI SISTEM INFORMASI
FAKULTAS TEKNIK
UNIVERSITAS NEGERI GORONTALO
JULI 2012
iii
iv
v
KATA PENGANTAR
Syukur Alhamdulilah penulis panjatkan kehadirat Allah SWT, karena hanya
dengan rahmat dan hidayah-Nya, penulis dapat menyusun dan menyelesaikan
laporan akhir Skripsi ini dalam waktu yang telah ditetapkan.
Teriring ucapan terima kasih serta penghargaan yang setinggi-tingginya kepada
semua pihak yang telah banyak membantu dan mendukung demi rampungnya
laporan ini, terutama kepada :
1.
Kedua orang tua tercinta atas doa dan dukungannya.
2.
Bapak Syafrudin K. Lamusu, SE, MM, selaku sekretaris Kepala Badan
Pengelola Keuangan dan Aset Daerah.
3.
Ibu Ir. Rawiyah Husnan, MT, selaku Dekan Fakultas Teknik Universitas Negeri
Gorontalo.
4.
Pembantu Dekan I, Pembantu Dekan II dan Pembantu Dekan III Fakultas
Teknik, Universitas Negeri Gorontalo.
5.
Bapak Arip Mulyanto, M.Kom, selaku Ketua Jurusan Teknik Informatika
Fakultas Teknik Universitas Negeri Gorontalo.
6.
Bapak Agus Lahinta, ST, M.Kom, selaku Ketua Program Studi S1 Sistem
Informasi Universitas Negeri Gorontalo, sekaligus pembimbing I.
7.
Ibu Lillyan Hadjaratie, S.Kom, M.Si, selaku pembimbing II.
8.
Seluruh staf dosen pengajar S1 Sistem Informasi Teknik Informatika Universitas
Negeri Gorontalo, yang telah mendidik dan memberikan berbagai bekal
vi
pengetahuan yang tak ternilai harganya kepada penulis selama mengikuti
perkuliahan.
9.
Semua teman-teman senasib dan seperjuangan, khususnya Angkatan 2008 S1
Sistem Informasi Teknik Informatika Fakultas Teknik universitas Negeri
Gorontalo.
10. Seluruh keluargaku tercinta
11. Serta semua orang yang telah mendukung dalam penyusunan ini yang tidak bisa
disebutkan satu persatu.
Sebagai manusia yang tidak luput dari kesalahan, penulis menyadari bahwa
dalam penyusunan laporan ini tetap saja masih terdapat kekurangan. Untuk itu
penulis sangat mengharapkan saran dan kritik yang sifatnya membangun demi
kesempurnaan laporan ini. Akhir kata semoga laporan ini dapat bermanfaat. Amin.
Gorontalo,
Penulis
vii
Juli 2012
Intisari
Penelitian ini bertujuan untuk mengelompokkan data APBD tahun 2006-2011 yang
memiliki kemiripan karakteristik berdasarkan kedekatan jarak, menggunakan teknik
clustering dengan algoritma K-Means. Pembentukan cluster diuji dengan 3 nilai
centroid dan 2 nilai centroid, yang dilanjutkan dengan menghitung nilai SSE (Sum of
Squared Error). Hasil cluster dengan nilai SSE terkecil dijadikan sebagai parameter
untuk mengestimasi data anggaran belanja yang akan datang. Berdasarkan penelitian
yang dilakukan dapat diketahui bahwa pembentukan cluster dengan 3 nilai centroid
adalah cluster yang terbaik, karena memiliki nilai SSE terkecil yaitu
6.235.940.663,88,. Untuk nilai pendapatan tahun 2012 sebesar Rp 394.083.451.404,-,
diperoleh hasil estimasi nilai belanja tidak langsung sebesar Rp 199.533.334.595,76,sampai Rp 203.564.311.052,24. Serta estimasi nilai belanja langsung sebesar Rp
176.135.846.021,76,- sampai Rp 180.166.822.478,24,-.
Kata Kunci : Clustering, K-Means, estimasi.
viii
Abstract
The objective of this research to group the data of Local Budget revenue and
expenditure fiscal year 2006-2011 which has resemblance characteristics based on
distance by using clustering technique with K-Means algorithm. Cluster formed
tested by 3 value of centroid and 2 value of centroid which continued by calculation
SSE (Sum of Squared Error) value. Cluster result with the smallest SSE value
became a parameter to estimate the next budget expenditure. Based on the study, it
can reveal that cluster formed by 3 centroid value is the best cluster because has SSE
smallest 4 value that is 6.235.940.663, 88,. Revenue value on 2012 around Rp.
394.083.451.404,-, obtained estimation value indirect expenditure around Rp.
199.533.334.594,76 to Rp. 203.564.311.052,24. Direct estimation expenditure value
around Rp. 176.135.846.021,76.- to Rp. 180.166.822.478,24,-.
Keywords: clustering, K-Means, estimate.
ix
DAFTAR ISI
Halaman
HALAMAN SAMPUL ...................................................................................... i
HALAMAN JUDUL ......................................................................................... ii
LEMBAR PERNYATAAN .............................................................................. iii
LEMBAR PERSETUJUAN ............................................................................. iv
LEMBAR PENGESAHAN .............................................................................. v
MOTTO DAN PERSEMBAHAN .................................................................... vi
KATA PENGANTAR ....................................................................................... vii
INTISARI .......................................................................................................... ix
ABSTRACT ........................................................................................................ x
DAFTAR ISI ...................................................................................................... xi
DAFTAR TABEL ............................................................................................xiii
DAFTAR GAMBAR .........................................................................................xiv
DAFTAR LAMPIRAN ..................................................................................... xv
BAB I
PENDAHULUAN .............................................................................
A. Latar Belakang ...............................................................................
B. Rumusan Masalah ..........................................................................
C. Ruang Lingkup Penulisan ..............................................................
D. Tujuan Penulisan............................................................................
E. Manfaat Penulisan..........................................................................
1
1
2
2
3
3
BAB II
TINJAUAN PUSTAKA ...................................................................
A. Knowledge Discovery in Database (KDD) dan Data Mining........
1. Pengertian data mining ..............................................................
2. Tujuan data mining ....................................................................
3. Pengelompokkan data mining ...................................................
B. Clustering.......................................................................................
1. Pengertian clustering .................................................................
2. Metode clustering......................................................................
3. Document clustering .................................................................
4. Klasifikasi algoritma clustering ................................................
C. Penelitian Terkait ...........................................................................
D. Algoritma K-Means .......................................................................
1. Pengertian K-Means ..................................................................
2. Algoritma K-Means ...................................................................
3. Tahapan algoritma K-Means .....................................................
5
5
7
7
8
11
11
12
14
14
15
17
17
18
20
x
BAB III METODOLOGI PENELITIAN......................................................
A. Objek Penelitian .............................................................................
1. Gambaran umum badan pengelola keuangan dan aset daerah ..
2. Visi badan pengelola keuangan dan aset daerah .......................
3. Misi badan pengelola keuangan dan aset daerah ......................
4. Struktur organisasi badan pengelola keuangan
dan aset daerah .........................................................................
B. Metode Penelitian ..........................................................................
C. Teknik Pengumpulan Data.............................................................
1. Studi literatur.............................................................................
2. Teknik pengumpulan data arsip ................................................
D. Tahapan Penelitian .........................................................................
1. Studi pustaka .............................................................................
2. Pengumpulan data arsip ............................................................
3. Praproses data............................................................................
4. Clustering menggunakan algoritma K-Means ..........................
5. Analisis hasil clusterisasi ..........................................................
6. Selesai .......................................................................................
E. Jadwal Penelitian ...........................................................................
23
23
23
23
24
BAB IV HASIL DAN PEMBAHASAN ........................................................
A. Tahapan Penelitian .........................................................................
1. Pra proses data...........................................................................
2. Cleaning data ............................................................................
3. Clustering menggunakan algoritma K-Means ..........................
B. Tahap Analisis ...............................................................................
1. Proses clustering dalam K-Means .............................................
2. Pola hasil clustering dengan K-Means ......................................
3. Flowchart clustering K-Means .................................................
C. Desain Hasil ...................................................................................
1. Hasil implementasi input data parameter k dan x......................
2. Hasil implementasi input data nama k ......................................
3. Hasil implementasi input data APBD .......................................
4. Hasil implementasi tampilan proses hasil
perhitungan centroid .................................................................
5. Hasil implementasi perhitungan jarak data ke centroid ............
6. Hasil implementasi iterasi ........................................................
7. Hasil implementasi SSE ............................................................
8. Hasil implementasi laporan data mining ...................................
9. Hasil implementasi nilai estimasi .............................................
32
32
32
33
34
35
35
57
62
63
63
64
65
xi
25
26
26
26
26
27
28
28
28
29
30
30
31
66
67
68
69
70
71
BAB V
PENUTUP ......................................................................................... 72
A. Kesimpulan .................................................................................... 72
B. Saran .............................................................................................. 72
DAFTAR PUSTAKA ..........................................................................................73
LAMPIRAN
xii
DAFTAR TABEL
Tabel 4.1 Contoh data yang redundant ...............................................................
Tabel 4.2 Data APBD Kabupaten XYZ 6 tahun terakhir....................................
Tabel 4.3 Hasil perhitungan centroid setiap cluster pada pengujian 2 parameter
............................................................................................................
Tabel 4.4 Hasil perhitungan jarak data pada nilai k dengan masing-masing
centroid setiap cluster ........................................................................
Tabel 4.5 Perhitungan iterasi pertama pada cluster pendapatan ........................
Tabel 4.6 Perhitungan iterasi pertama pada cluster belanja tidak langsung .......
Tabel 4.7 Perhitungan iterasi pertama pada cluster belanja langsung ................
Tabel 4.8 Perhitungan iterasi pertama pada cluster pendapatan.........................
Tabel 4.9 Perhitungan iterasi pertama pada cluster belanja tidak langsung .......
Tabel 4.10 Perhitungan iterasi pertama pada cluster belanja langsung ..............
Tabel 4.11 Hasil perhitungan jarak data terhadap masing-masing nilai centroid
untuk dijadikan seagai perhitungan ..................................................
Tabel 4.12 Perhitungan iterasi kedua pada cluster pendapatan ..........................
Tabel 4.13 Perhitungan iterasi kedua pada cluster belanja tidak langsung ........
Tabel 4.14 Perhitungan iterasi kedua pada cluster belanja langsung .................
Tabel 4.15 Hasil akhir perhitungan iterasi dengan 3 nilai centroid dan 2
nilai centroid .....................................................................................
Tabel 4.16 Hasil perhitungan nilai SSE dengan 3 nilai centroid dan 2
nilai centroid .....................................................................................
Tabel 4.17 Data APBD sebelum di cluster .........................................................
Tabel 4.18 Nilai anggota pendapatan, belanja tidak langsung dan belanja
langsung pada (C0) ...........................................................................
Tabel 4.19 Nilai anggota pendapatan, belanja tidak langsung dan belanja
langsung pada (C1) ...........................................................................
Tabel 4.20 Nilai anggota pendapatan, belanja tidak langsung dan belanja
langsung pada (C2) ...........................................................................
Tabel 4.21 Nilai anggota pendapatan 2012 .........................................................
Tabel 4.22 Contoh nilai outlier ...........................................................................
Tabel 4.23 Contoh estimasi nilai outlier .............................................................
xiii
33
35
38
44
44
45
46
48
49
50
53
53
54
55
56
57
58
58
58
59
60
60
61
DAFTAR GAMBAR
Gambar 2.1 Tahapan dalam KDD ......................................................................
Gambar 2.2 Contoh clustering ............................................................................
Gambar 2.3 Cara kerja algoritma K-Means ........................................................
Gambar 3.1 Tahapan penelitian ..........................................................................
Gambar 4.1 Flow chart K-Means ........................................................................
Gambar 4.2 Implementasi input data parameter k dan x dengan 3 nilai centroid
.........................................................................................................
Gambar 4.3 Implementasi input data parameter k dan x dengan 2 nilai centroid
.........................................................................................................
Gambar 4.4 Implementasi input data nama k dengan 3 nilai centroid ................
Gambar 4.5 Implementasi input data nama k dengan 2 nilai centroid ................
Gambar 4.6 Implementasi input data APBD dengan 3 nilai centroid.................
Gambar 4.7 Implementasi input data APBD dengan 2 nilai centroid.................
Gambar 4.8 Implementasi tampilan proses hasil perhitungan dengan 3
nilai centroid ....................................................................................
Gambar 4.9 Implementasi tampilan proses hasil perhitungan dengan 2
nilai centroid ....................................................................................
Gambar 4.10 Implementasi tampilan perhitungan jarak data dengan 3
nilai centroid .................................................................................
Gambar 4.11 Implementasi tampilan perhitungan jarak data dengan 2
nilai centroid .................................................................................
Gambar 4.12 Implementasi tampilan iterasi dengan 3 nilai centroid .................
Gambar 4.13 Implementasi tampilan iterasi dengan 2 nilai centroid .................
Gambar 4.14 Implementasi tampilan akhir iterasi dengan 2 nilai centroid ........
Gambar 4.15 Implementasi tampilan nilai SSE dengan 3 nilai centroid ............
Gambar 4.16 Implementasi tampilan nilai SSE dengan 2 nilai centroid ............
Gambar 4.17 Implementasi laporan data mining dengan 3 nilai centroid ..........
Gambar 4.18 Implementasi laporan data mining dengan 2 nilai centroid ..........
Gambar 4.19 Implementasi tampilan nilai estimasi ............................................
xiv
5
12
21
27
62
63
63
64
64
65
65
66
66
67
67
68
68
69
69
69
70
70
71
DAFTAR LAMPIRAN
Lampiran data APBD Kabupaten XYZ tahun 2006 (part 1) ..............................
Lampiran data APBD Kabupaten XYZ tahun 2006 (part 2) ..............................
Lampiran data APBD Kabupaten XYZ tahun 2007 ...........................................
Lampiran data APBD Kabupaten XYZ tahun 2008 ..........................................
Lampiran data APBD Kabupaten XYZ tahun 2009 ...........................................
Lampiran data APBD Kabupaten XYZ tahun 2010 ...........................................
Lampiran data APBD Kabupaten XYZ tahun 2011 ...........................................
Lampiran surat ijin pengambilan data di Kabupaten XYZ .................................
Lampiran surat pelaksanaan penelitian dari Kabupaten XYZ ...........................
Lampiran terjemahan intisari dari pusat bahasa ..................................................
xv
1
2
3
4
5
6
7
8
9
10
BAB I
PENDAHULUAN
A. Latar Belakang Masalah
Saat ini begitu banyak data yang terdapat dalam sebuah organisasi, sehingga
menimbulkan kesulitan dalam hal pengelompokkan data. Namun dengan
perkembangan Teknologi Informasi (TI) terdapat berbagai macam solusi untuk
mengatasi kesulitan tersebut, salah satunya adalah dengan menggunakan teknik Data
Mining (DM). “DM merupakan proses pencarian pola dan relasi-relasi yang
tersembunyi dalam sejumlah data yang besar dengan tujuan untuk melakukan
klasifikasi, estimasi, prediksi, asosiasi rule, clustering, deskripsi dan visualisasi”
(Han dkk,2001, dalam Baskoro,2010).
Data Anggaran Pendapatan Belanja Daerah (APBD) yang dikelola oleh badan
keuangan daerah di Kabupaten XYZ pada dasarnya sudah dikelompokkan
berdasarkan pendapatan, belanja langsung dan tidak langsung. Akan tetapi karena
data yang dikelola oleh badan pengelola keuangan daerah tersebut memiliki data
yang begitu banyak, maka perlu diketahui bagaimana keterkaitan antar data
pendapatan, belanja langsung dan tidak langsung dari lembaga tersebut. Salah satu
metode yang digunakan yaitu clustering. Dengan clustering dimaksudkan untuk
mengidentifikasi data APBD yang memiliki kesamaan dalam karakteristik tertentu.
1
Terdapat berbagai algoritma yang digunakan dalam teknik DM dengan metode
clustering salah satunya adalah algoritma K-Means. “Algoritma K-Means adalah
salah satu algoritma unsupervised learning yang paling sederhana yang dikenal dapat
menyelesaikan permasalahan clustering dengan baik” (Mac Queen, 1967). Dengan
diterapkannya algoritma K-Means dalam proses clusterisasi APBD maka diharapkan
dapat mengelompokkan dan menentukan jumlah cluster yang paling tepat/akurat
juga memprediksi nilai belanja tidak langsung serta nilai belanja langsung yang akan
datang terhadap data APBD Kabupaten XYZ. Berdasarkan permasalahan tersebut
maka penulis mengusulkan sebuah penulisan yang berjudul “Penerapan Algoritma
K-Means Untuk Clustering Data Anggaran Pendapatan Belanja Daerah di
Kabupaten XYZ”.
B. Rumusan Masalah
Berdasarkan latar belakang permasalahan yang ada, maka rumusan masalahnya
adalah bagaimana menerapkan algoritma K-Means untuk mengclustering data APBD
yang dikelola oleh badan pengelola keuangan daerah di Kabupaten XYZ ?
C. Ruang Lingkup Penulisan
Ruang lingkup penulisan meliputi :
a.
Dataset yang digunakan adalah data APBD 6 tahun terakhir (2006 – 2011).
b.
Atribut pendapatan yang digunakan dalam dataset ini adalah pendapatan.
2
c.
Atribut belanja tidak langsung yang digunakan dalam dataset ini adalah belanja
pegawai.
d.
Atribut belanja langsung yang digunakan dalam dataset ini adalah seluruh item
pembelanjaan disetiap instansi.
D. Tujuan Penulisan
Adapun tujuan dari penulisan ini adalah :
a.
Membangun protipe clusterisasi data APBD Kabupaten XYZ.
b.
Menerapkan algoritma K-Means untuk mengelompokkan dan menentukan
jumlah cluster yang paling tepat/akurat terhadap data APBD Kabupaten XYZ.
c.
Menganalisa
hasilnya
untuk
menentukan
parameter-parameter
batasan
berdasarkan karakteristik pada masing-masing cluster.
d.
Dapat mengestimasi nilai belanja tidak langsung dan belanja langsung di masa
yang akan datang.
E. Manfaat Penulisan
Manfaat yang diperoleh dalam penulisan ini yaitu :
a. Memberikan gambaran langkah-langkah penerapan algoritma K-Means pada
data APBD kabupaten XYZ.
b. Dapat memberikan suatu informasi penting bagi organisasi tentang bagaimana
mengelompokkan data APBD dengan cara clustering menggunakan algoritma
K-Means.
3
c. Dengan adanya clustering dapat memperoleh pengetahuan tentang estimasi nilai
belanja daerah di kabupaten XYZ pada masa yang akan datang.
4
BAB II
TINJAUAN PUSTAKA
A. Knowledge Discovery in Database (KDD) dan Data Mining
Banyak orang menggunakan istilah data mining dan knowledge discovery in
databases (KDD) secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah
tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. ”Salah satu
tahapan dalam proses KDD adalah data mining” (Han & Kamber,2006 dalam
Baskoro,2010).
Han and Kamber (2006) menyatakan :
Knowledge Discovery in Database (KDD) adalah proses menentukan informasi
yang berguna serta pola-pola yang ada dalam data. Informasi ini terkandung
dalam basis data yang berukuran besar yang sebelumnya tidak diketahui dan
potensial bermanfaat. Data Mining merupakan salah satu langkah dari
serangkaian proses iterative KDD. Tahapan proses KDD dapat dilihat pada
gambar dibawah ini.
Gambar 2.1 Tahapan dalam KDD (Han and Kamber 2006)
5
Tahapan proses KDD terdiri dari :
a.
Data Selection
Pada proses ini dilakukan pemilihah himpunan data, menciptakan himpunan data
target, atau memfokuskan pada subset variabel (sampel data) dimana penemuan
(discovery) akan dilakukan. Hasil seleksi disimpan dalam suatu berkas yang
terpisah dari basis data operasional.
b. Pre-Processing dan Cleaning Data
Pre-Processing dan Cleaning Data dilakukan membuang data yang tidak
konsisten dan noise, duplikasi data, memperbaiki kesalahan data, dan bisa
diperkaya dengan data eksternal yang relevan.
c.
Transformation
Proses ini mentransformasikan atau menggabungkan data ke dalam yang lebih
tepat untuk melakukan proses mining dengan cara melakukan peringkasan
(agregasi).
d.
Data Mining
Proses data mining yaitu proses mencari pola atau informasi menarik dalam data
terpilih dengan menggunakan teknik, metode atau algoritma tertentu sesuai
dengan tujuan dari proses KDD secara keseluruhan.
e.
Interpretation / Evaluasi
Proses untuk menerjamahkan pola-pola yang dihasilkan dari data mining.
Mengevaluasi (menguji) apakah pola atau informasi yang ditemukan bersesuaian
atau bertentangan dengan fakta atau hipotesa sebelumnya. Pengetahuan yang
6
diperoleh dari pola-pola yang terbentuk dipresentasikan dalam bentuk
visualisasi.
1.
Pengertian data mining.
Santosa (2007) menyatakan bahwa data mining merupakan suatu kegiatan yang
meliputi pengumpulan, pemakaian data historis untuk menentukan keteraturan, pola
atau hubungan dalam set data berukuran besar. Salah satu tugas utama dari data
mining adalah pengelompokan clustering dimana data yang dikelompokkan belum
mempunyai contoh kelompok.
Larose (2005) menyatakan bahwa data mining adalah suatu proses pencarian
korelasi, pola dan tren baru yang berguna dalam media penyimpanan data berukuran
besar menggunakan teknologi pengenalan pola seperti teknik-teknik statistik dan
matematis. Istilah lain yang sering digunakan antara lain knowledge mining from
data,
knowledge extraction,
data/pattern analysis,
data archeology, dan data
dredging.
2.
Tujuan data mining.
Baskoro (2010) menyatakan bahwa adapun tujuan dari adanya data mining
adalah :
a.
Explanatory, yaitu untuk menjelaskan beberapa kegiatan observasi atau suatu
kondisi.
b.
Confirmatory, yaitu untuk mengkonfirmasikan suatu hipotesis yang telah ada.
c.
Exploratory, yaitu untuk menganalisis data baru suatu relasi yang janggal.
7
3.
Pengelompokkan data mining.
Tan et. al. (2005), menyatakan :
Secara garis besar data mining dapat dikelompokkan menjadi 2 kategori utama :
a. Descriptive mining, yaitu proses untuk menemukan karakteristik penting dari
data dalam suatu basis data. Teknik data mining yang termasuk dalam
descriptive mining adalah clustering, association, dan sequential mining.
b. Predictive mining, yaitu proses untuk menemukan pola dari data dengan
menggunakan beberapa variabel lain di masa depan. Salah satu teknik yang
terdapat dalam predictive mining adalah klasifikasi.
Larose and Daniel (2005), menyatakan :
Pengelompokkan data mining berdasarkan tugas yang dapat dilakukan yaitu :
a. Deskripsi
Deskripsi adalah menggambarkan pola dan kecenderungan yang terdapat dalam
data yang memungkinkan memberikan penjelasan
dari suatu pola atau
kecenderungan tersebut.
b. Estimasi
Estimasi hampir sama dengan klasifikasi, akan tetapi variabel target estimasi
lebih ke arah numerik daripada ke arah kategori.
c. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, akan tetapi dalam prediksi
nilai dari hasil akan terwujud di masa yang akan datang.
8
d. Klasifikasi
Klasifikasi adalah proses untuk menemukan model atau fungsi yang
menggambarkan dan membedakan kelas data atau konsep dengan tujuan
memprediksikan kelas untuk data yang tidak diketahui kelasnya (Han and
Kamber, 2006).
e. Clustering
Clustering atau analisis cluster adalah proses pengelompokan satu set bendabenda fisik atau abstrak ke dalam kelas objek yang sama (Han & Kamber, 2006).
f. Asosiasi
Asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu
waktu.
Kusrini dkk (2009), menyatakan bahwa :
Pengelompokkan data mining diatas dijadikan sebagai teknik dari data mining
berdasarkan tugas yang bisa dilakukan, yaitu :
a. Deskripsi
Para
penulis/analis
biasanya
mencoba
menemukan
cara
untuk
mendeskripsikan pola dan trend yang tersembunyi dalam data.
b. Estimasi
Estimasi mirip dengan klasifikasi, kecuali variabel tujuan yang lebih ke arah
numerik daripada kategori. Misalnya, akan dilakukan estimasi tekanan systolic
dari pasien rumah sakit berdasarkan umur pasien, jenis kelamin, indeks berat
badan, dan level sodium darah.
9
c. Prediksi
Prediksi memiliki kemiripan dengan estimasi dan klasifikasi. Hanya saja,
prediksi hasilnya menunjukkan sesuatu yang belum terjadi (mungkin terjadi
dimasa depan). Misalnya, ingin diketahui prediksi harga beras tiga bulan yang
akan datang.
d. Klasifikasi
Dalam klasifikasi variable, tujuan bersifat kategorik. Misalnya, kita akan
mengklasifikasikan pendapatan dalam tiga kelas, yaitu pendapatan tinggi,
pendapatan sedang, dan pendapatan rendah.
e. Clustering
Clustering lebih kearah pengelompokan record, pengamatan, atau kasus dalam
kelas yang memiliki kemiripan. Sebuah cluster adalah kumpulan record yang
memiliki kemiripan satu dengan yang lain dan memiliki ketidak miripan dengan
record-record dalam cluster yang lain, misalnya untuk tujuan audit akuntasi
akan dilakukan segmentasi perilaku financial dalam kategori dan mencurigakan.
f. Asosiasi
Mengidentifikasi hubungan antara berbagai peristiwa yang terjadi pada satu
waktu. Pendekatan asosiasi tersebut menekankan sebuah kelas masalah yang
dicirikan dengan analisis keranjang pasar.
10
B. Clustering
1.
Pengertian clustering.
“Clustering atau analisis cluster adalah proses pengelompokan satu set benda-
benda fisik atau abstrak ke dalam kelas objek yang sama” (Han and Kamber, 2006).
Baskoro (2010) menyatakan bahwa :
Clustering atau clusterisasi adalah salah satu alat bantu pada data mining yang
bertujuan mengelompokkan obyek-obyek ke dalam cluster-cluster. Cluster
adalah sekelompok atau sekumpulan obyek-obyek data yang similar satu sama
lain dalam cluster yang sama dan dissimilar terhadap obyek-obyek yang berbeda
cluster. Obyek akan dikelompokkan ke dalam satu atau lebih cluster sehingga
obyek-obyek yang berada dalam satu cluster akan mempunyai kesamaan yang
tinggi antara satu dengan lainnya. Obyek-obyek dikelompokkan berdasarkan
prinsip memaksimalkan kesamaan obyek pada cluster yang sama dan
memaksimalkan ketidaksamaan pada cluster yang berbeda. Kesamaan obyek
biasanya diperoleh dari nilai-nilai atribut yang menjelaskan obyek data,
sedangkan obyek-obyek data biasanya direpresentasikan sebagai sebuah titik
dalam ruang multidimensi.
Dengan menggunakan clusterisasi, kita dapat mengidentifikasi daerah yang
padat, menemukan pola-pola distribusi secara keseluruhan, dan menemukan
keterkaitan yang menarik antara atribut-atribut data. Dalam data mining, usaha
difokuskan pada metode-metode penemuan untuk cluster pada basis data
berukuran besar secara efektif dan efisien. Beberapa kebutuhan clusterisasi
dalam data mining meliputi skalabilitas, kemampuan untuk menangani tipe
11
atribut yang berbeda, mampu menangani dimensionalitas yang tinggi,
menangani data yang mempunyai noise, dan dapat diterjemahkan dengan
mudah.
Cluster1
Cluster 2
outliers
Gambar 2.2 Contoh Clustering (Baskoro 2010)
Adapun tujuan dari data
clustering ini adalah untuk meminimalisasikan
objective function yang diset dalam proses clustering, yang pada umumnya
berusaha
meminimalisasikan
variasi
di
dalam
suatu
cluster
dan
memaksimalisasikan variasi antar cluster.
2.
Metode clustering.
Secara garis besar, terdapat beberapa metode clusterisasi data. Pemilihan metode
clusterisasi bergantung pada tipe data dan tujuan clusterisasi itu sendiri. Metodemetode beserta algoritma yang termasuk didalamnya meliputi (Baskoro, 2010):
12
a. Partitioning Method
Membangun berbagai partisi dan kemudian mengevaluasi partisi tersebut dengan
beberapa kriteria, yang termasuk metode ini meliputi algoritma K-Means, KMedoid, PROCLUS, CLARA, CLARANS, dan PAM.
b. Hierarchical Methods
Membuat suatu penguraian secara hierarkikal dari himpunan data dengan
menggunakan beberapa kriteria. Metode ini terdiri atas dua macam, yaitu
Agglomerative yang menggunakan strategi bottom-up dan Disisive yang
menggunakan strategi top-down. Metode ini meliputi algoritma BIRCH, AGNES,
DIANA, CURE, dan CHAMELEON.
c. Density-based Methods
Metode ini berdasarkan konektivitas dan fungsi densitas. Metode ini meliputi
algoritma DBSCAN, OPTICS, dan DENCLU.
d. Grid-based Methods
Metode ini berdasarkan suatu struktur granularitas multi-level. Metode
clusterisasi ini meliputi algoritma STING, WaveCluster, dan CLIQUE.
e. Model-based Methods
Suatu model dihipotesakan untuk masing-masing cluster dan ide untuk mencari
best fit dari model tersebut untuk masing-masing yang lain. Metode clusterisasi
ini meliputi pendekatan statitik, yaitu algoritma COBWEB dan jaringan syaraf
tiruan, yaitu SOM.
13
Sadaaki et. al. (2008) menyatakan :
Sebelum memutuskan berapa jumlah cluster yang akan dibentuk bahwa
terdapat dua pendekatan yang dapat digunakan yaitu :
a. supervised (jika jumlah cluster ditentukan).
b. unsupervised (jika jumlah cluster tidak ditentukan/alami).
3.
Document clustering.
“Document clustering merupakan suatu teknik untuk mengelompokkan
dokumen-dokumen
berdasarkan
kemiripannya
dengan
tujuan
mendapatkan
sekumpulan dokumen yang tepat” (Widyawati, 2010). Dokumen-dokumen tersebut
dikelompokan ke dalam cluster berdasarkan tingkat kemiripannya. Suatu cluster
dapat dikatakan bagus apabila tingkat kemiripan antar anggota cluster sangat tinggi
dan tingkat kemiripan antar
cluster sangat rendah.
Sedangkan kualitas
suatu
cluster dapat diukur melalui kemampuannya dalam menemukan pola-pola yang
tersembunyi.
4.
Klasifikasi algoritma clustering.
“Algoritma clustering secara luas diklasifikasikan menjadi dua algoritma, yaitu
hierarchical clustering, dan non-hierarchical clustering” (Henjaya, 2010).
Han and Kamber (2006) menyatakan bahwa hierarchical clustering adalah
sebuah metode hierarkis yang menciptakan komposisi hierarkis yang diterapkan pada
objek data, sehingga akan menghasilkan cluster-cluster yang bersarang. Algoritma
hierarchical clustering mengatur seluruh objek dalam sebuah pohon untuk melihat
14
hubungan antara setiap objek (Henjaya, 2010). “Contoh algoritma Hierarchical
clustering adalah HAC (Hierarchical Agglomerative Clustering)” (Karhendana,
2008).
Non-hierarchical clustering, pada umumnya disebut algoritma partitional
clustering, memberikan sejumlah n objek dan k yang merupakan jumlah dari cluster
yang terbentuk. Algoritma partitional clustering mengolah objek ke dalam kkelompok berdasarkan kriteria optimasi tertentu, dimana setiap kelompok merupakan
representasi sebuah cluster. Han and Kamber (2006) menyatakan bahwa contoh
algoritma partitional clustering antara lain K-Means.
C. Penulisan Terkait
Berdasarkan penulisan yang dilakukan oleh Firdausi dkk pada tahun 2011
tentang Analisis Financial Distress Dengan Pendekatan Data Mining Pada Industri
Manufaktur Go-Public Di Indonesia, dikemukakan bahwa penulisan tersebut berisi
tentang perbandingan algoritma K-Means dan Fuzzy C-Means (FCM). Cara kerja
algoritma K-Means dalam pengelompokan data keuangan dan data perusahaan yang
akan mengalami kebangkrutan lebih baik dari cara kerja algoritma FCM, dimana
dalam penulisan itu menggunakan rumus sum squared error (SSE) serta icdrate
(internal cluster disprersion rate). Dimana dari penulisan ini didapatkan nilai SSE
terkecil pada K-Means, menunjukkan bahwa total kesalahan kuadrat yang terjadi
pada pengelompokkan metode tersebut kecil. Sehingga metode itu dapat dikatakan
memiliki nilai error terkecil dan lebih baik dibandingkan metode FCM.
15
Pada metode FCM, keragaman dalam cluster (Sum of Squared Within) SSW
bernilai tertinggi serta keragaman antar cluster (Sum of Squared Between) SSB
bernilai paling rendah sehingga metode FCM memiliki nilai icdrate tertinggi
dibandingkan K-Means. Hal ini menunjukkan pada pengelompokkan dengan
menggunakan metode FCM, terdapat banyak data berbeda dalam tiap cluster yang
terbentuk dan tercermin pada nilai SSW yang tinggi. Serta sedikitnya perbedaan data
antar cluster yang terbentuk dapat dikatakan perbedaan antar cluster 1 dan 2 tidak
jauh beda yang tercermin pada nilai SSB yang rendah. Nilai terkecil pada seluruh
metode K-Means tercipta karena keragaman dalam cluster SSW yang terbentuk
sangat kecil dan keragaman antar cluster SSB sangat tinggi. Oleh karena itu antara
metode K-Means dengan FCM setelah dibandingkan dengan mempertimbangkan
nilai SSE dan icdrate, didapatkan metode K-Means sebagai metode terbaik.
Penulisan lain yang dilakukan oleh Wahyuni pada tahun 2009 dalam jurnalnya
yang berjudul Penggunaan Cluster-Based Sampling Untuk Penggalian Kaidah
Asosiasi Multi Obyektif, menjelaskan bahwa algoritma K-Means lebih baik
dibandingkan algoritma FCM. Dalam penulisan ini berisi tentang dua pembandingan
metode clustering yaitu K-Means dan FCM. Adapun penulisan ini membahas hasil
penggalian kaidah asosiasi multi obyektif dengan menggunakan sampel yang
dilakukan proses clustering terlebih dahulu akan menghasilkan kaidah-kaidah
asosiasi yang lebih baik. Hal ini ditunjukkan dengan nilai rata-rata yang diperoleh
mempunyai nilai yang lebih besar dibandingkan data yang tidak melalui proses
clustering terlebih dahulu. Perbandingan metode clustering yang digunakan yaitu KMeans dan FCM. Metode K-Means lebih baik daripada FCM, hal ini ditunjukkan
16
dengan nilai rata-rata confidence yang dihasilkan menggunakan metode K-Means
mempunyai nilai yang lebih besar dibandingkan dengan metode FCM.
Penulisan yang dilakukan oleh Widyawati pada tahun 2010 dalam skripsinya
yang berjudul Perbandingan Clustering Based On Frequent Word Sequence (CFWS)
Dan K-Means Untuk Pengelompokkan Dokumen Berbahasa Indonesia menjelaskan
bahwa didapatkan nilai F-Measure dan Purity hasil implementasi menggunakan
algoritma K-Means lebih tinggi dibandingkan dengan implementasi menggunakan
algoritma CFWS. Hal ini membuktikan bahwa algoritma K-Means lebih tepat
digunakan untuk pengelompokkan dokumen berbahasa Indonesia.
D. Algoritma K-Means
1.
Pengertian K-Means.
“K-Means merupakan algoritma yang umum digunakan untuk clustering
dokumen. Prinsip utama K-Means adalah menyusun k prototype atau pusat massa
(centroid) dari sekumpulan data berdimensi n” (Aryan, 2010). Sebelum diterapkan
proses algoritma K-means, dokumen akan di
preprocessing terlebih dahulu.
Kemudian dokumen direpresentasikan sebagai vektor yang memiliki term dengan
nilai tertentu.
Agusta (2007) menyatakan bahwa K-Means merupakan salah satu metode data
clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu
atau lebih cluster/kelompok. Metode ini mempartisi data ke dalam cluster/kelompok
sehingga data yang memiliki karakteristik sama dikelompokkan ke dalam satu
cluster yang sama.
17
2.
Algoritma K-Means.
Algoritma k-means merupakan algoritma yang membutuhkan parameter input
sebanyak k dan membagi sekumpulan n objek kedalam k cluster sehingga tingkat
kemiripan antar anggota dalam satu cluster tinggi sedangkan tingkat kemiripan
dengan anggota pada cluster lain sangat rendah. Kemiripan anggota terhadap cluster
diukur dengan kedekatan objek terhadap nilai mean pada cluster atau dapat disebut
sebagai centroid cluster atau pusat massa (Widyawati, 2010).
Berikut rumus pengukuran jarak menurut (Santosa, 2007) :
d(x,y)
= ||x-y||2 =
𝑛
𝑖=1(π‘₯𝑖
− 𝑦 𝑖)
2
......... ( 1 )
Adapun rumus perhitungan jarak lainnya didefinisikan sebagai berikut :
......... ( 2 )
d(x,y) = √ ( xi – yi )2 + ( xi – yi )2
Keterangan :
d = titik dokumen
x = data record
y = data centroid
Jarak yang terpendek antara centroid dengan dokumen menentukan posisi
cluster suatu dokumen. Misalnya dokumen A mempunyai jarak yang paling pendek
ke centroid 1 dibanding ke yang lain, maka dokumen A masuk ke group 1. Hitung
kembali posisi centroid baru untuk tiap-tiap centroid (Ci..j)dengan mengambil rata-
18
rata dokumen yang masuk pada cluster awal (Gi..j ). Iterasi dilakukan terus hingga
posisi group tidak berubah. Berikut rumus dari penentuan centroid.
C (i) =
1
𝐺𝑖
π‘₯πœ–π‘
𝑑π‘₯
......... ( 3 )
Adapun rumus iterasi lainnya didefinisikan sebagai berikut :
C(i) = x1+ x2+ x..+ x…
......... ( 4 )
π‘₯
Keterangan :
x1
= nilai data record ke-1
x2
= nilai data record ke-2
∑x
= jumlah data record
K-Means merupakan algoritma clustering yang bersifat partitional yaitu
membagi himpunan objek data ke dalam sub himpunan (cluster) yang tidak overlap,
sehingga setiap objek data berada tepat dalam satu cluster. Strategi partitionalclustering yang paling sering digunakan adalah berdasarkan kriteria square error.
Secara umum, tujuan kriteria square error adalah untuk memperoleh partisi (jumlah
cluster tetap) yang meminimalkan total square error.
SSE (Sum Squared of Error) menyatakan total kesalahan kuadarat yang terjadi
bila n data i n x ,..., x dikelompokkan kedalam k cluster dengan pusat tiap cluster
adalah k m ,...,m 1 . Nilai SSE tergantung pada jumlah cluster dan bagaimana data
dikelompokkan ke dalam cluster-cluster tersebut. Semakin kecil nilai SSE, semakin
bagus hasil clustering-nya.
19
Adapun rumus SSE adalah sebagai berikut :
......... ( 5 )
SSE = (Ci)2 + (Ci)2 + (C..)2 + (C..)2
Keterangan :
Ci
3.
=
nilai centroid
Tahapan algoritma K-Means.
Widyawati (2010), menyatakan :
Proses algoritma K-Means sebagai berikut :
a. Pilih
secara
acak
objek
sebanyak
k,
objek-objek
tersebut
akan
direpresentasikan sebagai mean pada cluster.
b. Untuk setiap objek dimasukan kedalam cluster yang tingkat kemiripan objek
terhadap cluster tersebut tinggi. Tingkat kemiripan ditentukan dengan jarak
objek terhadap mean atau centroid cluster tersebut.
c. Hitung nilai centroid yang baru pada masing-masing cluster.
d. Proses tersebut diulang hingga anggota pada kumpulan cluster tersebut tidak
berubah.
Sedangkan menurut Adiningsih (2007) tahap penyelesaian algoritma K-Means
adalah sebagai berikut :
a.
Menentukan K buah titik yang merepresentasikan obyek pada setiap cluster
(centroid awal).
b.
Menetapkan setiap obyek pada cluster dengan posisi centroid terdekat.
c.
Jika semua obyek sudah dikelompokkan maka dilakukan perhitungan ulang
dalam menentukan centroid yang baru.
20
d.
Ulangi langkah ke-2 dan ke-3 sampai centroid tidak berubah.
Kurniawan dkk (2010) menyatakan :
Langkah-langkah dari algoritma K-Means yaitu :
Start
.
Number of
cluster K
Centroid
No object
move group
Distance objects to
centroids
End
Grouping based on
minimum distance
Gambar 2.3 Cara Kerja Algoritma K-Means (Kurniawan dkk 2010)
Berikut penjelasan dari gambar 2.3, dengan algoritma K-means dilakukan cara
berikut hingga ditemukan hasil iterasi yang stabil :
a.
Menentukan data centroid, pada sistem ini, ditentukan bahwa centroid pertama
adalah n data pertama dari data-data yang akan di-cluster.
b.
Menghitung jarak antara centroid dengan masing-masing data.
c.
Mengelompokkan data berdasarkan jarak minimum.
21
d.
Jika penempatan data sudah sama dengan sebelumnya, maka stop. Jika tidak,
kembali ke cara yang ke-2.
22
BAB III
METODOLOGI PENELITIAN
A. Objek Penelitian
Penelitian ini dilakukan di salah satu Kabupaten yang ada di Provinsi Gorontalo,
yaitu di Badan Pengelola Keuangan Dan Aset Daerah (BPKAD).
1.
Gambaran umum badan pengelola keuangan dan aset daerah (BPKAD).
Berdasarkan PP nomor 8 tahun 2003 tentang Pedoman Organisasi Perangkat
Daerah mengamanatkan adanya penataan kembali Organisasi Perangkat Daerah.
Sehingga Bagian Keuangan Sekretariat Daerah Kabupaten XYZ mengalami
perubahan nama menjadi Badan Pengelola Keuangan dan Aset Daerah disingkat
(BPKAD), yang dibentuk berdasarkan Peraturan Daerah Kabupaten XYZ nomor 15
tahun 2005 sampai dengan sekarang. Organisasinya terdiri dari Kepala Badan,
Bagian Tata Usaha, Bidang Pendapatan, Bidang Belanja, Bidang Kekayaan dan Aset,
Bidang Pembukuan dan Pelaporan, Kelompok Jabatan Fungsional, dan Unit
Pelaksana Teknis (UPT)
Badan Pengelola Keuangan dan Aset Daerah dipimpin oleh seorang Kepala
Badan yang berada dibawah dan bertanggung jawab kepada Bupati melalui
Sekretaris Daerah, mempunyai tugas menyelenggarakan kewenangan pemerintah
dalam bidang Pengelolaan Keuangan dan Aset Daerah.
23
2.
Visi badan pengelola keuangan dan aset daerah (BPKAD).
Perencanaan pengendalian manajemen pengelolaan keuangan daerah serta
optimalisasi penerimaan pendapatan dan pengelolaan aset daerah dalam rangka
mendukung pencapaian program pemerintah daerah Kabupaten XYZ.
3.
Misi badan pengelola keuangan dan aset daerah (BPKAD).
a.
Merumuskan kebijakan teknis pengelolaan keuangan.
b.
Optimalisasi dan diversifikasi potensi penerimaan.
c.
Penataan dan pengembangan sistem pengelolaan keuangan.
d.
Peningkatan kemampuan sumber daya aparatur pengelola keuangan daerah.
e.
Diversifikasi pemanfaatan dan pengamanan aset daerah dalam menunjang
pelaksanaan program.
f.
Pengendalian dan pengawasan teknis pengelolaan keuangan daerah.
24
4.
Struktur organisasi badan pengelola keuangan dan aset daerah (BPKAD).
STRUKTUR ORGANISASI
BADAN PENGELOLA KEUANGAN DAN ASET DAERAH KABUPATEN XYZ
KEPALA BADAN
SEKRETARIS
SUB BAGIAN KEUANGAN
SUB BAGIAN
PENYUSUNAN
PROGRAM
SUB BAGIAN UMUM &
KEPEGAWAIAN
BIDANG PENDAPATAN
BIDANG BELANJA
BIDANG KEKAYAAN DAN
ASSET
BIDANG PEMBUKUAN
DAN PELAPORAN
SUB BIDANG PAD
SUB BID. ANGGARAN
DAN PERMODALAN
SUB BIDANG
PENGADAAN DAN
PERAWATAN
SUB BIDANG VERIVIKASI
SUB BID. PENDAPATAN
DAERAH LAINNYA
SUB BID.
PERBENDAHARAAN
SUB BID. PEMANFAATAN
DAN PENGENDALIAN
UPT
25
SUB BID. PEMBUKUAN
DAN PELAPORAN
B. Metode Penelitian
Metode penelitian yang digunakan pada penulisan kali ini adalah metode
eksperimen.
“Metode
eksperimen
merupakan
rancangan
penelitian
yang
mengidentifikasi hubungan kausal” (Sudaryono dkk:45, 2011).
C. Teknik Pengumpulan Data
Adapun teknik yang dilakukan oleh penulis yaitu :
1.
Studi literatur.
Dengan mengumpulkan dan mempelajari literatur yang berkaitan dengan konsep
DM clustering, yang menggunakan algoritma K-Means. Sumber literatur berupa
buku teks, paper, jurnal, karya ilmiah, dan situs-situs penunjang.
2.
Teknik pengumpulan data arsip.
Dengan mengumpulkan data arsip yang berkaitan dengan data APBD Kabupaten
XYZ serta data tentang analisis isi yang digunakan.
26
D.
Tahapan Penelitian
Mulai
Jurnal,
Buku
Studi Pustaka
pengumpulan data
Pengumpulan DataArsip
praproses
Seleksi data
Cleaning
Tranformasi data
Clustering (menggunkan
Algoritma K-means)
Hasil
Selesai
Gambar 3.1 Tahapan penelitian
27
Instansi /
SKPD
Adapun tahapan
penelitian yang akan dilakukan
penulis
dalam proses
penelitian ini adalah sebagai berikut :
1.
Studi pustaka.
Dengan mengumpulkan dan mempelajari literatur yang berkaitan dengan konsep
DM clustering, yang menggunakan algoritma K-Means. Sumber literatur berupa
buku teks, paper, jurnal, karya ilmiah, dan situs-situs penunjang.
2.
Pengumpulan data arsip.
Untuk mengetahui informasi yang dibutuhkan, penulis melakukan pengumpulan
data arsip (laporan APBD dari tahun 2006-2011).
3.
Praproses data.
Praproses data meliputi :
a.
Seleksi data.
Untuk memilih himpunan data (dataset) yang akan digunakan pada penulisan ini,
yaitu data pendapatan, belanja langsung dan tidak langsung.
b. Cleaning.
Untuk membersihkan data, yaitu melengkapi data, menghapus data duplikat,
menghilangkan noise.
c.
Transformasi data.
Untuk memformat data agar siap di cluster.
4.
Clustering menggunakan algoritma k-means.
Tahapan proses dimana data yang sudah dipraproses di cluster dengan
menggunakan cara kerja algoritma K-Means.
28
a.
Pilih jumlah cluster k. Inisialisasi k pusat cluster ini dapat dilakukan dengan
berbagai cara. Cara random sering digunakan, pusat-pusat cluster diberi nilai
awal dengan angka-angka random dan digunakan sebagai pusat cluster awal.
b. Tempatkan setiap data/obyek ke cluster terdekat, kedekatan kedua obyek
ditentukan berdasarkan jarak kedua obyek tersebut. Demikian juga kedekatan
suatu data ke cluster tertentu ditentukan jarak antara data dengan pusat cluster.
Dalam tahap ini perlu dihitung jarak tiap data ke tiap pusat cluster. Jarak paling
dekat antara satu data dengan satu cluster tertentu akan menentukan suatu data
masuk dalam cluster mana. Adapun penghitungan jarak menggunakan rumus
Eulidean.
d(x,y) = √ ( xi – yi )2 + ( xi – yi )2
c.
Hitung kembali pusat cluster dengan keanggotaan cluster yang sekarang. Pusat
cluster adalah rata-rata dari semua data/obyek dalam cluster tertentu.
Penghitungannya melalui penentuan centroid/pusat cluster.
C(i) = x1+ x2+ x..+ x…
∑x
Jarak yang terpendek antara pusat cluster dengan data/obyek menentukan posisi
cluster suatu data/obyek. Misalnya data/obyek A mempunyai jarak yang paling
pendek ke pusat cluster 1 dibanding ke yang lain, maka data/obyek A masuk ke
cluster 1.
d. Tugaskan kembali setiap obyek dengan menggunakan pusat cluster yang baru.
Jika pusat cluster sudah tidak berubah lagi, maka proses pengclusteran selesai.
29
Bila berubah, maka kembali ke langkah no.3 hingga pusat cluster tidak berubah
lagi.
e.
Setelah proses pengclusteran selesai, maka akan di hitung nilai SSE dari setiap
cluster. Nilai SSE tergantung pada jumlah cluster dan bagaimana data
dikelompokkan ke dalam cluster-cluster tersebut. Tujuannya untuk memperoleh
partisi (jumlah cluster tetap) yang meminimalkan total square error. Semakin
kecil nilai SSE, semakin bagus hasil clustering-nya. Berikut cara kerja dari SSE.
SSE = (Ci)2 + (Ci)2 + (C..)2 + (C..)2
5.
Analisis hasil clusterisasi.
Tahapan untuk menganalisa hasil yang sudah diperoleh pada proses clustering.
6.
Selesai.
30
E.
Jadwal Penelitian
BULAN
NO
KEGIATAN
Maret
1
1.
Penyusunan Proposal
2.
Pengumpulan Data
3.
Praproses data
4.
Clusterisasi Data
2
3
April
4
1
2
Analisis Hasil
5.
Clusterisasi
6.
Penyusunan Laporan
7.
Ujian Skripsi
31
3
Mei
4
1
2
3
Juni
4
1
2
3
Juli
4
1
2
3
4
BAB IV
HASIL DAN PEMBAHASAN
A. Tahapan Penelitian
1.
Praproses data.
Data yang digunakan dalam penelitian ini yaitu 6 tahun terakhir (2006-2011)
yang terdiri dari beberapa tabel antara lain tabel tahun, nama instansi, uraian, rincian
item, dan rincian biaya. Adapun atribut tersebut yaitu :
a.
Tahun.
Merupakan atribut yang berisi laporan tiap tahun di setiap laporan data anggaran
dan pendapatan.
b. Nama instansi.
Merupakan atribut yang berisi nama-nama badan pemerintah yang tercantum
pada kabupaten tersebut.
c.
Uraian.
Merupakan atribut yang berisi item pendapatan, belanja tidak langsung dan
belanja langsung.
d. Rincian item.
Merupakan atribut yang berisi rincian pembelanjaan dari transaksi pendapatan,
belanja tidak langsung dan belanja langsung dari setiap instansi.
e.
Rincian biaya.
Merupakan atribut yang berisi jumlah keuangan dari setiap transaksi.
32
Hasil akhir dari seleksi atribut didapatkan 4 atribut yang telah relevan dan
konsisten, tetapi hanya 2 atribut saja yang digunakan dalam proses clustering yaitu
atribut uraian ( pendapatan, belanja langsung dan belanja tidak langsung ) dan rincian
biaya. Karena informasi yang terkandung di dalamnya sudah mewakili informasi
yang dibutuhkan untuk dijadikan indikator penentu dalam proses clustering
menggunakan algoritma K-Means.
2.
Cleaning data.
Dilakukan pembersihan data terhadap data yang memiliki redundant. Dalam
dataset terdapat tabel tahun, nama instansi, rincian item dan rincian biaya, atribut
yang dihapus yaitu (tabel tahun, nama instansi dan rincian item). Hal itu dilakukan
karena data tersebut tidak akan memberikan informasi apapun jika dipertahankan.
Tabel 4.1 Contoh data yang redundant
Tahun
Nama Instansi
Rincian Item
2007
Dinas Pendidikan o Hasil retribusi daerah
o Belanja pegawai
o Program
pelayanan
administrasi
perkantoran
o Program peningkatan sarana dan
prasarana aparatur
o Program peningkatan disiplin aparatur
o Program peningkatan kapasitas sumber
daya aparatur
3.
Clustering menggunakan algoritma K-Means.
Berikut cara algoritma K-Means mempartisi dataset ke dalam cluster.
a.
Algoritma menerima jumlah cluster untuk mengelompokkan data. Dataset yang
akan dicluster dijadikan sebagai nilai input.
33
b. Algoritma membuat sebanyak k cluster awal (k = jumlah cluster yang terbentuk)
dari dataset.
c.
Algoritma K-Means menghitung nilai rata-rata dari setiap cluster yang dibentuk
dalam dataset. Sebagai contoh jika di dalam dataset terdapat record Q yang
menerima nilai pendapatan, belanja tidak langsung dan belanja langsung, maka
ditulis Q = {pendapatan, belanja tidak langsung, belanja langsung}. Jika nilai
pendapatan 201.553, belanja tidak langsung 93.572, belanja langsung 129.828.
Maka ditulis Q = {201.553, 93.572, 129.828},
d. K-Means menghitung ulang rata-rata dari semua cluster. Rata-rata dari setiap
cluster adalah rata-rata dari semua record dalam cluster. Sebagai contoh, sebuah
cluster berisi 3 record Q = {201.553, 93.572, 129.828}, dan R = {259.246,
101.397, 207.566}. Maka rata-rata dalam sebuah record dinyatakan sebagai,
nilai rata-rata pendapatan pada record Q ditambahkan nilai rata-rata pendapatan
pada record R, kemudian dibagi 2. Rata-rata pada pendapatan = (201.553 +
259.246)/2. Rata-rata pada belanja tidak langsung = (93.572 + 101.397)/2. Ratarata pada belanja langsung = (129.828 + 207.566)/2. Rataan nilai itu akan
menjadi pusat dari cluster yang baru.
e.
K-Means mengirimkan lagi setiap data record di dalam dataset ke salah satu dari
cluster yang baru terbentuk.
f.
Hitung kembali pusat cluster dengan anggota cluster sebelumnya, hingga
terbentuk cluster yang stabil dan prosedur K-Means selesai. Cluster stabil
terbentuk saat iterasi dari K-Means tidak membuat cluster baru sebagai pusat
cluster, yang mana nilai cluster baru sama dengan nilai cluster lama.
34
g.
Menghitung nilai SSE.
B. Tahap Analisis
Dalam penelitian ini penulis menentukan dahulu jumlah k, yaitu ada 3
(pendapatan, belanja tidak langsung dan belanja langsung).
Tabel 4.2 Data APBD Kabupaten XYZ 6 tahun terakhir
Tahun
Pendapatan
Belanja Tidak
Belanja Langsung
Langsung
2006
201.553.514.383
93.572.060.106
129.828.573.884
2007
259.246.501.847
101.397.703.745
207.566.731.839
2008
323.651.578.493
140.833.244.772
219.186.897.446
2009
317.827.261.000
153.340.367.941
199.611.893.059
2010
326.719.642.227
176.183.064.040
152.491.575.430
2011
360.831.808.019
201.548.822.824
178.151.334.250
1.
Proses clustering dalam k-means.
Dalam tahap ini penulis menentukan nilai centroid menjadi 2 bagian, yaitu yang
mempunyai 3 centroid serta 2 centroid. Hal ini dilakukan untuk mengetahui jumlah
centroid mana yang paling baik, karena dalam perumusan K-Means nilai cluster
yang paling terkecil akan menjadi nilai cluster yang paling baik.
a.
Proses clustering dalam k-means dengan pengujian 3 nilai centroid dan 2
nilai centroid .
35
1) Perhitungan centroid awal.
Tahapan clusterisasi menggunakan algoritma K-Means, diawali dengan
pembentukan cluster pada dataset yaitu 3 cluster dengan pengujian 2 parameter
berupa 3 nilai centroid dan 2 nilai centroid.
a) Perhitungan centroid awal dengan 3 nilai centroid.
Cluster Nilai Pendapatan :
(C0) 201.553 + 259.246
=
230.399,5
=
320.739
=
343.775
2
(C1) 323.651 + 317.827
2
(C2) 326.719 + 360.831
2
Cluster Nilai Belanja Tidak Langsung :
(C0) 93.572 + 101.397
=
97.484,5
=
147.086,5
=
188.865,5
2
(C1) 140.833 + 153.340
2
(C2) 176.183 + 201.548
2
36
Cluster Nilai Belanja Langsung :
(C0) 129.828 + 207.566
=
168.697
=
209.398,5
=
165.321
2
(C1) 219.186 + 199.611
2
(C2) 152.491 + 178.151
2
b) Perhitungan centroid awal dengan 2 nilai centroid.
Cluster Nilai Pendapatan :
(C0) 201.553 + 259.246 + 323.651 =
261.483,34
3
(C1) 317.827 + 326.719 + 360.831 =
335.125,67
3
Cluster Nilai Belanja Tidak Langsung :
(C0) 93.572 + 101.397 + 140.833
=
111.934
3
(C1) 153.340 + 176.183 + 201.548 =
177.023,67
3
37
Cluster Nilai Belanja Langsung :
(C0) 129.828 + 207.566 + 219.186 =
185.526,67
3
(C1) 199.611 + 152.491 + 178.151 =
176.751
3
Tabel 4.3 Hasil perhitungan centroid setiap cluster pada pengujian 2 parameter
3 centroid
2 centroid
Cluster
Pendapatan
Belanja
Tidak
Langsung
Belanja
Langsung
C0
C1
C2
C0
C1
230.399,5 320.739
343.775 261.483,34 335.125,67
97.484,5 147.086,5 188.865,5
111.934
177.023,67
168.697
209.398,5
165.321
185.526,67
176.751
2) Proses perhitungan jarak.
Dalam langkah ini dilakukan proses perhitungan jarak untuk mengetahui masing
– masing hasil jarak data pada jumlah k di setiap centroid.
Melakukan penghitungan untuk menentukan jarak setiap data dengan centroid
awal, menggunakan rumus euclidiance distance.
a) Perhitungan jarak dengan 3 nilai centroid.
Jarak antara data pertama dengan centroid pertama (C0) :
d 1,0 = (201.553 – 230.399,5)2 + (93.572 – 97.484,5)2 + (129.828 – 168.697)2
= 48.561,58
38
Jarak antara data pertama dengan centroid kedua (C1) :
d 1,1 =
(201.553 – 320.739)2 + (93.572 – 147.086,5)2 + (129.828 – 209.398,5)2
= 152.972,44
Jarak antara data pertama dengan centroid ketiga (C2) :
d 1,2 = (201.553 – 343.775)2 + (93.572 – 188.865,5)2 + (129.828 – 165.321)2
= 174.836,21
Jarak antara data kedua dengan centroid pertama (C0) :
d 1,0 = (259.246 – 230.399,5)2 + (101.397 – 97.484,5)2 + (207.566 – 168.697)2
= 48.561,58
Jarak antara data kedua dengan centroid kedua (C1) :
d 1,1 = (259.246 – 320.739)2 + (101.397 – 147.086,5)2 + (207.566 – 209.398,5)2
= 76.630,79
Jarak antara data kedua dengan centroid ketiga (C2) :
d 1,2 = (259.246 – 343.775)2 + (101.397 – 188.865,5)2 + (207.566 – 165.321)2
= 128.765,41
Jarak antara data ketiga dengan centroid pertama (C0) :
d 1,0 = (323.651 – 230.399,5)2 + (140.833 – 97.484,5)2 + (219.186 – 168.697)2
= 114.560,35
39
Jarak antara data ketiga dengan centroid kedua (C1) :
d 1,1 = (323.651 – 320.739)2 + (140.833 – 147.086,5)2 + (219.186 – 209.398,5)2
= 11.974,19
Jarak antara data ketiga dengan centroid ketiga (C2) :
d 1,2 = (323.651 – 343.775)2 + (140.833 – 188.865,5)2 + (219.186 – 165.321)2
= 74.923,53
Jarak antara data keempat dengan centroid pertama (C0) :
d 1,0 = (317.827 – 230.399,5)2 + (153.340 – 97.484,5)2 + (199.611 – 168.697)2
= 108.254,7
Jarak antara data keempat dengan centroid kedua (C1) :
d 1,1 = (317.827 – 320.739)2 + (153.340 – 147.086,5)2 + (199.611 – 209.398,5)2
= 11.974,19
Jarak antara data keempat dengan centroid ketiga (C2) :
d 1,2 = (317.827 – 343.775)2 + (153.340 – 188.865,5)2 + (199.611 – 165.321)2
= 55.777,81
Jarak antara data kelima dengan centroid pertama (C0) :
d 1,0 = (326.719 – 230.399,5)2 + (176.183 – 97.484,5)2 + (152.491 – 168.697)2
= 125.433,39
40
Jarak antara data kelima dengan centroid kedua (C1) :
d 1,1 = (326.719 – 320.739)2 + (176.183 – 147.086,5)2 + (152.491 – 209.398,5)2
= 64.193,69
Jarak antara data kelima dengan centroid ketiga(C2) :
d 1,2 = (326.719 – 343.775)2 + (176.183 – 188.865,5)2 + (152.491 – 165.321)2
= 24.826,64
Jarak antara data keenam dengan centroid pertama (C0) :
d 1,0 = (360.831 – 230.399,5)2 + (201.548 – 97.484,5)2 + (178.151 – 168.697)2
= 167.125,6
Jarak antara data keenam dengan centroid kedua (C1) :
d 1,1 = (360.831 – 320.739)2 + (201.548 – 147.086,5)2 + (178.151 – 209.398,5)2
= 74.497,18
Jarak antara data keenam dengan centroid ketiga (C2) :
d 1,2 = (360.831 – 343.775)2 + (201.548 – 188.865,5)2 + (178.151 – 165.321)2
= 24.826,64
b) Perhitungan jarak dengan 2 nilai centroid.
Jarak antara data pertama dengan centroid pertama (C0) :
d 1,0 = (201.553 – 261.483,34)2 + (93.572 – 111.934)2 + (129.828 – 185.526,67)2
= 83.851,95
41
Jarak antara data pertama dengan centroid kedua (C1) :
d1,1 = (201.553 – 335.125,67)2 + (93.572 – 177.023,67)2 + (129.828 – 176.751)2
= 164.339,91
Jarak antara data kedua dengan centroid pertama (C0) :
d1,0= (259.246 – 261.483,33)2 + (101.397 – 111.934)2 + (207.566 – 185.526,67)2
= 24.530,92
Jarak antara data kedua dengan centroid kedua (C1) :
d1,1= (259.246 – 335.125,67)2 + (101.397 – 177.023,67)2 + (207.566 – 176.751)2
= 111.475.03
Jarak antara data ketiga dengan centroid pertama (C0) :
d1,0= (323.651 – 261.483,33)2 + (140.833 – 111.934)2 + (219.186 – 185.526,67)2
= 76.373,57
Jarak antara data ketiga dengan centroid kedua (C1) :
d1,1 = (323.651 – 335.125,67)2 + (140.833 – 177.023,67)2 + (219.186 – 176.751)2
= 56.939,98
Jarak antara data keempat dengan centroid pertama (C0) :
d1,0 = (317.827 – 261.483,33)2 + (153.340 – 111.934)2 + (199.611 – 185.526,67)2
= 71.326,25
42
Jarak antara data keempat dengan centroid kedua (C1) :
d1,1= (317.827 – 335.125,67)2 + (153.340 – 177.023,67)2 + (199.611 – 176.751)2
= 37.185,21
Jarak antara data kelima dengan centroid pertama (C0) :
d1,0= (326.719 – 261.483,33)2 + (176.183 – 111.934)2 + (152.491 – 185.526,67)2
= 97.339,52
Jarak antara data kelima dengan centroid kedua (C1) :
d1,1= (326.719 – 335.125,67)2 + (176.183 – 177.023,67)2 + (152.491 – 176.751)2
= 25.689,03
Jarak antara data keenam dengan centroid pertama (C0) :
d1,0 = (360.831 – 261.483,33)2 + (201.548 – 111.934)2 + (178.151– 185.526,67)2
= 133.996,38
Jarak antara data keenam dengan centroid kedua (C1) :
d1,1 = (360.831 – 335.125,67)2 + (201.548 – 177.023,67)2 + (178.151– 176.751)2
= 35.555,12
43
Tabel 4.4 Hasil perhitungan jarak data pada nilai k dengan masing-masing
centroid setiap cluster
Data
3 centroid
C0
48.561,58
48.561,58
114.560,35
108.254,7
125.433,39
167.125,60
1
2
3
4
5
6
C1
152.972,44
76.630,79
11.974,19
11.974,19
64.193,69
74.497,18
2 centroid
C2
174.836,21
128.765,41
74.923,53
55.777,81
24.826,64
24.826,64
C0
83.851,95
24.530,92
76.373,57
71.326,25
97.339,52
133.996,38
C1
164.339,91
111.475.03
56.939,98
37.185,21
25.689,03
35.555,12
3) Melakukan iterasi.
Berdasarkan cara kerja algoritma K-Means setelah ditentukan nilai k lalu
menghitung nilai centroid dan jarak antar data pada setiap masing-masing centroid.
Dalam tahap ini dilakukan perhitungan kembali nilai centroid pada masing-masing
cluster yang dinamakan iterasi, hingga nilai centroid tidak berubah dari sebelumnya.
a) Perhitungan iterasi pertama pada cluster pendapatan dengan 3 nilai
centroid.
Tabel 4.5 Perhitungan iterasi pertama pada cluster pendapatan
Tahun
Data Ke-
2006
2007
2008
2009
2010
2011
201.553
259.246
323.651
317.827
326.719
360.831
Centroid
C0
48.561,58
48.561,58
114.560,35
108.254,7
125.433,39
167.125,60
C1
152.972,44
76.630,79
11.974,19
11.974,19
64.193,69
74.497,18
44
C2
174.836,21
128.765,41
74.923,53
55.777,81
24.826,64
24.826,64
Hitung kembali centroid
o
centroid pertama (C0)
= 201.553 + 259.246
2
= 230.399,5
o
centroid kedua (C1)
= 323.651 + 317.827
2
= 320.739
o
centroid ketiga (C2)
= 326.719 + 360.831
2
= 343.755
b) Perhitungan iterasi pertama pada cluster belanja tidak langsung dengan 3
nilai centroid.
Tabel 4.6 Perhitungan iterasi pertama pada cluster belanja tidak langsung
Tahun
Data Ke-
2006
2007
2008
2009
2010
2011
93.572
101.397
140.833
153.340
176.183
201.548
Centroid
C0
48.561,58
48.561,58
114.560,35
108.254,7
125.433,39
167.125,60
45
C1
152.972,44
76.630,79
11.974,19
11.974,19
64.193,69
74.497,18
C2
174.836,21
128.765,41
74.923,53
55.777,81
24.826,64
24.826,64
Hitung kembali centroid
o
centroid pertama (C0)
= 93.572 + 101.397
2
= 97.484,5
o
centroid kedua (C1)
= 140.833 + 153.340
2
= 147.086,5
o
centroid ketiga (C2)
= 176.183 + 201.548
2
= 188.865,5
c)
Perhitungan iterasi pertama pada cluster belanja langsung dengan 3 nilai
centroid.
Tabel 4.7 Perhitungan iterasi pertama pada cluster belanja langsung
Tahun
Data Ke-
2006
2007
2008
2009
2010
2011
129.828
207.566
219.186
199.611
152.491
178.151
Centroid
C1
152.972,44
76.630,79
11.974,19
11.974,19
64.193,69
74.497,18
C0
48.561,58
48.561,58
114.560,35
108.254,7
125.433,39
167.125,60
46
C2
174.836,21
128.765,41
74.923,53
55.777,81
24.826,64
24.826,64
Hitung kembali centroid
o
centroid pertama (C0)
= 129.828 + 207.566
2
= 168.697
o
centroid kedua (C1)
= 219.186 + 199.611
2
= 209.398,5
o
centroid ketiga (C2)
= 152.491 + 178.151
2
= 165.321
Karena pada iterasi pertama nilai centroid pusat tidak berubah sama dengan nilai
centroid sebelumnya, maka proses iterasi dihentikan.
47
d) Perhitungan iterasi pertama pada cluster pendapatan dengan 2 nilai
centroid.
Tabel 4.8 Perhitungan iterasi pertama pada cluster pendapatan
Centroid
Tahun
Data Ke-
C0
C1
2006
2007
2008
2009
2010
2011
201.553
259.246
323.651
317.827
326.719
360.831
83.851,95
29.476,38
76.373,54
71.326,24
97.339,51
133.996,37
164.339,92
111.475,02
56.939,99
37.185,20
25.689,03
35.555,12
Hitung kembali centroid
o
centroid pertama (C0)
= 201.553 + 259.246
2
= 230.399,5
o
centroid kedua (C1)
= 323.651 + 317.827 + 326.719 + 360.831
4
= 332.257
48
e)
Perhitungan iterasi pertama pada cluster belanja tidak langsung dengan 2
nilai centroid.
Tabel 4.9 Perhitungan iterasi pertama pada cluster belanja tidak langsung
Centroid
Tahun
Data Ke-
C0
C1
2006
2007
2008
2009
2010
2011
93.572
101.397
140.833
153.340
176.183
201.548
83.851,95
29.476,38
76.373,54
71.326,24
97.339,51
133.996,37
164.339,92
111.475,02
56.939,99
37.185,20
25.689,03
35.555,12
Hitung kembali centroid
o
centroid pertama (C0)
= 93.572 + 101.397
2
= 97.484,5
o
centroid kedua (C1)
= 140.833 + 153.340 + 176.183 + 201.548
4
= 167.976
49
f)
Perhitungan iterasi pertama pada cluster belanja langsung dengan 2 nilai
centroid.
Tabel 4.10 Perhitungan iterasi pertama pada cluster belanja langsung
Centroid
Tahun
Data KeC0
C1
2006
2007
2008
2009
2010
2011
129.828
207.566
219.186
199.611
152.491
178.151
83.851,95
29.476,38
76.373,54
71.326,24
97.339,51
133.996,37
164.339,92
111.475,02
56.939,99
37.185,20
25.689,03
35.555,12
Hitung kembali centroid
o
centroid pertama (C0)
= 129.828 + 207.566
2
= 168.697
o
centroid kedua (C1)
= 219.186 + 199.611 + 152.491 + 178.151
4
= 187.359,8
Karena nilai centroid dari hasil iterasi pertama berbeda dari nilai centroid awal,
maka dilakukan lagi iterasi kedua.
50
Jarak antara data pertama dengan centroid pertama (C0) :
d 1,0 = (201.553 – 230.399.5)2 + (93.572 – 97.484,5)2 + (129.828 – 168.697)2
= 48.561,58
Jarak antara data pertama dengan centroid kedua (C1) :
d 1,1 = (201.553 – 332.257)2 + (93.572 – 167.976)2 + (129.828 – 187.359,8)2
= 161.026,08
Jarak antara data kedua dengan centroid pertama (C0) :
d 1,0 = (259.246 – 230.399,5)2 + (101.397 – 97.484,5)2 + (207.566 – 168.697)2
= 48.561,88
Jarak antara data kedua dengan centroid kedua (C1) :
d1,1 = (259.246 – 332.257)2 + (101.397 - 167976)2 + (207.566 – 187.359,8)2
= 100.854,65
Jarak antara data ketiga dengan centroid pertama (C0) :
d 1,0 = (323.651 – 230.399,5)2 + (140.833 – 97.484,5)2 + (219.186 – 168.697)2
= 114.560,35
Jarak antara data ketiga dengan centroid kedua (C1) :
d1,1 = (323.651 – 332.257)2 + (140.833 – 167.976)2 + (219.186 – 187.359,8)2
= 42.704,95
51
Jarak antara data keempat dengan centroid pertama (C0) :
d 1,0 = (317.827 – 230.399,5)2 + (153.340 – 97.484,5)2 + (199.611 – 168.697)2
= 108.254,70
Jarak antara data keempat dengan centroid kedua (C1) :
d 1,1 = (317.827 – 332.257)2 + (153.340 – 167.976)2 + (199.611 – 187.359,8)2
= 23.927,58
Jarak antara data kelima dengan centroid pertama (C0) :
d 1,0 = (326.719 – 230.399,5)2 + (176.183 – 97.484,5)2 + (152.491 – 168.697)2
= 125.433,39
Jarak antara data kelima dengan centroid kedua (C1) :
d 1,1 = (326.719 – 332.257)2 + (176.183 – 167.976)2 + (152.491 – 187.359,8)2
= 36.247,17
Jarak antara data keenam dengan centroid pertama (C0) :
d 1,0 = (360,831 – 230.399.5)2 + 201.548 − 97.484,5 2 + 178.151 − 168.697
2
= 167125,60
Jarak antara data keenam dengan centroid kedua (C1) :
d 1,1 = (360.831 – 332.257)2 + (201.548 – 167.976)2 + (178.151 – 187.359,8)2
= 45.037,26
52
Tabel 4.11 Hasil perhitungan jarak data terhadap masing-masing nilai centroid
untuk dijadikan sebagai perhitungan
Data ke C0
C1
1
48.561,58
161.026,08
2
48.561,88
100.854,65
3
114.560,35
42.704,95
4
108.254,70
23.927,58
5
125.433,39
36.247,17
6
167.125,60
45.037,26
g) Perhitungan iterasi kedua pada cluster pendapatan dengan 2 nilai centroid.
Tabel 4.12 Perhitungan iterasi kedua pada cluster pendapatan
Centroid
Tahun
Data Ke-
C0
C1
2006
2007
2008
2009
2010
2011
201.553
259.246
323.651
317.827
326.719
360.831
48.561,58
48.561,88
114.560,35
108.254,70
125.433,39
167.125,60
161.026,08
100.854,65
42.704,95
23.927,58
36.247,17
45.037,26
Hitung kembali centroid
o
centroid pertama (C0)
= 201.553 + 259.246
2
= 230.399,5
o
centroid kedua (C1)
= 323.651 + 317.827 + 326.719 + 360.831
4
= 332.257
53
h) Perhitungan iterasi kedua pada cluster belanja tidak langsung dengan 2
nilai centroid.
Tabel 4.13 Perhitungan iterasi kedua pada cluster belanja tidak langsung
Centroid
Tahun
Data KeC0
C1
2006
2007
2008
2009
2010
2011
93.572
101.397
140.833
153.340
176.183
201.548
48.561,58
48.561,88
114.560,35
108.254,70
125.433,39
167.125,60
Hitung kembali centroid
o
centroid pertama (C0)
= 93.572 + 101.397
2
= 97.484,5
o
centroid kedua (C1)
= 140.833 + 153.340 + 176.183 + 201.548
4
= 167.976
54
161.026,08
100.854,65
42.704,95
23.927,58
36.247,17
45.037,26
i)
Perhitungan iterasi kedua pada cluster belanja langsung dengan 2 nilai
centroid.
Tabel 4.14 Perhitungan iterasi kedua pada cluster belanja langsung
Centroid
Tahun Data KeC0
C1
2006
2007
2008
2009
2010
2011
129.828
207.566
219.186
199.611
152.491
178.151
48.561,58
48.561,88
114.560,35
108.254,70
125.433,39
167.125,60
161.026,08
100.854,65
42.704,95
23.927,58
36.247,17
45.037,26
Hitung kembali centroid
o
centroid pertama (C0)
= 129.828 + 207.566
2
= 168.697
o
centroid kedua (C1)
= 219.186 + 199.611 + 152.491 + 178.151
4
= 187.359,8
Karena hasil nilai centroid pada iterasi kedua sama dengan hasil iterasi pertama,
maka perhitungan dihentikan.
55
Tabel 4.15 Hasil akhir perhitungan iterasi dengan 3 nilai centroid dan 2 nilai
centroid
Centroid
Iterasi
Cluster
3
2
C0
C1
C2
C0
C1
Pertama Pendapatan
230.399,5
320.739
343.755 230.399,5 332.257
Belanja
97.484,5 147.086,5 188.865,5 97.484,5
167.976
Tidak
Langsung
Belanja
168.697
209.398,5 165.321
168.697 187.359,8
Langsung
Kedua Pendapatan
230.399,5 332.257
Belanja
97.484,5
167.976
Tidak
Langsung
Belanja
168.697 187.359,8
Langsung
4) Menghitung nilai SSE.
Dalam tahap ini akan dilakukan perhitungan nilai centroid dari hasil iterasi, jika
hasil nilai SSE-nya semakin kecil maka akan semakin baik hasil clusteringnya. Akan
ada 2 pengujian parameter dalam menghitung nilai SSE, hasilnya akan dijadikan
sebagai penentu cluster mana yang paling baik.
a) Perhitungan nilai SSE pada 3 nilai centroid.
SSE = (48.561,582 + 48.561,582 ) + (11.974,192 + 11.974,192 ) +
(24.826,642
+ 24.826,642 )
=
6.235.940.663,88
b) Perhitungan nilai SSE pada 2 nilai centroid.
SSE
=
(48.561,582 + 48.561,582 ) + (42.704,952 + 23.927,582 + 36.247.172 +
45.037,262 )
=
10.454.908.064,67
56
Setelah dihitung ternyata nilai SSE pada 3 centroid yang paling kecil
dibandingkan dengan 2 centroid, bisa disimpulkan bahwa cluster dengan 3 centroid
yang paling baik dan dijadikan sebagai cluster yang terbaik dalam penulisan ini.
Tabel 4.16 Hasil perhitungan nilai SSE dengan 3 nilai centroid dan 2 nilai
centroid
Centroid
SSE
3
2
6.235.940.663,88 10.454.908.064,67
2.
Pola hasil clustering dengan K-Means.
Algoritma K-means dalam proses clustering pada data pendapatan, belanja tidak
langsung serta belanja langsung digunakan untuk pembentukan nilai clustering dan
karakteristik dari setiap cluster yang akan menemukan nilai centroid / means ( ratarata ) sehingga akan terbentuk jarak pada setiap data yang akhirnya akan terbentuk
nilai anggota pada setiap cluster.
Setelah terbentuk nilai anggota pada masing-masing cluster, maka akan terlihat
cluster nilai pendapatan, belanja tidak langsung dan belanja langsung di setiap
tahunnya. Dengan membandingkan data asli dari nilai pendapatan, belanja tidak
langsung dan belanja langsung sebelum di cluster. Nilai anggota tersebut yang akan
digunakan dalam melakukan estimasi nilai pendapatan, belanja tidak langsung dan
belanja langsung pada waktu yang akan datang. Berikut data APBD sebelum di
cluster :
57
Tabel 4.17 Data APBD sebelum di cluster
Tahun
Pendapatan
2006
2007
2008
2009
2010
2011
201.553.514.383
259.246.501.847
323.651.578.493
317.827.261.000
326.719.642.227
360.831.808.019
Belanja Tidak
Langsung
93.572.060.106
101.397.703.745
140.833.244.772
153.340.367.941
176.183.064.040
201.548.822.824
Belanja
Langsung
129.828.573.884
207.566.731.839
219.186.897.446
199.611.893.059
152.491.575.430
178.151.334.250
Data APBD setelah di cluster :
1) Nilai anggota pada cluster pertama (C0).
Tabel 4.18 Nilai anggota pendapatan, belanja tidak langsung dan belanja
langsung pada (C0)
Tahun
Pendapatan
Belanja Tidak
Belanja Langsung
Langsung
2006
Rp 201.553.514.383
Rp 93.572.060.106
Rp 129.828.573.884
2007
Rp 259.246.501.847 Rp 101.397.703.745
Rp 207.566.731.839
2) Nilai anggota pada cluster kedua (C1).
Tabel 4.19 Nilai anggota pendapatan, belanja tidak langsung dan belanja
langsung pada (C1)
Tahun
Pendapatan
2008
2009
Rp 323.651.578.493
Rp 317.827.261.000
Belanja Tidak
Langsung
Rp 140.833.244.772
Rp 153.340.367.941
58
Belanja Langsung
Rp 219.186.897.446
Rp 199.611.893.059
3) Nilai anggota pada cluster ketiga (C2).
Tabel 4.20 Nilai anggota pendapatan, belanja tidak langsung dan belanja
langsung pada (C2)
Tahun
Pendapatan
Belanja Tidak
Belanja Langsung
Langsung
2010
Rp 326.719.642.227 Rp 176.183.064.040
Rp 152.491.575.430
2011
Rp 360.831.808.019 Rp 201.548.822.824
Rp 178.151.334.250
Berdasarkan hasil clustering dengan K-Means, maka didapatkan pola hasilnya
dari setiap cluster. Berikut penjelasan dari masing-masing cluster pada setiap
anggota cluster :
a) Anggota data pada cluster pertama (C0) mempunyai karakteristik nilai
pendapatan sebesar Rp 201.553.514.383,- sampai Rp 259.246.501.847,-. Nilai
belanja tidak langsung Rp 93.572.060.106,- sampai Rp 101.397.703.745,-. Nilai
belanja langsung Rp 129.828.573.884,- sampai Rp 207.566.731.839,-.
b) Anggota data pada cluster kedua (C1) mempunyai karakteristik nilai pendapatan
sebesar Rp 323.651.578.493,- sampai Rp 317.827.261.000,-. Nilai belanja tidak
langsung Rp 140.833.244.772,- sampai Rp 153.340.367.941,-. Nilai belanja
langsung Rp 219.186.897.446,- sampai Rp 199.611.893.059,-.
c)
Anggota data pada cluster ketiga (C2) mempunyai karakteristik nilai pendapatan
sebesar Rp 326.719.642.227,- sampai Rp 360.831.808.019,-. Nilai belanja tidak
langsung Rp 176.183.064.040,- sampai Rp 201.548.822.824,-. Nilai belanja
langsung Rp 152.491.575.430,- sampai Rp 178.151.334.250,-.
59
Setelah seluruh nilai anggota pada cluster terbentuk maka akan diketahui
termasuk kedalam cluster berapa nilai pendapatan, belanja tidak langsung dan
belanja langsung pada record data selanjutnya. Hanya dengan mengetahui nilai
pendapatan, maka dapat diketahui estimasi nilai belanja tidak langsung dan belanja
langsung pada lembaga pemerintahan tersebut. Berikut data APBD pada tahun 2012.
Tabel 4.21 Nilai anggota pendapatan 2012
Tahun
Pendapatan
2012
Rp 394.083.451.404
Misalkan record data pada tabel diatas dimasukkan kedalam tabel yang berisi
hasil perhitungan dari clustering menggunakan K-Means, maka akan bisa diestimasi
nilai belanja tidak langsung dan belanja langsung.
Tabel 4.22 Contoh nilai outlier
2010
Data
ke5
2011
6
2012
7=x
Tahun
Pendapatan
Rp
326.719.642.
227
Rp
360.831.808.
019
Rp
394.083.451.
404
Belanja Tidak
Langsung
Rp
176.183.064.040
Belanja
Langsung
Rp
152.491.575.430
Clus
ter
C2
Rp
201.548.822.824
Rp
178.151.334.250
C2
?
60
Berdasarkan nilai pendapatan, dapat diketahui termasuk dalam cluster berapa
data APBD yang selanjutnya. Jika data APBD 2012 mempunyai nilai pendapatan =
Rp 394.083.451.404,- , maka bisa di estimasi nilai belanja tidak langsung Rp =
199.533.334.595,76,- – Rp 203.564.311.052,24,- serta estimasi nilai belanja
langsung = Rp 176.135.846.021,76,- – Rp 180.166.822.478,24,-. Maka dapat
diketahui record data tersebut termasuk dalam cluster (C2). Hal ini didasari atas
kedekatan jarak data sebelumnya dengan data yang baru ( data x ).
Tabel 4.23 Contoh estimasi nilai outlier
Data
ke5
6
7=x
Pendapatan
Rp
326.719.642.
227
Rp
360.831.808.
019
Rp
394.083.451.
404
Belanja Tidak
Langsung
Rp 176.183.064.040
Belanja Langsung
Cluster
Rp 152.491.575.430
C2
Rp 201.548.822.824
Rp 178.151.334.250
C2
Rp =
199.533.334.595,76,– Rp
203.564.311.052,24
(estimasi)
Rp =
176.135.846.021,76,
- – Rp
180.166.822.478,24
(estimasi)
C2
61
3. Flowchart clustering K-Means.
start
jumlah k = 3
jumlah data = 6
Hitung nilai centroid
Menghitung jarak antara setiap record
data dengan centroid awal
Mengelompokkan data berdasarkan nilai
terkecil pada masing-masing record data
Menghitung kembali nilai centroid
Yes
Menghitung jarak antara setiap record
data dengan centroid baru
centroid
berubah
No
Menghitung nilai SSE
end
Gambar 4.1 Flowchart K-Means
62
C. Desain Hasil
1.
Hasil implementasi input data parameter k dan x.
a.
Dengan 3 nilai centroid.
Gambar 4.2 Implementasi input data parameter k dan x dengan 3 nilai centroid
b. Dengan 2 nilai centroid.
Gambar 4.3 Implementasi input data parameter k dan x dengan 2 nilai centroid
63
2.
Hasil implementasi input data nama k.
a.
Dengan 3 nilai centroid.
Gambar 4.4 Implementasi input data nama k dengan 3 nilai centroid
b.
Dengan 2 nilai centroid.
Gambar 4.5 Implementasi input data nama k dengan 2 nilai centroid
64
3.
Implementasi input data APBD.
a.
Dengan 3 nilai centroid.
Gambar 4.6 Implementasi input data APBD dengan 3 nilai centroid
b. Dengan 2 nilai centroid.
Gambar 4.7 Implementasi input data APBD dengan 2 nilai centroid
65
4.
Hasil implementasi tampilan proses hasil perhitungan centroid.
a.
Dengan 3 nilai centroid.
Gambar 4.8 Implementasi tampilan proses hasil perhitungan dengan 3 nilai
centroid
b. Dengan 2 nilai centroid.
Gambar 4.9 Implementasi tampilan proses hasil perhitungan dengan 2 nilai
centroid
66
5.
Hasil implementasi perhitungan jarak data ke centroid.
a.
Dengan 3 nilai centroid.
Gambar 4.10 Implementasi tampilan perhitungan jarak data dengan 3 nilai
centroid
b. Dengan 2 nilai centroid.
Gambar 4.11 Implementasi tampilan perhitungan jarak data dengan 2 nilai
centroid
67
6.
Hasil implementasi iterasi.
a.
Dengan 3 nilai centroid.
Gambar 4.12 Implementasi tampilan iterasi dengan 3 nilai centroid
b. Dengan 2 nilai centroid.
Gambar 4.13 Implementasi tampilan iterasi dengan 2 nilai centroid, dan iterasi
harus dilanjutkan
68
Gambar 4.14 Implementasi tampilan akhir iterasi dengan 2 nilai centroid
7.
Hasil implementasi niai SSE.
a.
Dengan 3 nilai centroid.
Gambar 4.15 Implementasi tampilan nilai SSE dengan 3 nilai centroid
b. Dengan 2 nilai centroid.
Gambar 4.16 Implementasi tampilan nilai SSE dengan 2 nilai centroid
69
8.
Hasil implementasi laporan data mining.
a.
Dengan 3 nilai centroid.
Gambar 4.17 Implementasi laporan data mining dengan 3 nilai centroid
b. Dengan 2 nilai centroid.
Gambar 4.18 Implementasi laporan data mining dengan 2 nilai centroid
70
9.
Hasil implementasi nilai estimasi.
Gambar 4.19 Implementasi tampilan nilai estimasi
71
BAB V
PENUTUP
A. Kesimpulan
1.
Pada penelitian ini menggunakan jumlah k sebanyak 3, yaitu cluster pendapatan,
cluster belanja tidak langsung serta cluster belanja langsung. Serta melakukan
pengujian 2 parameter nilai centroid yaitu 3 nilai centroid dan 2 nilai centroid.
2.
Hasil eksperimen metode clustering menggunakan algoritma K-Means dengan 3
nilai centroid lebih bagus dibandingkan dengan 2 nilai centroid, ini dikarenakan
hasil nilai SSE dari 3 nilai centroid lebih kecil dari pada 2 nilai centroid yaitu =
6.235.940.663,88,-
serta
hasil
nilai
SSE
dari
2
nilai
centroid
=
10.454.908.064,67,-.
3.
Hasil cluster dengan 3 nilai centroid digunakan untuk mengestimasi nilai
belanja tidak langsung dan belanja langsung berdasarkanan nilai pendapatan
yang sudah diketahui sebelumnya.
B. Saran
Berdasarkan hasil penulisan yang telah dilakukan maka diharapkan penulisan
selanjutnya :
1.
Menggunakan data historis yang lebih banyak untuk menemukan pola yang
lebih baik.
2.
Diuji kembali dengan menggunakan algoritma clustering lainnya.
3.
Program dibuat dinamis.
72
DAFTAR PUSTAKA
Adiningsih, N. (2007). Penggunaan K-Means Clustering untuk Pelabelan Fonem
Sinyal Ucapan. Skripsi Tidak Terpublikasi. Bandung:Institut Teknologi
Bandung.
Agusta, Y. (2007). K-Means-Penerapan,Permasalahan dan Metode Terkait. Jurnal
Sistem dan Informatika Vol.3 : 47-60.
Aryan, P. (2010). Algoritma K-Means Clustering. [Tersedia]:
http://pebbie.wordpress.com/2008/11/13/algoritma-k-meansclustering.Html
A Tutorial on Clustering Algorithms. Tersedia :
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/index.html
Baskoro, H.(2010). Implementasi Algoritma K-Means Menggunakan Data
Penyewaan Alat Berat Untuk Melakukan Estimasi Nilai Outcome. Skripsi.
Jakarta : Fakultas Ilmu Komputer, Universitas Pembangunan Nasional
”Veteran” Jakarta.
Firdausi, Nabila. Dkk. (2011). Analisis Financial Distress Dengan Pendekatan Data
Mining Pada Industri Manufaktur Go-Public Di Indonesia. Surabaya : Jurusan
Teknik Industri, Institut Teknologi Sepuluh Nopember. [Tersedia] :
(http://digilib.its.ac.id/public/ITS-Undergraduate-18383-Paper-pdf.pdf, diakses
30 Maret 2012)
Han J dan Kamber M. (2006). Data Mining Concepts and Techniques 2nd Edition.
San Fransisco : Morgan Kaufmann publisher.
Henjaya, R. (2010). Penerapan Algoritma K-Means Pada Clustering Berita
Berbahasa Indonesia. Skripsi. Bandung: Program Ilmu Komputer. Fakultas
Pendidikan Matematika Dan Ilmu Pengetahuan Alam. Universitas Pendidikan
Indonesia. [Tersedia]:
73
(abstrak.digilib.upi.edu/...ALGORITMA_K-MEANS.../cover.pdf, diakses 15
April 2012)
Jogiyanto. (2007). Metodologi Penelitian Bisnis: Salah Kaprah dan Pengalamanpengalaman. Yogyakarta: BPFE.
Karhendana, A. (2008). Pemanfaatan Document Clustering pada Agregator Berita.
Skripsi Tidak Terpublikasi. Bandung:Institut Teknologi Bandung.
Kurniawan. A. (2010). Klasterisasi kompetensi Guru Menggunakan Hasil Penilaian
Portofolio Sertifikasi Guru Dengan Metode Data Mining. Surabaya:Institut
Teknologi Sepuluh November. [Tersedia]:
(http://digilib.its.ac.id/public/ITS-Master-10533-Paper.pdf, diakses 16 April
2012)
Kusrini & Lutfi, Emha Taufiq. (2009). Algoritma Data Mining. Yogyakarta:Penerbit
Andi.
Larose, Daniel T. (2005). Doscovering Knowledge in Data : An Introduction to Data
Mining. John Willey & Sons, Inc.
MacQueen JB. Some Methods For Classification And Analysis Of Multivariate
Observations. Proc. of 5th Berkeley Symposium on Mathematical Statistic and
Probability. . 1: 281-297.1967.
Sadaaki M, Hidetomo I, Katsuhiro H. 2008. Algorithm for Fuzzy Clustering. Di
dalam : Studies in Fuzziness and Soft Computing. ISSN : 1434-9922.
Santosa, Budi. 2007. Data Mining Terapan dengan MATLAB, Edisi Pertama, Graha
Ilmu, Yogyakarta.
74
Santosa, Budi. (2007). DATA MINING : Teknik Pemanfaatan Data Untuk Keperluan
Bisnis. Edisi Pertama, Graha Ilmu, Yogyakarta Sawir, Agnes, 2003.
Sudaryono, Guritno S, Rahardja U. (2011). Theory And Application Of IT Research :
Metodologi Penelitian Teknologi Informasi. Yogyakarta : Andi.
Tan, Dan. Dkk. 2005. Discovering Knowledge in Data. John Wiley’s and Son.
Wahyuni, Santi Febriana. (2009). Penggunaan Cluster-Based Sampling Untuk
Penggalian Kaidah Asosiasi Multi Obyektif. Jurnal. Malang: Jurusan Teknik
Informatika, Fakultas Teknologi Industri. Institut Teknologi Nasional.
Widyawati, N. (2010). Perbandingan Clustering Based On Frequent Word Sequence
(CFWS) Dan K-Means Untuk Pengelompokan Dokumen Berbahasa Indonesia.
Skripsi. Bandung: Fakultas Pendidikan Matematika Dan Ilmu Pengetahuan
Alam, Universitas Pendidikan Indonesia. [Tersedia] :
(abstrak.digilib.upi.edu/.../SKRIPSI/...CLUSTERING...K-MEANS.../fi..., diakses 20
April 2012)
75
76
Data APBD Kabupaten XYZ tahun 2006
( part 1 )
77
Data APBD Kabupaten XYZ tahun 2006
( part 2 )
78
Data APBD Kabupaten XYZ tahun 2007
79
Data APBD Kabupaten XYZ tahun 2008
80
Data APBD Kabupaten XYZ tahun 2009
81
Data APBD Kabupaten XYZ tahun 2010
82
Data APBD Kabupaten XYZ tahun 2011
83
Surat ijin pengambilan data di Kabupaten XYZ
84
Surat Pelaksanaan Penelitian Dari Kabupaten XYZ
85
Terjemahan intisari dari pusat bahasa
86
Download