skripsi klasterisasi daerah rawan kecelakaan lalu lintas di kota

advertisement
SKRIPSI
KLASTERISASI DAERAH RAWAN KECELAKAAN LALU
LINTAS DI KOTA SEMARANG MENGGUNAKAN
CHEBYSHEV DISTANCE K-MEANS
CLUSTERING TRAFFIC ACCIDENT PRONE AREA IN
SEMARANG USING CHEBYSHEV DISTANCE K-MEANS
Diajukan untuk memenuhi salah satu syarat
Memperoleh gelar Sarjana Teknik Informatika
Disusun Oleh :
Nama
: M. Abdillah Luthfi
NIM
: A11.2012.07225
Program Studi : Teknik Informatika-S1
FAKULTAS ILMU KOMPUTER
UNIVERSITAS DIAN NUSWANTORO
SEMARANG
2016
PERSETUJUAN SKRIPSI
Nama
: M. Abdillah Luthfi
NIM
: A11.2012.07225
Program Studi
: Teknik Informatika-S1
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di
Kota Semarang Menggunakan Chebychev Distance KMeans.
Tugas Akhir ini telah diperiksa dan disetujui,
Semarang, Oktober 2016
Menyetujui :
Pembimbing
Menyetujui :
Dekan Fakultas Ilmu Komputer
Purwanto, Ph.D
NPP.0686.11.1994.051
Dr. Abdul Syukur
NPP.0686.11.1992.017
ii
PENGESAHAN DEWAN PENGUJI
Nama
: M. Abdillah Luthfi
NIM
: A11.2012.07225
Program Studi
: Teknik Informatika-S1
Fakultas
: Ilmu Komputer
Judul Tugas Akhir
: KLASTERISASI DAERAH RAWAN KECELAKAAN
LALU
LINTAS
MENGGUNAKAN
DI
KOTA
CHEBYSHEV
SEMARANG
DISTANCE
K-
MEANS
Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada
Sidang tugas akhir pada
Oktober 2016. Menurut pandangan kami, tugas akhir
ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar
Sarjana Komputer (S.Kom).
Semarang, Oktober 2016
Dewan Penguji :
Penguji 1
Anggota
Penguji 2
Anggota
Hanny Haryanto,S.Kom,M.T
NPP. 0686.11.2009.371
Edy Mulyanto, S.Si, M.Kom
NPP.0686.11.1993.040
Penguji 3
Ketua Penguji
Setia Astuti, S.Si, M.Kom
NPP. 0686.11.1994.058
iii
PERNYATAAN KEASLIAN SKRIPSI
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya :
Nama : M. Abdillah Luthfi
NIM
: A11.2012.07225
Menyatakan bahwa karya ilmiah saya yang berjudul :
KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI
KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE
K-MEANS
merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing
telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll).
Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya,
dan disertai dengan bukti bukti yang cukup, maka saya bersedia untuk dibatalkan
gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian
surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di
: Semarang
Pada tanggal : Oktober 2016
Yang menyatakan
(M. Abdillah Luthfi)
iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH
UNTUK KEPENTINGAN AKADEMIS
Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah
ini, saya :
Nama : M. Abdillah Luthfi
NIM
: A11.2012.07225
Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada
Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non-Exclusive
Royalty-Free Right) atas karya ilmiah saya yang berjudul :
KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI
KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE
K-MEANS
Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy,
ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data
(database), mendistribusikannya dan menampilkan/ mempublikasikannya di
internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari
saya selama tetap mencantumkan nama saya sebagai penulis/ pencipta.
Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak
Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas
pelanggaran Hak Cipta dalam karya ilmiah saya ini.
Demikian surat pernyataan ini saya buat dengan sebenarnya.
Dibuat di
: Semarang
Pada tanggal : Oktober 2016
Yang menyatakan
(M. Abdillah Luthfi)
(M. Abdillah Luthfi)
v
KATA PENGANTAR
Alhamdulillah, puji syukur kehadirat Allah SWT yang telah
melimpahkan rahmat dan hidayah-Nya. Sholawat dan salam kepada
Rasulullah Muhammad SAW, sehingga penulis dapat menyelesaikan Tugas
Akhir ini dengan judul “Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas
di Kota Semarang Menggunakan Chebyshev Distance K-Means” dengan baik
tanpa suatu halangan yang berarti. Tugas Akhir ini disusun untuk memenuhi
syarat kelulusan akademik.
Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari
berbagai pihak, Tugas Akhir ini tidak akan dapat diselesaikan tepat pada
waktunya. Oleh karena itu, penulis mengucapkan terimakasih yang sebesarbesarnya kepada semua pihak yang telah membantu dalam proses
penyusunan Tugas Akhir ini, yaitu kepada :
1. Allah SWT atas kehendak-Nya penulis dapat melaksanakan dan
menyelesaikan Tugas Akhir ini.
2. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas
Dian Nuswantoro.
3. Dr. Drs. Abdul Syukur, MM selaku Dekan Fakultas Ilmu
Komputer Universitas Dian Nuswantoro.
4. Heru Agus Santoso, Ph.D selaku Ketua Program Studi Teknik
Informatika Fakultas Ilmu Komputer Universitas Dian
Nuswantoro.
5. Purwanto, Ph.D selaku dosen pembimbing dan akademik yang
dengan sabar selalu memberikan arahan, bimbingan dan
motivasi dalam penyusunan Tugas Akhir ini.
6. Dosen-dosen pengampu di fakultas Ilmu Komputer Teknik
Informatika Universitas Dian Nuswantoro Semarang yang telah
memberikan
ilmu
dan
pengalamannya
masing-masing,
sehingga penulis dapat mengimplementasikan ilmu yang telah
disampaikan.
vi
7. Kedua Orang Tua yang selalu saya cintai dan banggakan.
8. Semua pihak yang namanya tidak dapat disebutkan satu per
satu.
Akhir kata, penulis ingin menyampaikan bahwa penyusunan Tugas
Akhir ini masih sangat jauh dari kesempurnaan. Oleh karena itu, penulis
sangat mengharapkan berbagai masukan dari semua pihak, baik berupa saran
maupun kritik yang sekiranya bisa memperbaiki kekurangan-kekurangan
yang ada dalam Tugas Akhir ini. Semoga Tugas Akhir ini dapat bermanfaat
bagi semua pihak. Amin
Semarang, Oktober 2016
Penulis
vii
ABSTRAK
Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi
penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia
sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia
dengan menempati peringkat ke 5. Selain itu kecelakaan lalu lintas merupakan salah
satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di
masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas
yang terjadi di Indonesia masih sangat tinggi. Tingginya angka kecelakaan lalu
lintas terjadi karena masyarakat modern menempatkan transportasi sebagai
kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Maka dilakukan
penelitian terhadap daerah rawan kecelakaan lalu lintas untuk menghasilkan status
daerah rawan kecelakaan yang berasal dari rekaman data kecelakaan lalu lintas
Polrestabes Kota Semarang selama dua tahun dengan menggunakan algoritma KMeans klastering, dimana daerah (jalan) akan di kelompokkan menjadi 3 klaster
berdasarkan kemiripan karakteristik yang ditinjau dari nilai indikator daerah rawan
kecelakaan lalu lintas seperti jumlah kecelakaan, jumlah kendaraan yang terlibat
dan jumlah korban untuk menunjukkan tingkat kerawanan kecelakaan lalu lintas.
Dalam penelitian ini dilakukan pengelompokkan data menggunakan
Chebychev Distance K-Means dan Euclidean Distance K-Means, dimana dalam
kasus ini untuk pengklasteran menggunakan Chebychev Distance K-Means lebih
optimal dibandingkan Euclidean Distance K-Means. Hal ini disebabkan karena
nilai DBI (Davies Bouldin Index) dari Chebychev Distance K-Means sebesar 0.416
lebih rendah dibandingkan Euclidean Distance K-Means yang memiliki nilai 0.426.
Kata Kunci : kecelakaan lalu lintas, k-means, chebyshev distance, clustering, Prone
Areas.
viii
DAFTAR ISI
HALAMAN JUDUL................................................................................................ i
PERSETUJUAN SKRIPSI ..................................................................................... ii
PENGESAHAN DEWAN PENGUJI .................................................................... iii
PERNYATAAN KEASLIAN SKRIPSI ................................................................ iv
PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK
KEPENTINGAN AKADEMIS .............................................................................. v
KATA PENGANTAR ........................................................................................... vi
ABSTRAK ........................................................................................................... viii
DAFTAR ISI .......................................................................................................... ix
DAFTAR TABEL .................................................................................................. xi
DAFTAR GAMBAR ............................................................................................ xii
BAB I PENDAHULUAN ...................................................................................... 1
1.1
Latar Belakang ......................................................................................... 1
1.2
Rumusan Masalah .................................................................................... 4
1.3
Batasan Masalah ....................................................................................... 4
1.4
Tujuan Penelitian ...................................................................................... 5
1.5
Manfaat Penelitian .................................................................................... 5
BAB II ..................................................................................................................... 6
TINJAUAN PUSTAKA DAN LANDASAN TEORI ............................................ 6
2.1
Penelitian Terkait ..................................................................................... 6
2.2
Landasan Teori ....................................................................................... 12
2.2.1
Kecelakaan Lalu Lintas ................................................................... 12
2.2.2
Penentuan Lokasi Rawan Kecelakaan Lalu Lintas ......................... 12
2.2.3
Pengertian Jalan .............................................................................. 13
2.2.4
Data Mining .................................................................................... 14
2.2.5
CRISP-DM ...................................................................................... 16
2.2.6
Clustering ........................................................................................ 19
2.2.7
Algoritma K-Means ........................................................................ 19
2.2.8
Davies Bouldin Index ...................................................................... 21
2.3
Kerangka Pemikiran ............................................................................... 22
ix
BAB III ................................................................................................................. 23
METODE PENELITIAN ...................................................................................... 23
3.1
Data Penelitian ....................................................................................... 23
3.2
Tahapan Penelitian ................................................................................. 25
BAB IV ................................................................................................................. 29
4.1
Pengolahan Data ..................................................................................... 29
4.1.1
Persiapan Data ................................................................................. 29
4.1.2
Preprocessing .................................................................................. 29
4.2
Proses Klastering .................................................................................... 30
4.2.1
Chebychev Distance K-Means ........................................................ 31
4.2.2
Euclidean K-Means ......................................................................... 39
4.3
Proses Menggunakan Rapidminer .......................................................... 44
4.4
Pengujian Klastering .............................................................................. 54
4.5
Hasil Pengujian ....................................................................................... 58
BAB V................................................................................................................... 59
5.1
Kesimpulan ............................................................................................. 59
5.2
Saran ....................................................................................................... 59
DAFTAR PUSTAKA ........................................................................................... 60
x
DAFTAR TABEL
Tabel 2. 1 Penelitian Terkait ................................................................................... 8
Tabel 2. 2 Klasifikasi Kelas Jalan ......................................................................... 13
Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas ............................ 24
Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas .............. 24
Tabel 4. 1 Pemilihan Atribut ................................................................................. 29
Tabel 4. 2 Data Awal ............................................................................................ 30
Tabel 4. 3 Iterasi 1 ................................................................................................. 32
Tabel 4. 4 Centroid baru untuk iterasi 2 ................................................................ 33
Tabel 4. 5 Iterasi ke-2............................................................................................ 33
Tabel 4. 6 Centroid baru untuk iterasi 3 ................................................................ 35
Tabel 4. 7 Iterasi ke-3............................................................................................ 35
Tabel 4. 8 Centroid baru untuk iterasi 4 ................................................................ 37
Tabel 4. 9 Informasi Centroid akhir ...................................................................... 37
Tabel 4. 10 Iterasi ke-10........................................................................................ 37
Tabel 4. 11 Iterasi 1 ............................................................................................... 40
Tabel 4. 12 Centroid baru untuk iterasi 2 .............................................................. 42
Tabel 4. 13 Iterasi 2 ............................................................................................... 42
Tabel 4. 14 Informasi centroid akhir Euclidean Distance ..................................... 43
Tabel 4. 15 Iterasi ke-11........................................................................................ 43
Tabel 4. 16 Data yang diimport ke Rapidminer .................................................... 44
Tabel 4. 17 Centroid Table Chebychev K-Means ................................................ 45
Tabel 4. 18 Hasil Klastering Chebychev K-Means ............................................... 45
Tabel 4. 19 Tabel Centroid Euclidean K-Means ................................................... 49
Tabel 4. 20 Hasil Klastering Euclidean K-Means ................................................. 49
Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas .................................. 53
Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means
............................................................................................................................... 55
Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means 56
Tabel 4. 24 Perbandingan Nilai DBI Sample ........................................................ 57
Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer ................... 58
xi
DAFTAR GAMBAR
Gambar 2. 1 Tahap-Tahap Data mining [17] ........................................................ 15
Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] ............................................. 17
Gambar 2. 3 Flowchart Algoritma K-Means ........................................................ 20
Gambar 2. 4 Kerangka Pemikiran ......................................................................... 22
Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas ........................................... 23
xii
BAB I
PENDAHULUAN
1.1 Latar Belakang
Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang
menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia.
Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas
tertinggi di dunia dengan menempati peringkat ke 5 [1].
Selain itu kecelakaan lalu lintas merupakan salah satu topik
pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat.
Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi
di Indonesia masih sangat tinggi [2]. Tingginya angka kecelakaan lalu lintas
terjadi karena masyarakat modern menempatkan transportasi sebagai
kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Oleh karena
itu, kecelakaan dalam dunia transportasi memiliki dampak signifikan dalam
berbagai bidang kehidupan masyarakat.
Kecelakaan lalu lintas yang terjadi, terdiri dari berbagai jenis
kecelakaan lalu lintas dan melibatkan pelaku atau korban dari berbagai usia
dan profesi. Kecelakaan yang selama ini terjadi secara kontinu membuat semua
pihak perlu melakukan langkah-langkah pencegahan untuk mengurangi
terjadinya kecelakaan [3]. Hal ini jelas perlu mendapatkan perhatian dan
penanganan efektif dari pemerintah khususnya Direktur Lalu Lintas
(Ditlantas), diantaranya manajemen dan rekayasa lalu lintas (ketepatan dalam
menentukan peserta edukasi atau sosialisasi tentang keselamatan di jalan raya
atau rekomendasi pemasangan alat perlengkapan jalan yang menjadi prioritas)
[4]. Namun masalah tersebut tidak dapat terselesaikan dengan mudah karena
kecelakaan lalu lintas membutuhkan perhatian dan penanganan serius
mengingat besarnya kerugian yang ditimbulkan.
1
2
Berdasarkan studi yang dilakukan terhadap 75.000 kasus kecelakaan,
diperoleh rasio sebesar 88:10:2 dengan rincian 88% dari seluruh kecelakaan
yang diakibatkan oleh tindakan tidak aman, 10% kondisi tidak aman, dan 2%
akibat kondisi yang tidak dapat dicegah. Sesungguhnya kecelakaan merupakan
akibat dari beberapa faktor yang saling tergantung satu sama lain [5].
Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan
Angkutan Jalan, mengungkapkan kecelakaan lalu lintas adalah suatu peristiwa
di jalan yang tidak diduga dan tidak disengaja melibatkan kendaraan dengan
atau tanpa pengguna jalan lain yang mengakibatkan korban manusia dan/atau
kerugian harta benda [6]. Timbulnya kecelakaan lalu lintas dijalan raya yang
meningkat semakin tinggi, sebagian besar diakibatkan atau diawali dengan
perilaku pengendara yang melanggar aturan perundang-undangan lalu lintas
yang ada seperti mengemudikan kendaraan dengan kecepatan tinggi atau tidak
dengan hati-hati, mengendarai kendaraan bermotor tidak memiliki surat izin
mengemudi, melanggar lalu lintas dan marka jalan serta berbagai bentuk
pelanggaran lainnya [7].
Meningkatnya jumlah pengguna kendaraan bermotor setiap tahunnya,
dapat meningkatkan terjadinya kecelakaan lalu lintas karena beberapa faktor
antara lain faktor pemakai jalan (pengemudi, pejalan kaki), faktor kendaraan
dan faktor lingkungan. Kecelakaan juga diakibatkan oleh kombinasi antara
beberapa faktor perilaku buruk dari pengemudi ataupun pejalan kaki,jalan,
kendaraan, pengemudi ataupun pejalan kaki, cuaca buruk ataupun pandangan
yang buruk dan masih banyak lagi faktor yang menyebabkan kecelakaan lalu
lintas [8].
Penggalian data ditujukan untuk mengelompokkan ruas jalan di Kota
Semarang berdasarkan faktor kesamaan karakteristik yang ada di dataset yaitu
jumlah kecelakaan, jumlah kendaraan yang terlibat, serta jumlah korban akibat
kecelakaan yang terjadi dalam suatu rentan waktu tertentu. Dengan
menggunakan data mining, dapat diperoleh tingkat kerawanan suatu wilayah
terhadap kecelakaan lalu lintas melalui clustering data kecelakaan di Kota
Semarang. Data mining merupakan metode pengolahan data berskala besar,
3
oleh karena itu data mining memiliki peranan penting dalam berbagai bidang.
Secara umum kajian data mining membahas metode-metode seperti clustering,
klasifikasi, regresi, seleksi variable, dan market basket analisis [9]. Clustering
merupakan suatu metode untuk mencari dan mengelompokkan data yang
memiliki kemiripan karakteristik antara satu data dengan data yang lain [11].
Salah satu ciri clustering yang baik atau optimal adalah menghasilkan
cluster yang berisi data dengan tingkat kemiripan (similarity) yang tinggi pada
cluster yang sama dan tingkat kemiripan yang rendah pada cluster yang
berbeda. Untuk mengukur kemiripan data dalam suatu cluster menggunakan
distance measure. Jika menggunakan distance measure yang berbeda maka
hasil dari proses clustering akan menghasilkan hasil yang berbeda juga [10].
Dalam perkembangan clustering terdapat berbagai algoritma yang salah
satunya adalah K-Means.
K-Means clustering merupakan salah satu metode data clustering nonhirarki yang mengelompokkan data dalam bentuk satu atau lebih
cluster/kelompok. Data yang memiliki karakteristik yang sama dikelompokkan
dalam satu cluster/kelompok dan data yang memiliki karakteristik yang
berbeda dikelompokkan dengan cluster/kelompok yang lain sehingga data
yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil
[9].
Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto,
Arif Tirtana, Fakhris Khusnu [15] dalam penelitiannya menggunakan
algoritma k-means pada clustering kualitas beras berdasarkan ciri fisik
menghasilkan akurasi sebesar 92,8%. Selanjutnya Erga Aprina Sari [14]
meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat
Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah.
Penelitian ini menggunakan teknik data mining dengan algoritma K-Means
untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di
Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang
ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita,
angka kesakitan bayi dan balita, dan status gizi bayi dan balita.
4
Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa
penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member
di alvaro fitness menggunakan k-means clustering dengan menggunakan 3
macam distance measure. Didapatkan bahwa dalam pengujian silhouette
coefficient clustering, Chebyshev Distance memiliki nilai silhouette
coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan
Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan
0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk
kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance.
Berdasarkan hasil dari latar belakang di atas, penelitian yang akan
diambil adalah pemilihan Distance Measure dengan menggunakan Chebyshev
Distance pada K-Means Clustering untuk membantu Ditlantas Polrestabes
Kota Semarang dalam mengindentifikasi dan mengelompokkan daerah rawan
kecelakaan lalu lintas di Kota Semarang berdasarkan dataset yang sudah ada
agar monitoring terhadap keselamatan pengendara di jalan raya dapat
diantisiasi sejak dini.
1.2 Rumusan Masalah
Berdasarkan
latar
belakang
diatas,
maka
dapat
dirumuskan
permasalahan yaitu bagaimana mengklaster daerah (jalan) rawan kecelakaan
lalu lintas yang ada di Kota Semarang berdasarkan kemiripan karakteristik
daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas
dengan menggunakan Chebyshev Distance pada K-Means sehingga dapat
diketahui status daerah rawan kecelakaan lalu lintas untuk setiap daerah.
1.3 Batasan Masalah
Batasan permasalahan dalam penelitian ini adalah :
1. Data yang digunakan dalam penelitian ini adalah data sekunder yang
berasal dari Polrestabes Kota Semarang.
2. Algoritma yang digunakan dalam penelitian ini adalah K-Means.
5
3. Dataset yang digunakan adalah data kecelakaan kendaraan bermotor
di Kota Semarang dari tahun 2014-2015.
4. Data yang digunakan adalah kejadian kecelakaan lalu lintas, seperti
kecelakaan lalu lintas antar kendaraan bermotor, kendaraan
bermotor dengan pejalan kaki.
5. Masalah kecelakaan yang dibahas adalah masalah kecelakaan yang
terjadi di wilayah ruas jalan kota.
6. Hasil dari penelitian ini adalah penentuan status rawan daerah Kota
Semarang terhadap kecelakaan lalu lintas.
7. Tidak membahas penanggulangan kecelakaan.
1.4 Tujuan Penelitian
Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini
adalah untuk menghasilkan status daerah rawan kecelakaan lalu lintas dengan
menggunakan Chebyshev Distance pada algoritma K-Means yang dapat
mengklaster daerah (jalan) rawan kecelakaan lalu lintas di Kota Semarang
berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator
daerah rawan kecelakaan lalu lintas.
1.5 Manfaat Penelitian
Dengan adanya penelitian ini diharapkan dapat :
1. Dengan menggunakan algoritma K-Means dapat mengelompokkan daerah
rawan kecelakaan lalu lintas di Kota Semarang.
2. Dapat digunakan sebagai refrensi dalam melakukan penelitian yang sama
dengan menggunakan algoritma K-Means.
3. Dapat meningkatkan kesadaran akan pentingnya keselamatan dalam
berkendara.
4. Dapat membantu kepolisian dalam mengkelompokkan daerah di Kota
Semarang yang rawan terhadap kecelakaan.
BAB II
TINJAUAN PUSTAKA DAN LANDASAN TEORI
2.1 Penelitian Terkait
Tinjauan studi yang menjadi sumber referensi dari penelitian yang
penulis buat ini berasal dari beberapa penelitian sejenis sebelumnya. Dari
beberapa penelitian tersebut didapatkan berbagai hasil pandangan tentang
penerapan klusterisasi data dari masing-masing jurnal. Berikut merupakan
beberapa penelitian yang terkait dan relevan dengan penelitian ini.
Penelitian pertama dilakukan oleh Lizda Iswari dan Ervina Gita Ayu
yang membuat penelitian tentang Pemanfaatan Algoritma K-Means Untuk
Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Dimana dalam
penelitian
ini,
peneliti
menggunakan
metode
clustering
untuk
mengelompokkan daerah rawan kecelakaan lalu lintas berdasarkan ruas-ruas
jalan yang memiliki kesamaan karakteristik dan visualisasi hasil clustering
dalam bentuk peta dua dimensi. Dalam penelitian ini masih terbatas pada
penggunaan data temporal dalam periode bulanan. Sedangkan dalam
penentuan parameter klasterisasi yang digunakan dalam penelitian ini masih
bersumber pada deskripsi kejadian dan belum melibatkan data geometri
(kondisi fisik) jalan raya [2].
Penelitian kedua dilakukan oleh Silvi Agustina, Dhimas Yhudo, Hadi
Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu tentang
Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans. Dalam penelitian ini penulis menggunakan metode k-means dan
manhattan distance sebagai distance measure (perhitungan jarak). Penelitian
ini menggunakan 20 data uji, dimana ke-20 data tersebut dibagi menjadi 3
cluster dengan cluster 1 merupakan beras kualitas buruk, cluster 2 beras
kualitas sedang, dan cluster 3 beras kualitas baik. Dari hasil penelitian,
didapatkan 3 pusat cluster akhir yaitu pusat cluster 1 (5,89333;2,05), pusat
6
7
cluster 2 (6,28199;2,546), dan pusat cluster 3 (6,96583;2,999167) serta
dihasilkan validasi sebesar 92,8% yang menunjukan bahwa program ini dapat
dijadikan sebagai acuan dalam klasterisasi kualitas beras [15].
Selanjutnya penelitian dilakukan oleh Erga Aprina Sari [14] meneliti
tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan
Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini
menggunakan teknik data mining dengan algoritma K-Means untuk
mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi
Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari
nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan
bayi dan balita, dan status gizi bayi dan balita.
Dari hasil uji coba didapat kabupaten/kota yang memiliki hasil analisa
indikator kesehatan tinggi yang tingkat kesehatan pada indikator tersebut buruk
karena jumlah penderitanya banyak. Penanganan masalah dapat difokuskan
pada kabupaten/kota dengan indikator kesehatan tinggi.
Penelitian keempat dilakukan oleh Firli Irhamni, Fitri Damayanti, Bain
Khusnul K, Mifftachul A tentang Optimalisasi Pengelompokan Kecamatan
Berdasarkan Indikator Pendidikan Menggunakan Metode Clustering dan
Davies Bouldin Index. Penelitian ini tentang pengelompokan kecamatan untuk
pemerataan pendidikan menggunakan indicator pendidikan yang terdapat pasa
suatu kecamatan sebagai salah satu organisasi pemerintah. Parameter penyebab
keberhasilan pendidikan dapat dilihat dariindikator pendidikan di suatu daerah,
salah satu tolak ukurnya adalah rendahnya nilai Angka Partisipasi Murni
(APM) dan nilai Angka Partisipasi Kasar (APK). Indikator lain yang
mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan
yang meliputi jumlah sekolah, ruang kelas, dan tenaga pengajar.
Pengelompokan kecamatan berdasarkan tingkat pendidikan SMA/SMK/MA
tersebut menggunakan metode clustering yaitu Self Organizing Map (SOM)
dan hasil clustering tersebut kemudian diolah dengan metode Davies Bouldin
Index(DBI) untuk menunjukkan seberapa baik cluster yang diperoleh.
8
Penelitian ini memberikan kontribusi terhadap pengambilan kebijakan dari
pihak berwenang[16].
Penelitian kelima dilakukan oleh Mario Anggara, Henry Sujiani, Helfi
Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian
terhadap pengelompokan member di alvaro fitness menggunakan k-means
clustering dengan menggunakan 3 macam distance measure. Didapatkan
bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance
memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan
Euclidean Distance dan Manhattan Distance memiliki nilai silhouette
coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa
distance measure paling optimal untuk kasus pengelompokkan member di
Alvaro fitness adalah Chebyshev Distance.
Tabel 2. 1 Penelitian Terkait
No
1
Peneliti
Pembahasan
Metode
Lizda
Iswari Pemanfaatan
dan
Ervina K-Means Untuk Pemetaan
Gita Ayu
Hasil
Hasil
Algoritma K-Means Dalam penelitian ini masih
Klasterisasi
Data
Kecelakaan Lalu Lintas
terbatas
pada
penggunaan
data temporal dalam periode
bulanan. Sedangkan dalam
penentuan
parameter
klasterisasi yang digunakan
dalam penelitian ini masih
bersumber
pada
deskripsi
kejadian
dan
belum
melibatkan
data
geometri
(kondisi fisik) jalan raya.
2
Silvi
Clustering Kualitas Beras K-Means
Penelitian ini menggunakan
Agustina,
Berdasarkan
20 data uji, dimana ke-20
Dhimas
Ciri
Fisik
data tersebut dibagi menjadi
9
Yhudo, Hadi Menggunakan Metode K-
3 cluster dengan cluster 1
Santoso,
merupakan beras kualitas
Means
Nofiandi
buruk,
Marnasusanto,
kualitas sedang, dan cluster
Arif
3 beras kualitas baik. Dari
Tirtana,
cluster
2
beras
Fakhris
hasil penelitian, didapatkan
Khusnu
3 pusat cluster akhir yaitu
pusat
cluster
1
(5,89333;2,05), pusat cluster
2 (6,28199;2,546), dan pusat
cluster
3
(6,96583;2,999167)
serta
dihasilkan validasi sebesar
92,8%
yang
menunjukan
bahwa program ini dapat
dijadikan
sebagai
acuan
dalam klasterisasi kualitas
beras.
3
Erga
Sari
Aprina Penerapan Algoritma K- K-Means
Dari hasil uji coba didapat
Means Untuk Menentukan
kabupaten/kota
Tingkat Kesehatan Bayi
memiliki
dan
Pada
indikator kesehatan tinggi
Kabupaten dan Kota di
yang tingkat kesehatan pada
Jawa Tengah
indikator
Balita
yang
hasil
tersebut
analisa
buruk
karena jumlah penderitanya
banyak.
Penanganan
masalah dapat difokuskan
pada kabupaten/kota dengan
indikator kesehatan tinggi.
10
4.
Firli Irhamni, Optimalisasi
SOM dan Penelitian
Fitri
Pengelompokan
Davies
Damayanti,
Kecamatan
Berdasarkan Bouldin
Bain Khusnul Indikator
Pendidikan
ini
tentang
pengelompokan kecamatan
untuk
pemerataan
pendidikan
menggunakan
K, Mifftachul Menggunakan
Metode
indicator pendidikan yang
A
Davies
terdapat
Clustering
dan
Bouldin Index
pasa
suatu
kecamatan sebagai salah satu
organisasi
pemerintah.
Parameter
penyebab
keberhasilan
pendidikan
dapat dilihat dariindikator
pendidikan di suatu daerah,
salah satu tolak ukurnya
adalah
rendahnya
Angka
Partisipasi
nilai
Murni
(APM) dan nilai Angka
Partisipasi
Kasar
(APK).
Indikator
lain
yang
mempengaruhi pemerataan
pendidikan adalah sarana
dan prasarana pendidikan
yang
meliputi
jumlah
sekolah, ruang kelas, dan
tenaga
pengajar.
Pengelompokan kecamatan
berdasarkan
tingkat
pendidikan SMA/SMK/MA
tersebut
menggunakan
metode clustering yaitu Self
Organizing Map (SOM) dan
hasil
clustering
tersebut
11
kemudian
metode
diolah
Davies
dengan
Bouldin
Index(DBI)
untuk
menunjukkan seberapa baik
cluster
yang
diperoleh.
Penelitian ini memberikan
kontribusi
terhadap
pengambilan kebijakan dari
pihak berwenang
5
Mario
Pemilihan
Anggara,
Measure Pada K-Means
Henry Sujiani, Clustering
Distance K-Means
penelitiannya mendapatkan
hasil
pengujian
terhadap
Untuk
pengelompokan member di
Helfi Nasution Pengelompokkan Member
alvaro fitness menggunakan
Di Alvaro Fitness
k-means clustering dengan
menggunakan
3
distance
macam
measure.
Didapatkan bahwa dalam
pengujian
silhouette
coefficient
clustering,
Chebyshev
Distance
memiliki
nilai
silhouette
coefficient-nya
0.242821.
Euclidean
sebesar
Sedangkan
Distance
Manhattan
memiliki
dan
Distance
nilai
silhouette
coefficient sebesar 0.232149
dan
0.240016.
Hal
itu
menunjukan bahwa distance
measure
untuk
paling
optimal
kasus
12
pengelompokkan member di
Alvaro
fitness
Chebyshev Distance.
2.2 Landasan Teori
2.2.1 Kecelakaan Lalu Lintas
Kecelakaan lalu lintas adalah suatu peristiwa dijalan yang tidak
disangka-sangka dan tidak disengaja melibatkan kendaraan dengan atau
tanpa pemakai jalan lainnya mengakibatkan korban manusia atau
kerugian harta benda [6].
2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas
Suatu tempat dikatakan “daerah” atau “lokasi” apabila diketahui
letak dan batas-batasnya. Antara Direktorat Keselamatan Transportasi
Darat dengan Departemen Pemukiman dan Prasana Wilayah terdapat
perbedaan dalam penyebutan tempat yang tergolong rawan kecelakaan
lalu lintas. Direktorat Keselamatan Transportasi Darat menyebutnya
dengan “daerah rawan kecelakaan”, sedangkan Departemen Pemukiman
dan Prasana Wilayah menyebutnya dengan “lokasi rawan kecelakaan”.
Daerah yang memiliki angka kecelakaan tinggi, resiko
kecelakaan tinggi serta potensi kecelakaan tinggi pada suatu ruas jalan
dapat disebut juga dengan daerah rawan kecelakaan [18].
Suatu lokasi dapat dinyatakan sebagai lokasi rawan kecelakaan
apabila [19] :
1. Memiliki angka kecelakaan yang tinggi.
2. Lokasi kejadian kecelakaan relatif bertumpuk.
3. Lokasi kecelakaan berupa persimpangan, atau segmen
ruas jalan sepanjang 100 – 300 m untuk jalan perkotaan,
atau segmen ruas jalan sepanjang 1 km utnuk jalan antar
kota.
adalah
13
4. Kecelakaan terjadi dalam ruang dan rentan waktu yang
relatif sama.
5. Memiliki penyebab kecelakaan dengan factor yang
spesifik.
2.2.3 Pengertian Jalan
Jalan adalah seluruh bagian jalan, termasuk bangunan pelengkap
dan perlengkapannya yang diperuntukan bagi lalu lintas umum, yang
berada pada permukaan tanah, diatas permukaan tanah, dibawah
permukaan tanah dan/atau air, serta diatas permukaan air, kecuali jalan
rel dan jalan kabel [6].
Jalan dibagi kedalam kelas – kelas bukan hanya didasarkan pada
fungsinya tetapi juga dipertimbangkan pada besarnya volume serta sifat
lalu lintas. Adapun klasifikasi jalan dijelaskan dalam table dibawah ini :
Tabel 2. 2 Klasifikasi Kelas Jalan
Tipe
Tipe I
Klasifikasi
Klas I
Klas II
Tipe II Klas I
Klas II
Klas III
Keterangan
Jalan dengan standar tinggi untuk
melayani antar wilayah atau antar kota
untuk
kecepatan
tinggi
dengan
pembatasan jalan masuk.
Jalan dengan standar tinggi untuk
melayani antar wilayah atau didalam
metropolitan untuk kecepatan tinggi
dengan pembatasan jalan masuk.
Jalan dengan standar tinggi, 2 jalur atau
lebih untuk antar kota atau dalam kota,
kecepatan tinggi, volume lalu lintas tinggi
dengan masih ada beberapa pembatas
jalan masuk.
Jalan dengan standar tinggi, 2 lajur atau
lebih untuk melayani antar /dalam kota,
kecepatan tinggi, volume lalu lintas
sedang dengan/ tanpa pembatas jalan
masuk.
Jalan dengan standar menengah, 2 lajur
atau lebih melayani antas distrik,
kecepatan sedang, volume lalu lintas
tinggi, tanpa pembatas jalan masuk.
14
Klas IV
Jalan dengan standar rendah, I lajur dua
arah sebagai jalan penghubung.
2.2.4 Data Mining
Data mining merupakan analisis dari peninjauan kumpulan data
untuk menemukan hubungan yang tidak diduga dan meringkas data
dengan cara yang berbeda dengan sebelumnya, yang dapat dipahamidan
bermanfaat bagi pemilik data.
Data mining dibagi menjadi beberapa kelompok berdasarkan
tugas yang dapat dilakukan, yaitu [12] :
a. Description (Deskripsi)
Peneliti dan analis secara sederhana ingin mencoba mencari cara
untuk menggambarkan pola dan kecenderungan yang terdapat dalam
data.
b. Estimation (Estimasi)
Estimasi hampir sama dengan klasifikasi, dimana variabel tujuan yang
lebih kearah numerik daripada ke arah kategori.
c. Prediction (Prediksi)
Prediksi hampir sama dengan klasfikasi dan estimasi, kecuali bahwa
dalam prediksi nilai dari hasil akan ada di masa mendatang (sesuatu
yang belum terjadi).
d. Association (Asosiasi)
Asosiasi dalam data mining adalah menemukan atribut yang muncul
dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis
keranjang belanja.
e. Clustering
Clustering merupakan pengelompokan record, pengamatan, atau
memperhatikan dan membentuk kelas objek-objek yang memiliki
kemiripan.
15
f. Classification (Klasifikasi)
Penyusunan data menjadi beberapa kelompok yang ditentukan.
2.2.4.1 Tahap-Tahap Data mining
Rangkaian proses data mining dibagi menjadi
beberapa tahap yang bersifat interaktif seperti pada gambar
2.1.
Cleaning and
Integration
Selection and
Transformation
Data Mining
Evaluation and
Presentation
Knowledge
Data WareHouse
Patterns
Gambar 2. 1 Tahap-Tahap Data mining [17]
a. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu
dilakukan sebelum tahap penggalian informasi dalam KDD
dimulai. Data hasil seleksi yang akan digunakan untuk proses
data mining, disimpan dalam suatu berkas, terpisah dari basis
data operasional.
b. Cleaning
Proses cleaning mencakup antara lain membuang duplikasi
data, memeriksa data yang inkonsisten, dan memperbaiki
kesalahan pada data, seperti kesalahan ketik (tipografi).
16
c. Transformation
Pengubahan data ke dalam format yang sesuai untuk dapat
diproses dalam data mining. Misal, beberapa metode standar
seperti analisis asosiasi dan clustering hanya bisa menerima
input data kategorikal, maka data berupa angka numerik yang
berlanjut perlu dibagi menjadi beberapa interval.
d. Data mining
Proses pencarian pola atau informasi yang menarik dalam data
terpilih dengan menggunakan teknik atau metode tertentu.
e. Pattern Evaluation
Tahap ini mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau hipotesis yang
ada sebelumnya.
2.2.5 CRISP-DM
Cross-Industry Standard Process for Data Mining (CRISP-DM)
yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti
DaimlerChrysler,
SPSS
dan
NCR.
CRISP-DM
menyediakan
standarproses data mining sebagai strategi pemecahan masalah secara
umumdari bisnis atau unit penelitian.
17
Gambar 2. 2 Gambar siklus hidup CRISP-DM [12]
Berdasarkan CRISP-DM, proses data mining terdiri dari 6 fase
[12] yaitu :
1. Fase Pemahaman Bisnis (Business Understanding)
a. Penentuan tujuan proyek dan kebutuhan secara detail dalam
lingkup bisnis atau unit penelitian secara keseluruhan.
b. Menerjemahkan tujuan dan batasan menjadi formula dari
permasalahan data mining.
c. Menyiapkan strategi awal untuk mencapai tujuan.
2. Fase Pemahaman Data (Data Understanding Phase)
a. Mengumpulkan data.
b. Menggunakan analisis penyelidikan data untuk mengenali lebih
lanjut data dan pencarian pengetahuan awal.
c. Mengevaluasi kualitas data.
18
d. Jika diinginkan, pilih sebagian kecil grup data yang mungkin
mengandung pola dari permasalahan.
3. Fase Pengolahan Data (Data Preparation Phase)
a. Siapkan data dari awal, kumpulan data yang akan digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat
yang perlu dilaksanakan secara intensif.
b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai
analisis yang akan dilakukan.
c. Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d. Siapkan data awal sehingga siap untuk perangkat pemodelan.
4. Fase Pemodelan (Modelling Phase)
a. Pilih dan aplikasikan teknik pemodelan yang sesuai.
b. Kalibrasi aturan model untuk mengoptimalkan hasil.
c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk
digunakan pada permasalahan data mining yang sama.
d. Jika diperlukan, proses dapat kembali ke fase pengolahan data
untuk menjadikan data ke dalam bentuk yang sesuai dengan
spesifikasi kebutuhan teknik data mining tertentu.
5. Fase Evaluasi (Evaluation Phase)
a. Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitasdan efektivitas sebelum
disebarkan untuk digunakan.
b. Menetapkan apakah terdapat model yang memenuhi tujuan pada
fase awal.
c. Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d. Mengambil keputusan berkaitan dengan penggunaan hasil dari
data mining.
6. Fase Penyebaran (Deployment Phase)
a. Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikan proyek.
19
b. Contoh sederhana penyebaran: Pembuatan laporan.
c. Contoh kompleks penyebaran: Penerapan proses data mining
secara pararel pada departemen lain.
2.2.6 Clustering
Clustering merupakan salah satu teknik data mining yang
digunakan untuk mendapatkan kelompok-kelompok dari obyek-obyek
yang mempunyai karakteristik yang umum di data yang cukup besar.
Pengelompokan sejumlah data/obyek ke dalam cluster merupakan tujuan
utama dari metode clustering sehingga dalam setiap cluster akan diisi
data yang memiliki tingkat kemiripan yang tinggi [13].
Sebuah cluster adalah kumpulan data yang memiliki kemiripan
karakteristik satu sama lain dan tidak memiliki kemiripan dengan cluster
lain. Clustering bersifat unsupervised learning karena pengelompokan
data yang didasarkan pada kesamaan antar objek.
2.2.7 Algoritma K-Means
Beberapa teknik clustering yang paling sederhana diantara teknik
lainnya adalah Klastering K-Means. K-means merupakan salah satu
metode pengelompokan data (clustering) nonhierarki yang termasuk
dalam pendekatan partisi dimana data yang ada dipartisi ke dalam bentuk
dua atau lebih kelompok. Metode ini mengelompokan data yang
berkarakteristik sama menjadi satu kelompok dan data yang
berkaraktersitik berbeda dikelompokkan kedalam kelompok lain.
Algoritma K-means secara umum memiliki tahapan sebagai
berikut:
1. Tentukan jumlah kelompok
2. Inisialisasi titik centroid k (pusat cluster) secara acak.
3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu
cluster akan menentukan data tersebut masuk dalam cluster mana.
Perhitungan jarak yang digunakan adalah sebagai berikut :
20
Chebyshev Distance
𝑑𝑖𝑗 =
π‘šπ‘Žπ‘₯
π‘˜
|π‘₯𝑖𝑗 − π‘₯π‘—π‘˜ |
(2.1)
Dimana :
K = Dimensi data
4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang
sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau
data dalam cluster tertentu atau dengan menggunakan median dari
cluster tersebut.
5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak
berubah.
START
Jumlah K
Inisiasi
Pusat
Hitung jarak data
ke pusat
Kelompokkan
data berdasarkan
jarak minimum
Pusat cluster lama =
pusat cluster baru
Pusat cluster baru
tidak
ada
Selisih Pusat
cluster lama dan
baru
End
Gambar 2. 3 Flowchart Algoritma K-Means
21
2.2.8 Davies Bouldin Index
Davies Bouldin Index merupakan metode evaluasi cluster dari
hasil clustering. Semakin kecil nilai DBI yang di peroleh (non-negatif ≥
0) maka semakin baik cluster yang diperoleh dari pengelompokan KMeans yang digunakan [20].
𝑁
1
π‘£π‘Žπ‘Ÿ(π‘₯) =
∑(π‘₯𝑖 − π‘₯Μ… )2
𝑁−1
(2.2)
𝑖=1
𝑅𝑖 =
max 𝑅𝑖𝑗
𝑗 = 1, . . π‘˜, 𝑖 ≠ 𝑗
𝑅 𝑖𝑗 =
π‘£π‘Žπ‘Ÿ(𝐢𝑖 ) + π‘£π‘Žπ‘Ÿ(𝐢𝑗 )
||𝑐𝑖 − 𝑐𝑗 ||
𝑖≠𝑗
(2.3)
(2.4)
π‘˜
1
𝐷𝐡𝐼 = . ∑ 𝑅𝑖
π‘˜
(2.5)
𝑖=1
Dimana
π‘₯Μ…
: rata-rata dari cluster x dan N adalah jumlah anggota cluster
Var
: variance dari data
𝐢𝑖
: cluster i dan 𝑐𝑖 adalah centroid dari cluster i
22
2.3 Kerangka Pemikiran
Masalah
Studi Pustaka
Bagaimana mengklasterisasi
daerah rawan kecelakaan lalu lintas
di Kota Semarang
Buku dan Jurnal tentang data
mining, algoritma k-means dan
daerah rawan kecelakaan
Metode
Algoritma K-Means dengan
menggunakan chebyshev distance
Penerapan
Data Kecelakaan
Polrestabes Semarang
2014-2015
Pengembangan
Microsoft Excel dan
Rapidminer
Pengujian
Davies Bouldin Indeks
(DBI)
Hasil
Pengelompokkan dan penentuan status daerah di Kota
Semarang yang rawan terhadap kecelakaan menggunakan
chebyshev distance k-means
Gambar 2. 4 Kerangka Pemikiran
BAB III
METODE PENELITIAN
3.1 Data Penelitian
Dalam penelitian tugas akhir ini, objek penelitian dilakukan dengan
pengambilan data yang diperoleh dari Satlantas Polrestabes Kota Semarang
antara tahun 2014 sampai 2015. Data yang diperoleh merupakan data sekunder
melalui dokumentasi Satlantas Polrestabes Kota Semarang. Berikut rekaman
data Satlantas Polrestabes Kota Semarang :
Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas
Berikut keterangan dari rekaman data di atas akan dijelaskan pada tabel
di bawah ini :
23
24
Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas
Atribut
Keterangan
Waktu & Tempat Kejadian Atribut yang menginformasikan waktu dan
tempat kejadian terjadinya kecelakaan
Uraian Singkat Kejadian
Atribut
yang menginformasikan
uraian
singkat terjadinya kecelakaan
Korban
Atribut yang menginformasikan jumlah
korban pada saat terjadinya kecelakaan
tersebut baik koban meninggal dunia, luka
berat, luka ringan, serta menjelaskan pula
kerugiaan materiil yang didapat akibat
terjadinya kecelakaan tersebut
Yang terlibat
Atribut yang menginformasikan pengguna
jalan (kendaraan bermotor, pejalan kaki,
dsb.) yang terlibat dalam kecelakaan tersebut
Identitas Pengemudi
Atribut yang menginformasikan tentang
identitas
korban
yang
terlibat
dalam
kecelakaan tersebut.
Hasil rekapitulasi data rekaman kecelakaan lalu intas pada 10 segmen
jalan dapat di lihat pada table . Setiap jalan memiliki tiga parameter, yaitu
jumlah kecelakaan, jumlah kendaraan yang terlibat, dan jumlah korban
Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas
NO
1
2
3
4
5
DATA LAKA LANTAS POLRESTABES
SEMARANG
BULAN JANUARI S/D DESEMBER 2014
Nama Jalan
Jumlah Kecelakaan
Brigjend Sudiarto
Dr. Cipto
Durian
P.Kemerdekaan
Medoho
59
18
1
26
2
Jumlah Kendaraan
yang terlibat
Jumlah Korban
116
34
2
55
4
80
25
1
41
2
25
6
7
8
9
10
Brigjend Katamso
Fatmawati
Sarwo Edi Wibowo
Thamrin
MT Haryono
3
5
2
2
16
6
10
4
3
32
3.2 Tahapan Penelitian
Tahapan analisis data pada penelitian ini menggunakan data kecelakaan
lalu lintas Kota Semarang tahun 2014 dan 2015, diperoleh dari pengumpulan
data sebanyak 1549 record. Namun tidak semua data digunakan dan tidak
semua atribut digunakan karena banyak data yang tidak memenuhi syarat dan
data tersebut harus melalui beberapa tahap pengolahan awal data. Agar
mendapatkan data yang berkualitas yaitu dengan teknik data cleaning.
Tahapan penelitian menggunakan metode Cross Industry Standard
Process- Data Mining (CRISP-DM).
1. Tahap Pemahaman Bisnis (Bussines Understanding Phase)
Penelitian ini mempunyai tujuan bisnis yaitu menentukan daerah
atau wilayah di Kota Semarang yang rawan terhadap kecelakaan lalu lintas
karena dengan penelitian ini nantinya dapat digunakan oleh pihak
kepolisian untuk lebih memperhatikan daerah yang sering terjadi atau
rawan terhadap kecelakaan.
2. Tahap Pemahaman Data (Data Understanding Phase)
Pengumpulan data sekunder dilakukan dengan cara mengambil data
kecelakaan lalu lintas di Satlantas Polrestabes Semarang tahun 2014 dan
2015. Dari proses pengambilan data, data yang diperoleh pada tahun 2014
sebanyak 801 kasus kecelakaan lalu lintas dan tahun 2015 data yang
diambil dari bulan januari hingga bulan november yaitu sebanyak 748
kasus kecelakaan yang terjadi. Sehingga total dari data yang mentah yang
didapatkan untuk data training sebanyak 1549 data. Data tersebut meliputi
waktu dan tempat kejadian kecelakaan, uraian singkat kejadian, korban
yang terlibat dalam kecelakaan, kendaraan yang terlibat kecelakaan, dan
identitas korban.
4
6
2
4
25
26
3. Tahapan Pengolahan Data (Data Preparation Phase)
Dari 1549 data mentah yang diperoleh dari rekaman data kecelakaan
lalu lintas dilakukan simplikasi dan generalisasi, karena dengan data asli
seperti gambar 3.1 belum bisa diolah dan setelah dilakukan simplikasi dan
generalisasi data tersebut dapat diolah seperti tabel 3.2. Namun tidak
semua data dan atribut dapat digunakan, karena masih ada data yang
mengandung missing value (memiliki keterangan yang kurang lengkap)
oleh karena itu dilakukan cleaning data dan selection data, data reduksi.
Cleaning data dan selection data merupakan tahap awal dalam
processing data mining. Pembersihan ini dilakukan untuk membuang datadata yang informasi terter, seperti tidak adanya informasi identitas korban,
umur, pekerjaan.
Data reduksi adalah data yang informative, data dengan record dan
jumlah atribut yang sesuai dengan kebutuhan. Ada beberapa field yang
dihilangkan karena data tidak lengkap. 1549 data yang digunakan yang
terdiri dari 3 atribut yang akan diolah.
4. Fase pemodelan (Modeling Phase)
Tahap pemodelan merupakan tahap pengolahan dataset yang
dimodelkan dengan algoritma k-means sehingga perhitungan dan
Pengelompokan data.
ο‚· Algoritma K-Means
Algoritma K-means secara umum memiliki tahapan sebagai
berikut:
1. Tentukan jumlah kelompok
2. Inisialisasi titik centroid k (pusat cluster) secara acak.
3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu
cluster akan menentukan data tersebut masuk dalam cluster mana.
Perhitungan jarak yang digunakan adalah sebagai berikut :
27
Chebyshev Distance
𝑑𝑖𝑗 =
π‘šπ‘Žπ‘₯
π‘˜
|π‘₯𝑖𝑗 − π‘₯π‘—π‘˜ |
(3.1)
Dimana :
K = Dimensi data
π‘₯𝑖𝑗 = Data dari jumlah kecelakaan, jumlah kendaraan yang
terlibat, jumlah korban
π‘₯π‘—π‘˜ =
Centroid
𝑑𝑖𝑗 = Jarak antara π‘₯𝑖𝑗 dan π‘₯π‘—π‘˜ dan || adalah nilai mutlak.
4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang
sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau
data dalam cluster tertentu atau dengan menggunakan median dari
cluster tersebut.
5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak
berubah.
5. Fase Evaluasi (Evaluation Phase)
Pada fase ini dilakukan penilaian menggunakan Davies Bouldin
Index (DBI) untuk menentukan jumlah cluster paling optimal dalam proses
clustering tersebut, dengan membandingkan pengelompokan sebanyak 3
klaster menggunakan Chebychev K-Means dengan Euclidean K-Means
yang telah digunakan pada penelitian sebelumnya. Dimana dalam
penentuannya nilai DBI yang paling rendah diantara keduanya dianggap
paling optimal dalam menghasilkan cluster set sebanyak 3 klaster.
6. Fase Penyebaran
Fase yang terakhir adalah fase penyebaran dimana data yang telah
dievaluasi
diimplementasikan
sehingga
dapat
digunakan
untuk
menentukan daerah rawan kecelakaan lalu lintas di Kota Semarang. Data
diuji dengan menggunakan tool rapidminer. Dengan menggunakan
pemodelan dalam rapidminer maka dapat diketahui kemiripan hasil
clustering yang dilakukan menggunakan perhitungan pada Microsoft
28
Excel dengan Rapidminer dalam penentuan status daerah terhadap
kecelakaan lalu lintas di Kota Semarang.
BAB IV
ANALISA DAN PEMBAHASAN
4.1
Pengolahan Data
4.1.1
Persiapan Data
Dalam penelitian ini data yang digunakan merupakan data
sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang
antara tahun 2014 sampai 2015 dengan atribut Waktu & Tempat
kejadian, Uraian Singkat Kejadian, Korban (MD, LB, LR, Kerugian
Materi), yang terlibat, Identitas Pengemudi. Rekaman data Satlantas
Polrestabes Kota Semarang seperti yang sudah dijelaskan pada
Gambar 3.1, dipilih atribut yang akan digunakan dalam penelitian:
Tabel 4. 1 Pemilihan Atribut
Atribut
Waktu & Tempat Kejadian
√
(Jumlah Kecelakaan)
4.1.2
Uraian Singkat Kejadian
X
Korban
√
Kendaraan Yang terlibat
√
Identitas Pengemudi
X
Preprocessing
Preprocessing yang dilakukan adalah penghapusan data
missing value (memiliki keterangan yang kurang lengkap) Pada
tahap ini rekaman data kecelakaan lalu lintas suatu jalan yang tidak
memiliki keterangan yang kurang lengkap seperti kejadian
kecelakaan lalu lintas yang kurang dari 2 tahun, tidak adanya
keterangan identitas korban, umur, pekerjaan, maka jalan tersebut
tidak digunakan.
29
30
Dari rekaman data yang diperoleh, semua data terisi sesuai
dengan ketentuan tidak ada yang kosong, sehingga semua data yang
diperoleh dapat digunakan pada proses selanjutnya. Setelah data
yang terkumpul dan telah diseleksi, data diolah dalam Ms. Excel
sehingga diperoleh hasil simplikasi dan generalisasi seperti yang
terlihat dibawah ini :
Tabel 4. 2 Data Awal
No
1
2
3
4
5
6
7
8
9
10
116
117
118
119
4.2
Nama Jalan
Brigjend Sudiarto
Dr. Cipto
Durian
P.Kemerdekaan
Raya Medoho
Brigjend Katamso
Fatmawati
Sarwo Edi Wibowo
Thamrin
MT Haryono
-
Prof. Suharso
Pawiyatan Luhur
IV
Tlogosari raya
Suratmo
Jumlah
Kecelakaan
(X1)
Jumlah
Kendaraan yang
Terlibat (X2)
Jumlah
Korban
(X3)
103
25
2
51
6
4
12
3
5
32
2
200
48
4
104
11
8
22
6
9
65
4
143
33
2
74
7
5
14
3
7
48
2
2
2
3
4
4
6
2
1
3
Proses Klastering
Proses klastering yaitu proses pengelompokan data berdasarkan
kemiripan karakteristiknya. Pada penelitian ini, penulis menggunakan
algoritma k-means yang digunakan untuk mengklasterisasi daerah rawan
kecelakaan lalu lintas dengan Chebyshev distance dan Euclidean distance
sebagai perhitungan jarak setiap data terhadap pusat klaster. Dalam
31
menentukan daerah rawan kecelakaan lalu lintas, dilakukan klastering
dengan perhitungan algoritma k-mean sebagai berikut :
4.2.1
Chebychev Distance K-Means
Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu
lintas dengan menggunakan algoritma k-means dan Chebychev
Distance sebagai perhitungan jarak setiap data terhadap pusat
klaster:
1. Menentukan jumlah klaster, berapa banyak klaster yang akan
dibuat, k=3.
2. Menentukan pusat klaster awal secara acak, missal ditentukan
C1=(2,2,2); C2=(3,3,3); C3=(4,4,4).
3. Menghitung jarak setiap data terhadap pusat klaster, misalkan
untuk menghitung jarak data pertama dengan pusat klaster
pertama yaitu :
Chebyshev Distance
𝑑𝑖𝑗 =
π‘šπ‘Žπ‘₯
π‘˜
|π‘₯𝑖𝑗 − π‘₯π‘—π‘˜ |
(4.1)
Dimana :
K = Dimensi data
𝑑11 = max( |103 − 2|, |200 − 2|, |143 − 2|)
= 198
Jarak data pertama dengan pusat klaster kedua:
𝑑12 = max( |103 − 3|, |200 − 3|, |143 − 3|)
= 197
Jarak data pertama dengan pusat klaster ketiga:
𝑑13 = max( |103 − 4|, |200 − 4|, |143 − 4|)
= 196
32
Hasil perhitungan terdapat pada table berikut:
Tabel 4. 3 Iterasi 1
Data
ke1
2
3
4
5
6
7
8
9
10
.
.
.
.
116
117
118
119
Jumlah
Jumlah
Kecelakaan Kendaraan yang
(X1)
terlibat (X2)
103
200
25
48
2
4
51
104
6
11
4
8
12
22
3
6
5
9
32
65
.
.
.
.
.
.
.
.
2
4
2
4
2
4
3
6
Jumlah
Korban
(X3)
143
33
2
74
7
5
14
3
7
48
.
.
.
.
2
2
1
3
C1
198
46
2
102
9
6
20
4
7
63
.
.
.
.
2
2
2
4
C2
197
45
1
101
8
5
19
3
6
62
.
.
.
.
1
1
2
3
C3
196
44
2
100
7
4
18
2
5
61
.
.
.
.
2
2
3
2
Anggota
klaster
C3
C3
C2
C3
C3
C3
C3
C3
C3
C3
.
.
.
.
C2
C2
C1
C3
4. Suatu data akan menjadi bagian anggota klaster dengan jarak
terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.3
diatas, jarak terkecil terdapat pada klaster ketiga sehingga data
pertama masuk dalam anggota data klaster ketiga. Begitu pula
untuk data ketiga, jarak terkecil terdapat pada klaster kedua
sehingga data tersebut masuk dalam anggota klaster kedua.
5. Menghitung pusat klaster baru dengan mencari rata-rata dari
semua data dalam klaster tertentu. Untuk klaster pertama terdapat
3 data, sehingga:
2+2+2
=2
3
3+2+4
=
=3
3
𝐢11 =
𝐢12
33
𝐢13 =
1+2+1
= 1.33333333
3
Untuk klaster dua ada 20 data, sehingga:
𝐢21 =
𝐢22 =
𝐢23 =
2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2
20
4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4
20
2+2+2+2+2+4+2+2+2+4+3+2+2+3+5+4+2+3+2+2
20
= 2.05
=4
= 2.6
Untuk klaster ketiga ada 96 data, sehingga:
103 + 25 + 51 + β‹― + 4 + 3 + 3
= 13.55208
96
200 + 48 + 104 + β‹― + 8 + 5 + 6
=
= 27.6875
96
143 + 33 + 74 + β‹― + 4 + 4 + 3
=
= 18.38542
96
𝐢31 =
𝐢32
𝐢33
Tabel 4. 4 Centroid baru untuk iterasi 2
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
2
3
1.33333
C2
2.05
4
2.6
C3
13.55208
27.6875
18.38542
6. Ulangi langkah ke-3 dengan titik pusat baru sampai posisi
klaster tidak berubah.
Tabel 4. 5 Iterasi ke-2
Jumlah
Data Kecelakaan
ke(X1)
Jumlah
Kendaraan yang
terlibat (X2)
Jumlah
Korban
(X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
Claster
ke-1 (C1)
197
Claster
Claster
ke-2 (C2) ke-3 (C3)
196 172.3125
Anggota
klaster
C3
45
44
20.3125
C3
1
0.6
23.6875
C2
100.2 98.53846 75.21978
C3
34
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10
.
.
.
.
32
.
.
.
.
65
.
.
.
.
48
.
.
.
.
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
7.2 5.538462 17.78022
C2
4.2 2.538462 20.78022
C2
18.2 16.53846
6.78022
C3
2.2 0.538462 22.78022
C2
5.2 4.153846 19.78022
C2
61.2 59.53846 36.21978
C3
.
.
.
.
.
.
.
.
.
.
.
.
0.2 1.461538 24.78022
.
.
.
.
C1
0.2 1.461538 24.78022
C1
0.866667 1.846154 24.78022
C1
2.2 0.538462 22.78022
C2
Karena pada iterasi pertama dan kedua (table 4.3 dan 4.5) posisi
klaster berubah, maka dilakukan iterasi ke-3 dengan terlebih dahulu
menghitung titik pusat klaster baru.
Untuk klaster pertama terdapat 18 data, sehingga:
𝐢11 =
𝐢12 =
𝐢13 =
2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2
18
4+3+4+4+4+4+4+4+4+4+4+4+2+4+4+4+4+4
18
2+1+2+2+2+2+2+2+3+2+2+3+2+2+3+2+2+1
18
= 2.055556
= 3.833333
= 2.055556
Untuk klaster kedua terdapat 63 data, sehingga:
𝐢21 =
2+6+4+β‹―+4+3+3
= 4.539683
63
4 + 11 + 8 + β‹― + 8 + 5 + 6
= 9.142857
63
2 + 7 + 5 + β‹―+ 4 + 4 + 3
𝐢23
= 5.936508
63
𝐢22 =
35
Untuk klaster ketiga terdapat 38 data, sehingga:
103 + 25 + 51 + β‹― + 9 + 12 + 9
= 26.97368
38
200 + 48 + 104 + β‹― + 18 + 25 + 20
𝐢32 =
= 55.31579
38
143 + 33 + 74 + β‹― + 12 + 18 + 11
𝐢33 =
= 37.10526
38
𝐢31 =
Tabel 4. 6 Centroid baru untuk iterasi 3
C1
C2
C3
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
2.055556
4.539683
26.97368
3.833333
2.055556
9.142857
5.936508
55.31579
37.10526
Tabel 4. 7 Iterasi ke-3
Jumlah
Data Kecelakaan
ke(X1)
Jumlah
Kendaraan yang
terlibat (X2)
Jumlah
Korban
(X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10
.
.
.
32
.
.
.
65
.
.
.
48
.
.
.
Claster
Claster
Claster
ke-1 (C1) ke-2 (C2) ke-3 (C3)
196.1667 190.8571 144.6842
Anggota
klaster
C3
44.16667 38.85714 7.315789
C3
0.166667 5.142857 51.31579
C1
100.1304 94.41379 48.68421
C3
7.130435 1.413793 44.31579
C2
4.130435 1.586207 47.31579
C2
18.13043 12.41379 33.31579
C2
2.130435 3.586207 49.31579
C1
5.130435
0.87931 46.31579
C2
61.13043 55.41379 10.89474
C3
.
.
.
.
.
.
.
.
.
.
.
.
36
.
.
.
.
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
.
.
.
0.434783 5.586207 51.31579
.
C1
0.434783 5.586207 51.31579
C1
1.434783 5.586207 51.31579
C1
2.130435 3.586207 49.31579
C1
Karena pada iterasi kedua dan ketiga (table 4.5 dan 4.7) posisi
klaster berubah, maka dilakukan iterasi ke-4 dengan terlebih dahulu
menghitung titik pusat klaster baru.
Untuk klaster pertama terdapat 39 data, sehingga:
2+3+2+β‹―+2+2+3
= 2.435897
39
4 + 6 + 4 + β‹―+ 4 + 4 + 6
𝐢12 =
= 4.74359
39
2+3+2+β‹―+2+1+3
𝐢13 =
= 2.948718
39
𝐢11 =
Untuk klaster kedua terdapat 57 data, sehingga:
6 + 4 + 12 + β‹― + 4 + 6 + 4
= 6.894737
57
11 + 8 + 22 + β‹― + 8 + 12 + 8
𝐢22 =
= 14.07018
57
7 + 5 + 14 + β‹― + 4 + 8 + 4
𝐢23 =
= 8.929825
57
𝐢21 =
Untuk klaster ketiga terdapat 23 data, sehingga:
𝐢31 =
103+25+51+32+58+16+45+25+28+19+52+55+30+48+61+28+18+16+76+16+19+21
23
=
37.3913
𝐢32 =
200+48+104+65+102+35+34+96+60+56+39+107+119+68+100+123+56+42+34+154+35+40+43
23
76.52174
=
37
𝐢33 =
143+33+74+48+77+24+43+59+38+32+21+73+101+44+50+86+39+16+18+99+20+27+32
23
=
52.04348
Tabel 4. 8 Centroid baru untuk iterasi 4
C1
C2
C3
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
2.055556
4.539683
26.97368
3.833333
2.055556
9.142857
5.936508
55.31579
37.10526
Tabel 4. 9 Informasi Centroid akhir
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
4.795699
9.655914
6.16129
C2
20.76471
43.76471
28.58824
C3
61
122.7778
84.66667
Tabel 4. 10 Iterasi ke-10
Jumlah
Data Kecelakaan
ke(X1)
Jumlah
Kendaraan yang
terlibat (X2)
Jumlah
Korban
(X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
Claster
Claster
Claster
ke-1 (C1) ke-2 (C2) ke-3 (C3)
190.3441 156.2353 77.22222
Anggota
klaster
C3
38.34409 4.411765 74.77778
C2
5.655914 39.76471 118.7778
C1
94.34409 60.23529 18.77778
C3
1.344086 32.76471 111.7778
C1
1.655914 35.76471 114.7778
C1
12.34409 21.76471 100.7778
C1
3.655914 37.76471 116.7778
C1
38
9
5
9
7
10
.
.
.
.
32
.
.
.
.
65
.
.
.
.
48
.
.
.
.
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
0.83871 34.76471 113.7778
C1
55.34409 21.23529 57.77778
C2
.
.
.
.
.
.
.
.
.
.
.
.
5.655914 39.76471 118.7778
.
.
.
.
C1
5.655914 39.76471 118.7778
C1
5.655914 39.76471 118.7778
C1
3.655914 37.76471 116.7778
C1
Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan.
Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi
sebanyak 10 kali untuk mendapatkan hasil klasterisasi akhir.
Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.9 diatas,
dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan
kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan
C3 merupakan kategori jalan yang sangat rawan kecelakaan.
Hasil analisis klastering dari table 4.10 :
a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699,
9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster
kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan
kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93.
b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471,
28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat
klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat
klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan
kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17.
c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778,
84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster
39
pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan
kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.
4.2.2
Euclidean K-Means
Berikut merupakan proses klasterisasi daerah rawan
kecelakaan lalu lintas dengan menggunakan algoritma k-means dan
Euclidean Distance sebagai perhitungan jarak setiap data terhadap
pusat klaster:
1. Menentukan jumlah klaster, berapa banyak klaster yang akan
dibuat, k=3.
2. Menentukan pusat klaster awal secara acak, missal ditentukan
C1=(2,2,2); C2=(3,3,3); C3=(4,4,4).
3. Menghitung jarak setiap data terhadap pusat klaster, misalkan
untuk menghitung jarak data pertama dengan pusat klaster
pertama yaitu :
Euclidean Distance
2
2
2
𝐷(𝑖,𝑗) = √(𝑋1𝑖 − 𝑋1𝑗 ) + (𝑋2𝑖 − 𝑋2𝑗 ) + β‹― + (π‘‹π‘˜π‘– − π‘‹π‘˜π‘— )
dimana:
D (i,j) = Jarak data ke i ke pusat cluster j
Xki = Data ke i pada atribut data ke k
Xkj = Titik pusat ke j pada atribut ke k
𝐷11 = √(103 − 2)2 + (200 − 2)2 + (143 − 2)2 = 263.222
Jarak data pertama dengan pusat klaster kedua:
𝐷12 = √(103 − 3)2 + (200 − 3)2 + (143 − 3)2 = 261.551
Jarak data pertama dengan pusat klaster ketiga:
𝐷13 = √(103 − 4)2 + (200 − 4)2 + (143 − 4)2 = 259.881
(4.2)
40
Hasil perhitungan terdapat pada table berikut:
Tabel 4. 11 Iterasi 1
Data
ke-
Jumlah
Jumlah
Kecelakaan Kendaraan yang
(X1)
terlibat (X2)
Jumlah
Korban
(X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10
.
.
.
.
32
.
.
.
.
65
.
.
.
.
48
.
.
.
.
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
C1
C2
C3
263.2223 261.5511 259.8807
Anggota
klaster
C3
60.04998 58.38664 56.72742
C3
2 1.732051 2.828427
C2
134.1231 132.4613 130.8014
C3
11.04536 9.433981 7.874008
C3
7 5.477226 4.123106
C3
25.37716 23.72762 22.09072
C3
4.242641
3
2.44949
C3
9.110434 7.483315
5.91608
C3
83.57631 81.91459 80.25584
C3
.
.
.
.
.
.
.
.
.
.
.
.
2 1.732051 2.828427
.
.
.
.
C2
2 1.732051 2.828427
C2
2.236068
4.242641
2.44949 3.605551
3
2.44949
C1
C3
4. Suatu data akan menjadi bagian anggota klaster dengan jarak
terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.11
diatas, jarak terkecil terdapat pada klaster ketiga sehingga data
pertama masuk dalam anggota data klaster ketiga. Begitu pula
untuk data ketiga, jarak terkecil terdapat pada klaster kedua
sehingga data tersebut masuk dalam anggota klaster kedua.
41
5. Menghitung pusat klaster baru dengan mencari rata-rata dari
semua data dalam klaster tertentu. Untuk klaster pertama terdapat
3 data, sehingga:
2+2+2
=2
3
3+2+4
𝐢12 =
=3
3
1+2+1
=
= 1.333333
3
𝐢11 =
𝐢13
Untuk klaster kedua terdapat 19 data, sehingga:
𝐢21
=
2 + 2 + 3 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2…+ 2 + 2 + 2
19
= 2.052632
𝐢22
=
4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4
19
=4
𝐢23
=
2+2+2+2+2+4+2+2+2+4+3+2+2+3+4+2+3+2+2
19
= 2.473684
Untuk klaster ketiga terdapat 97 data, sehingga:
103 + 25 + 51 + β‹― + 4 + 3 + 3
= 13.43299
97
200 + 48 + 104 + β‹― + 8 + 5 + 6
=
= 27.4433
97
143 + 33 + 74 + β‹― + 4 + 4 + 3
=
= 18.24742
97
𝐢31 =
𝐢32
𝐢32
42
Tabel 4. 12 Centroid baru untuk iterasi 2
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
2
3
1.33333
C2
2.052632
4
2.473684
C3
13.43299
27.4433
18.24742
Tabel 4. 13 Iterasi 2
Data
ke-
Jumlah
Jumlah
Kecelakaan Kendaraan yang
(X1)
terlibat (X2)
Jumlah
Korban
(X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10
.
.
.
.
32
.
.
.
.
65
.
.
.
.
48
.
.
.
.
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
C1
262.8297
C2
C3
261.446 231.0006
Anggota
klaster
C3
59.63873
58.2618 27.82108
C3
1.20185 0.476599 30.72914
C2
133.7253 132.3324
101.885
C3
10.58825 9.223299 21.26349
C2
6.51494 5.116104 25.34793
C2
24.92879 23.57554 7.051494
C3
3.574602 2.274756 28.30453
C2
8.781293 7.360334 23.18998
C2
83.19722 81.79542 51.38536
C3
.
.
.
.
.
.
.
.
.
.
.
.
1.20185 0.476599 30.72914
.
.
.
.
C2
1.20185 0.476599 30.72914
C2
1.054093 1.474624
31.2694
C1
3.574602 2.274756 28.30453
C2
43
Tabel 4. 14 Informasi centroid akhir Euclidean Distance
Jumlah
Jumlah Kendaraan
Jumlah Korban
Kecelakaan (x1)
yang Terlibat (x2)
(x3)
C1
4.795699
9.655914
6.16129
C2
20.76471
43.76471
28.58824
C3
61
122.7778
84.66667
Tabel 4. 15 Iterasi ke-11
Jumlah
Data Kecelakaan
ke(X1)
Jumlah
Kendaraan yang
terlibat (X2)
Jumlah
Korban
(X3)
1
103
200
143
2
25
48
33
3
2
4
2
4
51
104
74
5
6
11
7
6
4
8
5
7
12
22
14
8
3
6
3
9
5
9
7
10
.
.
.
.
32
.
.
.
.
65
.
.
.
.
48
.
.
.
.
116
2
4
2
117
2
4
2
118
2
4
1
119
3
6
3
Claster
Claster
ke-1 (C1) ke-2 (C2)
254.1649 210.3857
Claster
ke-3 (C3)
105.499
Anggota
klaster
C3
50.97842 7.439025 97.76073
C2
7.557885 51.38366 156.2784
C1
125.0509 81.26926
23.7988
C3
1.990061 41.92343 146.8039
C1
2.173427 46.00624 150.8964
C1
16.30104 27.62859
132.48
C1
5.155967 48.95422 153.8522
C1
1.084157 43.85388 148.7061
C1
74.52194 30.88667 74.32171
C2
.
.
.
.
.
.
.
.
.
.
.
.
7.557885 51.38366 156.2784
.
.
.
.
C1
7.557885 51.38366 156.2784
C1
8.151332 51.90816 156.8097
C1
5.155967 48.95422 153.8522
C1
44
Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan.
Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi
sebanyak 11 kali untuk mendapatkan hasil klasterisasi akhir.
Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.14
diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak
rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan
kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan.
Hasil analisis klastering dari table 4.15 :
a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699,
9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster
kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan
kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93.
b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471,
28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat
klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat
klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan
kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17.
c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778,
84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster
pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan
kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9.
4.3
Proses Menggunakan Rapidminer
Setelah melalui proses preprocessing data akan diproses dengan
menggunakan bantuan tools Rapidminer Studio 6.5.002. Data yang akan di
import kedalam Rapidminer adalah data yang berbentuk excel dan berisikan
nilai dari setiap variable seperti table berikut.
Tabel 4. 16 Data yang diimport ke Rapidminer
Jumlah
Jumlah
Kecelakaan Kendaraan
103
200
Jumlah
Korban
143
45
25
2
51
6
4
12
3
5
32
.
.
.
.
2
2
2
3
48
4
104
11
8
22
6
9
65
.
.
.
.
4
4
4
6
33
2
74
7
5
14
3
7
48
.
.
.
.
2
2
1
3
Nantinya data di atas akan diproses menggunakan rapidminer dengan
Chebychev K-Means dan Euclidean K-Means maka diperoleh tabel
centroid dan tabel hasil clustering sebagai berikut:
Tabel 4. 17 Centroid Table Chebychev K-Means
Cluster_0
Cluster_1
Cluster_2
4.795698924731183 20.764705882352942 61.0
Jumlah
Kecelakaan
Jumlah
Kendaraan
Jumlah
Korban
9.655913978494624 43.76470588235294
122.77777777777777
6.161290322580645 28.58823529411765
84.66666666666667
Tabel 4. 18 Hasil Klastering Chebychev K-Means
No
1
2
3
4
5
6
Id
1
2
3
4
5
6
Cluster
cluster_2
cluster_1
cluster_0
cluster_2
cluster_0
cluster_0
Jumlah
Kecelakaan
103
25
2
51
6
4
Jumlah Kendaraan
yang terlibat
200
48
4
104
11
8
Jumlah
Korban
143
33
2
74
7
5
46
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
cluster_0
cluster_0
cluster_0
cluster_1
cluster_2
cluster_1
cluster_0
cluster_1
cluster_2
cluster_0
cluster_1
cluster_0
cluster_0
cluster_0
cluster_0
cluster_1
cluster_0
cluster_1
cluster_2
cluster_2
cluster_1
cluster_1
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_2
cluster_2
cluster_0
cluster_1
cluster_0
cluster_1
cluster_1
cluster_0
cluster_0
12
3
5
32
58
18
4
16
45
5
25
2
7
12
6
28
2
19
52
55
30
15
9
6
4
7
10
48
61
7
28
7
18
16
3
10
22
6
9
65
102
35
8
34
96
9
60
4
14
23
12
56
3
39
107
119
68
28
17
12
8
15
22
100
123
16
56
14
42
34
4
20
14
3
7
48
77
24
5
43
59
7
38
2
9
14
7
32
1
21
73
101
44
17
16
7
6
8
16
50
86
5
39
8
16
18
2
12
47
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
cluster_2
cluster_0
cluster_1
cluster_0
cluster_1
cluster_0
cluster_0
cluster_0
cluster_0
cluster_1
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_1
cluster_0
cluster_0
cluster_0
cluster_0
cluster_1
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
76
3
16
11
19
9
3
6
6
21
8
7
3
4
5
7
6
4
12
2
5
9
11
15
9
2
2
5
3
5
5
5
7
2
4
12
154
6
35
23
40
20
6
11
12
43
16
14
8
7
10
15
13
8
30
4
10
20
23
31
18
4
4
10
6
10
10
9
14
4
8
25
99
4
20
15
27
8
6
8
8
32
10
9
7
6
8
9
9
6
15
2
7
15
11
19
12
2
4
6
4
4
6
5
9
2
4
18
48
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
2
9
3
5
3
2
3
2
2
5
3
3
4
6
3
2
3
8
3
2
8
6
2
6
2
3
3
3
4
3
6
2
2
2
4
3
4
20
6
10
6
4
7
4
4
10
6
7
8
12
6
4
6
16
6
4
16
13
4
12
4
6
6
7
8
6
12
2
4
4
8
5
2
11
3
8
4
2
7
4
3
6
6
4
5
9
3
2
3
11
3
2
12
8
3
8
5
3
3
2
4
5
8
2
4
2
4
4
49
115
116
117
118
119
115
116
117
118
119
cluster_0
cluster_0
cluster_0
cluster_0
cluster_0
2
2
2
2
3
4
4
4
4
6
3
2
2
1
3
Tabel 4. 19 Tabel Centroid Euclidean K-Means
Cluster_0 Cluster_1 Cluster_2
Jumlah
Kecelakaan
Jumlah
Kendaraan
Jumlah
Korban
20.7647
4.7957
61
43.7647
9.65591
122.778
28.5882
6.16129
84.6667
Tabel 4. 20 Hasil Klastering Euclidean K-Means
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Id
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Cluster
cluster_2
cluster_0
cluster_1
cluster_2
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_0
cluster_2
cluster_0
cluster_1
cluster_0
cluster_2
cluster_1
cluster_0
Jumlah
Kecelakaan
103
25
2
51
6
4
12
3
5
32
58
18
4
16
45
5
25
Jumlah
Kendaraan
200
48
4
104
11
8
22
6
9
65
102
35
8
34
96
9
60
Jumlah
Korban
143
33
2
74
7
5
14
3
7
48
77
24
5
43
59
7
38
50
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
cluster_1
cluster_1
cluster_1
cluster_1
cluster_0
cluster_1
cluster_0
cluster_2
cluster_2
cluster_0
cluster_0
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_2
cluster_2
cluster_1
cluster_0
cluster_1
cluster_0
cluster_0
cluster_1
cluster_1
cluster_2
cluster_1
cluster_0
cluster_1
cluster_0
cluster_1
cluster_1
cluster_1
cluster_1
cluster_0
cluster_1
2
7
12
6
28
2
19
52
55
30
15
9
6
4
7
10
48
61
7
28
7
18
16
3
10
76
3
16
11
19
9
3
6
6
21
8
4
14
23
12
56
3
39
107
119
68
28
17
12
8
15
22
100
123
16
56
14
42
34
4
20
154
6
35
23
40
20
6
11
12
43
16
2
9
14
7
32
1
21
73
101
44
17
16
7
6
8
16
50
86
5
39
8
16
18
2
12
99
4
20
15
27
8
6
8
8
32
10
51
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_0
cluster_1
cluster_1
cluster_1
cluster_1
cluster_0
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
7
3
4
5
7
6
4
12
2
5
9
11
15
9
2
2
5
3
5
5
5
7
2
4
12
2
9
3
5
3
2
3
2
2
5
3
14
8
7
10
15
13
8
30
4
10
20
23
31
18
4
4
10
6
10
10
9
14
4
8
25
4
20
6
10
6
4
7
4
4
10
6
9
7
6
8
9
9
6
15
2
7
15
11
19
12
2
4
6
4
4
6
5
9
2
4
18
2
11
3
8
4
2
7
4
3
6
6
52
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
cluster_1
3
4
6
3
2
3
8
3
2
8
6
2
6
2
3
3
3
4
3
6
2
2
2
4
3
2
2
2
2
3
7
8
12
6
4
6
16
6
4
16
13
4
12
4
6
6
7
8
6
12
2
4
4
8
5
4
4
4
4
6
4
5
9
3
2
3
11
3
2
12
8
3
8
5
3
3
2
4
5
8
2
4
2
4
4
3
2
2
1
3
Dapat dilihat dari tabel 4.18 dan 4.20 kolom cluster merupakan hasil
clustering data dimana cluster_0, cluster_1 dan cluster_2 menunjukan data
tersebut masuk dalam anggota klaster 0, klaster 1 dan klaster 2. Dalam
perhitungan manual klaster 1 memiliki nilai centroid akhir yang sama
dengan cluster_0 pada table 4.17 dan cluster_1 pada table 4.19, klaster 2
53
juga memiliki nilai centroid akhir yang sama dengan cluster_1 pada table
4.17 dan cluster_0 pada table 4.19, klaster 3 memiliki nilai centroid akhir
yang sama dengan cluster_2 pada table 4.17 dan 4.19. Sehingga dalam
penentuan anggota cluster pun juga sama, dimana klaster 1 memiliki
anggota sebanyak 93 data, klaster 2 memiliki anggota sebanyak 17 data
sedangkan klaster 3 memiliki anggota sebanyak 9 data dengan rincian
sebagai berikut:
a. Klaster pertama (C1) dengan titik pusat klaster awal (2) nilainya lebih
rendah daripada titik pusat klaster kedua dan ketiga, sehingga dapat
disimpulkan C1 merupakan kelompok jalan dengan tingkat kerawanan
(tidak rawan) kecelakaan lalu lintas yang terdiri dari 93 jalan.
b. Klaster kedua (C2) dengan titik pusat klaster awal (3) nilainya lebih
tinggi daripada klaster pertama dan nilainya dibawah klaster ketiga,
sehingga dapat disimpulkan C2 merupakan kelompook jalan dengan
tingkat kerawanan (rawan) kecelakaan lalu lintas yang terdiri dari 17
jalan.
c. Klaster ketiga (C3) dengan titik pusat klaster awal (4) nilainya lebih
tinggi daripada klaster pertama dan klaster kedua, sehingga dapat
disimpulkan C3 merupakan kelompook jalan dengan tingkat kerawanan
(sangat rawan) kecelakaan lalu lintas yang terdiri dari 9 jalan.
Berdasarkan tabel 4.18 dan 4.20 maka didapat nama-nama daerah rawan
kecelakaan lalu lintas yang tertera pada table 4.21 berikut:
Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas
Tidak Rawan
Durian, Medoho raya, Brigjend Katamso, Fatmawati, Sarwo
Edi Wibowo, Thamrin, Indraprasta, Ry Kudu, Sompok,
Sriwijaya, A Yani, Veteran, Tol Jatingaleh, Sugiopranoto,
Pahlawan, WR Supratman, Ry Smg-Demak, Teuku Umar,
Imam Bonjol, Gajah Mada, Purwosari, Citarum raya,
Mulawarman, Gajah raya, RE Martadinata, Kartini, Tol
54
Muktiharjo, Majapahit, Kyai Saleh, Gombel, Gunung Kelir
Raya, Barito, Mentri Supeno, Ry Karangroto, Tol Imam
Suprapto, Ry Cangkiran, Kaw Industri Candi, Klipang,
Pandanaran, S. Parman, Diponegoro, Mr Koesbiono, Raya
Kaligetas, Jati Raya, Bangetayu, Tugu muda, Kalibanteng,
Puri Anjasmoro, Madukoro Raya, Komp. R Soekamto,
Ngesrep, Abdulrahman Saleh, Dargo raya, Simongan, Kol
R.Warsito Sugiarto, Sambiroto Ry, Kawi, Ry Mangunharjo,
Karangrejo raya, Cemara raya, Wismasari, Sisingamangaraja,
Ry Jatibarang, Kalipancur Raya, Sawah besar, Supriyadi,
Kokrosono,
DI
panjaitan,
Basudewo,
Raden
Patah,
Kaligarang, Pringgading, Dr.Sutomo, Pengapon, Kauman,
Muktiharjo Raya, Ry Muntal, Patemon, Mangunsari Raya, O
Simpang Lima, Ketileng Raya, Elang Raya, Manyaran,
Grafika Raya, Bringin Raya, Genuk indah, Candi KIC Gatot
Subroto, Pusponjolo, Suyudono, Prof. Suharso, Pawiyatan
Luhur IV, Tlogosari raya, Suratmo
Rawan
Dr. Cipto, MT Haryono, Woltermonginsidi, Tol Tembalang,
Prof Dr.Hamka, Jend Sudirman, Pemuda, Urip Sumoharjo,
Ry Gn.Pati, Dr Wahidin, Tentara Pelajar, Kedungmundu,
Anton Sujarwo, Sultan Agung, Pamularsih, Ry Mangkang,
Untung Suropati
Sangat Rawan
Brigjend Sudiarto, P.Kemerdekaan, Arteri Sukarno Hatta,
Arteri Yos Sudarso, RM Hadi Subeno, Setiabudi, Walisongo,
Siliwangi, Raya kaligawe
4.4
Pengujian Klastering
Pengujian ini dilakukan untuk menentukan jumlah claster paling
optimal dalam proses clustering tersebut, dengan membandingkan
pengklasteran sebanyak 3 klaster menggunakan Chebychev K-Means
55
dengan Euclidean K-Means yang telah digunakan pada penelitian
sebelumnya. Dimana dalam penentuannya, nilai DBI yang paling rendah
diantara keduanya dianggap paling optimal dalam menghasilkan cluster set
sebanyak 3 klaster.
Berikut merupakan langkah perhitungan Davies Bouldin Index dengan
menggunakan persamaan (2.2) sampai (2.5) :
1. Data yang digunakan adalah data yang di peroleh dari proses Chebychev
K-Means dan Euclidean K-Means, yaitu data yang sudah ter-cluster.
2. Cari nilai rata-rata dari masing masing nilai cluster.
3. Hitung variance data dari masing-masing dalam cluster dengan
menggunakan persamaan (2.2).
4. Cari R Max dari langkah 2 dan 3.
5. Hasil akhir adalah nilai DBI dari cluster.
Langkah pertama, data yang digunakan dalam langkah ini adalah
data yang telah ter-cluster dari Chebychev K-Means dan Euclidean KMeans yang didapat dari perhitungan manual menggunakan Excel. Dalam
contoh ini penulis menampilkan 15 data yang telah terklaster menggunakan
Chebychev k-means dan Euclidean k-means. Berikut tabel data hasil
klasternya :
Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means
Data ke i
1
2
3
4
5
6
7
8
9
10
11
Jarak
Cluster
77.22222
3
4.411765
2
5.655914
1
18.77778
3
1.344086
1
1.655914
1
12.34409
1
3.655914
1
0.83871
1
21.23529
2
20.77778
3
56
12
13
14
15
8.764706
1.655914
14.41176
26.77778
2
1
2
3
Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means
Data ke i
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Jarak
105.499
7.439025
7.557885
23.7988
1.990061
2.173427
16.30104
5.155967
1.084157
30.88667
22.34936
10.27208
2.173427
18.04857
40.39588
Cluster
3
2
1
3
1
1
1
1
1
2
3
2
1
2
3
Perhitungan DBI untuk Chebychev K-Means dengan menggunakan data yang
tertera di table 4.22
1. Cari nilai rata-rata dari masing-masing nilai cluster
π‘π‘™π‘’π‘ π‘‘π‘’π‘Ÿ 1
=
5.655914 + 1.344086 + 1.655914 + 12.34409 + 3.655914 + 0.83871 + 1.655914
7
= 3.878648
4.411765 + 21.23529 + 8.764706 + 14.41176
= 12.20588
4
77.22222 + 18.77778 + 20.77778 + 26.77778
π‘π‘™π‘’π‘ π‘‘π‘’π‘Ÿ 3 =
= 35.88889
4
π‘π‘™π‘’π‘ π‘‘π‘’π‘Ÿ 2 =
57
2. Hitung variance data dari masing-masing dalam cluster
Cluster1
1
(5.655914 − 3.878648)2 + (1.344086 − 3.878648)2
7−1
π‘£π‘Žπ‘Ÿ (π‘₯) =
+ (1.655914 − 3.878648)2 + (12.34409 − 3.878648)2
+ (3.655914 − 3.878648)2 + (0.63671 − 3.878648)2
+ (1.655914 − 3.878648)2 = 16.73637
Cluster2
π‘£π‘Žπ‘Ÿ (π‘₯) =
1
(4.411765 − 12.20588)2 + (21.23529 − 12.20588)2
4−1
+ (8.764706 − 12.20588)2 + (14.41176 − 12.20588)2 = 52.99539
Cluster3
π‘£π‘Žπ‘Ÿ (π‘₯) =
1
(77.22222 − 35.88889)2 + (18.77778 − 35.88889)2
4−1
+ (20.77778 − 35.88889)2 + (26.77778 − 35.88889)2 = 770.8642
3. Cari R max
𝑅123 =
16.73637 + 52.99539 + 770.8642
= 19.01107
||3.878648 − 12.20588 − 35.88889||
4. Hasil akhir adalah nilai DBI dari cluster, berikut formulanya:
𝐷𝐡𝐼 =
1
(19.01107) = 6.337024
3
Dengan langkah yang sama dilakukan pada Euclidean K-Means dan
perhitungan menggunakan data pada table 4.23 dan lakukan pencarian DBI
dengan menggunakan hasil klaster dari table 4.23. Hasil dari Davies
Bouldin Index antara Chebychev K-Means dan Euclidean K-Means dapat
dilihat pada table 4.24. berikut:
Tabel 4. 24 Perbandingan Nilai DBI Sample
Klaster
Nilai DBI
Chebychev Distance K-Means
6.337024
Euclidean Disance K-Means
9.38884
58
Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer
Klaster
Nilai DBI
Chebychev K-Means
0.416
Euclidean K-Means
0.426
Pada tabel 4.25 menerangkan bahwa dari keseluruhan data yang
telah terklaster memiliki nilai DBI sebesar 0.416 dan 0.426, sehingga nilai
DBI paling rendah yang tertera dalam tabel 4.25 adalah Chebychev KMeans dengan nilai DBI 0.416.
4.5
Hasil Pengujian
Berdasarkan hasil pengujian pada table 4.25 diatas, maka dapat
diketahui dalam kasus ini bahwa untuk pengklasteran K-Means yang
menggunakan Chebychev K-Means paling optimal dalam menghasilkan
cluster set sebanyak 3 klaster dibandingkan dengan K-Means yang
menggunakan Euclidean Distance. Hal ini disebabkan karena nilai DBI dari
Chebychev K-Means (0.416) lebih rendah dibandingkan Euclidean
Distance (0.426).
BAB V
KESIMPULAN DAN SARAN
5.1
Kesimpulan
Dari hasil penelitian yang dilakukan, maka dapat disimpulkan
bahwa: terdiri dari 93 jalan tidak rawan kecelakaan lalu lintas, 17 jalan
rawan kecelakaan lalu lintas, dan 9 jalan sangat rawan kecelakaan lalu lintas
dapat dilihat pada tabel 4.21 . Sedangkan hasil pengujian pengklasteran
Chebychev K-Means dengan menggunakan Davies Bouldin Indeks (DBI)
memiliki nilai 0.416 dan untuk Euclidean K-Means sebesar 0.426. hal
tersebut menandakan bahwa pengklasteran dengan Chebychev K-Means
lebih optimal dalam menghasilkan cluster set sebanyak 3 klaster
dibandingkan Euclidean K-Means karena penentuan nilai DBI yang paling
rendah diantara keduanya dinilai paling optimal.
5.2
Saran
Dari penelitian yang telah dilakukan, peneliti memberikan saran sebagai
berikut:
1. Penelitian ini dapat dikembangkan dengan algoritma data mining
lainnya
khususnya
algoritma
didalam
teknik
clustering,
membandingkan atau mengkombinasikan dengan algoritma lain untuk
mendapatkan hasil yang lebih optimal.
2. Dapat dikembangkan dengan menggunakan system atau apikasi yang
menarik dan informatif dalam menyediakan informasi daerah rawan
kecelakaan lalu lintas di Kota Semarang.
59
DAFTAR PUSTAKA
[1]
Ryan Manggala, Jeffry Angga J., Djoko Purwanto , Amelia Kusuma I. “Studi
Kasus Faktor Penyebab Kecelakaan Lalu Lintas Pada Tikungan Tajam”.
Jurnal Karya Teknik Sipil. 2015.
[2]
E. G. A. Lizda Iswari, "Pemanfaatan Algoritma K-Means Untuk Pemetaan
Hasil Klasterisasi Data Kecelakaan Lalu Lintas". Universitas Islam
Indonesia. 2015.
[3]
Wawan Yunanto, Mochamad Hariadi, Mauridhi Hery Purnomo. “Pemetaan
Kecelakaan Lalu Lintas Berbasis Klasifikasi Naïve Bayes dengan Parameter
Infrastruktur Jalan”.
[4]
Natalis Rans. “Pengaplikasian Algoritma Classification Based on Predictive
Association Rules Untuk Analisa Karakteristik Kecelakaan Lalu Lintas
(Studi pada Kepolisian Daerah Sulawesi Tenggara)”. Universitas Gadjah
Mada. Yogyakarta. 2014.
[5]
International Labour Organization, "A. Worker's Education Manual
International Labour Office," Accident Prevention , 1998.
[6]
“Undang-Undang RI Nomor 22 Tentang Lalu Lintas Dan Angkutan Jalan
(LLAJ),”2009.
[7]
Aztria Dharma. “Identifikasi Kecelakaan Lalu Lintas (Study Kasus Jalan
Dalu-dalu sampai Pasir Pengaraian)”. Universitas Pasir Pengaraian.
[8]
H. M. T. R. P. Simanungkalit, Y. Aswad. “Analisa faktor penyebab
kecelakaan
lalu
lintas
di
ruas
jalan
Sisingamangaraja
Kota
Medan”.Universitas Sumatera Utara. 2014.
[9]
J. O. Ong, “Implementasi Algotritma K-means clustering untuk menentukan
strategi marketing president university,” Jurnal Ilmiah Teknik Industri
vol.12, 2013.
[10] M. Anggara, H. Sujiani, H. Nasution, “Pemilihan Distance Measure Pada KMeans Clustering Untuk Pengelompokkan Member Di Alvaro Fitness,” vol.
1, no. 1, pp. 1–6, 2016.
60
61
[11] D. Sinwar, R. Kaushik, “Study of Euclidean and Manhattan Distance Metrics
using Simple K-Means Clustering,” Int. J. Res. Appl. Sci. Eng. Technol., vol.
[12, no. 5, pp. 270–274, 2014.
[12] Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to
Data Mining, John Willey & Sons, Inc.
[13] Santosa, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk
Keperluan Bisnis. Yogyakarta: Graha Ilmu.
[14] Erga Aprina Sari. " Penerapan Algoritma K-Means untuk menentukan
tingkat kesehatan bayi dan balita pada kabupaten dan kota di Jawa Tengah".
Universitas Dian Nuswantoro. Semarang. 2015.
[15] S. Agustina, D. Yhudo, H. Santoso, N. Marnasusanto, A. Tirtana, F. Khusnu,
“Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans Algorima,” Clust. K-Means, pp. 1–7, 2012.
[16] F. Irhamni, F. Damayanti, B. Khusnul K., Mifftachul A., “Optimalisasi
Pengelompokan
Kecamatan
Berdasarkan
Indikator
Pendidikan
Menggunakan Metode Clustering dan Davies Bouldin Index,” Universitas
Trunojoyo. Madura. 2014.
[17] Irwan Budiman. “ Data Clustering Menggunakan Metodologi CRISP-DM
untuk Pengenalan Pola Proporsi Pelaksanaan Tridharma,” Universitas
Diponegoro. 2012.
[18] Bayu Pramadya K.S. “Analisis Penentuan Lokasi Rawan Kecelakaan Lalu
Lintas di Jalur Utama Kabupaten Jember (Metode Pencacahan Indikator
Kerawanan),” Universitas Jember. 2012.
[19] Isa Al Qurni. “ Analisis Rawan Kecelakaan Lalu Lintas di Jalan Nasional
Kabupaten Kendal,” Universitas Negeri Semarang. 2013.
[20] Alith Fajar M. “Klasterisasi Proses Seleksi Pemain Menggunakan Algoritma
K-Means,” Universitas Dian Nuswantoro. Semarang. 2015
Download