SKRIPSI KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS CLUSTERING TRAFFIC ACCIDENT PRONE AREA IN SEMARANG USING CHEBYSHEV DISTANCE K-MEANS Diajukan untuk memenuhi salah satu syarat Memperoleh gelar Sarjana Teknik Informatika Disusun Oleh : Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Program Studi : Teknik Informatika-S1 FAKULTAS ILMU KOMPUTER UNIVERSITAS DIAN NUSWANTORO SEMARANG 2016 PERSETUJUAN SKRIPSI Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Program Studi : Teknik Informatika-S1 Fakultas : Ilmu Komputer Judul Tugas Akhir : Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebychev Distance KMeans. Tugas Akhir ini telah diperiksa dan disetujui, Semarang, Oktober 2016 Menyetujui : Pembimbing Menyetujui : Dekan Fakultas Ilmu Komputer Purwanto, Ph.D NPP.0686.11.1994.051 Dr. Abdul Syukur NPP.0686.11.1992.017 ii PENGESAHAN DEWAN PENGUJI Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Program Studi : Teknik Informatika-S1 Fakultas : Ilmu Komputer Judul Tugas Akhir : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS MENGGUNAKAN DI KOTA CHEBYSHEV SEMARANG DISTANCE K- MEANS Tugas Akhir ini telah diujikan dan dipertahankan dihadapan Dewan Penguji pada Sidang tugas akhir pada Oktober 2016. Menurut pandangan kami, tugas akhir ini memadai dari segi kualitas maupun kuantitas untuk tujuan penganugrahan gelar Sarjana Komputer (S.Kom). Semarang, Oktober 2016 Dewan Penguji : Penguji 1 Anggota Penguji 2 Anggota Hanny Haryanto,S.Kom,M.T NPP. 0686.11.2009.371 Edy Mulyanto, S.Si, M.Kom NPP.0686.11.1993.040 Penguji 3 Ketua Penguji Setia Astuti, S.Si, M.Kom NPP. 0686.11.1994.058 iii PERNYATAAN KEASLIAN SKRIPSI Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Menyatakan bahwa karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS merupakan karya asli saya (kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya dan perangkat pendukung seperti web cam dll). Apabila di kemudian hari, karya saya disinyalir bukan merupakan karya asli saya, dan disertai dengan bukti bukti yang cukup, maka saya bersedia untuk dibatalkan gelar saya beserta hak dan kewajiban yang melekat pada gelar tersebut. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : Oktober 2016 Yang menyatakan (M. Abdillah Luthfi) iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS Sebagai mahasiswa Universitas Dian Nuswantoro, yang bertanda tangan di bawah ini, saya : Nama : M. Abdillah Luthfi NIM : A11.2012.07225 Demi mengembangkan Ilmu Pengetahuan, menyetujui untuk memberikan kepada Universitas Dian Nuswantoro Hak Bebas Royalti Non-Eksklusif (Non-Exclusive Royalty-Free Right) atas karya ilmiah saya yang berjudul : KLASTERISASI DAERAH RAWAN KECELAKAAN LALU LINTAS DI KOTA SEMARANG MENGGUNAKAN CHEBYSHEV DISTANCE K-MEANS Beserta perangkat yang diperlukan (bila ada). Dengan Hak Bebas Royalti NonEksklusif ini Universitas Dian Nuswantoro berhak untuk menyimpan, mengcopy, ulang (memperbanyak), menggunakan, mengelolanya dalam bentuk pangkalan data (database), mendistribusikannya dan menampilkan/ mempublikasikannya di internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya selama tetap mencantumkan nama saya sebagai penulis/ pencipta. Saya bersedia untuk menanggung secara pribadi, tanpa melibatkan pihak Universitas Dian Nuswantoro, segala bentuk tuntutan hukum yang timbul atas pelanggaran Hak Cipta dalam karya ilmiah saya ini. Demikian surat pernyataan ini saya buat dengan sebenarnya. Dibuat di : Semarang Pada tanggal : Oktober 2016 Yang menyatakan (M. Abdillah Luthfi) (M. Abdillah Luthfi) v KATA PENGANTAR Alhamdulillah, puji syukur kehadirat Allah SWT yang telah melimpahkan rahmat dan hidayah-Nya. Sholawat dan salam kepada Rasulullah Muhammad SAW, sehingga penulis dapat menyelesaikan Tugas Akhir ini dengan judul “Klasterisasi Daerah Rawan Kecelakaan Lalu Lintas di Kota Semarang Menggunakan Chebyshev Distance K-Means” dengan baik tanpa suatu halangan yang berarti. Tugas Akhir ini disusun untuk memenuhi syarat kelulusan akademik. Penulis menyadari bahwa tanpa bimbingan, bantuan, dan doa dari berbagai pihak, Tugas Akhir ini tidak akan dapat diselesaikan tepat pada waktunya. Oleh karena itu, penulis mengucapkan terimakasih yang sebesarbesarnya kepada semua pihak yang telah membantu dalam proses penyusunan Tugas Akhir ini, yaitu kepada : 1. Allah SWT atas kehendak-Nya penulis dapat melaksanakan dan menyelesaikan Tugas Akhir ini. 2. Dr. Ir. Edi Noersasongko, M.Kom selaku Rektor Universitas Dian Nuswantoro. 3. Dr. Drs. Abdul Syukur, MM selaku Dekan Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 4. Heru Agus Santoso, Ph.D selaku Ketua Program Studi Teknik Informatika Fakultas Ilmu Komputer Universitas Dian Nuswantoro. 5. Purwanto, Ph.D selaku dosen pembimbing dan akademik yang dengan sabar selalu memberikan arahan, bimbingan dan motivasi dalam penyusunan Tugas Akhir ini. 6. Dosen-dosen pengampu di fakultas Ilmu Komputer Teknik Informatika Universitas Dian Nuswantoro Semarang yang telah memberikan ilmu dan pengalamannya masing-masing, sehingga penulis dapat mengimplementasikan ilmu yang telah disampaikan. vi 7. Kedua Orang Tua yang selalu saya cintai dan banggakan. 8. Semua pihak yang namanya tidak dapat disebutkan satu per satu. Akhir kata, penulis ingin menyampaikan bahwa penyusunan Tugas Akhir ini masih sangat jauh dari kesempurnaan. Oleh karena itu, penulis sangat mengharapkan berbagai masukan dari semua pihak, baik berupa saran maupun kritik yang sekiranya bisa memperbaiki kekurangan-kekurangan yang ada dalam Tugas Akhir ini. Semoga Tugas Akhir ini dapat bermanfaat bagi semua pihak. Amin Semarang, Oktober 2016 Penulis vii ABSTRAK Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Maka dilakukan penelitian terhadap daerah rawan kecelakaan lalu lintas untuk menghasilkan status daerah rawan kecelakaan yang berasal dari rekaman data kecelakaan lalu lintas Polrestabes Kota Semarang selama dua tahun dengan menggunakan algoritma KMeans klastering, dimana daerah (jalan) akan di kelompokkan menjadi 3 klaster berdasarkan kemiripan karakteristik yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas seperti jumlah kecelakaan, jumlah kendaraan yang terlibat dan jumlah korban untuk menunjukkan tingkat kerawanan kecelakaan lalu lintas. Dalam penelitian ini dilakukan pengelompokkan data menggunakan Chebychev Distance K-Means dan Euclidean Distance K-Means, dimana dalam kasus ini untuk pengklasteran menggunakan Chebychev Distance K-Means lebih optimal dibandingkan Euclidean Distance K-Means. Hal ini disebabkan karena nilai DBI (Davies Bouldin Index) dari Chebychev Distance K-Means sebesar 0.416 lebih rendah dibandingkan Euclidean Distance K-Means yang memiliki nilai 0.426. Kata Kunci : kecelakaan lalu lintas, k-means, chebyshev distance, clustering, Prone Areas. viii DAFTAR ISI HALAMAN JUDUL................................................................................................ i PERSETUJUAN SKRIPSI ..................................................................................... ii PENGESAHAN DEWAN PENGUJI .................................................................... iii PERNYATAAN KEASLIAN SKRIPSI ................................................................ iv PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS .............................................................................. v KATA PENGANTAR ........................................................................................... vi ABSTRAK ........................................................................................................... viii DAFTAR ISI .......................................................................................................... ix DAFTAR TABEL .................................................................................................. xi DAFTAR GAMBAR ............................................................................................ xii BAB I PENDAHULUAN ...................................................................................... 1 1.1 Latar Belakang ......................................................................................... 1 1.2 Rumusan Masalah .................................................................................... 4 1.3 Batasan Masalah ....................................................................................... 4 1.4 Tujuan Penelitian ...................................................................................... 5 1.5 Manfaat Penelitian .................................................................................... 5 BAB II ..................................................................................................................... 6 TINJAUAN PUSTAKA DAN LANDASAN TEORI ............................................ 6 2.1 Penelitian Terkait ..................................................................................... 6 2.2 Landasan Teori ....................................................................................... 12 2.2.1 Kecelakaan Lalu Lintas ................................................................... 12 2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas ......................... 12 2.2.3 Pengertian Jalan .............................................................................. 13 2.2.4 Data Mining .................................................................................... 14 2.2.5 CRISP-DM ...................................................................................... 16 2.2.6 Clustering ........................................................................................ 19 2.2.7 Algoritma K-Means ........................................................................ 19 2.2.8 Davies Bouldin Index ...................................................................... 21 2.3 Kerangka Pemikiran ............................................................................... 22 ix BAB III ................................................................................................................. 23 METODE PENELITIAN ...................................................................................... 23 3.1 Data Penelitian ....................................................................................... 23 3.2 Tahapan Penelitian ................................................................................. 25 BAB IV ................................................................................................................. 29 4.1 Pengolahan Data ..................................................................................... 29 4.1.1 Persiapan Data ................................................................................. 29 4.1.2 Preprocessing .................................................................................. 29 4.2 Proses Klastering .................................................................................... 30 4.2.1 Chebychev Distance K-Means ........................................................ 31 4.2.2 Euclidean K-Means ......................................................................... 39 4.3 Proses Menggunakan Rapidminer .......................................................... 44 4.4 Pengujian Klastering .............................................................................. 54 4.5 Hasil Pengujian ....................................................................................... 58 BAB V................................................................................................................... 59 5.1 Kesimpulan ............................................................................................. 59 5.2 Saran ....................................................................................................... 59 DAFTAR PUSTAKA ........................................................................................... 60 x DAFTAR TABEL Tabel 2. 1 Penelitian Terkait ................................................................................... 8 Tabel 2. 2 Klasifikasi Kelas Jalan ......................................................................... 13 Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas ............................ 24 Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas .............. 24 Tabel 4. 1 Pemilihan Atribut ................................................................................. 29 Tabel 4. 2 Data Awal ............................................................................................ 30 Tabel 4. 3 Iterasi 1 ................................................................................................. 32 Tabel 4. 4 Centroid baru untuk iterasi 2 ................................................................ 33 Tabel 4. 5 Iterasi ke-2............................................................................................ 33 Tabel 4. 6 Centroid baru untuk iterasi 3 ................................................................ 35 Tabel 4. 7 Iterasi ke-3............................................................................................ 35 Tabel 4. 8 Centroid baru untuk iterasi 4 ................................................................ 37 Tabel 4. 9 Informasi Centroid akhir ...................................................................... 37 Tabel 4. 10 Iterasi ke-10........................................................................................ 37 Tabel 4. 11 Iterasi 1 ............................................................................................... 40 Tabel 4. 12 Centroid baru untuk iterasi 2 .............................................................. 42 Tabel 4. 13 Iterasi 2 ............................................................................................... 42 Tabel 4. 14 Informasi centroid akhir Euclidean Distance ..................................... 43 Tabel 4. 15 Iterasi ke-11........................................................................................ 43 Tabel 4. 16 Data yang diimport ke Rapidminer .................................................... 44 Tabel 4. 17 Centroid Table Chebychev K-Means ................................................ 45 Tabel 4. 18 Hasil Klastering Chebychev K-Means ............................................... 45 Tabel 4. 19 Tabel Centroid Euclidean K-Means ................................................... 49 Tabel 4. 20 Hasil Klastering Euclidean K-Means ................................................. 49 Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas .................................. 53 Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means ............................................................................................................................... 55 Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means 56 Tabel 4. 24 Perbandingan Nilai DBI Sample ........................................................ 57 Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer ................... 58 xi DAFTAR GAMBAR Gambar 2. 1 Tahap-Tahap Data mining [17] ........................................................ 15 Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] ............................................. 17 Gambar 2. 3 Flowchart Algoritma K-Means ........................................................ 20 Gambar 2. 4 Kerangka Pemikiran ......................................................................... 22 Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas ........................................... 23 xii BAB I PENDAHULUAN 1.1 Latar Belakang Kecelakaan lalu lintas merupakan salah satu masalah kesehatan yang menjadi penyebab serius kematian didunia dan menempati peringkat 9 dunia. Indonesia sendiri merupakan penyumbang tingkat kecelakaan lalu lintas tertinggi di dunia dengan menempati peringkat ke 5 [1]. Selain itu kecelakaan lalu lintas merupakan salah satu topik pembahasan yang senantiasa menjadi bahan utama pembicaraan di masyarakat. Badan Pusat Statistik mencatat bahwa angka kecelakaan lalu lintas yang terjadi di Indonesia masih sangat tinggi [2]. Tingginya angka kecelakaan lalu lintas terjadi karena masyarakat modern menempatkan transportasi sebagai kebutuhan hidup, akibat aktivitas ekonomi, sosial dan sebagainya. Oleh karena itu, kecelakaan dalam dunia transportasi memiliki dampak signifikan dalam berbagai bidang kehidupan masyarakat. Kecelakaan lalu lintas yang terjadi, terdiri dari berbagai jenis kecelakaan lalu lintas dan melibatkan pelaku atau korban dari berbagai usia dan profesi. Kecelakaan yang selama ini terjadi secara kontinu membuat semua pihak perlu melakukan langkah-langkah pencegahan untuk mengurangi terjadinya kecelakaan [3]. Hal ini jelas perlu mendapatkan perhatian dan penanganan efektif dari pemerintah khususnya Direktur Lalu Lintas (Ditlantas), diantaranya manajemen dan rekayasa lalu lintas (ketepatan dalam menentukan peserta edukasi atau sosialisasi tentang keselamatan di jalan raya atau rekomendasi pemasangan alat perlengkapan jalan yang menjadi prioritas) [4]. Namun masalah tersebut tidak dapat terselesaikan dengan mudah karena kecelakaan lalu lintas membutuhkan perhatian dan penanganan serius mengingat besarnya kerugian yang ditimbulkan. 1 2 Berdasarkan studi yang dilakukan terhadap 75.000 kasus kecelakaan, diperoleh rasio sebesar 88:10:2 dengan rincian 88% dari seluruh kecelakaan yang diakibatkan oleh tindakan tidak aman, 10% kondisi tidak aman, dan 2% akibat kondisi yang tidak dapat dicegah. Sesungguhnya kecelakaan merupakan akibat dari beberapa faktor yang saling tergantung satu sama lain [5]. Undang-undang Nomor 22 Tahun 2009 tentang Lalu Lintas dan Angkutan Jalan, mengungkapkan kecelakaan lalu lintas adalah suatu peristiwa di jalan yang tidak diduga dan tidak disengaja melibatkan kendaraan dengan atau tanpa pengguna jalan lain yang mengakibatkan korban manusia dan/atau kerugian harta benda [6]. Timbulnya kecelakaan lalu lintas dijalan raya yang meningkat semakin tinggi, sebagian besar diakibatkan atau diawali dengan perilaku pengendara yang melanggar aturan perundang-undangan lalu lintas yang ada seperti mengemudikan kendaraan dengan kecepatan tinggi atau tidak dengan hati-hati, mengendarai kendaraan bermotor tidak memiliki surat izin mengemudi, melanggar lalu lintas dan marka jalan serta berbagai bentuk pelanggaran lainnya [7]. Meningkatnya jumlah pengguna kendaraan bermotor setiap tahunnya, dapat meningkatkan terjadinya kecelakaan lalu lintas karena beberapa faktor antara lain faktor pemakai jalan (pengemudi, pejalan kaki), faktor kendaraan dan faktor lingkungan. Kecelakaan juga diakibatkan oleh kombinasi antara beberapa faktor perilaku buruk dari pengemudi ataupun pejalan kaki,jalan, kendaraan, pengemudi ataupun pejalan kaki, cuaca buruk ataupun pandangan yang buruk dan masih banyak lagi faktor yang menyebabkan kecelakaan lalu lintas [8]. Penggalian data ditujukan untuk mengelompokkan ruas jalan di Kota Semarang berdasarkan faktor kesamaan karakteristik yang ada di dataset yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, serta jumlah korban akibat kecelakaan yang terjadi dalam suatu rentan waktu tertentu. Dengan menggunakan data mining, dapat diperoleh tingkat kerawanan suatu wilayah terhadap kecelakaan lalu lintas melalui clustering data kecelakaan di Kota Semarang. Data mining merupakan metode pengolahan data berskala besar, 3 oleh karena itu data mining memiliki peranan penting dalam berbagai bidang. Secara umum kajian data mining membahas metode-metode seperti clustering, klasifikasi, regresi, seleksi variable, dan market basket analisis [9]. Clustering merupakan suatu metode untuk mencari dan mengelompokkan data yang memiliki kemiripan karakteristik antara satu data dengan data yang lain [11]. Salah satu ciri clustering yang baik atau optimal adalah menghasilkan cluster yang berisi data dengan tingkat kemiripan (similarity) yang tinggi pada cluster yang sama dan tingkat kemiripan yang rendah pada cluster yang berbeda. Untuk mengukur kemiripan data dalam suatu cluster menggunakan distance measure. Jika menggunakan distance measure yang berbeda maka hasil dari proses clustering akan menghasilkan hasil yang berbeda juga [10]. Dalam perkembangan clustering terdapat berbagai algoritma yang salah satunya adalah K-Means. K-Means clustering merupakan salah satu metode data clustering nonhirarki yang mengelompokkan data dalam bentuk satu atau lebih cluster/kelompok. Data yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster/kelompok dan data yang memiliki karakteristik yang berbeda dikelompokkan dengan cluster/kelompok yang lain sehingga data yang berada dalam satu cluster/kelompok memiliki tingkat variasi yang kecil [9]. Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu [15] dalam penelitiannya menggunakan algoritma k-means pada clustering kualitas beras berdasarkan ciri fisik menghasilkan akurasi sebesar 92,8%. Selanjutnya Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita. 4 Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance. Berdasarkan hasil dari latar belakang di atas, penelitian yang akan diambil adalah pemilihan Distance Measure dengan menggunakan Chebyshev Distance pada K-Means Clustering untuk membantu Ditlantas Polrestabes Kota Semarang dalam mengindentifikasi dan mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang berdasarkan dataset yang sudah ada agar monitoring terhadap keselamatan pengendara di jalan raya dapat diantisiasi sejak dini. 1.2 Rumusan Masalah Berdasarkan latar belakang diatas, maka dapat dirumuskan permasalahan yaitu bagaimana mengklaster daerah (jalan) rawan kecelakaan lalu lintas yang ada di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada K-Means sehingga dapat diketahui status daerah rawan kecelakaan lalu lintas untuk setiap daerah. 1.3 Batasan Masalah Batasan permasalahan dalam penelitian ini adalah : 1. Data yang digunakan dalam penelitian ini adalah data sekunder yang berasal dari Polrestabes Kota Semarang. 2. Algoritma yang digunakan dalam penelitian ini adalah K-Means. 5 3. Dataset yang digunakan adalah data kecelakaan kendaraan bermotor di Kota Semarang dari tahun 2014-2015. 4. Data yang digunakan adalah kejadian kecelakaan lalu lintas, seperti kecelakaan lalu lintas antar kendaraan bermotor, kendaraan bermotor dengan pejalan kaki. 5. Masalah kecelakaan yang dibahas adalah masalah kecelakaan yang terjadi di wilayah ruas jalan kota. 6. Hasil dari penelitian ini adalah penentuan status rawan daerah Kota Semarang terhadap kecelakaan lalu lintas. 7. Tidak membahas penanggulangan kecelakaan. 1.4 Tujuan Penelitian Berdasarkan rumusan masalah diatas maka tujuan dari penelitian ini adalah untuk menghasilkan status daerah rawan kecelakaan lalu lintas dengan menggunakan Chebyshev Distance pada algoritma K-Means yang dapat mengklaster daerah (jalan) rawan kecelakaan lalu lintas di Kota Semarang berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator daerah rawan kecelakaan lalu lintas. 1.5 Manfaat Penelitian Dengan adanya penelitian ini diharapkan dapat : 1. Dengan menggunakan algoritma K-Means dapat mengelompokkan daerah rawan kecelakaan lalu lintas di Kota Semarang. 2. Dapat digunakan sebagai refrensi dalam melakukan penelitian yang sama dengan menggunakan algoritma K-Means. 3. Dapat meningkatkan kesadaran akan pentingnya keselamatan dalam berkendara. 4. Dapat membantu kepolisian dalam mengkelompokkan daerah di Kota Semarang yang rawan terhadap kecelakaan. BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Penelitian Terkait Tinjauan studi yang menjadi sumber referensi dari penelitian yang penulis buat ini berasal dari beberapa penelitian sejenis sebelumnya. Dari beberapa penelitian tersebut didapatkan berbagai hasil pandangan tentang penerapan klusterisasi data dari masing-masing jurnal. Berikut merupakan beberapa penelitian yang terkait dan relevan dengan penelitian ini. Penelitian pertama dilakukan oleh Lizda Iswari dan Ervina Gita Ayu yang membuat penelitian tentang Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas. Dimana dalam penelitian ini, peneliti menggunakan metode clustering untuk mengelompokkan daerah rawan kecelakaan lalu lintas berdasarkan ruas-ruas jalan yang memiliki kesamaan karakteristik dan visualisasi hasil clustering dalam bentuk peta dua dimensi. Dalam penelitian ini masih terbatas pada penggunaan data temporal dalam periode bulanan. Sedangkan dalam penentuan parameter klasterisasi yang digunakan dalam penelitian ini masih bersumber pada deskripsi kejadian dan belum melibatkan data geometri (kondisi fisik) jalan raya [2]. Penelitian kedua dilakukan oleh Silvi Agustina, Dhimas Yhudo, Hadi Santoso, Nofiandi Marnasusanto, Arif Tirtana, Fakhris Khusnu tentang Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans. Dalam penelitian ini penulis menggunakan metode k-means dan manhattan distance sebagai distance measure (perhitungan jarak). Penelitian ini menggunakan 20 data uji, dimana ke-20 data tersebut dibagi menjadi 3 cluster dengan cluster 1 merupakan beras kualitas buruk, cluster 2 beras kualitas sedang, dan cluster 3 beras kualitas baik. Dari hasil penelitian, didapatkan 3 pusat cluster akhir yaitu pusat cluster 1 (5,89333;2,05), pusat 6 7 cluster 2 (6,28199;2,546), dan pusat cluster 3 (6,96583;2,999167) serta dihasilkan validasi sebesar 92,8% yang menunjukan bahwa program ini dapat dijadikan sebagai acuan dalam klasterisasi kualitas beras [15]. Selanjutnya penelitian dilakukan oleh Erga Aprina Sari [14] meneliti tentang Penerapan Algoritma K-Means Untuk Menentukan Tingkat Kesehatan Bayi dan Balita Pada Kabupaten dan Kota di Jawa Tengah. Penelitian ini menggunakan teknik data mining dengan algoritma K-Means untuk mengelompokkan atau mengklaster kabupaten-kabupaten yang ada di Provinsi Jawa Tengah berdasarkan kemiripan karakteristik daerah yang ditinjau dari nilai indikator kesehatan yaitu angka kematian bayi dan balita, angka kesakitan bayi dan balita, dan status gizi bayi dan balita. Dari hasil uji coba didapat kabupaten/kota yang memiliki hasil analisa indikator kesehatan tinggi yang tingkat kesehatan pada indikator tersebut buruk karena jumlah penderitanya banyak. Penanganan masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi. Penelitian keempat dilakukan oleh Firli Irhamni, Fitri Damayanti, Bain Khusnul K, Mifftachul A tentang Optimalisasi Pengelompokan Kecamatan Berdasarkan Indikator Pendidikan Menggunakan Metode Clustering dan Davies Bouldin Index. Penelitian ini tentang pengelompokan kecamatan untuk pemerataan pendidikan menggunakan indicator pendidikan yang terdapat pasa suatu kecamatan sebagai salah satu organisasi pemerintah. Parameter penyebab keberhasilan pendidikan dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah rendahnya nilai Angka Partisipasi Murni (APM) dan nilai Angka Partisipasi Kasar (APK). Indikator lain yang mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang meliputi jumlah sekolah, ruang kelas, dan tenaga pengajar. Pengelompokan kecamatan berdasarkan tingkat pendidikan SMA/SMK/MA tersebut menggunakan metode clustering yaitu Self Organizing Map (SOM) dan hasil clustering tersebut kemudian diolah dengan metode Davies Bouldin Index(DBI) untuk menunjukkan seberapa baik cluster yang diperoleh. 8 Penelitian ini memberikan kontribusi terhadap pengambilan kebijakan dari pihak berwenang[16]. Penelitian kelima dilakukan oleh Mario Anggara, Henry Sujiani, Helfi Nasution [10] melaporkan bahwa penelitiannya mendapatkan hasil pengujian terhadap pengelompokan member di alvaro fitness menggunakan k-means clustering dengan menggunakan 3 macam distance measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya sebesar 0.242821. Sedangkan Euclidean Distance dan Manhattan Distance memiliki nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure paling optimal untuk kasus pengelompokkan member di Alvaro fitness adalah Chebyshev Distance. Tabel 2. 1 Penelitian Terkait No 1 Peneliti Pembahasan Metode Lizda Iswari Pemanfaatan dan Ervina K-Means Untuk Pemetaan Gita Ayu Hasil Hasil Algoritma K-Means Dalam penelitian ini masih Klasterisasi Data Kecelakaan Lalu Lintas terbatas pada penggunaan data temporal dalam periode bulanan. Sedangkan dalam penentuan parameter klasterisasi yang digunakan dalam penelitian ini masih bersumber pada deskripsi kejadian dan belum melibatkan data geometri (kondisi fisik) jalan raya. 2 Silvi Clustering Kualitas Beras K-Means Penelitian ini menggunakan Agustina, Berdasarkan 20 data uji, dimana ke-20 Dhimas Ciri Fisik data tersebut dibagi menjadi 9 Yhudo, Hadi Menggunakan Metode K- 3 cluster dengan cluster 1 Santoso, merupakan beras kualitas Means Nofiandi buruk, Marnasusanto, kualitas sedang, dan cluster Arif 3 beras kualitas baik. Dari Tirtana, cluster 2 beras Fakhris hasil penelitian, didapatkan Khusnu 3 pusat cluster akhir yaitu pusat cluster 1 (5,89333;2,05), pusat cluster 2 (6,28199;2,546), dan pusat cluster 3 (6,96583;2,999167) serta dihasilkan validasi sebesar 92,8% yang menunjukan bahwa program ini dapat dijadikan sebagai acuan dalam klasterisasi kualitas beras. 3 Erga Sari Aprina Penerapan Algoritma K- K-Means Dari hasil uji coba didapat Means Untuk Menentukan kabupaten/kota Tingkat Kesehatan Bayi memiliki dan Pada indikator kesehatan tinggi Kabupaten dan Kota di yang tingkat kesehatan pada Jawa Tengah indikator Balita yang hasil tersebut analisa buruk karena jumlah penderitanya banyak. Penanganan masalah dapat difokuskan pada kabupaten/kota dengan indikator kesehatan tinggi. 10 4. Firli Irhamni, Optimalisasi SOM dan Penelitian Fitri Pengelompokan Davies Damayanti, Kecamatan Berdasarkan Bouldin Bain Khusnul Indikator Pendidikan ini tentang pengelompokan kecamatan untuk pemerataan pendidikan menggunakan K, Mifftachul Menggunakan Metode indicator pendidikan yang A Davies terdapat Clustering dan Bouldin Index pasa suatu kecamatan sebagai salah satu organisasi pemerintah. Parameter penyebab keberhasilan pendidikan dapat dilihat dariindikator pendidikan di suatu daerah, salah satu tolak ukurnya adalah rendahnya Angka Partisipasi nilai Murni (APM) dan nilai Angka Partisipasi Kasar (APK). Indikator lain yang mempengaruhi pemerataan pendidikan adalah sarana dan prasarana pendidikan yang meliputi jumlah sekolah, ruang kelas, dan tenaga pengajar. Pengelompokan kecamatan berdasarkan tingkat pendidikan SMA/SMK/MA tersebut menggunakan metode clustering yaitu Self Organizing Map (SOM) dan hasil clustering tersebut 11 kemudian metode diolah Davies dengan Bouldin Index(DBI) untuk menunjukkan seberapa baik cluster yang diperoleh. Penelitian ini memberikan kontribusi terhadap pengambilan kebijakan dari pihak berwenang 5 Mario Pemilihan Anggara, Measure Pada K-Means Henry Sujiani, Clustering Distance K-Means penelitiannya mendapatkan hasil pengujian terhadap Untuk pengelompokan member di Helfi Nasution Pengelompokkan Member alvaro fitness menggunakan Di Alvaro Fitness k-means clustering dengan menggunakan 3 distance macam measure. Didapatkan bahwa dalam pengujian silhouette coefficient clustering, Chebyshev Distance memiliki nilai silhouette coefficient-nya 0.242821. Euclidean sebesar Sedangkan Distance Manhattan memiliki dan Distance nilai silhouette coefficient sebesar 0.232149 dan 0.240016. Hal itu menunjukan bahwa distance measure untuk paling optimal kasus 12 pengelompokkan member di Alvaro fitness Chebyshev Distance. 2.2 Landasan Teori 2.2.1 Kecelakaan Lalu Lintas Kecelakaan lalu lintas adalah suatu peristiwa dijalan yang tidak disangka-sangka dan tidak disengaja melibatkan kendaraan dengan atau tanpa pemakai jalan lainnya mengakibatkan korban manusia atau kerugian harta benda [6]. 2.2.2 Penentuan Lokasi Rawan Kecelakaan Lalu Lintas Suatu tempat dikatakan “daerah” atau “lokasi” apabila diketahui letak dan batas-batasnya. Antara Direktorat Keselamatan Transportasi Darat dengan Departemen Pemukiman dan Prasana Wilayah terdapat perbedaan dalam penyebutan tempat yang tergolong rawan kecelakaan lalu lintas. Direktorat Keselamatan Transportasi Darat menyebutnya dengan “daerah rawan kecelakaan”, sedangkan Departemen Pemukiman dan Prasana Wilayah menyebutnya dengan “lokasi rawan kecelakaan”. Daerah yang memiliki angka kecelakaan tinggi, resiko kecelakaan tinggi serta potensi kecelakaan tinggi pada suatu ruas jalan dapat disebut juga dengan daerah rawan kecelakaan [18]. Suatu lokasi dapat dinyatakan sebagai lokasi rawan kecelakaan apabila [19] : 1. Memiliki angka kecelakaan yang tinggi. 2. Lokasi kejadian kecelakaan relatif bertumpuk. 3. Lokasi kecelakaan berupa persimpangan, atau segmen ruas jalan sepanjang 100 – 300 m untuk jalan perkotaan, atau segmen ruas jalan sepanjang 1 km utnuk jalan antar kota. adalah 13 4. Kecelakaan terjadi dalam ruang dan rentan waktu yang relatif sama. 5. Memiliki penyebab kecelakaan dengan factor yang spesifik. 2.2.3 Pengertian Jalan Jalan adalah seluruh bagian jalan, termasuk bangunan pelengkap dan perlengkapannya yang diperuntukan bagi lalu lintas umum, yang berada pada permukaan tanah, diatas permukaan tanah, dibawah permukaan tanah dan/atau air, serta diatas permukaan air, kecuali jalan rel dan jalan kabel [6]. Jalan dibagi kedalam kelas – kelas bukan hanya didasarkan pada fungsinya tetapi juga dipertimbangkan pada besarnya volume serta sifat lalu lintas. Adapun klasifikasi jalan dijelaskan dalam table dibawah ini : Tabel 2. 2 Klasifikasi Kelas Jalan Tipe Tipe I Klasifikasi Klas I Klas II Tipe II Klas I Klas II Klas III Keterangan Jalan dengan standar tinggi untuk melayani antar wilayah atau antar kota untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi untuk melayani antar wilayah atau didalam metropolitan untuk kecepatan tinggi dengan pembatasan jalan masuk. Jalan dengan standar tinggi, 2 jalur atau lebih untuk antar kota atau dalam kota, kecepatan tinggi, volume lalu lintas tinggi dengan masih ada beberapa pembatas jalan masuk. Jalan dengan standar tinggi, 2 lajur atau lebih untuk melayani antar /dalam kota, kecepatan tinggi, volume lalu lintas sedang dengan/ tanpa pembatas jalan masuk. Jalan dengan standar menengah, 2 lajur atau lebih melayani antas distrik, kecepatan sedang, volume lalu lintas tinggi, tanpa pembatas jalan masuk. 14 Klas IV Jalan dengan standar rendah, I lajur dua arah sebagai jalan penghubung. 2.2.4 Data Mining Data mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahamidan bermanfaat bagi pemilik data. Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu [12] : a. Description (Deskripsi) Peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. b. Estimation (Estimasi) Estimasi hampir sama dengan klasifikasi, dimana variabel tujuan yang lebih kearah numerik daripada ke arah kategori. c. Prediction (Prediksi) Prediksi hampir sama dengan klasfikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang (sesuatu yang belum terjadi). d. Association (Asosiasi) Asosiasi dalam data mining adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis keranjang belanja. e. Clustering Clustering merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. 15 f. Classification (Klasifikasi) Penyusunan data menjadi beberapa kelompok yang ditentukan. 2.2.4.1 Tahap-Tahap Data mining Rangkaian proses data mining dibagi menjadi beberapa tahap yang bersifat interaktif seperti pada gambar 2.1. Cleaning and Integration Selection and Transformation Data Mining Evaluation and Presentation Knowledge Data WareHouse Patterns Gambar 2. 1 Tahap-Tahap Data mining [17] a. Data Selection Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional. b. Cleaning Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan ketik (tipografi). 16 c. Transformation Pengubahan data ke dalam format yang sesuai untuk dapat diproses dalam data mining. Misal, beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal, maka data berupa angka numerik yang berlanjut perlu dibagi menjadi beberapa interval. d. Data mining Proses pencarian pola atau informasi yang menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. e. Pattern Evaluation Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya. 2.2.5 CRISP-DM Cross-Industry Standard Process for Data Mining (CRISP-DM) yang dikembangkan tahun 1996 oleh analis dari beberapa industri seperti DaimlerChrysler, SPSS dan NCR. CRISP-DM menyediakan standarproses data mining sebagai strategi pemecahan masalah secara umumdari bisnis atau unit penelitian. 17 Gambar 2. 2 Gambar siklus hidup CRISP-DM [12] Berdasarkan CRISP-DM, proses data mining terdiri dari 6 fase [12] yaitu : 1. Fase Pemahaman Bisnis (Business Understanding) a. Penentuan tujuan proyek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan. b. Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining. c. Menyiapkan strategi awal untuk mencapai tujuan. 2. Fase Pemahaman Data (Data Understanding Phase) a. Mengumpulkan data. b. Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c. Mengevaluasi kualitas data. 18 d. Jika diinginkan, pilih sebagian kecil grup data yang mungkin mengandung pola dari permasalahan. 3. Fase Pengolahan Data (Data Preparation Phase) a. Siapkan data dari awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b. Pilih kasus dan variable yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c. Lakukan perubahan pada beberapa variabel jika dibutuhkan. d. Siapkan data awal sehingga siap untuk perangkat pemodelan. 4. Fase Pemodelan (Modelling Phase) a. Pilih dan aplikasikan teknik pemodelan yang sesuai. b. Kalibrasi aturan model untuk mengoptimalkan hasil. c. Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d. Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5. Fase Evaluasi (Evaluation Phase) a. Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitasdan efektivitas sebelum disebarkan untuk digunakan. b. Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c. Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d. Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6. Fase Penyebaran (Deployment Phase) a. Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikan proyek. 19 b. Contoh sederhana penyebaran: Pembuatan laporan. c. Contoh kompleks penyebaran: Penerapan proses data mining secara pararel pada departemen lain. 2.2.6 Clustering Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari obyek-obyek yang mempunyai karakteristik yang umum di data yang cukup besar. Pengelompokan sejumlah data/obyek ke dalam cluster merupakan tujuan utama dari metode clustering sehingga dalam setiap cluster akan diisi data yang memiliki tingkat kemiripan yang tinggi [13]. Sebuah cluster adalah kumpulan data yang memiliki kemiripan karakteristik satu sama lain dan tidak memiliki kemiripan dengan cluster lain. Clustering bersifat unsupervised learning karena pengelompokan data yang didasarkan pada kesamaan antar objek. 2.2.7 Algoritma K-Means Beberapa teknik clustering yang paling sederhana diantara teknik lainnya adalah Klastering K-Means. K-means merupakan salah satu metode pengelompokan data (clustering) nonhierarki yang termasuk dalam pendekatan partisi dimana data yang ada dipartisi ke dalam bentuk dua atau lebih kelompok. Metode ini mengelompokan data yang berkarakteristik sama menjadi satu kelompok dan data yang berkaraktersitik berbeda dikelompokkan kedalam kelompok lain. Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut : 20 Chebyshev Distance πππ = πππ₯ π |π₯ππ − π₯ππ | (2.1) Dimana : K = Dimensi data 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah. START Jumlah K Inisiasi Pusat Hitung jarak data ke pusat Kelompokkan data berdasarkan jarak minimum Pusat cluster lama = pusat cluster baru Pusat cluster baru tidak ada Selisih Pusat cluster lama dan baru End Gambar 2. 3 Flowchart Algoritma K-Means 21 2.2.8 Davies Bouldin Index Davies Bouldin Index merupakan metode evaluasi cluster dari hasil clustering. Semakin kecil nilai DBI yang di peroleh (non-negatif ≥ 0) maka semakin baik cluster yang diperoleh dari pengelompokan KMeans yang digunakan [20]. π 1 π£ππ(π₯) = ∑(π₯π − π₯Μ )2 π−1 (2.2) π=1 π π = max π ππ π = 1, . . π, π ≠ π π ππ = π£ππ(πΆπ ) + π£ππ(πΆπ ) ||ππ − ππ || π≠π (2.3) (2.4) π 1 π·π΅πΌ = . ∑ π π π (2.5) π=1 Dimana π₯Μ : rata-rata dari cluster x dan N adalah jumlah anggota cluster Var : variance dari data πΆπ : cluster i dan ππ adalah centroid dari cluster i 22 2.3 Kerangka Pemikiran Masalah Studi Pustaka Bagaimana mengklasterisasi daerah rawan kecelakaan lalu lintas di Kota Semarang Buku dan Jurnal tentang data mining, algoritma k-means dan daerah rawan kecelakaan Metode Algoritma K-Means dengan menggunakan chebyshev distance Penerapan Data Kecelakaan Polrestabes Semarang 2014-2015 Pengembangan Microsoft Excel dan Rapidminer Pengujian Davies Bouldin Indeks (DBI) Hasil Pengelompokkan dan penentuan status daerah di Kota Semarang yang rawan terhadap kecelakaan menggunakan chebyshev distance k-means Gambar 2. 4 Kerangka Pemikiran BAB III METODE PENELITIAN 3.1 Data Penelitian Dalam penelitian tugas akhir ini, objek penelitian dilakukan dengan pengambilan data yang diperoleh dari Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015. Data yang diperoleh merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang. Berikut rekaman data Satlantas Polrestabes Kota Semarang : Gambar 3. 1 Rekaman Data Kecelakaan Lalu Lintas Berikut keterangan dari rekaman data di atas akan dijelaskan pada tabel di bawah ini : 23 24 Tabel 3. 1 Keterangan Rekaman Data Kecelakaan Lalu Lintas Atribut Keterangan Waktu & Tempat Kejadian Atribut yang menginformasikan waktu dan tempat kejadian terjadinya kecelakaan Uraian Singkat Kejadian Atribut yang menginformasikan uraian singkat terjadinya kecelakaan Korban Atribut yang menginformasikan jumlah korban pada saat terjadinya kecelakaan tersebut baik koban meninggal dunia, luka berat, luka ringan, serta menjelaskan pula kerugiaan materiil yang didapat akibat terjadinya kecelakaan tersebut Yang terlibat Atribut yang menginformasikan pengguna jalan (kendaraan bermotor, pejalan kaki, dsb.) yang terlibat dalam kecelakaan tersebut Identitas Pengemudi Atribut yang menginformasikan tentang identitas korban yang terlibat dalam kecelakaan tersebut. Hasil rekapitulasi data rekaman kecelakaan lalu intas pada 10 segmen jalan dapat di lihat pada table . Setiap jalan memiliki tiga parameter, yaitu jumlah kecelakaan, jumlah kendaraan yang terlibat, dan jumlah korban Tabel 3. 2 Hasil simplikasi dan generalisasi data kecelakaan lalu lintas NO 1 2 3 4 5 DATA LAKA LANTAS POLRESTABES SEMARANG BULAN JANUARI S/D DESEMBER 2014 Nama Jalan Jumlah Kecelakaan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Medoho 59 18 1 26 2 Jumlah Kendaraan yang terlibat Jumlah Korban 116 34 2 55 4 80 25 1 41 2 25 6 7 8 9 10 Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono 3 5 2 2 16 6 10 4 3 32 3.2 Tahapan Penelitian Tahapan analisis data pada penelitian ini menggunakan data kecelakaan lalu lintas Kota Semarang tahun 2014 dan 2015, diperoleh dari pengumpulan data sebanyak 1549 record. Namun tidak semua data digunakan dan tidak semua atribut digunakan karena banyak data yang tidak memenuhi syarat dan data tersebut harus melalui beberapa tahap pengolahan awal data. Agar mendapatkan data yang berkualitas yaitu dengan teknik data cleaning. Tahapan penelitian menggunakan metode Cross Industry Standard Process- Data Mining (CRISP-DM). 1. Tahap Pemahaman Bisnis (Bussines Understanding Phase) Penelitian ini mempunyai tujuan bisnis yaitu menentukan daerah atau wilayah di Kota Semarang yang rawan terhadap kecelakaan lalu lintas karena dengan penelitian ini nantinya dapat digunakan oleh pihak kepolisian untuk lebih memperhatikan daerah yang sering terjadi atau rawan terhadap kecelakaan. 2. Tahap Pemahaman Data (Data Understanding Phase) Pengumpulan data sekunder dilakukan dengan cara mengambil data kecelakaan lalu lintas di Satlantas Polrestabes Semarang tahun 2014 dan 2015. Dari proses pengambilan data, data yang diperoleh pada tahun 2014 sebanyak 801 kasus kecelakaan lalu lintas dan tahun 2015 data yang diambil dari bulan januari hingga bulan november yaitu sebanyak 748 kasus kecelakaan yang terjadi. Sehingga total dari data yang mentah yang didapatkan untuk data training sebanyak 1549 data. Data tersebut meliputi waktu dan tempat kejadian kecelakaan, uraian singkat kejadian, korban yang terlibat dalam kecelakaan, kendaraan yang terlibat kecelakaan, dan identitas korban. 4 6 2 4 25 26 3. Tahapan Pengolahan Data (Data Preparation Phase) Dari 1549 data mentah yang diperoleh dari rekaman data kecelakaan lalu lintas dilakukan simplikasi dan generalisasi, karena dengan data asli seperti gambar 3.1 belum bisa diolah dan setelah dilakukan simplikasi dan generalisasi data tersebut dapat diolah seperti tabel 3.2. Namun tidak semua data dan atribut dapat digunakan, karena masih ada data yang mengandung missing value (memiliki keterangan yang kurang lengkap) oleh karena itu dilakukan cleaning data dan selection data, data reduksi. Cleaning data dan selection data merupakan tahap awal dalam processing data mining. Pembersihan ini dilakukan untuk membuang datadata yang informasi terter, seperti tidak adanya informasi identitas korban, umur, pekerjaan. Data reduksi adalah data yang informative, data dengan record dan jumlah atribut yang sesuai dengan kebutuhan. Ada beberapa field yang dihilangkan karena data tidak lengkap. 1549 data yang digunakan yang terdiri dari 3 atribut yang akan diolah. 4. Fase pemodelan (Modeling Phase) Tahap pemodelan merupakan tahap pengolahan dataset yang dimodelkan dengan algoritma k-means sehingga perhitungan dan Pengelompokan data. ο· Algoritma K-Means Algoritma K-means secara umum memiliki tahapan sebagai berikut: 1. Tentukan jumlah kelompok 2. Inisialisasi titik centroid k (pusat cluster) secara acak. 3. Hitung jarak setiap titik pusat cluster, jarak antar satu data dengan satu cluster akan menentukan data tersebut masuk dalam cluster mana. Perhitungan jarak yang digunakan adalah sebagai berikut : 27 Chebyshev Distance πππ = πππ₯ π |π₯ππ − π₯ππ | (3.1) Dimana : K = Dimensi data π₯ππ = Data dari jumlah kecelakaan, jumlah kendaraan yang terlibat, jumlah korban π₯ππ = Centroid πππ = Jarak antara π₯ππ dan π₯ππ dan || adalah nilai mutlak. 4. Hitung pusat cluster yang baru dengan keanggotaan cluster yang sekarang, dengan cara mencari rata-rata (mean) dari semua objek atau data dalam cluster tertentu atau dengan menggunakan median dari cluster tersebut. 5. Ulangi mulai dari langkah ketiga sampai nilai pusat cluster tidak berubah. 5. Fase Evaluasi (Evaluation Phase) Pada fase ini dilakukan penilaian menggunakan Davies Bouldin Index (DBI) untuk menentukan jumlah cluster paling optimal dalam proses clustering tersebut, dengan membandingkan pengelompokan sebanyak 3 klaster menggunakan Chebychev K-Means dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. 6. Fase Penyebaran Fase yang terakhir adalah fase penyebaran dimana data yang telah dievaluasi diimplementasikan sehingga dapat digunakan untuk menentukan daerah rawan kecelakaan lalu lintas di Kota Semarang. Data diuji dengan menggunakan tool rapidminer. Dengan menggunakan pemodelan dalam rapidminer maka dapat diketahui kemiripan hasil clustering yang dilakukan menggunakan perhitungan pada Microsoft 28 Excel dengan Rapidminer dalam penentuan status daerah terhadap kecelakaan lalu lintas di Kota Semarang. BAB IV ANALISA DAN PEMBAHASAN 4.1 Pengolahan Data 4.1.1 Persiapan Data Dalam penelitian ini data yang digunakan merupakan data sekunder melalui dokumentasi Satlantas Polrestabes Kota Semarang antara tahun 2014 sampai 2015 dengan atribut Waktu & Tempat kejadian, Uraian Singkat Kejadian, Korban (MD, LB, LR, Kerugian Materi), yang terlibat, Identitas Pengemudi. Rekaman data Satlantas Polrestabes Kota Semarang seperti yang sudah dijelaskan pada Gambar 3.1, dipilih atribut yang akan digunakan dalam penelitian: Tabel 4. 1 Pemilihan Atribut Atribut Waktu & Tempat Kejadian √ (Jumlah Kecelakaan) 4.1.2 Uraian Singkat Kejadian X Korban √ Kendaraan Yang terlibat √ Identitas Pengemudi X Preprocessing Preprocessing yang dilakukan adalah penghapusan data missing value (memiliki keterangan yang kurang lengkap) Pada tahap ini rekaman data kecelakaan lalu lintas suatu jalan yang tidak memiliki keterangan yang kurang lengkap seperti kejadian kecelakaan lalu lintas yang kurang dari 2 tahun, tidak adanya keterangan identitas korban, umur, pekerjaan, maka jalan tersebut tidak digunakan. 29 30 Dari rekaman data yang diperoleh, semua data terisi sesuai dengan ketentuan tidak ada yang kosong, sehingga semua data yang diperoleh dapat digunakan pada proses selanjutnya. Setelah data yang terkumpul dan telah diseleksi, data diolah dalam Ms. Excel sehingga diperoleh hasil simplikasi dan generalisasi seperti yang terlihat dibawah ini : Tabel 4. 2 Data Awal No 1 2 3 4 5 6 7 8 9 10 116 117 118 119 4.2 Nama Jalan Brigjend Sudiarto Dr. Cipto Durian P.Kemerdekaan Raya Medoho Brigjend Katamso Fatmawati Sarwo Edi Wibowo Thamrin MT Haryono - Prof. Suharso Pawiyatan Luhur IV Tlogosari raya Suratmo Jumlah Kecelakaan (X1) Jumlah Kendaraan yang Terlibat (X2) Jumlah Korban (X3) 103 25 2 51 6 4 12 3 5 32 2 200 48 4 104 11 8 22 6 9 65 4 143 33 2 74 7 5 14 3 7 48 2 2 2 3 4 4 6 2 1 3 Proses Klastering Proses klastering yaitu proses pengelompokan data berdasarkan kemiripan karakteristiknya. Pada penelitian ini, penulis menggunakan algoritma k-means yang digunakan untuk mengklasterisasi daerah rawan kecelakaan lalu lintas dengan Chebyshev distance dan Euclidean distance sebagai perhitungan jarak setiap data terhadap pusat klaster. Dalam 31 menentukan daerah rawan kecelakaan lalu lintas, dilakukan klastering dengan perhitungan algoritma k-mean sebagai berikut : 4.2.1 Chebychev Distance K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Chebychev Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu : Chebyshev Distance πππ = πππ₯ π |π₯ππ − π₯ππ | (4.1) Dimana : K = Dimensi data π11 = max( |103 − 2|, |200 − 2|, |143 − 2|) = 198 Jarak data pertama dengan pusat klaster kedua: π12 = max( |103 − 3|, |200 − 3|, |143 − 3|) = 197 Jarak data pertama dengan pusat klaster ketiga: π13 = max( |103 − 4|, |200 − 4|, |143 − 4|) = 196 32 Hasil perhitungan terdapat pada table berikut: Tabel 4. 3 Iterasi 1 Data ke1 2 3 4 5 6 7 8 9 10 . . . . 116 117 118 119 Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2) 103 200 25 48 2 4 51 104 6 11 4 8 12 22 3 6 5 9 32 65 . . . . . . . . 2 4 2 4 2 4 3 6 Jumlah Korban (X3) 143 33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3 C1 198 46 2 102 9 6 20 4 7 63 . . . . 2 2 2 4 C2 197 45 1 101 8 5 19 3 6 62 . . . . 1 1 2 3 C3 196 44 2 100 7 4 18 2 5 61 . . . . 2 2 3 2 Anggota klaster C3 C3 C2 C3 C3 C3 C3 C3 C3 C3 . . . . C2 C2 C1 C3 4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.3 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua. 5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 = =3 3 πΆ11 = πΆ12 33 πΆ13 = 1+2+1 = 1.33333333 3 Untuk klaster dua ada 20 data, sehingga: πΆ21 = πΆ22 = πΆ23 = 2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 20 4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 20 2+2+2+2+2+4+2+2+2+4+3+2+2+3+5+4+2+3+2+2 20 = 2.05 =4 = 2.6 Untuk klaster ketiga ada 96 data, sehingga: 103 + 25 + 51 + β― + 4 + 3 + 3 = 13.55208 96 200 + 48 + 104 + β― + 8 + 5 + 6 = = 27.6875 96 143 + 33 + 74 + β― + 4 + 4 + 3 = = 18.38542 96 πΆ31 = πΆ32 πΆ33 Tabel 4. 4 Centroid baru untuk iterasi 2 Jumlah Jumlah Kendaraan Jumlah Korban Kecelakaan (x1) yang Terlibat (x2) (x3) C1 2 3 1.33333 C2 2.05 4 2.6 C3 13.55208 27.6875 18.38542 6. Ulangi langkah ke-3 dengan titik pusat baru sampai posisi klaster tidak berubah. Tabel 4. 5 Iterasi ke-2 Jumlah Data Kecelakaan ke(X1) Jumlah Kendaraan yang terlibat (X2) Jumlah Korban (X3) 1 103 200 143 2 25 48 33 3 2 4 2 4 51 104 74 Claster ke-1 (C1) 197 Claster Claster ke-2 (C2) ke-3 (C3) 196 172.3125 Anggota klaster C3 45 44 20.3125 C3 1 0.6 23.6875 C2 100.2 98.53846 75.21978 C3 34 5 6 11 7 6 4 8 5 7 12 22 14 8 3 6 3 9 5 9 7 10 . . . . 32 . . . . 65 . . . . 48 . . . . 116 2 4 2 117 2 4 2 118 2 4 1 119 3 6 3 7.2 5.538462 17.78022 C2 4.2 2.538462 20.78022 C2 18.2 16.53846 6.78022 C3 2.2 0.538462 22.78022 C2 5.2 4.153846 19.78022 C2 61.2 59.53846 36.21978 C3 . . . . . . . . . . . . 0.2 1.461538 24.78022 . . . . C1 0.2 1.461538 24.78022 C1 0.866667 1.846154 24.78022 C1 2.2 0.538462 22.78022 C2 Karena pada iterasi pertama dan kedua (table 4.3 dan 4.5) posisi klaster berubah, maka dilakukan iterasi ke-3 dengan terlebih dahulu menghitung titik pusat klaster baru. Untuk klaster pertama terdapat 18 data, sehingga: πΆ11 = πΆ12 = πΆ13 = 2+2+3+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2+2 18 4+3+4+4+4+4+4+4+4+4+4+4+2+4+4+4+4+4 18 2+1+2+2+2+2+2+2+3+2+2+3+2+2+3+2+2+1 18 = 2.055556 = 3.833333 = 2.055556 Untuk klaster kedua terdapat 63 data, sehingga: πΆ21 = 2+6+4+β―+4+3+3 = 4.539683 63 4 + 11 + 8 + β― + 8 + 5 + 6 = 9.142857 63 2 + 7 + 5 + β―+ 4 + 4 + 3 πΆ23 = 5.936508 63 πΆ22 = 35 Untuk klaster ketiga terdapat 38 data, sehingga: 103 + 25 + 51 + β― + 9 + 12 + 9 = 26.97368 38 200 + 48 + 104 + β― + 18 + 25 + 20 πΆ32 = = 55.31579 38 143 + 33 + 74 + β― + 12 + 18 + 11 πΆ33 = = 37.10526 38 πΆ31 = Tabel 4. 6 Centroid baru untuk iterasi 3 C1 C2 C3 Jumlah Jumlah Kendaraan Jumlah Korban Kecelakaan (x1) yang Terlibat (x2) (x3) 2.055556 4.539683 26.97368 3.833333 2.055556 9.142857 5.936508 55.31579 37.10526 Tabel 4. 7 Iterasi ke-3 Jumlah Data Kecelakaan ke(X1) Jumlah Kendaraan yang terlibat (X2) Jumlah Korban (X3) 1 103 200 143 2 25 48 33 3 2 4 2 4 51 104 74 5 6 11 7 6 4 8 5 7 12 22 14 8 3 6 3 9 5 9 7 10 . . . 32 . . . 65 . . . 48 . . . Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 196.1667 190.8571 144.6842 Anggota klaster C3 44.16667 38.85714 7.315789 C3 0.166667 5.142857 51.31579 C1 100.1304 94.41379 48.68421 C3 7.130435 1.413793 44.31579 C2 4.130435 1.586207 47.31579 C2 18.13043 12.41379 33.31579 C2 2.130435 3.586207 49.31579 C1 5.130435 0.87931 46.31579 C2 61.13043 55.41379 10.89474 C3 . . . . . . . . . . . . 36 . . . . 116 2 4 2 117 2 4 2 118 2 4 1 119 3 6 3 . . . 0.434783 5.586207 51.31579 . C1 0.434783 5.586207 51.31579 C1 1.434783 5.586207 51.31579 C1 2.130435 3.586207 49.31579 C1 Karena pada iterasi kedua dan ketiga (table 4.5 dan 4.7) posisi klaster berubah, maka dilakukan iterasi ke-4 dengan terlebih dahulu menghitung titik pusat klaster baru. Untuk klaster pertama terdapat 39 data, sehingga: 2+3+2+β―+2+2+3 = 2.435897 39 4 + 6 + 4 + β―+ 4 + 4 + 6 πΆ12 = = 4.74359 39 2+3+2+β―+2+1+3 πΆ13 = = 2.948718 39 πΆ11 = Untuk klaster kedua terdapat 57 data, sehingga: 6 + 4 + 12 + β― + 4 + 6 + 4 = 6.894737 57 11 + 8 + 22 + β― + 8 + 12 + 8 πΆ22 = = 14.07018 57 7 + 5 + 14 + β― + 4 + 8 + 4 πΆ23 = = 8.929825 57 πΆ21 = Untuk klaster ketiga terdapat 23 data, sehingga: πΆ31 = 103+25+51+32+58+16+45+25+28+19+52+55+30+48+61+28+18+16+76+16+19+21 23 = 37.3913 πΆ32 = 200+48+104+65+102+35+34+96+60+56+39+107+119+68+100+123+56+42+34+154+35+40+43 23 76.52174 = 37 πΆ33 = 143+33+74+48+77+24+43+59+38+32+21+73+101+44+50+86+39+16+18+99+20+27+32 23 = 52.04348 Tabel 4. 8 Centroid baru untuk iterasi 4 C1 C2 C3 Jumlah Jumlah Kendaraan Jumlah Korban Kecelakaan (x1) yang Terlibat (x2) (x3) 2.055556 4.539683 26.97368 3.833333 2.055556 9.142857 5.936508 55.31579 37.10526 Tabel 4. 9 Informasi Centroid akhir Jumlah Jumlah Kendaraan Jumlah Korban Kecelakaan (x1) yang Terlibat (x2) (x3) C1 4.795699 9.655914 6.16129 C2 20.76471 43.76471 28.58824 C3 61 122.7778 84.66667 Tabel 4. 10 Iterasi ke-10 Jumlah Data Kecelakaan ke(X1) Jumlah Kendaraan yang terlibat (X2) Jumlah Korban (X3) 1 103 200 143 2 25 48 33 3 2 4 2 4 51 104 74 5 6 11 7 6 4 8 5 7 12 22 14 8 3 6 3 Claster Claster Claster ke-1 (C1) ke-2 (C2) ke-3 (C3) 190.3441 156.2353 77.22222 Anggota klaster C3 38.34409 4.411765 74.77778 C2 5.655914 39.76471 118.7778 C1 94.34409 60.23529 18.77778 C3 1.344086 32.76471 111.7778 C1 1.655914 35.76471 114.7778 C1 12.34409 21.76471 100.7778 C1 3.655914 37.76471 116.7778 C1 38 9 5 9 7 10 . . . . 32 . . . . 65 . . . . 48 . . . . 116 2 4 2 117 2 4 2 118 2 4 1 119 3 6 3 0.83871 34.76471 113.7778 C1 55.34409 21.23529 57.77778 C2 . . . . . . . . . . . . 5.655914 39.76471 118.7778 . . . . C1 5.655914 39.76471 118.7778 C1 5.655914 39.76471 118.7778 C1 3.655914 37.76471 116.7778 C1 Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 10 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.9 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.10 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster 39 pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9. 4.2.2 Euclidean K-Means Berikut merupakan proses klasterisasi daerah rawan kecelakaan lalu lintas dengan menggunakan algoritma k-means dan Euclidean Distance sebagai perhitungan jarak setiap data terhadap pusat klaster: 1. Menentukan jumlah klaster, berapa banyak klaster yang akan dibuat, k=3. 2. Menentukan pusat klaster awal secara acak, missal ditentukan C1=(2,2,2); C2=(3,3,3); C3=(4,4,4). 3. Menghitung jarak setiap data terhadap pusat klaster, misalkan untuk menghitung jarak data pertama dengan pusat klaster pertama yaitu : Euclidean Distance 2 2 2 π·(π,π) = √(π1π − π1π ) + (π2π − π2π ) + β― + (πππ − πππ ) dimana: D (i,j) = Jarak data ke i ke pusat cluster j Xki = Data ke i pada atribut data ke k Xkj = Titik pusat ke j pada atribut ke k π·11 = √(103 − 2)2 + (200 − 2)2 + (143 − 2)2 = 263.222 Jarak data pertama dengan pusat klaster kedua: π·12 = √(103 − 3)2 + (200 − 3)2 + (143 − 3)2 = 261.551 Jarak data pertama dengan pusat klaster ketiga: π·13 = √(103 − 4)2 + (200 − 4)2 + (143 − 4)2 = 259.881 (4.2) 40 Hasil perhitungan terdapat pada table berikut: Tabel 4. 11 Iterasi 1 Data ke- Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2) Jumlah Korban (X3) 1 103 200 143 2 25 48 33 3 2 4 2 4 51 104 74 5 6 11 7 6 4 8 5 7 12 22 14 8 3 6 3 9 5 9 7 10 . . . . 32 . . . . 65 . . . . 48 . . . . 116 2 4 2 117 2 4 2 118 2 4 1 119 3 6 3 C1 C2 C3 263.2223 261.5511 259.8807 Anggota klaster C3 60.04998 58.38664 56.72742 C3 2 1.732051 2.828427 C2 134.1231 132.4613 130.8014 C3 11.04536 9.433981 7.874008 C3 7 5.477226 4.123106 C3 25.37716 23.72762 22.09072 C3 4.242641 3 2.44949 C3 9.110434 7.483315 5.91608 C3 83.57631 81.91459 80.25584 C3 . . . . . . . . . . . . 2 1.732051 2.828427 . . . . C2 2 1.732051 2.828427 C2 2.236068 4.242641 2.44949 3.605551 3 2.44949 C1 C3 4. Suatu data akan menjadi bagian anggota klaster dengan jarak terkecil dari pusat klaster. Misalkan untuk data pada tabel 4.11 diatas, jarak terkecil terdapat pada klaster ketiga sehingga data pertama masuk dalam anggota data klaster ketiga. Begitu pula untuk data ketiga, jarak terkecil terdapat pada klaster kedua sehingga data tersebut masuk dalam anggota klaster kedua. 41 5. Menghitung pusat klaster baru dengan mencari rata-rata dari semua data dalam klaster tertentu. Untuk klaster pertama terdapat 3 data, sehingga: 2+2+2 =2 3 3+2+4 πΆ12 = =3 3 1+2+1 = = 1.333333 3 πΆ11 = πΆ13 Untuk klaster kedua terdapat 19 data, sehingga: πΆ21 = 2 + 2 + 3 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2 + 2…+ 2 + 2 + 2 19 = 2.052632 πΆ22 = 4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4+4 19 =4 πΆ23 = 2+2+2+2+2+4+2+2+2+4+3+2+2+3+4+2+3+2+2 19 = 2.473684 Untuk klaster ketiga terdapat 97 data, sehingga: 103 + 25 + 51 + β― + 4 + 3 + 3 = 13.43299 97 200 + 48 + 104 + β― + 8 + 5 + 6 = = 27.4433 97 143 + 33 + 74 + β― + 4 + 4 + 3 = = 18.24742 97 πΆ31 = πΆ32 πΆ32 42 Tabel 4. 12 Centroid baru untuk iterasi 2 Jumlah Jumlah Kendaraan Jumlah Korban Kecelakaan (x1) yang Terlibat (x2) (x3) C1 2 3 1.33333 C2 2.052632 4 2.473684 C3 13.43299 27.4433 18.24742 Tabel 4. 13 Iterasi 2 Data ke- Jumlah Jumlah Kecelakaan Kendaraan yang (X1) terlibat (X2) Jumlah Korban (X3) 1 103 200 143 2 25 48 33 3 2 4 2 4 51 104 74 5 6 11 7 6 4 8 5 7 12 22 14 8 3 6 3 9 5 9 7 10 . . . . 32 . . . . 65 . . . . 48 . . . . 116 2 4 2 117 2 4 2 118 2 4 1 119 3 6 3 C1 262.8297 C2 C3 261.446 231.0006 Anggota klaster C3 59.63873 58.2618 27.82108 C3 1.20185 0.476599 30.72914 C2 133.7253 132.3324 101.885 C3 10.58825 9.223299 21.26349 C2 6.51494 5.116104 25.34793 C2 24.92879 23.57554 7.051494 C3 3.574602 2.274756 28.30453 C2 8.781293 7.360334 23.18998 C2 83.19722 81.79542 51.38536 C3 . . . . . . . . . . . . 1.20185 0.476599 30.72914 . . . . C2 1.20185 0.476599 30.72914 C2 1.054093 1.474624 31.2694 C1 3.574602 2.274756 28.30453 C2 43 Tabel 4. 14 Informasi centroid akhir Euclidean Distance Jumlah Jumlah Kendaraan Jumlah Korban Kecelakaan (x1) yang Terlibat (x2) (x3) C1 4.795699 9.655914 6.16129 C2 20.76471 43.76471 28.58824 C3 61 122.7778 84.66667 Tabel 4. 15 Iterasi ke-11 Jumlah Data Kecelakaan ke(X1) Jumlah Kendaraan yang terlibat (X2) Jumlah Korban (X3) 1 103 200 143 2 25 48 33 3 2 4 2 4 51 104 74 5 6 11 7 6 4 8 5 7 12 22 14 8 3 6 3 9 5 9 7 10 . . . . 32 . . . . 65 . . . . 48 . . . . 116 2 4 2 117 2 4 2 118 2 4 1 119 3 6 3 Claster Claster ke-1 (C1) ke-2 (C2) 254.1649 210.3857 Claster ke-3 (C3) 105.499 Anggota klaster C3 50.97842 7.439025 97.76073 C2 7.557885 51.38366 156.2784 C1 125.0509 81.26926 23.7988 C3 1.990061 41.92343 146.8039 C1 2.173427 46.00624 150.8964 C1 16.30104 27.62859 132.48 C1 5.155967 48.95422 153.8522 C1 1.084157 43.85388 148.7061 C1 74.52194 30.88667 74.32171 C2 . . . . . . . . . . . . 7.557885 51.38366 156.2784 . . . . C1 7.557885 51.38366 156.2784 C1 8.151332 51.90816 156.8097 C1 5.155967 48.95422 153.8522 C1 44 Iterasi akan berhenti jika posisi klaster tidak mengalami perubahan. Untuk data kecelakaan yang terjadi di 119 segmen jalan dibutuhkan iterasi sebanyak 11 kali untuk mendapatkan hasil klasterisasi akhir. Berdasarkan pada titik pusat centroid terakhir dalam tabel 4.14 diatas, dapat dikategorikan bahwa C1 merupakan kategori jalan yang tidak rawan kecelakaan, sedangkan C2 merupakan kategori jalan rawan kecelakaan dan C3 merupakan kategori jalan yang sangat rawan kecelakaan. Hasil analisis klastering dari table 4.15 : a. Klaster pertama (C1) mempunyai titik pusat klaster (4.795699, 9.655914, 6.16129) dan nilainya lebih rendah dari titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan bahwa C1 merupakan kelompok jalan yang tidak rawan kecelakaan lintas sebanyak 93. b. Klaster kedua (C2) mempunyai titik pusat klaster (20.76471, 43.76471, 28.58824) dan nilainya lebih besar dibandingkan dengan titik pusat klaster pertama tetapi lebih rendah dibandingkan dengan titik pusat klaster ketiga, sehingga dapat disimpulkan bahwa C2 merupakan kelompok jalan yang rawan kecelakaan lalu lintas sebanyak 17. c. Klaster ketiga (C3) mempunyai titikpusat klaster (61, 122.7778, 84.66667) dan nilainya lebih besar dibandingkan titik pusat klaster pertama dan kedua, sehingga dapat disimpulkan bahwa C3 merupakan kelompok jalan yang sangat rawan kecelakaan lalu lintas sebanyak 9. 4.3 Proses Menggunakan Rapidminer Setelah melalui proses preprocessing data akan diproses dengan menggunakan bantuan tools Rapidminer Studio 6.5.002. Data yang akan di import kedalam Rapidminer adalah data yang berbentuk excel dan berisikan nilai dari setiap variable seperti table berikut. Tabel 4. 16 Data yang diimport ke Rapidminer Jumlah Jumlah Kecelakaan Kendaraan 103 200 Jumlah Korban 143 45 25 2 51 6 4 12 3 5 32 . . . . 2 2 2 3 48 4 104 11 8 22 6 9 65 . . . . 4 4 4 6 33 2 74 7 5 14 3 7 48 . . . . 2 2 1 3 Nantinya data di atas akan diproses menggunakan rapidminer dengan Chebychev K-Means dan Euclidean K-Means maka diperoleh tabel centroid dan tabel hasil clustering sebagai berikut: Tabel 4. 17 Centroid Table Chebychev K-Means Cluster_0 Cluster_1 Cluster_2 4.795698924731183 20.764705882352942 61.0 Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban 9.655913978494624 43.76470588235294 122.77777777777777 6.161290322580645 28.58823529411765 84.66666666666667 Tabel 4. 18 Hasil Klastering Chebychev K-Means No 1 2 3 4 5 6 Id 1 2 3 4 5 6 Cluster cluster_2 cluster_1 cluster_0 cluster_2 cluster_0 cluster_0 Jumlah Kecelakaan 103 25 2 51 6 4 Jumlah Kendaraan yang terlibat 200 48 4 104 11 8 Jumlah Korban 143 33 2 74 7 5 46 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 cluster_0 cluster_0 cluster_0 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_2 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_1 cluster_2 cluster_2 cluster_1 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_2 cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_0 cluster_0 12 3 5 32 58 18 4 16 45 5 25 2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10 22 6 9 65 102 35 8 34 96 9 60 4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20 14 3 7 48 77 24 5 43 59 7 38 2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12 47 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 cluster_2 cluster_0 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_1 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 76 3 16 11 19 9 3 6 6 21 8 7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12 154 6 35 23 40 20 6 11 12 43 16 14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25 99 4 20 15 27 8 6 8 8 32 10 9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18 48 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 2 9 3 5 3 2 3 2 2 5 3 3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3 4 20 6 10 6 4 7 4 4 10 6 7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5 2 11 3 8 4 2 7 4 3 6 6 4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4 49 115 116 117 118 119 115 116 117 118 119 cluster_0 cluster_0 cluster_0 cluster_0 cluster_0 2 2 2 2 3 4 4 4 4 6 3 2 2 1 3 Tabel 4. 19 Tabel Centroid Euclidean K-Means Cluster_0 Cluster_1 Cluster_2 Jumlah Kecelakaan Jumlah Kendaraan Jumlah Korban 20.7647 4.7957 61 43.7647 9.65591 122.778 28.5882 6.16129 84.6667 Tabel 4. 20 Hasil Klastering Euclidean K-Means No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Id 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Cluster cluster_2 cluster_0 cluster_1 cluster_2 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_2 cluster_0 cluster_1 cluster_0 cluster_2 cluster_1 cluster_0 Jumlah Kecelakaan 103 25 2 51 6 4 12 3 5 32 58 18 4 16 45 5 25 Jumlah Kendaraan 200 48 4 104 11 8 22 6 9 65 102 35 8 34 96 9 60 Jumlah Korban 143 33 2 74 7 5 14 3 7 48 77 24 5 43 59 7 38 50 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_0 cluster_2 cluster_2 cluster_0 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_2 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_0 cluster_1 cluster_1 cluster_2 cluster_1 cluster_0 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 2 7 12 6 28 2 19 52 55 30 15 9 6 4 7 10 48 61 7 28 7 18 16 3 10 76 3 16 11 19 9 3 6 6 21 8 4 14 23 12 56 3 39 107 119 68 28 17 12 8 15 22 100 123 16 56 14 42 34 4 20 154 6 35 23 40 20 6 11 12 43 16 2 9 14 7 32 1 21 73 101 44 17 16 7 6 8 16 50 86 5 39 8 16 18 2 12 99 4 20 15 27 8 6 8 8 32 10 51 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_0 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 7 3 4 5 7 6 4 12 2 5 9 11 15 9 2 2 5 3 5 5 5 7 2 4 12 2 9 3 5 3 2 3 2 2 5 3 14 8 7 10 15 13 8 30 4 10 20 23 31 18 4 4 10 6 10 10 9 14 4 8 25 4 20 6 10 6 4 7 4 4 10 6 9 7 6 8 9 9 6 15 2 7 15 11 19 12 2 4 6 4 4 6 5 9 2 4 18 2 11 3 8 4 2 7 4 3 6 6 52 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 cluster_1 3 4 6 3 2 3 8 3 2 8 6 2 6 2 3 3 3 4 3 6 2 2 2 4 3 2 2 2 2 3 7 8 12 6 4 6 16 6 4 16 13 4 12 4 6 6 7 8 6 12 2 4 4 8 5 4 4 4 4 6 4 5 9 3 2 3 11 3 2 12 8 3 8 5 3 3 2 4 5 8 2 4 2 4 4 3 2 2 1 3 Dapat dilihat dari tabel 4.18 dan 4.20 kolom cluster merupakan hasil clustering data dimana cluster_0, cluster_1 dan cluster_2 menunjukan data tersebut masuk dalam anggota klaster 0, klaster 1 dan klaster 2. Dalam perhitungan manual klaster 1 memiliki nilai centroid akhir yang sama dengan cluster_0 pada table 4.17 dan cluster_1 pada table 4.19, klaster 2 53 juga memiliki nilai centroid akhir yang sama dengan cluster_1 pada table 4.17 dan cluster_0 pada table 4.19, klaster 3 memiliki nilai centroid akhir yang sama dengan cluster_2 pada table 4.17 dan 4.19. Sehingga dalam penentuan anggota cluster pun juga sama, dimana klaster 1 memiliki anggota sebanyak 93 data, klaster 2 memiliki anggota sebanyak 17 data sedangkan klaster 3 memiliki anggota sebanyak 9 data dengan rincian sebagai berikut: a. Klaster pertama (C1) dengan titik pusat klaster awal (2) nilainya lebih rendah daripada titik pusat klaster kedua dan ketiga, sehingga dapat disimpulkan C1 merupakan kelompok jalan dengan tingkat kerawanan (tidak rawan) kecelakaan lalu lintas yang terdiri dari 93 jalan. b. Klaster kedua (C2) dengan titik pusat klaster awal (3) nilainya lebih tinggi daripada klaster pertama dan nilainya dibawah klaster ketiga, sehingga dapat disimpulkan C2 merupakan kelompook jalan dengan tingkat kerawanan (rawan) kecelakaan lalu lintas yang terdiri dari 17 jalan. c. Klaster ketiga (C3) dengan titik pusat klaster awal (4) nilainya lebih tinggi daripada klaster pertama dan klaster kedua, sehingga dapat disimpulkan C3 merupakan kelompook jalan dengan tingkat kerawanan (sangat rawan) kecelakaan lalu lintas yang terdiri dari 9 jalan. Berdasarkan tabel 4.18 dan 4.20 maka didapat nama-nama daerah rawan kecelakaan lalu lintas yang tertera pada table 4.21 berikut: Tabel 4. 21 Daftar Daerah Rawan Kecelakaan Lalu Lintas Tidak Rawan Durian, Medoho raya, Brigjend Katamso, Fatmawati, Sarwo Edi Wibowo, Thamrin, Indraprasta, Ry Kudu, Sompok, Sriwijaya, A Yani, Veteran, Tol Jatingaleh, Sugiopranoto, Pahlawan, WR Supratman, Ry Smg-Demak, Teuku Umar, Imam Bonjol, Gajah Mada, Purwosari, Citarum raya, Mulawarman, Gajah raya, RE Martadinata, Kartini, Tol 54 Muktiharjo, Majapahit, Kyai Saleh, Gombel, Gunung Kelir Raya, Barito, Mentri Supeno, Ry Karangroto, Tol Imam Suprapto, Ry Cangkiran, Kaw Industri Candi, Klipang, Pandanaran, S. Parman, Diponegoro, Mr Koesbiono, Raya Kaligetas, Jati Raya, Bangetayu, Tugu muda, Kalibanteng, Puri Anjasmoro, Madukoro Raya, Komp. R Soekamto, Ngesrep, Abdulrahman Saleh, Dargo raya, Simongan, Kol R.Warsito Sugiarto, Sambiroto Ry, Kawi, Ry Mangunharjo, Karangrejo raya, Cemara raya, Wismasari, Sisingamangaraja, Ry Jatibarang, Kalipancur Raya, Sawah besar, Supriyadi, Kokrosono, DI panjaitan, Basudewo, Raden Patah, Kaligarang, Pringgading, Dr.Sutomo, Pengapon, Kauman, Muktiharjo Raya, Ry Muntal, Patemon, Mangunsari Raya, O Simpang Lima, Ketileng Raya, Elang Raya, Manyaran, Grafika Raya, Bringin Raya, Genuk indah, Candi KIC Gatot Subroto, Pusponjolo, Suyudono, Prof. Suharso, Pawiyatan Luhur IV, Tlogosari raya, Suratmo Rawan Dr. Cipto, MT Haryono, Woltermonginsidi, Tol Tembalang, Prof Dr.Hamka, Jend Sudirman, Pemuda, Urip Sumoharjo, Ry Gn.Pati, Dr Wahidin, Tentara Pelajar, Kedungmundu, Anton Sujarwo, Sultan Agung, Pamularsih, Ry Mangkang, Untung Suropati Sangat Rawan Brigjend Sudiarto, P.Kemerdekaan, Arteri Sukarno Hatta, Arteri Yos Sudarso, RM Hadi Subeno, Setiabudi, Walisongo, Siliwangi, Raya kaligawe 4.4 Pengujian Klastering Pengujian ini dilakukan untuk menentukan jumlah claster paling optimal dalam proses clustering tersebut, dengan membandingkan pengklasteran sebanyak 3 klaster menggunakan Chebychev K-Means 55 dengan Euclidean K-Means yang telah digunakan pada penelitian sebelumnya. Dimana dalam penentuannya, nilai DBI yang paling rendah diantara keduanya dianggap paling optimal dalam menghasilkan cluster set sebanyak 3 klaster. Berikut merupakan langkah perhitungan Davies Bouldin Index dengan menggunakan persamaan (2.2) sampai (2.5) : 1. Data yang digunakan adalah data yang di peroleh dari proses Chebychev K-Means dan Euclidean K-Means, yaitu data yang sudah ter-cluster. 2. Cari nilai rata-rata dari masing masing nilai cluster. 3. Hitung variance data dari masing-masing dalam cluster dengan menggunakan persamaan (2.2). 4. Cari R Max dari langkah 2 dan 3. 5. Hasil akhir adalah nilai DBI dari cluster. Langkah pertama, data yang digunakan dalam langkah ini adalah data yang telah ter-cluster dari Chebychev K-Means dan Euclidean KMeans yang didapat dari perhitungan manual menggunakan Excel. Dalam contoh ini penulis menampilkan 15 data yang telah terklaster menggunakan Chebychev k-means dan Euclidean k-means. Berikut tabel data hasil klasternya : Tabel 4. 22 Contoh hasil klaster untuk pengujian DBI pada Chebychev K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11 Jarak Cluster 77.22222 3 4.411765 2 5.655914 1 18.77778 3 1.344086 1 1.655914 1 12.34409 1 3.655914 1 0.83871 1 21.23529 2 20.77778 3 56 12 13 14 15 8.764706 1.655914 14.41176 26.77778 2 1 2 3 Tabel 4. 23 Contoh hasil klaster untuk pengujian DBI pada Euclidean K-Means Data ke i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Jarak 105.499 7.439025 7.557885 23.7988 1.990061 2.173427 16.30104 5.155967 1.084157 30.88667 22.34936 10.27208 2.173427 18.04857 40.39588 Cluster 3 2 1 3 1 1 1 1 1 2 3 2 1 2 3 Perhitungan DBI untuk Chebychev K-Means dengan menggunakan data yang tertera di table 4.22 1. Cari nilai rata-rata dari masing-masing nilai cluster πππ’π π‘ππ 1 = 5.655914 + 1.344086 + 1.655914 + 12.34409 + 3.655914 + 0.83871 + 1.655914 7 = 3.878648 4.411765 + 21.23529 + 8.764706 + 14.41176 = 12.20588 4 77.22222 + 18.77778 + 20.77778 + 26.77778 πππ’π π‘ππ 3 = = 35.88889 4 πππ’π π‘ππ 2 = 57 2. Hitung variance data dari masing-masing dalam cluster Cluster1 1 (5.655914 − 3.878648)2 + (1.344086 − 3.878648)2 7−1 π£ππ (π₯) = + (1.655914 − 3.878648)2 + (12.34409 − 3.878648)2 + (3.655914 − 3.878648)2 + (0.63671 − 3.878648)2 + (1.655914 − 3.878648)2 = 16.73637 Cluster2 π£ππ (π₯) = 1 (4.411765 − 12.20588)2 + (21.23529 − 12.20588)2 4−1 + (8.764706 − 12.20588)2 + (14.41176 − 12.20588)2 = 52.99539 Cluster3 π£ππ (π₯) = 1 (77.22222 − 35.88889)2 + (18.77778 − 35.88889)2 4−1 + (20.77778 − 35.88889)2 + (26.77778 − 35.88889)2 = 770.8642 3. Cari R max π 123 = 16.73637 + 52.99539 + 770.8642 = 19.01107 ||3.878648 − 12.20588 − 35.88889|| 4. Hasil akhir adalah nilai DBI dari cluster, berikut formulanya: π·π΅πΌ = 1 (19.01107) = 6.337024 3 Dengan langkah yang sama dilakukan pada Euclidean K-Means dan perhitungan menggunakan data pada table 4.23 dan lakukan pencarian DBI dengan menggunakan hasil klaster dari table 4.23. Hasil dari Davies Bouldin Index antara Chebychev K-Means dan Euclidean K-Means dapat dilihat pada table 4.24. berikut: Tabel 4. 24 Perbandingan Nilai DBI Sample Klaster Nilai DBI Chebychev Distance K-Means 6.337024 Euclidean Disance K-Means 9.38884 58 Tabel 4. 25 Hasil Perbandingan Nilai DBI Global pada Rapidminer Klaster Nilai DBI Chebychev K-Means 0.416 Euclidean K-Means 0.426 Pada tabel 4.25 menerangkan bahwa dari keseluruhan data yang telah terklaster memiliki nilai DBI sebesar 0.416 dan 0.426, sehingga nilai DBI paling rendah yang tertera dalam tabel 4.25 adalah Chebychev KMeans dengan nilai DBI 0.416. 4.5 Hasil Pengujian Berdasarkan hasil pengujian pada table 4.25 diatas, maka dapat diketahui dalam kasus ini bahwa untuk pengklasteran K-Means yang menggunakan Chebychev K-Means paling optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan dengan K-Means yang menggunakan Euclidean Distance. Hal ini disebabkan karena nilai DBI dari Chebychev K-Means (0.416) lebih rendah dibandingkan Euclidean Distance (0.426). BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan Dari hasil penelitian yang dilakukan, maka dapat disimpulkan bahwa: terdiri dari 93 jalan tidak rawan kecelakaan lalu lintas, 17 jalan rawan kecelakaan lalu lintas, dan 9 jalan sangat rawan kecelakaan lalu lintas dapat dilihat pada tabel 4.21 . Sedangkan hasil pengujian pengklasteran Chebychev K-Means dengan menggunakan Davies Bouldin Indeks (DBI) memiliki nilai 0.416 dan untuk Euclidean K-Means sebesar 0.426. hal tersebut menandakan bahwa pengklasteran dengan Chebychev K-Means lebih optimal dalam menghasilkan cluster set sebanyak 3 klaster dibandingkan Euclidean K-Means karena penentuan nilai DBI yang paling rendah diantara keduanya dinilai paling optimal. 5.2 Saran Dari penelitian yang telah dilakukan, peneliti memberikan saran sebagai berikut: 1. Penelitian ini dapat dikembangkan dengan algoritma data mining lainnya khususnya algoritma didalam teknik clustering, membandingkan atau mengkombinasikan dengan algoritma lain untuk mendapatkan hasil yang lebih optimal. 2. Dapat dikembangkan dengan menggunakan system atau apikasi yang menarik dan informatif dalam menyediakan informasi daerah rawan kecelakaan lalu lintas di Kota Semarang. 59 DAFTAR PUSTAKA [1] Ryan Manggala, Jeffry Angga J., Djoko Purwanto , Amelia Kusuma I. “Studi Kasus Faktor Penyebab Kecelakaan Lalu Lintas Pada Tikungan Tajam”. Jurnal Karya Teknik Sipil. 2015. [2] E. G. A. Lizda Iswari, "Pemanfaatan Algoritma K-Means Untuk Pemetaan Hasil Klasterisasi Data Kecelakaan Lalu Lintas". Universitas Islam Indonesia. 2015. [3] Wawan Yunanto, Mochamad Hariadi, Mauridhi Hery Purnomo. “Pemetaan Kecelakaan Lalu Lintas Berbasis Klasifikasi Naïve Bayes dengan Parameter Infrastruktur Jalan”. [4] Natalis Rans. “Pengaplikasian Algoritma Classification Based on Predictive Association Rules Untuk Analisa Karakteristik Kecelakaan Lalu Lintas (Studi pada Kepolisian Daerah Sulawesi Tenggara)”. Universitas Gadjah Mada. Yogyakarta. 2014. [5] International Labour Organization, "A. Worker's Education Manual International Labour Office," Accident Prevention , 1998. [6] “Undang-Undang RI Nomor 22 Tentang Lalu Lintas Dan Angkutan Jalan (LLAJ),”2009. [7] Aztria Dharma. “Identifikasi Kecelakaan Lalu Lintas (Study Kasus Jalan Dalu-dalu sampai Pasir Pengaraian)”. Universitas Pasir Pengaraian. [8] H. M. T. R. P. Simanungkalit, Y. Aswad. “Analisa faktor penyebab kecelakaan lalu lintas di ruas jalan Sisingamangaraja Kota Medan”.Universitas Sumatera Utara. 2014. [9] J. O. Ong, “Implementasi Algotritma K-means clustering untuk menentukan strategi marketing president university,” Jurnal Ilmiah Teknik Industri vol.12, 2013. [10] M. Anggara, H. Sujiani, H. Nasution, “Pemilihan Distance Measure Pada KMeans Clustering Untuk Pengelompokkan Member Di Alvaro Fitness,” vol. 1, no. 1, pp. 1–6, 2016. 60 61 [11] D. Sinwar, R. Kaushik, “Study of Euclidean and Manhattan Distance Metrics using Simple K-Means Clustering,” Int. J. Res. Appl. Sci. Eng. Technol., vol. [12, no. 5, pp. 270–274, 2014. [12] Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining, John Willey & Sons, Inc. [13] Santosa, Budi. 2007. Data Mining Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Graha Ilmu. [14] Erga Aprina Sari. " Penerapan Algoritma K-Means untuk menentukan tingkat kesehatan bayi dan balita pada kabupaten dan kota di Jawa Tengah". Universitas Dian Nuswantoro. Semarang. 2015. [15] S. Agustina, D. Yhudo, H. Santoso, N. Marnasusanto, A. Tirtana, F. Khusnu, “Clustering Kualitas Beras Berdasarkan Ciri Fisik Menggunakan Metode KMeans Algorima,” Clust. K-Means, pp. 1–7, 2012. [16] F. Irhamni, F. Damayanti, B. Khusnul K., Mifftachul A., “Optimalisasi Pengelompokan Kecamatan Berdasarkan Indikator Pendidikan Menggunakan Metode Clustering dan Davies Bouldin Index,” Universitas Trunojoyo. Madura. 2014. [17] Irwan Budiman. “ Data Clustering Menggunakan Metodologi CRISP-DM untuk Pengenalan Pola Proporsi Pelaksanaan Tridharma,” Universitas Diponegoro. 2012. [18] Bayu Pramadya K.S. “Analisis Penentuan Lokasi Rawan Kecelakaan Lalu Lintas di Jalur Utama Kabupaten Jember (Metode Pencacahan Indikator Kerawanan),” Universitas Jember. 2012. [19] Isa Al Qurni. “ Analisis Rawan Kecelakaan Lalu Lintas di Jalan Nasional Kabupaten Kendal,” Universitas Negeri Semarang. 2013. [20] Alith Fajar M. “Klasterisasi Proses Seleksi Pemain Menggunakan Algoritma K-Means,” Universitas Dian Nuswantoro. Semarang. 2015