BAB V KESIMPULAN DAN SARAN 5.1 Kesimpulan Berdasarkan hasil penelitian dan pembahasan, beberapa hal yang dapat disimpulkan antara lain sebagai berikut: 1. Penerapan algoritme k-means++ clustering dengan careful seeding dapat digunakan sebagai salah satu upaya meningkatkan performa simple k-means pada inisiasi pemilihan awal centroid yang bersifat random sehingga mengakibatkan hasil cluster menjadi kurang optimal. Algoritme k-means++ memperbaiki initial starting condition untuk memastikan agar centroid tidak terlalu dekat satu sama lain dan mencapai konvergensi yang lebih baik daripada simple k-means, dibuktikan dengan nilai SSE optimal k-means++ yang lebih kecil seiring dengan bertambahnya jumlah cluster (k), dan nilai Silhouette Coefficient (SC) yang cukup baik, yaitu rata-rata nilai k-means++ pada kategori Medium Structure sedangkan algoritme simple k-means pada kategori Weak Structure. 2. Pendekatan data pre-proccessing sebagai optimasi proses pre-mining dengan tahap, Extract/Select Data → Load Data ke Star Schema → Denormalisasi → Pembersihan Data → Transformasi Data → Konversi Sparse Data. Penerapan Hadoop Platform dapat digunakan sebagai salah satu upaya mengatasi masalah skalabilitas dataset besar pada kmeans++ yang menyebabkan multiple starting point pada saat inisiasi, meskipun algoritme scalable k-means++ dengan Hadoop Platform mempunyai karakteristik komputasi dengan pemakaian resource yang tinggi yang diakibatkan workload pemprosesan data berbasis HDFS/storage pada MapReduce sehingga pada spesifikasi komputasi minimum dapat terjadi bottleneck pada latency dan throughput. Akan tetapi scalable k-means++ mempunyai keunggulan pada hasil iterasi yang paling sedikit pada konvergensi cluster dengan nilai SSE terbaik. 3. Scalable k-means++ menghasilkan 5 cluster dengan karakteristik jumlah kelompok, yaitu: Very Low, low, Average, High, Very High, yang digunakan untuk mengekstraksi pola temporal penumpang berdasarkan waktu (temporal) segmentasi penumpang (structure) untuk mengetahui keberagaman dan peak demand penumpang pada lokasi keberangkatan (spatio). Dari hasil visualisasi segmentasi penumpang diketahui jenis kartu singletrip/sekali jalan masih mendominasi, yang menunjukkan tipikal penumpang Trans Jogja masih belum banyak yang berminat memiliki smart card pribadi sebagai alat pembayaran transportasi publik, peak demand diketahui pada hari Senin, Jum’at dan Sabtu, dengan peak transaksi pada rentan waktu antara jam 2 siang hingga jam 4 sore yang didominasi pada destinasi wisata, terminal transportasi dan fasilitas dan pelayanan umum seperti pusat perbelanjaan dan rumah sakit. 5.2 Saran Saran selanjutnya mengenai penelitian data mining pada smart card automatic fare collection system (SCAFCS) adalah: 1. Penelitian fokus pada optimasi simple k-means menggunakan k-means++ dengan penerapan Hadoop Platform pada Virtualisasi Machine (VM). Untuk scalable jumlah data dan variasi data yang lebih banyak di sarankan menggunakan komputasi multi node dengan dedicated server/virtual untuk performa yang maksimal. Karena workload Hadoop Distribution File System (HDFS) yang tinggi pada MapReduce Job service, sehingga membutuhkan banyak resource. Dapat juga membandingkan beberapa machine learning library dengan framework yang berbeda seperti Mahout dengan Hadoop, atau Mllib dengan Spark yang lebih powerful karena proses komputasinya yang berbasis memory dan CPU lebih cepat daripada proses komputasi yang berbasis HDFS. 2. Pada metode k-means clustering yang di usulkan masih mempunyai keterbatasan untuk menentukan jumlah cluster yang optimum secara mandiri/otomatis, dimana dalam penelitian ini jumlah cluster optimum ditentukan dengan menjalankan beberapa kali percobaan dengan parameter jumlah cluster dan seed yang berbeda dan di ambil jumlah cluster dengan hasil SSE dan sillhoutte coefficient terbaik, untuk penelitian selanjutnya dapat menggabungkan beberapa algoritme untuk menentukan jumlah cluster yang optimum secara mandiri/otomatis. 3. Menerapkan data fusion multi-source seperti data GPS bus, survei household (origindestination), atau penambahan smart card data capture selain tap in yaitu tap transit dan tap out untuk mengetahui pola historis perjalanan penumpang untuk mengekstrak informasi yang lebih detail dan komprehensif.