bab v kesimpulan dan saran

advertisement
BAB V
KESIMPULAN DAN SARAN
5.1
Kesimpulan
Berdasarkan hasil penelitian dan pembahasan, beberapa hal yang dapat disimpulkan
antara lain sebagai berikut:
1. Penerapan algoritme k-means++ clustering dengan careful seeding dapat digunakan sebagai
salah satu upaya meningkatkan performa simple k-means pada inisiasi pemilihan awal
centroid yang bersifat random sehingga mengakibatkan hasil cluster menjadi kurang optimal.
Algoritme k-means++ memperbaiki initial starting condition untuk memastikan agar
centroid tidak terlalu dekat satu sama lain dan mencapai konvergensi yang lebih baik
daripada simple k-means, dibuktikan dengan nilai SSE optimal k-means++ yang lebih kecil
seiring dengan bertambahnya jumlah cluster (k), dan nilai Silhouette Coefficient (SC) yang
cukup baik, yaitu rata-rata nilai k-means++ pada kategori Medium Structure sedangkan
algoritme simple k-means pada kategori Weak Structure.
2. Pendekatan data pre-proccessing sebagai optimasi proses pre-mining dengan tahap,
Extract/Select Data → Load Data ke Star Schema → Denormalisasi → Pembersihan Data
→ Transformasi Data → Konversi Sparse Data. Penerapan Hadoop Platform dapat
digunakan sebagai salah satu upaya mengatasi masalah skalabilitas dataset besar pada kmeans++ yang menyebabkan multiple starting point pada saat inisiasi, meskipun algoritme
scalable k-means++ dengan Hadoop Platform mempunyai karakteristik komputasi dengan
pemakaian resource yang tinggi yang diakibatkan workload pemprosesan data berbasis
HDFS/storage pada MapReduce sehingga pada spesifikasi komputasi minimum dapat terjadi
bottleneck pada latency dan throughput. Akan tetapi scalable k-means++ mempunyai
keunggulan pada hasil iterasi yang paling sedikit pada konvergensi cluster dengan nilai SSE
terbaik.
3. Scalable k-means++ menghasilkan 5 cluster dengan karakteristik jumlah kelompok, yaitu:
Very Low, low, Average, High, Very High, yang digunakan untuk mengekstraksi pola
temporal penumpang berdasarkan waktu (temporal) segmentasi penumpang (structure) untuk
mengetahui keberagaman dan peak demand penumpang pada lokasi keberangkatan (spatio).
Dari hasil visualisasi segmentasi penumpang diketahui jenis kartu singletrip/sekali jalan
masih mendominasi, yang menunjukkan tipikal penumpang Trans Jogja masih belum banyak
yang berminat memiliki smart card pribadi sebagai alat pembayaran transportasi publik, peak
demand diketahui pada hari Senin, Jum’at dan Sabtu, dengan peak transaksi pada rentan
waktu antara jam 2 siang hingga jam 4 sore yang didominasi pada destinasi wisata, terminal
transportasi dan fasilitas dan pelayanan umum seperti pusat perbelanjaan dan rumah sakit.
5.2
Saran
Saran selanjutnya mengenai penelitian data mining pada smart card automatic fare
collection system (SCAFCS) adalah:
1. Penelitian fokus pada optimasi simple k-means menggunakan k-means++ dengan penerapan
Hadoop Platform pada Virtualisasi Machine (VM). Untuk scalable jumlah data dan variasi
data yang lebih banyak di sarankan menggunakan komputasi multi node dengan dedicated
server/virtual untuk performa yang maksimal. Karena workload Hadoop Distribution File
System (HDFS) yang tinggi pada MapReduce Job service, sehingga membutuhkan banyak
resource. Dapat juga membandingkan beberapa machine learning library dengan framework
yang berbeda seperti Mahout dengan Hadoop, atau Mllib dengan Spark yang lebih powerful
karena proses komputasinya yang berbasis memory dan CPU lebih cepat daripada proses
komputasi yang berbasis HDFS.
2. Pada metode k-means clustering yang di usulkan masih mempunyai keterbatasan untuk
menentukan jumlah cluster yang optimum secara mandiri/otomatis, dimana dalam penelitian
ini jumlah cluster optimum ditentukan dengan menjalankan beberapa kali percobaan dengan
parameter jumlah cluster dan seed yang berbeda dan di ambil jumlah cluster dengan hasil
SSE dan sillhoutte coefficient terbaik, untuk penelitian selanjutnya dapat menggabungkan
beberapa algoritme untuk menentukan jumlah cluster yang optimum secara mandiri/otomatis.
3. Menerapkan data fusion multi-source seperti data GPS bus, survei household (origindestination), atau penambahan smart card data capture selain tap in yaitu tap transit dan tap
out untuk mengetahui pola historis perjalanan penumpang untuk mengekstrak informasi yang
lebih detail dan komprehensif.
Download