PRESENTASI LAPORAN TUGAS AKHIR ANALISA PERBANDINGAN METODE HIERARCHICAL CLUSTERING, K-MEANS DAN GABUNGAN KEDUANYA DALAM CLUSTER DATA (STUDI KASUS : PROBLEM KERJA PRAKTEK JURUSAN TEKNIK INDUSTRI ITS) Tahta Alfina (2508100055) Pembimbing : Prof.Ir.Budi Santosa,M.S.,P.hD Ko-Pembimbing : Ali Ridho Barakbah, S.Kom.,P.hD Jurusan Teknik Industri Institut Teknologi Sepuluh Nopember Surabaya CLustering Partisi (K-Means ) Kombinasi Hierarchical Clustering dan K-Means Hierarchical Clustering Hierarchical Clustering cut-off (Santosa, 2007) Macam Metode Hierarki Metode hierarki Single linkage Complete linkage Centroid linkage Average linkage K-means Memisahkan data ke dalam k cluster dengan waktu komputasi yang cepat Peneliti telah mengetahui karakteristik data yang akan diclusterkan Centroid dari clusternya dibangkitkan secara random Kelemahan K-means Hasil cluster algoritma K-means sangat tergantung pada pembangkitan centroid diawal secara random Hasil clustering dengan algoritma K-means bersifat tidak unik (berubah-ubah), kadang baik kadang jelek Memungkinkan sebuah cluster dalam K-means tidak memiliki anggota sama sekali DATA Rumusan Masalah Sejauh mana kombinasi algoritma hierachical clustering dan K-means dapat digunakan untuk mengelompokkan problem kerja praktek di Jurusan Teknik Industri ITS ? Bagaimana melakukan document clustering dengan menggunakan metode hierachical clustering dan K-means untuk mengelompokan problem kerja praktek di Jurusan Teknik Industri ITS? Tujuan Melakukan pengujian dan perbandingan terhadap metode hierarchical clustering, kmeans dan gabungan keduanya dalam mengelompokkan data khususnya data teks problem kerja praktek Jurusan Teknik Industri ITS sehingga dapat diketahui metode mana yang menghasilkan cluster terbaik serta mengetahui faktor apa saja yang berpengaruh dalam membentuk cluster data. Manfaat 1. 2. 3. Menambah wawasan keilmuan dan memperdalam konsep dan teori tentang metode analisis cluster terutama hierarchical clustering dan KMeans serta gabungan keduanya dalam pengelompokan data sehingga dapat dibandingkan performansinya. Memberikan kontribusi dalam penentuan dan teknik pengelompokan problem pada program Kerja Praktek serta sebagai bahan masukan untuk perbaikan perancangan SI-KP Jurusan Teknik Indutri ITS berikutnya. Mengetahui problem utama pada Program Kerja Praktek di Jurusan Teknik Industi ITS Batasan dan Asumsi Penelitian BATASAN PENELITIAN 1. 2. data yang digunakan untuk sampel pengujian merupakan data sekunder dari group forum diskusi online facebook SI-KP TI ITS dan dari buku pengaduan (saran dan kritik) pelaksanaan kerja Praktek Angkatan 2008. Ukuran jarak yang digunakan dalam penelitian menggunakan Euclidean distance ASUMSI PENELITIAN 1. 2. posting data dan komentar yang ada pada posting yang bersangkutan dianggap sama yaitu sebagai posting. Hal ini disebabkan oleh munculnya berbagai macam komentar dari member dalam forum yang membahas topik yang berbeda dengan topik awal yang dipostkan pada forum diskusi. Sampel yang diambil benar-benar dapat mewakili populasi yang ada (representativeness of the sample) Metodologi Penelitian Tahap Pengolahan Data Penentuan Keywords Koordinator KP Interview dengan bantuan Kuisioner Bagian Administrasi KP Mahasiswa 40 Keywords Cetak 40 … … …. … Mahasiswa 4 registrasi 3 KP 2 SI-KP 1 Keywords No 1 0 1 0 1 … … 0 2 3 1 0 0 1 0 1 0 0 … … … … 0 4 5 0 0 1 1 1 0 0 0 … … … … 0 0 6 0 1 1 0 … … 0 7 8 0 2 2 0 1 0 0 0 … … … … 0 0 9 10 1 0 2 1 0 0 0 0 … … … … 0 0 11 12 … 0 0 6 1 2 0 0 0 … … … … 0 0 327 … 0 Metadata • frekuensi keywords • matriks data Algoritma Hierarchical Clustering dan K-Means Tahap Clustering cut-off Hasil Cluster Hierarchical Clustering AVERAGE LINKAGE CLUSTERING SINGLE LINKAGE CLUSTERING 10 7 8 6 5 6 4 4 3 2 2 1 0 309 322 201 180 102 208 181 157 161 171 314 10 63 36 75 81 190 56 187 62 266 261 310 324 227 262 318 197 224 205 184 71 111 72 143 215 242 160 282 257 265 308 168 269 289 256 286 188 306 307 300 191 253 214 246 195 192 175 221 76 82 200 84 260 211 12 239 245 164 174 73 89 294 17 167 315 183 165 258 163 323 99 194 95 156 155 145 64 122 80 131 140 276 67 135 33 106 41 114 132 118 142 107 32 130 127 69 123 70 117 125 40 327 74 325 179 321 319 313 312 133 126 39 296 295 290 93 292 291 113 278 281 196 30 116 275 255 270 146 217 267 226 148 264 150 120 263 154 86 4 252 273 5 250 21 240 162 237 233 225 159 55 169 170 219 172 173 166 218 88 216 259 209 124 198 136 189 193 304 254 110 177 186 24 178 14 320 119 301 311 297 103 244 288 284 283 35 280 279 158 202 203 204 272 271 151 43 152 185 104 212 96 19 248 20 241 176 97 236 9235 78 228 101 317 134 302 68 238 1 299 207 153 16 115 3 303 220 65 247 83 230 92 100 57 298 66 137 251 305 139 243 287 293 277 274 223 60 222 210 15 90 112 91 87 51 182 234 698 31 268 8 232 77 199 2 29 108 59 723 138 47 144 141 231 129 285 105 27 121 149 249 53 34 147 85 128 28 79 13 229 58 42 48 38 326 94 316 45 206 44 61 18 11 37 50 26 52 213 46 109 22 49 54 25 0 309 322 201 180 102 208 181 155 157 161 171 314 194 95 323 99 313 133 170 120 24 263 217 267 226 196 30 116 163 165 258 264 198 124 209 325 252 273 136 189 193 304 254 237 97 235 103 152 281 317 113 278 159 169 185 158 271 216 259 220 241 255 270 166 173 176 1 202 167 315 183 4164 36 174 200 260 205 82 84 132 10 575 81 64 122 80 131 140 276 67 221 76 148 211 12 239 245 110 93 88 294 17 63 73 123 89 190 56 145 127 69 71 72 70 187 62 266 197 224 184 261 310 324 227 262 318 225 280 86 233 55 14 284 21 218 16 250 228 275 247 107 32 130 219 135 33 106 114 41 295 39 117 40 125 111 74 143 215 242 191 253 175 188 306 307 300 195 192 126 172 156 160 282 257 265 308 168 269 289 214 246 256 286 118 142 291 179 321 319 244 288 290 292 134 35 279 272 327 248 312 302 104 96 146 150 162 297 177 78 186 3 178 320 204 92 151 203 240 119 199 207 182 283 19 212 20 296 210 236 274 101 154 112 137 51 268 98 231 2 230 277 43 983 90 91 23 115 65 303 301 311 68 66 222 77 251 305 234 153 223 15 232 27 6 129 249 42 326 285 60 238 299 298 139 243 287 293 100 31 105 121 53 58 57 87 147 85 128 138 47 144 141 229 79 206 45 894 29 108 59 7149 18 316 13 44 22 11 48 37 38 49 28 52 26 213 61 109 34 50 46 54 25 SINGLE AVERAGE CENTROID LINKAGE CLUSTERING COMPLETE LINKAGE CLUSTERING 15 10 9 8 10 7 6 5 4 5 3 2 1 0 309 322 201 180 102 208 181 155 194 95 323 99 157 161 171 314 198 133 136 313 217 24 267 226 120 263 170 254 189 193 304 235 97 237 103 152 281 182 127 69 171 233 72 166 173 64 122 80 5 131 140 276 67 132 10 75 81 63 221 76 146 190 56 145 211 12 195 312 172 239 88 245 294 17 73 123 89 84 86 93 14 284 21 16 164 36 174 205 82 200 260 110 280 159 169 185 176 202 196 30 116 165 258 264 163 209 325 252 273 117 40 125 126 74 187 62 266 197 224 261 310 324 184 225 227 262 318 113 278 216 259 203 240 204 92 151 218 250 283 137 51 220 241 255 270 119 199 207 19 20 107 32 130 219 135 33 106 114 290 292 134 35 279 178 320 39 291 41 214 246 256 286 111 143 215 242 191 253 175 188 306 307 300 192 118 142 295 160 282 257 265 308 168 269 289 244 288 179 321 319 156 327 272 212 296 153 223 98 2 210 27 236 8 228 275 247 231 248 302 167 70 315 4 183 150 162 297 104 96 268 234 230 77 222 251 305 55 57 387 15 177 78 6186 79 206 13 232 44 22 45 94 249 42 326 139 317 243 287 293 238 299 141 47 138 144 229 124 60 158 271 285 101 154 112 29 108 59 7109 18 149 316 277 43 129 923 115 65 303 68 66 83 90 148 91 301 311 274 48 100 31 298 105 121 53 58 11 147 85 128 37 38 49 26 213 61 54 25 28 52 34 50 46 COMPLETE 0 309 322 201 180 102 208 181 155 157 161 171 314 194 95 323 99 196 30 116 163 165 258 264 209 325 252 273 198 132 10 75 81 64 122 80 131 140 276 67 164 36 174 205 82 200 84 260 167 315 183 294 17 63 73 123 89 190 56 145 127 69 71 72 70 187 62 266 197 224 261 310 324 184 227 262 318 221 76 211 12 239 245 135 33 106 41 117 40 125 111 143 215 242 191 253 175 188 306 307 300 195 192 214 246 156 160 282 257 265 308 168 269 289 256 286 110 126 118 142 291 166 21 173 172 219 225 255 270 74 228 93 275 250 146 120 24 5 263 217 267 226 136 189 193 304 254 313 170 133 237 97 235 152 281 280 244 39 288 279 179 321 319 233 113 278 159 169 124 158 271 185 248 312 55 176 86 4 202 177 186 216 14 259 104 96 150 162 297 284 151 240 218 203 236 88 19 295 20 107 32 130 114 290 292 212 35 296 134 272 327 204 16 241 1 178 320 119 207 283 92 3 247 101 154 43 115 65 9 148 301 311 303 68 66 83 90 274 91 137 51 103 317 298 139 243 287 293 302 57 182 87 210 222 98 251 2 305 199 268 231 153 223 230 60 15 277 6 112 8 100 31 105 121 53 58 234 77 78 238 79 299 285 27 138 47 144 141 220 29 108 59 7 149 129 232 229 249 42 326 45 94 11 147 85 128 23 48 13 44 28 52 37 38 206 49 22 316 18 26 213 61 109 34 50 46 54 25 CENTROID Dendrogram Hasil Cluster 2.4 2.2 2 1.8 1.6 1.4 1.2 283 19 20 212 296 210 236 274 101 154 112 51 137 2 98 268 231 230 9 43 277 83 90 91 23 65 115 303 301 311 68 66 77 222 251 305 234 153 223 6 15 Hasil Cluster K-means Single Linkage dan Kmeans Centroid Linkage dan K-means Complete linkage dan K-means Average Linkage dan K-means 3 Skenario : • 3 cluster • 5 cluster • 7 cluster Metode Cluster ke N data 33 256 38 11 266 16 1 33 38 228 38 11 10 1 1 Average linkage clustering dengan Kmeans 1 2 3 1 2 3 4 5 1 2 3 4 5 6 7 33 256 38 42 238 8 2 37 10 228 38 38 11 1 1 Cluster ke N data Metode Cluster ke N data 1 2 3 1 2 3 4 5 1 2 3 4 5 6 7 33 256 38 238 42 2 37 8 11 228 38 38 1 1 10 Centroid linkage clustering dengan Kmeans 1 2 3 1 2 3 4 5 1 2 3 4 5 6 7 33 256 38 42 238 8 2 37 12 172 93 41 6 2 1 Metode Cluster ke N data Single linkage clustering dengan Kmeans 1 2 3 1 2 3 4 5 1 2 3 4 5 6 7 Metode Complete linkage clustering dengan Kmeans Hasil Cluster Metode K-means Cluster ke N data 1 217 2 24 3 86 1 2 7 45 3 4 78 113 5 1 84 14 2 3 83 17 4 5 66 39 6 101 7 7 Pengujian Hasil Cluster Ada 4 pengujian : Cluster Variance Koefisien Korelasi Cophenetic Metode Silhouette Coeficient Waktu Komputasi 1. Cluster Variance digunakan untuk melihat penyebaran dari data-data hasil clustering dengan metode K-means. (Barakbah dan Kiyoki, 2009). Variance cluster ke-i Variance within cluster Variance between cluster Cluster Variance 1. Cluster Variance Variance Within Cluster 8.0000 7.0000 6.0000 varian 5.0000 3 4.0000 5 3.0000 7 2.0000 1.0000 0.0000 Kmeans Single linkage dan Average linkage Complete linkage Centriod linkage K-means dan K-means dan K-means dan K-means 1. Cluster Variance 1. Cluster Variance 2. Koefisien Korelasi Cophenetic Nilai dari koefisien ini mengukur korelasi antara jarak yang dihitung selama penyusunan dendrogram dan jarak sebenarnya (Santosa, 2007) 3. Metode Shillouette Metode ini berfungsi untuk menguji kualitas dari cluster yang dihasilkan. 3 cluster 5 cluster 7 cluster Complete Single Average Centroid Kmeans 279 279 279 279 263 283 298 283 283 214 284 284 284 294 217 4.Waktu Komputasi Kesimpulan Ada 4 parameter yang digunakan dalam evaluasi hasil cluster dan semua memberikan hasil yang berbeda. Berdasarkan parameter uji cluster variance, hasil cluster terbaik dihasilkan oleh metode single linkage clustering Berdasarkan metode Silhouette, dalam problem kerja praktek di Jurusan Teknik Industri ITS, metode K-Means memberikan hasil cluster yang terbaik dibandingkan dengan metode lainnya. Jumlah cluster dan data yang digunakan dalam pengujian sangat berpengaruh terhadap hasil akhir cluster Problem yang paling sering dialami oleh stakeholder Kerja Praktek di Jurusan Teknik Industri ITS adalah berkaitan dengan masalah logbook, pembimbing dan email. SARAN Untuk mengetahui performansi dan waktu komputasi algoritma yang diuji, dalam penelitian selanjutnya dapat digunakan data set tertentu atau data yang ukurannya lebih besar. Untuk menunjang kebutuhan jurusan Teknik Industri ITS, algoritma clustering ini dapat dibuat interfacenya dengan menggunakan web. DAFTAR PUSTAKA (1) Aliguliyev, R. M. 2009. Clustering of document collection – A weighting approach. Expert Systems with Applications, 36, 7904-7916. Arai, K. dan Barakbah, A. R. 2007. Hierarchical K-means: an algorithm for centroids initialization for K-means. Arifin, A. Z. dan Setiono, A. N. 2002. Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritma Single Pass Clustering. Barakbah, A. R. dan Kiyoki,Y. Year. A pillar algorithm for k-means optimization by distance maximization for initial centroid designation. In, 2009. IEEE, 61-68. Bezdeck, J. C. 1974. Cluster Validity with fuzzy sets. Fung, B. C. M., Wang, K. dan Ester, M. 2003. Hierarchical Document Clustering. Hakim, R. 2009. Professional Website Dengan Joomla 1.5, Elex Media Komputindo. Han, J., Kamber, M. dan Pei, J. 2011. Data Mining: Concepts and Techniques, Elsevier Science. Jiang, S., Pang, G., Wu, M. dan Kuang, L. 2011. An improved K-nearest-neighbor algorithm for text categorization. Expert Systems with Applications, 39, 1503-1509. Kaufman, L. dan Rousseeuw, P. J. 1990. Finding groups in data: an introduction to cluster analysis, Wiley. DAFTAR PUSTAKA (2) Kristianto,Y. T. T. 2011. Pengembangan Search Engine pada Metadata Tugas Akhir Perpustakaan PENS-ITS, Tugas Akhir Teknik Informatika, Politeknik Elektronika Negeri Surabaya, Institut Teknologi Sepuluh Nopember, Surabaya. Li, C.-X. dan Lin, N. 2011. A Novel Text Clustering Algorithm. Energy Procedia, 13, 3583-3588. Macqueen, J. B. 1966. Some methods for classification and analysis of multivariate observations, Defense Technical Information Center. Mashuri, M., Irhamah dan Sukim 2011. Studi Tentang Metode C-Means Cluster dan Fuzzy C-Means Cluster Serta Aplikasinya pada Kasus Pengelompokan Desa/Kelurahan Berdsarkan Status Ketertinggalan. ITS Digital Repository. Medem, A., Akodjenou, M. I. dan Teixeira, R. Year. Troubleminer: Mining network trouble tickets. In, 2009. IEEE, 113-119. Santosa, B. 2007. Data Mining. Teknik Pemanfaatan Data untuk Keperluan Bisnis, Yogyakarta, Graha Ilmu. Widyawati, N. R., Wibisono,Y. dan Kusnendar, J. 2011. Perbandingan Clustering Based on Frequent Word Sequnce dan K-Means untuk Pengelompokan Dokumen Berbahasa Indonesia. Terima Kasih