Tahta Alfina (250810055) - Digilib ITS

advertisement
PRESENTASI
LAPORAN TUGAS AKHIR
ANALISA PERBANDINGAN METODE HIERARCHICAL CLUSTERING, K-MEANS
DAN GABUNGAN KEDUANYA DALAM CLUSTER DATA
(STUDI KASUS : PROBLEM KERJA PRAKTEK JURUSAN TEKNIK INDUSTRI ITS)
Tahta Alfina
(2508100055)
Pembimbing :
Prof.Ir.Budi Santosa,M.S.,P.hD
Ko-Pembimbing :
Ali Ridho Barakbah, S.Kom.,P.hD
Jurusan Teknik Industri
Institut Teknologi Sepuluh Nopember Surabaya
CLustering
Partisi
(K-Means )
Kombinasi Hierarchical
Clustering dan K-Means
Hierarchical
Clustering
Hierarchical Clustering
cut-off
(Santosa, 2007)
Macam Metode Hierarki
Metode
hierarki
Single linkage
Complete
linkage
Centroid
linkage
Average
linkage
K-means
Memisahkan data ke dalam k
cluster dengan waktu komputasi
yang cepat
Peneliti telah mengetahui
karakteristik data yang akan
diclusterkan
Centroid dari clusternya
dibangkitkan secara random
Kelemahan K-means
Hasil cluster algoritma K-means sangat tergantung
pada pembangkitan centroid diawal secara random
Hasil clustering dengan algoritma K-means bersifat
tidak unik (berubah-ubah), kadang baik kadang
jelek
Memungkinkan sebuah cluster dalam K-means tidak
memiliki anggota sama sekali
DATA
Rumusan Masalah
 Sejauh mana kombinasi algoritma hierachical clustering
dan K-means dapat digunakan untuk mengelompokkan
problem kerja praktek di Jurusan Teknik Industri ITS ?
 Bagaimana melakukan document clustering dengan
menggunakan metode hierachical clustering dan K-means
untuk mengelompokan problem kerja praktek di
Jurusan Teknik Industri ITS?
Tujuan
Melakukan pengujian dan perbandingan terhadap metode hierarchical clustering, kmeans dan gabungan keduanya dalam mengelompokkan data khususnya data teks
problem kerja praktek Jurusan Teknik Industri ITS sehingga dapat diketahui metode
mana yang menghasilkan cluster terbaik serta mengetahui faktor apa saja yang
berpengaruh dalam membentuk cluster data.
Manfaat
1.
2.
3.
Menambah wawasan keilmuan dan memperdalam konsep dan teori
tentang metode analisis cluster terutama hierarchical clustering dan KMeans serta gabungan keduanya dalam pengelompokan data
sehingga dapat dibandingkan performansinya.
Memberikan kontribusi dalam penentuan dan teknik pengelompokan
problem pada program Kerja Praktek serta sebagai bahan masukan
untuk perbaikan perancangan SI-KP Jurusan Teknik Indutri ITS
berikutnya.
Mengetahui problem utama pada Program Kerja Praktek di Jurusan
Teknik Industi ITS
Batasan dan Asumsi Penelitian
BATASAN PENELITIAN
1.
2.
data yang digunakan untuk sampel pengujian merupakan data sekunder
dari group forum diskusi online facebook SI-KP TI ITS dan dari buku
pengaduan (saran dan kritik) pelaksanaan kerja Praktek Angkatan 2008.
Ukuran jarak yang digunakan dalam penelitian menggunakan Euclidean
distance
ASUMSI PENELITIAN
1.
2.
posting data dan komentar yang ada pada posting yang bersangkutan
dianggap sama yaitu sebagai posting. Hal ini disebabkan oleh
munculnya berbagai macam komentar dari member dalam forum yang
membahas topik yang berbeda dengan topik awal yang dipostkan pada
forum diskusi.
Sampel yang diambil benar-benar dapat mewakili populasi yang ada
(representativeness of the sample)
Metodologi
Penelitian
Tahap Pengolahan Data
Penentuan Keywords
Koordinator KP
Interview dengan
bantuan Kuisioner
Bagian Administrasi
KP
Mahasiswa
40
Keywords
Cetak
40
…
…
….
…
Mahasiswa
4
registrasi
3
KP
2
SI-KP
1
Keywords
No
1
0
1
0
1
…
…
0
2
3
1
0
0
1
0
1
0
0
…
…
…
…
0
4
5
0
0
1
1
1
0
0
0
…
…
…
…
0
0
6
0
1
1
0
…
…
0
7
8
0
2
2
0
1
0
0
0
…
…
…
…
0
0
9
10
1
0
2
1
0
0
0
0
…
…
…
…
0
0
11
12
…
0
0
6
1
2
0
0
0
…
…
…
…
0
0
327
…
0
Metadata
• frekuensi keywords
• matriks data
Algoritma Hierarchical
Clustering dan K-Means
Tahap Clustering
cut-off
Hasil Cluster
 Hierarchical Clustering
AVERAGE LINKAGE CLUSTERING
SINGLE LINKAGE CLUSTERING
10
7
8
6
5
6
4
4
3
2
2
1
0
309
322
201
180
102
208
181
157
161
171
314
10
63
36
75
81
190
56
187
62
266
261
310
324
227
262
318
197
224
205
184
71
111
72
143
215
242
160
282
257
265
308
168
269
289
256
286
188
306
307
300
191
253
214
246
195
192
175
221
76
82
200
84
260
211
12
239
245
164
174
73
89
294
17
167
315
183
165
258
163
323
99
194
95
156
155
145
64
122
80
131
140
276
67
135
33
106
41
114
132
118
142
107
32
130
127
69
123
70
117
125
40
327
74
325
179
321
319
313
312
133
126
39
296
295
290
93
292
291
113
278
281
196
30
116
275
255
270
146
217
267
226
148
264
150
120
263
154
86
4
252
273
5
250
21
240
162
237
233
225
159
55
169
170
219
172
173
166
218
88
216
259
209
124
198
136
189
193
304
254
110
177
186
24
178
14
320
119
301
311
297
103
244
288
284
283
35
280
279
158
202
203
204
272
271
151
43
152
185
104
212
96
19
248
20
241
176
97
236
9235
78
228
101
317
134
302
68
238
1
299
207
153
16
115
3
303
220
65
247
83
230
92
100
57
298
66
137
251
305
139
243
287
293
277
274
223
60
222
210
15
90
112
91
87
51
182
234
698
31
268
8
232
77
199
2 29
108
59
723
138
47
144
141
231
129
285
105
27
121
149
249
53
34
147
85
128
28
79
13
229
58
42
48
38
326
94
316
45
206
44
61
18
11
37
50
26
52
213
46
109
22
49
54
25
0
309
322
201
180
102
208
181
155
157
161
171
314
194
95
323
99
313
133
170
120
24
263
217
267
226
196
30
116
163
165
258
264
198
124
209
325
252
273
136
189
193
304
254
237
97
235
103
152
281
317
113
278
159
169
185
158
271
216
259
220
241
255
270
166
173
176
1
202
167
315
183
4164
36
174
200
260
205
82
84
132
10
575
81
64
122
80
131
140
276
67
221
76
148
211
12
239
245
110
93
88
294
17
63
73
123
89
190
56
145
127
69
71
72
70
187
62
266
197
224
184
261
310
324
227
262
318
225
280
86
233
55
14
284
21
218
16
250
228
275
247
107
32
130
219
135
33
106
114
41
295
39
117
40
125
111
74
143
215
242
191
253
175
188
306
307
300
195
192
126
172
156
160
282
257
265
308
168
269
289
214
246
256
286
118
142
291
179
321
319
244
288
290
292
134
35
279
272
327
248
312
302
104
96
146
150
162
297
177
78
186
3
178
320
204
92
151
203
240
119
199
207
182
283
19
212
20
296
210
236
274
101
154
112
137
51
268
98
231
2
230
277
43
983
90
91
23
115
65
303
301
311
68
66
222
77
251
305
234
153
223
15
232
27
6
129
249
42
326
285
60
238
299
298
139
243
287
293
100
31
105
121
53
58
57
87
147
85
128
138
47
144
141
229
79
206
45
894
29
108
59
7149
18
316
13
44
22
11
48
37
38
49
28
52
26
213
61
109
34
50
46
54
25
SINGLE
AVERAGE
CENTROID LINKAGE CLUSTERING
COMPLETE LINKAGE CLUSTERING
15
10
9
8
10
7
6
5
4
5
3
2
1
0
309
322
201
180
102
208
181
155
194
95
323
99
157
161
171
314
198
133
136
313
217
24
267
226
120
263
170
254
189
193
304
235
97
237
103
152
281
182
127
69
171
233
72
166
173
64
122
80
5
131
140
276
67
132
10
75
81
63
221
76
146
190
56
145
211
12
195
312
172
239
88
245
294
17
73
123
89
84
86
93
14
284
21
16
164
36
174
205
82
200
260
110
280
159
169
185
176
202
196
30
116
165
258
264
163
209
325
252
273
117
40
125
126
74
187
62
266
197
224
261
310
324
184
225
227
262
318
113
278
216
259
203
240
204
92
151
218
250
283
137
51
220
241
255
270
119
199
207
19
20
107
32
130
219
135
33
106
114
290
292
134
35
279
178
320
39
291
41
214
246
256
286
111
143
215
242
191
253
175
188
306
307
300
192
118
142
295
160
282
257
265
308
168
269
289
244
288
179
321
319
156
327
272
212
296
153
223
98
2
210
27
236
8
228
275
247
231
248
302
167
70
315
4
183
150
162
297
104
96
268
234
230
77
222
251
305
55
57
387
15
177
78
6186
79
206
13
232
44
22
45
94
249
42
326
139
317
243
287
293
238
299
141
47
138
144
229
124
60
158
271
285
101
154
112
29
108
59
7109
18
149
316
277
43
129
923
115
65
303
68
66
83
90
148
91
301
311
274
48
100
31
298
105
121
53
58
11
147
85
128
37
38
49
26
213
61
54
25
28
52
34
50
46
COMPLETE
0
309
322
201
180
102
208
181
155
157
161
171
314
194
95
323
99
196
30
116
163
165
258
264
209
325
252
273
198
132
10
75
81
64
122
80
131
140
276
67
164
36
174
205
82
200
84
260
167
315
183
294
17
63
73
123
89
190
56
145
127
69
71
72
70
187
62
266
197
224
261
310
324
184
227
262
318
221
76
211
12
239
245
135
33
106
41
117
40
125
111
143
215
242
191
253
175
188
306
307
300
195
192
214
246
156
160
282
257
265
308
168
269
289
256
286
110
126
118
142
291
166
21
173
172
219
225
255
270
74
228
93
275
250
146
120
24
5
263
217
267
226
136
189
193
304
254
313
170
133
237
97
235
152
281
280
244
39
288
279
179
321
319
233
113
278
159
169
124
158
271
185
248
312
55
176
86
4
202
177
186
216
14
259
104
96
150
162
297
284
151
240
218
203
236
88
19
295
20
107
32
130
114
290
292
212
35
296
134
272
327
204
16
241
1
178
320
119
207
283
92
3
247
101
154
43
115
65
9
148
301
311
303
68
66
83
90
274
91
137
51
103
317
298
139
243
287
293
302
57
182
87
210
222
98
251
2
305
199
268
231
153
223
230
60
15
277
6
112
8
100
31
105
121
53
58
234
77
78
238
79
299
285
27
138
47
144
141
220
29
108
59
7
149
129
232
229
249
42
326
45
94
11
147
85
128
23
48
13
44
28
52
37
38
206
49
22
316
18
26
213
61
109
34
50
46
54
25
CENTROID
Dendrogram
Hasil Cluster
2.4
2.2
2
1.8
1.6
1.4
1.2
283 19 20 212 296 210 236 274 101 154 112 51 137
2 98 268 231 230
9 43 277 83 90 91 23 65 115 303 301 311 68 66 77 222 251 305 234 153 223
6 15
Hasil Cluster
K-means
Single Linkage dan Kmeans
Centroid Linkage dan
K-means
Complete linkage dan
K-means
Average Linkage dan
K-means
3 Skenario :
• 3 cluster
• 5 cluster
• 7 cluster
Metode
Cluster ke
N data
33
256
38
11
266
16
1
33
38
228
38
11
10
1
1
Average
linkage
clustering
dengan Kmeans
1
2
3
1
2
3
4
5
1
2
3
4
5
6
7
33
256
38
42
238
8
2
37
10
228
38
38
11
1
1
Cluster ke
N data
Metode
Cluster ke
N data
1
2
3
1
2
3
4
5
1
2
3
4
5
6
7
33
256
38
238
42
2
37
8
11
228
38
38
1
1
10
Centroid
linkage
clustering
dengan Kmeans
1
2
3
1
2
3
4
5
1
2
3
4
5
6
7
33
256
38
42
238
8
2
37
12
172
93
41
6
2
1
Metode
Cluster ke
N data
Single
linkage
clustering
dengan Kmeans
1
2
3
1
2
3
4
5
1
2
3
4
5
6
7
Metode
Complete
linkage
clustering
dengan Kmeans
Hasil Cluster
Metode
K-means
Cluster ke
N data
1
217
2
24
3
86
1
2
7
45
3
4
78
113
5
1
84
14
2
3
83
17
4
5
66
39
6
101
7
7
Pengujian Hasil Cluster
 Ada 4 pengujian :
Cluster Variance
Koefisien Korelasi Cophenetic
Metode Silhouette Coeficient
Waktu Komputasi
1. Cluster Variance
 digunakan untuk melihat penyebaran dari data-data
hasil clustering dengan metode K-means. (Barakbah dan
Kiyoki, 2009).
Variance cluster ke-i
Variance within cluster
Variance between cluster
Cluster Variance
1. Cluster Variance
Variance Within Cluster
8.0000
7.0000
6.0000
varian
5.0000
3
4.0000
5
3.0000
7
2.0000
1.0000
0.0000
Kmeans
Single linkage dan Average linkage Complete linkage Centriod linkage
K-means
dan K-means
dan K-means
dan K-means
1. Cluster Variance
1. Cluster Variance
2. Koefisien Korelasi
Cophenetic
Nilai dari koefisien ini mengukur korelasi antara jarak yang dihitung selama
penyusunan dendrogram dan jarak sebenarnya (Santosa, 2007)
3. Metode Shillouette
Metode ini berfungsi untuk
menguji kualitas dari cluster yang
dihasilkan.
3 cluster
5 cluster
7 cluster
Complete Single Average Centroid Kmeans
279
279
279
279
263
283
298
283
283
214
284
284
284
294
217
4.Waktu Komputasi
Kesimpulan
 Ada 4 parameter yang digunakan dalam evaluasi hasil cluster dan




semua memberikan hasil yang berbeda.
Berdasarkan parameter uji cluster variance, hasil cluster terbaik
dihasilkan oleh metode single linkage clustering
Berdasarkan metode Silhouette, dalam problem kerja praktek di
Jurusan Teknik Industri ITS, metode K-Means memberikan hasil
cluster yang terbaik dibandingkan dengan metode lainnya.
Jumlah cluster dan data yang digunakan dalam pengujian sangat
berpengaruh terhadap hasil akhir cluster
Problem yang paling sering dialami oleh stakeholder Kerja Praktek
di Jurusan Teknik Industri ITS adalah berkaitan dengan masalah
logbook, pembimbing dan email.
SARAN
 Untuk mengetahui performansi dan waktu komputasi
algoritma yang diuji, dalam penelitian selanjutnya dapat
digunakan data set tertentu atau data yang ukurannya
lebih besar.
 Untuk menunjang kebutuhan jurusan Teknik Industri
ITS, algoritma clustering ini dapat dibuat interfacenya
dengan menggunakan web.
DAFTAR PUSTAKA (1)
 Aliguliyev, R. M. 2009. Clustering of document collection – A weighting approach. Expert
Systems with Applications, 36, 7904-7916.
 Arai, K. dan Barakbah, A. R. 2007. Hierarchical K-means: an algorithm for centroids
initialization for K-means.
 Arifin, A. Z. dan Setiono, A. N. 2002. Klasifikasi Dokumen Berita Kejadian Berbahasa
Indonesia dengan Algoritma Single Pass Clustering.
 Barakbah, A. R. dan Kiyoki,Y. Year. A pillar algorithm for k-means optimization by distance
maximization for initial centroid designation. In, 2009. IEEE, 61-68.
 Bezdeck, J. C. 1974. Cluster Validity with fuzzy sets.
 Fung, B. C. M., Wang, K. dan Ester, M. 2003. Hierarchical Document Clustering.
 Hakim, R. 2009. Professional Website Dengan Joomla 1.5, Elex Media Komputindo.
 Han, J., Kamber, M. dan Pei, J. 2011. Data Mining: Concepts and Techniques, Elsevier Science.
 Jiang, S., Pang, G., Wu, M. dan Kuang, L. 2011. An improved K-nearest-neighbor algorithm
for text categorization. Expert Systems with Applications, 39, 1503-1509.
 Kaufman, L. dan Rousseeuw, P. J. 1990. Finding groups in data: an introduction to cluster
analysis, Wiley.
DAFTAR PUSTAKA (2)
 Kristianto,Y. T. T. 2011. Pengembangan Search Engine pada Metadata Tugas Akhir
Perpustakaan PENS-ITS, Tugas Akhir Teknik Informatika, Politeknik Elektronika Negeri
Surabaya, Institut Teknologi Sepuluh Nopember, Surabaya.
 Li, C.-X. dan Lin, N. 2011. A Novel Text Clustering Algorithm. Energy Procedia, 13,
3583-3588.
 Macqueen, J. B. 1966. Some methods for classification and analysis of multivariate
observations, Defense Technical Information Center.
 Mashuri, M., Irhamah dan Sukim 2011. Studi Tentang Metode C-Means Cluster dan Fuzzy
C-Means Cluster Serta Aplikasinya pada Kasus Pengelompokan Desa/Kelurahan
Berdsarkan Status Ketertinggalan. ITS Digital Repository.
 Medem, A., Akodjenou, M. I. dan Teixeira, R. Year. Troubleminer: Mining network
trouble tickets. In, 2009. IEEE, 113-119.
 Santosa, B. 2007. Data Mining. Teknik Pemanfaatan Data untuk Keperluan Bisnis,
Yogyakarta, Graha Ilmu.
 Widyawati, N. R., Wibisono,Y. dan Kusnendar, J. 2011. Perbandingan Clustering Based on
Frequent Word Sequnce dan K-Means untuk Pengelompokan Dokumen Berbahasa
Indonesia.
Terima Kasih

Download