Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 CLUSTERING PENGGUNAAN BANDWIDTH MENGGUNAKAN METODE K-MEANS ALGORITHM PADA PENERAPAN SINGLE SIGN ON (SSO) UNIVERSITAS SEBELAS MARET Vignasari Kokasih1, Wiranto2, Afrizal Doewes3 1,2,3 Program Studi Informatika, FMIPA, Universitas Sebelas Maret Email: [email protected], [email protected], 3afrizal [email protected] ABSTRAK Akses internet melalui sistem Single Sign On (SSO) di Universitas Sebelas Maret telah banyak di manfaatkan oleh civitas akademik seperti mahasiswa dan karyawan/dosen. Data dari aktifitas penggunaan SSO tersebut tercatat pada log SSO dan telah terkumpul banyak. Pada log tersebut tercatat mengenai: (1) status perangkat jaringan yang di gunakan, (2) riwayat login pengguna dan (3) riwayat logout pengguna SSO. Pada riwayat login dan logout pengguna terdapat detail data seperti jumlah bandwidthdownload dan upload yang digunakan, waktu login, waktu logout dan lain-lain. Teknik data mining dapat di terapkan untuk menggali informasi dari data log SSO yang telah terkumpul banyak. Tujuan penelitian ini untuk menganalisa penggunaanbandwidth Universitas Sebelas Maret (UNS) berdasarkan data trafik internet dari log SSO dengan menggunakan metode data clustering untuk mengelompokkan data yang mempunyai kesamaan dalam satu cluster, yaitu menggunakan algoritma K-means. Kata Kunci: Data Mining, Clustering, K-Means, Single Sign On 1. PENDAHULUAN Koneksi internet saat ini telah menjadi bagian yang penting bagi civitas akademika Universitas Sebelas Maret (UNS) mengingat seluruh aktifitas administrasi, keuangan, dan akademik telah di kembangkan dengan sistem berbasis informasi. Kebutuhan akan internet tersebut telah mendorong pihak pimpinan untuk melakukan perbaikan dan pembenahan atas fasilitas internet yang di sediakan. Salah satunya adalah dengan menetapkan kebijakan sistem Single Sign On (SSO) yang mulai diterapkan di hampir seluruh area kampus Universitas Sebelas Maret. Single Sign On (SSO) adalah sistem yang mengizinkan pengguna agar dapat mengakses seluruh sumber daya dalam jaringan hanya dengan menggunakan satu credential (akun) saja [1]. Sistem Single Sign On menghindari login ganda terhadap aplikasi-aplikasi yang diintegrasikan ke dalam sistem ini, sehingga pengelolaan hak akses aplikasi menjadi terpusat. Sementara pada sistem sign on biasa mengharuskan pengguna untuk selalu login saat melakukan akses pada beberapa aplikasi yang berbeda. Secara umum gambaran sistem single sign on dan sistem sign on biasa dapat dilihat pada Gambar 1 dan Gambar 2. Pengguna User ID Password Gambar 1. Sistem Single Sign On (SSO). User ID Password User ID Password Pengguna User ID Password Gambar 2. Sistem sign on biasa. 235 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 Selain sebagai pemusatan data pengguna, sistem single sign on yang sekarang ini di terapkan di UNS juga di manfaatkan untuk sarana pembagian bandwidth. Semua data aktifitas pengguna SSO yang mengakses internet dengan menggunakan jaringan kampus akan tercatat dalam log SSO yang di dalamnya terdapat 3 blok informasi, yakni: (1) status perangkat jaringan, (2) status pengguna yang melakukan login, (3) status pengguna logout. Setiap blok informasi tersebut terdapat detail informasi yang dapat diambil untuk mengetahui pola penggunaan bandwidth. Pada penelitian ini akan dilakukan analisa data trafik internet dengan melakukan pengelompokan data atau sering disebut sebagai clustering. Clustering adalah pembagian data ke dalam beberapa kelompok yang memiliki kemiripan. Setiap kelompok disebut sebagai cluster yang terdiri dari data-data yang mirip diantara mereka dan berbeda dengan data kelompok lain [2]. Ada beberapa algoritma dalam clustering, salah satunya adalah algoritma K-means (KMA), yaitu algoritma yang paling sederhana dan paling umum digunakan dalam kriteria kesalahan kuadrat [3]. Algoritma K-means populer karena mudah untuk diterapkan dan kompleksitas waktunya adalah O(n), di mana n adalah jumlah pola (pattern). Pemodelan peramalan kebutuhan bandwidth dengan menggunakan metode regresi linier untuk menentukan variable input peramalan, sedangkan jaringan syaraf tiruan backpropagation digunakan untuk tahap peramalan. Data yang digunakan adalah data trafik internet di FMIPA UNS dan mendapatkan simpulan bahwa pemodelan terbaik adalah model download average pada r= 0.91 [4]. Dalam penelitian yang berjudul “The Development of Web Log Mining Based on Improved K-means Clustering Analysis” melakukan analisis terhadap penggalian data pada web log dengan menggunakan Kmeans. Pada penelitian ini mengusulkan indeks efektif dari algoritma clustering K-means dan diverifikasi dengan melakukan beberapa kali percobaan. Pada penelitian ini juga mengusulkan pemilihan cluster awal secara otomatis menggunakan metode pemilihan centroid dan simpulan yang di dapatkan adalah pemilihan inisialisasi awal cluster tersebut dapat mengurangi outlier dan meningkatkan hasil clustering [5]. Berdasarkan penelitian di atas, penelitian ini mengusulkan untuk melakukan pengolahan data trafik internet tidak hanya pada satu fakultas saja, namun data yang di pakai mencakup seluruh wilayah UNS yang telah menerapkan system SSO dan bertujuan untuk melihat pola persebaran penggunaan bandwidth di UNS pada hari aktif dari tanggal 15 Maret 2015–24 Juni 2015 dengan menggunakan algoritma Kmeans (KMA). 2. METODE 2.1. Pengumpulan Data Data yang digunakan adalah data trafik internet yang di dapatkan dari log SSO tanggal 15 Maret 2015–24 Juni 2015. Log SSO adalah kumpulan status keberjalanan SSO yang tercatat pada setiap harinya untuk setiap aktifitas yang dilakukan oleh pengguna maupun perangkat jaringan yang bersangkutan. Pada log ini terdapat 3 blok informasi, yakni: (1) status perangkat jaringan, (2) status pengguna yang melakukan login, (3) status pengguna logout. Setiap blok informasi tersebut terdapat detail informasi yang dapat diambil untuk mengetahui kepadatan trafik akses internet. 2.2. Preprocessing Pada tahap ini dilakukan seleksi/pemilihan data dengan membuang data log pada hari libur, yaitu: Hari Sabtu dan Minggu. Hari libur Nyepi 21 Maret 2015. Hari libur wafatnya Isa Al Masih 3 April 2015. Hari libur buruh Internasional 1 Mei 2015. Hari libur kenaikan Isa Al Masih 14 Mei 2015. Hari libur Isra’ Miraj 16 Mei 2015. Hari libur Waisak 2 Juni 2015. Selanjutnya data kembali diseleksi dengan membuang data yang atributnya bernilai NULL. Kumpulan data yang telah di seleksi tersebut akan di ambil atribut total download data (bytes), total upload data (bytes), lokasi akses, tanggal akses dan waktu (s) session yang di gunakan untuk tiap-tiap pengguna. Jika dari ke-5 atribut tersebut pada atribut total download dan total upload data bernilai sama dengan 0, maka atribut tersebut dianggap tidak valid karena dari data tersebut menunjukkan bahwa pengguna tidak melakukan aktifitas akses jaringan/internet sehingga data akan di hapus. 236 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 Setelah itu, dari data yang di dapat akan di ubah menjadi kecepatan bandwidth rata-rata dengan membagi total data dengan waktu session yang di gunakan pengguna. Sehingga output dari tahap preprocessing ini adalah: 1) Lokasi akses. 2) Tanggal akses. 3) Bandwidth download rata-rata (bytes/s). 4) Bandwidth upload rata-rata (bytes/s). Output tahapan preprocessing yang akan digunakan pada tahap data clusteringadalah atribut bandwidth download rata-rata dan bandwidth upload rata-rata yang di nyatakan dalam satuan bytes/s. Sedangkan data lokasi akses dan tanggal akses akan digunakan untuk pembagian data yang akan di cluster. 2.3. Data Clustering Data Clustering (atau hanya disebut clustering), juga disebut analisis cluster, analisis segmentasi, analisis taksonomi atau klasifikasi tanpa pengawasan (unsupervised classification) adalah metode untuk membuat kelompok objek atau cluster, sedemikian sehingga bahwa objek yang sangat mirip dikatakan dalam satu cluster sedangkan objek di-cluster yang berbeda mempunyai perbedaan yang cukup jelas [6]. Clustering merupakan komponen penting dari data mining yaitu proses mengeksplorasi dan menganalisis data dalam jumlah besar untuk menemukan informasi yang berguna [7]. Clustering juga merupakan persoalan mendasar dalam literatur pengenalan pola (pattern recognition). Langkah-langkah algoritma K-Means adalah sebagai berikut [8]. 1) Menentukan k sebagai jumlah cluster yang ingin dibentuk. 2) Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak k. 3) Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak Eucledian (Eucledian Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Eucledian Distance: [ ] [∑ ( ) ] Dimana xj dan yj berturut-turut adalah nilai atribut x dan y yang ke-j. 4) Mengelompokkan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil). 5) Memperbaharui nilai centroid. 6) Melakukan perulangan dari langkah 2-5 hingga anggota tiap clustertidak ada yang berubah. (1) 3. HASIL DAN PEMBAHASAN Penelitian ini menggunakan data log SSO dari tanggal 15 Maret 2015–24 Juni 2015 yang telah di proses dan akan di lakukan proses clustering terhadap data bandwidth download rata-rata dan bandwidth upload rata-rata, yang akan di bedakan berdasarkan tempat akses dan waktu (bulan). Jumlah total data dari log ini ±350.017 data transaksi dan setelah dilakukan tahap pre-processing, didapatkan ±302.783 data transaksi yang akan di olah ke dalam 7 cluster. Nilai cluster k= 7 di dapatkan dengan melakukan beberapa kali percobaan clustering dengan menghitung nilai SSE masing-masing cluster untuk di perbandingkan. Hasil percobaan tersebut dapat di lihat pada Gambar 3. Gambar 3. Grafik penghitungan nilai SSE terhadap jumlah cluster. 237 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 Pada metode elbow nilai cluster yang akan diambil adalah nilai yang mengalami penurunan secara signifikan dan membentuk sudut. Berdasarkan grafik pada Gambar 3 dapat di lihat bahwa nilai cluster k = 7 adalah titik yang memenuhi kriteria metode elbow (siku). Hal inilah yang mendasarkan penelitian ini untuk melakukan clustering data dengan nilai k = 7. Hasil dari clustering data log keseluruhan dapat dilihat pada Tabel 1. Cluster C1 C2 C3 C4 C5 C6 C7 Total Tabel 14. Distribusi frekuensi keseluruhan Pengguna Centroid (Bps) Upstream Downstream 4464 16663.296371 505682.603495 998 182877.502004 192219.895792 193 604280.694301 418974.119171 11887 9528.202742 244704.490115 1118 31611.640429 956626.836315 244099 1078.290181 10784.756369 40024 5725.634419 87290.163427 302783 Berdasarkan dari tabel 1 dapat di lihat bahwa pengguna SSO kebanyakan termasuk ke dalam cluster 6, dimana berturut-turut centroid upstream dan downstream adalah ≥210 Bps; ≥216 Bps (1 byte = 8 bits) atau sekitar 1 KBps untuk upstream dan 64 KBps untuk downstream. Hasil dari clustering data log keseluruhan berdasarkan bulan dapat dilihat pada Tabel 2. Tabel 15. Distribusi frekuensi pengguna internet per bulan Cluster Maret April Mei Juni 24 3940 16310 14687 C1 4 1717 384 835 C2 2929 137 1905 1952 C3 153 202 542 82857 C4 2 739 87 208 C5 488 57078 94773 152 C6 3 11129 4952 4594 C7 3603 74942 118953 105285 Total Berdasarkan dari Tabel 2 dapat di lihat bahwa pengguna SSO kebanyakan melakukan akses di bulan Mei, yaitu bulan aktif akademik menjelang liburan semester ganjil. Sedangkan nilai centroid pada cluster yang memiliki nilai tertinggi untuk tiap bulannya dijelaskan pada Tabel 3. Bulan Maret April Mei Juni Tabel 16. Centroidcluster terbesar pada tiap bulan Centroid (Bps) Cluster Pengguna Upstream Downstream C3 1697.988051 21773.080232 2929 C6 1086.897544 9423.329234 57078 C6 1030.224051 10590.371889 94773 C4 1024.069505 9027.113726 82857 Berdasarkan dari Tabel 3 dapat di lihat bahwa pengguna SSO kebanyakan mendapatkan fasilitas akses internet melalui jaringan kampus dengan rata-rata kecepatan bandwidth upload dan download berturutturut, ≥210 Bps; ≥213 Bps (1 byte = 8 bits) atau sekitar 1 KBps untuk upstream dan 8 KBps untuk downstream. 238 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 Hasil dari clustering data log, jika di petakan berdasarkan tempat lokasi akses jaringan adalah sebagai berikut. Tabel 17. Distribusi frekuensi pengguna internet per lokasi akses C1 C2 C3 C4 C5 C6 C7 Total 33 1 876 152 8569 75 17 9723 A 233 617 23 2608 20863 37 87 24468 B 35 1545 172 6577 74 597 301 9301 C 47 446 42 2959 179 16696 1058 21427 D 8737 84 406 259 1641 17 33 11177 E 127 756 21 63 231 14 12 1224 F 1076 3513 412 110 25820 84 12 31027 G 12075 2690 17 33 957 177 472 16421 H 647 199 3679 379 1520 70 13504 19998 I 540 113 1320 52744 8943 2994 209 66863 J 55 9 1593 425 52 10 141 2285 K 228 848 93 11 3189 8 40 4417 L 606 40 7652 2005 85 22 216 10626 M 22 171 8 1904 28 414 55 2602 N 1782 52 7592 130 382 231 794 10963 O 23 19 80 311 1362 6 30 1831 P 83 1748 8 22 186 642 366 3055 Q 133 1988 260 593 457 7155 975 11561 R 359 1353 29324 4569 4 101 11 35721 S 5143 7 119 46 392 16 1038 6761 T 834 14 7 274 113 24 65 1331 U Berdasarkan dari tabel 4 dapat di lihat berturut-turut, tempat yang paling banyak dan paling sedikit di gunakan pengguna SSO untuk mengakses internet adalah lokasi J dan F. Sedangkan nilai centroid pada cluster yang memiliki nilai tertinggi untuk tiap lokasi di jelaskan pada Tabel 5. Lokasi A B C D E F G H I J K L M N O P Q R S T U Tabel 18. Centroid cluster terbesar pada tiap lokasi Centroid (Bps) Cluster Upstream Downstream C5 1064.736725 15821.422686 C5 883.978766 6539.855869 C4 1226.158279 9888.695454 C6 1060.485086 9281.518927 C1 1056.905116 8724.446606 C2 876.783069 8303.477513 C5 1296.18505 9555.807165 C1 924.479006 7652.335569 C7 1057.903658 8023.829976 C4 1355.952241 8438.469001 C3 829.857502 8280.864407 C5 964.26905 9063.669802 C3 1132.057109 8865.775091 C4 545.206933 5470.163866 C3 1135.039779 9286.851027 C5 868.748899 9166.974302 C2 1044.157323 7622.223684 C6 1155.367855 11628.603215 C3 1517.225583 16618.028509 C1 739.83706 5993.341046 C1 499.952038 2973.775779 User 8569 20863 6577 16696 8737 756 25820 12075 13504 52744 1593 3189 7652 1904 7592 1362 1748 7155 29324 5143 834 Berdasarkan dari Tabel 5 dapat di lihat bahwa pengguna SSO kebanyakan mendapatkan fasilitas akses internet melalui jaringan kampus dengan rata-rata kecepatan bandwidth upload dan download di tiap 239 Seminar Nasional Ilmu Komputer (SNIK 2015) - Semarang, 10 Oktober 2015 ISBN: 978-602-1034-19-4 tempatnya berturut-turut, ≥29Bps sampai dengan ≥210Bps; ≥211Bps sampai dengan ≥214Bps (1 byte = 8 bits) atau sekitar 512 Bps – 2 KBps untuk upstream dan 2 – 16 KBps untuk downstream. 4. SIMPULAN Himpunan data log bandwidth pada kasus ini dapat di cluster menggunakan algoritma K-means dengan jumlah cluster 7. Pemilihan nilai cluster k=7, sudah melalui beberapa percobaan. Hasil clustering data penggunaan bandwidth dapat di lihat bahwa bulan padat pengguna SSO adalah bulan Mei dengan kecepatan download dan upload yang masih kalah dengan bulan Maret atau bulan dengan pengguna SSO terendah, sedangkan lokasi yang paling banyak dan paling sedikit di gunakan pengguna SSO untuk mengakses internet adalah di lokasi J dan F mempunyai rata-rata kecepatan yang tidak jauh berbeda untuk downstream. 5. [1] [2] [3] [4] [5] [6] [5] [6] REFERENSI Haryanto, D. 2014. Single Sign On Server System. Bandung: NET-COMLABS ITB. Berkhin, P. 2002. Survey of Clustering Data Mining Techniques. San Jose, CA: Accrue Software. MacQueen, J. 1967. Some Method for Classification and Analysis of Multivariate Observations. dalam Proc. of the fifth Berkeley Symposium on Mathematical Statistics and Probability. Putri, A. U. 2014. Peramalan Kebutuhan Bandwidth Menggunakan Jaringan Saraf Tiruan Backpropagation Dengan Input Berdasarkan Best Subset Regression. Surakarta: Universitas Sebelas Maret. Wang, T. 2012. The Development of Web Log Mining Based on Improved K-means Clustering Analysis. Springer: Verlag Berlin Heidelberg. Gan, G., Ma, C., dan Wu, J. 2007. Data Clustering Theory, Algorithms and Applications, Alexandria Virginia: Society for Industrial and Applied Mathematics. Berry, M. dan Linoff, G. 2000. Mastering Data Mining. New York: John Wiley & Sons. Sarwono, Y. 2010. Aplikasi Model Jaringan Syaraf Tiruan dengan Radial Basis Function untuk Mendeteksi Kelainan Otak (Stroke Infark). Sekolah Tinggi Manajemen Informatika & Teknik Komputer, Surabaya. 240