Tugas Akhir - 2010 ANALISIS PENERAPAN METODE SUPPORT VECTOR MACHINE UNTUK KLASIFIKASI SERANGAN PADA DATA TRAFIK JARINGAN Ayu Hasyyati¹, Tri Brotoharsono², Fazmah Arif Yulianto³ ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom Abstrak Keamanan sistem dari kejahatan dunia maya telah mendorong munculnya forensik jaringan (network forensic), yaitu suatu sistem yang dapat memonitor, menangkap, mengamankan dan menganalisa barang bukti, yang ditransmisikan melalui jaringan. Dalam tugas akhir ini, digunakan metode Support Vector Machine (SVM) yang merupakan teknik inteligensia buatan untuk klasifikasi multi-label pada manajemen data forensik jaringan. Mesin inteligensia buatan tersebut bekerja dengan melakukan klasifikasi intrusi paket TCP pada data trafik jaringan. Analisa data dilakukan dengan membandingkan nilai akurasi pada berbagai skenario pengujian sistem. Skenario dirancang untuk dapat menggambarkan kinerja sistem bila diaplikasikan dengan variasi parameter SVM yang diterapkan pada berbagai kondisi. Hasil yang didapatkan dari proses klasifikasi serangan ini menunjukkan akurasi dapat dipertahankan tinggi bila data dikumpulkan terlebih dahulu secara offline. Kesimpulan yang diperoleh SVM lebih tepat digunakan untuk data offline dimana karakteristik data uji dibuat semirip data latih. Kata Kunci : forensik jaringan, support vector machine, intrusi paket TCP, klasifikasi multi-label Abstract Securing systems from cyber crimes has encouraged the emergence of network forensics, which is a system that can monitor, capture, secure and analyze evidence, which is transmitted through the network. In this final task, Support Vector Machine (SVM) is used as an artificial intelligence technique for multi-label classification on network forensic data management. The engine is working by classify the intrusion on TCP packet over network traffic data. The data analysis is done by comparing the accuracy values at various test scenarios the system. Scenarios designed to illustrate the performance of the system when applied by a variation of SVM parameters on a variety of conditions. The results shows high accuracy can be obtained when the data is first collected. The conclusions is SVM more appropriate when used for offline data which the characteristics of the test data are made as closely as training data. Keywords : network forensic, support vector machine, intrusion TCP packet, multi-label classification Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2010 1. Pendahuluan 1.1 Latar Belakang Informasi merupakan sebuah komoditi yang sangat penting. Jatuhnya informasi ke tangan yang tidak berhak dapat menimbulkan kerugian bagi pemilik informasi. Dalam jaringan komputer, informasi dapat disediakan dengan cepat. Sebagai dampaknya, terhubungnya komputer ke suatu jaringan komputer membuka potensi adanya lubang keamanan (security hole). Untuk mencapai tujuan, paket informasi yang dikirimkan melalui jaringan komputer harus melalui beberapa sistem (router, gateway, hosts, atau perangkat-perangkat komunikasi lainnya) yang berada di luar kendali. Setiap titik yang dilalui memiliki potensi untuk dibobol, disadap, dipalsukan [5]. Hal ini mengundang penjahat untuk melakukan suatu tindakan kriminal. Serangan terhadap keamanan sistem informasi melalui jaringan komputer semakin meningkat baik dari segi kuantitas maupun kualitas. Pelaku tindak kriminal biasanya melindungi diri dan menghancurkan barang bukti. Kebanyakan serangan pada suatu jaringan baru dapat terdeteksi lama setelah kejadian berlangsung. Hal ini memungkinkan bukti yang dibutuhkan telah lenyap atau dirubah oleh pelaku. Keamanan sistem dari kejahatan dunia maya tersebut telah mendorong munculnya forensik jaringan (network forensic), yaitu suatu sistem yang dapat memonitor, menangkap, mengamankan dan menganalisa barang bukti, yang ditransmisikan melalui jaringan komputer pada suatu serangan atau kejahatan pelanggaran hukum, sehingga dapat diketahui bagaimana, kenapa, dan kapan serangan terjadi untuk membantu pelaksanaan rekonstruksi kejadian. Semua data yang melewati jaringan dikumpulkan dan disimpan untuk keperluan investigasi. Semakin meningkatnya lalu lintas jaringan akan semakin besar data yang disimpan. Data tersebut juga harus dapat dipelihara atau disimpan dalam jangka waktu yang cukup lama. Dampak dari hal ini maka diperlukan suatu sistem penyimpanan data yang besar. Tentu saja hal ini tidak efisien. Maka untuk mengurangi jumlah data yang disimpan tanpa harus kehilangan informasi forensik yang berharga, dibutuhkan suatu manajemen data. Tujuan dilakukan manajemen data adalah untuk meningkatkan kinerja dan tingkat akurasi suatu analisis forensik jaringan. Manajemen data bekerja dengan mengelompokkan data berdasarkan tingkat signifikasinya menjadi data penting, dan tidak penting. Data tersebut berupa berkas kegiatan penggunaan jaringan yang disebut logfile. Berkas log ini sangat berguna untuk mengamati penyimpangan yang terjadi. Berkas log akan dianalisis polanya apakah terdapat penyimpangan dari perilaku normal jaringan. Support Vector Machine (SVM) adalah teknik inteligensia buatan yang dapat digunakan untuk klasifikasi pada manajemen data forensik jaringan. Mesin inteligensia buatan tersebut bekerja dengan Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2010 mengekstraksi ciri-ciri penting pada data forensik jaringan untuk selanjutnya diklasifikasikan guna menemukan data signifikan. SVM bekerja dengan cara mencari fungsi pemisah terbaik yang berfungsi untuk mengklasifikasikan data pada input space menjadi dua kelas. Penggunaan SVM didasarkan karena telah dibuktikan pada penelitian [2] dapat menghasilkan performa yang lebih baik dibandingkan dengan metode inteligensia buatan lainnya dalam analisa forensik jaringan. SVM menghasilkan solusi yang global optimal, sehingga dapat mengefisienkan kinerja sistem karena hanya dilakukan sekali running untuk mendapatkan solusi optimal [8]. 1.2 Perumusan Masalah Sistem Forensik Jaringan setidaknya memiliki beberapa subsistem yang saling mendukung dan berkaitan, yaitu [3]: Monitoring dan Koleksi Data, yaitu subsistem yang dapat memonitoring, menangkap dan menyimpan semua aktifitas jaringan, seperti trafik, bandwidth, dan isi data. Analisa Data, yaitu subsistem yang dapat melakukan klasifikasi terhadap data sehingga dapat memilih hanya data signifikan untuk disimpan sebagai bukti digital. Source Traceback, yaitu subsistem yang dapat melacak sumber dari serangan untuk mencegah kemungkinan akan adanya serangan di masa yang akan datang. Untuk itu, penelitian yang dilakukan pada Tugas Akhir ini difokuskan untuk membuat sebuah sistem yang mampu: Melakukan proses sniffing terhadap aliran data pada jaringan. Data didapat secara online dengan melakukan pengujian diatas jaringan secara real-time. Sebuah komputer akan bertindak sebagai attacker yang mengirim berbagai serangan ke komputer korban. Menerapkan classifier SVM pada proses analisa data untuk klasifikasi data mentah (logfile) hasil proses sniffing untuk menemukan data signifikan. SVM akan melakukan proses learning berupa menentukan fungsi pemisah, selanjutnya melakukan training pada data untuk membentuk model klasifikasi, dan testing data untuk mendapatkan hasil klasifikasi yang optimal. Membuat time-lining untuk melakukan rekonstruksi kejadian dengan menghubungkan rangkaian peristiwa. Melakukan penyimpanan data signifikan dan dokumentasi untuk selanjutnya dapat dijadikan bukti digital. Melakukan analisa terhadap performasi sistem dengan parameter matriks evaluasi SVM berupa accuracy, banyaknya serangan yang dapat diprediksi/dikenali sistem yang sesuai dengan serangan asli, recall, probabilitas sebuah label data sebenarnya yang dapat diklasifikasi dengan prediksi dengan tepat, precision, probabilitas sebuah label data hasil prediksi yang berhasil diklasifikasi sesuai dengan data sebenarnya. 2 Fakultas Teknik Informatika Program Studi S1 Teknik Informatika Tugas Akhir - 2010 Dengan batasan yang didefinisikan dalam pelaksanaan Tugas Akhir ini adalah: Sistem hanya melakukan klasifikasi dan penyimpanan data signifikan pada trafik jaringan. Sistem tidak menangani subsistem source traceback untuk mengetahui sumber serangan. Proses sniffing paket jaringan dilakukan menggunakan bantuan tool yang telah ada. Pengujian penyerangan oleh komputer attacker dengan menggunakan bantuan tool yang telah ada. 1.3 Tujuan Tujuan dilakukan Tugas Akhir ini adalah membangun Sistem Forensik Jaringan yang memiliki subsistem Monitoring dan Koleksi Data, serta Analisa Data. Sistem Forensik Jaringan yang dibangun dengan menggunakan metode SVM pada proses analisis datanya untuk dapat bekerja dengan efisien dan akurat sehingga dapat disimpan data penting untuk direkonstruksi sebagai bukti digital. Parameter performansi yang dianalisa yaitu matriks evaluasi SVM: akurasi, precision dan recall. 1.4 Metodologi Penelitian Dalam penyusunan Tugas Akhir ini akan digunakan metodologi sebagai berikut: a. Studi Literatur Pada tahap ini akan dilakukan studi dengan melakukan pencarian dan pengumpulan informasi yang berupa literatur yang berhubungan dengan: - Network Forensic - Support Vector Machine sebagai classifier - Intrusion Detection System - Rumus perhitungan detection rate, accuracy, dan hammingloss. b. Analisis Kebutuhan Sistem Pada tahap ini akan dilakukan analisis mengenai kebutuhan dari sistem yang akan dibangun. c. Pembangunan Perangkat Lunak Pada tahap ini akan dibangun perangkat lunak Forensik Jaringan dengan menerapkan SVM pada analisa datanya dan pada tahap ini pula akan dilakukan pengujian perangkat lunak. Pembangunan dan pengujian akan dilakukan secara iteratif dan inkremental. d. Analisis Hasil, dan Penarikan Kesimpulan Pada tahap ini perangkat lunak akan diujikan untuk dievaluasi apakah Sistem Forensik Jaringan dengan menggunakan metode SVM dapat digunakan untuk menyimpan bukti digital dengan akurat dan efisien. Selanjutnya akan dilakukan analisis terhadap hasil yang dicapai dengan mengukur matriks evaluasi. Dari hasil analisa akan ditarik suatu kesimpulan. 3 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2010 5. Kesimpulan dan Saran 5.1 Kesimpulan Berdasarkan percobaan dan hasil analisis yang dilakukan, maka dapat ditarik kesimpulan sebagai berikut: - Proses feature selection dapat dilakukan dengan batas bahwa informasi berupa atribut yang direduksi tidak mengurangi nilai akurasi yang dihasilkan. Backward selection adalah pendekatan yang paling cocok diterapkan pada sistem. - Pemilihan metode pendekatan klasifikasi SVM multi-kelas tidak terlalu berpengaruh signifikan dalam memprediksi label pada data uji dan pada perhitungan nilai akurasi rata-rata per metode multi-kelas. - Nilai penalti C dari parameter kernel SVM berpengaruh dalam meminimalisasi data error. Memperbesar nilai C dapat menciptakan model yang lebih akurat dan menangani kemungkinan error. Nilai C yang optimal diterapkan adalah 10000. - Jumlah data latih optimal yang dapat digunakan adalah sebesar 3000 record. Terlalu besarnya data untuk setiap label memperbesar kemungkinan dataset tersebut mengandung data yang tidak relevan. Sedangkan terlalu sedikit data belum cukup memadai sebagai bahan pembelajaran. - Sistem dapat mempertahankan akurasi bila diterapkan pada data jaringan dengan label selengkap mungkin sebanyak pada data latih, 6 label adalah yang paling optimal diterapkan pada data uji. - Proses rekonstruksi pola serangan dapat dilakukan bila prediksi label yang tepat jumlahnya memadai untuk direkonstruksi ulang menjadi sebuah pola. Serangan ACK Scan dapat dilihat polanya melalui paket ACK yang datang, sedangkan pada serangan Xmas Scan dapat dilihat dari paket RST yang merupakan respon dari target. Untuk serangan metasploit lsass, dapat diketahui polanya melalui paket yang melalui port 445. 5.2 Saran Ada beberapa saran yang dapat dijadikan pertimbangan dalam mengembangkan atau memperbaiki tugas akhir ini, diantaranya: - Disebabkan keterbatasan yang ada, untuk kedepan sistem diharapkan dapat menangani proses paralel dimana seluruh paket jaringan dapat tertangkap disisi lain SVM dapat mengklasifikasikannya secara realtime. - Dapat digunakan data latih dengan jumlah serangan yang lebih lengkap. 38 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika Tugas Akhir - 2010 Daftar Pustaka [1] 1998 DARPA Intrussion Detection Evaluation. http://www.ll.mit.edu/IST/ideval/docs/docs_index.html, 30 Desember 2008. [2] Brenton, Chris & Cameron Hunt. 2005. Network Security. Jakarta: PT. Elex Media Komputindo. [3] Fung, K. T. 2005. Network Security Technologies. Florida: Auerbach Publications. [4] L. Zai-Qiang, L. Dong-Dai & F. Deng-GuoFuzzy. “Decision Tree Based Inference Techniques for Network Forensic Analysis”. Journal of Software, Vol.18, No.10, October 2007, pp.2635−2644. [5] McClure, S., Joel Scambray & George Kurtz. 2001. Hacking Exposed: Network Security Secrets and Solutions. Third Ed. California: McGrawHill. [6] NIST. “Guide to Computer and Network Data Analysis: Applying Forensic Techniques to Incident Response”. SP 800-86 [7] Santosa, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk Keperluan Bisnis. Yogyakarta: Penerbit Graha Ilmu. [8] S. Mukkamala & A. H. Sung. “Intrusion Detection Using Support Vector Machines”. [9] Thomas, Tom. 2005. Network Security First-Step. Yogyakarta: Penerbit Andi. [10] Z. Liu, Dongdai Lin & Fengdeng Guo. “A Method for Locating Digital Evidences with Outlier Detection Using Support Vector Machine”. International Journal of Network Security, Vol.6, No.3, pp.301-308, 2008. 39 Fakultas Teknik Informatika Powered by TCPDF (www.tcpdf.org) Program Studi S1 Teknik Informatika