analisis penerapan metode support vector machine untuk klasifikasi

advertisement
Tugas Akhir - 2010
ANALISIS PENERAPAN METODE SUPPORT VECTOR MACHINE UNTUK
KLASIFIKASI SERANGAN PADA DATA TRAFIK JARINGAN
Ayu Hasyyati¹, Tri Brotoharsono², Fazmah Arif Yulianto³
¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
Abstrak
Keamanan sistem dari kejahatan dunia maya telah mendorong munculnya forensik jaringan
(network forensic), yaitu suatu sistem yang dapat memonitor, menangkap, mengamankan dan
menganalisa barang bukti, yang ditransmisikan melalui jaringan. Dalam tugas akhir ini,
digunakan metode Support Vector Machine (SVM) yang merupakan teknik inteligensia buatan
untuk klasifikasi multi-label pada manajemen data forensik jaringan. Mesin inteligensia buatan
tersebut bekerja dengan melakukan klasifikasi intrusi paket TCP pada data trafik jaringan.
Analisa data dilakukan dengan membandingkan nilai akurasi pada berbagai skenario pengujian
sistem. Skenario dirancang untuk dapat menggambarkan kinerja sistem bila diaplikasikan
dengan variasi parameter SVM yang diterapkan pada berbagai kondisi. Hasil yang didapatkan
dari proses klasifikasi serangan ini menunjukkan akurasi dapat dipertahankan tinggi bila data
dikumpulkan terlebih dahulu secara offline. Kesimpulan yang diperoleh SVM lebih tepat
digunakan untuk data offline dimana karakteristik data uji dibuat semirip data latih.
Kata Kunci : forensik jaringan, support vector machine, intrusi paket TCP, klasifikasi multi-label
Abstract
Securing systems from cyber crimes has encouraged the emergence of network forensics, which is
a system that can monitor, capture, secure and analyze evidence, which is transmitted through
the network. In this final task, Support Vector Machine (SVM) is used as an artificial intelligence
technique for multi-label classification on network forensic data management. The engine is
working by classify the intrusion on TCP packet over network traffic data. The data analysis is
done by comparing the accuracy values at various test scenarios the system. Scenarios designed
to illustrate the performance of the system when applied by a variation of SVM parameters on a
variety of conditions. The results shows high accuracy can be obtained when the data is first
collected. The conclusions is SVM more appropriate when used for offline data which the
characteristics of the test data are made as closely as training data.
Keywords : network forensic, support vector machine, intrusion TCP packet, multi-label
classification
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
1. Pendahuluan
1.1
Latar Belakang
Informasi merupakan sebuah komoditi yang sangat penting.
Jatuhnya informasi ke tangan yang tidak berhak dapat menimbulkan
kerugian bagi pemilik informasi. Dalam jaringan komputer, informasi
dapat disediakan dengan cepat. Sebagai dampaknya, terhubungnya
komputer ke suatu jaringan komputer membuka potensi adanya lubang
keamanan (security hole).
Untuk mencapai tujuan, paket informasi yang dikirimkan melalui
jaringan komputer harus melalui beberapa sistem (router, gateway, hosts,
atau perangkat-perangkat komunikasi lainnya) yang berada di luar
kendali. Setiap titik yang dilalui memiliki potensi untuk dibobol, disadap,
dipalsukan [5]. Hal ini mengundang penjahat untuk melakukan suatu
tindakan kriminal.
Serangan terhadap keamanan sistem informasi melalui jaringan
komputer semakin meningkat baik dari segi kuantitas maupun kualitas.
Pelaku tindak kriminal biasanya melindungi diri dan menghancurkan
barang bukti. Kebanyakan serangan pada suatu jaringan baru dapat
terdeteksi lama setelah kejadian berlangsung. Hal ini memungkinkan
bukti yang dibutuhkan telah lenyap atau dirubah oleh pelaku.
Keamanan sistem dari kejahatan dunia maya tersebut telah
mendorong munculnya forensik jaringan (network forensic), yaitu suatu
sistem yang dapat memonitor, menangkap, mengamankan dan
menganalisa barang bukti, yang ditransmisikan melalui jaringan
komputer pada suatu serangan atau kejahatan pelanggaran hukum,
sehingga dapat diketahui bagaimana, kenapa, dan kapan serangan terjadi
untuk membantu pelaksanaan rekonstruksi kejadian.
Semua data yang melewati jaringan dikumpulkan dan disimpan
untuk keperluan investigasi. Semakin meningkatnya lalu lintas jaringan
akan semakin besar data yang disimpan. Data tersebut juga harus dapat
dipelihara atau disimpan dalam jangka waktu yang cukup lama. Dampak
dari hal ini maka diperlukan suatu sistem penyimpanan data yang besar.
Tentu saja hal ini tidak efisien. Maka untuk mengurangi jumlah data
yang disimpan tanpa harus kehilangan informasi forensik yang berharga,
dibutuhkan suatu manajemen data.
Tujuan dilakukan manajemen data adalah untuk meningkatkan
kinerja dan tingkat akurasi suatu analisis forensik jaringan. Manajemen
data bekerja dengan mengelompokkan data berdasarkan tingkat
signifikasinya menjadi data penting, dan tidak penting.
Data tersebut berupa berkas kegiatan penggunaan jaringan yang
disebut logfile. Berkas log ini sangat berguna untuk mengamati
penyimpangan yang terjadi. Berkas log akan dianalisis polanya apakah
terdapat penyimpangan dari perilaku normal jaringan.
Support Vector Machine (SVM) adalah teknik inteligensia buatan
yang dapat digunakan untuk klasifikasi pada manajemen data forensik
jaringan. Mesin inteligensia buatan tersebut bekerja dengan
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
mengekstraksi ciri-ciri penting pada data forensik jaringan untuk
selanjutnya diklasifikasikan guna menemukan data signifikan. SVM
bekerja dengan cara mencari fungsi pemisah terbaik yang berfungsi
untuk mengklasifikasikan data pada input space menjadi dua kelas.
Penggunaan SVM didasarkan karena telah dibuktikan pada
penelitian [2] dapat menghasilkan performa yang lebih baik
dibandingkan dengan metode inteligensia buatan lainnya dalam analisa
forensik jaringan. SVM menghasilkan solusi yang global optimal,
sehingga dapat mengefisienkan kinerja sistem karena hanya dilakukan
sekali running untuk mendapatkan solusi optimal [8].
1.2
Perumusan Masalah
Sistem Forensik Jaringan setidaknya memiliki beberapa subsistem
yang saling mendukung dan berkaitan, yaitu [3]:
Monitoring dan Koleksi Data, yaitu subsistem yang dapat
memonitoring, menangkap dan menyimpan semua aktifitas
jaringan, seperti trafik, bandwidth, dan isi data.
Analisa Data, yaitu subsistem yang dapat melakukan klasifikasi
terhadap data sehingga dapat memilih hanya data signifikan untuk
disimpan sebagai bukti digital.
Source Traceback, yaitu subsistem yang dapat melacak sumber dari
serangan untuk mencegah kemungkinan akan adanya serangan di
masa yang akan datang.
Untuk itu, penelitian yang dilakukan pada Tugas Akhir ini
difokuskan untuk membuat sebuah sistem yang mampu:
Melakukan proses sniffing terhadap aliran data pada jaringan. Data
didapat secara online dengan melakukan pengujian diatas jaringan
secara real-time. Sebuah komputer akan bertindak sebagai attacker
yang mengirim berbagai serangan ke komputer korban.
Menerapkan classifier SVM pada proses analisa data untuk
klasifikasi data mentah (logfile) hasil proses sniffing untuk
menemukan data signifikan. SVM akan melakukan proses learning
berupa menentukan fungsi pemisah, selanjutnya melakukan
training pada data untuk membentuk model klasifikasi, dan testing
data untuk mendapatkan hasil klasifikasi yang optimal.
Membuat time-lining untuk melakukan rekonstruksi kejadian
dengan menghubungkan rangkaian peristiwa.
Melakukan penyimpanan data signifikan dan dokumentasi untuk
selanjutnya dapat dijadikan bukti digital.
Melakukan analisa terhadap performasi sistem dengan parameter
matriks evaluasi SVM berupa
 accuracy, banyaknya serangan yang dapat diprediksi/dikenali
sistem yang sesuai dengan serangan asli,
 recall, probabilitas sebuah label data sebenarnya yang dapat
diklasifikasi dengan prediksi dengan tepat,
 precision, probabilitas sebuah label data hasil prediksi yang
berhasil diklasifikasi sesuai dengan data sebenarnya.
2
Fakultas Teknik Informatika
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
Dengan batasan yang didefinisikan dalam pelaksanaan Tugas
Akhir ini adalah:
Sistem hanya melakukan klasifikasi dan penyimpanan data
signifikan pada trafik jaringan.
Sistem tidak menangani subsistem source traceback untuk
mengetahui sumber serangan.
Proses sniffing paket jaringan dilakukan menggunakan bantuan tool
yang telah ada.
Pengujian penyerangan oleh komputer attacker dengan
menggunakan bantuan tool yang telah ada.
1.3
Tujuan
Tujuan dilakukan Tugas Akhir ini adalah membangun Sistem
Forensik Jaringan yang memiliki subsistem Monitoring dan Koleksi
Data, serta Analisa Data. Sistem Forensik Jaringan yang dibangun
dengan menggunakan metode SVM pada proses analisis datanya untuk
dapat bekerja dengan efisien dan akurat sehingga dapat disimpan data
penting untuk direkonstruksi sebagai bukti digital. Parameter performansi
yang dianalisa yaitu matriks evaluasi SVM: akurasi, precision dan recall.
1.4
Metodologi Penelitian
Dalam penyusunan Tugas Akhir ini akan digunakan metodologi
sebagai berikut:
a. Studi Literatur
Pada tahap ini akan dilakukan studi dengan melakukan pencarian dan
pengumpulan informasi yang berupa literatur yang berhubungan
dengan:
- Network Forensic
- Support Vector Machine sebagai classifier
- Intrusion Detection System
- Rumus perhitungan detection rate, accuracy, dan hammingloss.
b. Analisis Kebutuhan Sistem
Pada tahap ini akan dilakukan analisis mengenai kebutuhan dari
sistem yang akan dibangun.
c. Pembangunan Perangkat Lunak
Pada tahap ini akan dibangun perangkat lunak Forensik Jaringan
dengan menerapkan SVM pada analisa datanya dan pada tahap ini
pula akan dilakukan pengujian perangkat lunak. Pembangunan dan
pengujian akan dilakukan secara iteratif dan inkremental.
d. Analisis Hasil, dan Penarikan Kesimpulan
Pada tahap ini perangkat lunak akan diujikan untuk dievaluasi apakah
Sistem Forensik Jaringan dengan menggunakan metode SVM dapat
digunakan untuk menyimpan bukti digital dengan akurat dan efisien.
Selanjutnya akan dilakukan analisis terhadap hasil yang dicapai
dengan mengukur matriks evaluasi. Dari hasil analisa akan ditarik
suatu kesimpulan.
3
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
5. Kesimpulan dan Saran
5.1
Kesimpulan
Berdasarkan percobaan dan hasil analisis yang dilakukan, maka
dapat ditarik kesimpulan sebagai berikut:
- Proses feature selection dapat dilakukan dengan batas bahwa informasi
berupa atribut yang direduksi tidak mengurangi nilai akurasi yang
dihasilkan. Backward selection adalah pendekatan yang paling cocok
diterapkan pada sistem.
- Pemilihan metode pendekatan klasifikasi SVM multi-kelas tidak
terlalu berpengaruh signifikan dalam memprediksi label pada data uji
dan pada perhitungan nilai akurasi rata-rata per metode multi-kelas.
- Nilai penalti C dari parameter kernel SVM berpengaruh dalam
meminimalisasi data error. Memperbesar nilai C dapat menciptakan
model yang lebih akurat dan menangani kemungkinan error. Nilai C
yang optimal diterapkan adalah 10000.
- Jumlah data latih optimal yang dapat digunakan adalah sebesar 3000
record. Terlalu besarnya data untuk setiap label memperbesar
kemungkinan dataset tersebut mengandung data yang tidak relevan.
Sedangkan terlalu sedikit data belum cukup memadai sebagai bahan
pembelajaran.
- Sistem dapat mempertahankan akurasi bila diterapkan pada data
jaringan dengan label selengkap mungkin sebanyak pada data latih, 6
label adalah yang paling optimal diterapkan pada data uji.
- Proses rekonstruksi pola serangan dapat dilakukan bila prediksi label
yang tepat jumlahnya memadai untuk direkonstruksi ulang menjadi
sebuah pola. Serangan ACK Scan dapat dilihat polanya melalui paket
ACK yang datang, sedangkan pada serangan Xmas Scan dapat dilihat
dari paket RST yang merupakan respon dari target. Untuk serangan
metasploit lsass, dapat diketahui polanya melalui paket yang melalui
port 445.
5.2
Saran
Ada beberapa saran yang dapat dijadikan pertimbangan dalam
mengembangkan atau memperbaiki tugas akhir ini, diantaranya:
- Disebabkan keterbatasan yang ada, untuk kedepan sistem diharapkan
dapat menangani proses paralel dimana seluruh paket jaringan dapat
tertangkap disisi lain SVM dapat mengklasifikasikannya secara
realtime.
- Dapat digunakan data latih dengan jumlah serangan yang lebih
lengkap.
38
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Tugas Akhir - 2010
Daftar Pustaka
[1]
1998 DARPA Intrussion Detection Evaluation.
http://www.ll.mit.edu/IST/ideval/docs/docs_index.html, 30 Desember
2008.
[2] Brenton, Chris & Cameron Hunt. 2005. Network Security. Jakarta: PT. Elex
Media Komputindo.
[3] Fung, K. T. 2005. Network Security Technologies. Florida: Auerbach
Publications.
[4] L. Zai-Qiang, L. Dong-Dai & F. Deng-GuoFuzzy. “Decision Tree Based
Inference Techniques for Network Forensic Analysis”. Journal of Software,
Vol.18, No.10, October 2007, pp.2635−2644.
[5] McClure, S., Joel Scambray & George Kurtz. 2001. Hacking Exposed:
Network Security Secrets and Solutions. Third Ed. California: McGrawHill.
[6] NIST. “Guide to Computer and Network Data Analysis: Applying Forensic
Techniques to Incident Response”. SP 800-86
[7] Santosa, Budi. 2007. Data Mining: Teknik Pemanfaatan Data untuk
Keperluan Bisnis. Yogyakarta: Penerbit Graha Ilmu.
[8] S. Mukkamala & A. H. Sung. “Intrusion Detection Using Support Vector
Machines”.
[9] Thomas, Tom. 2005. Network Security First-Step. Yogyakarta: Penerbit
Andi.
[10] Z. Liu, Dongdai Lin & Fengdeng Guo. “A Method for Locating Digital
Evidences with Outlier Detection Using Support Vector Machine”.
International Journal of Network Security, Vol.6, No.3, pp.301-308, 2008.
39
Fakultas Teknik Informatika
Powered by TCPDF (www.tcpdf.org)
Program Studi S1 Teknik Informatika
Download