ANALISIS SERANGAN DARI LOG DATASET SISTEM DETEKSI INTRUSI DENGAN MENGGUNAKAN ALGORITMA DECISION TREE SKRIPSI RAHMAD FAHROZI 041401021 PROGRAM STUDI S1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2010 Universitas Sumatera Utara ANALISIS SERANGAN DARI LOG DATASET SISTEM DETEKSI INTRUSI DENGAN MENGGUNAKAN ALGORITMA DECISION TREE SKRIPSI Diajukan untuk melengkapi tugas akhir dan memenuhi syarat mencapai gelar Sarjana Komputer RAHMAD FAHROZI 041401021 PROGRAM STUDI S1 ILMU KOMPUTER DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SUMATERA UTARA MEDAN 2010 Universitas Sumatera Utara PERSETUJUAN Judul : Analisis Serangan dari Log Dataset Sistem Deteksi Iintrusi dengan Menggunakan Algoritma Decision Tree Kategori Nama Nomor Induk Mahasiswa Program Studi Departemen Fakultas : : : : : : SKRIPSI RAHMAD FAHROZI 041401021 SARJANA (S1) ILMU KOMPUTER ILMU KOMPUTER MATEMATIKA DAN ILMU PENGETAHUAN ALAM (FMIPA) UNIVERSITAS SUMATERA UTARA Diluluskan di Medan, Januari 2010 Komisi Pembimbing : Pembimbing 2 Maya Silvi Lydia,BsC,Msc NIP.197401272002122001 Pembimbing 1 Syahril Effendi, SSi, MIT NIP. 196711101996021001 Diketahui/Disetujui oleh Prog. Studi Ilmu Komputer S-1 Ketua, Prof. Dr. Muhammad Zarlis NIP. 195707011986011003 Universitas Sumatera Utara PERNYATAAN ANALISIS SERANGAN DARI LOG DATASET SISTEM DETEKSI INTRUSI DENGAN MENGGUNAKAN ALGORITMA DECISION TREE SKRIPSI Saya mengakui bahwa skripsi ini adalah hasil kerja saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya Medan, Januari 2010 RAHMAD FAHROZI 041401021 Universitas Sumatera Utara PENGHARGAAN Puji Syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat-Nya kepada penulis, sehingga Skripsi penulis yang berjudul “Analisis Serangan dari Log Dataset Sistem Deteksi Intrusi dengan Menggunakan Algoritma Decision Tree ” dapat penulis selesaikan dengan baik. Skripsi ini diselesaikan guna memenuhi salah satu syarat pemenuhan kurikulum dalam menyelesaikan pendidikan pada Program Studi S1 Ilmu Komputer pada Universitas Sumatra Utara (USU) Medan. Pada kesempatan ini, penulis menyampaikan rasa terima kasih dan penghargaan yang sebesar-besarnya kepada : 1. Bapak Syahril Effendi, SSi, MIT, selaku Dosen Pembimbing I yang telah meluangkan waktunya untuk memberikan pengarahan dan petunjuk dalam pengerjaan Skripsi ini. 2. Ibu Maya Silvi Lydia,BsC,Msc selaku Dosen Pembimbing II yang juga telah banyak membantu mengarahkan dalam pengerjaan Skripsi ini. 3. Bapak M. Andri B,St,McompSc,MEM dan Bapak Sajadin Sembiring, S.Si, MIT selaku dosen penguji yang telah memberikan saran dan kritik demi kemajuan Tugas Akhir ini. 4. Bapak Prof. Dr. Muhammad Zarlis, selaku Ketua Program Studi S1 Ilmu Komputer USU. 5. Bapak Syahriol Sitorus, S.Si, MIT, selaku Sekretaris Program Studi S1 Ilmu Komputer USU. 6. Bapak Dekan dan Pembantu Dekan fakultas Matematika dan Ilmu Pengetahuan Alam USU. 7. Bapak/Ibu Dosen serta seluruh Pegawai/Staf Program Studi S1 Ilmu Komputer USU yang telah mendidik dan membimbing penulis. 8. Teristimewa kepada Ibunda Hj. Gaslinar AR dan keluarga tercinta yang selalu sabar mendidik, memotivasi serta memberikan bantuan moril, material dan spiritual selama penulis mengikuti pendidikan hingga penyelesaian Skripsi ini. 9. Istimewa kepada Syafiana Dewi dan keluarga yang selalu memotivasi serta memberikan bantuan moril dan spiritual selama penulis mengikuti pendidikan hingga penyelesaian Skripsi ini. 10. Teman-teman seperjuangan dan rekan-rekan bangku kuliah yang telah banyak memberi bantuan dan semangat selama proses pengerjaan Skripsi ini. Universitas Sumatera Utara ABSTRAK Deteksi Intrusi merupakan sebuah mekanisme dalam usaha menyediakan keamanan bagi jaringan komputer. Oleh karena diperlukan suatu cara proses identifikasi serangan dalam usaha menjaga keamanan jaringan. Algoritma Machine Learning untuk deteksi intrusi jaringan dilakukan, dimana performa harus berada pada level yang dapat diterima untuk berbagai tipe serangan pada jaringan. Oleh karena bertambahnya volume data sebagaimana semakin komplek dan dinamisnya sifat dari intrusi, data mining berdasarkan teknik deteksi intrusi telah diterapkan pada jaringan yang berdasarkan trafik data. Dari semakin meningkatnya teknologi komputer data dalam jumlah yang besar dapat dikumpulkan dan disimpan. Akan tetapi data ini baru berguna jika dianalisa dan depedensi korelasinya ditemukan. Hal ini dapat dicapai dengan menggunakan algoritma Machine Learning Klasifikasi J48 dalam membangun dan membuat model intrusi yang efektif dari Decision Tree. Performa dari akurasi diukur dari algoritma machine learning dengan menggunakan test KDD99 intrusi dataset untuk menemukan anomali dan klasifikasi serangan. Dalam percobaan ini deteksi intrusi jaringan dievaluasi performa dengan memanfaatkan benchmark KDD CUP dari 10 % Trainin Dataset. Melihat lebih jauh sebuah Decision Tree sebagai model intrusi. Dan pada akhirnya percobaan dibantu dengan Classifier J48 yang berasal dari alat perangkat lunak WEKA untuk mendapatkan akurasi dari performa dalam mencapai deteksi anomali. Dari hasil analisis didapatkan tingkat akurasi dicapai dengan sangat baik menggunakan algoritma ini dalam proses klasifikasi serangan dengan tingkat akurasi rata-rata diatas 98 %. Universitas Sumatera Utara ATTACK ANALYSIS OF DATASET LOG FROM SYSTEM INTRUSION DETECTION USING DECISION TREE ALGORITHM ABSTRACT Intrusion detection is a mechanism for providing the security to Computer Networks. Because of that we need a process to identification network attack for manage network security. Machine Learning Algorithm for network intrusion detection using decision tree is presented, which performs the balance of detections and keeps false positives at acceptable level for different types of network attacks. Due to the large volumes of data as well as the complex and dynamic properties of intrusion behaviors, data mining based intrusion detection techniques have been applied to network-based traffic data. Because of advances in computer technology large amounts of data could be collected and stored. But all this data becomes more useful when it is analyzed and some dependencies and correlations are detected. This can be accomplished with machine learning algorithm J48 Classifier to build and effective decision tree Intrusion detection model. Performance of accuracy from measure from learning algorithm by employing the KDD99 benchmark intrusion detection dataset to find out the anomaly and classification of attack. In this research investigated network intrusion detection and evaluated their performance by employing the benchmark KDD Cup 99 10 % Training Dataset. Explored a decision tree as an intrusion detection model. And at least experiments suing the help of J48 Classifier, WEKA tool to achieve the accuracy of performance in attaining the detection of the anomalies. From result of analysis we get result of accuracy from this algorithm is quite good enough for classification of attack with accuray arround 98 %. Universitas Sumatera Utara DAFTAR ISI Halaman Persetujuan Pernyataan Penghargaan Abstrak Abstract Daftar Isi Daftar Tabel Daftar Gambar ii iii iv v vi vii ix x Bab 1 Pendahuluan 1.1. Latar Belakang 1.2. Rumusan Masalah 1.3. Batasan Masalah 1.4. Tujuan Penulisan Tugas Akhir 1.5. Manfaat Penulisan Tugas Akhir 1.6. Metodologi Penelitian 1.7. Sistematika Penulisan 1 1 3 4 4 4 5 7 Bab 2 Landasan Teori 2.1. Sistem Deteksi Intrusi 2.1.1 Host Based IDS 2.1.2 Network Based IDS 2.1.3 Hybrid Method IDS 8 8 9 11 13 2.2. Metode Deteksi Intrusi 2.2.1 Deteksi Signature 2.2.2 Deteksi Anomaly 2.2.3 Verifikasi Integritas 13 13 15 17 2.3. Data Mining 2.3.1 Teknik Data Mining 18 19 2.4. Algoritma Decision Tree 23 2.5. Weka 26 Universitas Sumatera Utara Bab 3 Percobaan Dataset Intrusi 3.1 Persiapan Percobaan 27 27 3.1.1 Algoritma yang digunakan 3.1.2 Program yang digunakan 27 28 3.1.3 Prosedur Mengumpulkan Data 28 3.2 Langkah Percobaan Bab 4 Bab 5 32 3.2.1 Perolehan Data dan Persiapan Data 33 3.2.2 Pre-Processing dan Proses Visualisasi Data 34 3.2.3 Proses Klasifikasi 38 3.2.3.1 Memilih algoritma 39 3.2.3.2 Opsi Algoritma 40 3.2.3.3 Sampling 40 3.2.3.4 Opsi Keluaran 42 Hasil dan Analisa Percobaan 4.1. Lingkungan Hasil dan Analisa Percobaan 4.2. Perangkat Keras 4.3. Perangkat Lunak 43 43 43 43 4.4. Performa Algoritma Decision Tree 44 Penutup 5.1. Kesimpulan 5.2. Saran 61 61 62 Daftar Pustaka 63 Universitas Sumatera Utara DAFTAR TABEL Halaman Tabel 3.1 Fitur Utama dari Koneksi TCP individual 29 Tabel 3.2 Fitur Konten yang disarankan oleh domain knowledge 30 Tabel 3.3 A two-second window dimana trafik yang bermacam-macam dihitung 31 Tabel 4.1 Hasil Decision Tree pada KDD CUP 1999 subset 20 % -12 % dari 10 % dataset KDD CUP 54 Tabel 4.2 Hasil Decision Tree pada KDD CUP 1999 subset 10 % -2 % dari 10 % dataset KDD CUP 55 Tabel 4.3 Hasil Decision Tree pada KDD CUP 1999 subset 20 % -12 % dari 10 % dataset KDD CUP untuk waktu dan tree 57 Tabel 4.4 Hasil Decision Tree pada KDD CUP 1999 subset 10 % -2 % dari 10 % dataset KDD CUP untuk waktu dan tree 57 Tabel 4.5 Hasil Komparasi Decision Tree dan Bayesian net pada KDD CUP 1999 subset 20 % -16 % dari 10 % dataset KDD CUP 59 Universitas Sumatera Utara DAFTAR GAMBAR Halaman Gambar 1.1 Alur Analisis Data Set KDD 1999 6 Gambar 2.1 Gambaran mengenai kegiatan anomali dan normal 17 Gambar 2.2. Contoh Decision Tree 21 Gambar 2.3 Clustering 22 Gambar 3.1 Flowchart Umum Percobaan dengan Menggunakan Weka 32 Gambar 3.2 Antar Muka menu Explorer Perangkat Lunak Weka 33 Gambar 3.3 Atribut dari KDDCup99.arff 34 Gambar 3.4 Informasi Atribut dari duration 34 Gambar 3.5 Opsi Algoritma Decision Tree J48 40 Gambar 3.6 Opsi pilihan metode sampling 41 Gambar 4.1 Detail Akurasi berdasarkan Class subset 20% dataset 47 Gambar 4.2 Nilai dari Cross Validation untuk subset 20% dataset 51 Gambar 4.3 Confusion Matrik dari Cross Validation untuk subset 20% dataset 52 Gambar 4.4 Decision Tree untuk subset 20% dataset dari 10 % data training KDD CUP 53 Universitas Sumatera Utara