BAB I PENDAHULUAN 1.1 Latar Belakang Sistem jaringan komputer memiliki peran yang sangat penting dalam masyarakat modern karena memungkinkan informasi dapat diakses, disimpan dan dimanipulasi secara online. Akan tetapi, timbul ancaman terhadap keamanan informasi tersebut dengan semakin meningkatnya akses dan koneksi ke jaringan yang juga didorong oleh banyaknya informasi tersebut yang bersifat sensitif. Keamanan jaringan akan terancam ketika terjadi intrusi. Teknik-teknik untuk mencegah terjadinya intrusi seperti perlindungan informasi (misalnya enkripsi) sudah diterapkan. Namun, dengan semakin kompleksnya sistem, selalu saja ada kelemahan yang dapat dieksploitasi karena kesalahan desain dan error pada pemrograman atau pendekatan sosial [LEE98]. Oleh karena itu, pendeteksian intrusi dibutuhkan sebagai salah satu bagian dari pertahanan pada sistem jaringan komputer. Penelitian mengenai sistem pendeteksi intrusi / intrusion detection system (IDS) telah dimulai sejak 1980 sampai sekarang antara lain untuk mengetahui metode pendeteksian intrusi yang performansinya lebih baik. Metode tradisional yang banyak diimplementasikan untuk mendeteksi intrusi adalah signature-based technique. Metode ini hanya dapat mendeteksi intrusi yang memiliki signature yang sesuai, sehingga signature database harus direvisi secara manual untuk setiap jenis intrusi yang ditemukan. Karena adanya keterbatasan ini, maka banyak riset yang dilakukan untuk mendeteksi intrusi dengan menggunakan teknik data mining [LAZ03]. Dari hasil penelitian tersebut, banyak yang performansinya mendekati atau lebih baik jika dibandingkan dengan sistem yang tidak menggunakan teknik data mining. Berdasarkan metode yang digunakan, pendeteksian intrusi dengan data mining dapat dibagi menjadi dua kategori yaitu misuse detection dan anomaly detection. Kelebihan utama dari misuse detection adalah mampu mendeteksi intrusi yang sudah diketahui secara akurat, tetapi tidak dapat mendeteksi jenis intrusi yang belum diketahui (belum I-1 I-2 pernah dilihat sebelumnya). Sebaliknya, anomaly detection dapat mendeteksi intrusi jenis baru sebagai deviasi dari data normal [LAZ03]. Akan tetapi, untuk menerapkan dan menggunakan IDS yang menggunakan teknik data mining terdapat 3 kesulitan utama yaitu kecenderungan menghasilkan false positive yang lebih tinggi khususnya metode anomaly detection, memerlukan biaya komputasi yang tinggi (memerlukan dua tahap yaitu pelatihan dan pengujian), dan membutuhkan data pelatihan yang jumlahnya besar [LEE01]. Teknik data mining, baik supervised learning maupun unsupervised learning dapat digunakan untuk mendeteksi intrusi pada jaringan. Pada penelitian [LAS05], dilakukan perbandingan beberapa algoritma yang termasuk dalam pendekatan supervised learning dan pendekatan unsupervised learning. Hasilnya, algoritma dengan pendekatan supervised learning secara umum, mampu mendeteksi intrusi yang jenisnya diketahui, dengan akurasi yang sangat tinggi jika dibandingkan dengan pendekatan unsupervised learning. Hasil terbaik diperoleh oleh C4.5 , SVM (Support Vector Machine) nonlinier dan MLP (Multi Layer Perceptron). Namun, ketika algoritma ini diuji pada data yang mengandung jenis intrusi yang tidak diketahui, secara umum performansinya menurun secara drastis. Hasil terbaik diperoleh oleh SVM dengan perbedaan yang signifikan dibandingkan teknik lainnya. Kekurangan dari pendekatan supervised learning dibandingkan dengan unsupervised learning adalah memerlukan pelabelan data yang cukup sulit untuk diperoleh dalam aplikasi yang sebenarnya. Selain itu, sulit untuk memastikan apakah semua label yang telah diberikan mewakili semua jenis intrusi. Hal inilah yang mengakibatkan pendekatan unsupervised learning juga banyak diterapkan untuk mendeteksi intrusi pada jaringan. Penelitian pada [MUK02] menggunakan metode SVM dan Neural Network. Hasilnya, SVM memiliki akurasi yang lebih tinggi dengan waktu pengujian dan pelatihan yang jauh lebih singkat. Penelitian lainnya, [LAZ03,LAS04] menunjukkan bahwa unsupervised SVM (One Class SVM) memiliki akurasi yang tinggi dalam pendeteksian intrusi, tetapi false positive-nya juga sangat tinggi. Jadi, dari hasil penelitian di atas, SVM merupakan teknik yang memiliki akurasi yang tinggi dalam mendeteksi intrusi dan dapat diterapkan dalam bentuk supervised learning maupun I-3 unsupervised learning. Selain itu, dalam bentuk supervised learning SVM dapat juga diterapkan dalam bentuk multi class SVM [MUK02] atau SVM biner [LAS05]. Walaupun SVM dapat mendeteksi intrusi dengan akurasi yang tinggi, masih terdapat beberapa masalah untuk dapat menerapkan SVM dalam IDS. Dengan menggunakan teknik SVM belum jelas diketahui secara persis bagaimana pengaruh jumlah dan distribusi data pada data pelatihan yang diproses terhadap performansi SVM dalam mendeteksi intrusi pada data yang distribusinya natural. Pada penelitian [MUK02, LAS05] digunakan data yang jumlahnya relatif sedikit, padahal umumnya jumlah data yang harus dimonitor oleh IDS cukup besar. Rendahnya performansi IDS seperti tingkat false positive yang tinggi tentunya akan sangat menganggu. Salah satu fungsi IDS adalah mengirimkan notifikasi kepada administrator ketika mendeteksi adanya intrusi. Jadi, jika tingkat false positive tinggi maka IDS akan mengirimkan banyak notifikasi pada saat tidak terjadi intrusi. Demikian juga jika akurasi pendeteksian intrusi rendah maka mungkin terdapat aktivitas penyusup yang tidak diketahui oleh administrator. Waktu pengujian yang dibutuhkan oleh IDS juga akan menentukan berapa estimasi volume data yang dapat dimonitor IDS dalam rentang waktu tertentu. Selain itu, waktu pelatihan juga penting untuk diketahui karena adakalanya diperlukan pelatihan ulang ketika terdapat intrusi jenis baru yang harus segera dideteksi. Oleh karena itu, untuk menerapkan SVM pada IDS, perlu diketahui bagaimana cara terbaik mengimplementasikan teknik tersebut serta bagaimana performansinya. 1.2 Rumusan Masalah Dalam Tugas Akhir ini akan dilakukan penerapan Support Vector Machine untuk pendeteksian intrusi dengan pendekatan misuse detection dan anomaly detection yang diacu dari penelitian [LAS05, LAS04, MUK02]. Hal ini dilakukan untuk mengetahui: 1. Bagaimana model terbaik dalam mengimplementasikan SVM untuk pendeteksian intrusi pada jaringan. 2. Bagaimana pengaruh variasi dataset terhadap performansi SVM dalam pendeteksian intrusi pada distribusi data yang natural. Variasi yang dimaksud adalah variasi dalam jumlah data pelatihan dan distribusi kelas data intrusi, I-4 sedangkan performansi yang dimaksud mencakup akurasi, detection rate, false positif rate serta waktu yang dibutuhkan untuk pelatihan dan pengujian. 1.3 Tujuan Tujuan utama Tugas Akhir ini adalah melakukan studi dan implementasi pendeteksian intrusi pada jaringan dengan menerapkan teknik Support Vector Machine baik dengan pendekatan misuse detection maupun anomaly detection yang diacu dari penelitian [LAS04, LAS05, MUK02]. Tujuan tersebut dapat dijabarkan sebagai berikut: 1. Memahami teknik Support Vector Machine. 2. Memahami bagaimana cara menerapkan Support Vector Machine untuk pendeteksian intrusi pada jaringan baik dengan metode misuse detection maupun anomaly detection. 3. Membangun prototipe perangkat lunak untuk mengimplementasikan teknik Support Vector Machine untuk pendeteksian intrusi pada jaringan. 4. Eksplorasi model pendeteksian intrusi menggunakan SVM untuk menemukan model yang memiliki performansi terbaik 5. Menganalisis potensi penerapan SVM dalam IDS. 1.4 Batasan Masalah Adapun batasan masalah pada pelaksanaan tugas akhir ini adalah: 1. Mining dilakukan terhadap data yang diaudit (bukan data stream). Selain itu, untuk dapat mengevaluasi hasil penerapan SVM yang dibangun, digunakan data yang sudah tersedia yaitu data KDDCUP 99 yang merupakan hasil preprocessing dari dari data DARPA 1998 intrusion detection evaluation dan dapat diperoleh di http://kdd.ics.uci.edu/databases/kddcup99. 2. Prototipe perangkat lunak yang dibuat lebih ditujukan sebagai sarana untuk melakukan pengujian terhadap hasil penerapan SVM yang dilakukan. 1.5 Metodologi Dalam penyusunan tugas akhir ini digunakan metodologi sebagai berikut: 1. Eksplorasi awal, dilakukan dengan cara melakukan eksplorasi mengenai pengenalan sistem pendeteksi intrusi dan teknik data mining yang dapat digunakan untuk pendeteksian intrusi. I-5 2. Studi literatur, dilakukan dengan cara mempelajari literatur-literatur baik yang berupa buku (textbook), jurnal dan artikel ilmiah, maupun website untuk memahami teknik SVM dan pendeteksian intrusi pada jaringan. 3. Analisis penyelesaian masalah, dilakukan dengan menganalisis penggunaan SVM untuk pendeteksian intrusi pada jaringan dan cara yang dapat digunakan untuk mengatasi kelemahannya. 4. Perancangan prototipe perangkat lunak, dilakukan dengan cara membuat desain prototipe perangkat lunak yang dapat mengimplementasikan hasil analisis penyelesaian masalah di atas. 5. Implementasi perangkat lunak, dilakukan berdasarkan hasil perancangan prototipe perangkat lunak 6. Pengujian perangkat lunak, menggunakan dataset KDD Cup 99. Analisis hasil dan penarikan kesimpulan, berdasarkan hasil yang diperoleh. 1.6 Sistematika Pembahasan Sistematika penulisan laporan tugas akhir ini adalah sebagai berikut: 1. Bab I Pendahuluan, berisi penjelasan mengenai latar belakang, rumusan masalah, tujuan, batasan masalah, metodologi, serta sistematika pembahasan yang digunakan untuk menyusun laporan tugas akhir. 2. Bab II Landasan Teori, berisi dasar teori yang digunakan dalam analisis, perancangan, dan implementasi tugas akhir. 3. Bab III Analisi Penyelesaian Masalah, berisi analisis solusi untuk masalah yang dibahas serta perancangan dan implementasi prototipe perangkat lunak yang akan digunakan untuk melakukan eksperimen. 4. Bab IV Eksperimen, berisi tujuan eksperimen, skenario, pelaksanaan dan analisis hasilnya. 5. Bab V Penutup, berisi kesimpulan dan saran yang didapatkan selama pelaksanaan tugas akhir.