teknik data mining untuk mendapatkan informasi dari keluaran

advertisement
TEKNIK DATA MINING UNTUK
MENDAPATKAN INFORMASI DARI
KELUARAN PERANGKAT
JARINGAN
Haryanto
Binus University, Jakarta, DKI Jakarta, Indonesia
Abstrak
Data mining adalah sebuah tool yang banyak digunakan dalam dunia bisnis,
khususnya dalam transaksi bisnis. Data mining yang digunakan untuk dunia bisnis
tersebut umumnya menggunakan sebuah file database yang tersimpan dari hasil
transaksi yang ada. Kemudian file database yang terdapat banyak data transaksi bisnis
dicari atau digali informasinya dengan tujuan agar dapat mengetahui pola atau
karakteristik dari para konsumen yang ada. Dalam penelitian ini, tujuan pemakaian data
mining ialah mencari informasi dari sejumlah besar data dalam database untuk dapat
mengklasifikasi sambungannya, klasifikasi IP destination yang paling banyak dituju
oleh user / client yang terhubung dengan jaringan komputer yang ada, klasifikasi
protokol yang digunakan dalam melakukan koneksi antara IP source dan IP destination.
Untuk menunjang pembuatan penelitian ini maka dibutuhkan data dari jaringan
komputer yang aktual dan berbagai informasi teknik maupun non teknik yang dapat
dijadikan sebagai bahan acuan dalam penelitian ini. Metodologi dalam mengumpulkan
data dan mendapatkan informasi dari data ialah mengumpulkan data, menjalankan
program data mining untuk melakukan data mining. Hasil yang dicapai adalah
mendapatkan informasi dari keluaran perangkat jaringan menggunakan teknik data
mining. Dari penelitian yang dilakukan, ada beberapa hal yang perlu diperhatikan agar
didapatkan informasi yang akurat untuk menggunakan teknik data mining dari keluaran
perangkat jaringan. Salah satu hal terpenting itu adalah atribut kelas yang digunakan
dalam proses klasifikasi.
Kata Kunci: Data mining, atribut kelas, klasifikasi, informasi
1 1. Pendahuluan
Informasi merupakan sebuah komponen yang penting dalam sebuah jaringan
komputer
dari
sebuah
perusahaan.
Integrity,
availability
(ketersediaan),
dan
confidentiality (kerahasiaan) informasi yang ada di dalam sebuah perusahaan sangat
penting. Apabila dari ketiga sifat (Integrity, availability, dan confidentiality) ada yang
terganggu maka keamanan jaringan (network security) dari perusahaan tersebut patut
diperhatikan dengan seksama. Sistem keamanan jaringan yang ada harus diperbaiki.
Apabila data dari perusahaan tersebut diubah atau dicuri oleh perusahaan lain yang
berperan
sebagai
kompetitornya,
maka
perusahaan
tersebut
dapat
terganggu
kelangsungan bisnisnya.
Trend connection yang dilakukan oleh user yang terhubung ke internet via
jaringan komputer yang ada perlu juga diperhatikan. Apabila user terlalu banyak
mengakses ke website yang tidak ada hubungan dengan bisnis dan produktivitas
perusahaan yang menyebabkan bisnis dan produktivitas perusahaan tersebut menurun
maka perlu dipertimbangkan beberapa tindak lanjut seperti akses untuk ke website
tersebut bisa di block atau ditutup. Customer yang ingin mencari atau mendownload
informasi akan mendapatkan kemudahan.
Dari sejumlah besar data jaringan komputer yang telah terkumpul melalui sebuah
program analisis jaringan, Wireshark, dapat diketahui kegiatan keseluruhan dari jaringan
komputer yang ada tersebut. Sejumlah besar data tersebut mengandung data mengenai
protocol yang digunakan, waktu pengambilan data, siapa saja yang berperan sebagai
source dan sebagainya. Namun, dari data yang terkumpul tersebut perlu diperoleh
informasi yang bermakna.
2 Data yang dikumpulkan ini sekedar data mentah (raw data) yang berasal dari
jaringan. Data hanya menunjukkan kegiatan pemakai jaringan. Data akan lebih
bermakna bilamana dapat ditarik informasi darinya.
2. Metodologi
Penelitian ini meneliti informasi yang dapat ditarik bilamana data diproses
dengan salah satu teknik data mining. Mengambil informasi dari data jaringan yang
sudah terkumpul dari hasil capture Wireshark menggunakan metode classify dan
algoritma tree J-48 dari software data mining (WEKA: Waikato Environment for
Knowledge Analysis) yang meliputi:
1. Source
2. Destination
3. Protocol yang digunakan antara source dan destination
Adapun pembahasan yang dilakukan meliputi sebagai berikut:
1 Studi kepustakaan
•
Perangkat jaringan
•
Data mining
•
Data mining Tools
2 Pengumpulan data
3 Pemrosesan data menggunakan salah satu teknik data mining
3 2.1 . Studi keputakaan
Switch
Switch adalah perangkat yang menghubungkan segmen jaringan. Switch
merupakan pengembangan lanjutan dari ‘bridge’.
50 port network switch
Switch bisa digunakan juga untuk menghubungkan switch satu dengan switch
lainnya, untuk memperbanyak jumlah port, atau memperluas jangkauan dari jaringan
(misalkan ada satu gedung dengan gedung yang lainnya). Pada vendor network
equipment, berbagai switch dipecah ke level berbeda seperti core, aggregation dan
access. Pemisahan berbagai level ini dikarenakan setiap level dimaksudkan untuk fungsi
yang berbeda. Switch yang beredar di pasaran terdiri dari 2 (dua) jenis yaitu:
Non Manageable Switch
Adalah switch yang tidak dapat di manage, switch tersebut sudah siap pakai,
hanya dipasang dan switch sudah bisa digunakan tanpa perlu diseting.
Manageable Switch
Adalah switch yang bisa diatur untuk kebutuhan jaringan tertentu, ada beberapa
perbedaan mendasar yang membedakan antara manageable switch dengan non
manageable switch. Perbedaan tersebut bisa dilihat dari kelebihan dan keunggulan yang
dimiliki oleh switch manageable itu sendiri. Kelebihan switch manageable adalah:
4 1. Mendukung penyempitan broadcast jaringan dengan VLAN (Virtual Local Area
Network).
2. Pengaturan akses pengguna dengan access list.
3. Membuat keamanan network lebih terjamin.
4. Bisa melakukan pengaturan trafik maintenance network karena dapat diakses
tanpa harus berada di dekat switch.
Data Mining
Proses dalam menemukan pola atau informasi menarik dari sejumlah data yang
besar, dimana data dapat disimpan dalam database, data warehouse atau dapat disimpan
di tempat penyimpanan informasi lainnya dengan menggunakan teknik pengenalan pola
seperti teknik statistik dan matematika. (Han dan Kamber, 2006:39; Larose, 2005:2).
Banyak orang menggunakan istilah data mining
dan
knowledge discovery in
databases (KDD) secara bergantian untuk menjelaskan proses penggalian informasi
tersembunyi dalam suatu kumpulan data yang besar. Akan tetapi kedua istilah tersebut
memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan
dalam proses KDD adalah data mining (Han dan Kamber, 2006:5).
Data mining didefinisikan sebagai satu set teknik yang digunakan secara otomatis
untuk mengeksplorasi secara menyeluruh dan membawa ke permukaan relasi-relasi yang
kompleks pada set data yang sangat besar. Set data yang dimaksud di sini adalah set data
yang berbentuk tabulasi, seperti yang banyak diimplementasikan dalam teknologi
manajemen basis data relasional. Akan tetapi, teknik-teknik data mining dapat juga
diaplikasikan pada representasi data yang lain, seperti domain data spatial, berbasis text,
dan multimedia (citra). Data mining dapat juga didefinisikan sebagai “pemodelan dan
5 penemuan pola-pola yang tersembunyi dengan memanfaatkan data dalam volume yang
besar”
Data mining menggunakan pendekatan discovery-based dimana pencocokan pola
(pattern-matching) dan algoritma-algoritma yang lain digunakan untuk menentukan
relasi-relasi kunci di dalam data yang diekplorasi. Data mining merupakan komponen
baru pada arsitektur sistem pendukung keputusan (DSS) di perusahaan-perusahaan.
Data Mining Tool (WEKA)
WEKA (Waikato Environment for Knowledge Analysis) adalah suatu perangkat
lunak pembelajaran mesin yang populer ditulis dengan Java, yang dikembangkan di
Universitas Waikato di Selandia Baru. WEKA adalah perangkat lunak gratis yang
tersedia di bawah GNU General Public License. WEKA menyediakan penggunaan
teknik klasifikasi menggunakan pohon keputusan dengan algoritma J48. Teknik
klasifikasi dan algoritma yang digunakan di WEKA disebut classifier.
2.2. Pengumpulan data
Start and stop Capturing
Untuk memulai mencapture lalu-lintas paket di jaringan komputer menggunakan
Wireshark, maka langkah-langkah yang harus dilakukan adalah sebagai berikut:
1. Jalankan aplikasi Wireshark yang telah terinstall di PC/laptop yang akan
digunakan untuk mencapture dengan mengklik start → all programs →
Wireshark atau dapat juga melalui menu run yang ada di microsoft window
ketikkan Wireshark
6 2. Ketika Wireshark terbuka seperti gambar di bawah ini
Tampilan awal Wireshark
3. Pilih capture → interface → tentukan interface mana yang akan di capture lalulintas paketnya → start
Tampilan kotak dialog “Capture interfaces” pada Microsoft Windows
Untuk selesai menangkap paket, maka tinggal klik pada tombol yang ditunjukkan
oleh panah berikut.
stop capturing
7 2.3. Pemrosesan data menggunakan salah satu teknik data mining
Proses data mining menggunakan Software WEKA
Setelah WEKA terinstall, maka aktivitas data mining menggunakan software
WEKA tersebut dapat dimulai. Proses data mining tersebut dibagi menjadi 2 tahap yaitu
Tahap Preprocess dan Tahap Classify (Classification)
Tahap Preprocess
Tahap Preprocess digunakan untuk memasukkan data laporan jaringan yang telah
dihasilkan melalui proses packet capture dan export file sehingga didapatkan file dalam
bentuk .csv agar dapat diolah menggunakan WEKA. Adapun caranya adalah sebagai
berikut:
1) Jalankan aplikasi WEKA dengan cara start → All Programs → WEKA 3.7.5 →
WEKA 3.7 sehingga muncul tampilan seperti di bawah ini:
Tampilan awal WEKA
2) Kemudian klik Explorer yang terdapat di bagian Applications
3) Sehingga muncul window seperti berikut ini
8 Tampilan preprocess pada WEKA
4) Kemudian pada Preprocess pilih open file → cari file .csv yang berisi laporan
jaringan yang telah didapat sebelumnya dari Wireshark → ubah file typenya
menjadi .csv data file → pilih file .csv yang ingin diolah menggunakan tools data
mining (WEKA) → kemudian klik tombol open seperti yang ditunjukkan di
bawah ini:
Berisikan file-file hasil capturing paket yang akan diolah menggunakan WEKA
5) Maka pada WEKA Explorer akan ditampilkan berupa grafik dari isi file tersebut.
Pada tahap preprocess ini, dapat digunakan untuk memfilter data-data yang ada.
Namun, pemfilteran ini tidak akan dibahas karena pada tahapan preprocess ini
hanya digunakan untuk memasukkan data laporan jaringan ke tools data mining
(WEKA) dengan tujuan agar data dapat diolah menggunakan software WEKA
dan menghasilkan informasi.
9 Hasil preprocess dari laporan jaringan yang telah dimasukkan pada tahap
sebelumnya
Klasifikasi pada WEKA
1. Memilih sebuah Classifier
Di bagian atas dari bagian classify terdapat kotak Classifier. Kotak ini
memiliki kolom teks yang memberikan nama dari classifier yang sedang
dipilih. Mengklik pada kotak teks dengan tombol kiri mouse memunculkan
kotak dialog Generic Object Editor, sama seperti untuk filter, yang dapat
digunakan untuk mengkonfigurasi opsi-opsi dari classifier saat ini. Dengan
klik kanan (atau Alt + Shift + klik kiri) dapat digunakan untuk menyalin
string setup ke clipboard atau menampilkan properti di kotak dialog Generic
Object Editor. Tombol select memungkinkan untuk memilih salah satu dari
pengklasifikasi yang tersedia di WEKA seperti yang ditunjukkan oleh
gambar berikut ini:
10 Memilih metode Classify yang akan digunakan untuk teknik data mining
Memilih Algoritma yang digunakan sebagai Classifier
2 Test Options
Hasil menerapkan classifier yang dipilih akan diuji sesuai dengan pilihan
yang ditetapkan dengan mengklik pada kotak Test Option.
Ada empat mode tes:
1. Use training set
Pengetesan dilakukan dengan menggunakan data training itu sendiri.
2. Supplied test set
Pengetesan
dilakukan
dengan
menggunakan
data
lain.
Dengan
menggunakan option inilah, bisa dilakukan prediksi terhadap data tes.
11 3. Cross-validation
Pada cross-validation, akan ada pilihan berapa fold yang akan digunakan.
Nilai default-nya adalah 10. Mekanisme-nya adalah sebagai berikut :
Data training dibagi menjadi k buah subset (subhimpunan). Dimana k
adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan
data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi,
akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes
sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali. Kemudian,
error dari k tes tersebut akan dihitung rata-ratanya.
4. Percentage split
Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k
merupakan masukan dari user.
Dalam penelitian ini, digunakan mode tes yang pertama, yaitu mode Use training set
seperti yang ditunjukkan oleh gambar berikut ini:
Test Option yang digunakan pada penelitian (Use Training Set)
12 Pilihan pengujian lebih lanjut dapat diatur dengan mengklik tombol More
options seperti yang ditunjukkan oleh gambar berikut ini:
More Option yang dapat diatur untuk pengujian lebih lanjut
Classifier evaluation options
1. Output model.
Model klasifikasi pada training set lengkap output sehingga dapat dilihat,
divisualisasikan, dan lain-lain. Opsi ini dipilih secara default.
13 2. Output per-class stats.
Ketepatan dan statistik benar / salah untuk setiap kelas. Pilihan ini juga
dipilih secara default.
3. Output entropy evaluation measures.
Langkah-langkah evaluasi entropi termasuk dalam output. Pilihan ini tidak
dipilih secara default.
4. Output confusion matrix.
Matriks confusion pada prediksi classifier termasuk dalam output. Opsi ini
dipilih secara default.
5. Store predictions for visualization.
Prediksi classifier diingat atau disimpan sehingga dapat divisualisasikan.
Opsi ini dipilih secara default.
6. Output predictions.
Prediksi pada data evaluasi untuk ditampilkan sebagai output. Perhatikan
bahwa dalam kasus validasi silang nomor contoh tidak sesuai dengan lokasi
dalam data.
7. Output additional attributes.
Jika atribut tambahan perlu menjadi output samping prediksi, misalnya,
atribut ID untuk misclassifications pelacakan, maka indeks dari atribut ini
dapat ditentukan di sini.
8. Cost-sensitive evaluation.
Kesalahan dievaluasi sehubungan dengan matriks biaya. Tombol set
memungkinkan untuk menentukan matriks biaya yang digunakan.
14 9. Random seed for xval / % Split.
Ini menentukan benih acak yang digunakan ketika mengacak data sebelum
dibagi untuk tujuan evaluasi.
10. Preserve order for % Split.
Hal ini menekan pengacakan data sebelum membelah diri menjadi train set
dan test set.
11. Output source code.
Jika classifier output dibangun sebagai kode sumber Java, maka dapat
ditentukan nama kelas di sini. Kode akan dicetak di daerah "Classifier
output".
3 Atribut kelas
Pengklasifikasi dalam WEKA dirancang untuk dilatih untuk memprediksi
'kelas' satu atribut, yang merupakan target untuk prediksi. Beberapa
pengklasifikasi hanya bisa memahami kelas nominal; pengklasifikasi lain hanya
dapat memahami kelas numerik (masalah regresi); yang lainnya dapat
memahami kedua-duanya.
Secara default, kelas diambil menjadi atribut terakhir dalam data. Jika
ingin mencoba classifier untuk memprediksi atribut berbeda, klik pada kotak di
bawah kotak Test Options untuk membawa sebuah daftar drop-down dari atribut
untuk memilih nya seperti yang ditunjukkan oleh gambar berikut ini:
15 Atribut kelas yang digunakan dalam proses klasifikasi (default)
4. Training a Classifier
Setelah classifier, tes dan kelas pilihan semuanya telah ditetapkan, proses belajar
dimulai dengan mengklik tombol Start. Proses pelatihan dapat dihentikan setiap saat
dengan mengklik tombol Stop. Ketika pelatihan selesai, beberapa hal akan dihasilkan.
Classifier output area di kanan layar diisi dengan teks yang menjelaskan hasil pelatihan
dan pengujian. Sebuah entri baru akan muncul dalam kotak Result List.
3. Kesimpulan
Dari penelitian ini, dapat ditarik beberapa simpulan. Simpulan tersebut yaitu:
1. Parameter-parameter atau atribut kelas yang harus digunakan adalah source dan
destination agar diperoleh hasil dengan tingkat reliabilitynya yang besar
2. Teknik data mining yang banyak digunakan dalam strategi bisnis dapat
digunakan pula untuk mendapatkan informasi dari sejumlah besar data jaringan
di mana data jaringan tersebut diperoleh dengan cara mencapture paket pada
jaringan komputer menggunakan Wireshark.
3. Terdapat tahapan preprocess yang digunakan untuk memasukkan data agar dapat
diolah menggunakan salah satu teknik data mining yaitu klasifikasi.
16 4. Setelah tahapan preprocess ini, dapat ditentukan teknik data mining (klasifikasi,
clustering, regresi, Association rule mining) yang akan digunakan untuk
mendapatkan informasi dari sejumlah besar data jaringan tersebut.
5. Setelah diperoleh output dari hasil klasifikasi, maka diperoleh informasi dari
sejumlah besar data jaringan yang ada tersebut.
6. Informasi yang diperoleh dengan data mining tergantung pada teknik data
mining, atribut, dan output yang dipilih. Peran kepakaran/kemahiran manusia
yang menggunakan tools akan berpengaruh pada penafsiran informasi yang
diperoleh.
Daftar Pustaka
Bramer, Max. (2007). Principles of Data Mining. London: Springer
Han, J. and Kamber, M. (2006). Data Mining Concepts and Techniques. (
San Francisco: Morgan Kauffman
edition).
Kusrini, dan Emha Taufik Luthfi. (2009). Algoritma Data Mining. Yogyakarta: Penerbit
Andi.
Orebaugh, A. , Ramirez, G. and Burke, J. (2007). Wireshark & Ethereal Network
Protocol Analyzer Toolkit. United States: O’Reilly Media, Inc.
Pramudiono, I. (2007). Pengantar Data Mining : Menambang Permata Pengetahuan di
Gunung Data. Retrieved (Februari 26 2011) from
http://www.ilmukomputer.org/wp-content/uploads/2006/08/iko-datamining.zip.
Ruoff, L. (2010, April 14). Wireshark. Retrieved April 28, 2010, from Wireshark
Website: http://wiki.wireshark.org/CaptureSetup/Ethernet
Witten, Ian. H. (2011). Data Mining Practical Machine Learning Tools and Technique.
(
edition). New York: Morgan Kauffman.
Witten, I. H and Frank, E. (2005). Data Mining Practical Machine Learning Tools and
edition). San Francisco: Morgan Kauffman.
Techniques. (
17 
Download