7 BAB II KAJIAN PUSTAKA Dalam bab ini akan diuraikan mengenai

advertisement
7
BAB II
KAJIAN PUSTAKA
Dalam bab ini akan diuraikan mengenai teori-teori penunjang yang
digunakan dalam penelitian Klasifikasi Penggunaan Protokol Komunikasi Pada
Trafik Jaringan Menggunakan Metode Naïve Bayes, ringkasan dari hasil
penelitian yang sudah dilakukan terkait dengan topik penelitian ini, dan perbedaan
pengklasifikasian yang akan dibahas dalam penelitian ini dengan penelitian
sebelumnya.
2.1
Tinjauan Mutakhir
Penelitian “Klasifikasi Penggunaan Protokol Komunikasi Pada Trafik
Jaringan Menggunakan Metode Naïve Bayes” disusun menggunakan acuan
beberapa referensi yang membahas topik berkaitan dengan klasifikasi network
traffic. Beberapa referensi yang akan digunakan sebagai acuan pengembangan
penelitian
ditentukan berdasarkan topik terkait penelitian, metode yang
digunakan, dan algoritma simulasi yang diterapkan dalam penelitian tersebut. Hal
ini bertujuan untuk menentukan batasan-batasan masalah yang akan dibahas lebih
lanjut dalam penelitian ini. Dalam hal ini penulis memilih beberapa referensi
sebagai acuan penelitian
serupa dengan metode yang digunakan, dan alur
pengembangan yang berbeda satu sama lain. Uraian singkat referensi tersebut
adalah sebagai berikut.
8
Tabel 2.1 Tinjauan Mutakhir (State of the art)
No.
1.
Nama
Penulis
Bustami
Metode
Judul
Klasifikasi
Penerapan
Metode
Pada
Algoritma Naïve penelitian
Bayes
yang data
penelitian
mining
Asuransi
dari
penulisan adalah perusahaan
Nasabah dengan
ini
yang
Untuk digunakan dalam didapat
Mengklasifikasi
Data
Obyek Klasifikasi
diolah
menggunakan metode
menggunakan
Naïve
Bayes.
data mining yang Variabel-variabel
didapat
dari penentu
yang
perusahaan
digunakan
asuransi.
penelitian ini adalah
jenis
dalam
kelamin,
status,
usia,
pekerjaan,
penghasilan per tahun,
masa
pembayaran
asuransi,
dan
cara
pembayaran asuransi.
2.
Muhamad
Email
Filtering Pada
penelitian Pada
Rachli
Menggunakan
ini
Naïve Bayesian
menggunakan
penelitian
penulis dilakukan
metode
Bayesian
pengujian
pertama
dengan
Naïve jumlah data training
filter yang
untuk mendeteksi sebanyak
spam mail.
ini
digunakan
50
email
dengan 20 legitimate
mail dan 30 spam mail
sehingga nilai akurasi
yang didapat sebesar
74%.
9
Tabel 2.2 Tinjauan Mutakhir Lanjutan
No.
3.
Nama
Judul
Penulis
Puteri
Klasifikasi
Alpita
Trending
Agustina
Twitter
Metode Klasifikasi
Pada
artikel
Topic Metode
Dengan Bayes
Penerapan
Naïve kata
Bayes
ini Pada
penelitian
Naïve obyek
ini
yang
digunakan diklasifikasi
untuk
Metode
Obyek Klasifikasi
adalah
klasifikasi Trending topic pada
dari
topik aplikasi twitter.
pembicara
yang
sama.
4.
Dandy
Klasifikasi
Metode
yang Obyek
Pramana
Penggunaan
digunakan
pada diklasifikasi
Hostiadi
Protokol
penelitian
ini lalulintas
jaringan
Network komputer
yang
memiliki
data
Komunikasi Pada adalah
Network
Traffic Capturing
Menggunakan
Naïve
menggunakan
yang
adalah
informasi seperti IP
Bayes aplikasi Wireshark Address, Protocol dan
Sebagai
dan Data Filtering Length.
Penentuan QoS
menggunakan
yang
Naïve Bayes.
kemudian
Data-data
didapat
diolah
dengan menggunakan
metode Naïve Bayes
yang
digunakan
sebagai penentu QoS.
5.
Penulis
Klasifikasi
Pada penelitian ini Obyek
Penggunaan
metode
Protokol
digunakan adalah Network
Komunikasi Pada
Capturing
yang dikasifikasi
yang
adalah
Traffic
Universitas Udayana.
10
Tabel 2.3 Tinjauan Mutakhir Lanjutan
No.
Nama
Judul
Penulis
Trafik
Metode Klasifikasi
Jaringan Network
Menggunakan
Metode
Bayes.
Traffic Pada network traffic
menggunakan
Naïve aplikasi
Obyek Klasifikasi
jaringan
komputer
Wireshark memiliki data seperti
dan Data Filtering IP Address, Protocol
menggunakan Naïve dan Length. Data yang
Bayes.
didapat
digunakan
kemudian
sebagai
data uji.
2.2
Tinjauan Pustaka
2.2.1 Data Mining
Han dan Kamber (2006) dalam bukunya yang berjudul “ Data Mining
Concepts and Techniques” mengatakan, secara singkat data mining dapat
diartikan sebagai mengektraksi atau menggali pengetahuan dari data yang
berjumlah besar. Sedangkan menurut Daniel T. Laroes (2005) ada beberapa
definisi dari Data Mining yang diambil dari beberapa sumber. Secara umum data
mining dapat didefinisikan sebagai berikut:
a.
Data mining adalah proses menemukan sesuatu yang bermakna dari suatu
korelasi baru, pola dan tren yang ada dengan cara memilah-memilah data
berukuran besar yang disimpan dalam repositori, menggunakan teknologi
pengenalan pola serta teknik matematika dan statistik.
b.
Data mining adalah analisis pengamatan data set untuk menemukan
hubungan yang tidak berduga dan untuk meringkas data dengan cara atau
metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data.
11
c.
Data mining merupakan bidang ilmu interdisipliner yang menyatakan teknik
pembelajaran dari mesin (machine learning), pengenalan pola (pattern
recognation), statistik, database, dan visualisasi untuk mengatasi masalah
ekstraksi informasi dari basis data yang benar.
d.
Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan
potensial dari sekumpulan data yang terdapat secara implicit dalam suatu
basis data.
Pada dasarnya data mining berhubungan erat dengan analisis data dan
penggunaan perangkat lunak untuk mencari pola dan kesamaan dalam
sekumpulan data. Ide dasarnya adalah menggali sumber yang berharga dari suatu
tempat yang sama sekali tidak diduga, seperti perangkat lunak data mining
mengekstrasi pola yang sebelumnya tidak terlihat atau tidak begitu jelas sehingga
tidak seorang pun yang memperhatikan sebelumnya. Analisa data mining berjalan
pada data yang cenderung terus membesar dan teknik terbaik yang digunakan
kemudian berorientasi kepada data berukuran sangat besar untuk mendapatkan
kesimpulan dan keputusan paling layak. Data mining memiliki beberapa sebutan
atau nama lain yaitu : knowledge discovery in database (KDD), ekstraksi
pengetahuan (knowledge extraction), analisa data / pola (data / pattern analysis),
kecerdasan bisnis (business intelligence), data archaeology dan data dredging
(Daniel T.Larose, 2005)
Terdapat perbedaan antara pengertian data mining dengan bukan data
mining
yang
diilustrasikan
terhadap
beberapa
situasi
sehingga
dapat
menggambarkan perbedaan antara data mining dengan yang bukan data mining
yaitu :
Tabel 2.4 Perbedaan data mining dengan yang bukan data mining
Bukan Data Mining
Mencari ip address dalam log server
Data Mining
Menemukan pola ip address yang sering
muncul dalamlog server ( pola waktu)
Melakukan Query pada database untuk Mengelompokkan keterhubungan antara
12
mencari ip address yang sedang download
penggunaan bandwidth dengan ip address
Memberikan informasi jumlah bandwidth Mengelompokkan kategori bandwidth
yang diperlukan dari sejumlah user
(Contoh : bandwidth SOHOenterprise,
coorporate )
Mencari email yang bersifat spam
Melakukan
pengklasifikasian
terhadap
email apakah termasuk spam atau bukan
Pada Tabel 2.4 terlihat bahwa data mining tidak hanya melakukan proses
query untuk mendapatkan suatu informasi, melainkan melakukan proses
penggalian dari data yang ada untuk mendapatkan suatu informasi yang berguna
dimana informasi ini sebelumnya tidak diketahui sebelumnya (tersembunyi ).
Dalam teknik data mining terdapat beberapa tahapan dalam prosesnya.
Tahapan-tahapan dalam data mining tersebut dapat digambarkan sebagai berikut.
Gambar 2.1 Gambar Tahapan Data Mining
Tahapan yang di representasikan dalam Gambar 2.1 mengilustrasikan
bagaimana tiap proses bersifat interaktif dimana pemakaian terlibat langsung atau
dengan perantara knowledge base. Tahapan-tahapan tersebut diantaranya :
13
a. Pembersihan data (selection)
Pada umumnya data yang diperoleh, baik dari database suatu perusahaan
maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti
data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik.
Selain itu,ada juga atribut-atribut data yang tidak relevan dengan hipotesis
data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih
baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari
hasil data mining nantinya. Garbage in garbage out (hanya sampah yang
akan dihasilkan bila yang dimasukkan juga sampah ) merupakan istilah
yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga
akan mempengaruhi performasi dari system data mining karena data yang
ditangani akan berkurang jumlah dan kompleksituasinya.
b. Pra pemrosesan (Preproccessing)
Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal
dari satu database tetapi juga berasal dari beberapa database atau file teks.
Preproccessing
data
dilakukan
pada
atribut-atribut
yang
mengidentifikasikan entinitas-entinitas yang unik seperti atribut IP address
source, IP address destination, Source Port, Destination Port, Protocol dsb.
Preprocessing data perlu dilakukan secara cermat karena kesalahan pada
integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan
menyesatkan pengambilan aksi nantinya.
c. Transformasi data (Transformation)
Beberapa teknik data mining membutuhkan format data yang khusus
sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti
analisis asosiasi dan klastering hanya bisa menerima input data kategorikal.
Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi
menjadi interval. Proses ini sering disebut binning. Disini juga dilakukan
pemilihan data yang diperlukan oleh teknik data mining yang dipakai.
Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil
data mining nantinya karena ada beberapa karakteristik dari teknik-teknik
data mining tertentu yang tergantung pada tahap ini.
14
d. Aplikasi teknik data mining (Data Mining)
Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari
proses data mining. Ada beberapa teknik data mining yang sudah umum
dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di
seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data
mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan
data mining di bidang tertentu atau untuk data tertentu.
e. Evaluasi pola (Interpretation / Evaluation)
Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas
maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada
memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai dengan
hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya
umpan balik untuk memperbaiki proses data mining, mencoba teknik data
mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil
yang di luar dugaan yang mungkin bermanfat.
2.2.2 Cross Industry Standard Process for Data Mining
Cross Industry Standard for Data Mining (CRIS – DM) yang
dikembangkan tahun 1996 oleh analis dari beberapa industry seperti Daimbler
Chrysler, SPSS, dan NCR. CRISP DM menyediakan standar proses data mining
sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian.
Dalam CRISP – DM, sebuah proyek data mining memiliki siklus hidup
yang terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut
bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari
fase sebelumnya. Hubungan penting antarfase digambarkan dengan panah.
Sebagai contoh, jika proses berada pada fase modelling. Berdasar pada perilaku
dan karakteristik model, proses mungkin harus kembali kepada fase data
preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju
kepada fase evaluation.
15
Gambar 2.2 CRISP – DM
Enam fase CRISP – DM (Larose, 2005) :
1) Fase Pemahaman Bisnis (Business Understanding Phase)
a) Penentuan tujuan objek dan kebutuhan secara detail dalam lingkup
bisnis atau unit penelitian secara keseluruhan.
b) Menerjemahkan
tujuan
dan
batasan
menjadi
formula
dari
permasalahan data mining.
c) Menyiapkan strategi awal untuk mencapai tujuan.
2) Fase Pemahaman Data (Data Understanding Phase)
a) Mengumpulkan data.
b) Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut
data dan pencarian pengetahuan awal.
c) Mengevaluasi kualitas data.
d) Jika diinginkan, pilih sebagian kecil grup data yang mungkin
mengandung pola dari permasalahan.
3) Fase Pengolahan Data (Data Preparation Phase)
16
a) Siapkan dari data awal, kumpulkan data yang ingin digunakan untuk
keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang
perlu dilaksanakan secara intensif.
b) Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis
yang akan dilakukan.
c) Lakukan perubahan pada beberapa variabel jika dibutuhkan.
d) Siapkan data awal sehingga siap untuk perangkat pemodelan.
4) Fase Pemodelan (Modelling Phase)
a) Pilih dan aplikasikan teknik pemodelan yang sesuai.
b) Kalibrasi aturan model untuk mengoptimalkan hasil.
c) Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan
pada permasalahan data mining yang sama.
d) Jika diperlukan, proses dapat kembal ke fase pengolahan data untuk
menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi
kebutuhan teknik data mining tertentu.
5) Fase Evaluasi (Evaluation Phase)
a) Mengevaluasi satu atau lebih model yang digunakan dalam fase
pemodelan untuk mendapatkan kualitas dan efektifitas sebelum
disebarkan untuk digunakan.
b) Menetapkan apakah terdapat model yang memenuhi tujuan pada fase
awal.
c) Menentukan apakah terdapat permasalahan penting dari bisnis atau
penelitian yang tidak tertangani dengan baik.
d) Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
6) Fase Penyebaran (Deployment Phase)
a) Menggunakan model yang dihasilkan. Terbentuknya model tidak
menandakan telah terselesaikannya proyek.
b) Contoh sederhana penyebaran : Pembuatan laporan.
c) Contoh kompleks penyebaran : Penerapan proses data mining secara
paralel pada departemen lain.
17
2.2.3 Klasifikasi
Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang
mendeskripsikan dan membedakan data kedalam kelas-kelas. Klasifikasi
melibatkan proses pemeriksaan karakteristik dari objek dan memasukan objek
kedalam salah satu kelas yang sudah didefinisikan sebelumnya (Han dank amber,
2006 ). Selain itu, klasifikasi dapat diartikan adalah fungsi pembelajaran yang
memetakan (mengklasifikasi) sebuah unsur (item) data kedalam salah satu dari
beberapa kelas yang sudah didefinisikan.
Menurut Han dan Kamber ( 2006 ) secara umum, klasifikasi terdiri dari dua
tahap. Tahap pertama yaitu learning (proses belajar), merupakan sebuah model
dibuat untuk menggambarkan himpinan kelas atau konsep data yang telah
ditentukan sebelumnya. Model tersebut dibangun dengan menganalisis recordrecord diasumsikan ke dalam satu kelas yang telah ditentukan sebelumnya, yang
dinamakan atribut kelas. Model itu sendiri bisa berupa aturan IF-THEN, decision
tree, formula matematis atau neural network. Metode data mining yang umum
digunakan untuk klasifikasi adalah k-nearest neighbor, decision tree (ID3, C4.5,
dan Cart), dan jaringan saraf (neural network).
2.2.4 Protokol Jaringan Komputer
Protokol adalah sebuah aturan atau standar yang mengatur atau
mengijinkan terjadinya hubungan, komunikasi, dan perpindahan data antara dua
atau lebih titik komputer. Protokol dapat diterapkan pada perangkat keras,
perangkat lunak atau kombinasi dari keduanya. Pada tingkatan yang terendah,
protokol mendefinisikan koneksi perangkat keras. Protocol digunakan untuk
menentukan jenis layanan yang akan dilakukan pada internet. Berikut beberapa
macam jenis – jenis protokol komunikasi.
18
A. ARP (Address Resolution Protocol)
Layer IP bertugas untuk mengadakan mapping atau transformasi dari IP
address ke ethernet address. Secara internal ARP melakukan resolusi address
tersebut dan ARP berhubungan langsung dengan data link layer. ARP mengolah
sebuah tabel yang berisi IP Address dan ethernet address dan tabel ini diisi setelah
ARP melakukan broadcast ke seluruh jaringan.
B. ICMP (Internet Control Massage Protocol)
ICMP (Internet Control Message Protocol) adalah salah satu protokol inti
dari keluarga protokol internet. ICMP utamanya digunakan oleh sistem operasi
komputer jaringan untuk mengirim pesan kesalahan yang menyatakan, sebagai
contoh, bahwa komputer tujuan tidak bisa dijangkau. ICMP berbeda tujuan
dengan TCP dan UDP dalam hal ICMP tidak digunakan secara langsung oleh
aplikasi jaringan milik pengguna. salah satu pengecualian adalah aplikasi ping
yang mengirim pesan ICMP Echo Request (dan menerima Echo Reply) untuk
menentukan apakah komputer tujuan dapat dijangkau dan berapa lama paket yang
dikirimkan dibalas oleh komputer tujuan.
C. TCP/IP (Transmission Control Protocol/Internet Protocol)
TCP/IP atau sering disebut Transmission Control Protocol/Internet
Protocol merupakan standar komunikasi data yang digunakan oleh komunitas
internet dalam proses tukar-menukar data dari satu komputer ke komputer lain di
dalam jaringan Internet.
D. UDP (User Datagram Protocol)
UDP (User Datagram Protocol) merupakan TCP yang connectionless. Hal
ini berarti bahwa suatu paket yang dikirim melalui jaringan dan mencapai
komputer lain tanpa membuat suatu koneksi. Sehingga dalam perjalanan ke tujuan
paket dapat hilang karena tidak ada koneksi langsung antara kedua host, jadi UDP
sifatnya tidak realibel, tetapi UDP adalah lebih cepat dari pada TCP karena tidak
membutuhkan koneksi langsung.
19
E. FTP (File Transfer Protocol)
Sebuah protokol Internet yang berjalan di dalam lapisan aplikasi yang
merupakan standar untuk pentransferan berkas (file) komputer antar mesin-mesin
dalam sebuah internetwork. FTP merupakan salah satu protokol Internet yang
paling awal dikembangkan, dan masih digunakan hingga saat ini untuk melakukan
pengunduhan (download) dan penggugahan (upload) berkas-berkas komputer
antara klien FTP dan server FTP. Pada umumnya browser-browser versi terbaru
sudah mendukung FTP.
F. HTTP (HyperText Transfer Protocol)
Merupakan protokol yang dipergunakan untuk mentransfer dokumen
dalam World Wide Web (WWW). Protokol ini adalah protokol ringan, tidak
berstatus dan generik yang dapat dipergunakan berbagai macam tipe dokumen.
G. SSH (Secure Shell Hosting)
Aplikasi pengganti remote login seperti telnet, rsh, dan rlogin, yang jauh
lebih aman. Dikembangkan pertamakali oleh OpenBSD project dan kemudian
versi rilis p (port) di-manage oleh team porting ke sistem operasi lainnya,
termasuk sistem operasi Linux. Fungsi utama aplikasi ini adalah untuk mengakses
mesin secara remote. Bentuk akses remote yang bisa diperoleh adalah akses pada
mode teks maupun mode grafis/X apabila konfigurasinya mengijinkan. SCP yang
merupakan anggota keluarga SSH adalah aplikasi pengganti RCP yang aman,
keluarga lainnya adalah SFTP yang dapat digunakan sebagai pengganti FTP.
H. SNMP (Simple Network Management Protocol)
SNMP adalah sebuah protokol yang dirancang untuk memberikan
kemampuan kepada pengguna untuk memantau dan mengatur jaringan
komputernya secara sistematis dari jarak jauh atau dalam satu pusat kontrol saja.
Pengolahan ini dijalankan dengan menggumpulkan data dan melakukan penetapan
terhadap variabel-variabel dalam elemen jaringan yang dikelola.
20
I. DNS (Domain Name System)
DNS (Domain Name System, bahasa Indonesia: Sistem Penamaan
Domain) adalah sebuah sistem yang menyimpan informasi tentang nama host
maupun nama domain dalam bentuk basis data tersebar (distributed database) di
dalam jaringan komputer, misalkan: Internet. DNS menyediakan alamat IP untuk
setiap nama host dan mendata setiap server transmisi surat (mail exchange server)
yang menerima surat elektronik (email) untuk setiap domain.
J. DHCP (Dynamic Host Configuration Protocol)
DHCP (Dynamic Host Configuration Protocol) adalah protokol yang
berbasis arsitektur client/server yang dipakai untuk memudahkan pengalokasian
alamat IP dalam satu jaringan. Sebuah jaringan lokal yang tidak menggunakan
DHCP harus memberikan alamat IP kepada semua komputer secara manual. Jika
DHCP dipasang di jaringan lokal, maka semua komputer yang tersambung di
jaringan akan mendapatkan alamat IP secara otomatis dari server DHCP. Selain
alamat IP, banyak parameter jaringan yang dapat diberikan oleh DHCP,
seperti default gateway dan DNS server.
K.
Protokol Simple Service Discovery Protocol (SSDP)
Protokol Simple Service Discovery Protocol (SSDP) merupakan sebuah
protokol Universal
Plug
operasi Windows
XP dan
and
Play,
beberapa
yang
digunakan
di
dalam sistem
merek
perangkat
jaringan.
SSDP
menggunakan notifikasi pengumuman yang ditawarkan oleh protokolHypertext
Transfer Protocol (HTTP) yang memberikan Universal Resource Identifier (URI)
untuk tipe layanan dan juga Unique Service Name (USN). Tipe-tipe layanan
diatur oleh Universal Plug and Play Steering Committee.
SSDP didukung oleh banyak perangkat firewall Small Office Home
Office (SOHO), di mana host komputer yang berada di belakangnya bisa
membukakan lubang untuk beberapa aplikasi. SSDP juga terdapat di dalam
21
sistem-sistem pusat media digital (digital media center), di mana pertukaran media
antara komputer dan media center difasilitasi dengan menggunakan SSDP.
L. Multicast DNS (MDNS)
Multicast DNS (mDNS) merupakan sebuah protokol yang menggunakan
antarmuka pemrograman aplikasi yang mirip dengan sistem DNS unicast tapi
diimplementasikan secara berbeda. Setiap komputer dalam jaringan menyimpan
daftar
catatan
DNS-nya
masing-masing
(sebagai
contoh: A
record, MX
record, PTR record, SRV record dan lain sebagainya) dan saat klien mDNS
hendak mengetahui alamat IP dari sebuah PC dengan menggunakan namanya, PC
yang memiliki catatan A yang bersangkutan akan menjawabnya dengan
menggunakan alamat IP-nya sendiri. Alamat multicast yang digunakan oleh
protokol mDNS ini adalah 224.0.0.251.
M. TELNET (Telecommunication network)
Telnet (Telecommunication network)Adalah sebuah protokol jaringan
yang digunakan di koneksi Internet atau Local Area Network. TELNET
dikembangkan pada 1969 dan distandarisasi sebagai IETF STD 8, salah satu
standar Internet pertama. TELNET memiliki beberapa keterbatasan yang dianggap
sebagai risiko keamanan.
N. Netbios Name Service (NBNS)
Netbios Name Service (NBNS) adalah protokol Netbios yang digunakan
oleh aplikasi di OS Windows untuk digunakan pada protokol TCP/IP, sehingga
ketika OS Windows tersebut melakukan koneksi internet maka akan kelihatan di
Wireshark.
2.2.5 Algoritma Naïve Bayes
Algoritma Naïve Bayes merupakan salah satu algoritma yang terdapat pada
teknik klasifikasi. Naïve Bayes merupakan pengklasifikasian dengan metode
22
propabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes,
yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa
sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut
dikombinasikan dengan Naïve dimana diasumsikan kondisi antar atribut saling
bebas. Klasifikasi Naïve Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari
sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya.
Persamaan dari Teorema Bayes adalah :
..................................................................... (2.1)
Dimana :
X
: Data dengan class yang belum diketahui
H
: Hipotesa data X merupakan suatu class spesifik
P(H|X)
: Probabilitas hipotesa H berdasar kondisi X (posteriori
probability)
P(H)
: Probabilitas hipotesa H (prior probability)
P(X|H)
: Probabilitas X berdasarkan kondisi pada hipotesa H
P(X)
: Probabilitas X
Untuk menjelaskan teorema Naïve Bayes, perlu diketahui bahwa proses klasifikasi
memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi
sampel yang dianalisis tersebut. Karena itu, teorema bayes diatas disesuaikan
sebagai berikut :
.......................................................(2.2)
Dimana variabel C mempresentasikan kelas, sementara variabel F1…Fn
mempresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan
klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel
karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas
C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan
23
peluang kemunculan karakteristik-karakteristik sampel pada kelas C (disebut juga
likelihood), dibagi dengan peluang kemunculan karakteristik-karakteristik sampel
secara global (disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis
secara sederhana sebagai berikut :
.................................................. (2.3)
Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari
posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior kelas
lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan.
Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan
(C|F1, … , Fn) menggnakan aturan perkalian sebagai berikut :
Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin
banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai
probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya,
perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi
independensi yang sangat tinggi (naif), bahwa masing-masing petunjuk (F1,F2 …
Fn) saling bebas (independen) satu sama lain. Dengan asumsi tersebut, maka
berlaku suatu kesamaan sebagai berikut :
............................... (2.4)
Untuk i ≠ j, sehingga
24
..................................................................... (2.5)
Dari persamaan diatas dapat disimpulkan bahwa asumsi independensi naif
tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan
menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(C|F1,…,Fn) dapat
disederhanakan menjadi :
2.2.6 Pengukuran Kinerja Klasifikasi
Sebuah sistem yang melakukan klasifikasi diharapkan dapat melakukan
klasifikasi semua set data dengan benar, tetapi tidak dapat dipungkiri bahwa
kinerja suatu sistem tidak bisa 100 % benar sehingga sebuah sistem klasifikasi
juga harus diukur kinerjanya. Umumnya, pengukuran kinerja klasifikasi dilakukan
dengan matriks kondisi (confusion matriks).
Tabel 2.5 Confusion matriks
Kelas Hasil
F0
Klasifikasi
F1
Kelas
F0
F00
F01
Asli
F1
F10
F11
Matriks konfusi merupakan tabel pencatat hasil kerja klasifikasi. Kuantitas
matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju error.
Dengan mengetahui jumlah data yang diklasifikasi secara benar, kita dapat
mengetahui akurasi hasil prediksi dan dengan mengetahui jumlah data yang
diklasifikasi secara salah, kita dapat mengetahui laju error dari prediksi yang
25
dilakukan. Dua kuantitas ini digunakan sebagai matrik kinerja klasifikasi. Untuk
menghitung akurasi digunakan formula.
.......................................................................... (2.5)
Untuk menghitung laju error (kesalahan prediksi) digunakan formula
........................................................................... (2.6)
Semua algoritma klasifikasi berusaha membentuk model yang mempunyai
akurasi tinggi atau (laju error yang rendah). Umumnya, model yang dibangun
memprediksi dengan benar pada semua data yang menjadi data latihnya, tetapi
ketika model berhadapan dengan data uji, barulah kinerja model dari sebuah
algoritma klasifikasi ditentukan.
2.2.7 Topologi Jaringan
Topologi jaringan adalah suatu teknik untuk menghubungkan komputer
yang satu dengan komputer lainnya yang merangkai menjadi sebuah jaringan,
dimana penggunaan topologi jaringan didasarkan pada biaya, kecepatan akses
data, ukuran maupun tingkat konektivitas yang akan mempengaruhi kualitas
maupun efiensi suatu jaringan. Ada bermacam macam topologi jaringan komputer
yang banyak di gunakan saat ini antara lain adalah Topologi Bus, Topologi Ring,
Topologi Star, Topologi Mesh, Topologi Linear, masing-masing jenis topologi ini
mempunyai kelebihan dan kekurangannnya sendiri. Berikut merupakan topologi
jaringan Universitas Udayana Sudirman.
26
Gambar 2.3 Topologi jaringan Universitas Udayana
2.2.8 Wireshark
Wireshark adalah salah satu dari sekian banyak tool Network Analyzer
yang banyak digunakan oleh Network Administrator untuk menganalisa kinerja
jaringannya dan mengontrol lalu lintas data di jaringan yang di kelola. Wireshark
menggunakan interface yang menggunakan Graphical User Interface (GUI).
Wireshark digunakan untuk keperluan analisis, troubleshooting, pengembangan
software dan protokol, serta digunakan untuk tujuan edukasi. Wireshark mampu
menangkap paket-paket data yang ada pada jaringan. Semua jenis paket informasi
dalam berbagai format protokol dapat ditangkap dan dianalisa. Manfaat dari
penggunaan aplikasi wireshark ini yaitu sebagai berikut :
A. Menangkap informasi atau data paket yang dikirim dan diterima dalam
jaringan komputer
B. Mengetahui aktifitas yang terjadi dalam jaringan komputer
27
C. Mengetahui dan menganalisa kinerja jaringan komputer yang kita miliki
seperti kecepatan akses/share data koneksi jaringan ke internet
Beberapa informasi yang dapat di capture oleh tool wireshark sebagai
informasi network traffic antara lain time elapse (waktu yang dicatat dalam
periode tertentu), source address (berupa IP address ataupun mac address),
protocol (layanan atau service yang berjalan dalam jaringan komputer), length
(ukuran data yang dikirimkan), dan info (informasi tambahan dari tiap layanan
yang berjalan dalam jaringan komputer). Contoh tampilan dari aplikasi wireshark
adalah pada Gambar 2.4.
Gambar 2.4 Gambar aplikasi wireshark
2.2.9 Pentaho Data Integration
Pentaho Data Integration (PDI) atau Kettle adalah software dari Pentaho
yang dapat digunakan untuk proses ETL (Extraction, Transformation dan
Loading). PDI dapat digunakan untuk migrasi data, membersihkan data, loading
dari file ke database atau sebaliknya dalam volume besar. PDI menyediakan
graphical user interface dan drag-drop komponen yang memudahkan user. Elemen
utama dari PDI adalah Transformation dan Job.
28
Transformation adalah sekumpulan instruksi untuk merubah input
menjadi output yang diinginkan (input-proses-output). Sedangkan Job adalah
kumpulan instruksi untuk menjalankan transformasi. Ada tiga komponen dalam
PDI: Spoon, Pan dan Kitchen. Spoon adalah user interface untuk membuat Job
dan Transformation. Pan adalah tools yang berfungsi membaca, merubah dan
menulis data. Sedangkan Kitchen adalah program yang mengeksekusi job. Berikut
merupakan pengolahan data pada pentaho.
Gambar 2.5 Pengolahan data pada pentaho
Berdasarkan pada Gambar 2.5, dapat dijabarkan sebagai berikut :
1. CSV file input, proses input data berupa file .csv
2. Sort rows, proses memberikan size maksimal pada tabel
3. Sorted marge, proses menyatukan keseluruhan data
4. Group by, proses pengolahan data mentah (preprocessing data)
5. Add sequence, proses pemberian nomer id
6. Sorted marge 2, proses menyatukan keseluruhan data setelah dilakukan
preprocessing
7. Modified java script value, proses memberikan batas length range dan
count range dengan menggunakan java script
8. Text file output, hasil data akhir dalam bentuk file .csv
Download