7 BAB II KAJIAN PUSTAKA Dalam bab ini akan diuraikan mengenai teori-teori penunjang yang digunakan dalam penelitian Klasifikasi Penggunaan Protokol Komunikasi Pada Trafik Jaringan Menggunakan Metode Naïve Bayes, ringkasan dari hasil penelitian yang sudah dilakukan terkait dengan topik penelitian ini, dan perbedaan pengklasifikasian yang akan dibahas dalam penelitian ini dengan penelitian sebelumnya. 2.1 Tinjauan Mutakhir Penelitian “Klasifikasi Penggunaan Protokol Komunikasi Pada Trafik Jaringan Menggunakan Metode Naïve Bayes” disusun menggunakan acuan beberapa referensi yang membahas topik berkaitan dengan klasifikasi network traffic. Beberapa referensi yang akan digunakan sebagai acuan pengembangan penelitian ditentukan berdasarkan topik terkait penelitian, metode yang digunakan, dan algoritma simulasi yang diterapkan dalam penelitian tersebut. Hal ini bertujuan untuk menentukan batasan-batasan masalah yang akan dibahas lebih lanjut dalam penelitian ini. Dalam hal ini penulis memilih beberapa referensi sebagai acuan penelitian serupa dengan metode yang digunakan, dan alur pengembangan yang berbeda satu sama lain. Uraian singkat referensi tersebut adalah sebagai berikut. 8 Tabel 2.1 Tinjauan Mutakhir (State of the art) No. 1. Nama Penulis Bustami Metode Judul Klasifikasi Penerapan Metode Pada Algoritma Naïve penelitian Bayes yang data penelitian mining Asuransi dari penulisan adalah perusahaan Nasabah dengan ini yang Untuk digunakan dalam didapat Mengklasifikasi Data Obyek Klasifikasi diolah menggunakan metode menggunakan Naïve Bayes. data mining yang Variabel-variabel didapat dari penentu yang perusahaan digunakan asuransi. penelitian ini adalah jenis dalam kelamin, status, usia, pekerjaan, penghasilan per tahun, masa pembayaran asuransi, dan cara pembayaran asuransi. 2. Muhamad Email Filtering Pada penelitian Pada Rachli Menggunakan ini Naïve Bayesian menggunakan penelitian penulis dilakukan metode Bayesian pengujian pertama dengan Naïve jumlah data training filter yang untuk mendeteksi sebanyak spam mail. ini digunakan 50 email dengan 20 legitimate mail dan 30 spam mail sehingga nilai akurasi yang didapat sebesar 74%. 9 Tabel 2.2 Tinjauan Mutakhir Lanjutan No. 3. Nama Judul Penulis Puteri Klasifikasi Alpita Trending Agustina Twitter Metode Klasifikasi Pada artikel Topic Metode Dengan Bayes Penerapan Naïve kata Bayes ini Pada penelitian Naïve obyek ini yang digunakan diklasifikasi untuk Metode Obyek Klasifikasi adalah klasifikasi Trending topic pada dari topik aplikasi twitter. pembicara yang sama. 4. Dandy Klasifikasi Metode yang Obyek Pramana Penggunaan digunakan pada diklasifikasi Hostiadi Protokol penelitian ini lalulintas jaringan Network komputer yang memiliki data Komunikasi Pada adalah Network Traffic Capturing Menggunakan Naïve menggunakan yang adalah informasi seperti IP Bayes aplikasi Wireshark Address, Protocol dan Sebagai dan Data Filtering Length. Penentuan QoS menggunakan yang Naïve Bayes. kemudian Data-data didapat diolah dengan menggunakan metode Naïve Bayes yang digunakan sebagai penentu QoS. 5. Penulis Klasifikasi Pada penelitian ini Obyek Penggunaan metode Protokol digunakan adalah Network Komunikasi Pada Capturing yang dikasifikasi yang adalah Traffic Universitas Udayana. 10 Tabel 2.3 Tinjauan Mutakhir Lanjutan No. Nama Judul Penulis Trafik Metode Klasifikasi Jaringan Network Menggunakan Metode Bayes. Traffic Pada network traffic menggunakan Naïve aplikasi Obyek Klasifikasi jaringan komputer Wireshark memiliki data seperti dan Data Filtering IP Address, Protocol menggunakan Naïve dan Length. Data yang Bayes. didapat digunakan kemudian sebagai data uji. 2.2 Tinjauan Pustaka 2.2.1 Data Mining Han dan Kamber (2006) dalam bukunya yang berjudul “ Data Mining Concepts and Techniques” mengatakan, secara singkat data mining dapat diartikan sebagai mengektraksi atau menggali pengetahuan dari data yang berjumlah besar. Sedangkan menurut Daniel T. Laroes (2005) ada beberapa definisi dari Data Mining yang diambil dari beberapa sumber. Secara umum data mining dapat didefinisikan sebagai berikut: a. Data mining adalah proses menemukan sesuatu yang bermakna dari suatu korelasi baru, pola dan tren yang ada dengan cara memilah-memilah data berukuran besar yang disimpan dalam repositori, menggunakan teknologi pengenalan pola serta teknik matematika dan statistik. b. Data mining adalah analisis pengamatan data set untuk menemukan hubungan yang tidak berduga dan untuk meringkas data dengan cara atau metode baru yang dapat dimengerti dan bermanfaat kepada pemilik data. 11 c. Data mining merupakan bidang ilmu interdisipliner yang menyatakan teknik pembelajaran dari mesin (machine learning), pengenalan pola (pattern recognation), statistik, database, dan visualisasi untuk mengatasi masalah ekstraksi informasi dari basis data yang benar. d. Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implicit dalam suatu basis data. Pada dasarnya data mining berhubungan erat dengan analisis data dan penggunaan perangkat lunak untuk mencari pola dan kesamaan dalam sekumpulan data. Ide dasarnya adalah menggali sumber yang berharga dari suatu tempat yang sama sekali tidak diduga, seperti perangkat lunak data mining mengekstrasi pola yang sebelumnya tidak terlihat atau tidak begitu jelas sehingga tidak seorang pun yang memperhatikan sebelumnya. Analisa data mining berjalan pada data yang cenderung terus membesar dan teknik terbaik yang digunakan kemudian berorientasi kepada data berukuran sangat besar untuk mendapatkan kesimpulan dan keputusan paling layak. Data mining memiliki beberapa sebutan atau nama lain yaitu : knowledge discovery in database (KDD), ekstraksi pengetahuan (knowledge extraction), analisa data / pola (data / pattern analysis), kecerdasan bisnis (business intelligence), data archaeology dan data dredging (Daniel T.Larose, 2005) Terdapat perbedaan antara pengertian data mining dengan bukan data mining yang diilustrasikan terhadap beberapa situasi sehingga dapat menggambarkan perbedaan antara data mining dengan yang bukan data mining yaitu : Tabel 2.4 Perbedaan data mining dengan yang bukan data mining Bukan Data Mining Mencari ip address dalam log server Data Mining Menemukan pola ip address yang sering muncul dalamlog server ( pola waktu) Melakukan Query pada database untuk Mengelompokkan keterhubungan antara 12 mencari ip address yang sedang download penggunaan bandwidth dengan ip address Memberikan informasi jumlah bandwidth Mengelompokkan kategori bandwidth yang diperlukan dari sejumlah user (Contoh : bandwidth SOHOenterprise, coorporate ) Mencari email yang bersifat spam Melakukan pengklasifikasian terhadap email apakah termasuk spam atau bukan Pada Tabel 2.4 terlihat bahwa data mining tidak hanya melakukan proses query untuk mendapatkan suatu informasi, melainkan melakukan proses penggalian dari data yang ada untuk mendapatkan suatu informasi yang berguna dimana informasi ini sebelumnya tidak diketahui sebelumnya (tersembunyi ). Dalam teknik data mining terdapat beberapa tahapan dalam prosesnya. Tahapan-tahapan dalam data mining tersebut dapat digambarkan sebagai berikut. Gambar 2.1 Gambar Tahapan Data Mining Tahapan yang di representasikan dalam Gambar 2.1 mengilustrasikan bagaimana tiap proses bersifat interaktif dimana pemakaian terlibat langsung atau dengan perantara knowledge base. Tahapan-tahapan tersebut diantaranya : 13 a. Pembersihan data (selection) Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu,ada juga atribut-atribut data yang tidak relevan dengan hipotesis data mining yang kita miliki. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Garbage in garbage out (hanya sampah yang akan dihasilkan bila yang dimasukkan juga sampah ) merupakan istilah yang sering dipakai untuk menggambarkan tahap ini. Pembersihan data juga akan mempengaruhi performasi dari system data mining karena data yang ditangani akan berkurang jumlah dan kompleksituasinya. b. Pra pemrosesan (Preproccessing) Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Preproccessing data dilakukan pada atribut-atribut yang mengidentifikasikan entinitas-entinitas yang unik seperti atribut IP address source, IP address destination, Source Port, Destination Port, Protocol dsb. Preprocessing data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. c. Transformasi data (Transformation) Beberapa teknik data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa teknik standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi interval. Proses ini sering disebut binning. Disini juga dilakukan pemilihan data yang diperlukan oleh teknik data mining yang dipakai. Transformasi dan pemilihan data ini juga menentukan kualitas dari hasil data mining nantinya karena ada beberapa karakteristik dari teknik-teknik data mining tertentu yang tergantung pada tahap ini. 14 d. Aplikasi teknik data mining (Data Mining) Aplikasi teknik data mining sendiri hanya merupakan salah satu bagian dari proses data mining. Ada beberapa teknik data mining yang sudah umum dipakai. Kita akan membahas lebih jauh mengenai teknik-teknik yang ada di seksi berikutnya. Perlu diperhatikan bahwa ada kalanya teknik-teknik data mining umum yang tersedia di pasar tidak mencukupi untuk melaksanakan data mining di bidang tertentu atau untuk data tertentu. e. Evaluasi pola (Interpretation / Evaluation) Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai dengan hipotesa ada beberapa alternatif yang dapat diambil seperti : menjadikannya umpan balik untuk memperbaiki proses data mining, mencoba teknik data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfat. 2.2.2 Cross Industry Standard Process for Data Mining Cross Industry Standard for Data Mining (CRIS – DM) yang dikembangkan tahun 1996 oleh analis dari beberapa industry seperti Daimbler Chrysler, SPSS, dan NCR. CRISP DM menyediakan standar proses data mining sebagai strategi pemecahan masalah secara umum dari bisnis atau unit penelitian. Dalam CRISP – DM, sebuah proyek data mining memiliki siklus hidup yang terbagi dalam enam fase. Keseluruhan fase berurutan yang ada tersebut bersifat adaptif. Fase berikutnya dalam urutan bergantung kepada keluaran dari fase sebelumnya. Hubungan penting antarfase digambarkan dengan panah. Sebagai contoh, jika proses berada pada fase modelling. Berdasar pada perilaku dan karakteristik model, proses mungkin harus kembali kepada fase data preparation untuk perbaikan lebih lanjut terhadap data atau berpindah maju kepada fase evaluation. 15 Gambar 2.2 CRISP – DM Enam fase CRISP – DM (Larose, 2005) : 1) Fase Pemahaman Bisnis (Business Understanding Phase) a) Penentuan tujuan objek dan kebutuhan secara detail dalam lingkup bisnis atau unit penelitian secara keseluruhan. b) Menerjemahkan tujuan dan batasan menjadi formula dari permasalahan data mining. c) Menyiapkan strategi awal untuk mencapai tujuan. 2) Fase Pemahaman Data (Data Understanding Phase) a) Mengumpulkan data. b) Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal. c) Mengevaluasi kualitas data. d) Jika diinginkan, pilih sebagian kecil grup data yang mungkin mengandung pola dari permasalahan. 3) Fase Pengolahan Data (Data Preparation Phase) 16 a) Siapkan dari data awal, kumpulkan data yang ingin digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif. b) Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan. c) Lakukan perubahan pada beberapa variabel jika dibutuhkan. d) Siapkan data awal sehingga siap untuk perangkat pemodelan. 4) Fase Pemodelan (Modelling Phase) a) Pilih dan aplikasikan teknik pemodelan yang sesuai. b) Kalibrasi aturan model untuk mengoptimalkan hasil. c) Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama. d) Jika diperlukan, proses dapat kembal ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu. 5) Fase Evaluasi (Evaluation Phase) a) Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektifitas sebelum disebarkan untuk digunakan. b) Menetapkan apakah terdapat model yang memenuhi tujuan pada fase awal. c) Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik. d) Mengambil keputusan berkaitan dengan penggunaan hasil dari data mining. 6) Fase Penyebaran (Deployment Phase) a) Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek. b) Contoh sederhana penyebaran : Pembuatan laporan. c) Contoh kompleks penyebaran : Penerapan proses data mining secara paralel pada departemen lain. 17 2.2.3 Klasifikasi Klasifikasi merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan membedakan data kedalam kelas-kelas. Klasifikasi melibatkan proses pemeriksaan karakteristik dari objek dan memasukan objek kedalam salah satu kelas yang sudah didefinisikan sebelumnya (Han dank amber, 2006 ). Selain itu, klasifikasi dapat diartikan adalah fungsi pembelajaran yang memetakan (mengklasifikasi) sebuah unsur (item) data kedalam salah satu dari beberapa kelas yang sudah didefinisikan. Menurut Han dan Kamber ( 2006 ) secara umum, klasifikasi terdiri dari dua tahap. Tahap pertama yaitu learning (proses belajar), merupakan sebuah model dibuat untuk menggambarkan himpinan kelas atau konsep data yang telah ditentukan sebelumnya. Model tersebut dibangun dengan menganalisis recordrecord diasumsikan ke dalam satu kelas yang telah ditentukan sebelumnya, yang dinamakan atribut kelas. Model itu sendiri bisa berupa aturan IF-THEN, decision tree, formula matematis atau neural network. Metode data mining yang umum digunakan untuk klasifikasi adalah k-nearest neighbor, decision tree (ID3, C4.5, dan Cart), dan jaringan saraf (neural network). 2.2.4 Protokol Jaringan Komputer Protokol adalah sebuah aturan atau standar yang mengatur atau mengijinkan terjadinya hubungan, komunikasi, dan perpindahan data antara dua atau lebih titik komputer. Protokol dapat diterapkan pada perangkat keras, perangkat lunak atau kombinasi dari keduanya. Pada tingkatan yang terendah, protokol mendefinisikan koneksi perangkat keras. Protocol digunakan untuk menentukan jenis layanan yang akan dilakukan pada internet. Berikut beberapa macam jenis – jenis protokol komunikasi. 18 A. ARP (Address Resolution Protocol) Layer IP bertugas untuk mengadakan mapping atau transformasi dari IP address ke ethernet address. Secara internal ARP melakukan resolusi address tersebut dan ARP berhubungan langsung dengan data link layer. ARP mengolah sebuah tabel yang berisi IP Address dan ethernet address dan tabel ini diisi setelah ARP melakukan broadcast ke seluruh jaringan. B. ICMP (Internet Control Massage Protocol) ICMP (Internet Control Message Protocol) adalah salah satu protokol inti dari keluarga protokol internet. ICMP utamanya digunakan oleh sistem operasi komputer jaringan untuk mengirim pesan kesalahan yang menyatakan, sebagai contoh, bahwa komputer tujuan tidak bisa dijangkau. ICMP berbeda tujuan dengan TCP dan UDP dalam hal ICMP tidak digunakan secara langsung oleh aplikasi jaringan milik pengguna. salah satu pengecualian adalah aplikasi ping yang mengirim pesan ICMP Echo Request (dan menerima Echo Reply) untuk menentukan apakah komputer tujuan dapat dijangkau dan berapa lama paket yang dikirimkan dibalas oleh komputer tujuan. C. TCP/IP (Transmission Control Protocol/Internet Protocol) TCP/IP atau sering disebut Transmission Control Protocol/Internet Protocol merupakan standar komunikasi data yang digunakan oleh komunitas internet dalam proses tukar-menukar data dari satu komputer ke komputer lain di dalam jaringan Internet. D. UDP (User Datagram Protocol) UDP (User Datagram Protocol) merupakan TCP yang connectionless. Hal ini berarti bahwa suatu paket yang dikirim melalui jaringan dan mencapai komputer lain tanpa membuat suatu koneksi. Sehingga dalam perjalanan ke tujuan paket dapat hilang karena tidak ada koneksi langsung antara kedua host, jadi UDP sifatnya tidak realibel, tetapi UDP adalah lebih cepat dari pada TCP karena tidak membutuhkan koneksi langsung. 19 E. FTP (File Transfer Protocol) Sebuah protokol Internet yang berjalan di dalam lapisan aplikasi yang merupakan standar untuk pentransferan berkas (file) komputer antar mesin-mesin dalam sebuah internetwork. FTP merupakan salah satu protokol Internet yang paling awal dikembangkan, dan masih digunakan hingga saat ini untuk melakukan pengunduhan (download) dan penggugahan (upload) berkas-berkas komputer antara klien FTP dan server FTP. Pada umumnya browser-browser versi terbaru sudah mendukung FTP. F. HTTP (HyperText Transfer Protocol) Merupakan protokol yang dipergunakan untuk mentransfer dokumen dalam World Wide Web (WWW). Protokol ini adalah protokol ringan, tidak berstatus dan generik yang dapat dipergunakan berbagai macam tipe dokumen. G. SSH (Secure Shell Hosting) Aplikasi pengganti remote login seperti telnet, rsh, dan rlogin, yang jauh lebih aman. Dikembangkan pertamakali oleh OpenBSD project dan kemudian versi rilis p (port) di-manage oleh team porting ke sistem operasi lainnya, termasuk sistem operasi Linux. Fungsi utama aplikasi ini adalah untuk mengakses mesin secara remote. Bentuk akses remote yang bisa diperoleh adalah akses pada mode teks maupun mode grafis/X apabila konfigurasinya mengijinkan. SCP yang merupakan anggota keluarga SSH adalah aplikasi pengganti RCP yang aman, keluarga lainnya adalah SFTP yang dapat digunakan sebagai pengganti FTP. H. SNMP (Simple Network Management Protocol) SNMP adalah sebuah protokol yang dirancang untuk memberikan kemampuan kepada pengguna untuk memantau dan mengatur jaringan komputernya secara sistematis dari jarak jauh atau dalam satu pusat kontrol saja. Pengolahan ini dijalankan dengan menggumpulkan data dan melakukan penetapan terhadap variabel-variabel dalam elemen jaringan yang dikelola. 20 I. DNS (Domain Name System) DNS (Domain Name System, bahasa Indonesia: Sistem Penamaan Domain) adalah sebuah sistem yang menyimpan informasi tentang nama host maupun nama domain dalam bentuk basis data tersebar (distributed database) di dalam jaringan komputer, misalkan: Internet. DNS menyediakan alamat IP untuk setiap nama host dan mendata setiap server transmisi surat (mail exchange server) yang menerima surat elektronik (email) untuk setiap domain. J. DHCP (Dynamic Host Configuration Protocol) DHCP (Dynamic Host Configuration Protocol) adalah protokol yang berbasis arsitektur client/server yang dipakai untuk memudahkan pengalokasian alamat IP dalam satu jaringan. Sebuah jaringan lokal yang tidak menggunakan DHCP harus memberikan alamat IP kepada semua komputer secara manual. Jika DHCP dipasang di jaringan lokal, maka semua komputer yang tersambung di jaringan akan mendapatkan alamat IP secara otomatis dari server DHCP. Selain alamat IP, banyak parameter jaringan yang dapat diberikan oleh DHCP, seperti default gateway dan DNS server. K. Protokol Simple Service Discovery Protocol (SSDP) Protokol Simple Service Discovery Protocol (SSDP) merupakan sebuah protokol Universal Plug operasi Windows XP dan and Play, beberapa yang digunakan di dalam sistem merek perangkat jaringan. SSDP menggunakan notifikasi pengumuman yang ditawarkan oleh protokolHypertext Transfer Protocol (HTTP) yang memberikan Universal Resource Identifier (URI) untuk tipe layanan dan juga Unique Service Name (USN). Tipe-tipe layanan diatur oleh Universal Plug and Play Steering Committee. SSDP didukung oleh banyak perangkat firewall Small Office Home Office (SOHO), di mana host komputer yang berada di belakangnya bisa membukakan lubang untuk beberapa aplikasi. SSDP juga terdapat di dalam 21 sistem-sistem pusat media digital (digital media center), di mana pertukaran media antara komputer dan media center difasilitasi dengan menggunakan SSDP. L. Multicast DNS (MDNS) Multicast DNS (mDNS) merupakan sebuah protokol yang menggunakan antarmuka pemrograman aplikasi yang mirip dengan sistem DNS unicast tapi diimplementasikan secara berbeda. Setiap komputer dalam jaringan menyimpan daftar catatan DNS-nya masing-masing (sebagai contoh: A record, MX record, PTR record, SRV record dan lain sebagainya) dan saat klien mDNS hendak mengetahui alamat IP dari sebuah PC dengan menggunakan namanya, PC yang memiliki catatan A yang bersangkutan akan menjawabnya dengan menggunakan alamat IP-nya sendiri. Alamat multicast yang digunakan oleh protokol mDNS ini adalah 224.0.0.251. M. TELNET (Telecommunication network) Telnet (Telecommunication network)Adalah sebuah protokol jaringan yang digunakan di koneksi Internet atau Local Area Network. TELNET dikembangkan pada 1969 dan distandarisasi sebagai IETF STD 8, salah satu standar Internet pertama. TELNET memiliki beberapa keterbatasan yang dianggap sebagai risiko keamanan. N. Netbios Name Service (NBNS) Netbios Name Service (NBNS) adalah protokol Netbios yang digunakan oleh aplikasi di OS Windows untuk digunakan pada protokol TCP/IP, sehingga ketika OS Windows tersebut melakukan koneksi internet maka akan kelihatan di Wireshark. 2.2.5 Algoritma Naïve Bayes Algoritma Naïve Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi. Naïve Bayes merupakan pengklasifikasian dengan metode 22 propabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut dikombinasikan dengan Naïve dimana diasumsikan kondisi antar atribut saling bebas. Klasifikasi Naïve Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya. Persamaan dari Teorema Bayes adalah : ..................................................................... (2.1) Dimana : X : Data dengan class yang belum diketahui H : Hipotesa data X merupakan suatu class spesifik P(H|X) : Probabilitas hipotesa H berdasar kondisi X (posteriori probability) P(H) : Probabilitas hipotesa H (prior probability) P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesa H P(X) : Probabilitas X Untuk menjelaskan teorema Naïve Bayes, perlu diketahui bahwa proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, teorema bayes diatas disesuaikan sebagai berikut : .......................................................(2.2) Dimana variabel C mempresentasikan kelas, sementara variabel F1…Fn mempresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan 23 peluang kemunculan karakteristik-karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan peluang kemunculan karakteristik-karakteristik sampel secara global (disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis secara sederhana sebagai berikut : .................................................. (2.3) Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai-nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan (C|F1, … , Fn) menggnakan aturan perkalian sebagai berikut : Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnya faktor-faktor syarat yang mempengaruhi nilai probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi independensi yang sangat tinggi (naif), bahwa masing-masing petunjuk (F1,F2 … Fn) saling bebas (independen) satu sama lain. Dengan asumsi tersebut, maka berlaku suatu kesamaan sebagai berikut : ............................... (2.4) Untuk i ≠ j, sehingga 24 ..................................................................... (2.5) Dari persamaan diatas dapat disimpulkan bahwa asumsi independensi naif tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(C|F1,…,Fn) dapat disederhanakan menjadi : 2.2.6 Pengukuran Kinerja Klasifikasi Sebuah sistem yang melakukan klasifikasi diharapkan dapat melakukan klasifikasi semua set data dengan benar, tetapi tidak dapat dipungkiri bahwa kinerja suatu sistem tidak bisa 100 % benar sehingga sebuah sistem klasifikasi juga harus diukur kinerjanya. Umumnya, pengukuran kinerja klasifikasi dilakukan dengan matriks kondisi (confusion matriks). Tabel 2.5 Confusion matriks Kelas Hasil F0 Klasifikasi F1 Kelas F0 F00 F01 Asli F1 F10 F11 Matriks konfusi merupakan tabel pencatat hasil kerja klasifikasi. Kuantitas matriks konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju error. Dengan mengetahui jumlah data yang diklasifikasi secara benar, kita dapat mengetahui akurasi hasil prediksi dan dengan mengetahui jumlah data yang diklasifikasi secara salah, kita dapat mengetahui laju error dari prediksi yang 25 dilakukan. Dua kuantitas ini digunakan sebagai matrik kinerja klasifikasi. Untuk menghitung akurasi digunakan formula. .......................................................................... (2.5) Untuk menghitung laju error (kesalahan prediksi) digunakan formula ........................................................................... (2.6) Semua algoritma klasifikasi berusaha membentuk model yang mempunyai akurasi tinggi atau (laju error yang rendah). Umumnya, model yang dibangun memprediksi dengan benar pada semua data yang menjadi data latihnya, tetapi ketika model berhadapan dengan data uji, barulah kinerja model dari sebuah algoritma klasifikasi ditentukan. 2.2.7 Topologi Jaringan Topologi jaringan adalah suatu teknik untuk menghubungkan komputer yang satu dengan komputer lainnya yang merangkai menjadi sebuah jaringan, dimana penggunaan topologi jaringan didasarkan pada biaya, kecepatan akses data, ukuran maupun tingkat konektivitas yang akan mempengaruhi kualitas maupun efiensi suatu jaringan. Ada bermacam macam topologi jaringan komputer yang banyak di gunakan saat ini antara lain adalah Topologi Bus, Topologi Ring, Topologi Star, Topologi Mesh, Topologi Linear, masing-masing jenis topologi ini mempunyai kelebihan dan kekurangannnya sendiri. Berikut merupakan topologi jaringan Universitas Udayana Sudirman. 26 Gambar 2.3 Topologi jaringan Universitas Udayana 2.2.8 Wireshark Wireshark adalah salah satu dari sekian banyak tool Network Analyzer yang banyak digunakan oleh Network Administrator untuk menganalisa kinerja jaringannya dan mengontrol lalu lintas data di jaringan yang di kelola. Wireshark menggunakan interface yang menggunakan Graphical User Interface (GUI). Wireshark digunakan untuk keperluan analisis, troubleshooting, pengembangan software dan protokol, serta digunakan untuk tujuan edukasi. Wireshark mampu menangkap paket-paket data yang ada pada jaringan. Semua jenis paket informasi dalam berbagai format protokol dapat ditangkap dan dianalisa. Manfaat dari penggunaan aplikasi wireshark ini yaitu sebagai berikut : A. Menangkap informasi atau data paket yang dikirim dan diterima dalam jaringan komputer B. Mengetahui aktifitas yang terjadi dalam jaringan komputer 27 C. Mengetahui dan menganalisa kinerja jaringan komputer yang kita miliki seperti kecepatan akses/share data koneksi jaringan ke internet Beberapa informasi yang dapat di capture oleh tool wireshark sebagai informasi network traffic antara lain time elapse (waktu yang dicatat dalam periode tertentu), source address (berupa IP address ataupun mac address), protocol (layanan atau service yang berjalan dalam jaringan komputer), length (ukuran data yang dikirimkan), dan info (informasi tambahan dari tiap layanan yang berjalan dalam jaringan komputer). Contoh tampilan dari aplikasi wireshark adalah pada Gambar 2.4. Gambar 2.4 Gambar aplikasi wireshark 2.2.9 Pentaho Data Integration Pentaho Data Integration (PDI) atau Kettle adalah software dari Pentaho yang dapat digunakan untuk proses ETL (Extraction, Transformation dan Loading). PDI dapat digunakan untuk migrasi data, membersihkan data, loading dari file ke database atau sebaliknya dalam volume besar. PDI menyediakan graphical user interface dan drag-drop komponen yang memudahkan user. Elemen utama dari PDI adalah Transformation dan Job. 28 Transformation adalah sekumpulan instruksi untuk merubah input menjadi output yang diinginkan (input-proses-output). Sedangkan Job adalah kumpulan instruksi untuk menjalankan transformasi. Ada tiga komponen dalam PDI: Spoon, Pan dan Kitchen. Spoon adalah user interface untuk membuat Job dan Transformation. Pan adalah tools yang berfungsi membaca, merubah dan menulis data. Sedangkan Kitchen adalah program yang mengeksekusi job. Berikut merupakan pengolahan data pada pentaho. Gambar 2.5 Pengolahan data pada pentaho Berdasarkan pada Gambar 2.5, dapat dijabarkan sebagai berikut : 1. CSV file input, proses input data berupa file .csv 2. Sort rows, proses memberikan size maksimal pada tabel 3. Sorted marge, proses menyatukan keseluruhan data 4. Group by, proses pengolahan data mentah (preprocessing data) 5. Add sequence, proses pemberian nomer id 6. Sorted marge 2, proses menyatukan keseluruhan data setelah dilakukan preprocessing 7. Modified java script value, proses memberikan batas length range dan count range dengan menggunakan java script 8. Text file output, hasil data akhir dalam bentuk file .csv