DATA MINING LANJUT Klasifikasi Data Otomotif Menggunakan SVM Light Proyek Disusun Oleh: FITRA RIYANDA 1208107010079 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA DARUSSALAM, BANDA ACEH JUNI, 2013 ABSTRAK Klasifikasi data secara otomatis merupakan salah satu sarana yang sangat penting dalam informasi dan memudahkan segalanya untuk mendapatkan informasi. Dalam laporan ini menyajikan klasifikasi data baru dengan menggunakan perbandingan antara model positif yang memiliki label. Dalam kasus ini melakukan penelitian masalah klasifikasi data dokumen otomotif. Pemberian data training set dilakukan dengan melakukan perbandingan antara data training set positif dan kamus yang sudah dinormalisasi dengan threshold sebanyak 45% dan 50% masing-masing dibandingkan dan data training set dibangun menjadi sebuah fitur untuk masingmasing threshold dan dilakukan pengujian dengan membangun model dari data testing set untuk masing-masing threshold yang sudah dibangun menjadi sebuah fitur menggunakan svm classify. Keyword : Klasifikasi, SVM Light DAFTAR ISI Halaman ABSTRAK ................................................................................................. DAFTAR ISI .............................................................................................. DAFTAR GAMBAR ................................................................................. BAB I i ii iii PENDAHULUAN 1.1. Latar Belakang ................................................................... 1.2. Rumusan Masalah .............................................................. 1.3. Tujuan Penelitian ............................................................... 1.4. Manfaat Penelitian ............................................................. 1 2 2 2 TINJAUAN KEPUSTAKAAN 2.1. Data Mining ....................................................................... 2.2. Data Warehouse ................................................................. 2.2.1. Kegunaan Data Warehouse ..................................... 2.2.2. Konsep Dasar Data Warehouse .............................. 2.3. Metode KNN (K-Nearest Neighbor) ................................. 2.3.1. Algoritma KNN ....................................................... 2.3.2. Metode SMART ...................................................... 3 4 5 5 6 7 9 METODE KERJA 3.1. Pengambilan Data Sampel ................................................. 3.2. Membersihkan Data Dokumen .......................................... 3.3. Membagi Dataset Menjadi Data Training dan Testing ..... 3.4. Membangun Kamus dan Threshold ................................... 3.5. Membangun Fitur, Model dan Pengujian .......................... 13 13 13 14 15 HASIL DAN PEMBAHASAN 4.1. Data Hasil Pengamatan ...................................................... 4.2. Pembahasan ........................................................................ 16 19 PENUTUP 5.1. Kesimpulan ........................................................................ 5.2. Saran .................................................................................. 21 21 DAFTAR PUSTAKA ................................................................................ 22 BAB II BAB III BAB IV BAB V DAFTAR GAMBAR Halaman Gambar 2.1. Flowchart Metode KNN............................................................ 8 Gambar 2.2. Flowchart Metode SMART ...................................................... 11 Gambar 3.1. Flowchart Tahapan Kerja .......................................................... 12 Gambar 4.1. Training Set Kamus 45% .......................................................... 16 Gambar 4.2. Testing Set Kamus 45% ............................................................ 17 Gambar 4.3. Training Set Kamus 50% .......................................................... 18 Gambar 4.4. Testing Set Kamus 50% ............................................................ 19 BAB I PENDAHULUAN 1.1 Latar Belakang Klasifikasi teks merupakan proses untuk membangun atau menempatkan label kategori yang telah ditetapkan untuk dokumen baru berdasarkan klasifikasi pembelajaran dari data traning set. Klasifikasi teks secara mudah dapat dilakukan dengan melakukan pembelajaran secara manual, tetapi itu hanya dapat dilakukan dalam jumlah yang terbatas atau relatif sedikit dan membutuhkan waktu yang lama. Dengan pesatnya pertumbuhan informasi dari berbagai penjuru pada dunia internet dengan jumlah yang sangat banyak dan bertambah setiap detiknya. Tentunya salah satu mengenali suatu teks dokumen tergolong dalam suatu kategori, salah satu cara pengorganisasian jumlah teks dokumen dalam jumlah besar dengan mengelompokkan mereka kedalam taksonomi deskriptif atau topikal dari teks dokumen itu sendiri. Minat membaca pengguna sehari-hari dalam kebutuhannya guna mendapatkan informasi semakin banyak. Buku menjadi salah satu faktor utama minat pembaca semakin berkurang sehingga sulit untuk mendapatkan informasi dikarenakan beberapa faktor seperti kurang praktis, susah untuk mendapatkannya dan membutuhkan biaya yang mahal untuk mendapatkannya tetapi dalam buku tersebut tidak mendapatkan informasi yang cukup sesuai keinginan pengguna. Oleh sebab itu semakin berkembang teks dokumen yang memuat informasi sesuai kebutuhan pengguna dan lebih menarik minat membaca karena lebih praktis dan murah. Sering kali, dalam suatu teks dokumen tidak terdapat informasi mengenai topik utama dari teks dokumen tersebut, sehingga pengguna tidak melakukan kajian tentang informasi yang dimuat dalam teks dokumen tersebut, padahal dalam teks dokumen tersebut mungkin merupakan kebutuhan yang di inginkan pengguna. Oleh karena itu perlu dilakukan pengkajian teks web dokumen secara otomatis guna mempermudah dalam menentukan topik yang dibahas dalam suatu teks dokumen tersebut. Salah satu contoh yang telah dilakukan sebelumnya dengan menggunakan SVM berbasis metode pembelajaran adaptif untuk klasifikasi teks ( Tao Peng, 2007). 1.2 Rumusan Masalah Dalam kasus penelitian ini membahas tentang pengkajian atau klasifikasi teks dokumen dalam kategori otomotif. 1.3 Tujuan Penelitian Mengklasifikasikan sebuah teks dokumen untuk menentukan apakah sebuah teks dokumen tersebut membahas tentang otomotif ataupun bukan. 1.4 Manfaat Penelitian Mengetahui topik yang dimuat dalam suatu teks dokumen guna memberikan informasi kepada pengguna dan memberikan pemahaman lebih lanjut kepada penulis dalam tahapan ataupun proses pembangunan fitur dan model dalam klasifikasi. BAB II TINJAUAN PUSTAKA 2.1 Data Mining Secara sederhana data mining adalah suatu proses untuk menemukan interesting knowledge dari sejumlah data yang disimpan dalam basis data atau media penyimpanan data lainnya. Dengan melakukan data mining terhadap sekumpulan data, akan didapatkan suatu interesting pattern yang dapat disimpan sebagai knowledge baru. Pattern yang didapat akan digunakan untuk melakukan evaluasi terhadap data-data tersebut untuk selanjutnya akan didapatkan informasi. Tehnik dalam Data Mining datang dari Basis Data, Machine Learning, dan Statistik. Elemen-elemen kunci untuk Data Mining ini telah dibuat dalam beberapa tahun terakhir. Secara umum tugas dari Data Mining dapat dibagi ke dalam dua tipe, yaitu Predictive Data Mining dan Knowledge Discovery / Description Data Mining. Predictive Data Mining adalah tipe data mining untuk memprediksi nilai suatu variabel di masa yang akan datang atau nilai variabel lain berdasarkan beberapa variabel yang saat ini telah diketahui nilainya. Yang termasuk dalam tipe ini antara lain: klasifikasi, regresi, dan deteksi deviasi. Knowledge Discovery / Description Data Mining yang juga sering disebut sebagai pencarian pola (pattern discovery) adalah tipe data mining yang digunakan untuk mendapatkan pola yang tersembunyi dalam data dan bisa dipahami oleh manusia, biasanya ditampilkan dalam bentuk kalimat yang mudah dimengerti, misalnya “Jika seseorang membeli produk A maka juga membeli produk B”. Meskipun pola ini bisa ditemukan oleh manusia tanpa bantuan komputer – khususnya jika jumlah variabel dan datanya kecil – namun jika jumlah variabel puluhan bahkan ratusan dan jumlah data ribuan bahkan jutaan maka diperlukan waktu bertahun-tahun untuk mendapatkan pola-pola tersebut. Disinilah peran teknologi informasi dengan dukungan sistem data mining membantu dalam penyelesaian permasalahan ini. Yang termasuk tipe ini adalah: klusterisasi, aturan asosiasi, dan penemuan pola sekuensial. Dengan data mining perusahaan bisa mendapatkan informasi penting dan profitable tentang klien atau pelanggan yang pada akhirnya bisa meningkatkan keuntungan perusahaan atau mengurangi kerugian. Kegunaan informasi pada data mining seperti diatas sering disebut sebagai Market Basket Analysis. Dalam jangka panjang, data mining dapat membuat sebuah perusahaan lebih kompetitif. Ada beberapa model data mining berdasarkan tugas atau tujuan yang harus dihasilkan. Model-model tersebut antara lain: klasifikasi, klusterisasi, assosiasi, pencarian sequence, regresi, dan deteksi deviasi. 2.2 Data Warehouse Pengertian Data Warehouse dapat bermacam-macam namun mempunyai inti yang sama, seperti pendapat beberapa ahli berikut ini : Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management. Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Menurut Paul Lane, data warehouse merupakan database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber. Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS (Decission Support System) dan EIS (Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik. Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalah database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para pengambil keputusan. 2.2.1 Kegunaan Data Warehouse Berdasarkan pengertian data warehouse diatas, data warehouse diperlukan bagi para pengambil keputusan manajemen dari suatu organisasi/perusahaan. Dengan adanya data warehouse, akan mempermudah pembuatan aplikasi-aplikasi DSS (Decision Support System) dan EIS (Executive Information System) karena kegunaan dari data warehouse adalah khusus untuk membuat suatu database yang dapat digunakan untuk mendukung proses analisa (OLAP), mengambil keputusan, pembuatan laporan, penggalian informasi baru (Data Mining) dari banyak data dan proses executive informasi. 2.2.2 Konsep Dasar Data Warehouse Data warehouse adalah kumpulan macam-macam data yang subject oriented, integrated, time variant, dan nonvolatile dalam mendukung proses pembuatan keputusan (Inmon and Hackathorn, 1994). Data warehouse sering diintegrasikan dengan berbagai sistem aplikasi untuk mendukung proses laporan dan analisis data dengan menyediakan data histori, yang menyediakan infrastruktur bagi EIS dan DSS. a. Subject Oriented Data warehouse diorganisasikan pada subjek-subjek utama, seperti pelanggan, barang/ produk, dan penjualan. Berfokus pada model dan analisis pada data untuk membuat keputusan, jadi bukan pada setiap proses transaksi atau bukan pada OLTP. Menghindari data yang tidak berguna dalam mengambil suatu keputusan. b. Integrated Dibangun dengan menggabungkan/menyatukan data yang berbeda. relational database, flat file, dan on-line transaction record. Menjamin konsistensi dalam penamaan, struktur pengkodean, dan struktur atribut diantara data satu sama lain. c. Data warehouse time variant Data disimpan untuk menyediakan informasi dari perspektif historical, data yang tahun-tahun lalu/ 4-5 thn. Waktu adalah elemen kunci dari suatu data warehouse/ pada saat pengcapture-an. d. Non Volatile Setiap kali proses perubahan, data akan di tampung dalam tiap-tiap waktu. Jadi tidak di perbaharui terus menerus. Data warehouse tidak memerlukan pemrosesan transaksi dan recovery. Hanya ada dua operasi initial loading of data dan access of data. Data warehouse bukan hanya tempat penyimpanan data, Data warehouse adalah Business Intelligence tools, tools to extract, merubah (transform) dan menerima data (load) ke penyimpanan (repository) serta mengelola dan menerima metadata. 2.3 Metode KNN (K-Nearest Neighbor) Prinsip kerja K-Nearest Neighbor (KNN) adalah mencari jarak terdekat antara data yang akan dievaluasi dengan K tetangga (neighbor) terdekatnya dalam data pelatihan. Teknik ini termasuk dalam kelompok klasifikasi nonparametric. Di sini kita tidak memperhatikan distribusi dari data yang ingin kita kelompokkan. Teknik ini sangat sederhana dan mudah diimplementasikan. Mirip dengan teknik klastering, kita mengelompokkan suatu data baru berdasarkan jarak data baru itu ke beberapa data/tetangga (neighbor) terdekat. Tujuan algoritma KNN adalah mengklasifikasikan obyek baru berdasarkan atribut dan training sample. Clasifier tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori. Diberikan titik query, akan ditemukan sejumlah k obyek atau (titik training) yang paling dekat dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek. Algoritma KNN menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru. Algoritma metode KNN sangatlah sederhana, bekerja berdasarkan jarak terpendek dari query instance ke training sample untuk menentukan KNN-nya. Nilai k yang terbaik untuk algoritma ini tergantung pada data. Secara umum, nilai k yang tinggi akan mengurangi efek noise pada klsifikasi, tetapi membuat batasan antara setiap klasifikasi menjadi semakin kabur. Nilai k yang bagus dapat dipilih dengan optimasi parameter, misalnya dengan menggunakan cross-validation. Kasus khusus dimana klasifikasi diprekdisikan berdasarkan training data yang paling dekat (dengan kata lain, k=1) disebut algoritma Nearest Neighbor. Kelebihan KNN (K-Nearest Neighbor): 1. Tangguh terhadap training data yang memiliki banyak noise. 2. Efektif apabila training datanya besar. Kelemahan KNN (K-Nearest Neighbor): 1. KNN perlu menentukan nilai dari parameter k (jumlah dari tetangga terdekat). 2. Training berdasarkan jarak tidak jelas mengenai jenis jarak apa yang harus digunakan. 3. Atribut mana yang harus digunakan untuk mendapatkan hasil terbaik. 4. Biaya komputasi cukup tinggi karena diperlukan perhitungan jarak dari tiap query instance pada keseluruhan training sample. 2.3.1 Algoritma KNN 1. Tentukan parameter K 2. Hitung jarak antara data yang akan dievaluasi dengan semua pelatihan 3. Urutkan jarak yang terbentuk (urut naik) 4. Tentukan jarak terdekat sampai urutan K 5. Pasangkan kelas yang bersesuaian 6. Cari jumlah kelas dari tetangga yang terdekat dan tetapkan kelas tersebut sebagai kelas data yang akan dievaluasi Rumus KNN: di = p ∑ (x i =1 − x1i ) 2 2i Keterangan: x1 = Sampel Data x2 = Data Uji / Testing i = Variabel Data d = Jarak p = Dimensi Data …(1) Di bawah ini merupakan flowchart dari metode KNN: Start KNN Input data testing Data Sampel Tetapkan nilai K = 5 Hitung Jarak Euclidian di = p ∑ (x i =1 − x1i ) 2 2i Urutkan hasil perhitungan jarak Pilih alternatif terbanyak Hasil keputusan penentuan jurusan berdasarkan nilai raport End Gambar 2.1 Flowchart dari Metode KNN 2.3.2 Metode SMART (Simple Multi Attribute Rating Technique) SMART merupakan metode pengambilan keputusan yang multiatribut. Teknik pembuatan keputusan multiatribut ini digunakan untuk membantu stakeholder dalam memilih antara beberapa alternatif. Setiap alternatif terdiri dari sekumpulan atribut dan setiap atribut mempunyai nilai-nilai, nilai ini diratarata dengan skala tertentu. Setiap atribut mempunyai bobot menggambarkan seberapa penting ia dibandingkan dengan atribut lain. yang Dengan SMART pembobotan atribut dilakukan dengan dua langkah yaitu: 1. Mengurutkan kepentingan suatu atribut dari level terburuk ke level terbaik. 2. Membuat perbandingan rasio kepentingan setiap atribut dengan atribut lain dibawahnya. SMART lebih banyak digunakan karena kesederhanaanya dalam merespon kebutuhan pembuat keputusan dan caranya menganalisa respon. Analisa yang terlibat adalah transparan sehingga metode ini memberikan pemahaman masalah yang tinggi dan dapat diterima oleh pembuat keputusan. Pembobotan pada SMART menggunakan skala antara 0 sampai 1, sehingga mempermudah perhitungan dan perbandingan nilai pada masing-masing alternatif. Model yang digunakan dalam SMART: m u (ai ) = ∑ w j ui (ai ), i = 1,2,...m J =1 …(2) Keterangan: wj = nilai pembobotan kriteria ke-j dan k kriteria u(ai) = nilai utility kriteria ke-i untuk kriteria ke-i Pemilihan keputusan adalah mengidentifikasi mana dari n alternatif yang mempunyai nilai fungsi terbesar. 2.3.2.1 Teknik SMART 1. Langkah 1: menentukan jumlah kriteria 2. Langkah 2: sistem secara default memberikan skala 0-100 berdasarkan prioritas yang telah diinputkan kemudian dilakukan normalisasi. Normalisasi = wj ∑w …(3) j Keterangan : wj : bobot suatu kriteria ∑ w j : total bobot semua kriteria 3. Langkah 3: memberikan nilai kriteria untuk setiap alternatif. 4. Langkah 4: hitung nilai utility untuk setiap kriteria masing-masing. ui (ai ) = 100 (Cmax − Cout i ) % (Cmax − Cmin ) …(4) Keterangan : ui(ai) : nilai utility kriteria ke-1 untuk kriteria ke-i Cmax : nilai kriteria maksimal Cmin : nilai kriteria minimal Cout i : nilai kriteria ke-i 5. Langkah 5: hitung nilai akhir masing-masing. m u (ai ) = ∑ w j ui (ai ), J =1 Di bawah ini merupakan flowchart dari metode SMART Start SMART Input jumlah kriteria dan bobotnya Normalisasi bobot Input nilai kriteria untuk setiap alternatif Hitung nilai utility untuk setiap kriteria u i (ai ) = 100 (C max − C out i ) % (C max − C min ) Hitung nilai akhir m u ( ai ) = ∑ w j ui (ai ) J =1 Hasil keputusan penentuan jurusan End Gambar 2.2 Flowchart dari Metode SMART BAB III METODE KERJA Dalam prosedur penelitian dari tahapan melakukan klasifkasi dataset menggunakan SMV Light tampak pada chart berikut: crawling Web cleaning Dataset Dataset Positif Testing Set (+) Dataset Negatif Training Set (+) Training Set (-) Kamus (+) Kamus (-) Testing Set (-) Fitur SVM Learn SVM Classify SVM Classify Model Hasil Gambar 3.1 Flowchart Tahapan Kerja 3.1 Pengambilan Data Sample Pengambilan data sample masing-masing data untuk melakukan fitur baik dataset positif maupun dataset negatif dilakukan dengan mengcrawling data teks dokumen menggunakan Swish-E. Dari metode crawling data menggunakan Swish-e perlu dilakukan beberapa tahapan seperti melakukan installasi pada linux dan kemudian membangun beberapa program untuk melakukan eksekusi perintah, didalam program ini dapat diberikan berupa alamat url yang dituju juga memfilter jenis data yang ingin di crawled. Proses crawling dengan menggunakan metode ini membutuhkan waktu yang sangat lama tergantung banyaknya permintaan crawling data maupun kecepatan koneksi. Setelah dilakukan crawling data dari berbagai situs yang membahas topik untuk data positif dan data negatif masing-masing sebanyak 12 ribu untuk data teks dokumen positif dan 10 ribu untuk data teks dokumen kemudian dipisahkan masing-masing direktori positif dan direktori negatif. 3.2 Membersihkan Data Teks Dokumen Setelah seluruh file yang diinginkan selesai di crawling, tahap selajutnya yaitu melakukan cleaning data. Data yang telah di-clean dalam program tersebut dimasukkan dalam sebuah folder yang berisikan semua file yang telah dibersihkan untuk masing-masing data cleaned dari dataset positif dan negatif. Dari seluruh data yang terdapat dalam file tersebut hanya mengambil title dan isi dari content saja. 3.3 Membagi Dataset Menjadi Data Training dan Testing Dari hasil cleaned untuk masing-masing dataset positif dan negatif tersebut, barulah dipisahkan menjadi data trainingset sebanyak 75% ( ± 10 ribu file) dan selebihnya dimasukkan ke data testingset sebanyak 25% dari ± 12 ribu file dataset positif dan juga untuk dataset negatif sebanyak ± 10 ribu file dipisahkan menjadi data trainingset sebanyak 75% ( ± 7500 file) dan selebihnya dimasukkan ke data testingset sebanyak 25%. 3.4 Membangun Kamus Bigrams dan Threshold Setelah seluruh data selesai di bersihkan dan dipisahkan menjadi data trainingset dan data testingset untuk masing-masing dataset positif dan negatif, barulah dilakukan proses penggabungan seluruh file data trainingset untuk masingmasing dataset positif dan negatif menjadi kedalam satu file. Setelah dilakukan penggabungan masing-masing dataset, barulah dilakukan proses pembangunan kamus untuk data trainingset positif dan negatif. Dalam proses ini dibangun kamus yang sering muncul dengan frekuensi tertentu dan tidak termasuk stopword yang merupakan kata-kata pendukung yang tidak dapat dipakai untuk membangun kamus. Stopword ini berfungsi memfilter kata-kata yang sering muncul dalam conten dan tidak ikut dimasukkan kedalam kamus menggunakan program perl one-grams.pl, two-grams.pl dan tree-grams.pl. Setelah pembangunan kamus yang memiliki jumlah banyak kata yang muncul dari masing-masing kelompok kamus bigrams, kemudian dilakukan perhitungan nilai frekuensi tiap-tiap kamus dimana frekuensi didapatkan dari jumlah kata dibagi dengan jumlah kata yang paling banyak muncul. Dari ini dapat diperoleh data dengan nilai antara 0 sampai 1 untuk tiap frekuensinya. Dari nilai frekkuensi masing-masing kamus bigrams positif dan negatif dilakukan normalisasi dengan membandingkan dan melakukan eliminasi observasi untuk rasio. Banyaknya rasio dengan threshold dilakukan dengan dua jenis sebagai perbandingan yaitu sebesar 45% dan 50%. Untuk melakukan hal tersebut, data trainingset kamus negatif dibutuhkan sebagai pembanding untuk data trainingset pada kamus positif. Untuk melakukan normalisasi, tahapan untuk diteliti menggunakan dua metode yaitu melakukan eliminasi observasi langsung dari kelompok bigrams (satu kata, dua kata dan tiga kata) untuk masing-masing kamus positif dan kamus negatif. Metode kedua yaitu dengan melakukan penggabungan kamus masing-masing kelompok bigrams (satu kata, dua kata dan tiga kata) sehingga terbentuk masingmasing kamus positif dan negatif yang sudah digabungkan untuk masing-masing rasio 45% dan 50%. 3.5 Membangun Fitur, Model dan Pengujian Untuk tahapan pembangunan fitur, diperlukan kamus akhir positif dan negatif dari masing-masing kamus yang telah dinormalisasi dan diperlukan juga data trainingset positif juga data trainingset negatif. Bagian yang diambil dalam proses pembangunan fitur yaitu bagian judul, bagian atas dari isi konten, bagian tengah dari isi konten dan bagian akhir dari isi konten. Sehingga proses pembangunan fitur dapat dirumuskan dengan formula berikut: , Dari formula tersebut, jumlah fitur atribut berjumlah 4 bagian, 3 jenis gram dan 2 kategori, sehingga total dari jumlah atribut adalah 24 jenis fitur. Fitur untuk bagian judul dari kategori p (Cp), disimbol Ftitle,p, adalah jumlah kata pada bagian judul yang ditemukan dalam kamus kategori p atau Dic(Cp), dibagi dengan jumlah kata pada bagian judul (tidak termasuk stopword). Dimana n adalah jumlah kata dalam bagian yang dipertimbangkan (tidak termasuk stopword), misalnya bagian judul, bagian atas, tengah dan bawah konten, dan k adalah jumlah halaman web berkategori Cp. Setiap bagian diberi bobot yang berbeda dengan asumsi bagian atas konten web lebih penting dari bagian tengah, dan bagian tengah konten lebih penting dari pada bagian bawah web. Setelah proses pembangunan selesai, maka dengan menggunakan SVM Learning dan dengan fitur yang telah dibangun, dapat dilakukan pembangunan model dari fitur tersebut. Setelah model telah dibangun, tahapan selanjutnya dengan mengklasifikasi data testingset dari dataset positif dan dataset negatif dengan menggunakan SVM Classify sehingga menghasilkan output dugaan dari model yang telah dibangun. BAB IV HASIL DAN PEMBAHASAN 4.1 Data Hasil Pengamatan Dari hasil yang telah diperoleh dari pembangunan fitur dataset positif dan negatif menggunakan kamus dengan threshold sebanyak 45% terdapat pada gambar berikut: Gambar 4.1 Training Set Kamus 45% Gambar tersebut menunjukkan dari proses pembangunan model dengan menggunakan kamus yang dinormalisasikan dengan rasio 45% menghasilkan error prediction 0.92%, dengan nilai recall 99,27% dan precision dengan nilai 99,26%. Setelah model dibangun, selanjutnya melakukan pengujian dataset dari model tersebut dengan data testingset positif dan negatif yang menghasilkan output seperti pada gambar berikut: Gambar 4.2 Testing Set Kamus 45% Dari hasil pengujian menggunakan model yang telah dibangun dengan menggunakan SVM Classify dan mengklasifikasi dari data testing menghasilkan akurasi sebesar 98,59% dengan 6072 dugaan yang benar dan 87 dugaan yang salah dari 6159 dataset keseluruhan. Nilai dari precision dan recall dari hasil pengujian yaitu 97,43%. Begitu juga dari hasil yang telah diperoleh dari pembangunan fitur dataset positif dan negatif menggunakan kamus dengan threshold sebanyak 50% terdapat pada gambar berikut: Gambar 4.3 Training Set Kamus 50% Gambar tersebut menunjukkan dari proses pembangunan model dengan menggunakan kamus yang dinormalisasikan dengan rasio 50% menghasilkan error prediction 0.91%, dengan nilai recall 99,27% dan precision dengan nilai 99,27%. Sama seperti tahapan sebelumnya, setelah model dibangun, selanjutnya melakukan pengujian dataset dari model tersebut dengan data testingset positif dan negatif yang menghasilkan output seperti pada gambar berikut: Gambar 4.4 Testing Set Kamus 50% Dari hasil pengujian menggunakan model yang telah dibangun dengan menggunakan SVM Classify dan mengklasifikasi dari data testing menghasilkan akurasi sebesar 98,73% dengan 6081 dugaan yang benar dan 78 dugaan yang salah dari 6159 dataset keseluruhan. Nilai dari precision dan recall dari hasil pengujian yaitu 97,69%. 4.2 Pembahasan Setelah melakukan pengujian sampel menggunakan SVM Light Classify dari model yang telah dibangun untuk tiap masing-masing kamus menghasilkan perbedaan akurasi. Tahap pengujian dengan kamus rasio 45% memiliki nilai akurasi lebih sedikit dibandingkan pengujian dengan menggunakan kamus berasio 50% sebagai dugaan dari sample yang memiliki tingkat akurasi sedikit lebih baik dengan nilai 98,73% berbanding dengan 98,59%. Dari perhitungan tersebut dapat dihitung dengan nilai precision dan recall semua class maka yang diduga sehingga mendapatkan nilai F-Measure dan nilai rata-rata F-Measure dari setiap class yang ada. Begitu juga dengan Precision dan Recall untuk masing-masing class. Cara perhitungan dari hasil dari tiap-tiap class tersebut dapat dilakukan dengan menggunakan rumus sebagai berikut: Precision = TP TP + FP Recall = TP TP + FN F-Measure = 2 (P x R) P+R Dimana, P : Precision R : Recall TP : True Positif, merupakan nilai yang diduga benar (akurat) FP : False Positif, merupakan nilai yang diduga salah tetapi positif FN : False Negatife, merupakan benar nilai tersebut diduga salah (akurat) BAB V PENUTUP 5.1 Kesimpulan Dari hasil pengujian dataset menggunakan kamus dengan rasio 45% dalam normalisasinya menghasilkan akurasi sebesar 98,59% dimana 6072 dugaan yang benar dan 87 dugaan yang salah dari 6159 dataset keseluruhan. Sedangkan hasil pengujian dataset menggunakan kamus dengan rasio 50% dalam normalisasinya menghasilkan akurasi sebesar 98,73% dimana 6081 dugaan yang benar dan 78 dugaan yang salah dari 6159 dataset keseluruhan. Dari perbandingan terhadap dua pengujian tersebut, pembangunan model dengan menggunakan kamus dengan rasio 50% dalam proses normalisasinya sedikit lebih baik dibandingkan dengan menggunakan model dari kamus dengan rasio 45%. 5.2 Saran Dari proses yang telah dilakukan untuk pembangunan kamus hingga model, terdapat sedikit error dalam prosesnya, itu terjadi karena kamus yang dibangun terdapat karakter yang tidak dikenali dari kamus yang dibangun. Oleh karena itu disarankan agar membangun kamus yang terbebas dari karakter-karakter yang tidak diketahui dengan memprosesnya lebih bersih, sehingga dapat menjadikan proses pembangunan model dengan baik. DAFTAR PUSTAKA Berry, M.W., & Kogan, J. (2010).Text Mining: Application and Theory. Chichester: JohnWiley & Sons, Ltd.Feldman, R., & Sanger, J. (2007).The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. New York: Cambridge University Press.Gresnews. Tao Peng, Wanli Zuo, Fengling He.2007. SVM based adaptive learning method for text classification from positive and unlabeled documents. China, Springer-Verlag London. Xiangju Qin, Yang Zhang, Chen Li, Xue Li.2013. Learning from data streams with only positive and unlabeled data. New York, Springer ScienceBusiness Media New York.