proceeding - Universitas Ciputra

advertisement
25 - 26 JUNI
2015
UNIVERSITA$ CIPUTRA
PROCEEDING
Diselengganakan oleh :
Prograrn Studi lnformatika - Universitas Ciputra
UG Town, Citraland, Surabaya 60?19, lndonesia
Telp: *623{ 7451699 Fax: +6231 7451698
http:l/uc"ac.id
DAFTAR lSI
REVTEWER
PENGANTAR.............
......................
.................
KATA
il
ilt
Rancang Bangun Portal Berita Dewan Legislatif dengan Fitur Peringkasan Teks Otomatis Menerapkan
Algoritma Term Frequency-lnverse Document Frequency
lvonne Yusriputri Alition......
...................1
Rancang Bangun Sistem Undangan Online Berbasis Web pada Webinvito Design
Melinda
........9
Rancang Bangun Sistem Pencacatan Pelanggaran dan Kecelakaan Lalu-Lintas Secara Online Berbasis Web dan
Mobile Application
Gilrandy
Septiansyah
........I7
Rancang Bangun Property Management System untuk Budget Hotel
Franata Rizki Aryanto.
-
Rancang Bangun Property Management System untuk Budget Hotel
Prima Sanjaya
-
Room Division (Front Office)
......"25
Room Division (Housekeeping)
Faktor yang Mempengaruhi Adopsi Aplikasi Edmodo sebagai Media pembelajaran
lwa Sungkono Salasa Fajar Herlambangkoro ................
..................34
.......".."........45
Perancangan Pedoman Audit Sistem lnformasi pada lndustri Perhotelan dengan Studi Kasus Hotel Bintang 4
Berbasis Framework Cobit 4.1 Menggunakan Domain Delivery and Support
Michael Kristianto Tanugara
..................53
lmplementasi Sistem lnformasi Akuntansi dengan Software Accurate pada Perusahaan Manufktur
Mohammad Caesar Rahmadian.............
........,...........60
Rancang Bangun Sistem Kunci Berbasis Android Dan Web
Michael
Sugiarto........
.".....68
Rancang Bangun Game Edukasi "Mommy's Care" Untuk Merawat Bayi Menggunakan Teknologi Adobe Flash
lvana Thiodora .................
...................16
Perancangan Panduan Kerja Audit Sistem lnformasi Pada Perusahaan Jasa Web Hosting Berbasis Framework
Cobit 4.1 Studi Kasus PT XYZ
Clarien
Rumbayan..............
................"84
Rancang Bangun Human Resource Management Untuk Perusahaan Skala Besar
Anthony Hutama
Candra.........
.............90
Rancang Bangun Sistem Akreditasi dan Rekomendasi Bisnis (Studi Kasus Eisnis Bagus)
Andreas Johan
Susanto
.........................99
Rancang Bangun Aplikasi Bag fitting model Menggunakan Augmented reality (Studi Kasus : Tas Tanette)
Hari Bima
Binangkit......
......................105
Perancangan Panduan Kerja Audit Sistem lnformasi Untuk lndustri Perbankan Pada Bagian Peminjaman Dana
Berbasis COBIT 4.1 Dengan Domain Delivery And Support Dan Monitor And Evaluate
Rizal Tantyo
Suhendro
Rancang bangun perangkat lunak
.....,,................
L12
trusted business listing dan complaint management system berbasiskan
aplikasi website
Yefta
Susanto
.................118
Rancang Bangun Side Scrolling Action Role-Playing Game Bertema Budaya Surabaya Menggunakan Unity
Berbasis Android
Steven Radityo
Haryono.....
.................129
Rancang Bangun Aplikasi Logistik Berbasis Web (Studi Kasus Pembuatan Laporan Logistik Online Pada Pt Citra
Agro Perkasa Abadi)
Wesley
Wiyadi..........
......137
Rancang bangun aplikasi tetangga baik sebagai jejaring asosial untuk perumahan di indonesia berbasis PHP
Ryan
Surya....
.....,.........."146
Rancang Bangun Media Pembelajaran Perawatan Bayi "Save The Children" Bagi Calon lbu Berbasis Flash
Silvi
Harmoni.
.................153
Rancang Bangun Perangkat Lunak
Mobile Front End Virtual Shopping Cart dan lnfrastrukturJaringan Untuk
Bisnis Retail Hypermarket
Christian Hendrata
Tajudin
...............,,.161
Rancang Bangun Game Berlatih Dan Mengenal Huruf Hijaiyah Untuk Anak TK-SD Berbasis Android
Vidya Kumalasari
...............
Rancang Bangun Aplikasi Web Reporting Point Of Sales Pada
Robby
................168
Distributor Kain Hoggy Djaya
Lukito.
.................t74
Rancang Bangun Permainan Guitared untuk Pembelajaran Gitar Berbasis Android
AdeliaSetiawan.................
Rancang Bangun Sistem lnformasi Point of Sales Berbasis Website Pada
Kevin
Chandra
............,...182
Distributor Kain Hoggy Djaya
................192
Rancang Bangun Aplikasi Kemah Suci menggunakan Teknologi Augmented Reality untuk Gereja Tabernakel di
Surabaya
Kristyanto
UtomoThe....
..................-201
Rancang Bangun Permainan Puzzle The Key Berbasis Android
Cecilia Utami Dewi
............
...............-.2j.o
Rancang Bangun Website Caelum Sebagai Media Sosial dan Media lnformasi Mengenai Learning Disabilities
lmplementasi Sistem lnformasi Akuntansi Menggunakan Software Accurate Pada Koperasi Raja Laut, NTT
Windy RiantyTandirura........
...............223
Penerapan TechnologyAcceptance Model untuk Mengetahui Persepsi pengguna Sistem lnformasi Studi Kasus:
e-Class Universitas Kristen Duta Wacana
Halim Budi Santoso, Lussy
Ernawati..................
.......233
Aplikasi Sistem Pakar untuk Diagnosa Penyakit pada Tanaman Sayur
Edwin Riksakomara
............
...."..........243
Perancangan Perangkat Lunak untuk Mendeteksi Tingkat Keandalan SUTET terhadap Sambaran petir dengan
Metode 2 Titik
Aeri Rachmad, Riza Alfita, M.Yusuf ldris
.............
......24:.
Penerapan sistem E-Procurement Pada Proses pengadaan pt petrokimia Gresik
Tuwanku Aria Auliandri, RossyWulandari
Analisis Faktor
-
...............
......................253
Faktor Yang Berpengaruh Pada Loyalitas Pelanggan Dengan Mengunakan Metode Jaringan
SarafTiruan Untuk Pengambilan Keputusan Hotel XYZ
WiwikAnggraeni, RullyAgus Hendrawan,Theresia Ratih............
..-..2s9
Pengenalan Gestur Semaphore Menggunakan Sensor Kinect
Muhammad Fuad, Eka
Prasetyo.......
.....266
Kajian terhadap Technology Acceptance Model pada Sistem Mobile Learning untuk Menunjang pembelajaran
Bahasa Mandarin
Yulius Hari, Darmanto, Budi
Desain
Hermawan.................
......."...............27L
Arsitektur Fnterprise Sistem lnformasi Manajemen Kampus Menggunakan Zachman Framework (Studi
Kasus Universitas Atma Jaya Makassar)
Adi Chandra Sjarif, Farid Hartono
Gunawan......
.........21g
Rancang Bangun Media Pembelajaran Kord Gitar Dengan Rhythm Game Berbasis Android
Theodore Darell Reinhart Susantio, Daniel Martomanggolo Wonohadidjojo, Edwin A1exander........................288
Rancang Bangun Admin Management pada Aplikasi tetanggaBaik Sebagai Jejaring Sosial Untuk perumahan di
lndonesia Berbasis PHP
Rico Nova
Suprayoto
.......298
Rancang-bangun Permainan Dribel Bola Basket "Basketball Jam" Untuk Remaja Menggunakan Kinect
Elizabeth lrenne Yuwono.................
.......................308
Pengenalan Tipe Tas Tangan Wanita Pada Citra Digital Menggunakan Jaringan Syaraf Tiruan perambatan Balik
Edwin Kurniawan...............
,...............16
Pengembangan Model Pengktasifikasi Naive Bayes untuk Seleksi Penelusuran URL Halaman Detail lnformasi
Produk Tas Wanita pada Situs X
CrttaLes\ari..
.
...........324
324
Pengembangan Model Pengklasifikasi Naive Bayes untuk Seleksi
Penelusuran URL Halaman Detail Informasi Produk Tas Wanita pada
Situs X
Citra Lestari Teknik Infomratika Universita,s Cipttra, UC Tovn CitraRaya, Surabaya 602
l9
ABSTRAK
Pencarian informasi dengan mesin pencari telah umum dilakukan. Umumnya, untuk
informasi tentang detail sebuah produk, pengguna mencari pada situs-situs yang menjual
produk tersebut. Selain mesin pencari seperti Google yang bersifat universal, sebenarnya
terdapat mesin pencari yang menelusuri web tertentu saja untuk kebutuhan yang sangat
spesifik. Mesin seperli
ini
melakukan penelusuran secara sekaligus sehingga
membutuhkan biaya, waktu dan ruang, yang besar, sehingga perlu dilakukan seleksi
halaman yang hendak ditelusuri dan unduh. Karya ilmiah ini membuat sebuah model
pengklasifikasi menggunakan NaiVe Bayes. Model pengklasifikasi ini digunakan untuk
seleksi URL halaman yang akan ditelusuri dan diunduh oleh penelusur web. Halaman
yang diingikan adalah halaman detail informasi tas wanita pada situs X, salah satu situs
toko online terbesar di Indonesia. Dengan pendekatan klasifikasi teks, maka sebuah URL
halaman dianggap sebagai dokumen. Dokumen atau URL direpresentasikan dalam model
Boolean, yang melihat muncul atau tidaknya sebuah istilah pada suatu URL. Kumpulan
dokumen dilabeli sebagai tas wanita (bw) atau bukan tas wantta (nbw). Model dibangun
dengan melatihkan 800 dokumen. Model ini menemukan istilah "bags" sebagai istilah
dengan probabilitas posterior tertinggi (0.99), sedangkan istilah "bag" meskipun lebih
kerap muncul namun memiliki kekuatan yang sama pada kedua kelas (probabilitas
posterior pada kelas bw : 0.57) sehingga dapa menyebabkan bias pada hasil klasifikasi.
Model pengklasifikasi ini kemudian diuji menggunakan 325 dokumen yang berbeda
dengan data dokumen latih. Akurasi dari pengujian tersebut adalah sebesar 93,2%.
Kata kunci: model pengklasifikasi, Naive Bayes, penelusuran tveb, tas wanita, seleksi url
l
Pendahuluan
kemudian mesin pencari akan memberikan daftar situs
Mesin pencari seperli Google bersifat universal. Mesin
pencari seperti ini menelusuri dan menyimpan semua situs
secara berkala (Menczer, 20i1). Untuk tujuan yang lebih
spesifik dan khusus, dapat dibuat sebuah mesin pencari
bertipe topikal yang hanya menelusuri beberapa website
tertentu dan hanya menyimpan halaman tertentu, misalnya
halaman detail informasi produk.
Tidak seperti penelusur Universal yang menguujungi
secara berangsur, mesin pencari berlipe topikal menelusuri
halarnan-halaman sekaligus pada satu waktu. Jika semua
halaman ditelusuri dan diunduh, tentunya mesin pencari
perlu memiliki memori yang cukup besar (Menczer, 2011).
yang sesuai"
Alternatif lain adalah membuat mesin pencari
kini telah umum dilakukan dengan
memanfaatkan teknolo gi internet. Informasi tersebut dapat
diperoleh dari situs, baik komersiai maupun non-komersial.
Umumnya, untuk informasi tentang detail sebuah produk,
seperli merek, spesifikasi, ukuran, harga, pengguna internet
mencarinya pada situs-situs yang menjual produk tersebut.
Pencarian informasi
Pencarian informasi secara manual biasanya dilakukan
dengan bantuan mesin pencari, seperti Google. Pengguna
menuliskan kata kunci dari informasi yang ingin diketahui
citra Lestari. Tel.: +623
l7 451 699.
E-mail: [email protected]
yang
selektil yaitu hanya menelusuri jalur yang sesuai
dan
Beberapa pustaka penelusur r,veb telah banyak tersedia.
mengunduh halaman yang tepat.
Seleksi halaman yang akan ditelusuri dan diunduh dapat
dilakukan dengan berbagai cara, antara lain dengan melihat
Salah satunya adalah Website-Specific Processors for'
HTML Information Extraction, disingkat WebSPHINX.
URL halaman, judul halaman, isi halaman, atau struktur
class Java. Di dalam pustaka WebSPHINX
halaman. Untuk tiga cara terakhir, mesin perlu mengunduh
halaman terlebih dahulu, sedangkan untuk cara pertama,
disediakan class-class yang dapat digunakan ulang sepert
Crawler, Page, Link, Classifier, DownloadParameter, dan
lain sebagainya. WebSPHINX toleran pada parsing HTML
dan menyokong standar eksklusi robot. WebSPHINX juga
dapat mencocokkan pola termasuk ekspresi regula. Unix
shell wildcards, dan ekspresi tagllIML.
seleksi dilakukan dengan menentukan kelayakan sebuah
halaman untuk ditelusuri atau diunduh.
Seleksi
URL halaman dapat dilakukan dengan
teks. Apabila URL halaman
pendekatan klasifikasi
dianggap sebagai sebuah teks atau kalimat, maka istilah
dalam URL adalah sebuah kata. Dengan asumsi tidak ada
keterkaitan antar istilah dalam suatu URL, algoritma Naive
Bayes dapat menghitung probabilitas kemunculan istilahisitilah tersebut, kemudian membangun model
pengklasifikasi yang dapat memprediksi sebuah URL
adalah haiaman yang diinginkan" dalam hal ini adalah
Menurut (Mi11er, n.d.),WebSPHINX adaiah sebuah pustaka
telah
2.2. KlasiJikasi Teks
Klasifikasi teks, atau dokumen, adalah salah satu bagian
dari pembelajaran mesin yang berlujuan untuk memberikan
label secara otomatis pada setiap dokumen. Hal ini pentrng.
sebab pelabelan secara manual membutuhkan biaya mahal
untuk dikembangkan (Manning,Raghavan. &
Scutze.
halaman detail informasi produk.
2A09).
Karya ilmiah ini adalah bagian dari pengembangan
pembuatan mesin untuk pencarian halaman detail informasi
Menurut Manning. dkk (Manning. Raghavan. & Scuize.
2009) pada klasifikasi teks terdapat dokumen d lang
merupakan anggota dari koleksi dokumen X. d X dimanz
=
terdapat
X adalah ruang berdimensi tinggi. Selain itu
sebuah produk. Halaman detail informasi yang dicari
adalah produk tas wanita Mesin ini akan mencari dari
beberapa situs toko online besar di Indonesia. Pada karya
ilmiah ini pencarian hanya difokuskan pada satu situs toko
online X.
2.1. Penelusuran Web
Penelusuran web (web crawling) adalah upaya atau proses
untuk mengunduh secara otomatis halaman-halaman web
yang tersebut di jutaan mesin server (Menczer, 2011).
Program penelusur, dikenal dengan spider atau robot,
mengumpulkan informasi yang kemudian dapat dianalisa
dan ditambang baik secara online yaitu saat diunduh atau
pun ffiine yaitu setelah disimpan. Karena sifat web yang
sangat dinamis yang dapat berubah dan bertambah dalam
mili detik, maka penelusuran harus terus
dilakukan agar aplikasi dapat terus terbarui.
Berdasarkan fungsinya terdapat tiga tipe penelusur web,
hitungan
yaitu:
2.
Penelusur Universal, yaitu penelusur yang digunakan
oleh mesin pencari umum untuk melakukan kunjungan
secara berangsur sekaligus memelihara dan
memperbarui indeks.
Penelusur Terfokus melakukan penelusuran dengan
menitikberatkan pada halaman-halaman dengan
kategori tertentu yang diminati pengguna.
3. Penelusur Topikal memulai
kebutuhan aplikasi. Set data yang dibutuhkan oleh
klasihkasi teks,
label <d,c >.
2. Teori Penunjang
1.
kumpulan kelas C : {ct, cz, ..., c). Kelas-kelas ini disebut
juga label yang didefinisikan oleh manusia sesuai dengan
penelusuran pada
ini
Dikatakan tersupervisi sebab masih dibutuhkan kebijakan
manusia untuk membagi dokumen menjadi beberapa kelas
atau label serta menentukan label dari beberapa dokumen
awal. Beberapa dokumen awal inilah yang digunakan
sebagai data pelatihan mesin. Pada prinsipnya, pelatihan ini
dapat dilakukan dengan semua algoritma klasifikasi,
termasuk di antaranya adalah NaiVe Bayes.
2.3. Algoritma Natve Bayes
Naive Bayes adalah sebuah algoritma klasifikasi secara
statistika, yaitu berdasarkan teorema Bayes. Algoritma
NaiVe Bayes mengasumsikan bahwa elek dari nilai sebuah
atribut terhadap class terlentu tidak berpengaruh/
dipengaruhi pada/oleh nilai atribut lain. Hal ini dibuat
untuk menyederhanakan komputasi dengan anggapan
komputasi yang naif (Han & Kamber, 2006).
Menurut Han dan Kamber (Han
&
Kamber, 2006),
algoritma Naive Bayes bekerja sebagai berikut:
D adalah set tupel (tuple) pelatihan yang
terasosiasi dengan label-labe1 kelas, setiap tupel
1. Dengan
X :
diwakili oleh vektor atribut berdimensi n,
melakukan
penelusuran secara real-time dan tidak mengandalkan
rangking. Dengan demikian tidak ada hasil halaman
yang "basi" dan halaman baru yang belum terindeks
pun akan diambil.
adalah kumpulan dokumen dengan
Klasifikasi teks melakukan pendekatan pembelajaran
tersupervisi terhadap sebuah set data dokumen D.
sejumlah kecil halaman, disebut seed. Berbeda dengan
penelusur Universal. penelusur
D,
2.
(x1,x2,...,x).
Diasumsikan terdapat rn kelas, C1,C2,...,C-. Terhadap
sebuah tupel X, algoritma ini akan memprediksi kelas
dart
X
dengan mencari kelas
C, yang
probabilitas posterior terlinggi, dimana:
memiliki
P(cilx) > n(ctlx)untukl < j < m,j +
i
(r)
326
-),
Adapun nllai P(CilX) diperoleh berdasarkan teorema
kumpulan istilah yang hanya diperhitungkan ada
Bayes seperti persamaan 2 berikut
tidaknya suatu istilah dalam sebuah dokumen. seperli pada
P (c1x) = P(xlc)P (c) / P (x)
(2)
I(arena P(X) adalah konstan untuk semua kelas, maka
persamaan 6.
[ 1 ift, appears in d,
't t0
otheruise
yang perlu dimaksimalkan adalah P(\C)P(C)
Probabilitas prior sebuah kelas, P(C), dapat dihitung
dengan mencari jumlah kemunculan sebuah kelas C; di
set data terhadap jumlah seluruh set data, lCt,DlADl
Apabila tidak diketahui, maka umumnya semua kelas
memiliki probabilitas yang sama.
4. Dengan asumsi
naif c/ass conditional
independence,
yaitu tidak ada relasi kebergantungan antar atribut,
maka P(\C) dapat dihitung sebagai perkalian produk
dari probabilitas atribut-atribut yang pada sebuah tupel
Xterhadap sebuah kelas C, (Persamaan 3).
P(XIC)
= flf=r P(x*lC)
(3)
Estimasi probabilitas P(xplc) dapat diperoleh dari
tupel-tupel pelatihan dengan memperhatikan jenis
atau
3.
(6)
Pembangunan Model Pengklasifikasi URL Halaman
Detail Infornrasi Produk Tas Wanita
Seperti pada Gambar
2, sistem
pdmbuatan model
pengklasifikasi URL halaman detail informasi ini dimulai
dengan proses pengumpulan data yang nantinya digunakan
sebagai data pelatihan dan data uji. Proses ini melakukan
penelusuran web dengan bantuan Websphinx. Peneiusuran
web dimulai dari halaman benlh (seed) sebagai masukan
(input). Hasil dari proses ini adalah sekumpulan URL
halaman yang berekstensi HTML. Proses selanjutnya
adalah pra-pemrosesan data, yaitu mengubah representasi
data menjadi model Boolean dan menentukan label atau
atribut, kategorikal atau kontinyu. Jika sebuah atribut A1
adalah kategorikal, maka P(xplc) adalah jumlah tupel
di D dengan kelas C; yang memiliki atribut Apbemllai
kelas dari tiap+iap URL. Proses selanjutnya adalah
pembuatan model pengklasifikasi dengan Naive Bayes
yang telah diimplementasikan oleh alat bantu Weka.
xp. Jika atr,but Ap adalah kontinyu, maka P(rklc)
dihitung dengan persamaan 4, dengan asumsi
Beberapa sub-bab selanjutnya memberikan penjelasan
lebih lengkap mengenai tiap proses.
berdistribusi Gaussian seperti persamaan 5.
P(xplC):
s@,p,o)=
O(xp,1t6rorr)
#"-#
(4)
(5)
2.4. Representasi Dokumen dengan Model Boolean.
Dalam lacak balik informasi (information retrieva[),
sebuah dokumen dianggap sebagai se"bungkus" kata atau
istilah yang urutan dan posisinya diacuhkan (Liu, 2011).
Masih menurut Bing Liu (Liu, 2011), sebuah dokumen
dideskripsikan oleh sejumlah istilah yang berbeda. Pada
sebuah koleksi dokumen D, kumpulan istilah berbeda
adalah V - {trtz,...,t") yang disebut vocabulary dengan lvl
adalah jumlah istilah yang ada di dalamnya. Sebuah bobot
w,; > 0 diasosiasikan dengan setiap istilah I pada dokumen
* . D.Sebuah istilah yang tidak ada dalam dr.memiliki
bobot w4 : 0. Setiap dokumen direpresentasikan dalan
sebuah vector d; : (wti, wzi,... , .,).Dengan representasi
ini, maka sebuah koleksi dokumen dapat direpresentasikan
sebagai sebuah tabel relasional atau matriks.
Terdapat empat model utama lacak balik informasi
yaitu: model Boolean, model Ruang Vector (vector space
model), model Bahasa (language model), dan model
Probabilitas. Tiga model pefiama adalah yang umum
digunakan dan menggunakan rangka kerja seperti yang
telah dijelaskan pada paragraph di atas (Liu, 201 1).
Model Boolean adalah model yang paling sederhana.
Pada model
ini
dokumen direpresentasikan
sebagai
Gambar 2. Sistem Pembuatan Model Klasifikasi URL Halaman
Detail Informasi Produk Tas Wanita
3.1. Pengumpulan Data
Set data yang dibutuhkan untuk pembuatan model
klasifikasi pada karya ilmiah ini adalah sekumpulan URL
halaman detail inlormasi produk dari situs X. Pengumpulan
data dilakukan dengan penelusuran web topikal dengan
bantuan Websphinx. Sebelum pengumpulan data, penulis
melakukan analisa awal terhadap struktur pemetaan
halaman situs X.
i27
Hasii penelusuran web ini adalah 1182 URL. Beberapa data
URL yang terkumpulkari disajikan pada Tabei 2.
3.2. Pra Pemrosesan Data
Ploses ini adalah ploses yang cukup krLrsial. Pada ploses
ini data yaitu URL yang telah berhasil
diunduh
dipersiapkan untuk dapat rr.renjadi set data yang layak
diklasifikasi. Beberapa persiapaan 1,ang dilakukan adalah:
pembersihan data. transformasi
data dalam
model
representasi Booiean. dan pelabelan data.
I. Pembersihan Datu
Setelah dilakukan analisa telhadap data yang terkumpul,
diketahui teldapat beberapa data yang redundan. Data
3.2.
Gambar 1. Struktur Kategorisasi Produk Fashion Wanita pada
situs X.
Pengkategorian produk pada situs X dilakukan hingga
..ga level. Sebagai contoh, produk tas wanita berada di
:vel kedua dengan "Fashion Wanita" sebagai parent dan
:eragam jenis tas .uvanita sebagai children-nya, seper"ti pada
Sambar 1. Setiap produk pada situs X memiliki halaman
:etail informasi produk. URL halaman detail informasi
:roduk merupakan halaman berekstensi HTML dengan
.rr'a1an domain situs X. Domain tersebut diikuti beberapa
.stilah kunci dari produk. Istilah-istilah tersebut dipisahkan
lengan tanda garis "-". Tabel I merupakan contoh dari
- RL halaman detail informasi ploduk dengan domain asli
s:tus diganti www.x.co.id
Tabel 1. Contoh URL Halaman Detail Informasi Produk.
\o
menampilkan halaman detail informasi produk yang sama,
namun berbeda tata letaknva.
'fahel 2. Contoh Hasil Penelusuran
No
1.
2.
http://www.x.co.id/royal-polo-backpack-8996-06-cofl'ee384221.hhnl
http://rvww.x.co.idlsayota-sv-809-portable-vacuum-cleanermerah-437106.htm1
4.
http://www.x.co.id/aosirnani-1529-black-ranselJaptop-multitungsi- 10.1722.htm1
http://www.x.
co.
id,/bgc-disney- frozen{as-ransel-elsa-ana-3d-
http://www.x. co.id/viyar-citrus-sling-bag-black-386488.htm1
timbul-3-kantong-import-pink-blue-kotak-pensil-dan-alartulis-
http://wwrv.x. co. id/wornen-men-wei ght-li ft ing-gloves-fi tnessgyrn-exercise-soft-glove-rose- I 097378.htrnl
http://wrvw.x.co.id,6ags-heaned-pocket-clutch-brown-
co.
id/lotus-speculoos-crunchy-
I
flozen-91237zl.html
463 I 52.html?mp: I
-buah-
t.
http://www.x.co. id/lzd-slouchy-clutch-green-95
8.
http://rvwrv.x. co. id/lzd-sl ouchy-clutch-green-
Karena karya ilmiah ini terfokus pada produk tas
anita, maka dilakukan pengatuan penelusuran sebagai
:erikut:
.
URL Halaman Detail Informasi Produk
http://rvww.x.co.id/viyar-citrus-sling-bag-black-386488.htm1
3.
URL Halaman Detdl Informasi Produk
http://www.x.
471411.html
.'.
redundan tersebut adalah link menuju pengaturan alat
mobile dari sebuah halaman detail informasi produk.
Contoh data redundan tersebut adalah URL ke-S pada
Tabel 2. URL tersebut hanya berbeda pada istilah
"?setDevice-rnobile" dengan URL ke-7. URL tersebut
Penelusuran
diawali dari halaman
benih
95 I
905.html
905.html?setDevicrmobile
http://rvwlv.x.
4l 6378.hhnl
10.
I
co.
id/mayonette-ruenarn
in
i-sl ing-hitam-
http://wwrv.x.co.id,/baglis-dompet-simple-u'anita-cokelat-
http ://www.x. co. id/tas-wanita/
l89973.htrnl
Penelusuran dilakukan dengan tingkat kedalaman
sebesar 3 (tiga). Hal
ini disesuaikan dengan kategorisasi
produk. Apabila dirnulai dari kategori "Tas Wanita",
maka penelusur perlu menelusuri hingga dua level di
bawah untuk mencapai masing-masing produk tas
wanita, sehingga kedalaman yang dibutuhkan adalah 2
+1.
Penelusur hanya mengunjungi halaman dengan URL
yang memiliki kata "html", 'tas", dan "bag".
Peneiusur hanya menyimpan URL yang berekstensi
"html"
Penelusuran r,veb dilakukan selama
90 menit
hingga tidak ada lagi halaman yang dapat ditelusuri.
atau
Dengan penemuan tersebut maka dilakukan
5l data redundan yang berhasil
pembersihan data. Terdapat
dibersihkan. Setelah pembersihan, besar koleksi URL
menjadi 1125.
3.2.2. Transformasi Representasi Data
Proses
ini
mengubah representasi URL ke dalam model
Booelan. Dengan menganggap sebuah
URL
sebagai
dokumen, maka istilah-istilah yang unik dari kumpulan
URL tersebut menjadi kumpulan atribr-rt. Terdapat dua
istilah yang diacuhkan. yaitu:
1. Domain dari situs X.
328
Hal ini disebabkan seluruh URL berasal dali
domain
yang sama sehingga istilah tersebut sudah pasti
2.
ada
label, dan 800 instan dengan pembagian 479 berlab:. ln,
dan 321 berlabel nbw.
pada setiap data.
Ekstensi .html.
Keluaran dari proses ini adalah sebuah m.:;
pengklasifikasi yang disertakan pada Lampiran
Karena URL yang diunduh adalah yang mengandung
istilah ".html", maka bisa dipastikan istilah tersebut ada
di seluruh data.
-).
Sebagian kecil dari model tersebut ditampilkan oleh
T":.
Beberapa hal menarik dapat diperoleh dari model
klasifikasi di atas, antara lain:
Sebelum proses transfbrmasi dilakukan, koleksi URL
dibagi menjadi dua secala acak yaitu untuk 800 URL untuk
set data pelatihan dan 235 URL untuk set data pengujian.
Untuk setiap set data, dilakukan proses tlansformasi
replesentasi data URL menjadi model Boolean yang
memiliki langkah-langkah sebagai belikut:
1.
Sub-proses pengumpulan atribut pada koleksi atribut A"
r.r pada set data U
a. potong awalan "hftp://www.x.co.id/"
b. potong bagian url setelah tanda "."
c. pisahkan istilah-istilah pada l dengan penanda'1"
d" masukkan istilah-istilah yang belum ada pada
Untuk setiap URL
1. Atribut
"bags" merriliki probabilitas posterior p.::
label Dry teftinggi, P(bv,lx-"bags").: 0,99. Anri,.
tanpa menghiraukan istilah-istilah lain di dalam;-,.
sebuah URL yang rnengandung istilah "bal_.
diprediksi kuat sebagai halamar.r detail inloi:-:..
produk tas wanita. Sembilan istilah lain yang
--_r:
mempunyai probabilitas posterior tinggi pada laber
1'abel 3. Sebagian Kecil Model Pengklasifikasi.
Atribut
Class
bw
koleksi atribul A
2.
viyar
Sub-proses pembobotan atribut-atribut dokumen d.
Untuk setiap URL a; pada set data U
a. Buat dokumenbarud;
b. Untuk setiap atribut a; pada koleksi atribut A
i. Jika atribut a1 ada pada uimaka w1'1 = 1, selain
itu w;;:0.
c. Masukkan d1 pada koleksi dokumen D
0
1
[total]
citrus
0
I
ltotall
bag
0
3.2.3. Pelabelan Data
Pada karya ilmiah ini, dokumen dibagi menjadi dua kelas,
yaitu Tas Wanita (dengan notasi Dn) dan Bukan Tas
Wanita (zDw). Sebuah URL dilabeli bw apabila produk
yang ditampilkan halaman tersebut adalah sebuah tas
berjenis: 1) tas selempang wanita, 2) tas messenger wanita,
3) tas ransel wanita, 4) clutch,5) tas bahu (shoulder bag),
6) tas tote wanita, 7) tas selempang badan wanita, 8) tas
satchel wanita, 9) tas weekender wanita, 10) tas kerja
wanita. Dompet, tas kosmetik, dan tas alat komunikasi
tidak termasuk dalam kategori bp, melainkan nbw. Label
nbw juga diberikan pada URL yang menampilkan produk
antara lain tas pria, dompet pria, tas laptop, tas sepatu, tas
kamera, tas anak-anak, tas bayi, dan pembersih debu.
Proses pelabelan data dilakukan secara manual oleh
1
ltotall
(0.6)
nbw (0.4)
436.0
45.0
481.0
320.0
474.0
7.0
481.0
322.0
342.0
2r7.0
3.0
323.0
1.0
323.0
139.0
106.0
48r.0
323.0
Tabel 4, Sepuluh Atribut dengan Probabilitas Posterior Tertinggi
pada label bw.
Atribut
p(x)
bags
0.12
hearted
bagtitude
p(xlbw)
P(bwlx)
0.1 9
0.99
0.08
0.14
0.98
0.05
0.08
0.98
bahu
0.04
0.06
0.97
yongki
0.03
0.05
0.96
komaladi
0.03
0.05
0.96
hers
0.03
0.05
0.96
brown
0.03
0.05
0.96
produk yang ditampilkan oleh halaman detail informasi
viyar
0.06
0.09
0.94
bersangkutan. Penentuan tersebut didasari oleh
pengetahuan awal mengenai tas wanita. Dari proses
lzd
0.02
0.03
0.93
penuiis. Penulis membuka URL pada browser
dan
menentukan label dari URL. Penentuan label berdasarkan
pelabelan
ini diketahui pada data pelatihan terdapat
479
dokumen berlabel bw dan 321 dokumen berlabel nbw.
3.
3. Pembu atan Mo del PengklasiJikasi
Model klasifikasi dibuat dengan memasukkan
data
pelatihan pada algoritma Naive Bayes. Seperli yang teiah
disebutkan sebelumnya, data pelatihan adalah hasil
pemecahan set data yang telah dikumpulkan pada proses
3.1. Data pelatihan memiliki 1986 atribut, termasuk atlibut
60,
tercantum pada Tabel 4.
329
ilbel 5.
Sepulrrh
r\tribut dengan Prohabilitas Postcrior -fcrtinggi
rrd:r l:tbcl nbw.
Atribut
p(xlnbw)
p(x)
Vaccum
0.0.1
0.03
0.03
0.03
0 0t
0.05
0.02
club
cleaner
travel
0.01
0.02
0.0.1
kamera
polo
COVCI
rain
shoes
stulT
P(nbwlx)
0 09
0.97
0.07
0.96
0.0,"
0.96
0.07
0.95
0.01
0
0.1 3
0.95
0.06
0.s5
0.05
0.05
0.09
0.94
c)5
0.94
0.94
tersebut teldiri dari 325 instan yang terbagi rnenjadi 200
instan bellabel Dl,dan 125 instan berlabel nbx,.
Pada uji coba ini model pengkasifikasi yang dibangun
mempunyai akurasi 93/%. Model tersebut berhasil
mengkasifikasikan 303 instan secara benar narnun rnasih
melakukan salah klasifikasi terhadap 11 instan berlabel bw
dan 11 instan berlabel nbn,. Tabel 7. adalah daftal instan
teruji yang tidak diklasifikasikan secara benar oleh model.
Seperti yang teftera pada Tabel 8.. hampir selnua atribLrt
dengan probabilitas posterior tinggi yang muncul pada set
data pengujian tidak muncul pada set instan yang gagal
diklastlkasi. Pengecualian terjadi pada atribut "stul{-' yang
rnuncul satu kali.
Tabel 9. menunjukkan kemunculan atribut-atribut yang
terdaftar pada Tabel 6. pada instan-irstan yang gagal
diklasifikasi. Dari sepuluh atribut yang terdaftar, hanva
atribut "birr.f' dan "merah" yang tidak muncul. Meskipun
Sebaliknya, atribut "kamera" memiliki probabilitas
posterior pada nbw teftinggi, P(nhvlx':"kamera") 0,97. Sehingga sebuah URL yang mengandung istilah
"kamera", tanpa menghiraukan istilah-istilah lain di
dalam URL tersebut, diprediksi sangat kuat sebagai
halamana detail informasi produk bukan tas wanita.
Sembilan
istilah lain yang juga
mempunyai
probabilitas posterior tinggi pada label bw tercantum
pada Tabel 5.
Seperti yang ditunjukkan oleh Tabel 6. attribut "bag"
memiliki probabilitas kemunculan tertinggi
(P(x-"bag") : 0,31). Namun atribut ini muncul
hampir merata di kedua kelas sehingga tidak
memberikan prediksi yang kuat bagi masing-masing
kelas (P(bwlx:"bog") : 0,57 dan P(nbwlx:"bag") :
0,43). Penulis menduga bahwa atribut-atribut ini akan
mempengaruhi kesalahan klasfikasi dari model"
tidak dapat memberikan pembuktian yang valid, namun
hasil ini memperkuat dugaan penulis tentang
pengarui.r
atribut-atribut tersebut pada kesalahan klasifikasi model.
Perlu ada suatu tindakan untuk menangani hal ini.
5. Simpulan dan Saran Pengembangan
Karya ilmiah ini berhasil membuat sebuah
model
pengklasifikasi URL halaman detail informasi produk tas
wanita pada situs X dengan akurasi 93.2%. Model
pengklasifikasi ini dapat digunakan sebagai saringan dalam
penelusur web topikal untuk mengunjungi dan mengunduh
halaman terkait.
Sebagai tambahan,
dari model pengklasifikasi ini
ditemukan praduga istilah-istilah yang terkait erat dengan
halaman detail informasi tas wanita. Selain itu juga
ditemukan praduga istilah-istilah yang membuat hasil
klasifikasi model menjadi bias. Temuan tersebut masih
berupa praduga dan memerlukan penelitian lebih lanjut.
Irbel 6. Sepuluh Atributdengan Probabilitas Kemunculan Tinggi
i rn Probabilitas Posterior Rendah
p(x)
P(brvlx)
bag
0.31
0.57
tas
0.21
0.52
hitam
0. l6
0.36
backpack
0.09
0.24
biru
0.06
0.33
wallet
0.06
0.46
rnerah
0.06
0.53
pink
0.06
0.69
dompel
0.05
0.ss
black
0.05
0.5 3
1. Hasil Uji Coba dan Pembahasan
Uji coba akurasi model pengklasifikasi dilakukan
,,ra pengujian yang telah disiapkan sebelumnya.
Pengembangan yang juga perlu dilakukan adalah
pembangunan model pengklasfikasi yang lebih general,
yaitu untuk beberapa situs toko online lainnya. Perlu juga
melakukan komparasi efisiensi waktu dan memori atas
kinerja penelusur web sebelum dan sesudah penggunaan
model pengklasifikasi ini.
pada
Data
330
Tabel 7. Daftar lnstan yang Gagal Diklasifikasikan.
ron
mayonette-bryan-sling-coffee-1
925 1 4
unique-tas-cross-body-elegant-mnner-1128052
hearted
mars-collection-diapers-bag12-black-white-dbsO57-487819
bagtirude
nixels-mommy-bag-longchamp-hk-large-fushia-931729
bahu
audyshop-shoe-tote-maroon-241055
yongki
bag-stuff-crocodile-tote-lieetini-pouch-hitam-386875
komaladi
hilistork-hlo66-bronze-tas-fashion-wanita-bronze-freedompet-444418
lzd
j)
womens-real-leather-wallet-purse-clips-clutch-phone-baghlack-l 098091
kamera
19
0
12
0
13
0
13
0
womens-matte-long-wallets-watermelon-red-1097508
bloomy-rucksack-01-viola-backpack-40946
0
0
0
10
0
rain
9
0
6
0
stuff
club
cleaner
307
yadas-korea-wallet-8 89- 1 0-fashion-wallet-rose-982809
travel
308
yadas-korean-wal let-6802-7-fu cshia- I 06805
3
t4
10
cover
427t86
c-
0
0
shoes
bluetech-i coni
0
3
yadas-korea-wallet-878-40-fashion-wallet-hijau-962822
yadas-korea-wallet-890-16-fashion-wallerhijau-1048307
9
l3
10
esgotado-bag-corduro-segundo-w-tas-backpack-light-grey-
323
0
polo
vaccum
309
13
viyar
whiz-iconic-3-way-easy+o-carry-korean-bag-green-tasmultifu ngsi-hijau-1 55665
?R1
0
brown
huer-temari-printed-one-zipper-wallet-greenJove-1018772
en
Gasal Klasifikasi
22
hers
211
,
Set Data Tes
bags
nana-blanche-jam-tangan-wanita-silver-strap-stainlesssteel-sw-025-98270 I
224
257
27 3
277
Pmterl
lnstan yang Gagal Diklasifikasi.
Frekuensi Kemunculan pada
Attribut
delonghi-dl-xlr241i-violet-sco-intruskatr-violet-476913
lql
o
Set Data Tes dan
lstilah-istilah pada URL
lnstan
16
21
53
77
79
97
163
Tabel 8. Frekuensi Kemunculan Atribut Berprobabilitas
Tinggi pada
No.
13
1
0
0
6
0
9
0
1
0
-way-easy-to-carry-korean-bag-pink-
821 968
coco.pink-zoe-dompet-wanita-turquoise-8734
1
8
Tabel 9. Frekuensi Kemunculan Atribut Berfrekuensi Muncul Tinggi
pada Instan yang Gagal Diklasifikasi.
Atribut
No. Instan
bas
tas
hitam
backpack
79,t63,220,280,283,309
wallet
217, 220,
pink
309
53,190,283
163
25j,283
dompet
190,323
black
77.220
27
3, 27'7, 307, 308
DAI'TARPUSTAKA
Han, J., Kamber, M. (2006). Data Mining Concepts and
Techniques Second Edition. Morgan Kauffman Pub.
Liu, B. (2011) Web Data Mining: Exploring Hyperlinks,
Contents. and Usage Data Second Edition. Springer.
Maruring,
C. D.,
Introduction
Raghavan,
to
P.,
&
Scutze,
H.
(2009)
Information Retrieval. Cambridge:
Cambridge University Press.
33i
F. (2011) Web C-rawiing. llleD Dato klinirrg. \liller. R.C. (n.d.). WebSPHINX: A Personal,
Erploring Hyperlink"s, Contents. ailcl Usage Data
ClLtstornizable Web Cra'uvler. Diakses dari:
.ienczer'.
Sacorttl
Etlition, Chapter 8. Springer'.
Itt
t1t.s
:i/tvlvtv.c
s.
cnur.
ech
L,/-rcnrt,,vebsph
inx/
$ekretariat
Program Studi lnformatika
UC Town, Citraland
Surabaya 6021 I lndonesia
snapti.uc.ac.id
email : [email protected]
phone: +6283 1745 1699 ext 3101
Fax +6231745 1698
I S8l{ 3?A-EOe-l,q
,llllllxjil
I
lllll
q
5t-rr -5
H!]l[l
lll
Download