25 - 26 JUNI 2015 UNIVERSITA$ CIPUTRA PROCEEDING Diselengganakan oleh : Prograrn Studi lnformatika - Universitas Ciputra UG Town, Citraland, Surabaya 60?19, lndonesia Telp: *623{ 7451699 Fax: +6231 7451698 http:l/uc"ac.id DAFTAR lSI REVTEWER PENGANTAR............. ...................... ................. KATA il ilt Rancang Bangun Portal Berita Dewan Legislatif dengan Fitur Peringkasan Teks Otomatis Menerapkan Algoritma Term Frequency-lnverse Document Frequency lvonne Yusriputri Alition...... ...................1 Rancang Bangun Sistem Undangan Online Berbasis Web pada Webinvito Design Melinda ........9 Rancang Bangun Sistem Pencacatan Pelanggaran dan Kecelakaan Lalu-Lintas Secara Online Berbasis Web dan Mobile Application Gilrandy Septiansyah ........I7 Rancang Bangun Property Management System untuk Budget Hotel Franata Rizki Aryanto. - Rancang Bangun Property Management System untuk Budget Hotel Prima Sanjaya - Room Division (Front Office) ......"25 Room Division (Housekeeping) Faktor yang Mempengaruhi Adopsi Aplikasi Edmodo sebagai Media pembelajaran lwa Sungkono Salasa Fajar Herlambangkoro ................ ..................34 .......".."........45 Perancangan Pedoman Audit Sistem lnformasi pada lndustri Perhotelan dengan Studi Kasus Hotel Bintang 4 Berbasis Framework Cobit 4.1 Menggunakan Domain Delivery and Support Michael Kristianto Tanugara ..................53 lmplementasi Sistem lnformasi Akuntansi dengan Software Accurate pada Perusahaan Manufktur Mohammad Caesar Rahmadian............. ........,...........60 Rancang Bangun Sistem Kunci Berbasis Android Dan Web Michael Sugiarto........ .".....68 Rancang Bangun Game Edukasi "Mommy's Care" Untuk Merawat Bayi Menggunakan Teknologi Adobe Flash lvana Thiodora ................. ...................16 Perancangan Panduan Kerja Audit Sistem lnformasi Pada Perusahaan Jasa Web Hosting Berbasis Framework Cobit 4.1 Studi Kasus PT XYZ Clarien Rumbayan.............. ................"84 Rancang Bangun Human Resource Management Untuk Perusahaan Skala Besar Anthony Hutama Candra......... .............90 Rancang Bangun Sistem Akreditasi dan Rekomendasi Bisnis (Studi Kasus Eisnis Bagus) Andreas Johan Susanto .........................99 Rancang Bangun Aplikasi Bag fitting model Menggunakan Augmented reality (Studi Kasus : Tas Tanette) Hari Bima Binangkit...... ......................105 Perancangan Panduan Kerja Audit Sistem lnformasi Untuk lndustri Perbankan Pada Bagian Peminjaman Dana Berbasis COBIT 4.1 Dengan Domain Delivery And Support Dan Monitor And Evaluate Rizal Tantyo Suhendro Rancang bangun perangkat lunak .....,,................ L12 trusted business listing dan complaint management system berbasiskan aplikasi website Yefta Susanto .................118 Rancang Bangun Side Scrolling Action Role-Playing Game Bertema Budaya Surabaya Menggunakan Unity Berbasis Android Steven Radityo Haryono..... .................129 Rancang Bangun Aplikasi Logistik Berbasis Web (Studi Kasus Pembuatan Laporan Logistik Online Pada Pt Citra Agro Perkasa Abadi) Wesley Wiyadi.......... ......137 Rancang bangun aplikasi tetangga baik sebagai jejaring asosial untuk perumahan di indonesia berbasis PHP Ryan Surya.... .....,.........."146 Rancang Bangun Media Pembelajaran Perawatan Bayi "Save The Children" Bagi Calon lbu Berbasis Flash Silvi Harmoni. .................153 Rancang Bangun Perangkat Lunak Mobile Front End Virtual Shopping Cart dan lnfrastrukturJaringan Untuk Bisnis Retail Hypermarket Christian Hendrata Tajudin ...............,,.161 Rancang Bangun Game Berlatih Dan Mengenal Huruf Hijaiyah Untuk Anak TK-SD Berbasis Android Vidya Kumalasari ............... Rancang Bangun Aplikasi Web Reporting Point Of Sales Pada Robby ................168 Distributor Kain Hoggy Djaya Lukito. .................t74 Rancang Bangun Permainan Guitared untuk Pembelajaran Gitar Berbasis Android AdeliaSetiawan................. Rancang Bangun Sistem lnformasi Point of Sales Berbasis Website Pada Kevin Chandra ............,...182 Distributor Kain Hoggy Djaya ................192 Rancang Bangun Aplikasi Kemah Suci menggunakan Teknologi Augmented Reality untuk Gereja Tabernakel di Surabaya Kristyanto UtomoThe.... ..................-201 Rancang Bangun Permainan Puzzle The Key Berbasis Android Cecilia Utami Dewi ............ ...............-.2j.o Rancang Bangun Website Caelum Sebagai Media Sosial dan Media lnformasi Mengenai Learning Disabilities lmplementasi Sistem lnformasi Akuntansi Menggunakan Software Accurate Pada Koperasi Raja Laut, NTT Windy RiantyTandirura........ ...............223 Penerapan TechnologyAcceptance Model untuk Mengetahui Persepsi pengguna Sistem lnformasi Studi Kasus: e-Class Universitas Kristen Duta Wacana Halim Budi Santoso, Lussy Ernawati.................. .......233 Aplikasi Sistem Pakar untuk Diagnosa Penyakit pada Tanaman Sayur Edwin Riksakomara ............ ...."..........243 Perancangan Perangkat Lunak untuk Mendeteksi Tingkat Keandalan SUTET terhadap Sambaran petir dengan Metode 2 Titik Aeri Rachmad, Riza Alfita, M.Yusuf ldris ............. ......24:. Penerapan sistem E-Procurement Pada Proses pengadaan pt petrokimia Gresik Tuwanku Aria Auliandri, RossyWulandari Analisis Faktor - ............... ......................253 Faktor Yang Berpengaruh Pada Loyalitas Pelanggan Dengan Mengunakan Metode Jaringan SarafTiruan Untuk Pengambilan Keputusan Hotel XYZ WiwikAnggraeni, RullyAgus Hendrawan,Theresia Ratih............ ..-..2s9 Pengenalan Gestur Semaphore Menggunakan Sensor Kinect Muhammad Fuad, Eka Prasetyo....... .....266 Kajian terhadap Technology Acceptance Model pada Sistem Mobile Learning untuk Menunjang pembelajaran Bahasa Mandarin Yulius Hari, Darmanto, Budi Desain Hermawan................. ......."...............27L Arsitektur Fnterprise Sistem lnformasi Manajemen Kampus Menggunakan Zachman Framework (Studi Kasus Universitas Atma Jaya Makassar) Adi Chandra Sjarif, Farid Hartono Gunawan...... .........21g Rancang Bangun Media Pembelajaran Kord Gitar Dengan Rhythm Game Berbasis Android Theodore Darell Reinhart Susantio, Daniel Martomanggolo Wonohadidjojo, Edwin A1exander........................288 Rancang Bangun Admin Management pada Aplikasi tetanggaBaik Sebagai Jejaring Sosial Untuk perumahan di lndonesia Berbasis PHP Rico Nova Suprayoto .......298 Rancang-bangun Permainan Dribel Bola Basket "Basketball Jam" Untuk Remaja Menggunakan Kinect Elizabeth lrenne Yuwono................. .......................308 Pengenalan Tipe Tas Tangan Wanita Pada Citra Digital Menggunakan Jaringan Syaraf Tiruan perambatan Balik Edwin Kurniawan............... ,...............16 Pengembangan Model Pengktasifikasi Naive Bayes untuk Seleksi Penelusuran URL Halaman Detail lnformasi Produk Tas Wanita pada Situs X CrttaLes\ari.. . ...........324 324 Pengembangan Model Pengklasifikasi Naive Bayes untuk Seleksi Penelusuran URL Halaman Detail Informasi Produk Tas Wanita pada Situs X Citra Lestari Teknik Infomratika Universita,s Cipttra, UC Tovn CitraRaya, Surabaya 602 l9 ABSTRAK Pencarian informasi dengan mesin pencari telah umum dilakukan. Umumnya, untuk informasi tentang detail sebuah produk, pengguna mencari pada situs-situs yang menjual produk tersebut. Selain mesin pencari seperti Google yang bersifat universal, sebenarnya terdapat mesin pencari yang menelusuri web tertentu saja untuk kebutuhan yang sangat spesifik. Mesin seperli ini melakukan penelusuran secara sekaligus sehingga membutuhkan biaya, waktu dan ruang, yang besar, sehingga perlu dilakukan seleksi halaman yang hendak ditelusuri dan unduh. Karya ilmiah ini membuat sebuah model pengklasifikasi menggunakan NaiVe Bayes. Model pengklasifikasi ini digunakan untuk seleksi URL halaman yang akan ditelusuri dan diunduh oleh penelusur web. Halaman yang diingikan adalah halaman detail informasi tas wanita pada situs X, salah satu situs toko online terbesar di Indonesia. Dengan pendekatan klasifikasi teks, maka sebuah URL halaman dianggap sebagai dokumen. Dokumen atau URL direpresentasikan dalam model Boolean, yang melihat muncul atau tidaknya sebuah istilah pada suatu URL. Kumpulan dokumen dilabeli sebagai tas wanita (bw) atau bukan tas wantta (nbw). Model dibangun dengan melatihkan 800 dokumen. Model ini menemukan istilah "bags" sebagai istilah dengan probabilitas posterior tertinggi (0.99), sedangkan istilah "bag" meskipun lebih kerap muncul namun memiliki kekuatan yang sama pada kedua kelas (probabilitas posterior pada kelas bw : 0.57) sehingga dapa menyebabkan bias pada hasil klasifikasi. Model pengklasifikasi ini kemudian diuji menggunakan 325 dokumen yang berbeda dengan data dokumen latih. Akurasi dari pengujian tersebut adalah sebesar 93,2%. Kata kunci: model pengklasifikasi, Naive Bayes, penelusuran tveb, tas wanita, seleksi url l Pendahuluan kemudian mesin pencari akan memberikan daftar situs Mesin pencari seperli Google bersifat universal. Mesin pencari seperti ini menelusuri dan menyimpan semua situs secara berkala (Menczer, 20i1). Untuk tujuan yang lebih spesifik dan khusus, dapat dibuat sebuah mesin pencari bertipe topikal yang hanya menelusuri beberapa website tertentu dan hanya menyimpan halaman tertentu, misalnya halaman detail informasi produk. Tidak seperti penelusur Universal yang menguujungi secara berangsur, mesin pencari berlipe topikal menelusuri halarnan-halaman sekaligus pada satu waktu. Jika semua halaman ditelusuri dan diunduh, tentunya mesin pencari perlu memiliki memori yang cukup besar (Menczer, 2011). yang sesuai" Alternatif lain adalah membuat mesin pencari kini telah umum dilakukan dengan memanfaatkan teknolo gi internet. Informasi tersebut dapat diperoleh dari situs, baik komersiai maupun non-komersial. Umumnya, untuk informasi tentang detail sebuah produk, seperli merek, spesifikasi, ukuran, harga, pengguna internet mencarinya pada situs-situs yang menjual produk tersebut. Pencarian informasi Pencarian informasi secara manual biasanya dilakukan dengan bantuan mesin pencari, seperti Google. Pengguna menuliskan kata kunci dari informasi yang ingin diketahui citra Lestari. Tel.: +623 l7 451 699. E-mail: [email protected] yang selektil yaitu hanya menelusuri jalur yang sesuai dan Beberapa pustaka penelusur r,veb telah banyak tersedia. mengunduh halaman yang tepat. Seleksi halaman yang akan ditelusuri dan diunduh dapat dilakukan dengan berbagai cara, antara lain dengan melihat Salah satunya adalah Website-Specific Processors for' HTML Information Extraction, disingkat WebSPHINX. URL halaman, judul halaman, isi halaman, atau struktur class Java. Di dalam pustaka WebSPHINX halaman. Untuk tiga cara terakhir, mesin perlu mengunduh halaman terlebih dahulu, sedangkan untuk cara pertama, disediakan class-class yang dapat digunakan ulang sepert Crawler, Page, Link, Classifier, DownloadParameter, dan lain sebagainya. WebSPHINX toleran pada parsing HTML dan menyokong standar eksklusi robot. WebSPHINX juga dapat mencocokkan pola termasuk ekspresi regula. Unix shell wildcards, dan ekspresi tagllIML. seleksi dilakukan dengan menentukan kelayakan sebuah halaman untuk ditelusuri atau diunduh. Seleksi URL halaman dapat dilakukan dengan teks. Apabila URL halaman pendekatan klasifikasi dianggap sebagai sebuah teks atau kalimat, maka istilah dalam URL adalah sebuah kata. Dengan asumsi tidak ada keterkaitan antar istilah dalam suatu URL, algoritma Naive Bayes dapat menghitung probabilitas kemunculan istilahisitilah tersebut, kemudian membangun model pengklasifikasi yang dapat memprediksi sebuah URL adalah haiaman yang diinginkan" dalam hal ini adalah Menurut (Mi11er, n.d.),WebSPHINX adaiah sebuah pustaka telah 2.2. KlasiJikasi Teks Klasifikasi teks, atau dokumen, adalah salah satu bagian dari pembelajaran mesin yang berlujuan untuk memberikan label secara otomatis pada setiap dokumen. Hal ini pentrng. sebab pelabelan secara manual membutuhkan biaya mahal untuk dikembangkan (Manning,Raghavan. & Scutze. halaman detail informasi produk. 2A09). Karya ilmiah ini adalah bagian dari pengembangan pembuatan mesin untuk pencarian halaman detail informasi Menurut Manning. dkk (Manning. Raghavan. & Scuize. 2009) pada klasifikasi teks terdapat dokumen d lang merupakan anggota dari koleksi dokumen X. d X dimanz = terdapat X adalah ruang berdimensi tinggi. Selain itu sebuah produk. Halaman detail informasi yang dicari adalah produk tas wanita Mesin ini akan mencari dari beberapa situs toko online besar di Indonesia. Pada karya ilmiah ini pencarian hanya difokuskan pada satu situs toko online X. 2.1. Penelusuran Web Penelusuran web (web crawling) adalah upaya atau proses untuk mengunduh secara otomatis halaman-halaman web yang tersebut di jutaan mesin server (Menczer, 2011). Program penelusur, dikenal dengan spider atau robot, mengumpulkan informasi yang kemudian dapat dianalisa dan ditambang baik secara online yaitu saat diunduh atau pun ffiine yaitu setelah disimpan. Karena sifat web yang sangat dinamis yang dapat berubah dan bertambah dalam mili detik, maka penelusuran harus terus dilakukan agar aplikasi dapat terus terbarui. Berdasarkan fungsinya terdapat tiga tipe penelusur web, hitungan yaitu: 2. Penelusur Universal, yaitu penelusur yang digunakan oleh mesin pencari umum untuk melakukan kunjungan secara berangsur sekaligus memelihara dan memperbarui indeks. Penelusur Terfokus melakukan penelusuran dengan menitikberatkan pada halaman-halaman dengan kategori tertentu yang diminati pengguna. 3. Penelusur Topikal memulai kebutuhan aplikasi. Set data yang dibutuhkan oleh klasihkasi teks, label <d,c >. 2. Teori Penunjang 1. kumpulan kelas C : {ct, cz, ..., c). Kelas-kelas ini disebut juga label yang didefinisikan oleh manusia sesuai dengan penelusuran pada ini Dikatakan tersupervisi sebab masih dibutuhkan kebijakan manusia untuk membagi dokumen menjadi beberapa kelas atau label serta menentukan label dari beberapa dokumen awal. Beberapa dokumen awal inilah yang digunakan sebagai data pelatihan mesin. Pada prinsipnya, pelatihan ini dapat dilakukan dengan semua algoritma klasifikasi, termasuk di antaranya adalah NaiVe Bayes. 2.3. Algoritma Natve Bayes Naive Bayes adalah sebuah algoritma klasifikasi secara statistika, yaitu berdasarkan teorema Bayes. Algoritma NaiVe Bayes mengasumsikan bahwa elek dari nilai sebuah atribut terhadap class terlentu tidak berpengaruh/ dipengaruhi pada/oleh nilai atribut lain. Hal ini dibuat untuk menyederhanakan komputasi dengan anggapan komputasi yang naif (Han & Kamber, 2006). Menurut Han dan Kamber (Han & Kamber, 2006), algoritma Naive Bayes bekerja sebagai berikut: D adalah set tupel (tuple) pelatihan yang terasosiasi dengan label-labe1 kelas, setiap tupel 1. Dengan X : diwakili oleh vektor atribut berdimensi n, melakukan penelusuran secara real-time dan tidak mengandalkan rangking. Dengan demikian tidak ada hasil halaman yang "basi" dan halaman baru yang belum terindeks pun akan diambil. adalah kumpulan dokumen dengan Klasifikasi teks melakukan pendekatan pembelajaran tersupervisi terhadap sebuah set data dokumen D. sejumlah kecil halaman, disebut seed. Berbeda dengan penelusur Universal. penelusur D, 2. (x1,x2,...,x). Diasumsikan terdapat rn kelas, C1,C2,...,C-. Terhadap sebuah tupel X, algoritma ini akan memprediksi kelas dart X dengan mencari kelas C, yang probabilitas posterior terlinggi, dimana: memiliki P(cilx) > n(ctlx)untukl < j < m,j + i (r) 326 -), Adapun nllai P(CilX) diperoleh berdasarkan teorema kumpulan istilah yang hanya diperhitungkan ada Bayes seperti persamaan 2 berikut tidaknya suatu istilah dalam sebuah dokumen. seperli pada P (c1x) = P(xlc)P (c) / P (x) (2) I(arena P(X) adalah konstan untuk semua kelas, maka persamaan 6. [ 1 ift, appears in d, 't t0 otheruise yang perlu dimaksimalkan adalah P(\C)P(C) Probabilitas prior sebuah kelas, P(C), dapat dihitung dengan mencari jumlah kemunculan sebuah kelas C; di set data terhadap jumlah seluruh set data, lCt,DlADl Apabila tidak diketahui, maka umumnya semua kelas memiliki probabilitas yang sama. 4. Dengan asumsi naif c/ass conditional independence, yaitu tidak ada relasi kebergantungan antar atribut, maka P(\C) dapat dihitung sebagai perkalian produk dari probabilitas atribut-atribut yang pada sebuah tupel Xterhadap sebuah kelas C, (Persamaan 3). P(XIC) = flf=r P(x*lC) (3) Estimasi probabilitas P(xplc) dapat diperoleh dari tupel-tupel pelatihan dengan memperhatikan jenis atau 3. (6) Pembangunan Model Pengklasifikasi URL Halaman Detail Infornrasi Produk Tas Wanita Seperti pada Gambar 2, sistem pdmbuatan model pengklasifikasi URL halaman detail informasi ini dimulai dengan proses pengumpulan data yang nantinya digunakan sebagai data pelatihan dan data uji. Proses ini melakukan penelusuran web dengan bantuan Websphinx. Peneiusuran web dimulai dari halaman benlh (seed) sebagai masukan (input). Hasil dari proses ini adalah sekumpulan URL halaman yang berekstensi HTML. Proses selanjutnya adalah pra-pemrosesan data, yaitu mengubah representasi data menjadi model Boolean dan menentukan label atau atribut, kategorikal atau kontinyu. Jika sebuah atribut A1 adalah kategorikal, maka P(xplc) adalah jumlah tupel di D dengan kelas C; yang memiliki atribut Apbemllai kelas dari tiap+iap URL. Proses selanjutnya adalah pembuatan model pengklasifikasi dengan Naive Bayes yang telah diimplementasikan oleh alat bantu Weka. xp. Jika atr,but Ap adalah kontinyu, maka P(rklc) dihitung dengan persamaan 4, dengan asumsi Beberapa sub-bab selanjutnya memberikan penjelasan lebih lengkap mengenai tiap proses. berdistribusi Gaussian seperti persamaan 5. P(xplC): s@,p,o)= O(xp,1t6rorr) #"-# (4) (5) 2.4. Representasi Dokumen dengan Model Boolean. Dalam lacak balik informasi (information retrieva[), sebuah dokumen dianggap sebagai se"bungkus" kata atau istilah yang urutan dan posisinya diacuhkan (Liu, 2011). Masih menurut Bing Liu (Liu, 2011), sebuah dokumen dideskripsikan oleh sejumlah istilah yang berbeda. Pada sebuah koleksi dokumen D, kumpulan istilah berbeda adalah V - {trtz,...,t") yang disebut vocabulary dengan lvl adalah jumlah istilah yang ada di dalamnya. Sebuah bobot w,; > 0 diasosiasikan dengan setiap istilah I pada dokumen * . D.Sebuah istilah yang tidak ada dalam dr.memiliki bobot w4 : 0. Setiap dokumen direpresentasikan dalan sebuah vector d; : (wti, wzi,... , .,).Dengan representasi ini, maka sebuah koleksi dokumen dapat direpresentasikan sebagai sebuah tabel relasional atau matriks. Terdapat empat model utama lacak balik informasi yaitu: model Boolean, model Ruang Vector (vector space model), model Bahasa (language model), dan model Probabilitas. Tiga model pefiama adalah yang umum digunakan dan menggunakan rangka kerja seperti yang telah dijelaskan pada paragraph di atas (Liu, 201 1). Model Boolean adalah model yang paling sederhana. Pada model ini dokumen direpresentasikan sebagai Gambar 2. Sistem Pembuatan Model Klasifikasi URL Halaman Detail Informasi Produk Tas Wanita 3.1. Pengumpulan Data Set data yang dibutuhkan untuk pembuatan model klasifikasi pada karya ilmiah ini adalah sekumpulan URL halaman detail inlormasi produk dari situs X. Pengumpulan data dilakukan dengan penelusuran web topikal dengan bantuan Websphinx. Sebelum pengumpulan data, penulis melakukan analisa awal terhadap struktur pemetaan halaman situs X. i27 Hasii penelusuran web ini adalah 1182 URL. Beberapa data URL yang terkumpulkari disajikan pada Tabei 2. 3.2. Pra Pemrosesan Data Ploses ini adalah ploses yang cukup krLrsial. Pada ploses ini data yaitu URL yang telah berhasil diunduh dipersiapkan untuk dapat rr.renjadi set data yang layak diklasifikasi. Beberapa persiapaan 1,ang dilakukan adalah: pembersihan data. transformasi data dalam model representasi Booiean. dan pelabelan data. I. Pembersihan Datu Setelah dilakukan analisa telhadap data yang terkumpul, diketahui teldapat beberapa data yang redundan. Data 3.2. Gambar 1. Struktur Kategorisasi Produk Fashion Wanita pada situs X. Pengkategorian produk pada situs X dilakukan hingga ..ga level. Sebagai contoh, produk tas wanita berada di :vel kedua dengan "Fashion Wanita" sebagai parent dan :eragam jenis tas .uvanita sebagai children-nya, seper"ti pada Sambar 1. Setiap produk pada situs X memiliki halaman :etail informasi produk. URL halaman detail informasi :roduk merupakan halaman berekstensi HTML dengan .rr'a1an domain situs X. Domain tersebut diikuti beberapa .stilah kunci dari produk. Istilah-istilah tersebut dipisahkan lengan tanda garis "-". Tabel I merupakan contoh dari - RL halaman detail informasi ploduk dengan domain asli s:tus diganti www.x.co.id Tabel 1. Contoh URL Halaman Detail Informasi Produk. \o menampilkan halaman detail informasi produk yang sama, namun berbeda tata letaknva. 'fahel 2. Contoh Hasil Penelusuran No 1. 2. http://www.x.co.id/royal-polo-backpack-8996-06-cofl'ee384221.hhnl http://rvww.x.co.idlsayota-sv-809-portable-vacuum-cleanermerah-437106.htm1 4. http://www.x.co.id/aosirnani-1529-black-ranselJaptop-multitungsi- 10.1722.htm1 http://www.x. co. id,/bgc-disney- frozen{as-ransel-elsa-ana-3d- http://www.x. co.id/viyar-citrus-sling-bag-black-386488.htm1 timbul-3-kantong-import-pink-blue-kotak-pensil-dan-alartulis- http://wwrv.x. co. id/wornen-men-wei ght-li ft ing-gloves-fi tnessgyrn-exercise-soft-glove-rose- I 097378.htrnl http://wrvw.x.co.id,6ags-heaned-pocket-clutch-brown- co. id/lotus-speculoos-crunchy- I flozen-91237zl.html 463 I 52.html?mp: I -buah- t. http://www.x.co. id/lzd-slouchy-clutch-green-95 8. http://rvwrv.x. co. id/lzd-sl ouchy-clutch-green- Karena karya ilmiah ini terfokus pada produk tas anita, maka dilakukan pengatuan penelusuran sebagai :erikut: . URL Halaman Detail Informasi Produk http://rvww.x.co.id/viyar-citrus-sling-bag-black-386488.htm1 3. URL Halaman Detdl Informasi Produk http://www.x. 471411.html .'. redundan tersebut adalah link menuju pengaturan alat mobile dari sebuah halaman detail informasi produk. Contoh data redundan tersebut adalah URL ke-S pada Tabel 2. URL tersebut hanya berbeda pada istilah "?setDevice-rnobile" dengan URL ke-7. URL tersebut Penelusuran diawali dari halaman benih 95 I 905.html 905.html?setDevicrmobile http://rvwlv.x. 4l 6378.hhnl 10. I co. id/mayonette-ruenarn in i-sl ing-hitam- http://wwrv.x.co.id,/baglis-dompet-simple-u'anita-cokelat- http ://www.x. co. id/tas-wanita/ l89973.htrnl Penelusuran dilakukan dengan tingkat kedalaman sebesar 3 (tiga). Hal ini disesuaikan dengan kategorisasi produk. Apabila dirnulai dari kategori "Tas Wanita", maka penelusur perlu menelusuri hingga dua level di bawah untuk mencapai masing-masing produk tas wanita, sehingga kedalaman yang dibutuhkan adalah 2 +1. Penelusur hanya mengunjungi halaman dengan URL yang memiliki kata "html", 'tas", dan "bag". Peneiusur hanya menyimpan URL yang berekstensi "html" Penelusuran r,veb dilakukan selama 90 menit hingga tidak ada lagi halaman yang dapat ditelusuri. atau Dengan penemuan tersebut maka dilakukan 5l data redundan yang berhasil pembersihan data. Terdapat dibersihkan. Setelah pembersihan, besar koleksi URL menjadi 1125. 3.2.2. Transformasi Representasi Data Proses ini mengubah representasi URL ke dalam model Booelan. Dengan menganggap sebuah URL sebagai dokumen, maka istilah-istilah yang unik dari kumpulan URL tersebut menjadi kumpulan atribr-rt. Terdapat dua istilah yang diacuhkan. yaitu: 1. Domain dari situs X. 328 Hal ini disebabkan seluruh URL berasal dali domain yang sama sehingga istilah tersebut sudah pasti 2. ada label, dan 800 instan dengan pembagian 479 berlab:. ln, dan 321 berlabel nbw. pada setiap data. Ekstensi .html. Keluaran dari proses ini adalah sebuah m.:; pengklasifikasi yang disertakan pada Lampiran Karena URL yang diunduh adalah yang mengandung istilah ".html", maka bisa dipastikan istilah tersebut ada di seluruh data. -). Sebagian kecil dari model tersebut ditampilkan oleh T":. Beberapa hal menarik dapat diperoleh dari model klasifikasi di atas, antara lain: Sebelum proses transfbrmasi dilakukan, koleksi URL dibagi menjadi dua secala acak yaitu untuk 800 URL untuk set data pelatihan dan 235 URL untuk set data pengujian. Untuk setiap set data, dilakukan proses tlansformasi replesentasi data URL menjadi model Boolean yang memiliki langkah-langkah sebagai belikut: 1. Sub-proses pengumpulan atribut pada koleksi atribut A" r.r pada set data U a. potong awalan "hftp://www.x.co.id/" b. potong bagian url setelah tanda "." c. pisahkan istilah-istilah pada l dengan penanda'1" d" masukkan istilah-istilah yang belum ada pada Untuk setiap URL 1. Atribut "bags" merriliki probabilitas posterior p.:: label Dry teftinggi, P(bv,lx-"bags").: 0,99. Anri,. tanpa menghiraukan istilah-istilah lain di dalam;-,. sebuah URL yang rnengandung istilah "bal_. diprediksi kuat sebagai halamar.r detail inloi:-:.. produk tas wanita. Sembilan istilah lain yang --_r: mempunyai probabilitas posterior tinggi pada laber 1'abel 3. Sebagian Kecil Model Pengklasifikasi. Atribut Class bw koleksi atribul A 2. viyar Sub-proses pembobotan atribut-atribut dokumen d. Untuk setiap URL a; pada set data U a. Buat dokumenbarud; b. Untuk setiap atribut a; pada koleksi atribut A i. Jika atribut a1 ada pada uimaka w1'1 = 1, selain itu w;;:0. c. Masukkan d1 pada koleksi dokumen D 0 1 [total] citrus 0 I ltotall bag 0 3.2.3. Pelabelan Data Pada karya ilmiah ini, dokumen dibagi menjadi dua kelas, yaitu Tas Wanita (dengan notasi Dn) dan Bukan Tas Wanita (zDw). Sebuah URL dilabeli bw apabila produk yang ditampilkan halaman tersebut adalah sebuah tas berjenis: 1) tas selempang wanita, 2) tas messenger wanita, 3) tas ransel wanita, 4) clutch,5) tas bahu (shoulder bag), 6) tas tote wanita, 7) tas selempang badan wanita, 8) tas satchel wanita, 9) tas weekender wanita, 10) tas kerja wanita. Dompet, tas kosmetik, dan tas alat komunikasi tidak termasuk dalam kategori bp, melainkan nbw. Label nbw juga diberikan pada URL yang menampilkan produk antara lain tas pria, dompet pria, tas laptop, tas sepatu, tas kamera, tas anak-anak, tas bayi, dan pembersih debu. Proses pelabelan data dilakukan secara manual oleh 1 ltotall (0.6) nbw (0.4) 436.0 45.0 481.0 320.0 474.0 7.0 481.0 322.0 342.0 2r7.0 3.0 323.0 1.0 323.0 139.0 106.0 48r.0 323.0 Tabel 4, Sepuluh Atribut dengan Probabilitas Posterior Tertinggi pada label bw. Atribut p(x) bags 0.12 hearted bagtitude p(xlbw) P(bwlx) 0.1 9 0.99 0.08 0.14 0.98 0.05 0.08 0.98 bahu 0.04 0.06 0.97 yongki 0.03 0.05 0.96 komaladi 0.03 0.05 0.96 hers 0.03 0.05 0.96 brown 0.03 0.05 0.96 produk yang ditampilkan oleh halaman detail informasi viyar 0.06 0.09 0.94 bersangkutan. Penentuan tersebut didasari oleh pengetahuan awal mengenai tas wanita. Dari proses lzd 0.02 0.03 0.93 penuiis. Penulis membuka URL pada browser dan menentukan label dari URL. Penentuan label berdasarkan pelabelan ini diketahui pada data pelatihan terdapat 479 dokumen berlabel bw dan 321 dokumen berlabel nbw. 3. 3. Pembu atan Mo del PengklasiJikasi Model klasifikasi dibuat dengan memasukkan data pelatihan pada algoritma Naive Bayes. Seperli yang teiah disebutkan sebelumnya, data pelatihan adalah hasil pemecahan set data yang telah dikumpulkan pada proses 3.1. Data pelatihan memiliki 1986 atribut, termasuk atlibut 60, tercantum pada Tabel 4. 329 ilbel 5. Sepulrrh r\tribut dengan Prohabilitas Postcrior -fcrtinggi rrd:r l:tbcl nbw. Atribut p(xlnbw) p(x) Vaccum 0.0.1 0.03 0.03 0.03 0 0t 0.05 0.02 club cleaner travel 0.01 0.02 0.0.1 kamera polo COVCI rain shoes stulT P(nbwlx) 0 09 0.97 0.07 0.96 0.0," 0.96 0.07 0.95 0.01 0 0.1 3 0.95 0.06 0.s5 0.05 0.05 0.09 0.94 c)5 0.94 0.94 tersebut teldiri dari 325 instan yang terbagi rnenjadi 200 instan bellabel Dl,dan 125 instan berlabel nbx,. Pada uji coba ini model pengkasifikasi yang dibangun mempunyai akurasi 93/%. Model tersebut berhasil mengkasifikasikan 303 instan secara benar narnun rnasih melakukan salah klasifikasi terhadap 11 instan berlabel bw dan 11 instan berlabel nbn,. Tabel 7. adalah daftal instan teruji yang tidak diklasifikasikan secara benar oleh model. Seperti yang teftera pada Tabel 8.. hampir selnua atribLrt dengan probabilitas posterior tinggi yang muncul pada set data pengujian tidak muncul pada set instan yang gagal diklastlkasi. Pengecualian terjadi pada atribut "stul{-' yang rnuncul satu kali. Tabel 9. menunjukkan kemunculan atribut-atribut yang terdaftar pada Tabel 6. pada instan-irstan yang gagal diklasifikasi. Dari sepuluh atribut yang terdaftar, hanva atribut "birr.f' dan "merah" yang tidak muncul. Meskipun Sebaliknya, atribut "kamera" memiliki probabilitas posterior pada nbw teftinggi, P(nhvlx':"kamera") 0,97. Sehingga sebuah URL yang mengandung istilah "kamera", tanpa menghiraukan istilah-istilah lain di dalam URL tersebut, diprediksi sangat kuat sebagai halamana detail informasi produk bukan tas wanita. Sembilan istilah lain yang juga mempunyai probabilitas posterior tinggi pada label bw tercantum pada Tabel 5. Seperti yang ditunjukkan oleh Tabel 6. attribut "bag" memiliki probabilitas kemunculan tertinggi (P(x-"bag") : 0,31). Namun atribut ini muncul hampir merata di kedua kelas sehingga tidak memberikan prediksi yang kuat bagi masing-masing kelas (P(bwlx:"bog") : 0,57 dan P(nbwlx:"bag") : 0,43). Penulis menduga bahwa atribut-atribut ini akan mempengaruhi kesalahan klasfikasi dari model" tidak dapat memberikan pembuktian yang valid, namun hasil ini memperkuat dugaan penulis tentang pengarui.r atribut-atribut tersebut pada kesalahan klasifikasi model. Perlu ada suatu tindakan untuk menangani hal ini. 5. Simpulan dan Saran Pengembangan Karya ilmiah ini berhasil membuat sebuah model pengklasifikasi URL halaman detail informasi produk tas wanita pada situs X dengan akurasi 93.2%. Model pengklasifikasi ini dapat digunakan sebagai saringan dalam penelusur web topikal untuk mengunjungi dan mengunduh halaman terkait. Sebagai tambahan, dari model pengklasifikasi ini ditemukan praduga istilah-istilah yang terkait erat dengan halaman detail informasi tas wanita. Selain itu juga ditemukan praduga istilah-istilah yang membuat hasil klasifikasi model menjadi bias. Temuan tersebut masih berupa praduga dan memerlukan penelitian lebih lanjut. Irbel 6. Sepuluh Atributdengan Probabilitas Kemunculan Tinggi i rn Probabilitas Posterior Rendah p(x) P(brvlx) bag 0.31 0.57 tas 0.21 0.52 hitam 0. l6 0.36 backpack 0.09 0.24 biru 0.06 0.33 wallet 0.06 0.46 rnerah 0.06 0.53 pink 0.06 0.69 dompel 0.05 0.ss black 0.05 0.5 3 1. Hasil Uji Coba dan Pembahasan Uji coba akurasi model pengklasifikasi dilakukan ,,ra pengujian yang telah disiapkan sebelumnya. Pengembangan yang juga perlu dilakukan adalah pembangunan model pengklasfikasi yang lebih general, yaitu untuk beberapa situs toko online lainnya. Perlu juga melakukan komparasi efisiensi waktu dan memori atas kinerja penelusur web sebelum dan sesudah penggunaan model pengklasifikasi ini. pada Data 330 Tabel 7. Daftar lnstan yang Gagal Diklasifikasikan. ron mayonette-bryan-sling-coffee-1 925 1 4 unique-tas-cross-body-elegant-mnner-1128052 hearted mars-collection-diapers-bag12-black-white-dbsO57-487819 bagtirude nixels-mommy-bag-longchamp-hk-large-fushia-931729 bahu audyshop-shoe-tote-maroon-241055 yongki bag-stuff-crocodile-tote-lieetini-pouch-hitam-386875 komaladi hilistork-hlo66-bronze-tas-fashion-wanita-bronze-freedompet-444418 lzd j) womens-real-leather-wallet-purse-clips-clutch-phone-baghlack-l 098091 kamera 19 0 12 0 13 0 13 0 womens-matte-long-wallets-watermelon-red-1097508 bloomy-rucksack-01-viola-backpack-40946 0 0 0 10 0 rain 9 0 6 0 stuff club cleaner 307 yadas-korea-wallet-8 89- 1 0-fashion-wallet-rose-982809 travel 308 yadas-korean-wal let-6802-7-fu cshia- I 06805 3 t4 10 cover 427t86 c- 0 0 shoes bluetech-i coni 0 3 yadas-korea-wallet-878-40-fashion-wallet-hijau-962822 yadas-korea-wallet-890-16-fashion-wallerhijau-1048307 9 l3 10 esgotado-bag-corduro-segundo-w-tas-backpack-light-grey- 323 0 polo vaccum 309 13 viyar whiz-iconic-3-way-easy+o-carry-korean-bag-green-tasmultifu ngsi-hijau-1 55665 ?R1 0 brown huer-temari-printed-one-zipper-wallet-greenJove-1018772 en Gasal Klasifikasi 22 hers 211 , Set Data Tes bags nana-blanche-jam-tangan-wanita-silver-strap-stainlesssteel-sw-025-98270 I 224 257 27 3 277 Pmterl lnstan yang Gagal Diklasifikasi. Frekuensi Kemunculan pada Attribut delonghi-dl-xlr241i-violet-sco-intruskatr-violet-476913 lql o Set Data Tes dan lstilah-istilah pada URL lnstan 16 21 53 77 79 97 163 Tabel 8. Frekuensi Kemunculan Atribut Berprobabilitas Tinggi pada No. 13 1 0 0 6 0 9 0 1 0 -way-easy-to-carry-korean-bag-pink- 821 968 coco.pink-zoe-dompet-wanita-turquoise-8734 1 8 Tabel 9. Frekuensi Kemunculan Atribut Berfrekuensi Muncul Tinggi pada Instan yang Gagal Diklasifikasi. Atribut No. Instan bas tas hitam backpack 79,t63,220,280,283,309 wallet 217, 220, pink 309 53,190,283 163 25j,283 dompet 190,323 black 77.220 27 3, 27'7, 307, 308 DAI'TARPUSTAKA Han, J., Kamber, M. (2006). Data Mining Concepts and Techniques Second Edition. Morgan Kauffman Pub. Liu, B. (2011) Web Data Mining: Exploring Hyperlinks, Contents. and Usage Data Second Edition. Springer. Maruring, C. D., Introduction Raghavan, to P., & Scutze, H. (2009) Information Retrieval. Cambridge: Cambridge University Press. 33i F. (2011) Web C-rawiing. llleD Dato klinirrg. \liller. R.C. (n.d.). WebSPHINX: A Personal, Erploring Hyperlink"s, Contents. ailcl Usage Data ClLtstornizable Web Cra'uvler. Diakses dari: .ienczer'. Sacorttl Etlition, Chapter 8. Springer'. Itt t1t.s :i/tvlvtv.c s. cnur. ech L,/-rcnrt,,vebsph inx/ $ekretariat Program Studi lnformatika UC Town, Citraland Surabaya 6021 I lndonesia snapti.uc.ac.id email : [email protected] phone: +6283 1745 1699 ext 3101 Fax +6231745 1698 I S8l{ 3?A-EOe-l,q ,llllllxjil I lllll q 5t-rr -5 H!]l[l lll