sistem ekstraksi kandungan url, tittle, meta tag

advertisement
Prosiding Semirata 2015 bidang Teknologi Informasi dan Multi Disiplin
Universitas Tanjungpura Pontianak
Hal 52 - 59
SISTEM EKSTRAKSI KANDUNGAN URL, TITTLE, META TAG, HYPERLINK
PADA HALAMAN WEB
Content Extraction System (Url, Tittle, Meta Tags, Hyperlink)
On Web Pages
1)
Evfi Mahdiyah
1)
Program Studi Sistem Informasi FMIPA Universitas Riau, Pekanbaru
[email protected]
Kampus Bina Widya Jl. HR. Soebrantas Km. 12,5 Panam Pekanbaru 28293
ABSTRACT
Web Extraction aims to obtain relevant keywords and gather important information from
web content to be stored into database. The purpose of this study was to design and
create a system that can extract the content URL, Tittle, Meta tags and hyperlinks on the
element tag <head> of a HTML document (web page). This system is a web-based
application that utilizes techniques Regular Expression. Extraction results will be collected
and organized in a database. The method used in this study includes four phases of
activity, namely: data collection phase, phase analysis in the form of system design,
system development and testing phase of this sistem. This system can collect information
about the URL, Tittle, Meta Tag of web content to be stored into the database. Sistem
expected to be used as collectors of important information from various types of web
pages that spread across the Internet.
Keywords : web extraction, HTML, URL, tittle, meta tags, hyperlinks
ABSTRAK
Ekstraksi web bertujuan untuk mendapatkan kata kunci yang relevan dan mengumpulkan
informasi penting dari kandungan web untuk disimpan ke dalam database. Tujuan dari
penelitian ini adalah untuk merancang dan membuat sistem yang dapat mengekstraksi
kandungan URL, Tittle, Meta Tag dan Hyperlink pada elemen tag <head> sebuah
dokumen HTML (halaman web). Sistem ini merupakan aplikasi berbasis web yang
memanfaatkan teknik Regular Expression. Metode yang digunakan dalam penelitian ini
meliputi empat tahapan kegiatan, yaitu : tahap pengumpulan data, tahap analisa berupa
desain sistem, tahap pembangunan sistem dan pengujian sistem. Sistem ini dapat
mengumpulkan informasi URL, Tittle, Meta Tag dari kandungan web untuk disimpan ke
dalam database. Sistem ini diharapkan dapat dijadikan sebagai pengumpul informasi
penting dari berbagai jenis halaman web yang tersebar di Internet.
Kata Kunci : ekstraksi web, HTML, url, tittle, meta tags, hyperlinks
Makalah dipresentasikan dalam Seminar Nasional Dan Rapat Tahunan Bidang MIPA 2015 dengan Tema
“Peran Ilmu MIPA Dalam Pengelolaan Sumber Daya Alam Untuk Meningkatkan Daya Saing Bangsa” pada
tanggal 7 Mei 2015 di Fakultas MIPA Universitas Tanjungpura Pontianak.
E.Mahdiyah
1.
PENDAHULUAN
Istilah Teknologi Informasi (TI) lebih merujuk pada teknologi yang digunakan dalam
menyampaikan, maupun mengolah informasi. TI secara lebih mudah dipahami sebagai
pengolahan informasi yang berbasis pada teknologi komputer. Teknologi Informasi
meliputi segala hal yang berkaitan dengan proses, penggunaan sebagai alat bantu,
manipulasi, dan pengelolaan informasi [9].
Salah satu TI yang berkembang cepat dan memanfaatkan teknologi komputer
adalah Internet. Pengguna Internet menghadapi masalah untuk mendapatkan informasi
yang tepat dan khusus melalui halaman web karena masalah dalam penstrukturan
informasi halaman web [3]. Disaat pengguna membutuhkan informasi tertentu dan
memanfaatkan mesin pencarian untuk mendapatkan halaman web yang tepat, terkadang
hal tersebut tidak bisa dipenuhi. Hal ini dikarenakan kandungan/isi web tersebut tidak
sesuai dengan apa yang dibutuhkan pengguna.
Pengorganisasian dan penstrukturan kandungan web diperlukan untuk membantu
pengguna mendapatkan informasi atau kandungan topik tertentu dengan cepat dan
mudah [7]. Oleh karena itu, diperlukan penstrukturan kandungan web melalui
pengindeksan kandungan halaman HTML.
Tujuan dari penelitian ini adalah : membuat Sistem Ekstraksi Kandungan Informasi
halaman HTML, yang dapat mengekstrak kandungan pada HTML seperti : informasi url,
tittle, meta tag dan hyperlink pada elemen tag <head>. Proses ini merangkumi proses
pembuangan tag, kata henti dan memfokuskan pada pengindeksan URL, tittle, meta tag
dan hyperlink pada suatu halaman HTML.
1.1
Konsep Sistem
Sistem adalah suatu kesatuan usaha yang terdiri dari bagian-bagian yang berkaitan
satu sama lain yang berusaha mencapai suatu tujuan dalam suatu lingkungan kompleks.
Defenisi tersebut menunjukkan bahwa sistem sebagai gugus dari elemen-elemen yang
saling berinteraksi secara teratur dalam rangka mencapai tujuan atau subtujuan [8].
Desain atau perancangan dalam pembangunan perangkat lunak merupakan
upaya untuk mengkonstruksi sebuah sistem yang memberi kepuasan akan spesifikasi
kebutuhan fungsional, memenuhi target, memenuhi kebutuhan secara implisit atau
eksplisit dari segi performasi maupun penggunaan sumber daya, kepuasan batasan pada
proses desain dari segi biaya, waktu dan perangkat [8].
1.2
Ekstraksi Informasi
Teknik
ekstraksi
informasi
merupakan
sebagian
dari
teknik
terkini
yang
memecahkan konten serta mempersembahkannya kembali dalam bentuk yang lebih kecil.
Semirata 2015 bidang MIPA BKS-PTN Barat
Pontianak, 7 Mei 2015
53
E.Mahdiyah
Oleh karena teknologi ini mampu mengumpulkan dan mensintesiskan konten dari
berbagai sumber Web, maka ia dapat menyumbang dan memperkenalkan metode
pencarian informasi digital secara lebih efisien [1].
Teknik ekstraksi merupakan bagian penting untuk mendapatkan kata kunci yang
relevan dari konten web. Sistem ekstraksi informasi dapat mengenali dan memindahkan
informasi yang relevan dari sekumpulan teks, mengekstrak informasi dari berbagai
sumber dan mengumpulkannya menjadi satu objek. Ekstraksi informasi menterjemahkan
konten web menjadi bentuk yang sama dengan menggunakan teknologi seperti XML.
Tujuan ekstraksi informasi adalah untuk mengubah teks yang terdiri dari berbagai bahasa
kepada bentuk berstruktur dan berformat basis data [3]
Teknik ekstraksi informasi web merupakan satu metode yang membolehkan capaian
serta pengumpulan data atau informasi penting tertentu dari suatu halaman web secara
automatik, untuk disimpan ke dalam pangkalan data [7]. Ekstraksi sumber informasi web
diperlukan untuk membuang tag dan teks yang tidak bermakna dalam dokumen web bagi
menghasilkan dokumen web yang berstruktur [4]
Metode ekstraksi informasi dipilih bagi memudahkan pengumpulan dan perolehan
sumber informasi online yang berlainan jenis. Metode ekstraksi juga dipilih karena metode
ini berkeupayaan membantu pengguna untuk menjelajah informasi digital yang banyak
dan yang membanjiri web [2].
1.3
Hyper Text Markup Language (HTML)
HTML adalah kependekan dari Hypertext Markup Language, yang artinya tata cara
penulisan yang digunakan dalam dokumen web. Dokumen HTML adalah sebuah
dokumen text murni yang dapat dibuat dengan editor web sembarang, seperti notepad.
Dokumen ini akan di eksekusi oleh sebuah browser (misalnya Internet Explorer, Mozilla
Firefox), sehingga browser mampu menghasilkan suatu dokumen yang sesuai dengan
keinginan seorang programmer web [5]. HTML memiliki struktur sebagai berikut :
<html>
<head><title></title>
</head>
<body>
</body>
</html>
Semirata 2015 bidang MIPA BKS-PTN Barat
Pontianak, 7 Mei 2015
54
E.Mahdiyah
Tag <html> ini digunakan untuk menyatakan bahwa halam website menggunakan
bahasa HTML. Tag <head> adalah kepala dari halaman website. Pada tag ini, bisa
menambahkan banyak informasi seperti meta, hyperlink, css, javascript, font dan lain lain.
1.4
PHP-Hypertext Preprocessor (PHP)
PHP adalah singkatan dari "Personal Home Page", yang merupakan sebuah
bahasa scripting yang terpasang pada HTML. Dengan adanya PHP kita bisa membuat
beragam aplikasi yang berbasis web yang bisa ditampilkan di dunia jaringan. Sebagian
besar sintaks mirip dengan bahasa C, Java dan Perl, ditambah beberapa fungsi PHP
yang spesifik. Tujuan utama penggunaan bahasa ini adalah untuk memungkinkan
perancang web menulis halaman web dinamis dengan cepat. Secara khusus, PHP
dirancang untuk membentuk web dinamis, artinya ia dapat membentuk suatu tampilan
berdasarkan permintaan terkini [5].
1.5
Database MySQL
MySQL sendiri adalah sebuah database relasional terdapat tabel-tabel untuk
menyimpan data. Pada setiap tabel terdiri dari kolom dan baris serta sebuah kolom untuk
mendefinisikan jenis informasi apa yang harus disimpan [6]
Database sering didefinisikan sebagai kumpulan data yang terkait. Tujuan utama
pembuatan database adalah untuk memudahkan dalam mengakses data. Data dapat
ditambahkan, diubah, dihapus, atau dibaca dengan relatif mudah dan cepat. Saat ini
tersedia banyak perangkat lunak yang ditujukan untuk mengelola database. Access, MS
SQL Server, dan MySQL merupakan segelintir contoh produk pengelola database.
Beberapa diantaranya berkelas database server, yaitu jenis yang secara aktif memantau
permintaan akses terhadap data. Dalam hal ini, database server akan segera
menanggapi permintaan data [5].
1.6
Web Server
Web server merupakan suatu server internet yang menggunakan protokol HTTP
(Hypertext Tranfer Protocol) untuk melayani semua proses transfer data. Server web yang
terkenal diantaranya adalah Apache dan Microsoft Internet Information Service (IIS).
Apache merupakan server web antar-platform, sedangkan IIS hanya dapat beroperasi di
sistem operasi windows [5].
Apache web server memiliki program pendukung cukup banyak yang dapat
memberikan layanan yang cukup bagi penggunanya. Adapun program pendukung
tersebut adalah Control Access, Common Gateway Interface (CGI), dan Personal Home
Page (PHP). Apache adalah salah satu aplikasi yang digunakan untuk web server [6].
Semirata 2015 bidang MIPA BKS-PTN Barat
Pontianak, 7 Mei 2015
55
E.Mahdiyah
2.
METODE PENELITIAN
Metode yang dilakukan dalam penelitian ini menggunakan empat tahapan kegiatan,
seperti yang terlihat pada gambar 2.1 dibawah ini :
• Literatur
I. Pengumpulan
Data
1.
II. Desain
Sistem
• Aliran
Sistem
• Pembangunan
Sistem
III.
Pelaksanaan
Gambar 2.1. Tahapan dalam Metode Penelitian
Tahap Pengumpulan Data
Pada tahapan ini, yang dilakukan adalah : Studi Literatur , yaitu mengumpulkan
informasi berkaitan dengan penelitian baik dari buku, jurnal maupun Internet.
2.
Tahap Desain Sistem
Merancang aliran sistem pengekstrak kandungan pada halaman HTML.
3.
Tahap Pelaksanaan
Merancang dan membangun Sistem Pengekstrak Kandungan URL, Tittle, Meta Tag
dan Hyperlink pada halaman HTML.
Desain Sistem
Sistem melakukan pengekstrakan kandungan pada HTML seperti : informasi url,
tittle, meta tag dan hyperlink pada elemen tag <head>. Proses ini merangkumi proses
pembuangan tag, kata henti dan memfokuskan pada pengindeksan URL, tittle, meta tag
dan hyperlink pada suatu halaman web berdasarkan pola atau struktur dalam HTML yang
telah disusun dalam aturcara sistem melalui aplikasi teknik regular expression yang
berpedoman pada berbagai format atau struktur hyperlink yang berbeda.
Teknik regular expression memanfaatkan struktur wrapper yang menyebabkan
aplikasi yang dibangunkan dapat mengenal semua tag HTML, terutama informasi tittle,
hyperlinks dan meta tag suatu halaman web. Proses pembuangan kata henti juga
dijalankan pada kandungan web. Data URL, tittle, meta tag dan hyperlinks yang diekstrak
disimpan dalam pangkalan data.
Semirata 2015 bidang MIPA BKS-PTN Barat
Pontianak, 7 Mei 2015
56
E.Mahdiyah
Adapun aliran sistem ini dapat dilihat pada gambar 3.1 dibawah ini :
LOGIN
EKSTRAKSI
URL
Tittle
Meta Tag
INTERFACE
PENGGUNA
Database
MySQL
Hyperlink
Gambar 3.1 Aliran sistem pengekstrakan URL, Tittle, Meta Tag dan Hyperlink
3.
3.1
HASIL DAN PEMBAHASAN
Pembangunan Sistem
Penulis menggunakan pembangunan sistem dengan model prototipe yang
berorientasikan web, karena fungsinya untuk berinteraksi dengan pengguna yang
terdapat dalam lingkungan web.
Sistem ini dibangunkan berasaskan pengguna. Antaramuka yang ringkas dan
menarik, dihasilkan dengan menggunakan perangkat lunak Macromedia Dreamweaver 8
dan Adobe Photoshop CS4. Perangkat lunak PHP 5.2.6, Hyper Text Markup Language
(HTML), CSS (Cascading Style Sheet) dan Ajax (Asynchronous Javascript and XML)
digunakan sebagai bahasa pemograman pembangunan web.
Sementara
itu,
MySQL
5.0.5
digunakan
sebagai
perangkat
lunak
untuk
membangunkan struktur basis data. Oleh karena sistem ini berbasiskan web, maka
penulis memilih Apache HTTP Server 2.2.8 sebagai web server yang digunakan pada
sistem pengoperasian Windows XP Professional.
3.2
Tampilan Hasil
Berikut ini merupakan tampilan hasil pembuatan Sistem Ekstraksi Kandungan
Informasi ( url, tittle, meta tag dan hyperlink ) pada halaman HTML.
Tampilan halaman utama dari sistem ini memiliki dua menu utama, yaitu :
pengekstrakan HTML dan pencarian. Menu pengekstrakan berfungsi untuk melakukan
pengekstrakan dan pengindeksan kandungan HTML pada halaman web tertentu yang
nantinya akan disimpan pada database. Sedangkan menu pencarian berfungsi untuk
mencari informasi tertentu yang terdapat didalam pangkalan data. Tampilan halaman
utama dapat dilihat pada gambar 3.2 dibawah ini :
Semirata 2015 bidang MIPA BKS-PTN Barat
Pontianak, 7 Mei 2015
57
E.Mahdiyah
Gambar 3.2 Tampilan Halaman Utama
Tampilan halaman Pengesktrakan HTML memiliki tampilan login administrator dan
Extraction. Login Administrator (Gambar 3.3) merupakan tampilan awal sebelum
dilakukan pengekstrakan terhadap kandungan HTML. Admin akan memasukan username
dan password, apabila admin memberikan data yang benar, maka akan dilanjutkan ke
fasilitas berikutnya, yaitu menu extraction.
Gambar 3.3 Tampilan Login
Gambar 4.4 merupakan tampilan dari Extraction, yang merupakan fasilitas untuk
melakukan pengesktrakan URL, Tittle, Meta Tag dan Hyperlink. Disini admin dapat
mengetikkan alamat website yang ingin diekstrak kandungan HTMLnya. Tombol Go akan
melakukan pengekstrakan dan kemudian disimpan dan dilakukan pengindeksan dalam
database.
Gambar 3.4 Tampilan Extraction
Semirata 2015 bidang MIPA BKS-PTN Barat
Pontianak, 7 Mei 2015
58
E.Mahdiyah
Tampilan halaman pencarian dapat dilihat pada gambar 3.5. Menu ini memberikan
fasilitas agar pengguna dapat melakukan pencarian terhadap informasi yang tersimpan
didalam database.
Gambar 3.5 Tampilan Menu Pencarian
3.3. Kesimpulan
Sistem yang dibangun ini dapat mengekstrak kandungan informasi yang terdapat
pada halaman HTM seperti : informasi url, tittle, meta tag, hyperlink. Pengekstrakan
kandungan halaman HTML penting dan perlu dilakukan untuk mendapatkan daftar kata
kunci yang relevan dan mencerminkan kandungan suatu halaman web.
4.
PUSTAKA
[1].
Adams, T., & Clark, N. The Internet effective online communication. Fort Worth:
Harvourt College Publishers. 2001.
[2].
Evfi Mahdiyah. Sistem Ekstraksi Informasi (Information Extraction System) : Kajian
Perbandingan Ciri. Proceeding Semirata. 2010.
[3].
Gregg, D.G & Walczak, S. Exploiting the Information Web. IEEE Transactions on
Systems, Man and Cybernetics. Part C : Applications and Reviews. 2007 ;
37(1) : 109-124.
[4].
Jun MA, Li Lian and Lianxia Li. Finding and Using the Content Texts of HTML
Pages. Springer-Verlag Berlin Heidelberg. 2008 : 656 – 662.
[5].
Kadir, Abdul. Membuat Aplikasi Web dengan Php+Database MySql. Yogyakarta :
Andi Offset. 2009.
[6].
Kadir, Abdul. Pemrograman Database MySQL Untuk Pemula. Yogyakarta :
Penerbit MediaKom. 2013.
[7].
Sharhida Zawani Binti Moh. Saad. Sistem Carian Sumber Bisnes (SCSB) dengan
menggunakan Kaedah Pengekstrakan Kandungan Web. Tesis Sarjana
Teknologi Maklumat. Bangi: Universiti Kebangsaan Malaysia. 2006.
[8].
Sutabri, Tata. Analisis Sistem Informasi. Jakarta : Andi Offset. 2012.
[9].
Wahidin, Dadan. Pemanfaatan Teknologi Informasi dan Komunikasi sebagai
Media Pembelajaran. 2012. [diakses 15 Oktober 2012] Available from :
http://makalahkumakalahmu.wordpress.com
/2012/03/18/pemanfaatanteknologi-informasi-dan-komunikasi-sebagai-media-pembelajaran/
Semirata 2015 bidang MIPA BKS-PTN Barat
Pontianak, 7 Mei 2015
59
Download