Prosiding Semirata 2015 bidang Teknologi Informasi dan Multi Disiplin Universitas Tanjungpura Pontianak Hal 52 - 59 SISTEM EKSTRAKSI KANDUNGAN URL, TITTLE, META TAG, HYPERLINK PADA HALAMAN WEB Content Extraction System (Url, Tittle, Meta Tags, Hyperlink) On Web Pages 1) Evfi Mahdiyah 1) Program Studi Sistem Informasi FMIPA Universitas Riau, Pekanbaru [email protected] Kampus Bina Widya Jl. HR. Soebrantas Km. 12,5 Panam Pekanbaru 28293 ABSTRACT Web Extraction aims to obtain relevant keywords and gather important information from web content to be stored into database. The purpose of this study was to design and create a system that can extract the content URL, Tittle, Meta tags and hyperlinks on the element tag <head> of a HTML document (web page). This system is a web-based application that utilizes techniques Regular Expression. Extraction results will be collected and organized in a database. The method used in this study includes four phases of activity, namely: data collection phase, phase analysis in the form of system design, system development and testing phase of this sistem. This system can collect information about the URL, Tittle, Meta Tag of web content to be stored into the database. Sistem expected to be used as collectors of important information from various types of web pages that spread across the Internet. Keywords : web extraction, HTML, URL, tittle, meta tags, hyperlinks ABSTRAK Ekstraksi web bertujuan untuk mendapatkan kata kunci yang relevan dan mengumpulkan informasi penting dari kandungan web untuk disimpan ke dalam database. Tujuan dari penelitian ini adalah untuk merancang dan membuat sistem yang dapat mengekstraksi kandungan URL, Tittle, Meta Tag dan Hyperlink pada elemen tag <head> sebuah dokumen HTML (halaman web). Sistem ini merupakan aplikasi berbasis web yang memanfaatkan teknik Regular Expression. Metode yang digunakan dalam penelitian ini meliputi empat tahapan kegiatan, yaitu : tahap pengumpulan data, tahap analisa berupa desain sistem, tahap pembangunan sistem dan pengujian sistem. Sistem ini dapat mengumpulkan informasi URL, Tittle, Meta Tag dari kandungan web untuk disimpan ke dalam database. Sistem ini diharapkan dapat dijadikan sebagai pengumpul informasi penting dari berbagai jenis halaman web yang tersebar di Internet. Kata Kunci : ekstraksi web, HTML, url, tittle, meta tags, hyperlinks Makalah dipresentasikan dalam Seminar Nasional Dan Rapat Tahunan Bidang MIPA 2015 dengan Tema “Peran Ilmu MIPA Dalam Pengelolaan Sumber Daya Alam Untuk Meningkatkan Daya Saing Bangsa” pada tanggal 7 Mei 2015 di Fakultas MIPA Universitas Tanjungpura Pontianak. E.Mahdiyah 1. PENDAHULUAN Istilah Teknologi Informasi (TI) lebih merujuk pada teknologi yang digunakan dalam menyampaikan, maupun mengolah informasi. TI secara lebih mudah dipahami sebagai pengolahan informasi yang berbasis pada teknologi komputer. Teknologi Informasi meliputi segala hal yang berkaitan dengan proses, penggunaan sebagai alat bantu, manipulasi, dan pengelolaan informasi [9]. Salah satu TI yang berkembang cepat dan memanfaatkan teknologi komputer adalah Internet. Pengguna Internet menghadapi masalah untuk mendapatkan informasi yang tepat dan khusus melalui halaman web karena masalah dalam penstrukturan informasi halaman web [3]. Disaat pengguna membutuhkan informasi tertentu dan memanfaatkan mesin pencarian untuk mendapatkan halaman web yang tepat, terkadang hal tersebut tidak bisa dipenuhi. Hal ini dikarenakan kandungan/isi web tersebut tidak sesuai dengan apa yang dibutuhkan pengguna. Pengorganisasian dan penstrukturan kandungan web diperlukan untuk membantu pengguna mendapatkan informasi atau kandungan topik tertentu dengan cepat dan mudah [7]. Oleh karena itu, diperlukan penstrukturan kandungan web melalui pengindeksan kandungan halaman HTML. Tujuan dari penelitian ini adalah : membuat Sistem Ekstraksi Kandungan Informasi halaman HTML, yang dapat mengekstrak kandungan pada HTML seperti : informasi url, tittle, meta tag dan hyperlink pada elemen tag <head>. Proses ini merangkumi proses pembuangan tag, kata henti dan memfokuskan pada pengindeksan URL, tittle, meta tag dan hyperlink pada suatu halaman HTML. 1.1 Konsep Sistem Sistem adalah suatu kesatuan usaha yang terdiri dari bagian-bagian yang berkaitan satu sama lain yang berusaha mencapai suatu tujuan dalam suatu lingkungan kompleks. Defenisi tersebut menunjukkan bahwa sistem sebagai gugus dari elemen-elemen yang saling berinteraksi secara teratur dalam rangka mencapai tujuan atau subtujuan [8]. Desain atau perancangan dalam pembangunan perangkat lunak merupakan upaya untuk mengkonstruksi sebuah sistem yang memberi kepuasan akan spesifikasi kebutuhan fungsional, memenuhi target, memenuhi kebutuhan secara implisit atau eksplisit dari segi performasi maupun penggunaan sumber daya, kepuasan batasan pada proses desain dari segi biaya, waktu dan perangkat [8]. 1.2 Ekstraksi Informasi Teknik ekstraksi informasi merupakan sebagian dari teknik terkini yang memecahkan konten serta mempersembahkannya kembali dalam bentuk yang lebih kecil. Semirata 2015 bidang MIPA BKS-PTN Barat Pontianak, 7 Mei 2015 53 E.Mahdiyah Oleh karena teknologi ini mampu mengumpulkan dan mensintesiskan konten dari berbagai sumber Web, maka ia dapat menyumbang dan memperkenalkan metode pencarian informasi digital secara lebih efisien [1]. Teknik ekstraksi merupakan bagian penting untuk mendapatkan kata kunci yang relevan dari konten web. Sistem ekstraksi informasi dapat mengenali dan memindahkan informasi yang relevan dari sekumpulan teks, mengekstrak informasi dari berbagai sumber dan mengumpulkannya menjadi satu objek. Ekstraksi informasi menterjemahkan konten web menjadi bentuk yang sama dengan menggunakan teknologi seperti XML. Tujuan ekstraksi informasi adalah untuk mengubah teks yang terdiri dari berbagai bahasa kepada bentuk berstruktur dan berformat basis data [3] Teknik ekstraksi informasi web merupakan satu metode yang membolehkan capaian serta pengumpulan data atau informasi penting tertentu dari suatu halaman web secara automatik, untuk disimpan ke dalam pangkalan data [7]. Ekstraksi sumber informasi web diperlukan untuk membuang tag dan teks yang tidak bermakna dalam dokumen web bagi menghasilkan dokumen web yang berstruktur [4] Metode ekstraksi informasi dipilih bagi memudahkan pengumpulan dan perolehan sumber informasi online yang berlainan jenis. Metode ekstraksi juga dipilih karena metode ini berkeupayaan membantu pengguna untuk menjelajah informasi digital yang banyak dan yang membanjiri web [2]. 1.3 Hyper Text Markup Language (HTML) HTML adalah kependekan dari Hypertext Markup Language, yang artinya tata cara penulisan yang digunakan dalam dokumen web. Dokumen HTML adalah sebuah dokumen text murni yang dapat dibuat dengan editor web sembarang, seperti notepad. Dokumen ini akan di eksekusi oleh sebuah browser (misalnya Internet Explorer, Mozilla Firefox), sehingga browser mampu menghasilkan suatu dokumen yang sesuai dengan keinginan seorang programmer web [5]. HTML memiliki struktur sebagai berikut : <html> <head><title></title> </head> <body> </body> </html> Semirata 2015 bidang MIPA BKS-PTN Barat Pontianak, 7 Mei 2015 54 E.Mahdiyah Tag <html> ini digunakan untuk menyatakan bahwa halam website menggunakan bahasa HTML. Tag <head> adalah kepala dari halaman website. Pada tag ini, bisa menambahkan banyak informasi seperti meta, hyperlink, css, javascript, font dan lain lain. 1.4 PHP-Hypertext Preprocessor (PHP) PHP adalah singkatan dari "Personal Home Page", yang merupakan sebuah bahasa scripting yang terpasang pada HTML. Dengan adanya PHP kita bisa membuat beragam aplikasi yang berbasis web yang bisa ditampilkan di dunia jaringan. Sebagian besar sintaks mirip dengan bahasa C, Java dan Perl, ditambah beberapa fungsi PHP yang spesifik. Tujuan utama penggunaan bahasa ini adalah untuk memungkinkan perancang web menulis halaman web dinamis dengan cepat. Secara khusus, PHP dirancang untuk membentuk web dinamis, artinya ia dapat membentuk suatu tampilan berdasarkan permintaan terkini [5]. 1.5 Database MySQL MySQL sendiri adalah sebuah database relasional terdapat tabel-tabel untuk menyimpan data. Pada setiap tabel terdiri dari kolom dan baris serta sebuah kolom untuk mendefinisikan jenis informasi apa yang harus disimpan [6] Database sering didefinisikan sebagai kumpulan data yang terkait. Tujuan utama pembuatan database adalah untuk memudahkan dalam mengakses data. Data dapat ditambahkan, diubah, dihapus, atau dibaca dengan relatif mudah dan cepat. Saat ini tersedia banyak perangkat lunak yang ditujukan untuk mengelola database. Access, MS SQL Server, dan MySQL merupakan segelintir contoh produk pengelola database. Beberapa diantaranya berkelas database server, yaitu jenis yang secara aktif memantau permintaan akses terhadap data. Dalam hal ini, database server akan segera menanggapi permintaan data [5]. 1.6 Web Server Web server merupakan suatu server internet yang menggunakan protokol HTTP (Hypertext Tranfer Protocol) untuk melayani semua proses transfer data. Server web yang terkenal diantaranya adalah Apache dan Microsoft Internet Information Service (IIS). Apache merupakan server web antar-platform, sedangkan IIS hanya dapat beroperasi di sistem operasi windows [5]. Apache web server memiliki program pendukung cukup banyak yang dapat memberikan layanan yang cukup bagi penggunanya. Adapun program pendukung tersebut adalah Control Access, Common Gateway Interface (CGI), dan Personal Home Page (PHP). Apache adalah salah satu aplikasi yang digunakan untuk web server [6]. Semirata 2015 bidang MIPA BKS-PTN Barat Pontianak, 7 Mei 2015 55 E.Mahdiyah 2. METODE PENELITIAN Metode yang dilakukan dalam penelitian ini menggunakan empat tahapan kegiatan, seperti yang terlihat pada gambar 2.1 dibawah ini : • Literatur I. Pengumpulan Data 1. II. Desain Sistem • Aliran Sistem • Pembangunan Sistem III. Pelaksanaan Gambar 2.1. Tahapan dalam Metode Penelitian Tahap Pengumpulan Data Pada tahapan ini, yang dilakukan adalah : Studi Literatur , yaitu mengumpulkan informasi berkaitan dengan penelitian baik dari buku, jurnal maupun Internet. 2. Tahap Desain Sistem Merancang aliran sistem pengekstrak kandungan pada halaman HTML. 3. Tahap Pelaksanaan Merancang dan membangun Sistem Pengekstrak Kandungan URL, Tittle, Meta Tag dan Hyperlink pada halaman HTML. Desain Sistem Sistem melakukan pengekstrakan kandungan pada HTML seperti : informasi url, tittle, meta tag dan hyperlink pada elemen tag <head>. Proses ini merangkumi proses pembuangan tag, kata henti dan memfokuskan pada pengindeksan URL, tittle, meta tag dan hyperlink pada suatu halaman web berdasarkan pola atau struktur dalam HTML yang telah disusun dalam aturcara sistem melalui aplikasi teknik regular expression yang berpedoman pada berbagai format atau struktur hyperlink yang berbeda. Teknik regular expression memanfaatkan struktur wrapper yang menyebabkan aplikasi yang dibangunkan dapat mengenal semua tag HTML, terutama informasi tittle, hyperlinks dan meta tag suatu halaman web. Proses pembuangan kata henti juga dijalankan pada kandungan web. Data URL, tittle, meta tag dan hyperlinks yang diekstrak disimpan dalam pangkalan data. Semirata 2015 bidang MIPA BKS-PTN Barat Pontianak, 7 Mei 2015 56 E.Mahdiyah Adapun aliran sistem ini dapat dilihat pada gambar 3.1 dibawah ini : LOGIN EKSTRAKSI URL Tittle Meta Tag INTERFACE PENGGUNA Database MySQL Hyperlink Gambar 3.1 Aliran sistem pengekstrakan URL, Tittle, Meta Tag dan Hyperlink 3. 3.1 HASIL DAN PEMBAHASAN Pembangunan Sistem Penulis menggunakan pembangunan sistem dengan model prototipe yang berorientasikan web, karena fungsinya untuk berinteraksi dengan pengguna yang terdapat dalam lingkungan web. Sistem ini dibangunkan berasaskan pengguna. Antaramuka yang ringkas dan menarik, dihasilkan dengan menggunakan perangkat lunak Macromedia Dreamweaver 8 dan Adobe Photoshop CS4. Perangkat lunak PHP 5.2.6, Hyper Text Markup Language (HTML), CSS (Cascading Style Sheet) dan Ajax (Asynchronous Javascript and XML) digunakan sebagai bahasa pemograman pembangunan web. Sementara itu, MySQL 5.0.5 digunakan sebagai perangkat lunak untuk membangunkan struktur basis data. Oleh karena sistem ini berbasiskan web, maka penulis memilih Apache HTTP Server 2.2.8 sebagai web server yang digunakan pada sistem pengoperasian Windows XP Professional. 3.2 Tampilan Hasil Berikut ini merupakan tampilan hasil pembuatan Sistem Ekstraksi Kandungan Informasi ( url, tittle, meta tag dan hyperlink ) pada halaman HTML. Tampilan halaman utama dari sistem ini memiliki dua menu utama, yaitu : pengekstrakan HTML dan pencarian. Menu pengekstrakan berfungsi untuk melakukan pengekstrakan dan pengindeksan kandungan HTML pada halaman web tertentu yang nantinya akan disimpan pada database. Sedangkan menu pencarian berfungsi untuk mencari informasi tertentu yang terdapat didalam pangkalan data. Tampilan halaman utama dapat dilihat pada gambar 3.2 dibawah ini : Semirata 2015 bidang MIPA BKS-PTN Barat Pontianak, 7 Mei 2015 57 E.Mahdiyah Gambar 3.2 Tampilan Halaman Utama Tampilan halaman Pengesktrakan HTML memiliki tampilan login administrator dan Extraction. Login Administrator (Gambar 3.3) merupakan tampilan awal sebelum dilakukan pengekstrakan terhadap kandungan HTML. Admin akan memasukan username dan password, apabila admin memberikan data yang benar, maka akan dilanjutkan ke fasilitas berikutnya, yaitu menu extraction. Gambar 3.3 Tampilan Login Gambar 4.4 merupakan tampilan dari Extraction, yang merupakan fasilitas untuk melakukan pengesktrakan URL, Tittle, Meta Tag dan Hyperlink. Disini admin dapat mengetikkan alamat website yang ingin diekstrak kandungan HTMLnya. Tombol Go akan melakukan pengekstrakan dan kemudian disimpan dan dilakukan pengindeksan dalam database. Gambar 3.4 Tampilan Extraction Semirata 2015 bidang MIPA BKS-PTN Barat Pontianak, 7 Mei 2015 58 E.Mahdiyah Tampilan halaman pencarian dapat dilihat pada gambar 3.5. Menu ini memberikan fasilitas agar pengguna dapat melakukan pencarian terhadap informasi yang tersimpan didalam database. Gambar 3.5 Tampilan Menu Pencarian 3.3. Kesimpulan Sistem yang dibangun ini dapat mengekstrak kandungan informasi yang terdapat pada halaman HTM seperti : informasi url, tittle, meta tag, hyperlink. Pengekstrakan kandungan halaman HTML penting dan perlu dilakukan untuk mendapatkan daftar kata kunci yang relevan dan mencerminkan kandungan suatu halaman web. 4. PUSTAKA [1]. Adams, T., & Clark, N. The Internet effective online communication. Fort Worth: Harvourt College Publishers. 2001. [2]. Evfi Mahdiyah. Sistem Ekstraksi Informasi (Information Extraction System) : Kajian Perbandingan Ciri. Proceeding Semirata. 2010. [3]. Gregg, D.G & Walczak, S. Exploiting the Information Web. IEEE Transactions on Systems, Man and Cybernetics. Part C : Applications and Reviews. 2007 ; 37(1) : 109-124. [4]. Jun MA, Li Lian and Lianxia Li. Finding and Using the Content Texts of HTML Pages. Springer-Verlag Berlin Heidelberg. 2008 : 656 – 662. [5]. Kadir, Abdul. Membuat Aplikasi Web dengan Php+Database MySql. Yogyakarta : Andi Offset. 2009. [6]. Kadir, Abdul. Pemrograman Database MySQL Untuk Pemula. Yogyakarta : Penerbit MediaKom. 2013. [7]. Sharhida Zawani Binti Moh. Saad. Sistem Carian Sumber Bisnes (SCSB) dengan menggunakan Kaedah Pengekstrakan Kandungan Web. Tesis Sarjana Teknologi Maklumat. Bangi: Universiti Kebangsaan Malaysia. 2006. [8]. Sutabri, Tata. Analisis Sistem Informasi. Jakarta : Andi Offset. 2012. [9]. Wahidin, Dadan. Pemanfaatan Teknologi Informasi dan Komunikasi sebagai Media Pembelajaran. 2012. [diakses 15 Oktober 2012] Available from : http://makalahkumakalahmu.wordpress.com /2012/03/18/pemanfaatanteknologi-informasi-dan-komunikasi-sebagai-media-pembelajaran/ Semirata 2015 bidang MIPA BKS-PTN Barat Pontianak, 7 Mei 2015 59