PENELUSURAN INFORMASI TUTORIAL INSTALASI NUTCH-0.9 PADA SISTEM OPERASI WINDOWS Linda Wahyuna 1108107010069 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SYIAH KUALA TAHUN AJARAN 2013/2014 Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows 1. Apache Nutch Apache Nutch adalah Web crawler open source yang ditulis di Jawa. Dengan menggunakannya, kita dapat menemukan hyperlink halaman Web secara otomatis, mengurangi banyak pekerjaan pemeliharaan, misalnya memeriksa link yang rusak, dan membuat copy dari semua halaman yang dikunjungi untuk mencari lebih. 2. Cara Instalisasi a. Download software Nutch 0.9 :http://www.apache.org/dyn/closer.cgi/lucene/nutch/ JAVA JDK 6 Update 3 : http://java.sun.com/javase/downloads/index.jsp Apache web server 6 : http://tomcat.apache.org/download-70.cgi Cygwin : http://www.cygwin.com/ b. Instalasi software Instal cygwin : menjalankan cygwinSetup. Instal JAVA : menjalankan jdk-7u40-nb-7_3_1-windows-i586.exe Instal Apache : menjalankan apache-tomcat-7.0.47.exe Jalankan dengan mengklik ikon Configure Tomcat. Kemudian klik tombol Star untuk memulai Apache Tomcat Service. Untuk mengecek apakah Apache Tomcat telah aktif, jalankan http://localhost:8080 di browser Unzip nutch - 0.9.tar.gz ke direktori misalnya D : \ nutch. c. Pengaturan crawler Buka Windows Explorer. Klik kanan pada Computer, pilih Properties. Klik Advance System Setting, kemudian klik Environment Variabel. Kemudian set variable name dan vareiabel value seperti gambar berikut: 1 Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows 2 Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows Pada terminal Cygwin, masuk ke direktori nutch, export JAVA_HOME='/cygdrive/c/Program Files/Java/jdk1.7.0_40' export NUTCH_HOME='/cygdrive/d/nutch-0.9/' export NUTCH_JAVA_HOME='/cygdrive/c/Program Files/Java/jdk1.7.0_40' Buat sebuah direktori untuk memegang sebuah file teks dengan url di dalamnya dengan nama urls . Dalam direktori tersebut, terdapat file ‘.txt’ yang berisi URL per baris. Edit file cygwin/home/nutch-0.9/conf/crawl-urlfilter.txt dan mengganti MY.DOMAIN.NAME dengan nama domain yang ingin di-crawl. Misalnya, jika ingin membatasi crawl ke domain republika.co.id , baris harus membaca: + ^ http:// ( [ a- z0 - 9 ] * \ . ) * republika.co.id / Edit file cygwin/home/nutch-0.9/conf/nutch-site.xml. Masukkan properti berikut ke dalamnya dan edit seperti di bawah ini : <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 3 Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>http.agent.name</name> <value>Peter Wang</value> <description>Peter Pu Wang </description> </property> <property> <name>http.agent.description</name> <value>Nutch spiderman</value> <description> Nutch spiderman </description> </property> <property> <name>http.agent.url</name> <value>http://peterpuwang.googlepages.com </value> <description>http://peterpuwang.googlepages.com </description> </property> <property> <name>http.agent.email</name> <value>MyEmail</value> <description>[email protected] </description> 4 Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows </property> </configuration> d. Menjalankan crawler Setelah hal-hal dikonfigurasi , menjalankan crawl menjadi lebih mudah . Cukup gunakan perintah crawl: bin/nutch crawl urls -dir hasil -depth 5 -topN 50 - dir : nama direktori yang akan di-crawl. - thread : menentukan jumlah thread yang akan diambil secara paralel . -depth : menunjukkan kedalaman link dari halaman root yang dijelajahi - topN : menentukan jumlah maksimal halaman yang akan diambil. e. Web Searching berdasarkan hasil merangkak di atas : Jalankan browser dan masuk ke http://localhost:8080/manager/html. Pada bagian "WAR file to deploy". Pilih file nutch0.9.war untuk meng-upload yang berada di dalam direktori nutch. Pergi ke direktori Apache Tomcat webapps , misalnya C : \ Program Files \ Apache Software Foundation \ Tomcat 7.0 \ webapps , dan akan terlihat nutch - 0.9.war sudah disalin di sana. Di halaman http://localhost:8080/manager/html browser , klik "Start " link di / nutch - 0,9 baris . Kemudian akan terlihat sebuah folder bernama " nutch - 0.9 " yang akan dibuat dalam folder webapps yang ditunjukkan di atas . Set Direktori Searcher Selanjutnya, arahkan ke folder misalnya C:\Program Files\Apache Software Foundation \Tomcat 7.0 \webapps \nutch-0.9\WEB-INF\classes. Edit file nutchsite.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> 5 Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>searcher.dir</name> Alamat direktori yang telah di-crawl <value>C:\cygwin\home\nutch-0.9\hasil </value> </property> </configuration> e . Reload Aplikasi Buka Tomcat Manager dan klik "Reload" pada perintah untuk nutch-0.9 , atau restart Tomcat menggunakan alat layanan jendela . Buka browser dan masukkan url http://localhost:8080 . Halaman pencarian nutch akan muncul. 6