tutorial instalasi nutch-0.9 pada sistem operasi windows

advertisement
PENELUSURAN INFORMASI
TUTORIAL INSTALASI NUTCH-0.9 PADA
SISTEM OPERASI WINDOWS
Linda Wahyuna
1108107010069
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SYIAH KUALA
TAHUN AJARAN 2013/2014
Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows
1. Apache Nutch
Apache Nutch adalah Web crawler open source yang ditulis di Jawa. Dengan
menggunakannya, kita dapat menemukan hyperlink halaman Web secara otomatis,
mengurangi banyak pekerjaan pemeliharaan, misalnya memeriksa link yang rusak, dan
membuat copy dari semua halaman yang dikunjungi untuk mencari lebih.
2. Cara Instalisasi
a. Download software
Nutch 0.9
:http://www.apache.org/dyn/closer.cgi/lucene/nutch/
JAVA JDK 6 Update 3 : http://java.sun.com/javase/downloads/index.jsp
Apache web server 6 : http://tomcat.apache.org/download-70.cgi
Cygwin
: http://www.cygwin.com/
b. Instalasi software

Instal cygwin : menjalankan cygwinSetup.

Instal JAVA : menjalankan jdk-7u40-nb-7_3_1-windows-i586.exe

Instal Apache : menjalankan apache-tomcat-7.0.47.exe
Jalankan dengan mengklik ikon Configure Tomcat. Kemudian klik tombol Star untuk
memulai Apache Tomcat Service. Untuk mengecek apakah Apache Tomcat telah
aktif, jalankan http://localhost:8080 di browser

Unzip nutch - 0.9.tar.gz ke direktori misalnya D : \ nutch.
c. Pengaturan crawler
Buka Windows Explorer. Klik kanan pada Computer, pilih Properties. Klik Advance
System Setting, kemudian klik Environment Variabel. Kemudian set variable name
dan vareiabel value seperti gambar berikut:
1
Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows
2
Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows
Pada terminal Cygwin, masuk ke direktori nutch,
export JAVA_HOME='/cygdrive/c/Program Files/Java/jdk1.7.0_40'
export NUTCH_HOME='/cygdrive/d/nutch-0.9/'
export NUTCH_JAVA_HOME='/cygdrive/c/Program Files/Java/jdk1.7.0_40'
Buat sebuah direktori untuk memegang sebuah file teks dengan url di dalamnya
dengan nama urls .
Dalam direktori tersebut, terdapat file ‘.txt’ yang berisi URL per baris.
Edit
file
cygwin/home/nutch-0.9/conf/crawl-urlfilter.txt
dan
mengganti
MY.DOMAIN.NAME dengan nama domain yang ingin di-crawl. Misalnya, jika ingin
membatasi crawl ke domain republika.co.id , baris harus membaca:
+ ^ http:// ( [ a- z0 - 9 ] * \ . ) * republika.co.id /
Edit file cygwin/home/nutch-0.9/conf/nutch-site.xml. Masukkan properti berikut
ke dalamnya dan edit seperti di bawah ini :
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
3
Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>http.agent.name</name>
<value>Peter Wang</value>
<description>Peter Pu Wang
</description>
</property>
<property>
<name>http.agent.description</name>
<value>Nutch spiderman</value>
<description> Nutch spiderman
</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://peterpuwang.googlepages.com </value>
<description>http://peterpuwang.googlepages.com
</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>[email protected]
</description>
4
Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows
</property>
</configuration>
d. Menjalankan crawler
Setelah hal-hal dikonfigurasi , menjalankan crawl menjadi lebih mudah . Cukup
gunakan perintah crawl:
bin/nutch crawl urls -dir hasil -depth 5 -topN 50
- dir
: nama direktori yang akan di-crawl.
- thread
: menentukan jumlah thread yang akan diambil secara paralel .
-depth
: menunjukkan kedalaman link dari halaman root yang dijelajahi
- topN
: menentukan jumlah maksimal halaman yang akan diambil.
e. Web Searching berdasarkan hasil merangkak di atas :
Jalankan browser dan masuk ke http://localhost:8080/manager/html. Pada bagian
"WAR file to deploy". Pilih file nutch0.9.war untuk meng-upload yang berada di
dalam direktori nutch.
Pergi ke direktori Apache Tomcat webapps , misalnya C : \ Program Files \ Apache
Software Foundation \ Tomcat 7.0 \ webapps , dan akan terlihat nutch - 0.9.war
sudah disalin di sana.
Di halaman http://localhost:8080/manager/html browser , klik "Start " link di /
nutch - 0,9 baris . Kemudian akan terlihat sebuah folder bernama " nutch - 0.9 " yang
akan dibuat dalam folder webapps yang ditunjukkan di atas .
Set Direktori Searcher
Selanjutnya, arahkan ke folder misalnya C:\Program Files\Apache Software
Foundation \Tomcat 7.0 \webapps \nutch-0.9\WEB-INF\classes. Edit file nutchsite.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
5
Tutorial Instalasi NUTCH-0.9 pada Sistem Operasi Windows
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>searcher.dir</name>
Alamat direktori yang
telah di-crawl
<value>C:\cygwin\home\nutch-0.9\hasil </value>
</property>
</configuration>
e . Reload Aplikasi
Buka Tomcat Manager dan klik "Reload" pada perintah untuk nutch-0.9 , atau
restart Tomcat menggunakan alat layanan jendela .
Buka browser dan masukkan url http://localhost:8080 . Halaman pencarian nutch
akan muncul.
6
Download