Modul 1 Instalasi Hadoop

advertisement
Modul 1
Instalasi Hadoop
H
adoop dapat dijalankan pada mode single node maupun multinode. Untuk dapat
menjalankan Hadoop, terlebih dahulu dilakukan instalasi Hadoop pada mesin yang akan
digunakan. Pada mode single node, Hadoop dijalankan pada satu mesin secara
standalone maupun pseudo-distributed.
Pada pertemuan ini akan dijelaskan mengenai langkah-langkah instalasi Hadoop pada Sistem Operasi
CentOS 6.7 64 bit.
3.1 Prasyarat
Sebelum melakukan instalasi Hadoop, terlebih dahulu harus dilakukan instalasi maupun konfigurasi
beberapa prasyarat agar Hadoop dapat dijalankan.
3.1.1 Instalasi Java
Hadoop membutuhkan Java versi 1.6 (Java 6) atau lebih baru agar bisa dijalankan. Untuk mengecek
apakah Java telah dipasang atau belum, atau mengecek versi Java yang telah dipasang, pada terminal
masukkan perintah berikut.
Jika pemberitahuan seperti pada Gambar 3.1 muncul, berarti Java belum terpasang pada komputer.
Java yang yang dipasang adalah OpenJDK 1.7.0 (Java 7). Untuk melakukan instalasi Java, pada
terminal, dimasukkan perintah berikut.
Jika ada pertanyaan, tekan tombol “y” untuk melanjutkan pemasangan. Apabila pemasangan selesai,
maka pada terminal akan muncul pesan bahwa pemasangan telah selesai seperti diperlihatkan pada
Gambar 3.2. Jika instalasi telah berhasil, maka akan muncul penjelasan seperti diperlihatkan pada
Gambar 3.3
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-1
Gambar 3.1 Pemberitahuan bahwa Java belum terinstall
Gambar 3.2 Instalasi Java telah selesai
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-2
Gambar 3.3 Pengecekan versi Java yang sudah terinstall
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-3
3.1.2 Menambahkan Akun Pengguna Khusus Hadoop
Dalam menjalankan Hadoop, perlu digunakan akun pengguna khusus Hadoop. Sebagai contoh,
dibuatkan nama pengguna khusus Hadoop tersebut adalah hduser.
Perintah passwd adalah perintah untuk mengatur password dari akun pengguna. Untuk akun hduser
diberikan password yang sama dengan nama akun, yaitu hduser. Gambar dibawah ini menunjukkan
penambahan akun pengguna khusus Hadoop.
Gambar 3.4 Menambahkan akun pengguna khusus Hadoop
Kemudian, akun pengguna hduser tersebut dimasukkan ke dalam grup sudoers. Caranya adalah
dengan mengedit file sudoers dengan menggunakan text editor vi. Pada terminal, dimasukkan
perintah visudo
Kemudian akan muncul text editor vi yang membuka file sudoers. Tambahkan sebaris konfigurasi
berikut
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-4
3.1.3 Instalasi dan Konfigurasi SSH
SSH digunakan untuk mengakses node-node Hadoop pada mode multinode maupun single node
pseudodistributed, atau sebagai remote access terhadap Hadoop. Apabila SSH belum terpasang,
pada terminal dimasukkan perintah berikut untuk memasang SSH.
Setelah SSH dipasang, kemudian perlu dilakukan generate sebuah kunci rsa khusus untuk pengguna
hduser. Tujuannya adalah agar akun hduser mempunyai otoritas untuk melakukan remote access
terhadap localhost (mode single node pseudo-distributed) maupun pada node-node Hadoop (mode
multinode). Masukkan terlebih dahulu masuk ke akun hduser dan buat kunci ssh dengan
menggunakan perintah berikut.
Pada prompt yang muncul, tekan enter agar nama file kunci tetap id_rsa. Kemudian, atur
passphrase kosong, agar tidak perlu memasukkan password setiap melakukan SSH. Tekan enter
untuk membiarkan passphrase tetap kosong. Kemudian masukkan kunci publik untuk SSH ke daftar
kunci yang terautorisasi menggunakan perintah berikut.
Perintah berikut digunakan untuk memberikan hak akses ke direktori .ssh dan file kunci yang
terautorisasi.
Detil lengkap proses pembuatan kunci diperlihatkan pada Gambar 3.6
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-5
Gambar 3.6 Membuat kunci publik RSA untuk hduser
Setelah kunci berhasil dibuat, kita bisa mencoba SSH dengan menggunakan perintah berikut.
Gambar 3.7 menunjukkan proses pengujian yang berhasil.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-6
3.1.4 Mematikan IPv6
Konfigurasi Hadoop yang berhubungan dengan jaringan akan mengikat ke alamat IPv6 pada 0.0.0.0.
Hal tersebut akan menimbulkan permasalahan tersendiri. Oleh karena itu, IPv6 sebaiknya
dinonaktifkan.
Buka dan edit file sysctl.conf yang ada di direktori /etc dengan menggunakan text editor.
Setelah file sysctl.conf dibuka menggunakan text editor, tambahkan beberapa baris konfigurasi
berikut. Kemudian simpan dan tutup text editor.
Gambar 3.8 dibawah ini menunjukkan tambahan baris konfigurasi di /etc/sysctl.conf.
Gambar 3.8 Menambahkan konfigurasi untuk mematikan IPv6
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-7
Kemudian, perbarui pengaturan dengan perintah berikut. Gambar 3.9 memperlihatkan hasil proses
perbaruan pengaturan IPv6
Gambar 3.9 Hasil perintah perbarui pengaturan IPv6
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-8
3.2 Instalasi Hadoop
3.2.1 Mengunduh dan Membuat Direktori Hadoop
Hadoop didistribusikan dalam dalam dua bentuk, yaitu dalam bentuk source dan dalam bentuk
binary. Distribusi yang berupa source setelah diunduh harus dikompilasi terlebih dahulu. Distribusi
binary setelah diunduh dapat langsung digunakan, dengan beberapa tambahan konfigurasi
Untuk mengunduh Hadoop binary distribution, sebagai hduser, pada terminal masukkan perintah
berikut.
Terminal akan mengunduh Hadoop binary distribution seperti diperlihatkan pada Gambar 3.10.
Gambar 3.10 Mengunduh Hadoop binary distribution
Hadoop yang telah diunduh dalam bentuk tarball diekstrak ke direktori /home/hduser/hadoop.
Berikut adalah perintahnya.
Gambar 3.11 ini menunjukkan hasil ekstraksi ke direktori /home/hduser/hadoop.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I-9
Gambar 3.11 Hasil ekstraksi Hadoop ke direktori /home/hduser/hadoop
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 10
3.2.2 Memperbarui Environment Variable (.bashrc)
Pada file .bashrc, ditambahkan beberapa baris untuk menambahkan path ke direktori Hadoop dan
Java. Penambahan path ini digunakan untuk memudahkan ketika kita melakukan perintah terkait
Hadoop dan Java di terminal. Buka file .bashrc menggunakan perintah berikut.
Pada file .bashrc yang dibuka dengan, tambahkan di environment variable untuk path ke direktori
hadoop dan direktori Java. Berikut adalah baris yang ditambahkan dalam .bashrc.
Hasil penambahan baris di .bashrc diperlihatkan pada Gambar 3.12.
Gambar 3.12 Menambahkan baris path environment variable
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 11
3.2.3 Konfigurasi Hadoop
Sebelum Hadoop dapat dijalankan, terlebih dahulu harus dilakukan beberapa konfigurasi untuk
menyesuaikan HDFS dan MapReduce framework yang digunakan. Semua konfigurasi Hadoop
terletak di direktori /home/hduser/hadoop/etc/hadoop.
Buka file hadoop-env.sh dengan text editor.
Pada file hadoop-env tersebut, set variabel JAVA_HOME menjadi lokasi instalasi Java sebagai
berikut.
Hasil penambahan variabel JAVA_HOME diperlihatkan pada Gambar 3.13.
Gambar 3.13 Konfigurasi pada file hadoop-env.sh
Buka core-site.xml dengan text editor dan isikan pada tag <configuration>...</configuration>
dengan konfigurasi berikut. Hasil penambahan konfigurasi diperlihatkan pada Gambar 3.14.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 12
Gambar 3.14 Konfigurasi file system default pada Hadoop
Selanjutnya, buka hdfs-site.xml dengan text editor dan isikan tag <configuration></configuration>
dengan konfigurasi berikut. Konfigurasi ini digunakan untuk mendefinisikan banyaknya replikasi data
pada HDFS. Hasil penambahan konfigurasi diperlihatkan pada Gambar 3.15.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 13
Gambar 3.15 Konfigurasi banyaknya replikasi pada HDFS
Selanjutnya adalah konfigurasi MapReduce framework yang digunakan pada file mapred-site.xml.
File tersebut belum ada, sehingga harus mengganti nama file mapred-site.xml.template menjadi
mapredsite.xml dengan perintah sebagai berikut.
Kemudian buka file mapred-site.xml tersebut dan dan tambahkan konfigurasi MapReduce
framework yang digunakan menggunakan perintah berikut. MapReduce framework yang digunakan
adalah YARN.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 14
Gambar 3.16 Konfigurasi pada MapReduce framework, yaitu YARN
Gambar 3.16 menunjukkan hasil konfigurasi mapred-site.xml. Konfigurasi selanjutnya adalah
konfigurasi YARN. Langkahnya adalah dengan membuka yarn-site.xml dan isikan konfigurasi
dalam tag <configuration>...</confiiguration> seperti berikut. Hasil konfigurasi ini diperlihatkan
pada gambar dibawah ini.
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 15
Gambar 3.17 Hasil konfigurasi pada yarn-site.xml
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 16
3.2.4 Format Hadoop Distributed File System via NameNode
Setelah Hadoop selesai dikonfigurasi, kemudian dilakukan format pada Hadoop Distributed File
System (HDFS). Hadoop Distributed File System (HDFS) tersebut perlu di-format sebelum
Hadoop dijalankan untuk pertama kalinya.
Format dilakukan melalui NameNode. Untuk mengakses NameNode, harus dilakukan remote
access ke localhost dengan SSH menggunakan perintah berikut ini. Perintah pada baris ketiga
merupakan perintah untuk format NameNode yang dilakukan dengan mengeksekusi file hdfs pada
direktori bin.
3.2.5 Menjalankan dan Menghentikan Hadoop
Mode menjalankan Hadoop dengan menggunakan HDFS dan faktor replikasi satu biasa disebut
sebagai mode pseudo-distributed. Perintah yang digunakan untuk menjalankan Hadoop adalah startdfs.sh dan start-yarn.sh. Perintah start-dfs.sh akan mengaktifkan NameNode, DataNode, dan
Secondary NameNode, sedangkan start-yarn.sh akan mengaktifkan ResourceManager dan
NodeManager. Kita bisa menggunakan perintah jps untuk mendapatkan informasi mengenai prosesproses Hadoop yang berjalan. Hasil menjalankan perintah start-dfs.sh dan start-yarn.sh
diperlihatkan pada Gambar 3.18 dan 3.19 :
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 17
Gambar 3.18 Menjalankan start-dfs.sh
Gambar 3.19 Menjalankan start-yarn.sh
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 18
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 19
Antarmuka web Hadoop dapat digunakan untuk memonitor jalannya node-node dan job-job
Hadoop yang sedang berjalan. Web Hadoop dapat diakses di alamat http://localhost:50070 untuk
NameNode dan http://localhost:8088 untuk Resource Manager. Antarmuka web untuk
keduanya diperlihatkan pada gambar dibawah ini.
Gambar 3.20 Antarmuka web Hadoop untuk NameNode Manager
Gambar 3.21 Antarmuka web Hadoop untuk Resource Manager
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 20
Setelah kita menjalankan service HDFS, kita bisa membuat direktori pada HDFS. Direktori pada
HDFS ini digunakan untuk menyimpan data yang akan diolah menggunakan Hadoop. Pembuatan
direktori pada HDFS menggunakan perintah sebagai berikut
Direktori-direktori pada HDFS dapat dicek melalui antarmuka web Hadoop untuk NameNode
Manager, yaitu pada tab Utilities, lalu pilih Browse File System, seperti diperlihatkan pada gambar
dibawah ini.
Gambar 3.22 Antarmuka web untuk melihat direktori HDFS
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 21
Untuk menghentikan Hadoop, dapat menjalankan stop-yarn.sh dan stop-dfs.sh sebagai berikut.
Hasil menghentikan HDFS dan YARN diperlihatkan pada gambar dibawah ini.
Gambar 3.23 Hasil penghentian HDFS dan YARN
~ Selamat Berlatih ~
Pengampu : Agus Priyanto, S.Kom., M.Kom
I - 22
Download