はじめに
IBM版Apache Hadoop(英語名:IBM Distribution of Apache Hadoop / 通称:IDAHO)とは、IBMのJava VMで動く、インストーラー付きApache Hadoopです。先進テクノロジー・ソフトウェアの無償ダウンロードサイト「IBM alphaWorks」で公開されています。
本記事執筆時点では、32-bit Linux version of the IBM SDK for Java 6 SR 8で稼働します。また、IDAHO-1.0では、Apache Hadoop version 0.20.2をベースにしています。
IDAHOには、Web-UIによるインストーラーがついています。SSH設定、Javaランタイム、Hadoopなどの設定を自動的に行いますので、Hadoopクラスターのセットアップが簡単に行えます。また、一回の作業で複数マシン構成のクラスターをセットアップすることができますので、とても楽ができます。
この記事では、IDAHOをダウンロードし、同梱されているREADME.txtに従って、3台のノードによるクラスターを構成する手順をご紹介します。1ノードをネームノードに、すべてのノードをデータノードにします。
IDAHOは「アイダホ」と読みます。
基礎知識
この記事では、読者が以下のことを事前に知っていることを前提にしています。
- LinuxとUNIX系コマンドの基礎
- Hadoopの基礎
オープンソース版のApache Hadoopとの違いを理解するためには、ApacheからダウンロードしたHadoopをセットアップした経験があるとよいかもしません。
前提環境
IDAHOは、以下の環境を前提としています。
OS | Red Hat Enterprise Linux 5.4(以下RHEL5.4) |
SUSE Linux Enterprise Server SLES 11(以下SLES11) | |
RAM | 4GB |
DISK | 40GB |
ここではRHEL5.4を使います。Linuxは、以下の条件をクリアしておく必要があります。
SSH | IDAHOのインストーラーやHadoopは通信にSSHを使いますので、SSHが稼働している必要があります。RHELなどでは通常デフォルトで動いていますので、それをそのまま利用できます。 |
Expect | 前提のソフトウェアとしてExpectがあります。普通にサーバーインストールした状態で、RHEL5.4にはインストールされていませんでしたので、以下のコマンドを使ってインストールしました(RHNへの登録が必要です。当然rpmなどを使ってインストールしても構いません)。 yum install expect |
ホスト名 | それぞれに固定の短縮ネットワーク名を与え、相互に見えるように準備してください。DHCPやDDNSでは不都合が生じます。 |
Javaは同梱されていますので、別途準備する必要はありません。