Cloudera Managerを使って、hadoop、hive等をEC2の複数台のサーバーにインストールする方法

2012年12月10 00時16分

Cloudera Managerを使って、hadoop、hive等をEC2の複数台のサーバーにインストールする方法

Cloudera Managerを使って、hadoop、hive等をEC2の複数台のサーバーにインストールする方法の解説です。

この記事の対象者はこんな人たちです。

HadoopやHiveをユーザーとして使いたい人
自前のサーバーへ導入する前に試しに触ってみたい人
EC2へのインストールが何故か失敗する人(ハマりポイントが多いです…)

画像はCloudera社公式ページより引用

全体をざっと説明

hadoop、hiveをEC2サーバーにインストールするには、ざっと分けて以下の手順が必要になります。

EC2インスタンスの準備・起動・各種設定
EC2インスタンス1台のみへCloudera Manager(以下CM)をインストール
CMを使って全EC2インスタンスへhadoop、hiveをインストール

少しだけ用語解説

Amazon EC2(Amazon Elastic Compute Cloud)

Amazonが提供しているクラウドサーバーサービスです。仮想サーバーの作成・破棄が安価・簡単にできます。設定に失敗してもそのサーバーを削除してまっさらな状態からやり直せるので、新しいツールの検証を簡単に行えます。

Cloudera Manager(CM)

Cloudera社が提供している、hadoop、hive等を簡単にインストールするためのパッケージです。hadoopをインストールするにはCMを使うのが一番簡単です。大半の会社はCMを使ってるんじゃないかな？と個人的には思います。

hadoopクラスタ

hadoopはHDFS(hadoop分散ファイルシステム)やMap/Reduceと協調して動作します。そのため、基本的に複数台で動作します。本記事ではその複数台のことをhadoopクラスタと呼びます。

EC2インスタンスの設定

EC2インスタンス作成前の設定

共通で使うKey Pairを作っておく
共通で使うSecurity Groupを作っておく
Security Groupの設定でTCPポートを全部許可しておく
Security Groupの設定でICMP Echo Requestを許可しておく

EC2インスタンス作成時の設定

OSはRedhat Enterprise Linux 64bitを選ぶ
インスタンスの種類はLargeインスタンスを選ぶ
各インスタンスには分かりやすい名前を付ける
ブートストレージ(EBS)のサイズを大きくしておく(最低100GBくらい)

EC2インスタンス起動後に行う設定

上記の設定でインスタンスを3台起動する
Elastic IPを台数分取得し、それぞれのインスタンスに割り当てる

台数は何台でも大丈夫ですが、多いと設定が面倒なのでとりあえず3台にしています。1台での起動はお試しでない限りやめた方がよいと思います。hadoopのキモは複数台での協調動作なので、1台で動かしても遅いだけであまり意味がないです。

インスタンスサイズはLarge以上を推奨します。Small以下になるとhadoop等のインストールがとても遅くなります。費用が気になるかもですが、ちょっと動かすだけならLargeインスタンス3台とEBSを合わせても数百～千円弱しかかかりません。

ストレージサイズ100GBは適当な数字です。たぶん50GBくらいまで減らしてもインストールだけならできます。ストレージサイズを大きくする設定はEC2インスタンスの起動時に行なって下さい。後から大きくすることもできますが、自分でマウントしたりする必要があるのでちょっと面倒になります。

ポートを全部開ける必要はないのですが、使うポートが多いので今回は全部開ける設定にしています。必要なポートだけ開けたい場合はこのページを参考にしてください。

Configuring Ports for Cloudera Manager

少しだけ用語解説

Key Pair

sshのログイン時に使う、秘密鍵と公開鍵のセットのことです。EC2インスタンス作成時にどのKey Pairを使うのか指定します。後の手順でCMで指定する秘密鍵は*.pem形式です。

Security Group

EC2インスタンスに設定するファイアーウォールのようなものです。仮にiptablesを止めていても、Security Groupで設定していないポートを使った通信は一切できません。

EBS(Amazon Elastic Block Store)

EC2から利用できるストレージです。後から割り当てると、「mkfs -t ext3 /dev/sdb1」、「mount /dev/sdb1 /mnt」みたいな面倒な手順が必要になります。

EC2インスタンス起動後の設定

下記の手順を起動したインスタンス「全て」で行なってください。

追加で割り当てたストレージの有効化(resize2fs /dev/xvde1 の実行)
SELinuxの無効化
インスタンスの再起動(SELinux無効の設定を反映するため)
ファイアーウォールの無効化(service iptables stop の実行)

追加で割り当てたストレージを有効化するには、以下のコマンドを実行してください。

# xvde1じゃない名前になってるかも？ 名前は /dev 以下を見れば分かります
$ resize2fs /dev/xvde1

# 割り当てたサイズの確認。
$ df -h

# この結果が表示されていれば成功です。
Filesystem            Size  Used Avail Use% Mounted on
/dev/xvde1             50G  1.7G   48G   4% /
none                  296M     0  296M   0% /dev/shm

SELinxの無効化は、/etc/selinux/config の該当行を、SELINUX=disabled と書き直してEC2インスタンスを再起動すれば完了です。

※セキュリティ的には危ない設定になっています。本番運用の際は、Security Group、SELinux、iptablesを適切に設定するようにしてください。

Cloudera Managerのインストール

wgetでcloudera-manager-installer.binをダウンロードする
ダウンロードしたファイルに実行権限を付ける
ダウンロードしたファイルを実行する

つまり、下記のコマンドを実行すればOKです。

$ wget http://archive.cloudera.com/cm4/installer/latest/cloudera-manager-installer.bin
$ chmod u+x cloudera-manager-installer.bin
$ ./cloudera-manager-installer.bin

Cloudera Managerのインストールは「1台のみ」で大丈夫です。

時刻を東京にしておく

この手順は必須ではないです。全EC2インスタンスで時刻が揃っていればよいです。もし日本の時刻にしておきたい場合はこの手順も実行してください

$ cp /usr/share/zoneinfo/Japan /etc/localtime

# このコマンドで、時刻が日本標準時になっているか確認できます
$ date

ブラウザから全インスタンスへhadoop、hiveをインストール

CMをインストールしたEC2インスタンスの7180番ポートへブラウザからアクセスしてください。後はブラウザ上から、全EC2インスタンスへhadoop、hive等のインストールを行えます。

# CMをインストールしたサーバーのElastic IPが 123.456.789.123 の場合
http://123.456.789.123:7180

途中、選択肢がたくさんでてきますが、それっぽいものを選んでいけば大丈夫です。OozieやHue等もインストールされますが、使う人には便利なものらしいので得に問題はないです。

CDH3かCDH4を選ぶところでは、CDH4を選んでください。CDH4の方がより新しいバージョンです。

各EC2インスタンスにhadoop等のインストールを行う時、いきなり失敗することがありますが、再試行をクリックすれば正常にインストールできます。おそらく、1台のサーバーへ各EC2インスタンスから同時にpingしてしまい、瞬間的に応答なしになってしまうのだと思います。

hiveを使うために必要なHDFSの初期設定

hiveを使うためには、hiveユーザーにHDFSの書き込み権限を与える必要があります。以下のコマンドを初回のみ実行すればOKです。

# /userのパーミッションを777に変更
sudo -u hdfs hadoop fs -chmod 777 /user

# 権限の確認。
hadoop fs -ls /

# この結果が表示されれば成功
Found 2 items
drwxrwxrwt   - hdfs hdfs                0 2012-10-06 16:16 /tmp
drwxrwxrwx   - hdfs supergroup          0 2012-10-07 00:20 /user

/userというHDFSディレクトリのパーミッションが777(rwxrwxrwx)になっていれば成功です。今後hiveでDBやテーブルを作ると、/user/hive/warehouse 以下にDB名、テーブル名と同名のファイルが作られていきます。