CDHとは何ですか?
CDHは、Apache Hadoopと関連プロジェクトのディストリビューションです。バッチ処理、対話型SQL、対話型検索、ロールベースのアクセス制御を提供する唯一のHadoopソリューションです。
Windows Azureでの仮想ネットワークの作成
Windows Azure 管理ポータルにログインし、左下の [New] をクリックします。
ナビゲーションペインで、[ネットワーク]、[仮想ネットワーク]、[カスタム作成]をクリックします。
Virtual Network Details] 画面で、仮想ネットワークの構成情報を入力し、[Next] 矢印をクリックします。ここで入力する設定情報には、仮想ネットワークの名前、ジオグループの地域、およびジオグループ名が含まれます。
ジオグループ化とは、Windows Azureサービスを物理的に同じデータセンターにまとめて、パフォーマンスを向上させるために使用される方法です。ジオグループは仮想ネットワークにのみ割り当てることができます。
DNSサーバーとVPN接続を設定します。このステップは省略可能で、仮想ネットワーク作成後に必要なときに設定します。
Enable port for Virtual machines
7180
8020, 50010, 50020, 50070, 50075
8021
8888
9083
41415
11000
21050
右下のチェックマークボタンをクリックすると、Windows Azureが送信された構成に基づいて仮想ネットワークを作成します。
Windows AzureイメージライブラリからのLinux仮想マシンの作成
Virtual Machine Configuration" ダイアログボックスの "REGION/AFFINITY GROUP/VIRTUAL NETWORK" オプションで、前のステップで作成した仮想ネットワークを選択することに注意してください。この例では、筆者が作成した仮想ネットワーク "hadoopclusternetwork" が選択されています。
つまり、VMのコンフィギュレーションで以下のEndpointsを設定します。
仮想マシン用ポートの有効化
, 50010, 50020, 50070, 50075
複数のVMが同じ仮想ネットワークを使用することに注意して、Hadoop対応クラスタを形成するために同じ方法で複数のVMを作成します。
CDHのインストール
個々のホストでの /etc/hosts の設定
ファイアウォールをオフにします。
root権限で以下のコマンドを実行し、ファイアウォールを一時的に無効にします。
service iptables stop
root権限で以下のコマンドを実行すると、ファイアウォールが完全に無効になりますが、有効にするには再起動が必要です。
chkconfig iptables off
SELinuxのシャットダウン
setenforce 0
永久に無効にしたい場合は、/etc/selinux/config を編集し、SELINUX=disabled と設定してください。
を設定し、インストールを完了します。
Cloudera-manager-installer.binのパーミッションの変更
$ chmod u+x cloudera-manager-installer.bin
$ ./cloudera-manager-installer.bin
次に、ライセンス契約に同意し、Enterを押してNextを押します。
インストール画面を以下に示します:
Cloudera Manager管理コンソールを起動します。