Hadoop分散クラスタを構築し、ビッグデータに取り組む方法を教えます

いよいよビッグデータで遊び始めます。以前はhaoopエコシステムについてあまり知りませんでしたが、今ではそれをデータセンターとして完全に使用する必要があります。これはhaoopに関する最初の記事です。今後はビッグデータ関連の記事をたくさん書くことになると思います。

Hadoop を構築するには 3 つの方法があります。スタンドアロンバージョンは開発とデバッグに適しています。疑似分散バージョンはクラスター学習のシミュレーションに適しています。完全に分散されたバージョンが本番環境で使用されます。このドキュメントでは、1 つのマスターノードと 3 つのデータノードを例として、完全に分散された Hadoop クラスターを構築する方法について説明します。

[[212522]]

基本環境

環境の準備

1. ソフトウェアバージョン

4 台のサーバーは、次のシステムで構成されています: centos6.5、メモリ: 1G、ハードディスク: 20G
4 つのサーバーに割り当てられた IP アドレス: 192.168.0.71/72/73/74
計画: 71 はマスターノードと hadoop-master として使用され、他の 3 つはデータノード 72、73、74 は hadoop-salve1~3 として使用されます。

jdkとビルドは一致しているので、バージョン1.7を使用してください。

Hadoop はバージョン 2.7.3 を使用します。ダウンロードアドレス: http://apache.claz.org/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

2. ホスト構成とホスト名（4台のマシン）

4つのサーバーのホストファイルを変更する

vim /etc/hosts  
 192.168.0.71 hadoopマスター 
 192.168.0.72 hadoop-スレーブ1  
 192.168.0.73 hadoop-スレーブ2  
 192.168.0.74 スレーブ3

サーバーのホスト名を例に挙げます: HOSTNAME, master

 vi /etc/sysconfig/ネットワーク 
ホスト名=hadoop-master

変更は再起動後に有効になります。再起動が完了したら、他のスレーブサーバーの名前を hadoop-slave1~3 に変更します。

3. サーバーにJDKをインストールする（サーバー4台）

jdkをインストールするにはyumを使用することをお勧めしますが、自分でダウンロードしてインストールすることもできます。

 yum -y インストール java-1.7.0-openjdk*

環境変数を設定し、設定ファイルvim /etc/profileを変更します。

 JAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64 をエクスポートします。  
 PATH=$JAVA_HOME/bin:$PATH をエクスポートします 
エクスポート CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

すぐに有効にするにはソースコマンドを使用してください

ソース /etc/profile

パスワード不要のログイン

1. まず、4台のサーバーのファイアウォールとSELINUXをオフにします

ファイアウォールの状態を確認する

サービス iptables ステータス

ファイアウォールをオフにする

サービスiptables停止 
 chkconfig iptablesオフ

SELINUXを無効にした後、サーバーを再起動する必要があります。

 -- SELINUXを無効にする   
 # vim /etc/selinux/config  
 -- コメントアウト   
 #SELINUX=強制 
 #SELINUXTYPE=対象 
 -  に追加   
 SELINUX=無効

2. パスワードなしでマシンにログインする

以下では、ローカル hadoop-master のパスワードなしログインの構成を例に説明します。ユーザーは、ローカルの 3 つの子ノードマシン h-salve1 ～ 3 へのパスワードなしのログインを完了するには、以下の手順に従う必要があります。

1) 生産キー

ssh-keygen -t rsa

2) 公開鍵を「authorized_keys」ファイルに追加します。

 cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

3) 権限を付与する

chmod 600 .ssh/承認済みキー

4) パスワードなしでマシンにアクセスできることを確認する

ssh hadoopマスター

***、h-salve1～3のパスワードフリーアクセスを順番に設定します

2. ローカルマシン上の hadoop-slave1、hadoop-slave2、hadoop-slave3 にパスワードなしでログインします。例として、hadoop-master がパスワードなしで hadoop-slave1 にログインする場合を考えます。

1) hadoop-slave1 にログインし、hadoop-master サーバーの公開鍵「id_rsa.pub」を hadoop-slave1 サーバーの「root」ディレクトリにコピーします。

 scp root@hadoop-master:/root/.ssh/id_rsa.pub /root/

2) hadoop-masterの公開鍵（id_rsa.pub）をhadoop-slave1のauthorized_keysに追加します。

 cat id_rsa.pub >> .ssh/authorized_keys  
 rm -rf id_rsa.pub

3) hadoop-masterでテストする

ssh hadoop-スレーブ1

3. hadoop-slave1～hadoop-slave3を設定して、パスワードなしでhadoop-masterにログインできるようにします。

次の例では、hadoop-slave1 を使用して、パスワードなしで hadoop-master にログインします。ユーザーは、次の手順を参照して、hadoop-slave2～hadoop-slave3 を完了し、パスワードなしで hadoop-master にログインする必要があります。

1) hadoop-master にログインし、hadoop-slave1 サーバーの公開鍵「id_rsa.pub」を hadoop-master サーバーの「/root/」ディレクトリにコピーします。

 scp root@hadoop-slave1:/root/.ssh/id_rsa.pub /root/

2) hadoop-slave1 の公開鍵 (id_rsa.pub) を hadoop-master の authorized_keys に追加します。

 cat id_rsa.pub >> .ssh/authorized_keys  
 rm -rf id_rsa.pub //id_rsa.pub を削除

3) hadoop-slave1でテストする

ssh hadoop マスター

hadoop-slave2とhadoop-slave3を順番に設定する

この時点で、マスターとスレーブのパスワードなしのログインが完了しました。

Hadoop環境構築

hadoop-masterのhadoop環境を設定する

1. インストールパッケージを解凍し、hadoop-masterに基本ディレクトリを作成します。

 ＃ダウンロード 
 http://apache.claz.org/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz を取得します。  
 #解凍 
 tar -xzvf hadoop-2.7.3.tar.gz -C /usr/ローカル   
 #名前の変更 
 mv hadoop-2.7.3 hadoop

2. hadoop-masterのhadoop環境変数を設定する

1) 環境変数を設定し、設定ファイルvi /etc/profileを変更します。

 HADOOP_HOME=/usr/ローカル/hadoopをエクスポートします。  
 PATH=$PATH:$HADOOP_HOME/bin をエクスポートします。

現在のターミナルでhadoopコマンドをすぐに有効にする

ソース /etc/profile

以下のように設定してください。すべてのファイルは /usr/local/hadoop/etc/hadoop パスにあります。

2. core-site.xmlを構成する

Hadoop コア構成ファイル /usr/local/hadoop/etc/hadoop/core-site.xml を変更し、fs.default.name を通じて NameNode の IP アドレスとポート番号を指定し、hadoop.tmp.dir を通じて Hadoop データストレージの一時フォルダーを指定します。

 <構成>  
    <プロパティ>  
        <名前>hadoop.tmp.dir</名前>  
        <値>ファイル:/usr/ローカル/hadoop/tmp</値>  
        <description>他の一時ディレクトリのベース。</description>  
    </プロパティ>  
    <プロパティ>  
        <名前>fs.defaultFS</名前>  
        <値>hdfs://hadoop-master:9000</値>  
    </プロパティ>  
 </構成>

特記事項: hadoop.tmp.dir パラメータが設定されていない場合、システムのデフォルトの一時ディレクトリは /tmp/hadoo-hadoop になります。このディレクトリは再起動のたびに削除されるため、フォーマットを再実行する必要があります。そうしないとエラーが発生します。

3. hdfs-site.xml を設定します。

HDFS コア構成ファイル /usr/local/hadoop/etc/hadoop/hdfs-site.xml を変更し、dfs.replication で HDFS バックアップ係数を 3 に指定し、dfs.name.dir でネームノードノードのファイルストレージディレクトリを指定し、dfs.data.dir でデータノードノードのファイルストレージディレクトリを指定します。

 <構成>  
    <プロパティ>  
        <名前>dfs.replication</名前>  
        <値>3</値>  
    </プロパティ>  
    <プロパティ>  
        <名前>dfs。名前.dir</名前>  
        <値>/usr/ローカル/hadoop/hdfs/名</値>  
    </プロパティ>  
    <プロパティ>  
        <名前>dfs.data.dir</名前>  
        <値>/usr/ローカル/hadoop/hdfs/data</値>  
    </プロパティ>  
 </構成>

4. mapred-site.xml を構成する

mapred-site.xml.templateをmapred-site.xmlにコピーして修正する

cp /usr/ローカル/hadoop/etc/hadoop/mapred-site.xml.template /usr/ローカル/hadoop/etc/hadoop/mapred-site.xml  
 vim /usr/ローカル/hadoop/etc/hadoop/mapred-site.xml  
 <構成>  
  <プロパティ>  
      <名前>mapreduce.framework。名前</名前>  
      <value>糸</value>  
  </プロパティ>  
   <プロパティ>  
      <名前>mapred.job.tracker</名前>  
      <値>http://hadoop-master:9001</値>  
  </プロパティ>  
 </構成>

5. yarn-site.xml を設定する

<構成>  
 <! -- サイト固有の YARN 構成プロパティ -->    
    <プロパティ>  
        <名前>yarn.nodemanager.aux-services</名前>  
        <値>mapreduce_shuffle</値>  
    </プロパティ>  
    <プロパティ>  
        <名前>yarn.resourcemanager.hostname</名前>  
        <値>hadoop マスター</値>  
    </プロパティ>  
 </構成>

6. マスターファイルを構成する

namenode ノードが配置されているサーバーマシンを指定する /usr/local/hadoop/etc/hadoop/masters ファイルを変更します。 localhost を削除し、namenode ノードのホスト名 hadoop-master を追加します。 IP アドレスは変更される可能性がありますが、ホスト名は通常変更されないため、IP アドレスの使用はお勧めしません。

 vi /usr/ローカル/hadoop/etc/hadoop/masters  
 ＃＃ コンテンツ 
 hadoopマスター

7. スレーブファイルを構成する（マスターホスト固有）

どのサーバーノードがデータノードノードであるかを指定する /usr/local/hadoop/etc/hadoop/slaves ファイルを変更します。 locahost を削除し、以下に示すようにすべてのデータノードのホスト名を追加します。

 vi /usr/ローカル/hadoop/etc/hadoop/slaves  
 ＃＃ コンテンツ 
 hadoop スレーブ1  
 hadoop スレーブ2  
 hadoop スレーブ3

hadoop-slaveのhadoop環境を設定する

以下では、hadoop-slave1 上の hadoop の構成を例として説明します。他の hadoop-slave2 ～ 3 サーバーの構成を完了するには、次の手順を参照する必要があります。

1) hadoopをhadoop-slave1ノードにコピーする

scp -r /usr/ローカル/hadoop hadoop-slave1:/usr/ローカル/

hadoop-slave1サーバーにログインし、スレーブのコンテンツを削除します。

 rm -rf /usr/ローカル/hadoop/etc/hadoop/slaves

2) 環境変数を設定する

vi /etc/プロファイル 
 ＃＃ コンテンツ 
 HADOOP_HOME=/usr/ローカル/hadoopをエクスポートします。  
 PATH=$PATH:$HADOOP_HOME/bin をエクスポートします。

現在のターミナルで hadoop コマンドを直ちに有効にします。

ソース /etc/profile

他のスレーブサービスを順番に設定する

クラスターを起動する

1. HDFSファイルシステムをフォーマットする

マスターの~/hadoopディレクトリに入り、次の操作を実行します。

 bin/hadoop ネームノード -format

ネームノードのフォーマットは、サービスを初めて起動する前に実行される操作であり、後で実行する必要はありません。

2. 次に、hadoop を起動します。

 sbin /スタート-all.sh

3. jpsコマンドを使用して実行ステータスを表示します。

 #master jpsを実行して実行ステータスを確認します 
 25928 セカンダリネームノード 
 25742 ネームノード 
 26387 日本語 
 26078 リソースマネージャー 
 #スレーブはjpsを実行して実行ステータスを確認します 
 24002 ノードマネージャー 
 23899 データノード 
 24179 日本

4. Hadoop クラスターのステータスを表示するコマンド

単純な jps コマンドを使用して、HDFS ファイル管理システムと MapReduce サービスが正常に起動されているかどうかを確認できますが、Hadoop クラスター全体の実行状態を確認することはできません。 hadoop dfsadmin -report を通じて表示できます。このコマンドを使用すると、障害が発生したノード、HDFS の容量と使用量、各ノードのハードディスクの使用状況をすばやく見つけることができます。

 hadoop dfsadmin -レポート

出力：

構成容量: 50108030976 (46.67 GB)  
現在の容量: 41877471232 (39.00 GB)  
 DFS 残り: 41877385216 (39.00 GB)  
使用された DFS: 86016 (84 KB)  
 DFS 使用率: 0.00%  
複製されたブロックの下: 0  
破損したレプリカを持つブロック: 0  
不足しているブロック: 0  
欠落ブロック（レプリケーション係数 1の場合）: 0 
  ......

5. Hadoopの再起動

sbin / stop-all.sh  
 sbin /スタート-all.sh

間違い

ビルドが完了して開始すると、次の 2 つのエラーが発生しました。

1. xxx: エラー: JAVA_HOMEが設定されておらず、見つかりません

このエラーは、jdk 環境変数が見つからず、hadoop-env.sh で設定する必要があることを意味します。

 vi /usr/ local /hadoop/etc/hadoop/hadoop-env.sh  
 ## 構成項目 
 JAVA_HOME=/usr/lib/jvm/jre-1.7.0-openjdk.x86_64 をエクスポートします。

2. ホスト「0.0.0.0 (0.0.0.0)」の信頼性を確立できません。

解決策: SELINUXを無効にする

-- SELINUXを無効にする   
 # vim /etc/selinux/config  
 -- コメントアウト   
 #SELINUX=強制 
 #SELINUXTYPE=対象 
 - に追加 
 SELINUX=無効

<<: サーバーレスアーキテクチャ変革の実践: 遺伝子サンプルの比較

>>: ビッグデータにハイブリッドクラウドアプローチを採用する中小企業向けの3つのベストプラクティス

2019年上半期における世界の主流広告プラットフォームの総合的なパフォーマンス分析

Hadoop分散クラスタを構築し、ビッグデータに取り組む方法を教えます

2019年上半期における世界の主流広告プラットフォームの総合的なパフォーマンス分析

Django1.6 カスタムマークダウンフィルター

並行輸入粉乳調査：オンラインショッピング業者は巨額の利益と安全リスクの間で微妙なバランスを保っている

新しいサイト最適化におけるコンテンツ品質の問題を解決する方法

分散シリーズの第 1 部: 分散一貫性!

locvpsはどうですか?香港荃湾MGデータセンター国際回線評価

Kubernetes v1.25.0 クラスタ構築の実践事例（新バージョンには Docker コンテナランタイムが含まれています）

SEO 3.0 向けユーザーエクスペリエンスアルゴリズム

どのようなウェブサイトのバックリンクが検索エンジンに適していますか?

東中国でまた勝利！テンセントクラウド産業クラウド基地が江蘇省儀徴市に上陸

推薦する

EコマースウェブサイトのSEOに関する8つのヒント

2019 年のサーバーレステクノロジーに関する 5 つの予測

新しいサイトのインデックス作成が遅い問題を解決する4つの重要な解決策

最適なデスクトップサービスソリューションを選択する方法

ginernet-スペイン/25ユーロ/2コア/2GBメモリ/15GB SSD/300GBデータ/Gポート

個人SEOの依頼を受ける際は、誇張せず現実的に

gcoreはどうですか？ gcore 韓国 VPS 簡単評価、データ共有

HarmonyOS サンプル DistributedMusicPlayer 分散音楽プレーヤー

「第2回中国優秀クラウドコンピューティングオープンソース事例選定」が正式に開始されました

中小企業のための新しいメディアマーケティングを考える

netdedi: 韓国の VPS サーバー、ネイティブ IP、韓国の SK および KT データセンター、PayPal、Alipay

2021 年に主流になるクラウドコンピューティングテクノロジーはどれでしょうか?

サイト全体の単語頻度: 検索エンジンのアルゴリズムと最適化操作について

ウェブサイト最適化におけるキーワードデータベースの役割

データセンターコンテナネットワーク技術