いよいよビッグデータで遊び始めます。以前はhaoopエコシステムについてあまり知りませんでしたが、今ではそれをデータセンターとして完全に使用する必要があります。これはhaoopに関する最初の記事です。今後はビッグデータ関連の記事をたくさん書くことになると思います。 Hadoop を構築するには 3 つの方法があります。スタンドアロン バージョンは開発とデバッグに適しています。疑似分散バージョンはクラスター学習のシミュレーションに適しています。完全に分散されたバージョンが本番環境で使用されます。このドキュメントでは、1 つのマスター ノードと 3 つのデータ ノードを例として、完全に分散された Hadoop クラスターを構築する方法について説明します。
基本環境 環境の準備 1. ソフトウェアバージョン
jdkとビルドは一致しているので、バージョン1.7を使用してください。
2. ホスト構成とホスト名(4台のマシン) 4つのサーバーのホストファイルを変更する
サーバーのホスト名を例に挙げます: HOSTNAME, master
変更は再起動後に有効になります。再起動が完了したら、他のスレーブ サーバーの名前を hadoop-slave1~3 に変更します。 3. サーバーにJDKをインストールする(サーバー4台) jdkをインストールするにはyumを使用することをお勧めしますが、自分でダウンロードしてインストールすることもできます。
環境変数を設定し、設定ファイルvim /etc/profileを変更します。
すぐに有効にするにはソースコマンドを使用してください
パスワード不要のログイン 1. まず、4台のサーバーのファイアウォールとSELINUXをオフにします ファイアウォールの状態を確認する
ファイアウォールをオフにする
SELINUXを無効にした後、サーバーを再起動する必要があります。
2. パスワードなしでマシンにログインする 以下では、ローカル hadoop-master のパスワードなしログインの構成を例に説明します。ユーザーは、ローカルの 3 つの子ノード マシン h-salve1 ~ 3 へのパスワードなしのログインを完了するには、以下の手順に従う必要があります。 1) 生産キー
2) 公開鍵を「authorized_keys」ファイルに追加します。
3) 権限を付与する
4) パスワードなしでマシンにアクセスできることを確認する
***、h-salve1~3のパスワードフリーアクセスを順番に設定します 2. ローカルマシン上の hadoop-slave1、hadoop-slave2、hadoop-slave3 にパスワードなしでログインします。例として、hadoop-master がパスワードなしで hadoop-slave1 にログインする場合を考えます。 1) hadoop-slave1 にログインし、hadoop-master サーバーの公開鍵「id_rsa.pub」を hadoop-slave1 サーバーの「root」ディレクトリにコピーします。
2) hadoop-masterの公開鍵(id_rsa.pub)をhadoop-slave1のauthorized_keysに追加します。
3) hadoop-masterでテストする
3. hadoop-slave1~hadoop-slave3を設定して、パスワードなしでhadoop-masterにログインできるようにします。 次の例では、hadoop-slave1 を使用して、パスワードなしで hadoop-master にログインします。ユーザーは、次の手順を参照して、hadoop-slave2~hadoop-slave3 を完了し、パスワードなしで hadoop-master にログインする必要があります。 1) hadoop-master にログインし、hadoop-slave1 サーバーの公開鍵「id_rsa.pub」を hadoop-master サーバーの「/root/」ディレクトリにコピーします。
2) hadoop-slave1 の公開鍵 (id_rsa.pub) を hadoop-master の authorized_keys に追加します。
3) hadoop-slave1でテストする
hadoop-slave2とhadoop-slave3を順番に設定する この時点で、マスターとスレーブのパスワードなしのログインが完了しました。 Hadoop環境構築 hadoop-masterのhadoop環境を設定する 1. インストールパッケージを解凍し、hadoop-masterに基本ディレクトリを作成します。
2. hadoop-masterのhadoop環境変数を設定する 1) 環境変数を設定し、設定ファイルvi /etc/profileを変更します。
現在のターミナルでhadoopコマンドをすぐに有効にする
以下のように設定してください。すべてのファイルは /usr/local/hadoop/etc/hadoop パスにあります。 2. core-site.xmlを構成する Hadoop コア構成ファイル /usr/local/hadoop/etc/hadoop/core-site.xml を変更し、fs.default.name を通じて NameNode の IP アドレスとポート番号を指定し、hadoop.tmp.dir を通じて Hadoop データ ストレージの一時フォルダーを指定します。
特記事項: hadoop.tmp.dir パラメータが設定されていない場合、システムのデフォルトの一時ディレクトリは /tmp/hadoo-hadoop になります。このディレクトリは再起動のたびに削除されるため、フォーマットを再実行する必要があります。そうしないとエラーが発生します。 3. hdfs-site.xml を設定します。 HDFS コア構成ファイル /usr/local/hadoop/etc/hadoop/hdfs-site.xml を変更し、dfs.replication で HDFS バックアップ係数を 3 に指定し、dfs.name.dir でネームノード ノードのファイル ストレージ ディレクトリを指定し、dfs.data.dir でデータノード ノードのファイル ストレージ ディレクトリを指定します。
4. mapred-site.xml を構成する mapred-site.xml.templateをmapred-site.xmlにコピーして修正する
5. yarn-site.xml を設定する
6. マスターファイルを構成する namenode ノードが配置されているサーバー マシンを指定する /usr/local/hadoop/etc/hadoop/masters ファイルを変更します。 localhost を削除し、namenode ノードのホスト名 hadoop-master を追加します。 IP アドレスは変更される可能性がありますが、ホスト名は通常変更されないため、IP アドレスの使用はお勧めしません。
7. スレーブファイルを構成する(マスターホスト固有) どのサーバーノードがデータノードノードであるかを指定する /usr/local/hadoop/etc/hadoop/slaves ファイルを変更します。 locahost を削除し、以下に示すようにすべてのデータノードのホスト名を追加します。
hadoop-slaveのhadoop環境を設定する 以下では、hadoop-slave1 上の hadoop の構成を例として説明します。他の hadoop-slave2 ~ 3 サーバーの構成を完了するには、次の手順を参照する必要があります。 1) hadoopをhadoop-slave1ノードにコピーする
hadoop-slave1サーバーにログインし、スレーブのコンテンツを削除します。
2) 環境変数を設定する
現在のターミナルで hadoop コマンドを直ちに有効にします。
他のスレーブサービスを順番に設定する クラスターを起動する 1. HDFSファイルシステムをフォーマットする マスターの~/hadoopディレクトリに入り、次の操作を実行します。
ネームノードのフォーマットは、サービスを初めて起動する前に実行される操作であり、後で実行する必要はありません。 2. 次に、hadoop を起動します。
3. jpsコマンドを使用して実行ステータスを表示します。
4. Hadoop クラスターのステータスを表示するコマンド 単純な jps コマンドを使用して、HDFS ファイル管理システムと MapReduce サービスが正常に起動されているかどうかを確認できますが、Hadoop クラスター全体の実行状態を確認することはできません。 hadoop dfsadmin -report を通じて表示できます。このコマンドを使用すると、障害が発生したノード、HDFS の容量と使用量、各ノードのハード ディスクの使用状況をすばやく見つけることができます。
出力:
5. Hadoopの再起動
間違い ビルドが完了して開始すると、次の 2 つのエラーが発生しました。 1. xxx: エラー: JAVA_HOMEが設定されておらず、見つかりません このエラーは、jdk 環境変数が見つからず、hadoop-env.sh で設定する必要があることを意味します。
2. ホスト「0.0.0.0 (0.0.0.0)」の信頼性を確立できません。 解決策: SELINUXを無効にする
|
<<: サーバーレスアーキテクチャ変革の実践: 遺伝子サンプルの比較
>>: ビッグデータにハイブリッドクラウドアプローチを採用する中小企業向けの3つのベストプラクティス
百度検索エンジンは前例のない圧力に直面している。今年6月までは、自分のウェブサイトのランキングが良く...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますインターネ...
今年のブラックフライデーとサイバーマンデーのプロモーションであるHosthatchは、特大ハードディ...
最近は、Web ページにさまざまな共有コードを埋め込むのが流行っているようです。使用するかどうかに関...
以前共有されたコンテンツは、ブランドキーワードの最適化、ナレッジ検索マーケティング、QQグループのプ...
クラウド災害復旧サービスのシナリオごとに、長所と短所があります。災害復旧 (DR) は技術的な決定で...
キーワードで良いランキングを得るために、私たちは毎日記事を更新し、ウェブサイトに外部リンクを投稿して...
クラウド時代では、ユーザーの要求はますますパーソナライズ化しています。ユーザーのニーズを満たすサービ...
ご存知のとおり、ソフト記事執筆はオンラインマーケティングの重要な手段と方法の1つです。SEO最適化で...
colorcrossing傘下のブランドであるhudsonvalleyhost.comは、特別なサー...
先ほど、Baidu Webmaster Platform で「ハイパーリンク不正のアルゴリズムアップ...
数日前、インターネットのブロガーグループで、グループリーダーが私をタグ付けしてこう言いました。「袁坤...
オンライン ショッピングをする人にとって、商品を探すのは最初の段階にすぎません。さまざまな店舗で価格...
SEO を研究し実践する人が増えています。SEO がウェブサイトに良いトラフィックをもたらすことは間...
少し前に、Aniu が北京の学者による「SEO の長年にわたる変化」という記事を共有し、私に深い感銘...