ビッグデータに関する一般的な技術用語今後の競争はデータ獲得競争となるでしょう。ビッグデータは本質的に Hadoop のエコシステムです。以下に一般的な技術用語をいくつか示します。
Hadoop クラスタービッグデータはクラスターベースの分散システムです。クラスターは、ネットワークを介して相互に通信する独立したコンピュータ システムのグループで構成されるマルチプロセッサ システムであり、複数のコンピュータが並行して、またはバックアップとして連携して動作 (サービス) できるようにします。
Hadoop 入門Hadoop は、Apache によって Java で実装されたオープン ソース ソフトウェア フレームワークです。大規模なデータを保存および計算するためのソフトウェア プラットフォームです。 Hadoop は、Apache Lucene の創設者である Doug Cutting によって作成され、Nutch プロジェクトから生まれました。
現在、Hadoop ディストリビューションは、オープンソース コミュニティ エディションと商用エディションに分かれています。
オープンソース コミュニティ バージョン: 通常は 2.x バージョン シリーズを使用します。3.x バージョン シリーズ: このバージョンは最新バージョンですが、あまり安定していません。 無駄話はやめて、今日の話題を始めましょう。3つのCentos7システムを使用してHadoop2.Xの完全分散型クラスターを構築する 昨年、CentOS 7 を使用して Hadoop 3.X 分散クラスターを構築しました。パソコンを変更し、そのパソコンには他にもいろいろなものがインストールされていることを考慮して、今回は Centos 7 システム 2 台を使用して Hadoop 完全分散クラスターを構築しました。 Centos はバージョン 8 にアップデートされていますが、多くのビッグ データ スタディは Centos 7 システムに基づいて構築されています。ここでは疑似分散サーバーを構築しません。私たちが構築するバージョンは Hadoop-3.1.4 で、これは現在 Haddop3.X で安定しています。 昨年の関連記事チュートリアル:
クラスター構築前の準備Centos7 のダウンロード アドレス: http://mirrors.aliyun.com/centos/7.9.2009/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso。合計4.8g。 クラスターをセットアップする前に、VMwear Workstation 上に Centos7 システムを構築する必要があります。構築プロセスは簡単なのでここでは省略します。 物理マシンを介して仮想マシンに接続する場合は、VMnet1 と VMnet8 の 2 つの仮想ネットワーク カードが必要です。 私の以前の経験によれば、VMware が VMnet1 および VMnet8 なしでインストールされている場合、インターネットではレジストリを削除するために cclear ソフトウェア パッケージをインストールするように指示されています。しかし、それは VMware を継続的に削除してダウンロードすることを意味し、問題は解決されませんでした。最終的には、システムをフラッシュすることで解決しました。 したがって、仮想マシンを構築するための前提条件は、ローカル ホストに仮想ローカル環境があることです。そうでない場合、行うすべての作業が無駄になります。 ここに画像の説明を挿入 ここで、仮想マシンの IP アドレスをローカルで ping し、ローカル マシンと仮想マシン間の情報接続を確立できます。 この方法では、xshell を介して Centos7 にリモート接続できます。 Centos7 を初めて使用する場合、作成したユーザーに管理者権限を付与する必要があるため、root アカウントを使用して関連する変更を行い、node01 が sudoers ファイルから失われないようにする必要があります。この件は報告されます。エラーが報告されます。 使用: wq!保存して終了するには、 リモート接続が失敗した場合、開発ポートと IP アドレスは存在しません。 sudo vim /etc/ssh/sshd_configを設定する必要があります 静的IPを設定するifconfig 経由で静的 IP を設定する ネットワークカードを再起動する Alibaba Cloud yumソースを設定するダウンロード速度は最初は非常に遅いので、Alibaba Cloud yum ソースを設定する必要があります。以下は、ルート アカウントを使用した公式ドキュメントからの抜粋です。
JDKをインストールするhadoopフレームワークの起動はjava環境に依存するため、jdk環境を準備する必要があります。現在、OpenJDK と Oracle Java が 2 つの主要な Java 実装です。 Linux システムから元の jdkOpenJDK をアンインストールし、Oracle Java をインストールします。 具体的なブログ: https://blog.csdn.net/weixin_44510615/article/details/104425843 仮想マシンのクローンを作成するまた、静的アドレスを 192.168.147.129 に設定し、3 つの Centos7 ホスト名をそれぞれ node01 と node02 に設定して、Centos7 マシンを区別します。 以前、ユーザー名 node01 を作成しましたが、間違いに気づいたので、両方のホストのユーザー名を hadoop に設定しました。 Centos7 でユーザー名を変更する方法について: [root@node01 ~]# usermod -l hadoop -d /home/hadoop -m node01. それ以来、私たちは 2 台の Centos コンピューターを所有しており、Hadoop クラスターで root アカウントを使用していません。 xshell は正常に接続できます。 SSHパスワードフリーログインを設定する
node01 と node02 間で Hadoop アカウントを自由に切り替える方法については、私のブログを参照してください: https://blog.csdn.net/weixin_44510615/article/details/104528001? hadoop をダウンロード ダウンロードリンク: https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-3.1.4/hadoop-3.1.4.tar.gz
設定ファイルを変更するクラスター/分散モードを構成する場合は、hadoop/etc/hadoop ディレクトリ内の構成ファイルを変更する必要があります。ここでは、workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml など、通常の起動に必要な設定のみが設定されます。詳細な設定については、公式の説明を参照してください。 hadoop-env.shファイルを変更する
ファイルワーカーを変更するマスターノードのワーカーファイルにスレーブノードを指定します。つまり、node02です。
core-site.xmlファイルを変更するcore-site.xml ファイルを次の内容に変更してください。 hdfs-site.xmlファイルを変更するhdfs-site.xml ファイルを次の内容に変更してください。 Hadoop の分散ファイルシステム HDFS では、冗長ストレージが一般的に使用され、冗長係数は通常 3、つまり 1 つのデータのコピーが 3 つ保存されます。ただし、このチュートリアルではデータ ノードとしてスレーブ ノードが 1 つだけあります。つまり、クラスター内にデータ ノードが 1 つだけあり、保存できるデータのコピーは 1 つだけなので、dfs.replication の値は 1 に設定されたままです。 mapred-site.xmlファイルを変更するmapred-site.xml ファイルを次の内容に変更してください。
yarn-site.xmlファイルを変更するyarn-site.xml ファイルを次の内容に変更してください。 Hadoop環境変数の設定etc/profile に hadoop パスを追加します。 HDFSを初期化するHDFS を初期化し、namenode 初期化コマンドを実行します。
フォルダの作成に失敗する問題がある可能性があります。これは権限の問題です。ルート アカウントを使用して、コマンド sudo chmod -R a+w /absolute path を使用します。 HDFS の初期化に失敗した場合は、以前に作成したフォルダーを削除する必要があります。 クラスターを起動するstart-all.sh を直接実行して Hadoop を起動します。この時点で、node02 上の関連サービスも開始されます。 各サーバーで jps コマンドを使用して、サービス プロセスを表示します。 または、Web-UI インターフェイスに直接アクセスして表示します。ポートは 9870 です。この時点で利用可能なデータノードがあることがわかります。 次に、Yarn のステータスを確認します。ポート番号は 8088 です。 この時点で、Hadoop 分散クラスターが正常に構築されました。 |
<<: 業界初! Cloud Function 120G 超大容量メモリインスタンス
多くの CIO がコア アプリケーションをクラウドに移行していますが、SaaS ERP に関するよく...
【Kanchai.com 推薦】Baofeng Video は投資家の注目に値するか?注目すべき点は...
zji は現在、香港独立サーバーを 30% 割引で提供しています。この香港サーバーは 30 台限定で...
世界最大のドメイン名サービスプロバイダーGoDaddyが目論見書を提出新浪科技ニュース:北京時間6月...
ウェブサイトの成功がコンテンツの質に左右されるのであれば、良いタイトルが最後の仕上げとなります。一般...
クラウド コンピューティングは分散コンピューティングの一種です。膨大なデータ計算プログラムをネットワ...
Racknerd のユタ州データ センターでは、特別価格の独立サーバーを多数販売しています。現在、こ...
半月にわたって続いた検索エンジン戦争は今も続いており、百度と360検索の「地域対立」は止まっていない...
みなさんこんにちは。私はハン・イージョウです。今日は、ロングテールキーワードをウェブサイトに取り込む...
デジタル変革のプロセスが加速するということは、多くの金融機関がクラウドへの移行という問題に直面するこ...
PieLayerは2010年に設立され、数年が経ちました。個人的には小規模なVPS業者としては良いと...
実際、インディアンが誰に対しても罪を犯したことがないのと同じように、セカンドレベルドメイン名は誰に対...
ウェブマスターは、ウェブサイトの重量とトラフィックにさらに注意を払います。多くの SEO 担当者は、...
w3space は 2009 年に設立された小規模な VPS プロバイダーです。主に openvz ...
LoRaはLPWAN通信技術の1つです。米国のSemtech社が採用・推進するスペクトル拡散技術をベ...