分散ファイルシステムHDFSとその簡単な使い方

分散ファイルシステムHDFSとその簡単な使い方

現代のエンタープライズ環境では、大量のデータを保存するには単一のマシンの容量では不十分なことが多く、マシン間のストレージが必要になります。クラスター全体に分散されたファイルを管理するファイル システムは、分散ファイル システムと呼ばれます。

ハードウェア

HDFS (Hadoop Distributed File System) は、Apache Hadoop プロジェクトのサブプロジェクトです。 Hadoop は、ストレージ システムとして HDFS を使用する大規模なデータ (TB や PB など) を保存するのに非常に適しています。 HDFS は複数のコンピュータを使用してファイルを保存し、統合されたアクセス インターフェイスを提供します。

HDFSはGoogleの論文「Google File System」に基づいて設計されています。

HDFS の 4 つの基本コンポーネント: HDFS クライアント、ネームノード、データノード、セカンダリ ネームノード。

クライアント

クライアントはクライアントです。 HDFS クライアント ファイルのセグメンテーション。ファイルを HDFS にアップロードする場合、クライアントはファイルをブロックに分割して保存します。クライアントは、HDFS の起動やシャットダウンなど、HDFS を管理およびアクセスするためのいくつかのコマンドを提供します。

ネームノード

NameNode はマスターであり、監督者であり、管理者です。 HDFS メタデータ (ファイル パス、ファイル サイズ、ファイル名、ファイル権限、ファイル ブロック スライス情報) を管理します。

NameNode はブロック レプリカ戦略を管理します。デフォルトでは 3 つのレプリカがあり、クライアントの読み取りおよび書き込み要求を処理します。

データノード

DataNode はスレーブです。 NameNode がコマンドを発行し、DataNode が実際の操作を実行します。

DataNode は実際のデータ ブロックを保存し、データ ブロックに対して読み取り/書き込み操作を実行します。ブロック情報を定期的にネームノードに報告します。

セカンダリネームノード

SecondaryNameNode は NameNode のバックアップではありません。 NameNode に障害が発生した場合、すぐに NameNode を交換してサービスを提供することができません。

NameNode を支援し、そのワークロードを共有します。緊急時には、NameNode の復元を支援できます。

コピーメカニズム

HDFS は、大規模なクラスター内のマシン間で非常に大きなファイルを確実に保存するように設計されています。各ファイルは、ブロックと呼ばれる一連のデータ ブロックとして保存されます。最後のものを除いて、すべてのデータ ブロックのサイズは同じです。

フォールト トレランスのため、ファイルのすべてのブロックにコピーが存在します。ブロック サイズとレプリケーション ファクターはファイルごとに設定できます。

hadoop2 では、ファイルのデフォルトのブロック サイズは「128M」(134217728 バイト) です。

上の図に示すように、300 MB のファイル a.txt が HDFS にアップロードされ、128 MB のブロックに分割する必要があります。 128M未満の部分は別のブロックに移動されます。

HDFS 基本コマンド

HDFSの簡単な使い方

デプロイされたサービスによると、HDFS ルート ディレクトリは hdfs://192.168.147.128:9820 です。次に、次のコマンドに示すように、ルート ディレクトリの下にサブディレクトリ ユーザーを作成します。

  1. [hadoop@node01 ~]$ hadoop fs -mkdir /ユーザー 

次に、Hadoop ページで HDFS を開きます。

この時点でユーザー フォルダーが表示されます。

次に、300M のファイルを HDFS のユーザー フォルダーにアップロードします。

すると、アップロードしたファイルが Hadoop ページに表示されます。

現時点では3つのブロックに分かれています。

ダウンロードするにはダウンロードをクリックしてください。

<<:  Amazon と Red Hat が AWS 上の Red Hat OpenShift コンテナ プラットフォームのマネージド サービスを発表

>>:  ハイブリッド マルチクラウドがクラウドへの正しい道である理由は何ですか?

推薦する

新しいウェブサイトは、微調整によって古いウェブサイトと競争しながら飛躍的な成長を達成するにはどうすればよいでしょうか?

変化のないウェブサイトが検索エンジンのサポートを得られるというわけではありません。検索エンジンは、常...

エッジクラウドはまだ手の届かないところにある

エッジクラウドはスマートシティで最も話題になっている技術の 1 つであるにもかかわらず、今年は大きな...

ユーザーの感想: これが私に必要なものだ

くさび形のニュートラルテール:製品アプリケーションプラットフォームと検索エンジン文化の概念の理解どの...

SEO のために URL を最適化する方法

(この記事は呉衛定氏の許可を得て転送したものです) SEO にとって URL が重要であることは多く...

Perfect Diary は完璧になれるでしょうか?

Perfect Diaryはソーシャル電子商取引と国民的ファッションのトレンドを活用し、資金の助けを...

ウェブマスターは頻繁に更新される Baidu アルゴリズムにどのように対処するのでしょうか?

最近の百度アルゴリズムのアップデートにより、多くのウェブマスターの友人が百度の非人道性について不満を...

gcore イスラエル VPS はどうですか?イスラエルのテルアビブにある VPS の簡単なレビュー

gcore vpsはどうですか? gcore のイスラエル コンピュータ ルームはどうですか? gc...

starrydns: 香港 VPS/KVM/$10/512 メモリ/20g ハードドライブ/500g トラフィック

香港のVPSのおすすめ:香港に登録されている会社、starrydns(Starlight Netwo...

2022年以降の世界のIT業界に関するトップ10の予測

[[433486]]調査会社IDCは最近、2022年以降の世界のIT業界の予測を発表しました。 CO...

完璧なSEOプランを提出する方法

私が勤務する病院では最近、SEO 運用責任者を募集しており、私はすでにネットワーク部門の責任者に昇進...

Qingyun:最大25%割引、cn2高防御VPS、香港ダイナミックVPSなど、トップアップして無料のお金を得る

LightVM は昨年の春節に特別プロモーションを実施しました: (1) 全製品が永久に 25% オ...

大手企業のナビゲーション Web サイトは変化しており、私たち草の根の Web サイトも適切な変更を行うべき時が来ています。

使ったことがある友人は皆、ナビゲーションサイトという概念を知っていると思います。実は、厳密に言えば、...

将来の検索製品の焦点は何になるでしょうか

最近、社内ではみんなで年末の総括やレビューをしています。みんなの書き込みを読んでみると、昨年の最適化...

分散ログストレージシステム - LogDevice

序文分散システムに取り組んだことがある人なら誰でも、大規模クラスターで高同時実行トランザクションを処...

SEO最適化はアルゴリズムの更新に盲目的に従うべきではない

SEO 最適化を行う際にウェブマスターが最も期待するのは、ウェブサイトのランキングが向上するように検...