建築家必読シリーズ: 分散ファイルシステム HDFS の解釈

Hadoop エコシステムでは、Hadoop 分散ファイルシステム (HDFS) が非常に重要なリンクです。ビッグデータリソースプールを管理し、関連するビッグデータ分析アプリケーションをサポートするための信頼性の高いツールを提供します。分散ストレージの分野でも HDFS は重要な役割を果たしており、システムアーキテクトが理解しなければならない分散ファイルシステムの 1 つです。

HDFSの仕組み

HDFS は、コンピューティングノード間の高速データ転送をサポートします。初期の段階では、大規模なデータセットの並列計算用のプログラミングフレームワークである MapReduce と密接に連携していました。

HDFS はデータを受信すると、情報を個々のブロックに分割し、クラスター内の異なるノードに分散して、効率的な並列処理を可能にします。

さらに、HDFS は高度な耐障害性を備えるように特別に設計されています。 HDFS は、各データセグメントを複数回複製し、そのレプリカを各ノードに配布して、少なくとも 1 つのレプリカを他のサーバーラックに配置できます。したがって、クラッシュしたノードのデータはクラスター内の他の場所でも見つかる可能性があります。これにより、データの復元中でも処理を続行できるようになります。

HDFS はマスター/スレーブアーキテクチャを使用します。元のバージョンでは、各 Hadoop クラスターは NameNode (ファイルシステム操作を管理する) とサポートする DataNode (個々のコンピューティングノード上のデータストレージを管理する) で構成されていました。これらの HDFS 要素を組み合わせることで、大規模なデータセットを持つアプリケーションがサポートされます。

このマスターノードの「データブロック」アーキテクチャは、Google ファイルシステム (GFS) と IBM の General Parallel File System (GPFS) からいくつかの設計ガイドラインを採用しています。 GFS は、大量のデータにアクセスする大規模な分散アプリケーション向けのスケーラブルな分散ファイルシステムです。安価な汎用ハードウェア上で動作し、フォールトトレランスを提供し、多数のユーザーに全体的に高いパフォーマンスのサービスを提供できます。 GPFS は、クラスター環境向けに特別に設計された、高性能でスケーラブルな並列ファイルシステムです。クラスター内の複数のノード間で共有ファイルシステム内のファイルへの高速アクセス操作を実装し、安定した障害回復およびフォールトトレランスメカニズムを提供できます。さらに、HDFS は Portable Operating System Interface (POSIX) モデルと互換性がありませんが、いくつかの側面では POSIX 設計スタイルを反映しています。

HDFSアーキテクチャ図 - アプリケーションはクライアントを介してNameNodeおよびDataNodeと対話します

HDFS を使用する理由

HDFS は当初、Yahoo の広告サービスと検索エンジンのニーズを満たすために開発されました。他の Web 指向の企業と同様に、Yahoo は自社のアプリケーションにアクセスするユーザー数の増加に対処しなければならず、それらのユーザーが生成するデータはますます増えていました。その後、Facebook、eBay、Twitter などの企業も、同じニーズに対応するためにビッグデータ分析の基盤として HDFS を使い始めました。

しかし、HDFS はそれ以上の用途に役立ちます。前述の大規模 Web 検索は、データ集約型並列コンピューティングに分類できます。さらに、HDFS は、気象計算などの計算集約型の並列計算アプリケーションシナリオでもよく使用されます。また、3D モデリングやレンダリングなど、データ集約型と計算集約型の混合シナリオでも広く使用されています。 HDFS は、多くのオープンソースデータウェアハウス (データレイクと呼ばれることもあります) の中核でもあります。

HDFS は、一般的な安価なマシンで実行できるという重要な機能を備えているため、大規模な導入によく使用されます。また、Web 検索や関連アプリケーションを実行するシステムでは、数百 PB や数千ノードに拡張できる必要がある場合が多いため、システムは簡単に拡張できる必要がありますが、HDFS はまさにその点を備えています。さらに、この規模ではサーバー障害が頻繁に発生するため、HDFS が提供するフォールトトレランスは、この点で非常に価値があります。

HDFSシナリオには適用されません

まず、HDFS は、リアルタイムクエリなど、レイテンシ要件が高いシナリオには適していません。レイテンシの点では、HDFS に大きな利点はありません。第二に、HDFS は多数の小さなファイルの保存をサポートするのも困難です。 Hadoop システムでは、「小さなファイル」は通常、HDFS のブロックサイズ (デフォルトでは 64 MB) よりもはるかに小さいファイルとして定義されます。各ファイルは独自の MetaData メタデータを生成するため、Hadoop はこの情報を Namenode を通じて保存します。小さなファイルが多すぎると、NameNode のメモリを大量に占有しやすくなり、シーク時間が読み取り時間を超え、システムにパフォーマンスのボトルネックが発生します。

さらに、HDFS はマルチユーザー書き込みをサポートしておらず、ランダムなファイル変更を実行することはできません。ファイルの末尾に追加する方法、つまり追加によってファイルを追加する方法のみがサポートされています。 HDFS は、半構造化データと非構造化データの保存に適しています。データが厳密な構造特性を持つ場合、強制的に HDFS を使用することは不適切です。 ***、HDFS は TB および PB レベルのビッグデータ処理に適しており、ファイル数は通常 100 万を超えます。データ量が少ない場合は、HDFS を使用する必要はありません。

HDFS と Hadoop の歴史

ここで、いくつかの重要な時点について簡単に説明します。 2006 年に Apache Hadoop プロジェクトが正式に開始され、HDFS と MapReduce は独立して開発され始めました。このソフトウェアは、さまざまな業界のビッグデータ分析プロジェクトで広く使用され始めています。 2012 年に、HDFS と Hadoop バージョン 1.0 がリリースされました。

2013 年、Hadoop 2.0 にユニバーサル YARN リソースマネージャーが追加され、MapReduce と HDFS が効果的に分離されました。それ以来、Hadoop はさまざまなデータ処理フレームワークとファイルシステムをサポートしてきました。 MapReduce は Apache Spark に置き換えられることが多いですが、HDFS は依然として Hadoop の一般的なファイル形式です。

4 回のアルファリリースと 1 回のベータリリースを経て、Apache Hadoop 3.0.0 は、追加の NameNode、消失訂正符号機能、およびより高度なデータ圧縮のサポートを含む HDFS の機能強化を備え、2017 年 12 月に一般公開されました。同時に、LinkedIn のオープンソース Dr. Elephant や Dynamometer パフォーマンステストツールなどの HDFS ツールの進歩により、HDFS はさらなる開発実装をサポートできるようになりました。

<<: Kafka はどのようにして 1 秒間に 1,500 万件のメッセージを処理するのでしょうか?

>>: Windows 仮想マシンを一括でチェックおよび修復する方法