分散ファイルシステムHDFSとその簡単な使い方

分散ファイルシステムHDFSとその簡単な使い方

現代のエンタープライズ環境では、大量のデータを保存するには単一のマシンの容量では不十分なことが多く、マシン間のストレージが必要になります。クラスター全体に分散されたファイルを管理するファイル システムは、分散ファイル システムと呼ばれます。

ハードウェア

HDFS (Hadoop Distributed File System) は、Apache Hadoop プロジェクトのサブプロジェクトです。 Hadoop は、ストレージ システムとして HDFS を使用する大規模なデータ (TB や PB など) を保存するのに非常に適しています。 HDFS は複数のコンピュータを使用してファイルを保存し、統合されたアクセス インターフェイスを提供します。

HDFSはGoogleの論文「Google File System」に基づいて設計されています。

HDFS の 4 つの基本コンポーネント: HDFS クライアント、ネームノード、データノード、セカンダリ ネームノード。

クライアント

クライアントはクライアントです。 HDFS クライアント ファイルのセグメンテーション。ファイルを HDFS にアップロードする場合、クライアントはファイルをブロックに分割して保存します。クライアントは、HDFS の起動やシャットダウンなど、HDFS を管理およびアクセスするためのいくつかのコマンドを提供します。

ネームノード

NameNode はマスターであり、監督者であり、管理者です。 HDFS メタデータ (ファイル パス、ファイル サイズ、ファイル名、ファイル権限、ファイル ブロック スライス情報) を管理します。

NameNode はブロック レプリカ戦略を管理します。デフォルトでは 3 つのレプリカがあり、クライアントの読み取りおよび書き込み要求を処理します。

データノード

DataNode はスレーブです。 NameNode がコマンドを発行し、DataNode が実際の操作を実行します。

DataNode は実際のデータ ブロックを保存し、データ ブロックに対して読み取り/書き込み操作を実行します。ブロック情報を定期的にネームノードに報告します。

セカンダリネームノード

SecondaryNameNode は NameNode のバックアップではありません。 NameNode に障害が発生した場合、すぐに NameNode を交換してサービスを提供することができません。

NameNode を支援し、そのワークロードを共有します。緊急時には、NameNode の復元を支援できます。

コピーメカニズム

HDFS は、大規模なクラスター内のマシン間で非常に大きなファイルを確実に保存するように設計されています。各ファイルは、ブロックと呼ばれる一連のデータ ブロックとして保存されます。最後のものを除いて、すべてのデータ ブロックのサイズは同じです。

フォールト トレランスのため、ファイルのすべてのブロックにコピーが存在します。ブロック サイズとレプリケーション ファクターはファイルごとに設定できます。

hadoop2 では、ファイルのデフォルトのブロック サイズは「128M」(134217728 バイト) です。

上の図に示すように、300 MB のファイル a.txt が HDFS にアップロードされ、128 MB のブロックに分割する必要があります。 128M未満の部分は別のブロックに移動されます。

HDFS 基本コマンド

HDFSの簡単な使い方

デプロイされたサービスによると、HDFS ルート ディレクトリは hdfs://192.168.147.128:9820 です。次に、次のコマンドに示すように、ルート ディレクトリの下にサブディレクトリ ユーザーを作成します。

  1. [hadoop@node01 ~]$ hadoop fs -mkdir /ユーザー 

次に、Hadoop ページで HDFS を開きます。

この時点でユーザー フォルダーが表示されます。

次に、300M のファイルを HDFS のユーザー フォルダーにアップロードします。

すると、アップロードしたファイルが Hadoop ページに表示されます。

現時点では3つのブロックに分かれています。

ダウンロードするにはダウンロードをクリックしてください。

<<:  Amazon と Red Hat が AWS 上の Red Hat OpenShift コンテナ プラットフォームのマネージド サービスを発表

>>:  ハイブリッド マルチクラウドがクラウドへの正しい道である理由は何ですか?

推薦する

企業のクラウド戦略が加速、「クラウド」から「クラウドの制御」へ移行するための 7 つの戦略

クラウド コンピューティングはデジタル変革の推奨モデルとなり、CIO はアプリケーションをパブリック...

ブランドKOLのマーケティングスキル!

現在、インフルエンサーマーケティングはますます人気の高いプロモーション手法になっています。ショートビ...

[Google SEO ニュース] Google は 1 対 1 のマッピング 301 リダイレクトのみを認識する

序文「外国人の長所から学び、自らを強化する」という理念に基づき、Google SEOの進歩を理解し、...

ソフトな物品の影響は悪化している

ソフト記事はもともと非常に優れたマーケティングおよびプロモーション手法でしたが、残念ながら、ソフト記...

クラウド コンピューティングがサプライ チェーン管理を推進する 5 つの理由

クラウド コンピューティング テクノロジーの進歩により、サプライ チェーン管理は大幅に改善されました...

ウェブサイトの最適化とユーザーエクスペリエンスに関する調査と分析

最適化に関して言えば、数年前までは「コンテンツが王様、外部リンクが王様」としか認識されていませんでし...

あなたは本当に JVM を理解していますか? JVM のメモリ領域とその機能は何ですか?

1.0 序文前回は、.class ファイルが jvm にロードされる方法について説明しました。しかし...

クラウド コンピューティングの近代化: 落とし穴、解決策、学んだ教訓

アプリケーションをクラウドに移行するプロセスは、移行先と同じくらい価値がある場合があり、試行錯誤の末...

raksmart: クリスマス + 元旦プロモーション、VPS/香港専用サーバー/米国 CN2 専用サーバー/ステーション クラスター サーバー

Raksmart データセンターでは、クリスマス + 元旦のプロモーションを実施しています: (1)...

システム ダウンロード ステーション: 無視された 100 万ドル規模のプロジェクト

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスモバイルインターネットは...

ゴン・ハイヤンの手放し:自分を救うために腕を切り落とし、プロのマネージャーに引き継がせる

ゴン・ハイヤン新浪テクノロジー 神雲芳創業者のGong Haiyan氏の辞任と分散化により、Jiay...

中古車販売員のウェブサイト構築体験

私は中古車会社で働くサラリーマンです。余暇には、純粋に個人的な趣味としてウェブサイトを構築するのが好...

離婚した夫婦が法の抜け穴を理由にタオバオストアを訴える、裁判所は訴訟の審理を困難に

離婚した夫婦が今日、淘宝網の人気オンラインストアの所有権を争うために裁判所に出廷した。北京市第二中級...

ガートナーのエッジコンピューティングの世界的競争状況:アリババクラウドとアマゾンが顧客に近いコンピューティングをリード

[[405672]]最近、権威あるコンサルティング会社ガートナーは、エッジコンピューティング分野にお...

raksmart: 月額399元から複数のハイエンド専用サーバー、大容量SSD、CN2ネットワーク、無制限のトラフィックを装備

米国西海岸サンノゼの企業であるRaksmartは、今月、自社データセンター内のマシンを一掃する予定で...