分散ファイルシステムHDFSとその簡単な使い方

分散ファイルシステムHDFSとその簡単な使い方

現代のエンタープライズ環境では、大量のデータを保存するには単一のマシンの容量では不十分なことが多く、マシン間のストレージが必要になります。クラスター全体に分散されたファイルを管理するファイル システムは、分散ファイル システムと呼ばれます。

ハードウェア

HDFS (Hadoop Distributed File System) は、Apache Hadoop プロジェクトのサブプロジェクトです。 Hadoop は、ストレージ システムとして HDFS を使用する大規模なデータ (TB や PB など) を保存するのに非常に適しています。 HDFS は複数のコンピュータを使用してファイルを保存し、統合されたアクセス インターフェイスを提供します。

HDFSはGoogleの論文「Google File System」に基づいて設計されています。

HDFS の 4 つの基本コンポーネント: HDFS クライアント、ネームノード、データノード、セカンダリ ネームノード。

クライアント

クライアントはクライアントです。 HDFS クライアント ファイルのセグメンテーション。ファイルを HDFS にアップロードする場合、クライアントはファイルをブロックに分割して保存します。クライアントは、HDFS の起動やシャットダウンなど、HDFS を管理およびアクセスするためのいくつかのコマンドを提供します。

ネームノード

NameNode はマスターであり、監督者であり、管理者です。 HDFS メタデータ (ファイル パス、ファイル サイズ、ファイル名、ファイル権限、ファイル ブロック スライス情報) を管理します。

NameNode はブロック レプリカ戦略を管理します。デフォルトでは 3 つのレプリカがあり、クライアントの読み取りおよび書き込み要求を処理します。

データノード

DataNode はスレーブです。 NameNode がコマンドを発行し、DataNode が実際の操作を実行します。

DataNode は実際のデータ ブロックを保存し、データ ブロックに対して読み取り/書き込み操作を実行します。ブロック情報を定期的にネームノードに報告します。

セカンダリネームノード

SecondaryNameNode は NameNode のバックアップではありません。 NameNode に障害が発生した場合、すぐに NameNode を交換してサービスを提供することができません。

NameNode を支援し、そのワークロードを共有します。緊急時には、NameNode の復元を支援できます。

コピーメカニズム

HDFS は、大規模なクラスター内のマシン間で非常に大きなファイルを確実に保存するように設計されています。各ファイルは、ブロックと呼ばれる一連のデータ ブロックとして保存されます。最後のものを除いて、すべてのデータ ブロックのサイズは同じです。

フォールト トレランスのため、ファイルのすべてのブロックにコピーが存在します。ブロック サイズとレプリケーション ファクターはファイルごとに設定できます。

hadoop2 では、ファイルのデフォルトのブロック サイズは「128M」(134217728 バイト) です。

上の図に示すように、300 MB のファイル a.txt が HDFS にアップロードされ、128 MB のブロックに分割する必要があります。 128M未満の部分は別のブロックに移動されます。

HDFS 基本コマンド

HDFSの簡単な使い方

デプロイされたサービスによると、HDFS ルート ディレクトリは hdfs://192.168.147.128:9820 です。次に、次のコマンドに示すように、ルート ディレクトリの下にサブディレクトリ ユーザーを作成します。

  1. [hadoop@node01 ~]$ hadoop fs -mkdir /ユーザー 

次に、Hadoop ページで HDFS を開きます。

この時点でユーザー フォルダーが表示されます。

次に、300M のファイルを HDFS のユーザー フォルダーにアップロードします。

すると、アップロードしたファイルが Hadoop ページに表示されます。

現時点では3つのブロックに分かれています。

ダウンロードするにはダウンロードをクリックしてください。

<<:  Amazon と Red Hat が AWS 上の Red Hat OpenShift コンテナ プラットフォームのマネージド サービスを発表

>>:  ハイブリッド マルチクラウドがクラウドへの正しい道である理由は何ですか?

推薦する

cloudcone: 超高防御サーバー、月額 125 ドル、E3-1270v6/32G メモリ/6T SAS または 1T SSD/100M 専用/5IP/ロサンゼルス

Cloudcone には、高構成かつ低価格の特別プロモーション中のサーバーがいくつかあります。デフォ...

ウェブサイト構築スキームの実用性と革新性についての簡単な議論

優れたウェブサイトを運営するウェブマスターは、自分のウェブサイト構築を評価する際に、多くの認識を持っ...

企業ウェブサイトの SEO 最適化の重要性に関する分析

私たち一人一人は、自分たちの生活が世界を揺るがすような変化を経験していると感じているようです。コンピ...

URLアドレスのSEO最適化操作の具体的な方法について話す

SEO 作業は細部にまでこだわります。細部までしっかり行ってこそ、検索エンジンの信頼を得ることができ...

ロシアの商人: Nic.ru、ドメイン名ビジネス + 仮想ホスティング + VPS など。

ロシアの企業 Nic.ru をご紹介します。正式に事業を開始した年はわかりませんが、ドメイン名は 1...

Webmaster Network レポート: OpenSSL の重大な脆弱性の詳細な説明: 史上最悪のブラウザ IE6 が消滅

1. OpenSSL の重大な脆弱性の詳細な説明: 誰が影響を受けるのか? どのように解決するのか?...

タオバオ店舗運営における厳しい需要について(第3部)

ユーザーエクスペリエンスは、Taobao ストア運営において厳格な要求事項なのでしょうか? マクロ的...

草の根ウェブマスターがユーザーを「長居」させる方法を共有する

ウェブマスターによってウェブサイト管理に対する考え方は異なります。ローカルフォーラムをベースに口コミ...

liteserver、15周年、すべてのオランダのVPSが15%オフ、月額5.1ユーロから、2Gメモリ/2コア/40g NVMe/15Tトラフィック

オランダの老舗「LiteServer BV」が創業15周年を迎えました。これを記念して、NVMe S...

cloudcone: 特別版格安 VPS、ロサンゼルス MC データセンター、特に中国聯通ユーザーに最適

cloudcone は多くの方にご存じかと思いますが、今年も新たな展開が期待できますので、どうぞご期...

ウェブサイトの最適化は 6 つのステップで完了: 新しいウェブサイトは 2 か月以内に Baidu のホームページに到達します

2か月の最適化を経て、東莞ウェブサイト構築の公式ウェブサイトでは、すでに複数のキーワードがBaidu...

Kubernetes の高可用性の探求: シングル マスター クラスターとマルチ マスター ノード クラスター ソリューション

1. シングルマスタークラスターk8s クラスターは、k8s を実行するノードのグループで構成されま...

SEOとウェブサイトのセキュリティの関係についての簡単な説明

誰もが SEO として知っているものは、コンテンツと外部リンクによる検索エンジン最適化です。以前は、...

racknerd: 15% オフ、AMD (Ryzen 5\7\9、EPYC、Threadripper) + DDR4 + NVMe、月額 135 ドルから、高負荷タスクに最適

Racknerdは、米国西部ユタ州で、ビデオスライシングサーバー(ビデオトランスコーディング)、高負...