分散ファイルシステムHDFSとその簡単な使い方

分散ファイルシステムHDFSとその簡単な使い方

現代のエンタープライズ環境では、大量のデータを保存するには単一のマシンの容量では不十分なことが多く、マシン間のストレージが必要になります。クラスター全体に分散されたファイルを管理するファイル システムは、分散ファイル システムと呼ばれます。

ハードウェア

HDFS (Hadoop Distributed File System) は、Apache Hadoop プロジェクトのサブプロジェクトです。 Hadoop は、ストレージ システムとして HDFS を使用する大規模なデータ (TB や PB など) を保存するのに非常に適しています。 HDFS は複数のコンピュータを使用してファイルを保存し、統合されたアクセス インターフェイスを提供します。

HDFSはGoogleの論文「Google File System」に基づいて設計されています。

HDFS の 4 つの基本コンポーネント: HDFS クライアント、ネームノード、データノード、セカンダリ ネームノード。

クライアント

クライアントはクライアントです。 HDFS クライアント ファイルのセグメンテーション。ファイルを HDFS にアップロードする場合、クライアントはファイルをブロックに分割して保存します。クライアントは、HDFS の起動やシャットダウンなど、HDFS を管理およびアクセスするためのいくつかのコマンドを提供します。

ネームノード

NameNode はマスターであり、監督者であり、管理者です。 HDFS メタデータ (ファイル パス、ファイル サイズ、ファイル名、ファイル権限、ファイル ブロック スライス情報) を管理します。

NameNode はブロック レプリカ戦略を管理します。デフォルトでは 3 つのレプリカがあり、クライアントの読み取りおよび書き込み要求を処理します。

データノード

DataNode はスレーブです。 NameNode がコマンドを発行し、DataNode が実際の操作を実行します。

DataNode は実際のデータ ブロックを保存し、データ ブロックに対して読み取り/書き込み操作を実行します。ブロック情報を定期的にネームノードに報告します。

セカンダリネームノード

SecondaryNameNode は NameNode のバックアップではありません。 NameNode に障害が発生した場合、すぐに NameNode を交換してサービスを提供することができません。

NameNode を支援し、そのワークロードを共有します。緊急時には、NameNode の復元を支援できます。

コピーメカニズム

HDFS は、大規模なクラスター内のマシン間で非常に大きなファイルを確実に保存するように設計されています。各ファイルは、ブロックと呼ばれる一連のデータ ブロックとして保存されます。最後のものを除いて、すべてのデータ ブロックのサイズは同じです。

フォールト トレランスのため、ファイルのすべてのブロックにコピーが存在します。ブロック サイズとレプリケーション ファクターはファイルごとに設定できます。

hadoop2 では、ファイルのデフォルトのブロック サイズは「128M」(134217728 バイト) です。

上の図に示すように、300 MB のファイル a.txt が HDFS にアップロードされ、128 MB のブロックに分割する必要があります。 128M未満の部分は別のブロックに移動されます。

HDFS 基本コマンド

HDFSの簡単な使い方

デプロイされたサービスによると、HDFS ルート ディレクトリは hdfs://192.168.147.128:9820 です。次に、次のコマンドに示すように、ルート ディレクトリの下にサブディレクトリ ユーザーを作成します。

  1. [hadoop@node01 ~]$ hadoop fs -mkdir /ユーザー 

次に、Hadoop ページで HDFS を開きます。

この時点でユーザー フォルダーが表示されます。

次に、300M のファイルを HDFS のユーザー フォルダーにアップロードします。

すると、アップロードしたファイルが Hadoop ページに表示されます。

現時点では3つのブロックに分かれています。

ダウンロードするにはダウンロードをクリックしてください。

<<:  Amazon と Red Hat が AWS 上の Red Hat OpenShift コンテナ プラットフォームのマネージド サービスを発表

>>:  ハイブリッド マルチクラウドがクラウドへの正しい道である理由は何ですか?

推薦する

クラウドサービスは企業ネットワークトラフィックの85%を占める

クラウド セキュリティ企業 Netskope のレポートによると、現在、クラウド サービスが企業のネ...

Huawei GaussDBデータベースは、コア金融インテリジェント生産および取引ソリューションを作成するためのデュアル分散アーキテクチャを導入

2019年グローバルデータインフラストラクチャフォーラム金融サミットにおいて、ファーウェイはGaus...

コンテナ化への道: ビルド時間を盗んだのは誰ですか?

完全クラウド時代の到来により、多くの企業がコンテナ化の道を歩み始めており、Lao Liu 氏の会社も...

iniz-$24.15/年/kvm/256m メモリ/30g ハードディスク/500g トラフィック/ロサンゼルス/20g DDOS 保護

iniz がリリースした割引 VPS のご紹介: KVM には SSD キャッシュがあり、ロサンゼル...

インターネットプロモーションの経験:プロモーションには自己マーケティングと破壊活動が必要

プロモーションのコンセプトは、外側から始めて内側に働きかけることです。初期段階での短期間の運用で、一...

Fenfuは「Huabei」のWeChatバージョンではありません!

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス3月26日、ネット上の一...

パブリッククラウド: 「成熟」と「変革」の2018年

2018 年を振り返って、パブリック クラウドは私たちに何を残したのでしょうか?クラウド アプリケー...

5 つの主要業界における情報フロー配置ガイド: チャネル戦略、広告フォーマット、クリエイティブ ルーチンがすべて含まれています。

現在、モバイルプログラマティック広告は爆発的な成長を遂げており、さまざまな業界の広告主の予算は徐々に...

クラウドコンピューティング導入の課題 1: 優れた信頼性の高いネットワークの構築

ソフトウェア・アズ・ア・サービス、プラットフォーム・アズ・ア・サービス、インフラストラクチャ・アズ・...

HostHatch – 256M RAM VPS/XEN/SAN ストレージ

HostHatchは2011年に設立され、フロリダに登録された「クラウド」サービスプロバイダーです。...

1週間以内にBaiduをインデックスさせる方法

Baidu への登録は、経験豊富なウェブマスターにとっては簡単な作業だと思いますが、初心者のウェブマ...

iPhone 6について知っておくべき5つのこと

iPhone 6は約束通り中国本土には入らなかったが、最近、iPhone 6に関する議論や進展が国内...

virpus-VPS クラウド 35% オフ/Onapp/XEN/2IP

Virpus の onapp ベースの VPS は月額 7 ドルから始まり、今から 12 月 2 日...

360、アリババがテンセントを「攻撃」した物語:新旧の憎悪に遭遇

11月26日から27日にかけて、最高人民法院は、奇虎360が市場支配的地位を濫用したとしてテンセント...

APPプロモーションの効果を高めるトップ10のチャネルをご紹介します。

APPプロモーションを担当する学生の多くは、iOSでトラフィックを購入する方法について混乱すると思い...