Hadoop HDFS (ビッグデータ分散ファイルシステム) Hadoop 分散ファイル システム (HDFS) は、汎用ハードウェア上で高いデータ スループットで大規模なデータ セットにアクセスするのに適した分散ファイル システムです。 このシステムは Google ファイル システム (GFS) をエミュレートします。GFS では、コンピューティング用にデータをマージするという目的を達成するために、データが同じノード上に複製された形式で保存されます。 システムの主な設計目標には、フォールト トレランス、スケーラビリティ、効率性、信頼性が含まれます。 HDFS は MapReduce を使用します。MapReduce はデータを移行せず、処理タスクを物理ノードに移行することで (データを保存する) ネットワーク I/O を削減します。 HDFS は Apache Hadoop のサブプロジェクトであり、Hadoop をインストールします。 OpenStackのオブジェクトストレージSwift OpenStack Swift は、Amazon S3 に似たオブジェクト ストレージを提供します。主な機能は次のとおりです。
パブリッククラウドオブジェクトストレージ ほとんどのパブリック クラウドにはオブジェクト ストレージしかありません。たとえば、Google Cloud Storage は、高速でスケーラブル、かつ可用性の高いオブジェクト ストアです。さらに、クラウド ストレージは単一のモードを必要とせず、画像やビデオ ファイルなど大量のデータを保存できます。 Amazon の同様の製品は S3 です: http://aws.amazon.com/s3; Microsoft の類似製品 Azure Blob: http://azure.microsoft.com/en-us/documentation/articles/storage-dotnet-how-to-use-blobs/; Alibaba にも同様の OSS があります: https://www.aliyun.com/product/oss/; Facebook の画像保存用 Haystack Facebook Haystack には多くのメタデータがあり、NFS ファイル システムをイメージごとに 1 つのファイルに置き換えて、イメージのオブジェクト ストレージに適しています。 http://cse.unl.edu/~ylu/csce990/notes/HayStack_Facebook_ShakthiBachala.ppt; さらに、Facebook はロングテール サービスに重点を置いているため、従来のキャッシュや CDN (コンテンツ配信ネットワーク) はあまりうまく機能しません。一般的に、通常のウェブサイトでは CDN クリック率が 99% ですが、Facebook では CDN クリック率が約 80% しかありません。 f4: Facebook のウォーム BLOB ストレージ Haystack はもともと、Facebook の写真アプリケーションの主要なストレージ システムとして設計されました。 2016年までに、ほぼ8年が経過しました。 この間、BLOB を読み取るディスクの数を 1 に減らす、地理的な場所をまたぐレプリケーションによるフォールト トレランス (レプリケーション係数 3、つまりファイルのコピー数) など、さらに多くの最適化が行われ、正常に動作します。この間、Facebook は優れたサービスを提供してきただけでなく、進化もしてきました。 2014 年 2 月現在、Haystack には約 4,000 億枚の画像が保存されています。 https://www.usenix.org/system/files/conference/osdi14/osdi14-paper-muralidhar.pdf 現在、f4 は 65PB を超えるローカル BLOB を保存しており、有効なレプリケーション係数は 3.6 から 2.8 または 2.1 に削減されています。 f4 は低レイテンシを実現し、ディスク、ホスト、キャビネット、データセンターの障害に対して耐性があり、ウォーム BLOB に十分なスループットを提供します。 PS: f4 は「暖かい」写真のみを保存します OpenStack ブロックストレージ Cinder OpenStack (商用クラウドと同様) は、Linux がアクセスするファイル システムとして従来のブロック ストレージも提供できます。 Cinder は、ブロック ストレージ デバイスのプールを仮想化し、ストレージが実際にどこに展開されているか、どのようなタイプのストレージ デバイスであるかを知らなくても、これらのリソースを必要として消費するエンド ユーザーにセルフサービス API を提供します。 OpenStack Cinder は、Amazon EBS (Elastic Block Storage)、Microsoft Azure Files、Google Persistent Storage に似ています。 光沢 Lustre は、大規模なクラスター コンピューティングで一般的に使用される並列分散ファイル システムです。その名前は Linux と cluster の組み合わせから取られています。 Lustre ファイル システム ソフトウェアは GPL2 認証契約に準拠しており、さまざまなサイズのコンピュータ クラスターに高性能なファイル システムを提供します。 Lustre ファイル システムは、高いパフォーマンス機能とオープン認証を備えているため、スーパーコンピューターでよく使用されます。 Lustre ファイル システムはスケーラブルで、数百台のサーバー上の数万のクライアント ノード、PB レベルの容量を持つ複数のコンピュータ クラスター、および TB レベルを超える合計 I/O スループットをサポートできます。 このため、Lustre ファイル システムは、気象学、仮想化、石油およびガス、ライフ サイエンス、マルチメディア、金融などの業界を含む、大規模なデータ センターを持つ企業に人気があります。 Lustre はいくつかの企業を経て、最近の 3 つの所有者 (時系列順) は Oracle、Whamcloud、Intel です。 輝き http://www.gluster.org/http://en.wikipedia.org/wiki/Gluster GlusterFS は、Infiniband RDMA または TCP/IP プロトコルに従って、ブロック集中型ストレージを作成し、ディスクとメモリのリソースを集中管理し、単一のグローバル名前空間でデータを管理します。 パブリック クラウドの展開の場合、GlusterFS は AWS AMI (Amazon Machine Image) を提供します。これは物理サーバーではなく、Elastic Compute Cloud (EC2) インスタンスにデプロイされ、基盤となるストレージ スペースは Amazon の Elastic Block Storage (EBS) です。 このような環境では、EBS ストレージデバイスをさらに導入することで容量が拡張され、EC2 インスタンスをさらに導入することでパフォーマンスが向上し、AWS アベイラビリティゾーン間のマルチパーティレプリケーションによって可用性が向上します。 FUSE (ユーザー空間のファイルシステム) FUSE GPL/LGPL 認証は、カーネル コードを編集せずにユーザーが独自のファイル システムを構築できるようにする、Unix ライクなコンピューティング オペレーティング システム用のオペレーティング システム メカニズムです。これはユーザー空間でファイルシステムコードを実行することによって実現されますが、FUSE モジュールは実際のカーネルインターフェースへの「ブリッジ」のみを提供します。 FUSE はもともと GlusterFS で使用するためのロード可能なカーネル モジュールとして実装されており、仮想ファイル システムの作成に特に役立ちます。しかし、ディスクからデータを保存および取得できる従来のファイルシステムとは異なり、仮想ファイルシステムは実際にはデータ自体を保存することはできません。これらは、既存のファイル システムまたはストレージ デバイスのビューまたは変換として機能します。 セフ Cphe は Red Hat 製です。 Ceph は LGPL プロトコルに準拠したストレージ プラットフォームです。単一の分散ノード上でオブジェクト ストレージ、ブロック ストレージ、ファイル ストレージをサポートできます。 Ceph の主な設計目的は、EB レベルのスケーラビリティを備え、単一ノードの障害を回避できる分散ファイルシステムになることであり、オープンソースのフリーソフトウェアです。多くのハイパーコンバージド分散ファイルシステムは Ceph に基づいて開発されています。 Ceph はハイパーコンバージド商用分野におけるオープンソースソフトウェアの応用として、パフォーマンスなどの問題で批判されてきましたが、Ceph の最適化と開発に尽力し続けているメーカーも少なくありません。 IBM 汎用並列ファイル システム (GPFS) この独自の GPFS は、IBM によって開発された高性能なクラスター ファイル システムです。共有ディスクまたは共有なしの分散並列モードのいずれかで展開できます。 GPFS-SNC (SNC は Shared Nothing Cluster の略) は、2012 年 12 月に GPFS 3.5 の一部として正式にリリースされ、現在は GPFS-FPO (File Placement Optimization) として知られています。これにより、GPFS は、共有ディスクを備えた専用サーバー (SAN の使用など) を必要とせずに、ネットワーク サーバーのクラスター上でローカルに接続されたディスクを使用できるようになり、GPFS-FPO は HDFS 互換のファイル システムとして機能できます。 GPFS は、コンピューティング クラスター上で MPI-IO (Message Passing Interface) を呼び出すことによってアクセスされることが多いです。機能は次のとおりです: 分散メタデータ処理。ディレクトリ ツリーが含まれます。ファイル システムを管理する個別の「ディレクトリ コントローラ」や「インデックス サーバー」はありません。 非常に大きなディレクトリのディレクトリ エントリの効率的なインデックス作成。多くのファイル システムでは、1 つのディレクトリ内のファイルの数が少数に制限されています (通常は 65536 または同様の小さな 2 進数) が、GPFS にはそのような制限はありません。 分散ロック。この関数は、排他的アクセスのためのファイルのロックを含む、完全な Posix ファイル システムのセマンティクスを考慮します。 グローバル フェデレーテッド ファイル システム (GFFS) XSEDE ファイル システムは、バージニア大学の Genesis II プロジェクトの一部です。 GFFS は、データ所有者やアプリケーション開発者、ユーザーがデータの保存方法やアクセス方法を変更することなく、ファイル システムなどのリソースにフェデレーションされた安全で標準化されたスケーラブルで透過的な方法でアクセスし、リモートで操作するニーズから生まれました。 GFFS は、/data/bio/file1 などのグローバル パスベースの名前空間を使用して実装されます。 Windows ファイル システム、MacOS ファイル システム、AFS、Linux、Lustre ファイル システムなど、既存のファイル システム内のデータは、グローバル名前空間にエクスポートまたはリンクできます。 たとえば、ユーザーは自分の「C」ドライブ上のローカル ルート ディレクトリ構造 C:\work\collaboration-with-Bob をグローバル名前空間 /data/bio/project-Phil にエクスポートできます。すると、ユーザーの「C」ドライブ\work\collaboration-with-bob 内のファイルとディレクトリはアクセス制限され、ユーザーは GFFS 上でパス /data/bio/project-Bob を介してそれらにアクセスできるようになります。 ***最も一般的な GPFS と HDFS の違いについてお話ししましょう。 GPFS は、Hadoop の HDFS システムと興味深い比較対象です。HDFS は、同様の、またはより大きなデータ セットをコモディティ ハードウェア (つまり、RAID ディスクや SAN のないデータ センター) に保存するように設計されています。 HDFS はファイルをブロックに分割し、異なるファイル システム ノードに保存します。 HDFS はディスクの信頼性に大きく依存せず、ブロックのコピーを異なるノードに保存できます。単一のレプリカ ブロックを格納するノードの障害は、レプリカが他の有効なブロックのセット内で複製できるため、軽微な問題です。比較すると、GPFS は障害ノードの回復をサポートしますが、これは(一時的な)データ損失のリスクが高い可能性のある、より深刻なイベントです。 GPFS は完全な Posix ファイル システム セマンティクスをサポートします。 HDFS と GFS (Google ファイル システム) は完全な POSIX セマンティクスをサポートしていません。 GPFS は、ディレクトリ インデックスとその他のメタデータをファイル システム全体に分散します。対照的に、Hadoop は、すべてのインデックス情報を RAM に保存する必要がある大規模なサーバーであるプライマリおよびセカンダリ Namenode にインデックスを保持します。 GPFS はファイルを小さなブロックに分割します。 Hadoop HDFS では、Namenode のストレージ要件が軽減されるため、64 MB 以上のブロックが推奨されます。小さなブロックや多数の小さなファイルはファイル システム インデックスをすぐに満たし、ファイル システムのサイズを制限します。 分散ファイルシステムに関しては、多くのハイパーコンバージドベンダーを挙げる必要があります。その中には Ceph をベースにしたものもあれば、完全に独立して開発されたものもあります。 |
<<: 財務報告におけるクラウドコンピューティングの戦場:大手企業間の独占が激化
>>: また誇大宣伝か?フォグ コンピューティングはクラウド コンピューティングを補完するでしょうか?
AWS EC2 (正式名称は Amazon Elastic Compute Cloud) は、クラウ...
クラウド コンピューティングは、大量のデータを収集するだけでなく、それをリアルタイムの分析に使用する...
数年にわたり SEO に携わってきたベテランにとって、ランキングは最も難しいことではありません。最も...
今日、inxy.hosting は、信頼性が高く、安価、つまり高い費用対効果を目指して、さまざまなプ...
調査会社 451 Research は最近、クラウド コンピューティング変革の過程のモデルを発表し、...
VPS を購入してマシンのパフォーマンスをテストしたい場合、非常に重要なパラメータ DD に加えて、...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています今日に至る...
digital-vm は、デフォルトで 10Gbps の高帯域幅にアクセスできる VPS サービスを...
dedipath は、このサイトに 4 度目の登場で、ロサンゼルス データ センターの KVM ...
最近、「アクティブセキュリティと産業エコシステムの構築」をテーマにした2020 HCS合肥サイバーセ...
ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス1. インターネット業界...
2019 年に最も速い日本の VPS は何ですか?最も高速な日本の VPS/日本の高速 VPS はど...
Cloudive は、2G メモリと 15G SSD を搭載した 7 ドルの VPS を宣伝していま...
文/李翔昊予想外のビジネスベンチャー趣味を仕事にし、大きな発展性のある会社を創ることができるのは大き...
今日は、百度の関連キーワードについての私の個人的な推測についてお話しします。百度の宣伝広告やインター...