HDFS、Ceph、GFS、GPFS、Swift、Lustre... コンテナ クラウドに適した分散ストレージはどれでしょうか?

HDFS、Ceph、GFS、GPFS、Swift、Lustre... コンテナ クラウドに適した分散ストレージはどれでしょうか?

[[315604]]

コンテナ クラウドで分散ストレージを使用する場合、HDFS、CEPH、GFS、GPFS、Swift などのどれが適していますか?

同社はコンテナ クラウド テクノロジーを選択しており、対応する分散ストレージをどのように組み合わせるかを知りたいと考えています。 HDFS、CEPH、GFS、GPFS、Swift などのどの分散ストレージが優れているかを知りたいのです。主なシナリオは、コンテナにアプリケーション ログ、構成ファイル、非構造化データ ファイルを保存することです。

この質問は、保険ソフトウェア アーキテクチャ デザイナーの @yin986 さんから寄せられたものです。以下のコンテンツは、twt コミュニティの多くの仲間による実践的な経験の共有から生まれたものです。

@Steven99 ソフトウェア アーキテクト:

ログ ファイルは時間の経過とともに非常に大きくなるため、ES の使用や HDF へのバックアップなど、保存と処理のための統合ログ センターを検討することをお勧めします。

通常、構成ファイルの量は問題にならないため、追加のストレージを必要とせずに、構成センターで集中的に管理することを検討できます。

非構造化データは通常、従来の NAS または分散オブジェクト ストレージを使用して保存できる多数のファイルです。もちろん、十分な資金があれば、優れたストレージを購入することもできます。ストレージのパフォーマンスは非常に重要であり、ビジネスの重要度に応じて異なるストレージを選択する必要があります。

@Garyy 保険システムエンジニア:

コンテナ ストレージの永続性は、ステートフル データを使用するコンテナの使用シナリオにとって非常に重要です。したがって、テクノロジーを選択する際には、具体的なストレージ要件を明確にする必要があります。ストレージは、データの種類に応じて、ブロック ストレージ、オブジェクト ストレージ、ファイル ストレージに分けられます。従来の環境では、ブロック ストレージとファイル ストレージが依然として最も一般的に使用されています。 ITの高度化に伴い、オブジェクトストレージ(非構造化データ)の需要が高まっています。オブジェクト ストレージには、一部のキー値データを保存する場合に当然の利点があります。さらに、分散型、レプリカ/消去コーディング、および従来のストレージに匹敵するその他の機能により、ウォーム データ/コールド データ ストレージの唯一の選択肢となります。

HDFS/CEPH/GFS/GPFS/Swift などの分散ストレージはファイル ストレージに分かれており、CEPH は統合ストレージ、つまり統合ブロック/オブジェクト/ファイル ストレージです。 Swift はオブジェクト ストレージであり、現在は OpenStack のサブプロジェクトとなっています。

1) HDFS

Hadoop 分散ファイル システム (HDFS) は、市販のハードウェア上で実行するのに適した分散ファイル システムとして設計されています。既存の分散ファイルシステムと多くの共通点があります。しかし同時に、他の分散ファイルシステムとの違いも非常に明白です。 HDFS は、安価なマシンへの導入に適した、耐障害性が非常に高いシステムです。 HDFS は高スループットのデータ アクセスを提供でき、大規模なデータ セット上のアプリケーションに非常に適しています。 HDFS は、ファイル システム データをストリーミングするという目的を達成するために、いくつかの POSIX 制約を緩和します。

HDFS は耐障害性が高く、低コストのハードウェアに導入できるように設計されています。また、アプリケーション データにアクセスするための高いスループットを提供するため、大規模なデータ セットを持つアプリケーションに適しています。 HDFS は POSIX 要件を緩和し、ファイル システム内のデータへのストリーミング アクセスを実現します。

2) 地球環境

GFS は、大量のデータにアクセスする大規模な分散アプリケーション向けのスケーラブルな分散ファイル システムです。安価な汎用ハードウェア上で実行され、フォールト トレランスを提供します。多数のユーザーに対して、総合的にパフォーマンスの高いサービスを提供できます。

3)GPFS

GPFS (General Parallel File System、GPFS) は、IBM SP システムで使用される仮想共有ディスク テクノロジ (VSD) から生まれた IBM 初の共有ファイル システムです。このテクノロジーの中核となる GPFS は、リソース グループ内のすべてのノードがファイル システム全体に並列にアクセスできるようにする並列ディスク ファイル システムです。このファイル システムに対するサービス操作は、このファイル システムを同時に使用する複数のノード上で安全に実装できます。 GPFS を使用すると、クライアントは異なるノード上の異なるハードディスクに分散されているファイルを共有できます。多くの標準的な UNIX ファイル システム インターフェイスが提供されており、変更や再コンパイルなしでアプリケーションを実行できます。

4) セファロス

Ceph は、信頼性が高く、自動的に再バランス調整され、自動的に回復される分散ストレージ システムです。シナリオ区分に応じて、Ceph はオブジェクト ストレージ、ブロック デバイス ストレージ、ファイル システム サービスという 3 つの主要部分に分けられます。仮想化の分野では、Ceph のブロック デバイス ストレージがより一般的に使用されています。たとえば、OpenStack プロジェクトでは、Ceph のブロック デバイス ストレージを OpenStack の cinder バックエンド ストレージ、Glance のイメージ ストレージ、仮想マシン データ ストレージに接続できます。より直感的に言えば、Ceph クラスターは、仮想マシン インスタンスのハード ディスクとして生のブロック ストレージを提供できます。

Ceph が他のストレージ システムよりも優れている点は、単なるストレージではなく、ストレージ ノードの計算能力を最大限に活用できることです。各データを保存するときに、データが格納されている場所を計算し、データを均等に分散しようとします。同時に、Ceph は優れた設計により、CRUSH アルゴリズム、HASH リングなどの方法を採用しているため、従来の単一障害点の問題がなく、規模が拡大してもパフォーマンスに影響はありません。

5) スウィフト

Swift は、もともと Rackspace によって開発された、可用性の高い分散オブジェクト ストレージ サービスです。これは、2010 年に OpenStack オープンソース コミュニティに初期のコア サブプロジェクトの 1 つとして提供され、Nova サブプロジェクトに仮想マシン イメージ ストレージ サービスを提供しました。 Swift は、比較的安価な標準ハードウェア ストレージ インフラストラクチャ上に構築されています。 RAID (ディスク冗長アレイ) は必要ありません。ソフトウェア レベルで一貫性のあるハッシュ テクノロジとデータ冗長性を導入し、ある程度のデータ一貫性を犠牲にして高い可用性とスケーラビリティを実現します。マルチテナント モード、コンテナーおよびオブジェクトの読み取りおよび書き込み操作をサポートし、インターネット アプリケーション シナリオにおける非構造化データ ストレージの問題を解決するのに適しています。

@fanyqing 銀行のシニアエンジニア:

1) Cephの特徴

Ceph はオブジェクト ストレージ、ブロック ストレージ、ファイル ストレージ サービスをサポートしているため、統合ストレージと呼ばれます。

CRUSH アルゴリズムが使用され、バランスのとれたデータ分散と高い並列性を実現し、固定されたメタデータ構造を維持する必要がありません。

データは強力な一貫性があり、確認を返す前にすべてのコピーが書き込まれることが保証されるため、読み取りが多く書き込みが少ないシナリオに適しています。

分散化: MDS は同じステータスを持ち、固定された中央ノードは存在しません。

Ceph にはいくつかの欠点があります。

分散型ソリューションには事前の計画と設計が必要であり、技術チームの能力に対する要件が比較的高くなります。

Ceph を拡張すると、バランスのとれたデータ分散特性により、ストレージ システム全体のパフォーマンスが低下します。

2) GFSの機能

大容量ファイルのシナリオ、特に GB レベルの大容量ファイルに適しており、データ アクセスの遅延の影響を受けない検索サービスに適しています。

集中型アーキテクチャでは、アクティブ状態にあるマスターは 1 つだけです。

キャッシュとプリフェッチ: クライアント側でメタデータをキャッシュすることにより、マスターとのやり取りが最小限に抑えられ、ファイルを事前に読み取ることで同時パフォーマンスが向上します。

高い信頼性。マスターが保持する必要があるデータは、操作ログとチェックポイントを通じて複数のコピーに保存されます。障害が発生すると、マスターは自動的に切り替わり、再起動します。

3) HDFSの特徴(GFSと比較)

ブロックは大きくなり、各ブロックはデフォルトで 128 MB になります。

同時実行はサポートされておらず、一度に許可されるライターまたはアペンダーは 1 つだけです。

プロセスの一貫性、書き込まれたデータの送信順序は最終的な書き込み順序と一致します。

マスター HA バージョン 2.X は 2 つの NameNode (それぞれアクティブ状態とスタンバイ状態) をサポートし、フェイルオーバー時間は通常数十秒から数分です。

HDFS は次のアプリケーション シナリオに適しています。

大容量ファイルやビッグデータの処理に適しており、最大 GB、TB、さらには PB レベルのデータを処理できます。

ストリーミング ファイル アクセス、一度書き込み、何度も読み取りに適しています。

ファイルが書き込まれると、それを変更することはできず、追加することしかできません。

HDFS は次のシナリオには適していません。

低遅延のデータアクセス。

小さなファイルストレージ。

同時書き込みとランダムファイル変更。

4) Swiftの機能

ネイティブ オブジェクト ストレージは、リアルタイムのファイルの読み取り、書き込み、編集機能をサポートしていません。

完全に対称的なアーキテクチャ、マスター ノードなし、単一障害点なし、スケールアウトが容易、パフォーマンスと容量が直線的に増加します。

データは最終的な一貫性を実現し、すべてのコピーを書き込む必要なく返すことができます。データを読み取るときに、データのコピーを検証する必要があります。

これは OpenStack のサブプロジェクトの 1 つであり、クラウド環境での展開に適しています。

Swift のオブジェクト ストレージと Ceph が提供するオブジェクト ストレージの違いは、クライアントがオブジェクト ストレージ システム サービスにアクセスする場合、Swift ではクライアントが Swift ゲートウェイにアクセスしてデータを取得する必要があることです。 Ceph は各ストレージノード上の OSD (オブジェクト ストレージ デバイス) からデータ情報を取得できます。データの一貫性という点では、Swift のデータは結果的に一貫性がありますが、Ceph はクラスタ間で常に強い一貫性があります。

5) 光沢の特徴

数万のクライアント システム、PB レベルのストレージ容量をサポートし、1 つのファイルで最大 320 TB の容量を保持できます。

RDMA ネットワーク、大容量ファイルの読み取りおよび書き込みのシャーディング最適化をサポートし、複数の OSS でより高い合計帯域幅を取得できます。

レプリケーション メカニズムはなく、単一障害点が存在します。クライアントまたはノードに障害が発生した場合、そのノードに保存されているデータは、再起動されるまでアクセスできなくなります。

高性能コンピューティング (HPC) 分野に適用可能で、大容量ファイルの連続的な読み取りと書き込みに適しています。

いくつかの主流の分散ストレージ技術の特性は次のように比較されます。

<<:  はじめる! Kafka を分かりやすく紹介しましょう。

>>:  UCloud は、全国の教育機関にオンライン教育ソリューションを提供するクラウド教育アライアンスを立ち上げました。

推薦する

リン・シウ:SEO の 20 のポイント

絶対にしてはいけない SEO の間違い 10 選1) フラッシュサイト(すべてフラッシュ) 2) フ...

infinitevps-1g メモリ KVM/30g ハードディスク/1T トラフィック/ラスベガス/月額 9.74 ドル

2 月に設立された infinitevps は、ラスベガスとカンザスに 2 つのデータセンターを持つ...

Linode ライブマイグレーションの説明

開発者がクラウド コンピューティング プラットフォームにワークロードを展開する場合、多くの場合、これ...

WeChatは大きなプレッシャーの下でマーケティング開発戦略を採用する必要がある

世の中には、他人が金儲けをしていることに嫉妬する人が常にたくさんいます。WeChatのような優れた製...

推奨: tmzvps - メモリ 2 倍、価格上昇なし、コア 8 個、1000M ポート / ロサンゼルス / ロンドン / フロリダ

tmzvps.com からプロモーション メールを送信しました。OpenVZ 仮想化に基づくすべての...

2019年1月から9月までの中国モバイルインターネット産業分析レポート

この記事では、Qingguajunが2019年1月から9月までの中国モバイルインターネット業界分析レ...

【DTCC 2018】クラウドのために生まれた! Huawei クラウドネイティブ分散データベースの解読

5月11日、第9回中国データベース技術会議(DTCC 2018)が北京国際会議センターで盛大に開催さ...

オンラインストアシステム構築におけるJAVAとPHPプログラミング言語の分析

中国では電子商取引の推進が成功し、JD.comやSuningなどの大型B2C総合オンラインショッピン...

SEO職場:他人がSEOを教えてくれることを期待しない

SEOに非常に興味を持っている人は多く、私が勤めている会社でも全く関係のない業界からSEOに参入して...

中小企業に適したプロモーションプランの選び方

私は2年以上ネットワークプロモーションに従事してきました。社内でのネットワークプロモーションと学習の...

教育、観光、ゲーム業界向けの広告のヒント!

6 月が電子商取引の広告主にとってカーニバルであるならば、夏休みの 7 月と 8 月は、教育・トレー...

SEOは全体的な要素を考慮し、総合的に改善して勝つ必要があります

3 年前、SEO 業界では「コンテンツは王様、外部リンクは女王」という格言が流行していました。今日で...

インドに海外進出するクラウド コンピューティング企業が知っておく必要があるポリシーは何ですか?

インドにおけるクラウドコンピューティングのブームクラウド コンピューティングにより、政府、企業、消費...

Hiformance: Alipay + WeChat 決済、CN2 へのアクセス、年間 10 ドルから利用できる VPS

格安VPSを専門に扱うHiformanceは昨日、公式メールマーケティングで最新ニュースを発表した。...