分散ストレージの技術動向(I):3つのレプリカの欠点

分散ストレージの技術動向(I):3つのレプリカの欠点

分散ストレージの SDS コンセプトは優れており、水平拡張機能が優れており、ノードの自動追加と削除が利点ですが、従来の集中型ストレージ (ディスク アレイ) と比較すると、安定性とパフォーマンスにはまだ明らかな欠点があります。 Ceph や VSAN に代表されるソフトウェア定義ストレージ (SDS) は、市販の x86 サーバー、ソリッド ステート ドライブ、機械式ハード ドライブなどのハードウェア リソースをシン プロビジョニングされたリソース プールに統合し、ブロック ストレージ、ファイル ストレージ、オブジェクト ストレージ、Restful API などのさまざまなインターフェイスを通じてストレージ サービスを提供する、水平方向に拡張可能で、自動的にバランス調整され、自己修復する分散ストレージ システムです。

Ceph、VSAN、またはその進化版のいずれであっても、ネットワーク RAID を使用して 3 つのコピーまたは消去コードで表されるデータ保護を実現するという共通の技術的特徴があります。 3 つのコピーは、小さなデータ ブロックの読み取りおよび書き込みパフォーマンスに特定の要件があるアプリケーション シナリオで使用されますが、消去コードは、ビデオ データ、バックアップ、アーカイブなどの大きなファイルのシナリオに適しています。 3 つのコピーを例にとると、ビジネス データは固定サイズ (通常 4 MB) のデータ ブロックに分割されます。各データ ブロックは、異なるノード上の 3 つのコピーに保存されます (図 1 を参照)。分散メカニズムは、コンシステント ハッシュ アルゴリズム (Consistent Hashing) または CRUSH アルゴリズムに基づいており、データの各コピーを異なるノードと異なるディスクにランダムに分散して、自動データ バランスと水平拡張を実現します。ディスクまたはノードに障害が発生したり破損したりすると、システムは事前に設定されたルールに基づいてデータの新しいコピーを自動的に再作成します。これをデータ再構築と呼びます。


図1 分散ストレージレプリケーションのメカニズム

分散ストレージの SDS コンセプトは優れており、水平拡張機能が優れており、ノードの自動追加と削除が利点ですが、従来の集中型ストレージ (ディスク アレイ) と比較すると、安定性とパフォーマンスにはまだ明らかな欠点があります。

まず、パフォーマンスの面では、3 つのコピーの分散ストレージは、不均一な IO 分散とバレル効果の影響を受けやすく、大きな遅延と応答の低速化につながります。 Ceph を例にとると、複数の基本ストレージ ユニットである Placement Group (PG) が OSD にカプセル化され、各 OSD は機械的なハード ディスク HDD に直接対応します。主流の 7200 rpm HDD はロボット アームのアドレス指定によって制限されており、単一ディスクの読み取りおよび書き込みパフォーマンスはわずか 120 IOPS 程度です。データは OSD 上でランダムに分散されるため、単一のハードディスク上の IO 負荷は平均値に固定されず、通常は正規分布を示します。正規分布のテール効果により、少数の HDD の IO 負荷が平均値と単一ディスクのパフォーマンスしきい値を大幅に超過し、輻輳が発生します。さらに、データの整合性を確保するために、分散ストレージはデータの整合性チェック、つまりデータ スクラブ/ディープ スクラブ操作を定期的に実行する必要があります。これらの操作により追加の IO 負荷が発生し、ディスクの輻輳が悪化する可能性があります。バケツ効果の原理によれば、システムのパフォーマンスはクラスター内で最もパフォーマンスの低いディスクに依存します。したがって、個々のディスクが遅いと、システム全体のパフォーマンスが大幅に低下します。結果として、大きな遅延、OSD 疑似停止、不要なデータ再構築のトリガーが発生する可能性があります。

第二に、3 つのコピーの分散ストレージも安定性の問題に直面しています。ストレージ拡張、ハードディスクまたはノードの損傷、ネットワーク障害、OSD 疑似停止、ディープスクラブなどの複数の要因が組み合わさると、複数の OSD が同時に再構築され、再構築ストームが発生する可能性があります。データ再構築プロセス中、再構築タスクはシステムのメモリ、CPU、およびネットワーク リソースを消費するだけでなく、ストレージ システムに追加の IO ワークロードをもたらし、ユーザー ワークロード用のストレージ リソースを圧迫します。この場合、ユーザーは、システムの IO 遅延が大きく、応答が遅いことに気付くことが多く、少なくとも業務の中断を引き起こす可能性があります。深刻な場合には、システムが不安定な状態に陥り、OSD が繰り返しフリーズして再起動し、データの損失やシステムクラッシュにつながる可能性もあります。

さらに、3 つのコピーの分散ストレージでは、データ損失のリスクも発生します。 3 つのコピーにより、最大 2 台の HDD が同時に損傷するのを防ぐことができます。システムが拡張モードの場合、またはノードがメンテナンス モードの場合、HDD に障害が発生すると、システムは緊急状態になります。 2 台の HDD が同時に故障すると、データが失われる可能性があります。ある程度の規模のストレージ システムでは、特にシステムの稼働開始から 2 ~ 3 年経過すると、2 つのハードディスクの機械的な障害が同時に発生することは避けられません。ハードウェアが古くなると、二重または三重のディスク障害が発生する可能性が急激に増加します。さらに、システムで大規模な停電やストレージノードの予期せぬダウンタイムが発生すると、複数の機械式ハードディスクが同時に損傷し、3 コピー分散ストレージのデータセキュリティが危険にさらされる可能性があります。

3 つのコピーに潜む危険とリスクに対処する準備はできていますか?詳細については、「分散ストレージの技術動向(II):デュアルRAID」をご覧ください。

<<:  .NET で Kafka を使用する方法

>>:  Kingsoft Cloud City Brainが始動:市長と市民の視点からデジタル経済の発展を促進

推薦する

dedipath: 米国の VPS、年間 10 ドルから、帯域幅 1Gbps、トラフィック無制限、複数のデータセンターを利用可能

dedipath の VPS の最大の利点は、1Gbps の帯域幅、無制限のトラフィック、20Gbp...

QQオンラインショッピングがWeChatの厳選モールに密かに参入し、特別セールを実施

【Ebrun Power Networkニュース】最近、Ebrun Power Networkは、W...

STO と JD.com が「決裂」: スペアパーツ倉庫物流入札で JD.com を非難

1社は民間の宅配便大手、もう1社は物議を醸す電子商取引界の大物だ。外の世界では「不可分」とみなされて...

ブログコメントのメリットを最大限に活用する

何かをうまくやりたい、最短時間で終わらせたい、いわゆる高効率を求めるには、通常、何らかのコツや方法が...

ウェブサイトのインタラクションデザイン:情報デザインにおける「父と子の関係」

インタラクション デザイン作業の中核は、情報アーキテクチャとインタラクションの詳細設計にあります。情...

Redis 分散ロックの進化の解釈 + 欠陥分析

Redis 分散ロックの進化過去 2 年間で、マイクロサービスはますます普及し、分散環境に導入される...

私の国のエッジコンピューティング業界の動向:IoTとデータトラフィックが急速な市場拡大を促進

[[352588]]エッジ コンピューティングとは、ネットワーク、コンピューティング、ストレージ、ア...

アリババクラウドは、従来のITアーキテクチャの置き換えを加速するために「金融コアパイオニアアライアンス」の設立を開始しました。

6月9日、アリババクラウドサミット2020において、アリババクラウドは「金融コアパイオニアアライアン...

トレーニングウェブサイトの総合的な再設計は、ユーザーエクスペリエンスの向上を目的としています。

トレーニング ウェブサイトは教育ウェブサイトの重要な分野です。医療業界と同様に、Baidu もこれら...

ショッピングモールのウェブサイトの最適化から得られた3つの洞察

私は瑞品モールに1年以上在籍し、多くのことを学びました。SEOのスキルが向上しただけでなく、お茶の飲...

APPプロモーションノート:100日間の無料/有料チャンネルプロモーションの概要

実際にやってみるまで、APPを宣伝するさまざまな方法について聞いていました。お金をかけずにチャンネル...

[クラウドネイティブ] K8s ポッドの動的弾性拡張と収縮 HPA

1. 概要Horizo​​ntal Pod Autoscaler (HPA​) は、平均 CPU 使...

インターネットは部族主義に戻り、「コミュニティ+」は広告主がユーザーに直接支払うことを可能にする

モバイルアプリケーション業界のデータ調査機関であるTalkingDateの5月の統計報告によると、国...