分散ストレージの技術開発動向 1. 3部コピーのデメリットCeph や VSAN に代表されるソフトウェア定義ストレージ (SDS) は、市販の x86 サーバー、ソリッド ステート ドライブ、機械式ハード ドライブなどのハードウェア リソースをシン プロビジョニングされたリソース プールに統合し、ブロック ストレージ、ファイル ストレージ、オブジェクト ストレージ、Restful API などのさまざまなインターフェイスを通じてストレージ サービスを提供する、水平方向に拡張可能で、自動的にバランス調整され、自己修復する分散ストレージ システムです。 Ceph、VSAN、またはその進化版のいずれであっても、ネットワーク RAID を使用して 3 つのコピーまたは消去コードで表されるデータ保護を実現するという共通の技術的特徴があります。 3 つのコピーは、小さなデータ ブロックの読み取りおよび書き込みパフォーマンスに特定の要件があるアプリケーション シナリオで使用されますが、消去コードは、ビデオ データ、バックアップ、アーカイブなどの大きなファイルのシナリオに適しています。 3 つのコピーを例にとると、ビジネス データは固定サイズ (通常 4 MB) のデータ ブロックに分割されます。各データ ブロックは、異なるノード上の 3 つのコピーに保存されます (図 1 を参照)。分散メカニズムは、コンシステント ハッシュ アルゴリズム (Consistent Hashing) または CRUSH アルゴリズムに基づいており、データの各コピーを異なるノードと異なるディスクにランダムに分散して、自動データ バランスと水平拡張を実現します。ディスクまたはノードに障害が発生したり破損したりすると、システムは事前に設定されたルールに基づいてデータの新しいコピーを自動的に再作成します。これをデータ再構築と呼びます。 図1 分散ストレージレプリケーションのメカニズム 分散ストレージの SDS コンセプトは優れており、水平拡張機能が優れており、ノードの自動追加と削除が利点ですが、従来の集中型ストレージ (ディスク アレイ) と比較すると、安定性とパフォーマンスにはまだ明らかな欠点があります。 まず、パフォーマンスの面では、3 つのコピーの分散ストレージは、不均一な IO 分散とバレル効果の影響を受けやすく、大きな遅延と応答の低速化につながります。 Ceph を例にとると、複数の基本ストレージ ユニットである Placement Group (PG) が OSD にカプセル化され、各 OSD は機械的なハード ディスク HDD に直接対応します。主流の 7200 rpm HDD はロボット アームのアドレス指定によって制限されており、単一ディスクの読み取りおよび書き込みパフォーマンスはわずか 120 IOPS 程度です。データは OSD 上でランダムに分散されるため、単一のハードディスク上の IO 負荷は平均値に固定されず、通常は正規分布を示します。正規分布のテール効果により、少数の HDD の IO 負荷が平均値と単一ディスクのパフォーマンスしきい値を大幅に超過し、輻輳が発生します。さらに、データの整合性を確保するために、分散ストレージはデータの整合性チェック、つまりデータ スクラブ/ディープ スクラブ操作を定期的に実行する必要があります。これらの操作により追加の IO 負荷が発生し、ディスクの輻輳が悪化する可能性があります。バケツ効果の原理によれば、システムのパフォーマンスはクラスター内で最もパフォーマンスの低いディスクに依存します。したがって、個々のディスクが遅いと、システム全体のパフォーマンスが大幅に低下します。結果として、大きな遅延、OSD 疑似停止、不要なデータ再構築のトリガーが発生する可能性があります。 第二に、3 つのコピーの分散ストレージも安定性の問題に直面しています。ストレージ拡張、ハードディスクまたはノードの損傷、ネットワーク障害、OSD 疑似停止、ディープスクラブなどの複数の要因が組み合わさると、複数の OSD が同時に再構築され、再構築ストームが発生する可能性があります。データ再構築プロセス中、再構築タスクはシステムのメモリ、CPU、およびネットワーク リソースを消費するだけでなく、ストレージ システムに追加の IO ワークロードをもたらし、ユーザー ワークロード用のストレージ リソースを圧迫します。この場合、ユーザーは、システムの IO 遅延が大きく、応答が遅いことに気付くことが多く、少なくとも業務の中断を引き起こす可能性があります。深刻な場合には、システムが不安定な状態に陥り、OSD が繰り返しフリーズして再起動し、データの損失やシステムクラッシュにつながる可能性もあります。 さらに、3 つのコピーの分散ストレージでは、データ損失のリスクも発生します。 3 つのコピーにより、最大 2 台の HDD が同時に損傷するのを防ぐことができます。システムが拡張モードの場合、またはノードがメンテナンス モードの場合、HDD に障害が発生すると、システムは緊急状態になります。 2 台の HDD が同時に故障すると、データが失われる可能性があります。ある程度の規模のストレージ システムでは、特にシステムの稼働開始から 2 ~ 3 年経過すると、2 つのハードディスクの機械的な障害が同時に発生することは避けられません。ハードウェアが古くなると、二重または三重のディスク障害が発生する可能性が急激に増加します。さらに、システムで大規模な停電やストレージノードの予期せぬダウンタイムが発生すると、複数の機械式ハードディスクが同時に損傷し、3 コピー分散ストレージのデータセキュリティが危険にさらされる可能性があります。 2. ダブルレイド3 コピー分散ストレージが直面するパフォーマンスの問題、安定性、信頼性の欠陥を解決するために、Daoentropy の Tielishi 分散ストレージはデュアル RAID 保護メカニズムを採用しています。 Tielishi は、ネットワーク RAID (ノード間レプリカ、ノード間消去コード) とデータの一貫したハッシュランダム分散の特性を継承するだけでなく、図 2 に示すように、ディスクアレイ独自のノード内 RAID テクノロジとストレージ仮想化 (プーリング) 管理テクノロジである Storage Virtualization Manager (SVM) を分散テクノロジと組み合わせています。 図2 Titlis分散ストレージデュアルRAIDメカニズム ネットワークレイドテクノロジーTitlis 分散ストレージでは、各データ ブロックは、一貫性のあるハッシュ アルゴリズムに従って 2 つの異なるストレージ ノードをランダムに選択し、データのコピーを 2 つ保存します。これにより、いずれかのノードがダウンした場合でも、読み取りおよび書き込み操作を保証するデータ コピーが残り、高いビジネス可用性とデータ セキュリティが確保されます。 ノード内RAIDテクノロジーTitlis 分散ストレージの各ノードでは、SVM ストレージ仮想化テクノロジーを通じてノード内に RAID データ保護が実装されています。 RAID レベルは、ミラーリング、またはストレージ効率の高い RAID5 または 6 にすることができます。ノード内 RAID 保護は、単一または複数のハードディスクの損傷に耐えることができ、障害修復はノードに限定され、ネットワーク データの再構築をトリガーすることなく、ネットワーク再構築ストームを効果的に回避します。 ノード内 RAID とネットワーク RAID (ノード間レプリカ/EC コード) テクノロジーを組み合わせることで、Titlis はデュアル RAID データ保護を実現します。 3 つのコピー アーキテクチャでは、3 つのディスクが同時に故障または破損すると、データが失われる可能性があります。デュアル RAID アーキテクチャでは、各ノードで同時に 1 つのディスクに障害が発生しても、データは安全に保たれ、ビジネスは継続されます。分散ストレージには数十または数百のストレージ ノードが含まれる可能性があることを考慮すると、ダブル RAID のデータ信頼性は 3 つのコピー アーキテクチャよりも大幅に高くなります。 ストレージ仮想化テクノロジーTilis は各ストレージ ノード上のストレージ仮想化管理ソフトウェア (SVM) 上で実行され、ノードのストレージ リソースを均一に管理されたストレージ プールに統合し、分散システムに vOSD リソースを提供します。 SVM はワイド ストライプ メカニズム (図 3 を参照) を使用して、ノードの各ディスク上の各 vOSD のワークロードを均等に分散し、単一の vOSD の IOPS 機能を大幅に向上させ、3 つのコピーの分散ストレージにおける不均一な IO 分散に効果的に抵抗します。 図3 ノード内のRAIDストライピングメカニズム SVM ストレージ プールは、ノード内の複数の RAID グループで構成され、仮想ボリュームを通じて上位層分散システムに vOSD ストレージ サービスを提供します。各 vOSD は、3 つのレプリカ内の物理 HDD によってホストされる OSD に対応します。分散一貫性ハッシュ アルゴリズムによって割り当てられたデータ ブロックは、物理ハード ディスクに直接書き込まれるのではなく、SVM ストレージ プール内の仮想ボリュームによってバックアップされた vOSD に書き込まれます。 SVM は、ワイド ストライピング テクノロジを使用して、各物理ディスク上の vOSD のワークロードを均等に分散します。4 MB の各 vOSD オブジェクト データ ブロックは 32 KB のデータ ブロックに分割され、RAID グループの論理アドレス空間に順番に配置されます。 SVM は、各 RAID グループの論理アドレス空間に対して順次書き込み最適化戦略を採用しています。最初の書き込みでは、各グループの論理アドレスに従ってアドレス空間が割り当てられ、データが順番に書き込まれます。後続の書き換えでは、まず空きアドレス空間が埋められ、ハードディスクのシーケンシャル アドレス指定が可能な限り実現されます。これにより、機械式ハードディスクの低速なアドレス指定操作の回数が最小限に抑えられ、機械式ハードディスクの高速なシーケンシャル書き込み速度を利用して IO パフォーマンスが向上します。 セカンダリDRAM+フラッシュキャッシュアクセラレーションディスク アレイにおける一般的なパフォーマンス高速化方法は、共有キャッシュ高速化です。中~ハイエンドのディスク アレイとローエンドのディスク アレイのパフォーマンスの主な違いは、コントローラの数に加えて、キャッシュ アクセラレーション機能です。一般的なミッドエンドからハイエンドのディスク アレイは、512 GB から 1 TB の範囲の共有キャッシュ アクセラレーションをサポートできます。 Titlis はディスク アレイの設計を活用し、SVM 仮想化を通じて DRAM とフラッシュを組み合わせたセカンダリ キャッシュ アクセラレーションを実装します。適応型アルゴリズムにより、動的または静的なホット データ (高頻度の読み取りおよび書き込みまたは最近の読み取りおよび書き込みデータ) を自動的に識別し、最もホットなデータを最も低いレイテンシで DRAM に保存し、2 番目にホットなデータを大容量のフラッシュベースのソリッド ステート ドライブに保存します。分散技術のサポートにより、大容量の分散型二次キャッシュシステムが形成されます。ミッドエンドからハイエンドのディスクアレイと比較すると、Titlis 分散ストレージ システムは数十 TB、さらには 100 TB を超える分散キャッシュをサポートします。これは、キャッシュ容量の 10 倍、さらには 100 倍に相当します。 データ整合性検証とデータ自己修復SVM ストレージ仮想化管理は、WAFL (NetApp)、Btrfs (SuSE)、ZFS (Oracle)、Storage Spaces (Microsoft) などのファイル システムの高度な経験を活用します。基盤となるストレージ内の各データ ブロックに 256 ビットのチェックサムを追加し、それをソリッド ステート ドライブ イメージのペアに個別に保存して、オンラインでのデータ整合性の検証を高速化します。チェックサムによってデータが破損していることが検出されると、ノード内の RAID 機能によってデータを自己修復できます。この機能を使用すると、ハードウェア障害をすばやく特定し、自動的に分離することができます。 3. ダブルレイドメカニズムと3つのインスタンスの比較デュアル RAID は 3 つのコピーの欠陥を効果的に解決できますか?まずは両者の比較から始めましょう。 障害修復時間の短縮とビジネスへの影響の軽減ハードディスクが破損した場合、デュアル RAID メカニズムにより、ノード内の RAID を通じてデータの回復が優先されます。リカバリメカニズムは、負荷を回避するために速度を自動的に調整することができ、フロントエンドビジネスはそれを認識しません。ネットワーク データの再構築をトリガーする必要がないため、ネットワーク再構築の嵐を効果的に回避できます。 ノードに障害が発生した場合、ディスクを別の物理サーバーに移行することで (データのコピーや再構築を行わずに) ノードを移行できます。 SVM ストレージ プール上の各ディスクには、ストレージ プールの構成に関するすべての情報が記録されます。分散ストレージ vOSD の ID 番号とユーザー データは、SVM ストレージ プールの仮想ボリュームに保存され、SVM ストレージ プールの移行時に 1 つの物理サーバーから別の物理サーバーに自動的に移行されます。ホスト名と vOSD ID 番号は変更されないため、ノードの修復が高速化されます。 より強力なフォールトトレランスにより、複数のノードで同時にディスク障害が発生しても対応可能3 つのコピーを持つ分散ストレージは、ノード間のコピー保護によって、1 つまたは 2 つのディスクの損傷がビジネス データに与える影響を効果的に防ぐことができますが、フォールト トレランスは限られています。たとえば、コピーが 3 つある場合、異なる障害ドメイン内の 2 つのノードのみにディスク損傷が発生する可能性があります。 2 つ以上のノードでディスク障害が発生すると、図 4 に示すように、データ損失が発生する可能性が高くなります。 図4 3コピー分散ストレージの複数ノードのハードディスク障害によるデータ損失 Titlis 分散ストレージは、デュアル RAID メカニズムによりフォールト トレランスを桁違いに向上させることができます。図 5 に示すように、ノード内 Raid10 + ノード間 2 つのレプリカを例にとると、各ノードでディスク障害が発生した場合、ノード内 Raid を介して個別に修復できるため、システム全体のデータが失われず、業務が中断されることもありません。 図5 デュアルRAIDは複数ノードのディスク障害に耐える データの耐久性は桁違いに高い以下では、具体的な値を使用して、トリプルコピーとダブル RAID のデータ永続性 (信頼性) を比較します。データ永続性指標は、ストレージ システムの AFR (年間故障率) によって測定できます。 1,000 台の 6TB ハードディスクのストレージ クラスターを考えてみましょう。ここで、各機械式ハードディスクの MTTF (平均故障時間) は 1,000,000 時間です。計算には、よく知られている 2 つの MTTF 式を使用する必要があります。 1 つは RAID6 に関するもので、その MTTF は MTTF=(MTTF)*(MTTF)*(MTTF)/(N*(N-1)*(N-2)*MTTR) です。もう 1 つは RAID5 に関するもので、その MTTF=(MTTF)*(MTTF)/(N*(N-1)MTTR) です。ここで、MTTR (平均修復時間) はハードディスクの平均修復時間です。 3 つのコピーの条件では、ストレージ システムには合計 333 個の 3 つのコピー グループがあります。 3 つのコピーの各グループの MTTF は、N = 3 の RAID6 の MTTF と同等です。分散同時修復の条件下では、MTTR は通常 3 時間です (30 分ごとに 1 TB のデータが修復されます)。したがって、3 つのコピーの各グループの MTTF は =1000000*1000000*1000000/(3*2*1*3)=5.56x 1016 時間となり、システム全体の MTTF は = 5.56x 1016 /333 =1.67x 1014 時間となります。 AFR(年間8760時間)に換算すると、AFR=8760/(1.67x 1014) =5.2x 10-11となります。 ダブル RAID の場合は、ノードで (2+1) RAID5 を使用することを検討してください。ストレージ システムには合計 333 個の RAID5 グループがあります。計算を簡単にするために、RAID の各グループが 2 つの vOSD と 12 TB のデータに対応すると考えてください。 RAID5 の MTTR は 30 時間、各 RAID5 (vOSD) グループの MTTF は 1000000*1000000/(3*2*30)=5.56x 109 時間であると計算されます。 RAID5 グループが破損した場合、vOSD はノード間でミラー保護されているため (信頼性は N=2 RAID5 と同等)、12TB のデータの分散同時修復が採用されます。 1TB のデータが 30 分ごとに修復され、6 時間かかります。したがって、MTTR=(5.56x 109 )* (5.56x 109 )/(2*1*6)=2.58x 1018 時間となります。ストレージ システム全体に 333 個の RAID5 グループがあることを考慮すると、システム全体の MTTF は 2.58 x 1018/333 = 7.75 x 1015 時間となり、これは 3 つのコピーの MTTF の 46 倍になります。 AFRに変換すると、デュアル RAID の AFR = 8760 / (7.75 x 1015) = 1.1 x 10-12 になります。 3 つのコピーと二重 RAID のデータ永続性を比較すると、二重 RAID のデータ信頼性は 3 つのコピーよりも 1 桁以上高いことがわかります。 IV.結論Titlis 分散ストレージは、従来のディスク アレイの RAID 技術、ストレージ仮想化管理技術、分散ストレージ技術を組み合わせ、通常の分散ストレージが直面する不均一な IO 分散とバレル効果によって発生するパフォーマンス欠陥を効果的に解決し、システムの IOPS パフォーマンスを大幅に向上させ、通常の分散ストレージがネットワーク再構築ストームによって引き起こす可能性のある安定性リスクを回避します。同時に、デュアル RAID アーキテクチャのデータ信頼性は、3 つのコピーを持つ分散ストレージよりも 1 桁以上高くなります。 |
<<: テンセントクラウドが新しい星星海サーバーをリリース、従来製品のアプリケーション規模は前年比30倍に増加
>>: Pure Storage が Microsoft Azure にパブリック クラウド ブロック ストレージを導入
1. ブランド名に何百万ドルもの価値があるのはなぜですか? 1. 重要だから孔子は「名が正しくなけれ...
Hostyun については多くの人がよく知っています。10 年以上運営されているこのビジネスが今でも...
Edgenat は、米国ロサンゼルスの Cera データセンターで高帯域幅の VPS を提供していま...
urpad の openvz を使用したことがある友人は、コスト効率が非常に良く、価値があると言うと...
網易科技ニュース、5月23日、昨日、中国インターネット金融グループとその子会社であるクラウドファンデ...
2020年の疫病は生鮮食品電子商取引の集中化を加速させ、2020年は生鮮食品電子商取引にとって重要な...
MSN が消滅するという噂もあるが、劉振宇氏はそれを笑い飛ばすだけだ。辛抱強く耳を傾けなければ、多く...
ここでは、手間をかけずにブログや個人のウェブサイトを構築したい友人にお勧めの、ホストミスト社の小メモ...
本日の IDF 基調講演の第 3 セッションでは、Intel の上級副社長兼ウルトラモバイル事業部門...
2020 年はあらゆる企業にとって非常に困難な年です。年初から徐々に拡大している新型コロナウイルス感...
Baidu 入札でも Google Adwords でも、品質は非常に重要な概念です。もちろん、Ad...
サンクトペテルブルクはロシアで 2 番目に大きな都市です。Justhost はサンクトペテルブルクの...
伝説のCN2ラインをご存知でしょうか? CN2 ポピュラーサイエンス。ここで globalfrag ...
コンテナが将来どこに向かっているのか全体像を把握したいのであれば、資金の流れを追跡し、どこに投資され...
著者の李雪志は辞書を引く癖があります。昨夜、退屈で「人生は演劇のようなもの」という言葉を調べました。...