分散ストレージのフェイルインプレース高耐障害性技術に関する議論

分散ストレージのフェイルインプレース高耐障害性技術に関する議論

序文: 航空機には飛行安全係数に関して非常に厳しい要件があります。あらゆる障害や故障に耐えることができ、Fail-in-place (FIP) の高いフォールト トレランス機能を備えている必要があります。つまり、障害を許容し、障害を分離し、安全に着陸するまで障害の修復を遅らせることができます。さもなければ、航空機の破壊や人命の損失を伴う壊滅的な事故が発生する可能性があります。分散ストレージは、絶対的なデータ セキュリティとビジネス継続性を保証する役割を担っており、FIP の高いフォールト トレランス特性も備えている必要があります。そうでないと、データ損失やビジネス中断などの壊滅的なイベントが発生する可能性があります。 FIP の高いフォールト トレランスを備えた分散ストレージを作成するにはどうすればよいですか?

ストレージ、コンピューティング、ネットワークは、現代の情報システムを構成する 3 つの主要コンポーネントです。中央政府が2021年3月に発表した「第14次5カ年計画」では、「大規模分散型ストレージ」が明確な開発重点項目として挙げられた。いわゆる分散ストレージは、従来の集中型共有ストレージと比較した新しい技術的概念です。過去 30 年間、中国企業は一般的に IBM、EMC、NetApp などの有名な海外メーカーのディスク アレイを採用してきました。彼らのアーキテクチャ システムは、主に RAID コントローラを技術的な中核とする集中型の共有ストレージ アーキテクチャです。分散ストレージは、ソフトウェア定義ストレージ技術を使用して、複数の x86 サーバーの CPU、メモリ、ソリッド ステート ドライブ (SSD)、機械式ハードディスク (HDD) などのストレージ リソースのリソース管理を統合し、高速ネットワークを介して各サーバーにデータを保存します。

クラウド コンピューティングの誕生以来、企業のデータ処理量の爆発的な増加により、IT システムのコンピューティング機能とストレージ機能に対する要求が非常に高まっています。従来の集中型ストレージは、データ サイロ、拡張の難しさ、高コストなどの課題に直面しています。同時に、分散ストレージは、拡張と管理が容易、コストが低い、ハードウェアの柔軟性が高い、統合が迅速であるなどの明らかな利点があるため、徐々に世界的な技術開発のトレンドになってきました。これは中国企業のデジタル変革にとって重要な基礎となるでしょう。

分散ストレージは、技術的な難しさが著しく過小評価されている技術分野です。 HDFS、Lustre、GlusterFS、Ceph などのオープンソース分散ソフトウェア プロジェクトの台頭により、中程度のスキルを持つソフトウェア エンジニアであれば、1 日または 1 週間で分散ストレージ システムを構築できるようになりました。 Huawei、H3C、BAT、およびいくつかのスタートアップ企業は、これらのオープンソース プロジェクトに基づく魔法のような変更を通じて分散ストレージ関連の製品とサービスを立ち上げ、ストレージには技術的な障壁がないという深刻な幻想を業界に与えています。しかし、インターネット企業であれ、企業や機関であれ、分散ストレージの使用による業務中断やデータ損失の報告はよくあります。

なぜ(分散)ストレージは技術的障壁が非常に高い業界なのでしょうか?これは、ストレージの最も基本的な中核的な要求が、データが失われず、ビジネスが中断されないことだからです。一般的なストレージ システムには、数百万個の電子部品と数億行のソフトウェア コードが含まれています。コンポーネントの老朽化や故障、電子信号の干渉、ソフトウェアのバグ、システムの予期しない電源障害などにより、データが失われる可能性があります。信頼性が高く、高性能な分散ストレージシステムを構築するのは簡単ではないことがわかります。

認定されたストレージ システムは、高度な耐障害性を備え、故障したコンポーネントや古くなったコンポーネントをオンラインで交換できるハードウェアおよびソフトウェア システムである必要があります。同時に、信頼性の高いデータ ストレージ基盤、データ エラーからの自己修復機能、フロントエンド アプリケーションのパフォーマンスに影響を与えない通常の操作と自己修復プロセス、高いストレージ効率など、複数の要件を満たす必要があります。ストレージ システムのデータ セキュリティは飛行機の安全性に似ており、業務中断は大規模な航空事故に似ており、ストレージ システムのデータ損失は飛行機墜落事故に似ており、壊滅的な損害と計り知れない影響をもたらします。

航空機は、高い冗長性と高い耐障害性を備えた典型的な電気機械システムです。その安全性は、Fail-in-place (FIP) の高フォールト トレランス技術に依存しており、飛行中に航空機のいずれかのコンポーネントが故障または誤動作した場合でも、航空機は必要なメンテナンスを行う前に安全に空港に戻り、安全に着陸することができます。 FIP フォールト トレランスの重要な特徴は、障害をすぐに解決したり、できるだけ早く修復したりする必要はなく、遅延して修復できることです。そうしないと、壊滅的な事故が発生する可能性があります。 FIP のフォールト トレランスを実現するために、この航空機は、極めて強力な障害警告、自動診断、障害分離、さらには自己修復機能を備えた高度な冗長設計を採用しています。

3 コピー アーキテクチャに基づく分散ストレージには FIP フォールト トレランスがありますか?答えはノーです。

3 コピー分散ストレージは、3 つの異なるノードにデータの 3 つのコピーを保存します。この純粋なネットワーク コピー保護メカニズムは実装が簡単ですが、データの信頼性はデータ修復の速度とシステムの規模に大きく依存します。ハードディスクの数が増えると、特にディスクが古くなり、ハードウェアの故障率が増加すると、システムの信頼性が低下します。ネットワークの不安定性とディスク上の目に見えないデータの歪みの可能性と相まって、3 つのコピー アーキテクチャは不安定になりやすく、データ損失が発生する可能性さえあります。ハードディスクまたはノードに障害が発生した場合、3 つのコピー アーキテクチャでは、複数のハードディスクが同時に損傷してデータが失われるのを防ぐために、できるだけ早くデータを再構築して回復する必要があります。

3コピー分散ストレージ マルチノードハードディスクの損傷によりデータ損失が発生

3 コピー分散ストレージと比較して、デュアル RAID アーキテクチャ分散ストレージは、FIP の高いフォールト トレランス特性を備えています。デュアル RAID アーキテクチャは、ノード内 RAID データ保護とノード間レプリカ保護を組み合わせます。各ノードは RAID10 または RAID50/60 を使用してノード内データ保護を実装し、ハードウェア障害の分離とローカル データの修復を実現します。各ノードは、ノード内の単一または複数のハードディスク障害に耐えることができる小さな「ディスク アレイ」に相当します。これらの「ディスク アレイ」の間には、ネットワーク コピーに基づく別のデータ保護層があり、極端な場合、つまり障害がディスク アレイの保護能力を超えた場合でも、ネットワーク コピー テクノロジを使用してデータを修復できます。

この二重層 RAID 保護メカニズムにより、ノード ハードウェア障害が発生した場合でも、通常の業務操作に影響を与えることなく、ローカル RAID を通じて障害を隔離できます。障害修復では遅延修復戦略を採用でき、自動的にビジネスを回避できます。つまり、業務が忙しいときには、データ修復によってデータの速度が低下します。業務が休止しているときは、データの修復を適切に加速できます。

デュアルRAIDは複数ノードのディスク障害を許容します

対照的に、3 つのコピー アーキテクチャを備えた分散ストレージには、ネットワークに起因する深刻なデータ セキュリティ リスクと安定性の問題があります。南京 Daoentropy のコア技術であるデュアル RAID アーキテクチャを備えた分散ストレージは、独自の FIP の高耐障害性特性により、分散ストレージの将来の開発方向を表しています。これは、中国のストレージ企業が世界クラスのストレージ企業に挑戦できる技術力を持っていることも示しています。

<<:  VMware の Ye Yujian: 製品を統合して完全な SASE ソリューションを構築し、企業のリモート ワークを実現

>>:  Kafka はどのようにして高可用性を確保するのでしょうか?写真は言葉よりも雄弁である

推薦する

Baidu の統計が SEO にどのように役立つか

百度統計は新年を迎えて第3版を更新した。 SEO の観点から見ると、第 3 版では第 2 版と比べて...

検索、WeChatの自己ゲーム

WeChat Open Class PROでは、WeChatがSouYisouを積極的に開発するとい...

モバイル エッジ コンピューティング (MEC) を収益化する 5 つの戦略

過去数年間、クラウド サービスは、モバイル デバイスによって生成される膨大な量のデータを光速でさえも...

ウェブサイト内部のページの重みとリンク交換の原則

ウェブサイトの内部ページの重みを確認するにはどうすればよいでしょうか? 権威の高いウェブサイトの内部...

上位ランキングのウェブサイトとページコンテンツの分析

ランキングの高いサイト、特にあなたの業界でランキングの高いサイトが見つかる理由はたくさんあります。そ...

高品質な外部リンク構築:Baiduの経験と外部リンクスキル

ウェブマスターがウェブサイトを最適化するときは、高品質の外部リンクを探す必要があります。外部リンクの...

2020 年後半のクラウド コンピューティングの脅威と優先事項

パンデミックの影響で、クラウド コンピューティングやネットワーク テクノロジーを導入して自宅からリモ...

量子コンピューティングとクラウドコンピューティング

クラウド コンピューティングは、組織のビジネスのやり方を変え続けており、多くの企業にとって変革をもた...

#ブラックフライデー#: hostmonster-すべてのホストが月額3.95ドルから

Hostmonster も今年のブラックフライデーにプロモーションを実施しました。11 月 27 日...

IIS ログ自動削除プログラム

Windows IIS を使用する多くのウェブマスターは、この問題に遭遇する可能性があります。つまり...

教育インターネットのさまざまな形式を分析する: オンライン教育は信頼できるか?

オンライン教育は信頼できるのでしょうか?モバイルインターネットの急速な発展に伴い、伝統的な産業は再び...

Baidu の独自製品を使用して外部リンクを構築する際のヒントや経験を共有する

みなさんこんにちは、私はA Yuです。外部リンクは、ウェブマスターが最も注意を払うものの1つです。外...

dmit: 月額 19 ドル、1.2T トラフィック、香港データセンター、香港 VPS は CN2 回線を使用

dmit 香港データセンターは、CN2 GT 回線と、中国聯通および中国移動の香港 PCCW への直...

InterServer: 75% オフ、年間 25 ドル、無制限の Web ホスティング、22 年の信頼のブランド

InterServer は今年、ブラックフライデーとサイバーマンデーの黄金期間に、最大 75% の割...

SEO最適化の基本: ウェブページ要素の最適化

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています1. ペー...