分散ストレージのフェイルインプレース高耐障害性技術に関する議論

分散ストレージのフェイルインプレース高耐障害性技術に関する議論

序文: 航空機には飛行安全係数に関して非常に厳しい要件があります。あらゆる障害や故障に耐えることができ、Fail-in-place (FIP) の高いフォールト トレランス機能を備えている必要があります。つまり、障害を許容し、障害を分離し、安全に着陸するまで障害の修復を遅らせることができます。さもなければ、航空機の破壊や人命の損失を伴う壊滅的な事故が発生する可能性があります。分散ストレージは、絶対的なデータ セキュリティとビジネス継続性を保証する役割を担っており、FIP の高いフォールト トレランス特性も備えている必要があります。そうでないと、データ損失やビジネス中断などの壊滅的なイベントが発生する可能性があります。 FIP の高いフォールト トレランスを備えた分散ストレージを作成するにはどうすればよいですか?

ストレージ、コンピューティング、ネットワークは、現代の情報システムを構成する 3 つの主要コンポーネントです。中央政府が2021年3月に発表した「第14次5カ年計画」では、「大規模分散型ストレージ」が明確な開発重点項目として挙げられた。いわゆる分散ストレージは、従来の集中型共有ストレージと比較した新しい技術的概念です。過去 30 年間、中国企業は一般的に IBM、EMC、NetApp などの有名な海外メーカーのディスク アレイを採用してきました。彼らのアーキテクチャ システムは、主に RAID コントローラを技術的な中核とする集中型の共有ストレージ アーキテクチャです。分散ストレージは、ソフトウェア定義ストレージ技術を使用して、複数の x86 サーバーの CPU、メモリ、ソリッド ステート ドライブ (SSD)、機械式ハードディスク (HDD) などのストレージ リソースのリソース管理を統合し、高速ネットワークを介して各サーバーにデータを保存します。

クラウド コンピューティングの誕生以来、企業のデータ処理量の爆発的な増加により、IT システムのコンピューティング機能とストレージ機能に対する要求が非常に高まっています。従来の集中型ストレージは、データ サイロ、拡張の難しさ、高コストなどの課題に直面しています。同時に、分散ストレージは、拡張と管理が容易、コストが低い、ハードウェアの柔軟性が高い、統合が迅速であるなどの明らかな利点があるため、徐々に世界的な技術開発のトレンドになってきました。これは中国企業のデジタル変革にとって重要な基礎となるでしょう。

分散ストレージは、技術的な難しさが著しく過小評価されている技術分野です。 HDFS、Lustre、GlusterFS、Ceph などのオープンソース分散ソフトウェア プロジェクトの台頭により、中程度のスキルを持つソフトウェア エンジニアであれば、1 日または 1 週間で分散ストレージ システムを構築できるようになりました。 Huawei、H3C、BAT、およびいくつかのスタートアップ企業は、これらのオープンソース プロジェクトに基づく魔法のような変更を通じて分散ストレージ関連の製品とサービスを立ち上げ、ストレージには技術的な障壁がないという深刻な幻想を業界に与えています。しかし、インターネット企業であれ、企業や機関であれ、分散ストレージの使用による業務中断やデータ損失の報告はよくあります。

なぜ(分散)ストレージは技術的障壁が非常に高い業界なのでしょうか?これは、ストレージの最も基本的な中核的な要求が、データが失われず、ビジネスが中断されないことだからです。一般的なストレージ システムには、数百万個の電子部品と数億行のソフトウェア コードが含まれています。コンポーネントの老朽化や故障、電子信号の干渉、ソフトウェアのバグ、システムの予期しない電源障害などにより、データが失われる可能性があります。信頼性が高く、高性能な分散ストレージシステムを構築するのは簡単ではないことがわかります。

認定されたストレージ システムは、高度な耐障害性を備え、故障したコンポーネントや古くなったコンポーネントをオンラインで交換できるハードウェアおよびソフトウェア システムである必要があります。同時に、信頼性の高いデータ ストレージ基盤、データ エラーからの自己修復機能、フロントエンド アプリケーションのパフォーマンスに影響を与えない通常の操作と自己修復プロセス、高いストレージ効率など、複数の要件を満たす必要があります。ストレージ システムのデータ セキュリティは飛行機の安全性に似ており、業務中断は大規模な航空事故に似ており、ストレージ システムのデータ損失は飛行機墜落事故に似ており、壊滅的な損害と計り知れない影響をもたらします。

航空機は、高い冗長性と高い耐障害性を備えた典型的な電気機械システムです。その安全性は、Fail-in-place (FIP) の高フォールト トレランス技術に依存しており、飛行中に航空機のいずれかのコンポーネントが故障または誤動作した場合でも、航空機は必要なメンテナンスを行う前に安全に空港に戻り、安全に着陸することができます。 FIP フォールト トレランスの重要な特徴は、障害をすぐに解決したり、できるだけ早く修復したりする必要はなく、遅延して修復できることです。そうしないと、壊滅的な事故が発生する可能性があります。 FIP のフォールト トレランスを実現するために、この航空機は、極めて強力な障害警告、自動診断、障害分離、さらには自己修復機能を備えた高度な冗長設計を採用しています。

3 コピー アーキテクチャに基づく分散ストレージには FIP フォールト トレランスがありますか?答えはノーです。

3 コピー分散ストレージは、3 つの異なるノードにデータの 3 つのコピーを保存します。この純粋なネットワーク コピー保護メカニズムは実装が簡単ですが、データの信頼性はデータ修復の速度とシステムの規模に大きく依存します。ハードディスクの数が増えると、特にディスクが古くなり、ハードウェアの故障率が増加すると、システムの信頼性が低下します。ネットワークの不安定性とディスク上の目に見えないデータの歪みの可能性と相まって、3 つのコピー アーキテクチャは不安定になりやすく、データ損失が発生する可能性さえあります。ハードディスクまたはノードに障害が発生した場合、3 つのコピー アーキテクチャでは、複数のハードディスクが同時に損傷してデータが失われるのを防ぐために、できるだけ早くデータを再構築して回復する必要があります。

3コピー分散ストレージ マルチノードハードディスクの損傷によりデータ損失が発生

3 コピー分散ストレージと比較して、デュアル RAID アーキテクチャ分散ストレージは、FIP の高いフォールト トレランス特性を備えています。デュアル RAID アーキテクチャは、ノード内 RAID データ保護とノード間レプリカ保護を組み合わせます。各ノードは RAID10 または RAID50/60 を使用してノード内データ保護を実装し、ハードウェア障害の分離とローカル データの修復を実現します。各ノードは、ノード内の単一または複数のハードディスク障害に耐えることができる小さな「ディスク アレイ」に相当します。これらの「ディスク アレイ」の間には、ネットワーク コピーに基づく別のデータ保護層があり、極端な場合、つまり障害がディスク アレイの保護能力を超えた場合でも、ネットワーク コピー テクノロジを使用してデータを修復できます。

この二重層 RAID 保護メカニズムにより、ノード ハードウェア障害が発生した場合でも、通常の業務操作に影響を与えることなく、ローカル RAID を通じて障害を隔離できます。障害修復では遅延修復戦略を採用でき、自動的にビジネスを回避できます。つまり、業務が忙しいときには、データ修復によってデータの速度が低下します。業務が休止しているときは、データの修復を適切に加速できます。

デュアルRAIDは複数ノードのディスク障害を許容します

対照的に、3 つのコピー アーキテクチャを備えた分散ストレージには、ネットワークに起因する深刻なデータ セキュリティ リスクと安定性の問題があります。南京 Daoentropy のコア技術であるデュアル RAID アーキテクチャを備えた分散ストレージは、独自の FIP の高耐障害性特性により、分散ストレージの将来の開発方向を表しています。これは、中国のストレージ企業が世界クラスのストレージ企業に挑戦できる技術力を持っていることも示しています。

<<:  VMware の Ye Yujian: 製品を統合して完全な SASE ソリューションを構築し、企業のリモート ワークを実現

>>:  Kafka はどのようにして高可用性を確保するのでしょうか?写真は言葉よりも雄弁である

推薦する

2020年を振り返る: クラウドコンピューティングの拡大とAIの急速な進歩

0シンギュラリティの到来2020年、COVID-19パンデミックは奇妙な形で始まり、全世界が新たな常...

ウェブサイトを最適化するための推奨ツール

経験豊富なウェブマスターがウェブサイトの最適化を行う場合、多くの SEO ツールとソフトウェアを手元...

Liehuo Vision は Best Logistics がプロモーション ビデオで企業責任を説明するのを支援します

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス「顧客が指定した場所がサ...

SEO担当者は、追求を諦めてやり直しましょう

私はあまり優れたウェブサイト運営者ではなく、ただのインターネットマニアです。ウェブサイト構築の当初は...

ユーラシアクラウド:香港 CN2/日本 CN2/米国 AS9929+CN2 GIA、21 元/月、199 元/年、2G メモリ/2 コア/20g SSD/1T トラフィック/50M 帯域幅

ユーラシアクラウドは現在、特別プロモーションを実施しており、クラウドサーバーを月額21元、年額199...

ケース分析: 医療業界の Web サイトがインデックスに含まれていないのはなぜですか?

ケース分析: 医療業界の Web サイトがインデックスに含まれていないのはなぜですか?今朝、あるネッ...

感情的なデザインがユーザーにより良い体験を提供する方法についての簡単な議論

先月のTaobao UEDミルクティーパーティーで共有されたトピック。それをテキストにしてみんなと共...

分散型ディープラーニングの新たな進歩:「分散」と「ディープラーニング」の真の統合

近年、急速に発展している人工知能の分野のひとつであるディープラーニングは、NLP、画像認識、音声認識...

KVM仮想マシンがゲートウェイにアクセスできない問題のトラブルシューティング

問題の解決は簡単そうに思えることが多いですが、トラブルシューティングのプロセスは複雑で時間がかかりま...

JVM: 内部情報をお伝えします

[[361071]]ほとんどのユーザーは、Java リフレクションの使用に精通しています。特にオープ...

Kubernetes 1.24 リリース — 新機能

Kubernetes 1.24 は、当初 4 月 19 日にリリースされる予定でしたが、5 月 3 ...

GDSとチェックポイントが協力して安全なハイブリッドクラウドアーキテクチャを実現

[51CTO.comよりオリジナル記事] クラウドコンピューティング、モノのインターネット、人工知能...

B2C最適化の分析

B2C 電子商取引 Web サイトを構築してインターネットで収益を上げたい場合は、Web サイトをよ...

SEOテクノロジーの最適化の成功または失敗は詳細によって決まります

SEO 技術は言うのは簡単ですが、実行するのは非常に困難です。特に、特定の SEO 技術を使用する場...

vinahost: カンボジア VPS/カンボジア クラウド サーバー、月額 38 ドルから、トラフィック無制限

2008 年に設立されたベトナムのホスティング会社である vinahost は、ベトナム、タイ (機...