クラウドストレージ緊急訓練システムの構築とシナリオ設計

クラウドストレージ緊急訓練システムの構築とシナリオ設計

この記事では、クラウド ネイティブとエンタープライズ クラウド アーキテクチャの観点から、クラウド ストレージ ドリルの標準システムを構築する方法を分析します。この記事では、クラウド ストレージ向けの一般的な高可用性災害復旧テクノロジーをいくつか紹介し、さまざまな障害シナリオにおける緊急切り替えプロセスを整理し、クラウド ストレージ標準を満たす緊急計画を確立します。  

1. クラウドストレージドリルの必要性分析

クラウドストレージドリルの重要性

クラウド コンピューティング テクノロジーの推進により、クラウド ストレージは、企業における大量のデータの保存と管理の問題を解決する効果的な方法になってきています。企業の日常的な生産プロセスで生成されるさまざまな種類の非構造化データに対して、企業は対応する種類のクラウド ストレージ (ファイル ストレージ、オブジェクト ストレージ、ブロック ストレージなど) を選択して、非構造化データを統一的に保存および管理できます。分散ストレージ アーキテクチャによって提供されるストレージとしてのソフトウェア機能を活用することで、企業がクラウド サービスの基本システム サービス層を構築し、クラウド上のさまざまなマイクロサービス アプリケーションにクラウド ストレージおよびクラウド共有サービスを提供できるよう支援します。

クラウドストレージとクラウドプラットフォームインフラストラクチャの緊急切り替え訓練メカニズムを確立することで、企業の情報セキュリティインシデントへの対応能力が大幅に向上し、情報セキュリティインシデントによる損失を軽減・防止し、ビジネスの継続性を確保できます。企業のコアデータとコアストレージデバイスに対する完全な緊急時対応計画の確立、緊急時対応メカニズムの構築、緊急時サポート計画の有効性の検証は、事業継続における重要なリンクとなっています。

クラウドストレージ VS 従来型ストレージ

従来のストレージ アーキテクチャと比較して、クラウド ストレージの災害復旧サービスには通常、弾力性のあるクラウド コンピューティング リソース、クラウド ハード ディスク デバイス、分散ストレージ デバイス、およびその他のサービスに対する災害復旧サービスが含まれます。これらのサービスは、上位層アプリケーションに対してより柔軟な統合ハードウェアおよびソフトウェア展開モデルを提供するだけでなく、特に緊急訓練の実施においてより堅牢な高可用性モデルも提供します。クラウド上の既存のビジネス ポリシーに基づいて、クラウド サーバーとクラウド ストレージの保護インスタンスをオンデマンドで構成できます。また、ストレージ同期レプリケーション技術、ディスクマッピング技術、データキャッシュ冗長化などの技術を通じて、クラウドストレージの高可用性を構築し、ビジネスにデータの信頼性と事業継続性を提供し、災害復旧バックアップのRPOが0であることを保証します。訓練中、クラウドストレージはエラスティッククラウドサーバーのデータと構成情報を災害復旧サイトにコピーし、ダウンタイム中に別の場所からアプリケーションサーバーの起動と通常操作をサポートし、事業継続性を向上させます。従来のストレージと比較して、クラウド ストレージに基づく災害復旧は、災害復旧構築のコストをより削減できます。

2. クラウドストレージの緊急シナリオと標準システム構築

クラウドストレージ切り替え訓練とシナリオ構築

企業の事業継続性の要件とクラウド ストレージの特性および現状に応じて、緊急訓練の内容、実施プロセス、および期待される結果を考慮し、クラウド ストレージの緊急訓練を整理する際には、次の点に特に注意する必要があります。

まず、組織的な訓練計画チームを設立し、訓練の範囲とサイクルを決定します。初期の訓練では、複雑さを軽減し、リスクゼロを前提として複数の小規模な訓練を実施し、管理者の災害復旧能力を強化します。

訓練シナリオを設計し、復旧戦略を策定する: 緊急時計画に合わせて、さまざまな訓練シナリオと対応する復旧戦略を設定します。

最後に、実践的な演習とまとめを実施し、復旧プロセス全体を監視および記録し、災害復旧プロセスとバックアップ データの有効性を検証します。

クラウドアーキテクチャに基づくドリルの標準システムを構築

ビジネス プラットフォームはクラウド アーキテクチャをベースとし、分散型コンピュータ ストレージ システムを採用しているため、自然にデータ冗長ストレージが形成され、自動回復メカニズムが備わっており、ハードウェア障害や単一ストレージ デバイス障害などの外部不可抗力リスクに対するストレージ データの耐性が向上します。したがって、インフラストラクチャからアプリケーション層、基盤となる環境 (物理マシン、仮想マシン、コンテナ) とオペレーティング システム (Linux、Windows)、アプリケーション コンテナ オーケストレーションなどの側面をカバーする、クラウド アーキテクチャ ベースのドリルの標準システムの構築に、より多くの注意を払う必要があります。著者は、クラウド ストレージ ベースのドリル システムの構築には少なくとも次の内容が含まれるべきだと考えています。

(1)クラウドストレージ緊急対応の各リンクにおける役割と責任を明確にし、クラウドストレージの対応・運用能力を向上させる。クラウド アーキテクチャ環境では、従来のストレージ デバイス管理者が DevOps 開発および運用エンジニアに変わり、ストレージの運用と保守もハードウェア レベルからアプリケーションとマイクロサービスのサポートへと変わります。

(2)複数の手段を組み合わせてクラウドストレージ緊急訓練技術システムを構築する。実際のシミュレーション可能なマイクロサービスストレージ障害などの緊急環境を使用して参加者を訓練し、心理的な適応力と調整能力を高め、緊急現場での適応期間を短縮します。

(3)SSDクラウドディスクのIOPS、スループット、アクセスレイテンシなど、緊急時訓練の各段階におけるクラウドストレージの主要な機能要素を明確にする。これに基づき、定性的・定量的側面から運動効果の科学的な評価指標体系を構築します。

(4)既存の伝統的貯蔵施設の緊急時計画、政策、規制、緊急時プロセスをテスト・評価し、欠点や弱点を特定し、的を絞った改善を行う。緊急資源の準備と支援における欠点と弱点を特定する。各リンクに関与する組織間の調整およびコミュニケーション能力を向上させる。

クラウドネイティブ思考で訓練の範囲を拡大

分散クラウド ストレージはますます複雑になってきており、実行領域の決定には、従来のアーキテクチャには存在しない多くの不確実性を考慮し、考え方を広げることも必要になります。たとえば、マシンの高負荷、ネットワーク異常、ディスク IO、ノードのスケジューリング、クラウド プラットフォーム自体のリソース、アプリケーション サービス、コンテナー、インフラストラクチャによって発生する問題などの障害です。

国内のクラウド ストレージを例に、クラウド ストレージに関連するさまざまなレベルでの一般的な障害シナリオを分析します。

上記の障害シナリオに基づいて、クラウド ストレージのフォールト トレランス メカニズムには通常、次のものが含まれます。

クラウドディスクキャッシュ

クラウド ディスクにデータをキャッシュし、頻繁に使用するデータをバックアップします。そのため、ユーザーが同じデータに再度アクセスする際にはキャッシュからアクセスすることになり、アクセス時間が大幅に短縮されます。クラウド ストレージの災害復旧では、データ情報が災害復旧システムにキャッシュされ、データのバックアップと迅速な復旧が実現されます。

その中で、データ災害復旧キャッシュ技術を実装する方法は通常 2 つあります。

まず、ローカル災害復旧ディスクの飽和計算を行います。この方法は、単位時間あたりのデータ回復回数をカウントして計算し、回復回数が少ないデータ ブロックを置き換える方法です。

第二に、リモートデータ情報の回復計算とは、単位時間当たりにデータブロックが回復される回数に基づいて、リモートデータブロックを置き換えるかどうかを決定することを指します。

マッピング技術

マッピング技術は、一般的にクラウド ディスクとプログラム管理間のマッピング関係を処理します。情報ストレージを完成させるための主要な技術です。マッピング関係の出現により、データの自動移行が可能になります。自動移行とは、データの自動保存、コピーと貼り付け、削除など、指示によってトリガーされる自動化された操作です。

クラウドディスクが破損した場合、マッピング技術がデータ災害復旧に適用されます。災害復旧システムは自動的に指示を受信し、関連するデータに対してマッピング操作を実行します。マッピング技術を使用すると、ディスクを透過的に交換してクラウド ストレージ環境を構築し、マッピングされたデータを複製してクラウド ストレージ環境内の災害復旧システムにバックアップすることができます。同時に、ディスクの損傷によるデータの永久的な不可逆性を回避するために、データのバックアップ プロセス中に複数のコピーを同時に作成できます。

ストレージリンクの冗長性

データ災害復旧システムにはプライマリノードと冗長バックアップノードが含まれるため、それらを接続する相互接続技術は災害復旧において非常に重要です。現在、プライマリ ノードと冗長バックアップ ノード間の接続は主にファイバー チャネル接続であり、これは主に SAN リモート レプリケーションに基づいています。つまり、2 つの SAN がリモート レプリケーションのためにファイバー チャネル FC を介して接続されています。災害が発生すると、バックアップ データ センターがメイン データ センターに代わり、システム運用の継続性を確保します。このリモート災害復旧バックアップ方法の欠点としては、実装コストが高いことと、機器の相互運用性が低いことが挙げられます。

継続的データ保護 (CDP)

継続的データ保護 (CDP) は、アプリケーション データへのすべての変更をリアルタイムで自動的に記録するリアルタイム データ バックアップ システムです。重要なのは、アプリケーション データの変更ごとに時間インデックスを追加することです。これにより、データの損失、データの破損、セキュリティ上の問題が発生した場合でも、最新の完全なデータに復元することが可能になります。 CDP テクノロジーは進歩し続けており、データ損失が発生した場合でも迅速なデータ回復が可能になり、ライフサイクル内の任意の指定時点にデータを復元できます。

3. クラウドストレージ訓練プロセスと緊急時対応計画の確立

ドリルプロセスの改善

現在、伝統的なアーキテクチャの緊急訓練プロセスにおいて、企業は緊急訓練の重要な役割を認識しており、訓練を通じて緊急対応能力を向上させることを望んでいます。しかし、クラウド ストレージには標準化された訓練手順がないため、無理な訓練計画、不明瞭な訓練スクリプト、不十分な人員トレーニング、不十分なサポート準備などの問題が簡単に発生し、クラウド ストレージ訓練の品質が期待される要件を満たさないことになります。この問題に対処するには、クラウド アーキテクチャの特性に基づいて訓練を継続的に改善する方法とプロセスを模索し、一連の訓練プログラム管理システムを設計して、計画、設計、実装から評価、改善までの包括的な管理を実現し、クラウド ストレージの緊急訓練プロセスを徐々に改善して、緊急計画の科学性、実現可能性、有効性をより効果的に検証する必要があります。

IaaS層とPaaS層が堅牢かどうかを評価する

基盤となるインフラストラクチャまたはプラットフォームのリソース負荷をシミュレートして、スケジューリング システムの有効性を検証します。依存する分散ストレージが使用できない状態をシミュレートしてシステムの耐障害性を検証する。スケジューリング ノードが使用できない状態をシミュレートして、スケジューリング タスクが使用可能なノードに自動的に移行されるかどうかをテストします。マスタースレーブノード障害をシミュレートして、マスタースレーブノード障害が正常かどうかをテストします。

コンテナとマイクロサービスのフォールトトレランスの測定

通話の遅延、サービスの利用不可、マシン リソースの完全な負荷をシミュレートすることで、障害が発生したノードまたはインスタンスが自動的に分離されてオフラインになるかどうか、トラフィックのスケジュールが正しいかどうか、計画が有効かどうかを確認し、システムの全体的な QPS または RT が影響を受けるかどうかを観察します。これに基づいて、障害のあるノードの範囲を徐々に拡大し、上流のサービス電流制限、劣化、および回路遮断が有効かどうかを確認できます。最終的に、障害が発生したノードの数が増加し、要求サービスがタイムアウトするまで増加し、システムのフォールト トレランスのレッド ラインを推定し、システムのフォールト トレランス能力を測定します。

コンテナオーケストレーション構成が適切であることを確認する

サービス ポッドの強制終了、ノードの強制終了、ポッド リソース負荷の増加をシミュレートすることで、システム サービスの可用性を観察し、レプリカ構成、リソース制限構成、ポッドの下にデプロイされたコンテナーが適切かどうかを確認できます。

監視アラームの適時性を確認する

システムに障害を注入することで、監視指標が正確かどうか、監視ディメンションが完全かどうか、アラームしきい値が妥当かどうか、アラームが高速かどうか、アラーム受信者が正しいかどうか、通知チャネルが利用可能かどうかなどを検証し、監視アラームの精度と適時性を向上させることができます。

クラウドストレージに基づいて訓練シナリオを充実させ、緊急時対応計画を作成する

訓練シナリオは、事業継続計画の中核となる内容と言えます。クラウド アーキテクチャ モードでは、クラウド ストレージのドリル シナリオは、障害領域ごとにドリル シナリオが決定され、シナリオごとにドリル テンプレートとスクリプトが設定されます。ドリル フェーズを開始するときは、ドリル シナリオを選択して開始するだけです。

クラウド ストレージ障害訓練は、次のような一般的なシナリオに適用できます。

1. クラウド ストレージは、さまざまなクラウド プラットフォームまたはハイブリッド クラウド (パブリック クラウドとプライベート クラウドを含む) に展開されます。 2 つのクラウドが同時にサービスを提供するため、災害時には高速な切り替えが必要になります。統一された災害復旧管理とデータの一貫性の確保が必要です。

2. ファイル ストレージ、オブジェクト ストレージ、ブロック ストレージなど、さまざまな種類のクラウド ストレージ デバイス。

さまざまなタイプのクラウド ストレージと障害シナリオに応じて、異なる緊急時計画を確立します。

シナリオ1: クラウドストレージクラスターで、1つのデバイスに障害が発生し、正常に使用できなくなる

使用されるテクノロジー: データ継続性保護 (CDP)

RPO = 1日(1日前のバックアップ コピーを復元できます)。 RTO = 2〜3時間(200Gのデータの復元には10分かかります)。

ビジネス回復の手順:

ストレージ ボリュームとバックアップ コピーを選択して、クラウド ストレージとビジネスの回復を完了します。

シナリオ2: クラウドサービスに保存されているファイルが誤って削除または紛失する

使用される技術: クラウドディスクキャッシュ技術

RPO = 1日(1日前のファイルを復元できます) RTO = 30 分~ 2 時間 (200G のデータの復元には 10 分かかります)。

ビジネス回復の手順:

仮想マシンとバックアップコピーを選択し、失われたファイルのパスを確認し、回復対象を選択して、失われたファイルの回復を完了します。

シナリオ3: オブジェクトストレージが破損または紛失した

使用技術: リカバリ用バックアップ統合マシンDP

RPO = 1日(1日前のファイルを復元できます) RTO = 30 分~ 2 時間 (200G のデータの復元には 10 分かかります)。

ビジネス回復の手順:

リカバリ後のデータの整合性とデータベースの可用性を確保するために、データ リカバリ用のデータベース コピー ファイルを選択します。

シナリオ4: コアビジネスシステムがダウンし、すぐに復旧できない

使用技術: RP技術による回収

RPO = 30秒; RTO = 5分。

ビジネス回復の手順:

適切な時点を選択して災害復旧切り替えを実行し、バックアップマシンを直接起動し、業務が使用可能かどうかを確認します。

IV.結論

クラウド ストレージ ドリル シナリオは、ドリル システム全体の中で非常に重要な部分です。同じビジネス システムのすべてのクラウド ディスクが整合性グループに配置され、ビジネス リカバリ中にテスト オプションが選択されます。災害復旧ソフトウェアは、一貫性グループの下にあるすべての災害復旧ビジネス システムを有効にし、読み取りと書き込みを許可します。同時に、これらの仮想マシンを分離されたネットワークに配置して、実稼働環境に影響が及ばないようにします。次に、業務担当者は災害復旧業務システムをテストし、災害復旧業務システムの可用性を確認します。

クラウド ストレージの緊急切り替え訓練により、クラウド アーキテクチャ モデルを採用している企業におけるセキュリティ インシデントを大幅に削減し、防止することができます。これらは、デジタル変革の時代に企業が事業継続性を構築する上で考慮する必要がある重要なリンクとなっています。また、損失や影響を軽減するための重要な手段の一つでもあり、さまざまな業界で高く評価されています。しかし、従来の IT アーキテクチャの緊急時訓練における成熟したシステムと経験と比較すると、クラウド アーキテクチャ モデルでは、クラウド ストレージの緊急時訓練は遅れて開始され、多くの欠点があります。産業情報セキュリティインシデントへの緊急対応能力を効果的に向上させるためには、標準システム、訓練分野、訓練プロセス、訓練形態、人材などの観点からの改善と革新が急務となっている。

<<:  Kubernetes クラスターのトラフィック露出に対するいくつかのソリューション

>>:  分散データサービスについてお話しましょう

推薦する

特徴重み処理と最終ランキング(パート1)

SEO最適化の詳細について記事を書こうと思います。なぜなら、SEOは細部から始めるべきだとよく言われ...

Baidu Kステーション復旧後に何をすべきかの事例分析(続き)

この記事は、前回のwww.admin5.com/article/20121012/464863.sh...

新しいサイトを素早く上位にランク付けする方法

ウェブサイトを構築するとき、すべてのウェブマスターは自分のウェブサイトができるだけ早く上位にランクさ...

人材業界の特性を把握し、人材サイトを正しく運営する

最近、業界ではSogouと360が合併するかどうかに注目が集まっています。明らかに、他の種類のウェブ...

マイクロサービス CI/CD 実践 - GitOps の完全な設計と実装

[[422238]]単一のアプリケーションと環境複数のアプリケーションと環境CI 継続的インテグレー...

BandwagonHostとは?BandwagonHost VPSの紹介

初心者の中には、友人から BandwagonHost について聞いた人もいるかもしれません。Band...

Baidu の検索戦略が更新された後、なぜあなたのウェブサイトは常に順位が下がるのでしょうか?

ウェブサイトが降格されたと想像するのは非常に恐ろしいことです。特に、長年培ってきたウェブサイトの場合...

vietnix: ベトナム VPS、無制限トラフィック、月額 4.8 ドル、KVM/768m メモリ/15gssd

ベトナムのホスティングプロバイダーである vietnix.vn には、完全な住所、登録番号、電話番号...

エクスポート リンク: これらの考慮事項を理解していますか?

SEO 会社で働き、ウェブサイトの最適化作業を行っている人は、ウェブサイトのリンク構築について多かれ...

3年間ウェブサイトを構築してきましたが、何も達成できず、A5の壁に直面しています。

時が経つのは早いものです。A5 に関する記事を最後に書いたのは 1 年前だったと記憶しています。それ...

すべてのクラウドコンピューティングの顧客がクラウド財務運用を必要とする理由

FinOps (クラウド財務運用) チームを作成していない多くの企業は、コストの管理と報告に苦労し、...

ランキングがより重要か、それとも市場がより重要かについて、私はよく考えました。

最近の A5 の投稿から判断すると、検索エンジンでのキーワードのランキングを向上させる方法に関する記...

SEO担当者がウェブサイトを正しく分析する方法について簡単に説明します

SEO担当者が転職する場合、ほとんどのウェブマスターは新しいウェブサイトと市場状況を体系的に分析し、...

テンセントクラウドがビデオクラウド4.0をリリース、業界で最も完全なオーディオおよびビデオ製品マトリックスを構築

9月11日、テンセントの2020年グローバルデジタルエコシステムカンファレンスのオーディオとビデオコ...

生鮮食品電子商取引会社TuoTu Gongsheの「前例のない」成長の物語

16世紀後半の大航海時代に、オランダは西アジア半島からチューリップを持ち込みました。その後、チューリ...