クラウドストレージ緊急訓練システムの構築とシナリオ設計

この記事では、クラウドネイティブとエンタープライズクラウドアーキテクチャの観点から、クラウドストレージドリルの標準システムを構築する方法を分析します。この記事では、クラウドストレージ向けの一般的な高可用性災害復旧テクノロジーをいくつか紹介し、さまざまな障害シナリオにおける緊急切り替えプロセスを整理し、クラウドストレージ標準を満たす緊急計画を確立します。　　

1. クラウドストレージドリルの必要性分析

クラウドストレージドリルの重要性

クラウドコンピューティングテクノロジーの推進により、クラウドストレージは、企業における大量のデータの保存と管理の問題を解決する効果的な方法になってきています。企業の日常的な生産プロセスで生成されるさまざまな種類の非構造化データに対して、企業は対応する種類のクラウドストレージ (ファイルストレージ、オブジェクトストレージ、ブロックストレージなど) を選択して、非構造化データを統一的に保存および管理できます。分散ストレージアーキテクチャによって提供されるストレージとしてのソフトウェア機能を活用することで、企業がクラウドサービスの基本システムサービス層を構築し、クラウド上のさまざまなマイクロサービスアプリケーションにクラウドストレージおよびクラウド共有サービスを提供できるよう支援します。

クラウドストレージとクラウドプラットフォームインフラストラクチャの緊急切り替え訓練メカニズムを確立することで、企業の情報セキュリティインシデントへの対応能力が大幅に向上し、情報セキュリティインシデントによる損失を軽減・防止し、ビジネスの継続性を確保できます。企業のコアデータとコアストレージデバイスに対する完全な緊急時対応計画の確立、緊急時対応メカニズムの構築、緊急時サポート計画の有効性の検証は、事業継続における重要なリンクとなっています。

クラウドストレージ VS 従来型ストレージ

従来のストレージアーキテクチャと比較して、クラウドストレージの災害復旧サービスには通常、弾力性のあるクラウドコンピューティングリソース、クラウドハードディスクデバイス、分散ストレージデバイス、およびその他のサービスに対する災害復旧サービスが含まれます。これらのサービスは、上位層アプリケーションに対してより柔軟な統合ハードウェアおよびソフトウェア展開モデルを提供するだけでなく、特に緊急訓練の実施においてより堅牢な高可用性モデルも提供します。クラウド上の既存のビジネスポリシーに基づいて、クラウドサーバーとクラウドストレージの保護インスタンスをオンデマンドで構成できます。また、ストレージ同期レプリケーション技術、ディスクマッピング技術、データキャッシュ冗長化などの技術を通じて、クラウドストレージの高可用性を構築し、ビジネスにデータの信頼性と事業継続性を提供し、災害復旧バックアップのRPOが0であることを保証します。訓練中、クラウドストレージはエラスティッククラウドサーバーのデータと構成情報を災害復旧サイトにコピーし、ダウンタイム中に別の場所からアプリケーションサーバーの起動と通常操作をサポートし、事業継続性を向上させます。従来のストレージと比較して、クラウドストレージに基づく災害復旧は、災害復旧構築のコストをより削減できます。

2. クラウドストレージの緊急シナリオと標準システム構築

クラウドストレージ切り替え訓練とシナリオ構築

企業の事業継続性の要件とクラウドストレージの特性および現状に応じて、緊急訓練の内容、実施プロセス、および期待される結果を考慮し、クラウドストレージの緊急訓練を整理する際には、次の点に特に注意する必要があります。

まず、組織的な訓練計画チームを設立し、訓練の範囲とサイクルを決定します。初期の訓練では、複雑さを軽減し、リスクゼロを前提として複数の小規模な訓練を実施し、管理者の災害復旧能力を強化します。

訓練シナリオを設計し、復旧戦略を策定する: 緊急時計画に合わせて、さまざまな訓練シナリオと対応する復旧戦略を設定します。

最後に、実践的な演習とまとめを実施し、復旧プロセス全体を監視および記録し、災害復旧プロセスとバックアップデータの有効性を検証します。

クラウドアーキテクチャに基づくドリルの標準システムを構築

ビジネスプラットフォームはクラウドアーキテクチャをベースとし、分散型コンピュータストレージシステムを採用しているため、自然にデータ冗長ストレージが形成され、自動回復メカニズムが備わっており、ハードウェア障害や単一ストレージデバイス障害などの外部不可抗力リスクに対するストレージデータの耐性が向上します。したがって、インフラストラクチャからアプリケーション層、基盤となる環境 (物理マシン、仮想マシン、コンテナ) とオペレーティングシステム (Linux、Windows)、アプリケーションコンテナオーケストレーションなどの側面をカバーする、クラウドアーキテクチャベースのドリルの標準システムの構築に、より多くの注意を払う必要があります。著者は、クラウドストレージベースのドリルシステムの構築には少なくとも次の内容が含まれるべきだと考えています。

（１）クラウドストレージ緊急対応の各リンクにおける役割と責任を明確にし、クラウドストレージの対応・運用能力を向上させる。クラウドアーキテクチャ環境では、従来のストレージデバイス管理者が DevOps 開発および運用エンジニアに変わり、ストレージの運用と保守もハードウェアレベルからアプリケーションとマイクロサービスのサポートへと変わります。

（２）複数の手段を組み合わせてクラウドストレージ緊急訓練技術システムを構築する。実際のシミュレーション可能なマイクロサービスストレージ障害などの緊急環境を使用して参加者を訓練し、心理的な適応力と調整能力を高め、緊急現場での適応期間を短縮します。

（３）SSDクラウドディスクのIOPS、スループット、アクセスレイテンシなど、緊急時訓練の各段階におけるクラウドストレージの主要な機能要素を明確にする。これに基づき、定性的・定量的側面から運動効果の科学的な評価指標体系を構築します。

（４）既存の伝統的貯蔵施設の緊急時計画、政策、規制、緊急時プロセスをテスト・評価し、欠点や弱点を特定し、的を絞った改善を行う。緊急資源の準備と支援における欠点と弱点を特定する。各リンクに関与する組織間の調整およびコミュニケーション能力を向上させる。

クラウドネイティブ思考で訓練の範囲を拡大

分散クラウドストレージはますます複雑になってきており、実行領域の決定には、従来のアーキテクチャには存在しない多くの不確実性を考慮し、考え方を広げることも必要になります。たとえば、マシンの高負荷、ネットワーク異常、ディスク IO、ノードのスケジューリング、クラウドプラットフォーム自体のリソース、アプリケーションサービス、コンテナー、インフラストラクチャによって発生する問題などの障害です。

国内のクラウドストレージを例に、クラウドストレージに関連するさまざまなレベルでの一般的な障害シナリオを分析します。

上記の障害シナリオに基づいて、クラウドストレージのフォールトトレランスメカニズムには通常、次のものが含まれます。

クラウドディスクキャッシュ

クラウドディスクにデータをキャッシュし、頻繁に使用するデータをバックアップします。そのため、ユーザーが同じデータに再度アクセスする際にはキャッシュからアクセスすることになり、アクセス時間が大幅に短縮されます。クラウドストレージの災害復旧では、データ情報が災害復旧システムにキャッシュされ、データのバックアップと迅速な復旧が実現されます。

その中で、データ災害復旧キャッシュ技術を実装する方法は通常 2 つあります。

まず、ローカル災害復旧ディスクの飽和計算を行います。この方法は、単位時間あたりのデータ回復回数をカウントして計算し、回復回数が少ないデータブロックを置き換える方法です。

第二に、リモートデータ情報の回復計算とは、単位時間当たりにデータブロックが回復される回数に基づいて、リモートデータブロックを置き換えるかどうかを決定することを指します。

マッピング技術

マッピング技術は、一般的にクラウドディスクとプログラム管理間のマッピング関係を処理します。情報ストレージを完成させるための主要な技術です。マッピング関係の出現により、データの自動移行が可能になります。自動移行とは、データの自動保存、コピーと貼り付け、削除など、指示によってトリガーされる自動化された操作です。

クラウドディスクが破損した場合、マッピング技術がデータ災害復旧に適用されます。災害復旧システムは自動的に指示を受信し、関連するデータに対してマッピング操作を実行します。マッピング技術を使用すると、ディスクを透過的に交換してクラウドストレージ環境を構築し、マッピングされたデータを複製してクラウドストレージ環境内の災害復旧システムにバックアップすることができます。同時に、ディスクの損傷によるデータの永久的な不可逆性を回避するために、データのバックアッププロセス中に複数のコピーを同時に作成できます。

ストレージリンクの冗長性

データ災害復旧システムにはプライマリノードと冗長バックアップノードが含まれるため、それらを接続する相互接続技術は災害復旧において非常に重要です。現在、プライマリノードと冗長バックアップノード間の接続は主にファイバーチャネル接続であり、これは主に SAN リモートレプリケーションに基づいています。つまり、2 つの SAN がリモートレプリケーションのためにファイバーチャネル FC を介して接続されています。災害が発生すると、バックアップデータセンターがメインデータセンターに代わり、システム運用の継続性を確保します。このリモート災害復旧バックアップ方法の欠点としては、実装コストが高いことと、機器の相互運用性が低いことが挙げられます。

継続的データ保護 (CDP)

継続的データ保護 (CDP) は、アプリケーションデータへのすべての変更をリアルタイムで自動的に記録するリアルタイムデータバックアップシステムです。重要なのは、アプリケーションデータの変更ごとに時間インデックスを追加することです。これにより、データの損失、データの破損、セキュリティ上の問題が発生した場合でも、最新の完全なデータに復元することが可能になります。 CDP テクノロジーは進歩し続けており、データ損失が発生した場合でも迅速なデータ回復が可能になり、ライフサイクル内の任意の指定時点にデータを復元できます。

3. クラウドストレージ訓練プロセスと緊急時対応計画の確立

ドリルプロセスの改善

現在、伝統的なアーキテクチャの緊急訓練プロセスにおいて、企業は緊急訓練の重要な役割を認識しており、訓練を通じて緊急対応能力を向上させることを望んでいます。しかし、クラウドストレージには標準化された訓練手順がないため、無理な訓練計画、不明瞭な訓練スクリプト、不十分な人員トレーニング、不十分なサポート準備などの問題が簡単に発生し、クラウドストレージ訓練の品質が期待される要件を満たさないことになります。この問題に対処するには、クラウドアーキテクチャの特性に基づいて訓練を継続的に改善する方法とプロセスを模索し、一連の訓練プログラム管理システムを設計して、計画、設計、実装から評価、改善までの包括的な管理を実現し、クラウドストレージの緊急訓練プロセスを徐々に改善して、緊急計画の科学性、実現可能性、有効性をより効果的に検証する必要があります。

IaaS層とPaaS層が堅牢かどうかを評価する

基盤となるインフラストラクチャまたはプラットフォームのリソース負荷をシミュレートして、スケジューリングシステムの有効性を検証します。依存する分散ストレージが使用できない状態をシミュレートしてシステムの耐障害性を検証する。スケジューリングノードが使用できない状態をシミュレートして、スケジューリングタスクが使用可能なノードに自動的に移行されるかどうかをテストします。マスタースレーブノード障害をシミュレートして、マスタースレーブノード障害が正常かどうかをテストします。

コンテナとマイクロサービスのフォールトトレランスの測定

通話の遅延、サービスの利用不可、マシンリソースの完全な負荷をシミュレートすることで、障害が発生したノードまたはインスタンスが自動的に分離されてオフラインになるかどうか、トラフィックのスケジュールが正しいかどうか、計画が有効かどうかを確認し、システムの全体的な QPS または RT が影響を受けるかどうかを観察します。これに基づいて、障害のあるノードの範囲を徐々に拡大し、上流のサービス電流制限、劣化、および回路遮断が有効かどうかを確認できます。最終的に、障害が発生したノードの数が増加し、要求サービスがタイムアウトするまで増加し、システムのフォールトトレランスのレッドラインを推定し、システムのフォールトトレランス能力を測定します。

コンテナオーケストレーション構成が適切であることを確認する

サービスポッドの強制終了、ノードの強制終了、ポッドリソース負荷の増加をシミュレートすることで、システムサービスの可用性を観察し、レプリカ構成、リソース制限構成、ポッドの下にデプロイされたコンテナーが適切かどうかを確認できます。

監視アラームの適時性を確認する

システムに障害を注入することで、監視指標が正確かどうか、監視ディメンションが完全かどうか、アラームしきい値が妥当かどうか、アラームが高速かどうか、アラーム受信者が正しいかどうか、通知チャネルが利用可能かどうかなどを検証し、監視アラームの精度と適時性を向上させることができます。

クラウドストレージに基づいて訓練シナリオを充実させ、緊急時対応計画を作成する

訓練シナリオは、事業継続計画の中核となる内容と言えます。クラウドアーキテクチャモードでは、クラウドストレージのドリルシナリオは、障害領域ごとにドリルシナリオが決定され、シナリオごとにドリルテンプレートとスクリプトが設定されます。ドリルフェーズを開始するときは、ドリルシナリオを選択して開始するだけです。

クラウドストレージ障害訓練は、次のような一般的なシナリオに適用できます。

1. クラウドストレージは、さまざまなクラウドプラットフォームまたはハイブリッドクラウド (パブリッククラウドとプライベートクラウドを含む) に展開されます。 2 つのクラウドが同時にサービスを提供するため、災害時には高速な切り替えが必要になります。統一された災害復旧管理とデータの一貫性の確保が必要です。

2. ファイルストレージ、オブジェクトストレージ、ブロックストレージなど、さまざまな種類のクラウドストレージデバイス。

さまざまなタイプのクラウドストレージと障害シナリオに応じて、異なる緊急時計画を確立します。

シナリオ1: クラウドストレージクラスターで、1つのデバイスに障害が発生し、正常に使用できなくなる

使用されるテクノロジー: データ継続性保護 (CDP)

RPO = 1日（1日前のバックアップコピーを復元できます）。 RTO = 2〜3時間（200Gのデータの復元には10分かかります）。

ビジネス回復の手順:

ストレージボリュームとバックアップコピーを選択して、クラウドストレージとビジネスの回復を完了します。

シナリオ2: クラウドサービスに保存されているファイルが誤って削除または紛失する

使用される技術: クラウドディスクキャッシュ技術

RPO = 1日（1日前のファイルを復元できます） RTO = 30 分～ 2 時間 (200G のデータの復元には 10 分かかります)。

ビジネス回復の手順:

仮想マシンとバックアップコピーを選択し、失われたファイルのパスを確認し、回復対象を選択して、失われたファイルの回復を完了します。

シナリオ3: オブジェクトストレージが破損または紛失した

使用技術: リカバリ用バックアップ統合マシンDP

RPO = 1日（1日前のファイルを復元できます） RTO = 30 分～ 2 時間 (200G のデータの復元には 10 分かかります)。

ビジネス回復の手順:

リカバリ後のデータの整合性とデータベースの可用性を確保するために、データリカバリ用のデータベースコピーファイルを選択します。

シナリオ4: コアビジネスシステムがダウンし、すぐに復旧できない

使用技術: RP技術による回収

RPO = 30秒; RTO = 5分。

ビジネス回復の手順:

適切な時点を選択して災害復旧切り替えを実行し、バックアップマシンを直接起動し、業務が使用可能かどうかを確認します。

IV.結論

クラウドストレージドリルシナリオは、ドリルシステム全体の中で非常に重要な部分です。同じビジネスシステムのすべてのクラウドディスクが整合性グループに配置され、ビジネスリカバリ中にテストオプションが選択されます。災害復旧ソフトウェアは、一貫性グループの下にあるすべての災害復旧ビジネスシステムを有効にし、読み取りと書き込みを許可します。同時に、これらの仮想マシンを分離されたネットワークに配置して、実稼働環境に影響が及ばないようにします。次に、業務担当者は災害復旧業務システムをテストし、災害復旧業務システムの可用性を確認します。

クラウドストレージの緊急切り替え訓練により、クラウドアーキテクチャモデルを採用している企業におけるセキュリティインシデントを大幅に削減し、防止することができます。これらは、デジタル変革の時代に企業が事業継続性を構築する上で考慮する必要がある重要なリンクとなっています。また、損失や影響を軽減するための重要な手段の一つでもあり、さまざまな業界で高く評価されています。しかし、従来の IT アーキテクチャの緊急時訓練における成熟したシステムと経験と比較すると、クラウドアーキテクチャモデルでは、クラウドストレージの緊急時訓練は遅れて開始され、多くの欠点があります。産業情報セキュリティインシデントへの緊急対応能力を効果的に向上させるためには、標準システム、訓練分野、訓練プロセス、訓練形態、人材などの観点からの改善と革新が急務となっている。

<<: Kubernetes クラスターのトラフィック露出に対するいくつかのソリューション

>>: 分散データサービスについてお話しましょう

BandwagonHostの返金に関する問題の説明とBandwagonHostの返金のスムーズな解決

1. クラウドストレージドリルの必要性分析

クラウドストレージドリルの重要性

クラウドストレージ VS 従来型ストレージ

2. クラウドストレージの緊急シナリオと標準システム構築

クラウドストレージ切り替え訓練とシナリオ構築

クラウドアーキテクチャに基づくドリルの標準システムを構築

クラウドネイティブ思考で訓練の範囲を拡大

クラウドディスクキャッシュ

マッピング技術

ストレージリンクの冗長性

継続的データ保護 (CDP)

3. クラウドストレージ訓練プロセスと緊急時対応計画の確立

ドリルプロセスの改善

IaaS層とPaaS層が堅牢かどうかを評価する

コンテナとマイクロサービスのフォールトトレランスの測定

コンテナオーケストレーション構成が適切であることを確認する

監視アラームの適時性を確認する

クラウドストレージに基づいて訓練シナリオを充実させ、緊急時対応計画を作成する

シナリオ1: クラウドストレージクラスターで、1つのデバイスに障害が発生し、正常に使用できなくなる

シナリオ2: クラウドサービスに保存されているファイルが誤って削除または紛失する

シナリオ3: オブジェクトストレージが破損または紛失した

IV.結論

推薦する