クラウドストレージ緊急訓練システムの構築とシナリオ設計

クラウドストレージ緊急訓練システムの構築とシナリオ設計

この記事では、クラウド ネイティブとエンタープライズ クラウド アーキテクチャの観点から、クラウド ストレージ ドリルの標準システムを構築する方法を分析します。この記事では、クラウド ストレージ向けの一般的な高可用性災害復旧テクノロジーをいくつか紹介し、さまざまな障害シナリオにおける緊急切り替えプロセスを整理し、クラウド ストレージ標準を満たす緊急計画を確立します。  

1. クラウドストレージドリルの必要性分析

クラウドストレージドリルの重要性

クラウド コンピューティング テクノロジーの推進により、クラウド ストレージは、企業における大量のデータの保存と管理の問題を解決する効果的な方法になってきています。企業の日常的な生産プロセスで生成されるさまざまな種類の非構造化データに対して、企業は対応する種類のクラウド ストレージ (ファイル ストレージ、オブジェクト ストレージ、ブロック ストレージなど) を選択して、非構造化データを統一的に保存および管理できます。分散ストレージ アーキテクチャによって提供されるストレージとしてのソフトウェア機能を活用することで、企業がクラウド サービスの基本システム サービス層を構築し、クラウド上のさまざまなマイクロサービス アプリケーションにクラウド ストレージおよびクラウド共有サービスを提供できるよう支援します。

クラウドストレージとクラウドプラットフォームインフラストラクチャの緊急切り替え訓練メカニズムを確立することで、企業の情報セキュリティインシデントへの対応能力が大幅に向上し、情報セキュリティインシデントによる損失を軽減・防止し、ビジネスの継続性を確保できます。企業のコアデータとコアストレージデバイスに対する完全な緊急時対応計画の確立、緊急時対応メカニズムの構築、緊急時サポート計画の有効性の検証は、事業継続における重要なリンクとなっています。

クラウドストレージ VS 従来型ストレージ

従来のストレージ アーキテクチャと比較して、クラウド ストレージの災害復旧サービスには通常、弾力性のあるクラウド コンピューティング リソース、クラウド ハード ディスク デバイス、分散ストレージ デバイス、およびその他のサービスに対する災害復旧サービスが含まれます。これらのサービスは、上位層アプリケーションに対してより柔軟な統合ハードウェアおよびソフトウェア展開モデルを提供するだけでなく、特に緊急訓練の実施においてより堅牢な高可用性モデルも提供します。クラウド上の既存のビジネス ポリシーに基づいて、クラウド サーバーとクラウド ストレージの保護インスタンスをオンデマンドで構成できます。また、ストレージ同期レプリケーション技術、ディスクマッピング技術、データキャッシュ冗長化などの技術を通じて、クラウドストレージの高可用性を構築し、ビジネスにデータの信頼性と事業継続性を提供し、災害復旧バックアップのRPOが0であることを保証します。訓練中、クラウドストレージはエラスティッククラウドサーバーのデータと構成情報を災害復旧サイトにコピーし、ダウンタイム中に別の場所からアプリケーションサーバーの起動と通常操作をサポートし、事業継続性を向上させます。従来のストレージと比較して、クラウド ストレージに基づく災害復旧は、災害復旧構築のコストをより削減できます。

2. クラウドストレージの緊急シナリオと標準システム構築

クラウドストレージ切り替え訓練とシナリオ構築

企業の事業継続性の要件とクラウド ストレージの特性および現状に応じて、緊急訓練の内容、実施プロセス、および期待される結果を考慮し、クラウド ストレージの緊急訓練を整理する際には、次の点に特に注意する必要があります。

まず、組織的な訓練計画チームを設立し、訓練の範囲とサイクルを決定します。初期の訓練では、複雑さを軽減し、リスクゼロを前提として複数の小規模な訓練を実施し、管理者の災害復旧能力を強化します。

訓練シナリオを設計し、復旧戦略を策定する: 緊急時計画に合わせて、さまざまな訓練シナリオと対応する復旧戦略を設定します。

最後に、実践的な演習とまとめを実施し、復旧プロセス全体を監視および記録し、災害復旧プロセスとバックアップ データの有効性を検証します。

クラウドアーキテクチャに基づくドリルの標準システムを構築

ビジネス プラットフォームはクラウド アーキテクチャをベースとし、分散型コンピュータ ストレージ システムを採用しているため、自然にデータ冗長ストレージが形成され、自動回復メカニズムが備わっており、ハードウェア障害や単一ストレージ デバイス障害などの外部不可抗力リスクに対するストレージ データの耐性が向上します。したがって、インフラストラクチャからアプリケーション層、基盤となる環境 (物理マシン、仮想マシン、コンテナ) とオペレーティング システム (Linux、Windows)、アプリケーション コンテナ オーケストレーションなどの側面をカバーする、クラウド アーキテクチャ ベースのドリルの標準システムの構築に、より多くの注意を払う必要があります。著者は、クラウド ストレージ ベースのドリル システムの構築には少なくとも次の内容が含まれるべきだと考えています。

(1)クラウドストレージ緊急対応の各リンクにおける役割と責任を明確にし、クラウドストレージの対応・運用能力を向上させる。クラウド アーキテクチャ環境では、従来のストレージ デバイス管理者が DevOps 開発および運用エンジニアに変わり、ストレージの運用と保守もハードウェア レベルからアプリケーションとマイクロサービスのサポートへと変わります。

(2)複数の手段を組み合わせてクラウドストレージ緊急訓練技術システムを構築する。実際のシミュレーション可能なマイクロサービスストレージ障害などの緊急環境を使用して参加者を訓練し、心理的な適応力と調整能力を高め、緊急現場での適応期間を短縮します。

(3)SSDクラウドディスクのIOPS、スループット、アクセスレイテンシなど、緊急時訓練の各段階におけるクラウドストレージの主要な機能要素を明確にする。これに基づき、定性的・定量的側面から運動効果の科学的な評価指標体系を構築します。

(4)既存の伝統的貯蔵施設の緊急時計画、政策、規制、緊急時プロセスをテスト・評価し、欠点や弱点を特定し、的を絞った改善を行う。緊急資源の準備と支援における欠点と弱点を特定する。各リンクに関与する組織間の調整およびコミュニケーション能力を向上させる。

クラウドネイティブ思考で訓練の範囲を拡大

分散クラウド ストレージはますます複雑になってきており、実行領域の決定には、従来のアーキテクチャには存在しない多くの不確実性を考慮し、考え方を広げることも必要になります。たとえば、マシンの高負荷、ネットワーク異常、ディスク IO、ノードのスケジューリング、クラウド プラットフォーム自体のリソース、アプリケーション サービス、コンテナー、インフラストラクチャによって発生する問題などの障害です。

国内のクラウド ストレージを例に、クラウド ストレージに関連するさまざまなレベルでの一般的な障害シナリオを分析します。

上記の障害シナリオに基づいて、クラウド ストレージのフォールト トレランス メカニズムには通常、次のものが含まれます。

クラウドディスクキャッシュ

クラウド ディスクにデータをキャッシュし、頻繁に使用するデータをバックアップします。そのため、ユーザーが同じデータに再度アクセスする際にはキャッシュからアクセスすることになり、アクセス時間が大幅に短縮されます。クラウド ストレージの災害復旧では、データ情報が災害復旧システムにキャッシュされ、データのバックアップと迅速な復旧が実現されます。

その中で、データ災害復旧キャッシュ技術を実装する方法は通常 2 つあります。

まず、ローカル災害復旧ディスクの飽和計算を行います。この方法は、単位時間あたりのデータ回復回数をカウントして計算し、回復回数が少ないデータ ブロックを置き換える方法です。

第二に、リモートデータ情報の回復計算とは、単位時間当たりにデータブロックが回復される回数に基づいて、リモートデータブロックを置き換えるかどうかを決定することを指します。

マッピング技術

マッピング技術は、一般的にクラウド ディスクとプログラム管理間のマッピング関係を処理します。情報ストレージを完成させるための主要な技術です。マッピング関係の出現により、データの自動移行が可能になります。自動移行とは、データの自動保存、コピーと貼り付け、削除など、指示によってトリガーされる自動化された操作です。

クラウドディスクが破損した場合、マッピング技術がデータ災害復旧に適用されます。災害復旧システムは自動的に指示を受信し、関連するデータに対してマッピング操作を実行します。マッピング技術を使用すると、ディスクを透過的に交換してクラウド ストレージ環境を構築し、マッピングされたデータを複製してクラウド ストレージ環境内の災害復旧システムにバックアップすることができます。同時に、ディスクの損傷によるデータの永久的な不可逆性を回避するために、データのバックアップ プロセス中に複数のコピーを同時に作成できます。

ストレージリンクの冗長性

データ災害復旧システムにはプライマリノードと冗長バックアップノードが含まれるため、それらを接続する相互接続技術は災害復旧において非常に重要です。現在、プライマリ ノードと冗長バックアップ ノード間の接続は主にファイバー チャネル接続であり、これは主に SAN リモート レプリケーションに基づいています。つまり、2 つの SAN がリモート レプリケーションのためにファイバー チャネル FC を介して接続されています。災害が発生すると、バックアップ データ センターがメイン データ センターに代わり、システム運用の継続性を確保します。このリモート災害復旧バックアップ方法の欠点としては、実装コストが高いことと、機器の相互運用性が低いことが挙げられます。

継続的データ保護 (CDP)

継続的データ保護 (CDP) は、アプリケーション データへのすべての変更をリアルタイムで自動的に記録するリアルタイム データ バックアップ システムです。重要なのは、アプリケーション データの変更ごとに時間インデックスを追加することです。これにより、データの損失、データの破損、セキュリティ上の問題が発生した場合でも、最新の完全なデータに復元することが可能になります。 CDP テクノロジーは進歩し続けており、データ損失が発生した場合でも迅速なデータ回復が可能になり、ライフサイクル内の任意の指定時点にデータを復元できます。

3. クラウドストレージ訓練プロセスと緊急時対応計画の確立

ドリルプロセスの改善

現在、伝統的なアーキテクチャの緊急訓練プロセスにおいて、企業は緊急訓練の重要な役割を認識しており、訓練を通じて緊急対応能力を向上させることを望んでいます。しかし、クラウド ストレージには標準化された訓練手順がないため、無理な訓練計画、不明瞭な訓練スクリプト、不十分な人員トレーニング、不十分なサポート準備などの問題が簡単に発生し、クラウド ストレージ訓練の品質が期待される要件を満たさないことになります。この問題に対処するには、クラウド アーキテクチャの特性に基づいて訓練を継続的に改善する方法とプロセスを模索し、一連の訓練プログラム管理システムを設計して、計画、設計、実装から評価、改善までの包括的な管理を実現し、クラウド ストレージの緊急訓練プロセスを徐々に改善して、緊急計画の科学性、実現可能性、有効性をより効果的に検証する必要があります。

IaaS層とPaaS層が堅牢かどうかを評価する

基盤となるインフラストラクチャまたはプラットフォームのリソース負荷をシミュレートして、スケジューリング システムの有効性を検証します。依存する分散ストレージが使用できない状態をシミュレートしてシステムの耐障害性を検証する。スケジューリング ノードが使用できない状態をシミュレートして、スケジューリング タスクが使用可能なノードに自動的に移行されるかどうかをテストします。マスタースレーブノード障害をシミュレートして、マスタースレーブノード障害が正常かどうかをテストします。

コンテナとマイクロサービスのフォールトトレランスの測定

通話の遅延、サービスの利用不可、マシン リソースの完全な負荷をシミュレートすることで、障害が発生したノードまたはインスタンスが自動的に分離されてオフラインになるかどうか、トラフィックのスケジュールが正しいかどうか、計画が有効かどうかを確認し、システムの全体的な QPS または RT が影響を受けるかどうかを観察します。これに基づいて、障害のあるノードの範囲を徐々に拡大し、上流のサービス電流制限、劣化、および回路遮断が有効かどうかを確認できます。最終的に、障害が発生したノードの数が増加し、要求サービスがタイムアウトするまで増加し、システムのフォールト トレランスのレッド ラインを推定し、システムのフォールト トレランス能力を測定します。

コンテナオーケストレーション構成が適切であることを確認する

サービス ポッドの強制終了、ノードの強制終了、ポッド リソース負荷の増加をシミュレートすることで、システム サービスの可用性を観察し、レプリカ構成、リソース制限構成、ポッドの下にデプロイされたコンテナーが適切かどうかを確認できます。

監視アラームの適時性を確認する

システムに障害を注入することで、監視指標が正確かどうか、監視ディメンションが完全かどうか、アラームしきい値が妥当かどうか、アラームが高速かどうか、アラーム受信者が正しいかどうか、通知チャネルが利用可能かどうかなどを検証し、監視アラームの精度と適時性を向上させることができます。

クラウドストレージに基づいて訓練シナリオを充実させ、緊急時対応計画を作成する

訓練シナリオは、事業継続計画の中核となる内容と言えます。クラウド アーキテクチャ モードでは、クラウド ストレージのドリル シナリオは、障害領域ごとにドリル シナリオが決定され、シナリオごとにドリル テンプレートとスクリプトが設定されます。ドリル フェーズを開始するときは、ドリル シナリオを選択して開始するだけです。

クラウド ストレージ障害訓練は、次のような一般的なシナリオに適用できます。

1. クラウド ストレージは、さまざまなクラウド プラットフォームまたはハイブリッド クラウド (パブリック クラウドとプライベート クラウドを含む) に展開されます。 2 つのクラウドが同時にサービスを提供するため、災害時には高速な切り替えが必要になります。統一された災害復旧管理とデータの一貫性の確保が必要です。

2. ファイル ストレージ、オブジェクト ストレージ、ブロック ストレージなど、さまざまな種類のクラウド ストレージ デバイス。

さまざまなタイプのクラウド ストレージと障害シナリオに応じて、異なる緊急時計画を確立します。

シナリオ1: クラウドストレージクラスターで、1つのデバイスに障害が発生し、正常に使用できなくなる

使用されるテクノロジー: データ継続性保護 (CDP)

RPO = 1日(1日前のバックアップ コピーを復元できます)。 RTO = 2〜3時間(200Gのデータの復元には10分かかります)。

ビジネス回復の手順:

ストレージ ボリュームとバックアップ コピーを選択して、クラウド ストレージとビジネスの回復を完了します。

シナリオ2: クラウドサービスに保存されているファイルが誤って削除または紛失する

使用される技術: クラウドディスクキャッシュ技術

RPO = 1日(1日前のファイルを復元できます) RTO = 30 分~ 2 時間 (200G のデータの復元には 10 分かかります)。

ビジネス回復の手順:

仮想マシンとバックアップコピーを選択し、失われたファイルのパスを確認し、回復対象を選択して、失われたファイルの回復を完了します。

シナリオ3: オブジェクトストレージが破損または紛失した

使用技術: リカバリ用バックアップ統合マシンDP

RPO = 1日(1日前のファイルを復元できます) RTO = 30 分~ 2 時間 (200G のデータの復元には 10 分かかります)。

ビジネス回復の手順:

リカバリ後のデータの整合性とデータベースの可用性を確保するために、データ リカバリ用のデータベース コピー ファイルを選択します。

シナリオ4: コアビジネスシステムがダウンし、すぐに復旧できない

使用技術: RP技術による回収

RPO = 30秒; RTO = 5分。

ビジネス回復の手順:

適切な時点を選択して災害復旧切り替えを実行し、バックアップマシンを直接起動し、業務が使用可能かどうかを確認します。

IV.結論

クラウド ストレージ ドリル シナリオは、ドリル システム全体の中で非常に重要な部分です。同じビジネス システムのすべてのクラウド ディスクが整合性グループに配置され、ビジネス リカバリ中にテスト オプションが選択されます。災害復旧ソフトウェアは、一貫性グループの下にあるすべての災害復旧ビジネス システムを有効にし、読み取りと書き込みを許可します。同時に、これらの仮想マシンを分離されたネットワークに配置して、実稼働環境に影響が及ばないようにします。次に、業務担当者は災害復旧業務システムをテストし、災害復旧業務システムの可用性を確認します。

クラウド ストレージの緊急切り替え訓練により、クラウド アーキテクチャ モデルを採用している企業におけるセキュリティ インシデントを大幅に削減し、防止することができます。これらは、デジタル変革の時代に企業が事業継続性を構築する上で考慮する必要がある重要なリンクとなっています。また、損失や影響を軽減するための重要な手段の一つでもあり、さまざまな業界で高く評価されています。しかし、従来の IT アーキテクチャの緊急時訓練における成熟したシステムと経験と比較すると、クラウド アーキテクチャ モデルでは、クラウド ストレージの緊急時訓練は遅れて開始され、多くの欠点があります。産業情報セキュリティインシデントへの緊急対応能力を効果的に向上させるためには、標準システム、訓練分野、訓練プロセス、訓練形態、人材などの観点からの改善と革新が急務となっている。

<<:  Kubernetes クラスターのトラフィック露出に対するいくつかのソリューション

>>:  分散データサービスについてお話しましょう

推薦する

tover-256mXEN/20gハードディスク/200gフロー/月額2.99ドル

tover.net は、XEN VPS のみを提供する新しい VPS プロバイダーです。価格性能比は...

タオバオはもう一つの「必殺技」を繰り出したと噂されている。超低価格商品の価格を緊急に引き下げるというものだ。

8月16日、ある販売業者は易邦電力網に独占的に、800元引きなどの低価格プロモーションプラットフォー...

海外の購買代理店は岐路に立たされている:猿を怖がらせるために鶏を殺しても効果がないかもしれない

編集後記/最近、「スチュワーデス購買代行」が密輸容疑で重刑を宣告された事件は、国内の多くの購買代行業...

ブランドマーケティング手法を革新するには?

「デジタル経済白書」は​​、デジタル経済分野における非常に先見性のあるコンテンツとして、詳細なデータ...

Gmailをブロックするのは後退だ

Googleが中国本土から正式に「撤退」してから5周年を迎える前夜、Googleの人気メールシステム...

新しいサイト最適化におけるコンテンツ品質の問題を解決する方法

あらゆるウェブサイトの基礎はコンテンツです。サイトのコンテンツの基礎を確保しながら、外部リンクを掲載...

ソフトテキストマーケティングの「行き詰まり」の観点からソフトテキストマーケティングの要素を見る

ソフト記事マーケティングは簡単に理解できます。これは、広告的な性質を持つ記事を作成し、それを潜在顧客...

エッジコンピューティングが業務に与える影響

エッジ コンピューティングが運用と保守に与える影響は相互に関連しており、次のようにまとめることができ...

QingCloud、エンタープライズレベルのフルスタッククラウドICTマトリックスを構築するために9つの主要ブランドを立ち上げ

エンタープライズレベルのフルスタッククラウドICTサービスプロバイダーであるQingCloud(qi...

Taobao アフィリエイトは、販売者が特別プランから撤退するリスクをどのように回避できますか?

タオバオをやる場合、誠実な業者を選ぶことが非常に重要です。一部の業者は、一定の商品販売量に達すると、...

ウェブサイト最適化の最良の状態とステータス

私は長年ウェブサイト最適化業界に携わってきました。企業で働き、クライアントの多くのプロジェクトを担当...

hostflyte: 旧正月特別 VPS、cn2 gia、KVM シリーズ、512m メモリ、年間 20 ドル

Hostflyte の cn2 gia シリーズ VPS の通常バージョンは確かに高価です。公式は中...

Kuaiboの王欣とMomoが地図ソーシャルネットワーキング市場に参入、新たなトレンドか?

MaToilet MTの失敗後も、王欣はソーシャルネットワーキングの探求をやめなかった。 Tech ...

優れた SEM 広告タイトルを書くための 7 つのヒント: ユーザーを誘導して惹きつける方法

SEMプロモーションは今や企業からますます注目を集めています。限られたスペースでより重要な情報を表示...

アルゴリズムの更新、検索エンジンによる外部リンク構築の規制

ウェブサイトを構築するときは、まずユーザー エクスペリエンスを考慮し、次に検索エンジンを考慮する必要...