クラウド導入における高可用性と災害復旧のための 4 つの専門家のヒント

クラウド導入における高可用性と災害復旧のための 4 つの専門家のヒント


障害が発生した場合でも中断することなく運用を継続するために、高可用性 (HA) と災害復旧 (DR) の方法を使用する方法を学習します。

事業継続性とは、停電が発生した場合でも企業が中断することなく業務を継続できる能力を指します。クラウド環境では、これには通常、高可用性 (HA) と災害復旧 (DR) が含まれます。

最終的な目標は、ダウンタイムのリスクを最小限に抑えて、停止が発生した場合でも重要なサービスを正常に実行し続けることができるようにすることです。

HA と DR の詳細と、クラウドでのビジネス継続性を向上させる方法については、以下をお読みください。

高可用性とはどういう意味ですか?

高可用性の基本的な考え方は、クラウドベースのサービスとツールをオンデマンドでアクセス可能にし、動作させることです。ただし、HA の概念は、必要なときにクラウド リソースを単に利用できるようにするだけではありません。

可用性とは、クラウド インフラストラクチャが目的を達成するために稼働し続ける時間の割合であり、通常は 9 桁で表されます。たとえば、「5 x 9」は、システムが 99.999% の時間完全に稼働し、年間平均 5.5 分のダウンタイムが発生することを意味します。

クラウド展開で高可用性を実現するには、システムの冗長性によって単一障害点を排除する必要があります。 HA では、ネットワーク トラフィックを自動的にルーティングし、ユーザーとアプリケーションのダウンタイムを削減するために、クラウド システムを調整する必要もあります。

災害復旧とは何を意味しますか?

災害復旧とは、IT システムの障害を引き起こす可能性のある問題を予測し、解決するプロセスです。

DR は、バックアップからの復元と同じくらい簡単なものもあれば、目標復旧時間 (RTO) や目標復旧ポイント (RPO) に応じてより複雑になるものもあります。

RTO は、システムが再び完全に稼働するまでにシャットダウンできる最大時間です。一部の設定では、何時間または何日間もダウンしても支障はありませんが、ミッションクリティカルな要素の場合、RTO は数秒単位で測定されることがよくあります。

RPO は許容できるデータ損失の量です。 1 日分のデータが失われることは、状況によっては許容できるかもしれませんが、より重要なシステムでは数分で済む可能性があります。

RTO と RPO の許容長さは、災害復旧計画に大きな影響を与える可能性があります。期間が短くなるにつれて、アクティブなデータ レプリケーション、冗長性の向上、バックアップの頻度の増加などの要素に注意を払う必要があります。

これらすべてが請求額の増加につながり、コストが組織が高可用性を実現し、RTO と RPO を削減することを妨げる主な要因となることがよくあります。最適なバランスをとるには、費用と潜在的なシステムダウンタイムの影響のバランスを取る必要があります。場合によっては、HA と短い DR 値が必要ないこともあります。

ここでは、クラウド展開におけるビジネス継続性を強化するのに役立つ 4 つの専門家のヒントを紹介します。

高可用性と災害復旧のための4つのヒント

1. 運用上の可観測性

クラウド環境の高可用性を実現するには、クラウド展開の全体的な健全性を把握することが重要です。

運用上の可観測性は、ログ、メトリック、トレースを、診断およびトラブルシューティング用のツールとともに集約する機能です。

経験則として、クラウドの展開では、視覚化、アラート、通知のためのログ記録と主要なメトリックを統合する必要があります。

これを行うには、クラウド サービス プロバイダーのネイティブの監視および観測ツールを使用できます。たとえば、AWS には CloudWatch と呼ばれるツールセットがあり、GCP には Google Cloud の Operations Suite (旧称 StackDriver)、Azure には Azure Monitor があります。ただし、これらは無料ではなく、メトリックの数と処理されるログデータの量に応じてコストが異なります。

DataDog、New Relic、Dynatrace など、幅広いサードパーティ ツールから選択することもできます。 Grafana や Elasticsearch のオープンソース ソリューションも人気のある選択肢です。

ニーズに合った適切なツールを選択したら、Infrastructure as Code (IaC) を通じてそれをデプロイするのが最適です。

2. バックアップとリカバリにIaCを使用する

IaC ツールを実行する大きな利点は、完全な回復のためにクラウド内のすべての最終的な成果物とコンポーネントを再作成できることです。

IaC を使用すると、Git リポジトリ レベルでの従来のバックアップ/復元手順のみが必要になります。機密性の高いバックアップ アクティビティは、コード リポジトリに適切なバックアップ戦略があることを確認することに移行する必要があります。これは、Git ツールとクロスリージョン ストレージ ソリューションを使用して実行できます。

各地域のクラウド展開には、バックアップする必要があるデータが含まれています。ファイル システム、オブジェクト ストレージ バケット、ブロック ストレージ ボリュームなどのアプリケーションでは、さまざまなストレージ ソリューションを使用できます。

各アーティファクトには、クラウド展開とは独立したバックアップおよび保持戦略が必要です。移行されたアプリケーションと関連するストレージ コンポーネントごとにこれらの問題に対処する必要があります。

3. 災害復旧にIaCを使用する

IaC のもう 1 つの大きな利点は、人間の介入を最小限に抑えてクラウド領域全体を自動的に再構築できることです。

ただし、必要な RTO と RPO を満たすには、データ同期ソリューションが必要になる場合があります。

展開には、最小限に定義されたインフラストラクチャを備えたコールド スタンバイ クラウド リージョンを含める必要があります。主な目標は、主要なインフラストラクチャ コンポーネントのストレージとデータベース、およびアプリケーション固有のストレージとデータベース アセットを同期することです。

4. 地域を導く方法を学ぶ

クラウド リージョン全体に障害が発生するシナリオを想像してみましょう。目標は、クラウド展開の平均復旧時間を、理想的には数日や数週間ではなく、数時間単位で文書化することです。

リージョンを迅速に起動できるということは、影響の大きい可用性イベントから迅速に回復できることを証明します。特にネットワーク接続に関連する厳しい前提条件がいくつかあるため、インスタンスによる展開が役立ちます。

データ センターへの接続がない場合でも、テスト中にほとんどのクラウド展開コンポーネントを連続して起動および停止できます。目標は、GitOps とインフラストラクチャをコードとして駆動する繰り返し可能なプロセスを作成することです。

まとめ

高可用性と災害復旧はどちらも、停止やその他の不測の事態に直面してもクラウド システムを稼働し続けるという同じ問題に対処します。

HA はオペレーティング システムの問題に対処し、DR は障害後の回復に重点を置いています。これらを組み合わせることで、ビジネスの継続性が向上し、クラウド展開が完全に機能し続けることが保証されます。

上記の 4 つのヒントがクラウド移行戦略に刺激を与え、よりスムーズに進むことを願っています。

<<:  マルチクラウド ネットワーキングとは何ですか?

>>:  Kubernetes 上で Kinesis Data Streams アプリケーションを自動的にスケーリングする

推薦する

Dedispec - Xeon 5420 搭載で月額 19 ドルから始まる低価格サーバーが多数登場します。

今年のブラックフライデーでは何も良いものは買わなかったのですが、ずっとサーバーが欲しいと思っていたの...

ビリビリ:月間アクティブユーザー数が3億人を突破

コミュニティのエコシステムが必要であり、また収益を上げる必要もあります。ビリビリは9月8日、2022...

sugarhosts - スコットランドの英国滞在継続を記念して、すべての VPS が 10% オフ

sugarhosts から最新ニュースが届きました。スコットランドが英国から離脱せず、英国に留まると...

外部リンクマーケティングにおける高品質なコンテンツに基づくコンセプトの変更方法

「効果的なクリックリンクを作るには?」友人が私のブログにこの質問を投稿しました。これはまさに、私たち...

伝統的な企業は、インターネットブームの中でどのようにトレンドセッターになれるのでしょうか?

現在、私たちはまだ電子商取引企業と伝統的な企業を別々に扱っていますが、電子商取引と伝統的なビジネスの...

あなたのクラウドはまだ手動ですか?クラウドコンピューティングとインフラストラクチャ自動化に欠かせない 5 つのツール

万能のツールはありませんが、予算内で最高の入出力比率を持つ優れた製品を見つけることができます。現代の...

日本のクラウドサーバーの推奨:帯域幅が大きく、価格が安く、CN2\CU2\Softbank\IIJ\KDDIなどのハイエンド回線

日本のクラウドサーバーで一番良いのはどれですか?どの日本のクラウドサーバーが速いですか?日本のクラウ...

SEO: SEO理論: 外部リンク構築 (I)

Michael Martinez 氏は、自身のブログで、ウェブサイトの外部リンク構築に関する非常に興...

Xiaomiの駆け込み買いとMeizuの下取り、製品そのものよりもマーケティングが重要か?

本日12時、Xiaomiは再び宇宙マーケティングに取り組み、34分でRedmi Note 10万台と...

エッジコンピューティングが IoT ネットワークを拡張する 3 つの方法

すでに 64 億台のデバイスがインターネットに接続され、さらに 550 万台の新しいデバイスが追加さ...

リベート ウェブサイトの徹底調査: Wanjia Shopping が「ポンジー」詐欺を開始した方法

衝撃的な知らせを聞いた潘阿成は台州から金華へ急いだ。浙江省金華市のイノベーション国際ビルの広場の入り...

B2Bウェブサイトが格下げされる4つの理由

6月以降、B2Bサイトを含む多くのウェブサイトが降格されました。理由については、一般化することはでき...

ウェブサイトがリストに載っていないのは検索エンジンに関係しているとすぐに確認できないのはなぜですか?

多くの新参者や初心者ウェブマスターは、新しいウェブサイトを最適化する際に、自分のウェブサイトが組み込...

【2017年最新版】モバイルインターネット業界の専門用語を完全網羅!

StarNet の以前の生徒からのフィードバックに基づいて、同様によく使用される単語をいくつか追加し...

Kubernetes 上の Spark を簡単に

オープンソース版のデータメカニズムの改善Kubernetes 上の Spark の概要を知りたい場合...