クラウドの停止に注意してください: データセンターの冗長性をどのように設計しますか?

クラウドの停止に注意してください: データセンターの冗長性をどのように設計しますか?

多くのパブリック クラウド プロバイダーは、日常業務で壊滅的な停止を頻繁に経験しており、IT マネージャーはクラウド プラットフォームの障害と教訓から学び、それを社内のインフラストラクチャに適用する必要があります。

クラウド プラットフォーム、特に大規模なパブリック プラットフォームには複数レベルの冗長性が備わっていますが、予期しないダウンタイムの影響を受けないプラットフォームはありません。データ センターなどのクラウド コンピューティング プラットフォームでは、ダウンタイムの原因となる問題が発生する可能性があります。

[[255698]]

オンプレミスのハードウェア障害やソフトウェア エラーは避けられませんが、パブリック クラウドは IT 管理者にこれらの問題に対処する方法を提供します。パブリック クラウドには、可用性クラスター、冗長データ センター、可用性ゾーン、クラウド リージョンが備わっており、管理者は中断が発生した場合でもビジネス オペレーションをより適切に計画できます。これらの戦略は重要ですが、管理者はパブリック クラウドの冗長性機能を活用するために信頼性の高いアプリケーションを設計する必要があります。

組織の IT 資産の回復力はインフラストラクチャよりもアプリケーションに依存するという考え方は、従来の考え方とは異なります。過去 20 年間、管理者はバックアップ、レプリケーション、その他のインフラストラクチャ中心のテクノロジーを通じて回復力を維持してきました。しかし、ほとんどのパブリック クラウド プラットフォームでは、この戦略はもはや機能しません。

近年、クラウド コンピューティング プロバイダーは耐えられないほどの損失を被っています。クラウド プロバイダーとユーザーの両方が、障害発生時にローカル クラウドの冗長性を設計する方法を学んでいるようで、管理者はそれらの教訓を従来の仮想化データ センターの冗長性に適用したいと考えています。

データセンターの冗長性の再考

ほとんどの従来の組織では、いくつかの基本的なサービスはダウンタイムを防ぐために設計されています。ネットワーク タイム プロトコルやネットワーク ルーティングなどのサービスは、多くの場合、高度な冗長性を備えるように設計されます。ただし、システムが冗長性を備えているからといって、その構成が自然な冗長性を十分に活用できるようになっているわけではありません。

一部のコア サービスには高可用性オプションがありません。 IT 部門は、ほとんどの場合、対処しなければならない技術的負債に直面しており、理想的に動作していないレガシー システムのサポートが必要になります。たとえば、一部のレガシー アプリケーション認証システムはサーバー上にのみ存在できるため、データ センターの冗長性が制限されます。

経営者はすべての卵を一つのカゴに入れるべきではありません。ほとんどの従来の展開では、データセンター内で冗長ハードウェアを使用するのが最適です。管理者は、複数の可用性ゾーンを提供できるクラウド コンピューティング プロバイダーと同様に、システムを共有しない冗長仮想化クラスターを使用することで、この戦略をさらに進めることができます。これにより、アプリケーションはデータ センター内のより高いレベルの冗長性に依存するようになりますが、ビジネス ニーズがそのレベルの冗長保護を正当化する場合にのみ価値があります。

これらの戦略をクラウドとデータセンター全体で並行して実装することで、可用性ゾーンなどのパブリック クラウド プロバイダーの概念を使用すると、同様の従来のインフラストラクチャを採用するときに役立ちます。この用語を使用すると、開発者は同様のクラウドの概念に精通している可能性があるため、インフラストラクチャの概念を理解しやすくなります。

クラウドコンピューティングの冗長性は完璧ではなく、ダウンタイムから教訓が得られる

高度に冗長化されたシステムでも、パフォーマンスの低下は避けられません。最近のパブリック クラウドの障害により、カタログ サービスが 1 つのリージョンから別のリージョンへのサービスの実行を継続できなくなりました。リダイレクトされたトラフィックが他のエリアの容量を超え、サービスが需要を満たすことができなくなります。

管理者がデータ センターの冗長性を設計する場合、停止が発生した場合の負荷を計画する必要があります。管理者はデータ センターの冗長性をサポートするために 2 台のサーバーを所有しているかもしれませんが、そのうちの 1 台のサーバーでは負荷全体を処理できない可能性があります。重要なのは、通常時と異常時のビジネスニーズを満たすシステムを設計することです。

多くの組織は、正しく構成されていれば、停止中に何か他のものを発見できたはずだと考えています。 Netflix の Chaos Monkey システムは、障害のシミュレーションでよく知られていますが、そこから得られる教訓は、管理者が実際の障害への対処を練習しなければ、IT システムがどのように反応するかを知ることはできないということです。また、システムは孤立したものではなく、各アプリケーションとサービスには依存関係があり、テストがさらに複雑になります。

プライベート データ センターやパブリック クラウドでは停止は珍しくありませんが、データ センター内では、管理者がシステムの内部の仕組みを把握し、理解している必要があることがよくあります。クラウド プロバイダーが停止を経験すると、ダウンタイムから何も学べなかったように感じるかもしれませんが、それは事実ではありません。パブリック クラウド プロバイダーは従来のデータ センターとは異なるツールと方法論を使用しますが、冗長性の構築と調整に関して得られる教訓は普遍的です。

<<:  すべてのクラウドプラットフォームが同じように作られているわけではない

>>:  AWS、Google Cloudに勝ち、クラウド災害復旧会社CloudEndureを2億5000万ドルで買収

推薦する

SEO で収益を上げることを考えたことはありますか?

SEO に関して言えば、一部のウェブマスターはランキングについて考えるでしょうが、より多くのウェブマ...

日本のクラスタ サーバー + 50M 帯域幅、わずか 241 ドル。アメリカのクラスタ サーバー、100M 最適化帯域幅、198 ドル

Raksmart は、数量限定で 3 つの安価なクラスター サーバーを提供しています: (1) 日本...

AWSテクノロジーサミット2018北京駅でAuroraサービスの正式開始が開催

8月9日、北京国際会議センターにてAWSテクノロジーサミット2018(北京)が開催されました。 AW...

ネットワークマーケティングにおいて企業が従うべき5つのルール

昔は「良いワインには茂みは必要ない」と言っていましたが、今では路地裏のワインが売れないのではないかと...

今年のトップ 10 ブランド ライブ ストリーミング マーケティング モデル!

ほとんどのブランドにとって、ライブストリーミングは定期的なマーケティング活動となっていますが、ブラン...

モバイルインターネット時代のポータル復活の秘密

インターネットが中国に導入された日から、軽薄な風潮が蔓延している。毎年、数多くのモデルや製品が登場し...

Webmaster.com の報道: LeEco が「包囲と抑圧」に遭遇、Amazon が Tmall に参入か

1. Googleは熱気球を使って、インターネットにアクセスできない48億人に無線ネットワークを提供...

ウェブサイトのコラムページと記事ページのランキングを向上させる方法についての簡単な説明

コラムページのランキングを向上させるにはどうすればよいでしょうか。これは多くの SEO 担当者が追求...

mycustomhosting-kvm vps は年間 7.5 ドルから

mycustomhosting は 2009 年に設立されたと主張する VPS プロバイダーですが、...

360度検索の課題に対応するために、Baidu Search Allianceはすべてのウェブサイトにオープンしています

2010 年 7 月 1 日、Baidu Alliance は中小規模の URL とのトラフィックの...

Spark 独自の分散ストレージ システム - BlockManager

全体的なアーキテクチャBlockManager は Spark の重要なコンポーネントです。 Blo...

百度は今年後半に低品質のサイトを厳しく処罰する予定で、ウェブマスターにとって悪いニュースがやってくる

この記事を読むためにクリックしたあなたは、タイトルのためにここに来たのだと思います。ここで私が伝えた...

Think Conferenceでのエッジコンピューティングの発表から、IBMは5G時代にどう展開していくのか?

IBM Think Digitalカンファレンスが北京時間5月6日に開催されました。 IBMの新CE...

下流市場洞察レポート

QuestMobileのデータによると、2018年4月時点で、下位層市場の月間アクティブユーザー数は...