AWS が 11 時間ダウンしていましたが、これはすべて光ファイバーケーブルが切断されたためでしょうか?

AWS が 11 時間ダウンしていましたが、これはすべて光ファイバーケーブルが切断されたためでしょうか?

[51CTO.com オリジナル記事] 2019年6月2日午前2時から、AWS 北京リージョンで大規模な障害が発生しました。これは、夜間の道路工事中に CN-NORTH-1 リージョン内の複数の光ケーブルが切断され、リージョンの最初のアベイラビリティゾーンにある EC2 インスタンスにアクセスできなくなったためであると報告されています。同時に、CN-NORTH-1 リージョン全体で新しい EC2 インスタンスを構築できませんでした。

Amazon Elastic Compute Cloud (北京) は次のように進捗しています。

02:38、CN-NORTH-1 のネットワーク接続の問題を調査中です。

04:17 CN-NORTH-1 のすべてのアベイラビリティーゾーンで EC2 API エラー率が増加し、新しい EC2 インスタンスを起動できない問題を調査中です。また、CN-NORTH-1 リージョンの EBS API におけるエラー率とレイテンシーの増加についても調査中です。

06:36、CN-NORTH-1 のすべてのアベイラビリティゾーンで EC2 API および EBS API のエラー率が増加し、新しい EC2 インスタンスを起動できない原因が判明したため、この問題を修正しています。

09:27 CN2-NORTH-1 リージョンのすべてのアベイラビリティーゾーンで EC2 および EBS API エラー率が増加し、新しい EC2 インスタンスの起動に失敗する原因を特定し、問題解決に取り組んでいます。ネットワーク接続の問題により、RunInstances API リクエストを正常に完了できませんでした。これは、CN-NORTH-1 のすべてのリージョンに影響します。いずれかのアベイラビリティーゾーンで実行中の既存のインスタンスには影響はありません。

14:56、北京時間午前 2 時から午後 13:48 までの間、CN-NORTH-1 リージョンでは、すべてのリージョンで EC2 API 呼び出しの失敗率が増加し、新しいインスタンスを作成できなくなりました。障害は解決され、サービスは正常に戻りました。

昨年のAWS障害事件を振り返ると、3月にAmazon AWSネットワークサービスに問題が発生し、障害発生時刻は不明でした。 5月、バージニア州北部のデータセンターでハードウェア障害が30分間続いた後、AWSは再び接続の問題を経験した。 7月にはAWS管理コンソールに障害が発生し、停止は6時間近く続きました。 11月にはAWS韓国のサーバーが中断され、停止は1時間以上続きました。それに比べ、午前 2 時から午後 2 時まで 11 時間以上続いた今回の障害は、最近の AWS 障害の中でも大きな出来事と言わざるを得ません。

今回、AWS が復旧するのに 11 時間以上かかったのはなぜですか?これは必然的に、AWS がネットワーク冗長設計をうまく行わなかったことを人々に思い出させます。ネットワーク冗長設計には、主にネットワーク リンクとネットワーク機器の冗長化対策を繰り返し設定し、重要なネットワーク システムとデータのバックアップ戦略を策定することが含まれます。ネットワーク リンクの冗長化とは、メイン ラインを構成することに加えて、2 番目と 3 番目のラインを同時に展開して、ビジネスの正常な動作を確保することを意味します。

AWS 北京リージョンは光環新網のデータセンターを使用していると報じられています。同社は北京に九仙橋、太河橋、広環新谷、東直門、方山、宜荘の6つのデータセンターを持っている。それぞれ最大 100G の合計 BGP エクスポート帯域幅とマルチオペレータ通信リンクを備えています。光環新網はこの件について回答しなかった。

6.18中国電子商取引プロモーション期間中、Amazon中国公式サイト(www.amazon.cn)のページが一時クラッシュしただけでなく、VIPKID、Liulishuo、Samsung App Storeなどのユーザーも程度の差はあれ影響を受けた。著者もVIPKIDユーザーです。幸いなことに、その日は授業の予定はなかったのですが、宿題を終わらせたり、授業の予習をしたりすることはできませんでした。すでに予約を入れている親たちは激怒し、予約したクラスをキャンセルしたり、日程を変更したりしています...

クラウド サービスでは 100% 問題のないパフォーマンスを保証することはできませんが、災害復旧を確実に実行し、ダウンタイムの影響を最小限に抑えることはクラウド ベンダーの重要な責任です。

ユーザーにとっては、より安全なクラウドサービスを選択することに加え、複数のクラウドサービスを活用し、マルチクラウド戦略を実装することも、将来に向けた重要な方向性です。

まず、業務負荷が最適化されます。企業のさまざまな負荷に応じて、さまざまなメーカーの最適なクラウド テクノロジーを組み合わせることで、企業の業務運営の効率を大幅に向上できます。

次に、サービスの信頼性を確保します。クラウドサービスがどれほど信頼できるものであっても、100% のセキュリティを保証することはできません。クラウド コンピューティング プロバイダーが複数の地域でデータ センター サービスを提供しており、安全な冗長性レベルを確保できたとしても、クラウド サービスの信頼性に影響を与えるさまざまな重大なインシデントが依然として発生します。複数のクラウド プラットフォーム間でフェイルオーバーを実装することで、発生する障害の種類に関係なく、災害復旧をできるだけ早く完了し、アプリケーションの実行を継続できます。

IDC の予測によると、「2020 年までに、企業の 90% 以上が複数のクラウド サービスとプラットフォームを使用するようになる」とのことです。著名な調査機関 451 Research の調査でも、「IT の未来はマルチクラウドとハイブリッドクラウドであり、調査対象企業の 69% が 2019 年までにさまざまな種類のマルチクラウド環境を導入する予定であると回答した」ことが示されています。

***筆者は、光ケーブルやパイプラインなどのインフラの保護も真剣に取り組む必要があるとも述べておきたい。これらは簡単に破壊される可能性があり、今日のクラウド時代では、支払う代償は高すぎます。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  マルチクラウド環境における集中タグ付けの重要性

>>:  2019 年の SaaS 犠牲者リストが公開されました。将来の見通しは心配ですか?

推薦する

ファーウェイ政府クラウドは呂梁のビッグデータ産業の発展をリードし、呂梁の経済変革を支援します

呂梁は、涼しく快適な気候、安定した地質構造、豊富な電力供給など、明らかな立地上の優位性を備えており、...

初心者ウェブマスターがウェブサイトの構築方法を学ぶ

今では、初心者のウェブマスターでもウェブサイトを簡単に作成できるようになりました。オープンソース プ...

クラウドコンピューティング時代のデータバックアップ:理由から方法まで

「クラウド」の信頼性にまだ疑問があり、サーバーがダウンした場合でも会社がデータを正常に読み取り、使用...

検索エンジンマーケティングプロモーションスキル

検索エンジンマーケティング(SEM)は、私たちが通常SEMと呼ぶ用語です。検索エンジンマーケティング...

Google Playアプリストアが中国の開発者に開放

Google Blackboardによると、Googleは、中国本土のモバイルアプリケーション開発者...

ラオ・ルオの商品プロモーションは3回の公演だけで人気が出るのでしょうか?

昨夜8時、羅永浩は予定通りDouyin生放送室に登場した。2回目の放送のデータが急激に落ち込んだ後、...

トップレベルドメインが拡大するにつれて、通常のドメインはますます安価になる

IT Times記者 ユー・シンフェイかつて100万元だったヤオミンのドメイン名「yaoming.n...

サービス メッシュは本当にクラウド ネイティブ アプリケーションに最適ですか?

マイクロサービス アーキテクチャを実装する企業が増えるにつれて、コミュニティにおけるサービス メッシ...

1週間のダイヤモンドアップグレードはオンラインストアにとって神話ではない

店をオープンした初日から、売り手はダイヤモンドとクラウンセラーの称号を欲しがり始めたようです。しかし...

ホームページを含む記事タイトルのみを検索し、記事ページは含まないソリューション

最近、百度のアルゴリズムが頻繁に更新され、私たちSEO担当者は大きなプレッシャーを感じています。上司...

JD Cloudがワンストップハイブリッドクラウドソリューションを開始

最近、JD Cloud は新しいハイブリッド クラウド ソリューションをリリースし、ハイブリッド ク...

中小企業がネットワークマーケティングで成功する方法についての簡単な説明

現在、多くの企業のオンライン マーケティングは、まだプロモーションの表面的なレベルにとどまっています...

ウェブサイト全体のアーキテクチャの観点からウェブサイトの直帰率を下げる方法を分析する

すべてのウェブサイトには対応する価値があり、ウェブサイトの直帰率はそのウェブサイトの価値を測る基本的...

ウェブサイトの予備診断を行うための10の基本的なステップ

一般的に、プロの SEO サービス プロバイダーは、Web サイトの予備診断を行う必要があります。W...

SEOにおけるオリジナルウェブサイトとオリジナル記事の違い

SEO に携わる人なら誰でも、ウェブサイトの SEO における独創性の重要性を知っているので、ここで...