年末レビュー | 2020 年のクラウド大手のダウンタイム インシデント

年末レビュー | 2020 年のクラウド大手のダウンタイム インシデント

この記事はWeChatの公開アカウント「SDNLAB」から転載したものです。この記事の転載についてはSDNLAB公式アカウントまでご連絡ください。

今年、感染症の流行により、クラウド コンピューティングは特別な試練に直面しています。クラウド コンピューティングは、通常の業務を遂行する能力だけでなく、負荷の急増下でも可用性を維持する能力も備えていなければなりません。現在、クラウドコンピューティングは多くの企業に導入されていますが、その過程で多くの問題も発生しています。

今年発生した大規模な障害のトップ 10 を紹介します。これらの問題が発生し、解決されるにつれて、クラウド コンピューティング テクノロジーは新たな課題と機会に直面します。

1. 3月のMicrosoft Azure

3月に、マイクロソフトは2回の大規模な障害を経験した。

3月3日、米国東部のマイクロソフトのデータセンターで6時間にわたるサービス停止が発生し、米国北部の顧客はAzureクラウドサービスを利用できなくなりました。

[[360714]]

マイクロソフト社は、この停電は冷却システムの故障が原因だと述べた。ビルの自動化制御の不具合により空気の流れが減少し、その結果データセンター全体の温度が急上昇し、ネットワーク機器のパフォーマンスに影響を及ぼし、コンピューティングとストレージの両方が使用できなくなりました。

3 月 24 日から 26 日にかけて、DevOps チームが使用する継続的デリバリー サービスである Azure Pipelines に障害が発生しました。その後数日間、ソフトウェア開発パイプラインに深刻な遅延が発生し、特に開発者に影響が出ました。

マイクロソフトは、世界的な感染拡大により需要が急増し、仮想マシンの容量が限られているためデバイスの再イメージ化にかかる時間が長くなり、利用可能なエージェントの待機時間が増加したことを確認しました。

2. 3月26日、Google Cloud Platform

3月26日、複数のGoogleクラウドサービスにアクセスできなくなりました。 Google ユーザーは、Google 500 および 502 エラー コードが発生しているとツイートしました。500 は、内部エラーが原因でリクエストが失敗したことを意味します。 502 はゲートウェイ障害を意味します。

[[360715]]

Googleは最終的に、この障害の原因を「インフラコンポーネント」の問題だと主張した。 Downdetector によると、米国東海岸沿いの Google 顧客が最も大きな影響を受けたという。

3. 4月10日、ファーウェイクラウド

4月10日、Huawei Cloudで大規模な障害が発生した。 Huawei Cloudのログインと管理バックエンドにアクセスできず、一部の企業業務を正常に維持することができませんでした。停電は約3時間続いた。

[[360716]]

多くのネットユーザーがWeiboで、Huawei Cloudのログインと管理バックエンドにアクセスできなくなり、「サーバーが一時的に過負荷になっているか、メンテナンス中です。しばらくしてからもう一度お試しください」などのメッセージが表示されると報告した。 「データベース接続を確立中にエラーが発生しました」と表示されました。その後、ファーウェイクラウドの公式Weiboアカウントは「ホストの一部に異常が検出されました。障害は基本的に修復され、一部の顧客の業務は回復しています」と発表しました。

これについては、今回の障害は主に北京のコンピューター室の故障が原因との報道があり、広州や上海のユーザーは正常に利用できたとしている。

4. 4月21日、GitHub

Microsoft が所有するソースコードリポジトリである GitHub は、4 月下旬に複数回の障害を経験した。

4月21日、複数のGitHubサービスで1時間半にわたるアクセス異常が発生しました。 4月22日、サービスは再び中断され、少なくとも2時間続いた。 4月23日には、複数のGitHubサービスもさまざまな問題の影響を受け、その影響は3時間近く続きました。ソフトウェア エンジニアが頻繁に使用する API リクエストや Webhook などのサービスは、「低下」としてマークされます。

公式の理由は示されず、復旧プロセスに関する情報も公開されなかった。 GitHubのアップデートには、さまざまな不具合を修正するためのMicrosoftの試みが含まれていたが、問題に関する詳細は提供されておらず、開発者たちはTwitterでMicrosoftの透明性の欠如を非難した。

(5)6月9日、IBMクラウド

6月9日、IBM Cloudで大規模な障害が発生し、有名なテクノロジーニュース集約ウェブサイトであるTechmemeを含む、プラットフォーム上でホストされている多くのサービスが中断しました。停電は午後2時半ごろ始まった。そしてすぐに世界中に広まりました。

IBM Cloud ページも、障害発生中は短時間ダウンしていましたが、午後 6 時 30 分過ぎに復旧しました。問題は解決された。

IBM の Web サイトでは、INM ネットワーク運用チームがルーティング ポリシーを調整し、サードパーティ プロバイダーによってもたらされた問題に対処した結果、停止は解決されたと説明されています。

(6)8月24日、ズーム

8月24日、Zoomは部分的な障害に見舞われ、ユーザーはオフラインミーティングやオンラインビデオ会議にアクセスできなくなりました。停電は3時間続きました。 Zoomは障害の原因については説明せず、ステータスページで問題を発見し修正したとだけ述べた。

Zoomの1日あたりのアクティブユーザー数は現在約1億1500万人で、同社のサービスは2020年の在宅勤務のキーワードになったかもしれない。

(7)9月28日、Microsoft 365とAzure

9月29日、Microsoft Office 365オフィスソフトウェアとAzureクラウド製品に不具合が発生し、一部のユーザーに対して数時間にわたりサービスが中断されました。

[[360717]]

マイクロソフトは、今回の障害はOutlookメールサービスとTeamsオフィスコラボレーションツールの一部ユーザーに影響したと述べた。Teamsにはチャットやビデオ会議機能があり、COVID-19パンデミック中にユーザーベースが急速に拡大している。マイクロソフトは、一部のユーザーがこれらのサービスにログインできなかったが、すでにログインしていたユーザーには影響はなかったと述べた。

同日、Azure クラウド コンピューティング ユーザーも Office 365 スイートと同様の問題に遭遇しました。 Azure は、多くの企業がデータの保存と分析に利用している Microsoft の大規模なクラウド コンピューティング システムです。

(8)10月7日、マイクロソフトオフィス365

10 月 7 日に、Microsoft はネットワーク インフラストラクチャを更新し、その後、Microsoft Teams、Outlook、SharePoint Online、OneDrive for Business、Outlook.com のすべてでダウンタイムが発生しました。

[[360718]]

午後2時48分その日、Twitter の公式 Microsoft 365 アカウントが停止を確認しました。マイクロソフトはその後、ネットワーク インフラストラクチャの最新の更新が Microsoft 365 サービスに影響を与えており、現在環境が更新を復元中であると述べました。

(9)11月25日AWS

11月25日、Amazonのクラウドサービスが中断し、多数のウェブサイトやサービスに影響が出た。停電は約5時間続きました。

[[360719]]

AWSは、ストリーミングデータを処理するKinesisサービスに不具合があり、多数のウェブサイトが影響を受け、エラー率が上昇したとの通知を出した。さらに、この障害により、ステータス ページに更新情報を投稿する機能にも影響が出ました。

この障害は、アマゾンのスマートセキュリティ子会社リング、ロク、ソフトウェア開発会社オートデスク、ニューヨーク都市圏交通局の地下鉄ウェブサイト、フォーラム・パブリッシング・グループ傘下のシカゴ・トリビューンとボルチモア・サンなど、いくつかの企業や機関のサービスに影響を及ぼし、ウェブサイト上でエラーが頻繁に発生したとみられる。

Apple、Slack、Netflix など AWS の主要顧客は障害の影響を受けず、現在も通常通り業務を続けていることは注目に値します。

(10)12月14日、Google Cloud

12月14日の夕方、Googleのサーバーは再び世界規模の障害に見舞われた。これは過去5か月間で3度目の世界的な停電となる。

YouTube、Gmail、Google ドライブ、Google 検索などの Google サービスがクラッシュし、ユーザーは通常通り利用できない状態となっている。世界中の多くの国や地域のユーザーが影響を受けています。

Googleはその後ツイートし、Google認証システムが停止したのは内部ストレージの割り当て問題によるものだと確認した。 45 分間の停止後、問題は解決され、すべてのサービスが復旧しました。

インターネット時代では、システムの信頼性に対する要求がさらに高まります。重要なシステムでは、年間 53 分以内の非利用時間が求められることがよくありますが、上記のインシデントの多くは、障害予算をはるかに超えています。

今後、システムアーキテクチャはますます複雑になり、全体的なデータとトラフィックはますます大きくなります。一部の専門家は、迅速な対応と影響範囲の制御は、現在のインターネットが注意を払う必要がある 2 つの実際的な方向性であると述べています。

<<:  Dockerってすごいですよね? K8s を使用する理由

>>:  エッジコンピューティングの戦い: 新たなクラウドの戦場はクラウドではない

推薦する

ウェブサイトの最適化: 404 ページの作成方法と関連事項

SEO の経験が少しある SEO 担当者は、404 ページがウェブサイトで重要な役割を果たしているこ...

KnowsecとHuawei Cloudが安全なコンテンツ配信の構築に向けて覚書を締結

最近、KnowsecとHuawei Cloudは成都で協力覚書の調印式を開催し、SCDN技術検証のた...

ブラック 5: webhostingbuzz-10% オフ/仮想ホスト/再販業者/7 USD 1 年

webhostingbuzz のブラックフライデーは早めに開催され、米国時間 26 日 13:00 ...

Pacificrack の「Simple Application Server」(PR-N) シリーズ VPS の簡単なレビュー

Pacificrack は最近、「Simple Application Server」という新しい ...

Go はなぜこれほど多くの仮想メモリを占有するのでしょうか?

[[349727]]この記事は、陳建宇氏が執筆したWeChatパブリックアカウント「私の脳は揚げ魚で...

Honest.comのドメイン名が100万ドルで取引され、購入者のBaichengは最も人気のある

2012年1月6日、外国メディアは、ドメイン名「Honest.com」が最近18万ドル(約114万人...

Shardhost-10月のビッグプロモーション/1GメモリKVM年間支払い30ドル(詳細)

シャードホストのプロモーションの第 2 弾が戻ってきました。皆さんは前回のプロモーションに深い印象を...

より小型でより優れた未来のためのインテルモバイルプラットフォーム

本日の IDF 基調講演の第 3 セッションでは、Intel の上級副社長兼ウルトラモバイル事業部門...

少数のファンを使用して、短期間でトラフィックを 2 倍にするにはどうすればよいでしょうか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス1. 核分裂の共有に関す...

ウェブサイトの SEO 最適化はどのように見積もられますか?

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス現在 SEO の注文を受...

クラウドコンピューティングの統合は必須

過去 10 年間、クラウド コンピューティングの導入サイクルが見られ、多くの組織が契約とサービス ポ...

週刊ニュースレビュー:業界から疑問視される12306ウェブサイト 蘇寧によるRedbaby買収

1. 鉄道省による3億3000万元の入札の裏側:バックエンド技術に業界から疑問の声ITソフトウェアシ...

ルーティンと反ルーティン、「延禧宮物語」の人気から学ぶオンラインマーケティングの36の戦略!

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています最近話題の...

SEOの最終的な効果を制限する3つの側面

Baidu のホームページにはポジションが 10 個しかありません。あなたが SEO をし、私が S...