年末レビュー | 2020 年のクラウド大手のダウンタイム インシデント

年末レビュー | 2020 年のクラウド大手のダウンタイム インシデント

この記事はWeChatの公開アカウント「SDNLAB」から転載したものです。この記事の転載についてはSDNLAB公式アカウントまでご連絡ください。

今年、感染症の流行により、クラウド コンピューティングは特別な試練に直面しています。クラウド コンピューティングは、通常の業務を遂行する能力だけでなく、負荷の急増下でも可用性を維持する能力も備えていなければなりません。現在、クラウドコンピューティングは多くの企業に導入されていますが、その過程で多くの問題も発生しています。

今年発生した大規模な障害のトップ 10 を紹介します。これらの問題が発生し、解決されるにつれて、クラウド コンピューティング テクノロジーは新たな課題と機会に直面します。

1. 3月のMicrosoft Azure

3月に、マイクロソフトは2回の大規模な障害を経験した。

3月3日、米国東部のマイクロソフトのデータセンターで6時間にわたるサービス停止が発生し、米国北部の顧客はAzureクラウドサービスを利用できなくなりました。

[[360714]]

マイクロソフト社は、この停電は冷却システムの故障が原因だと述べた。ビルの自動化制御の不具合により空気の流れが減少し、その結果データセンター全体の温度が急上昇し、ネットワーク機器のパフォーマンスに影響を及ぼし、コンピューティングとストレージの両方が使用できなくなりました。

3 月 24 日から 26 日にかけて、DevOps チームが使用する継続的デリバリー サービスである Azure Pipelines に障害が発生しました。その後数日間、ソフトウェア開発パイプラインに深刻な遅延が発生し、特に開発者に影響が出ました。

マイクロソフトは、世界的な感染拡大により需要が急増し、仮想マシンの容量が限られているためデバイスの再イメージ化にかかる時間が長くなり、利用可能なエージェントの待機時間が増加したことを確認しました。

2. 3月26日、Google Cloud Platform

3月26日、複数のGoogleクラウドサービスにアクセスできなくなりました。 Google ユーザーは、Google 500 および 502 エラー コードが発生しているとツイートしました。500 は、内部エラーが原因でリクエストが失敗したことを意味します。 502 はゲートウェイ障害を意味します。

[[360715]]

Googleは最終的に、この障害の原因を「インフラコンポーネント」の問題だと主張した。 Downdetector によると、米国東海岸沿いの Google 顧客が最も大きな影響を受けたという。

3. 4月10日、ファーウェイクラウド

4月10日、Huawei Cloudで大規模な障害が発生した。 Huawei Cloudのログインと管理バックエンドにアクセスできず、一部の企業業務を正常に維持することができませんでした。停電は約3時間続いた。

[[360716]]

多くのネットユーザーがWeiboで、Huawei Cloudのログインと管理バックエンドにアクセスできなくなり、「サーバーが一時的に過負荷になっているか、メンテナンス中です。しばらくしてからもう一度お試しください」などのメッセージが表示されると報告した。 「データベース接続を確立中にエラーが発生しました」と表示されました。その後、ファーウェイクラウドの公式Weiboアカウントは「ホストの一部に異常が検出されました。障害は基本的に修復され、一部の顧客の業務は回復しています」と発表しました。

これについては、今回の障害は主に北京のコンピューター室の故障が原因との報道があり、広州や上海のユーザーは正常に利用できたとしている。

4. 4月21日、GitHub

Microsoft が所有するソースコードリポジトリである GitHub は、4 月下旬に複数回の障害を経験した。

4月21日、複数のGitHubサービスで1時間半にわたるアクセス異常が発生しました。 4月22日、サービスは再び中断され、少なくとも2時間続いた。 4月23日には、複数のGitHubサービスもさまざまな問題の影響を受け、その影響は3時間近く続きました。ソフトウェア エンジニアが頻繁に使用する API リクエストや Webhook などのサービスは、「低下」としてマークされます。

公式の理由は示されず、復旧プロセスに関する情報も公開されなかった。 GitHubのアップデートには、さまざまな不具合を修正するためのMicrosoftの試みが含まれていたが、問題に関する詳細は提供されておらず、開発者たちはTwitterでMicrosoftの透明性の欠如を非難した。

(5)6月9日、IBMクラウド

6月9日、IBM Cloudで大規模な障害が発生し、有名なテクノロジーニュース集約ウェブサイトであるTechmemeを含む、プラットフォーム上でホストされている多くのサービスが中断しました。停電は午後2時半ごろ始まった。そしてすぐに世界中に広まりました。

IBM Cloud ページも、障害発生中は短時間ダウンしていましたが、午後 6 時 30 分過ぎに復旧しました。問題は解決された。

IBM の Web サイトでは、INM ネットワーク運用チームがルーティング ポリシーを調整し、サードパーティ プロバイダーによってもたらされた問題に対処した結果、停止は解決されたと説明されています。

(6)8月24日、ズーム

8月24日、Zoomは部分的な障害に見舞われ、ユーザーはオフラインミーティングやオンラインビデオ会議にアクセスできなくなりました。停電は3時間続きました。 Zoomは障害の原因については説明せず、ステータスページで問題を発見し修正したとだけ述べた。

Zoomの1日あたりのアクティブユーザー数は現在約1億1500万人で、同社のサービスは2020年の在宅勤務のキーワードになったかもしれない。

(7)9月28日、Microsoft 365とAzure

9月29日、Microsoft Office 365オフィスソフトウェアとAzureクラウド製品に不具合が発生し、一部のユーザーに対して数時間にわたりサービスが中断されました。

[[360717]]

マイクロソフトは、今回の障害はOutlookメールサービスとTeamsオフィスコラボレーションツールの一部ユーザーに影響したと述べた。Teamsにはチャットやビデオ会議機能があり、COVID-19パンデミック中にユーザーベースが急速に拡大している。マイクロソフトは、一部のユーザーがこれらのサービスにログインできなかったが、すでにログインしていたユーザーには影響はなかったと述べた。

同日、Azure クラウド コンピューティング ユーザーも Office 365 スイートと同様の問題に遭遇しました。 Azure は、多くの企業がデータの保存と分析に利用している Microsoft の大規模なクラウド コンピューティング システムです。

(8)10月7日、マイクロソフトオフィス365

10 月 7 日に、Microsoft はネットワーク インフラストラクチャを更新し、その後、Microsoft Teams、Outlook、SharePoint Online、OneDrive for Business、Outlook.com のすべてでダウンタイムが発生しました。

[[360718]]

午後2時48分その日、Twitter の公式 Microsoft 365 アカウントが停止を確認しました。マイクロソフトはその後、ネットワーク インフラストラクチャの最新の更新が Microsoft 365 サービスに影響を与えており、現在環境が更新を復元中であると述べました。

(9)11月25日AWS

11月25日、Amazonのクラウドサービスが中断し、多数のウェブサイトやサービスに影響が出た。停電は約5時間続きました。

[[360719]]

AWSは、ストリーミングデータを処理するKinesisサービスに不具合があり、多数のウェブサイトが影響を受け、エラー率が上昇したとの通知を出した。さらに、この障害により、ステータス ページに更新情報を投稿する機能にも影響が出ました。

この障害は、アマゾンのスマートセキュリティ子会社リング、ロク、ソフトウェア開発会社オートデスク、ニューヨーク都市圏交通局の地下鉄ウェブサイト、フォーラム・パブリッシング・グループ傘下のシカゴ・トリビューンとボルチモア・サンなど、いくつかの企業や機関のサービスに影響を及ぼし、ウェブサイト上でエラーが頻繁に発生したとみられる。

Apple、Slack、Netflix など AWS の主要顧客は障害の影響を受けず、現在も通常通り業務を続けていることは注目に値します。

(10)12月14日、Google Cloud

12月14日の夕方、Googleのサーバーは再び世界規模の障害に見舞われた。これは過去5か月間で3度目の世界的な停電となる。

YouTube、Gmail、Google ドライブ、Google 検索などの Google サービスがクラッシュし、ユーザーは通常通り利用できない状態となっている。世界中の多くの国や地域のユーザーが影響を受けています。

Googleはその後ツイートし、Google認証システムが停止したのは内部ストレージの割り当て問題によるものだと確認した。 45 分間の停止後、問題は解決され、すべてのサービスが復旧しました。

インターネット時代では、システムの信頼性に対する要求がさらに高まります。重要なシステムでは、年間 53 分以内の非利用時間が求められることがよくありますが、上記のインシデントの多くは、障害予算をはるかに超えています。

今後、システムアーキテクチャはますます複雑になり、全体的なデータとトラフィックはますます大きくなります。一部の専門家は、迅速な対応と影響範囲の制御は、現在のインターネットが注意を払う必要がある 2 つの実際的な方向性であると述べています。

<<:  Dockerってすごいですよね? K8s を使用する理由

>>:  エッジコンピューティングの戦い: 新たなクラウドの戦場はクラウドではない

推薦する

ウェブブックマークはもはやSEOの重みを転送する効果を持たない

主なオンラインブックマークには、楽首、喜望峰、QQブックマーク、百度コレクション、アンソロジー、宝箱...

垂直産業の「アリババ」となり、ニッチ分野の弱点を掴む方法

2012 年の電子商取引を振り返ると、プラットフォーム レベルの電子商取引の状況がより明確になりまし...

テンセント、2021年中国国際サービス貿易交易会に参加

2021年「中国国際サービス貿易交易会」が9月2日、国家会議センターで開幕した。今年のCIIEのテー...

Baiduの大規模アップデートについての考察: Baiduを最適化するためにGoogleのアルゴリズムから始めた

長い間記事を書いていなかったので、少しさびついてしまった気がします。自分のウェブサイトを立ち上げたと...

profitserver: VPS レビュー、登録 + 使用方法のチュートリアル、ispmanager 固有の使用方法のデモンストレーション

今日は、ロシアのホスティング会社 profitserver のチェリャビンスク データ センターの ...

Hawkhost: ロサンゼルス 6 周年記念、仮想ホスティング、半仮想ホスティング、リセラー ホスティングが 50% オフ

6 年前の今週、Hawkhost のロサンゼルス データ センターが正式に開設されました。仮想ホステ...

効果的なロングテールキーワードを取得する5つの方法

より深い経験を持つ SEO 担当者は、80/20 ルールをよく理解しているはずです。ロングテール キ...

bgpto: シンガポール直接接続 100M 帯域幅サーバー、月額 99 ドルから。日本無制限トラフィックサーバー、月額 120 ドルから。

BGPTO は公式ウェブサイトでプロモーションを実施しており、アジアのデータセンターの独立サーバーの...

過去6年間のライブストリーミングeコマースの簡単な歴史

1か月前、シドニーが脱税で6555万3100元の罰金を科されたとき、自称メディアパーソンの倪おじさん...

Baidu SEOに関する誤解

SEO 参照データとは何ですか? 外部リンク、インクルージョン、スナップショット、重みについては誰も...

オープンソースの探求が進行中: Red Hat Challenge が終了し、より多くの大学生が恩恵を受ける

[51CTO.com からのオリジナル記事] オープンソースとイノベーションは密接に関連しています。...

麻雀カードの動画を撮影して車を購入という最新ニュース:Douyinの関係者が噂を否定

月収10万元の起業の夢を実現するミニプログラム起業支援プランA5ベンチャーネットワーク(公開アカウン...

タイプ 1 ハイパーバイザーとタイプ 2 ハイパーバイザーの違いは何ですか?

タイプ 1 ハイパーバイザーとタイプ 2 ハイパーバイザーの主な違いは、タイプ 1 はベアメタル上で...

ウェブマスターの共有: 長年にわたる SEO の旅について語る

年末の総括と言えば、私は基本的に書いたことがありません。前年の年末に書いたログは、細かいことばかりで...

AMD CIO: クラウドの未来を設計するためにハイブリッドアプローチを採用しています

AMD がより強力なパブリック クラウドをサポートできるようにするため、同社の CIO である Ha...