中間レビュー: 2020 年のクラウド障害最大 10 件

中間レビュー: 2020 年のクラウド障害最大 10 件

ほんの数か月前、コロナウイルスは誰も予想できなかった方法でクラウドプロバイダーを試しました。世界中で仕事、学習、遊びを続けるためにクラウド サービスに突然大きく依存するようになった現在でも、クラウド コンピューティング業界は、クラウド サービスの可用性と安定性をほぼ維持できています。

パブリック クラウドは、前例のないストレス テストに対して極めて高い耐性があることが証明されていますが、今年前半にはいくつか例外がありました。今年これまでに発生した障害のうち、コロナウイルスによるクラウド利用の急増が原因で発生したものはほんの一握りだが、その他の障害は、非常時であってもある程度は避けられない一般的な障害が原因である。

今年これまでにユーザーに影響を与えたクラウド障害のトップ 10 を紹介します。


1. Twitter、2月7日

今年2月、Twitterは部分的なサービス停止を経験し、一部のユーザーはツイートを送信できなくなりました。

「ツイートの送信に失敗しました。修正に取り組んでいます」とソーシャルメディア大手ツイッターのプロダクトマネージャー、パトリック・トラウバー氏はツイートした。

午後5時直前にはサービス停止に関する苦情が1万2000件に急増した。 Downdetector.com によると、主に米国とヨーロッパで午前 10 時 ET に発生した。

Twitterのサポートはツイートで「この度の障害についてはお詫び申し上げます。状況が正常に戻りましたらお知らせいたします」と述べた。

Twitter は、この障害は最近のアップデートに含まれる誤ったコードによって発生したことをすぐに発見し、その後アップデートをキャンセルしました。午後5時7分直前ET、Twitterサポートはユーザーに対し「Twitterを引き続きご利用いただけます。問題は解決しました。引き続きご利用いただきありがとうございます」という通知を送信した。

[[331495]]

2. Microsoft Azure、3月3日

米国東部標準時午前 9 時 30 分より、Microsoft の米国東部データ センターで 6 時間のサービス停止が発生し、米国北部の一部の顧客が Azure クラウド サービスを使用できなくなりました。

数日後、マイクロソフトは、この障害は冷却システムの故障によるものだと発表した。マイクロソフトは、ビルの自動化制御の故障により、データセンター全体で空気の流れが減少し、それに伴って電圧が急上昇し、ネットワーク機器のパフォーマンスに影響を及ぼし、コンピューティングおよびストレージインスタンスが使用できなくなったと説明した。

マイクロソフトは最終的に冷却システム コントローラーをリセットし、温度が下がるとエンジニアは電源をオフにしてハードウェアを再起動し、サービスを復旧することができました。

[[331496]]

3. Microsoft Teams、3月16日

新型コロナウイルスの流行による新規ユーザーの急増でサービスのサポート問題が浮き彫りとなり、Microsoft Teamsは欧州で2時間ダウンした。

マイクロソフトはツイッターで、東部標準時午前4時50分時点で「マイクロソフトはTeamsの通信関連機能に関する問題を調査している」と述べた。 Teams アプリケーション スイートがヨーロッパのユーザーに対して完全に利用できなくなったという報告があります。

マイクロソフトは声明で「一部の顧客が経験した可能性のある問題に対処するための措置を講じており、エンジニアリングチームは引き続きパフォーマンスと使用状況を積極的に監視している」と述べた。

わずか 2 週間前、Microsoft は現在 Teams ライセンスを持っていない企業や教育機関に、Office 365 E1 サブスクリプション サービスを 6 か月間無料で提供すると約束しました。

[[331497]]

4. Microsoft Azure、3月24日~26日

マイクロソフトは今年3月、新型コロナウイルスの流行により同社のクラウドサービスの多くに多大な負担がかかり、欧州で一連の障害が発生していることを認めた。

この障害は開発者に特に大きな影響を与えました。3 月 24 日に最初に停止したのは、DevOps チームが使用する継続的デリバリー サービスである Azure Pipelines だったからです。その後数日間、Microsoft のソフトウェア開発パイプラインは大幅な遅延を経験しました。

マイクロソフトはその後、「このインシデントは、世界的なコロナウイルスの流行による仮想マシンの容量制限が原因で発生し、デバイスの再イメージ化にかかる時間と、利用可能なエージェントの待機時間が増加しました」と説明した。

その週の後半、マイクロソフトは、サービス停止を適時に修復できなかったことに対する責任を認めた。

「初日のピーク時には、約5時間にわたって停止に気付かなかった。これは当初予定していた10分よりもはるかに悪かった」とマイクロソフトのエンジニアリングディレクター、チャド・カイムズ氏は語った。

[[331498]]

5. Google Cloud Platform、3月26日

Google ユーザーは 3 月 26 日午前 11 時から、複数のクラウド サービスへのアクセスに関する問題を報告し始めた。

ユーザーは、Google 500 および 502 エラー コードが発生しているとツイートしました。500 は、内部エラーが原因でリクエストが失敗したことを意味します。 502 はゲートウェイ障害が発生したことを意味します。

Googleは最終的に、この障害の原因を「インフラコンポーネント」の問題だと主張した。

ダウンディテクターによると、米国東海岸沿いのGoogle顧客が最も影響を受けているようだ。

[[331499]]

6. ズーム、4月3日

新型コロナウイルス感染症のパンデミックにより、世界はリモートワークやリモート学習モードへの移行を余儀なくされ、世界で最も重要なビデオサービスプロバイダーの1つであるZoomは、プラットフォームの需要が急増した。

こうした圧力が4月3日のサービス停止につながり、米国東海岸や欧州の一部の地域のZoomユーザーはサービスが使えなくなって愕然としたようだ。 DownDetector.comによると、カリフォルニア州、フロリダ州、中西部、マレーシアの一部で障害が報告された。

ログイン試行中に報告されたエラーメッセージは、Zoom Web クライアントに問題があることを示しており、Zoom のステータス ページにはメンテナンス中であることが示されていました。

Zoomは開発者フォーラムのページで次のように述べている。「この困難な時期に、Zoomのサービスに対する需要が急増しています。顧客と開発者に優れたサービスを継続的に提供するために、いくつかの変更を迅速に実施する必要があるかもしれません。」

Zoomはこれまで、教育機関向けに無料のビデオサービス、企業や消費者向けに40分間の無料ビデオ会議を提供しており、3月の1日あたりのアクティブユーザー数は前年比151%増加した。


7. Google Cloud Platform、4月8日

Google Cloud の Identity and Access Management (IAM) API に関連するこの障害により、ユーザーは Google Gmail アカウントにアクセスできなくなり、他の主要な Google Cloud ベースのサービスにも影響が出ました。

東部標準時午前10時35分に始まり、90分未満続いたこの障害により、App Engine、Cloud Functions、BigQuery、その中核となるCompute Engine IaaSを含む複数のGoogleサービスが中断した。

Googleの姉妹会社であるNestは、セキュリティカメラが一時的に利用できない理由を顧客に説明しなければならなかった。 Google Cloud の重要な顧客である Snapchat は、1 時間以上にわたって完全に麻痺状態に陥りました。


8. GitHub、4月21日

Microsoft が所有するソースコードリポジトリである GitHub は、4 月下旬に複数回の障害を経験した。

まず、4月21日にGitHubは1時間以上も苦戦しました。翌日、GitHub は 2 回連続で障害に見舞われ、GitHub プラットフォームに依存する開発者の作業が再び停止し、その後、複数の GitHub サービスが 1 時間以上影響を受けました。そして次の日も同じでした。

Git 操作、API リクエスト、プル リクエストなど、ソフトウェア エンジニアが日常業務で頼りにする機能が登場しました。障害は週を通して続いたため、開発者らはツイッターでマイクロソフトの透明性の欠如を非難した。

[[331501]]

9. Adob​​e Creative Cloud、5月28日

5月には、Photoshop、InDesign、Premier Proなどの人気製品を含むAdobeのクラウドプラットフォームが丸一日ダウンし、クリエイティブプロフェッショナルの仕事が完全に停止しました。

Adobe Creative Cloud の障害により、デジタル デザイン コミュニティではクラウド サービスの欠点についての議論が巻き起こり、多くの人が Twitter でこれらの製品のローカライズ版を優先すべきかどうか疑問に思っている。

東部標準時午前 9 時以降、Adobe の顧客から、Adobe Creative Cloud プラットフォームにログインできず、関連サービスが使用できないとの報告がありました。一部の顧客は、アカウントにログインできなかったためサポートスタッフに連絡できなかったと述べています。

問題が明らかになってから7時間以上経って、AdobeはTwitterで問題の解決策を発表したが、根本的な原因については詳しく説明しなかった。

10. IBMクラウド、6月9日

IBMは、いくつかの人気ウェブサイトを含む多くの顧客がダウンしたクラウド障害の原因を、サードパーティのネットワーク障害にあると非難した。 IBMのビジネスパートナーのCEOは、顧客はIBMの環境、ステータス画面、コンソールにアクセスできず、「何が起こっているのか全く分からなかった」と語った。

「これは広範囲に影響を及ぼしており、環境全体が停止状態に陥っている」と彼は語った。

IBM Cloud のステータス ページも、障害発生中は短時間ダウンしていましたが、午後 6 時 30 分以降に復旧しました。一連の問題が解決された。

IBMのステータスページでは、「ネットワーク運用チームは、サードパーティプロバイダーによってもたらされた問題に対処するためにルーティングポリシーを調整することで、障害を解決した」と説明されている。

<<:  エッジコンピューティングとは何かを3分で理解する

>>:  分散システムに関する20,000語の詳細な入門書

推薦する

Linodeについてはどうですか?今年度のコンピューター ルームはすべて完全にテスト済みなので、すべてを明確に把握できます。

Linodeはどうですか? 2003年からVPS事業を展開しており、VPS業界の老舗ブランドであり、...

あなたのビジネスには高性能コンピューティングが必要ですか?

コストが下がり、使用事例が増えるにつれて、ハイパフォーマンス コンピューティングはあらゆる種類と規模...

SEOスタッフの離職率が高い理由

数年前、私は大きな敬意を持って SEO 業界に入りました。数年にわたる探求を経て、ようやく SEO ...

新しい SEO は本当に登場したのでしょうか?

背景:現在、多くの人がいわゆる新しいSEO技術を推進しています。百度のホームページに数時間表示される...

WeChatモーメンツマーケティング30日間実践ノート:WeChatクコの販売事例まとめ

9月7日から10月15日まで、WeChatモーメンツマーケティングの力を借りて、38,988元のクコ...

ウェブサイトのページと機能の主な目的:ユーザーの心理的ニーズを調整する(パート 1)

ユーザーはなぜクリックしてウェブサイトに入るのでしょうか?検索エンジンはなぜインターネット環境を絶え...

オープンソース技術に基づくクラウドを「魔法の」ものにしているのは誰でしょうか?

最近、ブルージャイアントIBMはコンサルティング会社に委託し、「クラウド時代におけるオープンソースの...

残念ながら、パブリッククラウド戦争はAWSとMicrosoft Azureの覇権争いで終わりを迎えた。

[51CTO.com クイック翻訳] 最近、クラウドコンピューティング市場の収益レポートに注目してい...

Azure PaaS サービスに安全に接続する方法

[[423609]] [51CTO.com クイック翻訳]ご存知のとおり、PaaS ベースのサービス...

Hostflyte: VPS IPの変更はわずか2ドル、4Gメモリ/20g SSD/4Tトラフィックの場合は年間11ドル

hostflyte からの最新ニュース: 公式が VPS コントロール パネルに「IP アドレスの変...

モバイルインターネットが新たな賭けをリセット 馬化騰:時が来れば儲かる日が来る

最近、テンセントは組織構造の調整とモバイルインターネット戦略のアップグレードを発表しました。テンセン...

マイクロソフトとグーグルは長期にわたる戦争を繰り広げている。 Amazon Cloud は今後も優位を維持できるでしょうか?

今日のデジタル世界では、クラウド コンピューティングの使用がさまざまな業界でますます一般的になってい...

キーワードの選択はSEOの第一歩です

検索エンジンで検索する際は、キーワードを入力して検索を行います。そのため、キーワード設計は、Webサ...

ウェブサイトのタイトルの最適化は行いましたか?

新しいウェブサイトでも古いウェブサイトでも、ウェブサイトのタイトルは最適化において非常に重要な詳細で...

分散ストレージの技術動向(II):デュアルRAIDメカニズム

[[386284]] 3 つのコピーを持つ分散ストレージが直面するパフォーマンスの問題、安定性、信頼...