中間レビュー: 2020 年のクラウド障害最大 10 件

中間レビュー: 2020 年のクラウド障害最大 10 件

ほんの数か月前、コロナウイルスは誰も予想できなかった方法でクラウドプロバイダーを試しました。世界中で仕事、学習、遊びを続けるためにクラウド サービスに突然大きく依存するようになった現在でも、クラウド コンピューティング業界は、クラウド サービスの可用性と安定性をほぼ維持できています。

パブリック クラウドは、前例のないストレス テストに対して極めて高い耐性があることが証明されていますが、今年前半にはいくつか例外がありました。今年これまでに発生した障害のうち、コロナウイルスによるクラウド利用の急増が原因で発生したものはほんの一握りだが、その他の障害は、非常時であってもある程度は避けられない一般的な障害が原因である。

今年これまでにユーザーに影響を与えたクラウド障害のトップ 10 を紹介します。


1. Twitter、2月7日

今年2月、Twitterは部分的なサービス停止を経験し、一部のユーザーはツイートを送信できなくなりました。

「ツイートの送信に失敗しました。修正に取り組んでいます」とソーシャルメディア大手ツイッターのプロダクトマネージャー、パトリック・トラウバー氏はツイートした。

午後5時直前にはサービス停止に関する苦情が1万2000件に急増した。 Downdetector.com によると、主に米国とヨーロッパで午前 10 時 ET に発生した。

Twitterのサポートはツイートで「この度の障害についてはお詫び申し上げます。状況が正常に戻りましたらお知らせいたします」と述べた。

Twitter は、この障害は最近のアップデートに含まれる誤ったコードによって発生したことをすぐに発見し、その後アップデートをキャンセルしました。午後5時7分直前ET、Twitterサポートはユーザーに対し「Twitterを引き続きご利用いただけます。問題は解決しました。引き続きご利用いただきありがとうございます」という通知を送信した。

[[331495]]

2. Microsoft Azure、3月3日

米国東部標準時午前 9 時 30 分より、Microsoft の米国東部データ センターで 6 時間のサービス停止が発生し、米国北部の一部の顧客が Azure クラウド サービスを使用できなくなりました。

数日後、マイクロソフトは、この障害は冷却システムの故障によるものだと発表した。マイクロソフトは、ビルの自動化制御の故障により、データセンター全体で空気の流れが減少し、それに伴って電圧が急上昇し、ネットワーク機器のパフォーマンスに影響を及ぼし、コンピューティングおよびストレージインスタンスが使用できなくなったと説明した。

マイクロソフトは最終的に冷却システム コントローラーをリセットし、温度が下がるとエンジニアは電源をオフにしてハードウェアを再起動し、サービスを復旧することができました。

[[331496]]

3. Microsoft Teams、3月16日

新型コロナウイルスの流行による新規ユーザーの急増でサービスのサポート問題が浮き彫りとなり、Microsoft Teamsは欧州で2時間ダウンした。

マイクロソフトはツイッターで、東部標準時午前4時50分時点で「マイクロソフトはTeamsの通信関連機能に関する問題を調査している」と述べた。 Teams アプリケーション スイートがヨーロッパのユーザーに対して完全に利用できなくなったという報告があります。

マイクロソフトは声明で「一部の顧客が経験した可能性のある問題に対処するための措置を講じており、エンジニアリングチームは引き続きパフォーマンスと使用状況を積極的に監視している」と述べた。

わずか 2 週間前、Microsoft は現在 Teams ライセンスを持っていない企業や教育機関に、Office 365 E1 サブスクリプション サービスを 6 か月間無料で提供すると約束しました。

[[331497]]

4. Microsoft Azure、3月24日~26日

マイクロソフトは今年3月、新型コロナウイルスの流行により同社のクラウドサービスの多くに多大な負担がかかり、欧州で一連の障害が発生していることを認めた。

この障害は開発者に特に大きな影響を与えました。3 月 24 日に最初に停止したのは、DevOps チームが使用する継続的デリバリー サービスである Azure Pipelines だったからです。その後数日間、Microsoft のソフトウェア開発パイプラインは大幅な遅延を経験しました。

マイクロソフトはその後、「このインシデントは、世界的なコロナウイルスの流行による仮想マシンの容量制限が原因で発生し、デバイスの再イメージ化にかかる時間と、利用可能なエージェントの待機時間が増加しました」と説明した。

その週の後半、マイクロソフトは、サービス停止を適時に修復できなかったことに対する責任を認めた。

「初日のピーク時には、約5時間にわたって停止に気付かなかった。これは当初予定していた10分よりもはるかに悪かった」とマイクロソフトのエンジニアリングディレクター、チャド・カイムズ氏は語った。

[[331498]]

5. Google Cloud Platform、3月26日

Google ユーザーは 3 月 26 日午前 11 時から、複数のクラウド サービスへのアクセスに関する問題を報告し始めた。

ユーザーは、Google 500 および 502 エラー コードが発生しているとツイートしました。500 は、内部エラーが原因でリクエストが失敗したことを意味します。 502 はゲートウェイ障害が発生したことを意味します。

Googleは最終的に、この障害の原因を「インフラコンポーネント」の問題だと主張した。

ダウンディテクターによると、米国東海岸沿いのGoogle顧客が最も影響を受けているようだ。

[[331499]]

6. ズーム、4月3日

新型コロナウイルス感染症のパンデミックにより、世界はリモートワークやリモート学習モードへの移行を余儀なくされ、世界で最も重要なビデオサービスプロバイダーの1つであるZoomは、プラットフォームの需要が急増した。

こうした圧力が4月3日のサービス停止につながり、米国東海岸や欧州の一部の地域のZoomユーザーはサービスが使えなくなって愕然としたようだ。 DownDetector.comによると、カリフォルニア州、フロリダ州、中西部、マレーシアの一部で障害が報告された。

ログイン試行中に報告されたエラーメッセージは、Zoom Web クライアントに問題があることを示しており、Zoom のステータス ページにはメンテナンス中であることが示されていました。

Zoomは開発者フォーラムのページで次のように述べている。「この困難な時期に、Zoomのサービスに対する需要が急増しています。顧客と開発者に優れたサービスを継続的に提供するために、いくつかの変更を迅速に実施する必要があるかもしれません。」

Zoomはこれまで、教育機関向けに無料のビデオサービス、企業や消費者向けに40分間の無料ビデオ会議を提供しており、3月の1日あたりのアクティブユーザー数は前年比151%増加した。


7. Google Cloud Platform、4月8日

Google Cloud の Identity and Access Management (IAM) API に関連するこの障害により、ユーザーは Google Gmail アカウントにアクセスできなくなり、他の主要な Google Cloud ベースのサービスにも影響が出ました。

東部標準時午前10時35分に始まり、90分未満続いたこの障害により、App Engine、Cloud Functions、BigQuery、その中核となるCompute Engine IaaSを含む複数のGoogleサービスが中断した。

Googleの姉妹会社であるNestは、セキュリティカメラが一時的に利用できない理由を顧客に説明しなければならなかった。 Google Cloud の重要な顧客である Snapchat は、1 時間以上にわたって完全に麻痺状態に陥りました。


8. GitHub、4月21日

Microsoft が所有するソースコードリポジトリである GitHub は、4 月下旬に複数回の障害を経験した。

まず、4月21日にGitHubは1時間以上も苦戦しました。翌日、GitHub は 2 回連続で障害に見舞われ、GitHub プラットフォームに依存する開発者の作業が再び停止し、その後、複数の GitHub サービスが 1 時間以上影響を受けました。そして次の日も同じでした。

Git 操作、API リクエスト、プル リクエストなど、ソフトウェア エンジニアが日常業務で頼りにする機能が登場しました。障害は週を通して続いたため、開発者らはツイッターでマイクロソフトの透明性の欠如を非難した。

[[331501]]

9. Adob​​e Creative Cloud、5月28日

5月には、Photoshop、InDesign、Premier Proなどの人気製品を含むAdobeのクラウドプラットフォームが丸一日ダウンし、クリエイティブプロフェッショナルの仕事が完全に停止しました。

Adobe Creative Cloud の障害により、デジタル デザイン コミュニティではクラウド サービスの欠点についての議論が巻き起こり、多くの人が Twitter でこれらの製品のローカライズ版を優先すべきかどうか疑問に思っている。

東部標準時午前 9 時以降、Adobe の顧客から、Adobe Creative Cloud プラットフォームにログインできず、関連サービスが使用できないとの報告がありました。一部の顧客は、アカウントにログインできなかったためサポートスタッフに連絡できなかったと述べています。

問題が明らかになってから7時間以上経って、AdobeはTwitterで問題の解決策を発表したが、根本的な原因については詳しく説明しなかった。

10. IBMクラウド、6月9日

IBMは、いくつかの人気ウェブサイトを含む多くの顧客がダウンしたクラウド障害の原因を、サードパーティのネットワーク障害にあると非難した。 IBMのビジネスパートナーのCEOは、顧客はIBMの環境、ステータス画面、コンソールにアクセスできず、「何が起こっているのか全く分からなかった」と語った。

「これは広範囲に影響を及ぼしており、環境全体が停止状態に陥っている」と彼は語った。

IBM Cloud のステータス ページも、障害発生中は短時間ダウンしていましたが、午後 6 時 30 分以降に復旧しました。一連の問題が解決された。

IBMのステータスページでは、「ネットワーク運用チームは、サードパーティプロバイダーによってもたらされた問題に対処するためにルーティングポリシーを調整することで、障害を解決した」と説明されている。

<<:  エッジコンピューティングとは何かを3分で理解する

>>:  分散システムに関する20,000語の詳細な入門書

推薦する

純利益の「接近戦」クラウドコンピューティングが次の戦場か?

[[265739]]過去1年間、アリババとテンセントはともに経済環境の不確実性と、沈みゆく市場におけ...

百度は検索体験を重視しており、背景や技術のない小規模ウェブマスターの将来は心配だ

今年6月末から、百度は検索エンジンのアルゴリズムを大幅に調整し、いくつかの大規模サイトを相次いで禁止...

Robusta KRR - Kubernetesを最適化するためのリソース割り当てツール

Robusta KRR (Kubernetes Resource Recommender) は、Ku...

dotvps-限定版低価格 UK KVM-1g メモリ 7 ドル

dotvps.co は 2011 年に設立されました。ダラス、シカゴ、ニューヨーク、メイデンヘッド ...

クラウドネイティブテクノロジーのハイレベルなプレーヤーになるにはどうすればよいでしょうか? Huawei Cloudは最近これをやった

クラウドコンピューティングの過去10年間で、DevOps、コンテナ、マイクロサービスなどのテクノロジ...

XEN および KVM 仮想化 VPS にスワップ パーティションを追加する

2host.com から 512M のメモリを搭載した VPS を購入しましたが、奇妙なことに、10...

SEO を学ぶのにどれくらい時間がかかるかと聞かれたら、私の答えは 1 万年です。

昨今、SEOに取り組む人はますます増え、SEO業界も混沌としていますが、SEOで本当に儲かる人は多く...

最新の SEO 不正事例の分析: あなたはどう思いますか?

盤古が世界を創造して以来、混沌とした天地は二つに分かれ、陰と陽、黒と白は対立していたが、初めから終わ...

ポッドコンテナをリモートでデバッグする方法

みなさんこんにちは。私は次男です。面接のシナリオでは、デバッグの問題に関して、通常次のような会話が行...

医療ウェブ編集者がプレスリリースを書くのはなぜですか? プレスリリースの書き方は?

調査によると、医療系ウェブ編集者がネットワーク編集者の大部分を占めていることがわかりました。このこと...

はじめる! Kafka を分かりやすく紹介しましょう。

[[315603]]序文「私は、パンデミック中にゲームをプレイしながら Kafka を学びました。A...

分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

具体的には、この記事ではまず、分散コンピューティングの基本概念と、分散コンピューティングがディープラ...

ウェブサイトのスナップショットが更新されていない場合に使用してはいけない「​​7つの傷害」

更新されていない新しいサイトのスナップショットは、確かにウェブマスターにとって最も厄介なことですが、...

ビッグクラウドは新年まで幸運をもたらします

「雲」の上にいるような感覚を味わってみませんか。挑戦してみますか?クラウド ホスティング業界のダーク...

Baidu製品を活用してSEOを最適化する

インターネット上にはSEOが崩壊しつつあるという情報が多くありますが、情報の真偽については今は議論せ...