中間レビュー: 2020 年のクラウド障害最大 10 件

ほんの数か月前、コロナウイルスは誰も予想できなかった方法でクラウドプロバイダーを試しました。世界中で仕事、学習、遊びを続けるためにクラウドサービスに突然大きく依存するようになった現在でも、クラウドコンピューティング業界は、クラウドサービスの可用性と安定性をほぼ維持できています。

パブリッククラウドは、前例のないストレステストに対して極めて高い耐性があることが証明されていますが、今年前半にはいくつか例外がありました。今年これまでに発生した障害のうち、コロナウイルスによるクラウド利用の急増が原因で発生したものはほんの一握りだが、その他の障害は、非常時であってもある程度は避けられない一般的な障害が原因である。

今年これまでにユーザーに影響を与えたクラウド障害のトップ 10 を紹介します。

1. Twitter、2月7日

今年2月、Twitterは部分的なサービス停止を経験し、一部のユーザーはツイートを送信できなくなりました。

「ツイートの送信に失敗しました。修正に取り組んでいます」とソーシャルメディア大手ツイッターのプロダクトマネージャー、パトリック・トラウバー氏はツイートした。

午後5時直前にはサービス停止に関する苦情が1万2000件に急増した。 Downdetector.com によると、主に米国とヨーロッパで午前 10 時 ET に発生した。

Twitterのサポートはツイートで「この度の障害についてはお詫び申し上げます。状況が正常に戻りましたらお知らせいたします」と述べた。

Twitter は、この障害は最近のアップデートに含まれる誤ったコードによって発生したことをすぐに発見し、その後アップデートをキャンセルしました。午後5時7分直前ET、Twitterサポートはユーザーに対し「Twitterを引き続きご利用いただけます。問題は解決しました。引き続きご利用いただきありがとうございます」という通知を送信した。

2. Microsoft Azure、3月3日

米国東部標準時午前 9 時 30 分より、Microsoft の米国東部データセンターで 6 時間のサービス停止が発生し、米国北部の一部の顧客が Azure クラウドサービスを使用できなくなりました。

数日後、マイクロソフトは、この障害は冷却システムの故障によるものだと発表した。マイクロソフトは、ビルの自動化制御の故障により、データセンター全体で空気の流れが減少し、それに伴って電圧が急上昇し、ネットワーク機器のパフォーマンスに影響を及ぼし、コンピューティングおよびストレージインスタンスが使用できなくなったと説明した。

マイクロソフトは最終的に冷却システムコントローラーをリセットし、温度が下がるとエンジニアは電源をオフにしてハードウェアを再起動し、サービスを復旧することができました。

3. Microsoft Teams、3月16日

新型コロナウイルスの流行による新規ユーザーの急増でサービスのサポート問題が浮き彫りとなり、Microsoft Teamsは欧州で2時間ダウンした。

マイクロソフトはツイッターで、東部標準時午前4時50分時点で「マイクロソフトはTeamsの通信関連機能に関する問題を調査している」と述べた。 Teams アプリケーションスイートがヨーロッパのユーザーに対して完全に利用できなくなったという報告があります。

マイクロソフトは声明で「一部の顧客が経験した可能性のある問題に対処するための措置を講じており、エンジニアリングチームは引き続きパフォーマンスと使用状況を積極的に監視している」と述べた。

わずか 2 週間前、Microsoft は現在 Teams ライセンスを持っていない企業や教育機関に、Office 365 E1 サブスクリプションサービスを 6 か月間無料で提供すると約束しました。

4. Microsoft Azure、3月24日～26日

マイクロソフトは今年3月、新型コロナウイルスの流行により同社のクラウドサービスの多くに多大な負担がかかり、欧州で一連の障害が発生していることを認めた。

この障害は開発者に特に大きな影響を与えました。3 月 24 日に最初に停止したのは、DevOps チームが使用する継続的デリバリーサービスである Azure Pipelines だったからです。その後数日間、Microsoft のソフトウェア開発パイプラインは大幅な遅延を経験しました。

マイクロソフトはその後、「このインシデントは、世界的なコロナウイルスの流行による仮想マシンの容量制限が原因で発生し、デバイスの再イメージ化にかかる時間と、利用可能なエージェントの待機時間が増加しました」と説明した。

その週の後半、マイクロソフトは、サービス停止を適時に修復できなかったことに対する責任を認めた。

「初日のピーク時には、約5時間にわたって停止に気付かなかった。これは当初予定していた10分よりもはるかに悪かった」とマイクロソフトのエンジニアリングディレクター、チャド・カイムズ氏は語った。

5. Google Cloud Platform、3月26日

Google ユーザーは 3 月 26 日午前 11 時から、複数のクラウドサービスへのアクセスに関する問題を報告し始めた。

ユーザーは、Google 500 および 502 エラーコードが発生しているとツイートしました。500 は、内部エラーが原因でリクエストが失敗したことを意味します。 502 はゲートウェイ障害が発生したことを意味します。

Googleは最終的に、この障害の原因を「インフラコンポーネント」の問題だと主張した。

ダウンディテクターによると、米国東海岸沿いのGoogle顧客が最も影響を受けているようだ。

6. ズーム、4月3日

新型コロナウイルス感染症のパンデミックにより、世界はリモートワークやリモート学習モードへの移行を余儀なくされ、世界で最も重要なビデオサービスプロバイダーの1つであるZoomは、プラットフォームの需要が急増した。

こうした圧力が4月3日のサービス停止につながり、米国東海岸や欧州の一部の地域のZoomユーザーはサービスが使えなくなって愕然としたようだ。 DownDetector.comによると、カリフォルニア州、フロリダ州、中西部、マレーシアの一部で障害が報告された。

ログイン試行中に報告されたエラーメッセージは、Zoom Web クライアントに問題があることを示しており、Zoom のステータスページにはメンテナンス中であることが示されていました。

Zoomは開発者フォーラムのページで次のように述べている。「この困難な時期に、Zoomのサービスに対する需要が急増しています。顧客と開発者に優れたサービスを継続的に提供するために、いくつかの変更を迅速に実施する必要があるかもしれません。」

Zoomはこれまで、教育機関向けに無料のビデオサービス、企業や消費者向けに40分間の無料ビデオ会議を提供しており、3月の1日あたりのアクティブユーザー数は前年比151%増加した。

7. Google Cloud Platform、4月8日

Google Cloud の Identity and Access Management (IAM) API に関連するこの障害により、ユーザーは Google Gmail アカウントにアクセスできなくなり、他の主要な Google Cloud ベースのサービスにも影響が出ました。

東部標準時午前10時35分に始まり、90分未満続いたこの障害により、App Engine、Cloud Functions、BigQuery、その中核となるCompute Engine IaaSを含む複数のGoogleサービスが中断した。

Googleの姉妹会社であるNestは、セキュリティカメラが一時的に利用できない理由を顧客に説明しなければならなかった。 Google Cloud の重要な顧客である Snapchat は、1 時間以上にわたって完全に麻痺状態に陥りました。

8. GitHub、4月21日

Microsoft が所有するソースコードリポジトリである GitHub は、4 月下旬に複数回の障害を経験した。

まず、4月21日にGitHubは1時間以上も苦戦しました。翌日、GitHub は 2 回連続で障害に見舞われ、GitHub プラットフォームに依存する開発者の作業が再び停止し、その後、複数の GitHub サービスが 1 時間以上影響を受けました。そして次の日も同じでした。

Git 操作、API リクエスト、プルリクエストなど、ソフトウェアエンジニアが日常業務で頼りにする機能が登場しました。障害は週を通して続いたため、開発者らはツイッターでマイクロソフトの透明性の欠如を非難した。

9. Adobe Creative Cloud、5月28日

5月には、Photoshop、InDesign、Premier Proなどの人気製品を含むAdobeのクラウドプラットフォームが丸一日ダウンし、クリエイティブプロフェッショナルの仕事が完全に停止しました。

Adobe Creative Cloud の障害により、デジタルデザインコミュニティではクラウドサービスの欠点についての議論が巻き起こり、多くの人が Twitter でこれらの製品のローカライズ版を優先すべきかどうか疑問に思っている。

東部標準時午前 9 時以降、Adobe の顧客から、Adobe Creative Cloud プラットフォームにログインできず、関連サービスが使用できないとの報告がありました。一部の顧客は、アカウントにログインできなかったためサポートスタッフに連絡できなかったと述べています。

問題が明らかになってから7時間以上経って、AdobeはTwitterで問題の解決策を発表したが、根本的な原因については詳しく説明しなかった。

10. IBMクラウド、6月9日

IBMは、いくつかの人気ウェブサイトを含む多くの顧客がダウンしたクラウド障害の原因を、サードパーティのネットワーク障害にあると非難した。 IBMのビジネスパートナーのCEOは、顧客はIBMの環境、ステータス画面、コンソールにアクセスできず、「何が起こっているのか全く分からなかった」と語った。

「これは広範囲に影響を及ぼしており、環境全体が停止状態に陥っている」と彼は語った。

IBM Cloud のステータスページも、障害発生中は短時間ダウンしていましたが、午後 6 時 30 分以降に復旧しました。一連の問題が解決された。

IBMのステータスページでは、「ネットワーク運用チームは、サードパーティプロバイダーによってもたらされた問題に対処するためにルーティングポリシーを調整することで、障害を解決した」と説明されている。

<<: IDC: クラウドITインフラ支出は第1四半期も引き続き増加したが、非クラウド支出は大幅に減少

>>: 産業用エッジコンピューティングの最終的な勝者は誰になるでしょうか?

#購入# justg: 南アフリカ cn2 gia VPS、「Naifei」をサポート、100M 帯域幅、$19.99/年、KVM/512M メモリ/1 コア/10gSSD/500G トラフィック

中間レビュー: 2020 年のクラウド障害最大 10 件

#購入# justg: 南アフリカ cn2 gia VPS、「Naifei」をサポート、100M 帯域幅、$19.99/年、KVM/512M メモリ/1 コア/10gSSD/500G トラフィック

収録記事数の減少理由の簡単な分析

Google が、広告が多すぎるウェブサイトの所有者を罰すると明言した場合、私たちはどう対応すべきでしょうか?

タオバオの信用詐欺に対するゼロトレランスにより、多くの個人が店舗を閉鎖することになった。

ウェブサイトの説明が前後をつなげていない場合、ユーザーを欺くものになります。

移植性と相互運用性: マルチクラウド成功の秘訣

spearwarenetworks: 月額 2.45 ドル、帯域幅 200M、トラフィック無制限、フロリダ州、米国、メモリ 512M/コア 1 基/SSD 20g

ソーシャルネットワーキングサイトで生き残る方法: 興味が王様

ウェブサイトのタイトル最適化 SEOの基本

Beike Home Searchの成功への道

推薦する

Pomegranateアルゴリズムの実行中にWebサイトをうまく編集する方法

ウェブサイトのSEOが失敗する理由を分析する

仮想化バックアップについてお話しましょう

Zhihu x ユニリーバ: チャリティーマーケティングはこんなにも面白いことが判明

外部リンク運用サイクルに影響を与える要因は何ですか?

SEO

IDC市場分析：クラウドデータは香港のサーバーレンタルに注力

オラクルとRunlian Technologyが戦略的提携を締結

エッジコンピューティング: 産業の最前線で働く人々にとって強力な手段

2022 年のトップ 6 エッジコンピューティング企業

クラウドコンピューティングの経済的メリットを実現する 5 つの方法

私が運営する最も成功したウェブサイトからインターネットマーケティングについて語る

Baiduのホームページ上の「優良サイト」からユーザーエクスペリエンスを分析

百度アルゴリズムの改善傾向から見るSEO企業の暗い見通し

ブログの外部リンクについて言わなければならないこと