マイクロソフト、クラウドサービスの停止に関する予備分析を発表

マイクロソフト、クラウドサービスの停止に関する予備分析を発表

Microsoft は、9 月 4 日に世界中の顧客に影響を与えた障害について、予備的な根本原因分析 (RCA) レポートを公開しました。Azure エンジニアリング チームはこのインシデントの調査を継続しており、「今後数週間以内に」より詳細な分析を提供すると述べています。

マイクロソフトの関係者は分析の中で、影響を受けた顧客はマイクロソフト・アジュール・サービス・レベル・アグリーメントに基づき、10月の請求書で払い戻しを受けると述べた。

9月4日、米国中南部のマイクロソフトのデータセンター付近で落雷が発生し、多くのAzureサービスに障害が発生しました。 Azure Active Directory を介した ID 認証を必要とする Office 365 も影響を受けました。この事件の影響は世界中の多くの Microsoft 顧客に影響を及ぼしました。

[[244179]]

マイクロソフトの分析では、嵐により「電力システムの供給に変動が生じ、電圧スパイクが発生した」と結論づけられた。電圧スパイクにより、Azure データセンターは発電機による電力供給に切り替えられ、データセンターの冷却システムが停止しましたが、センターにはサージ サプレッサーが装備されていました。データ センターは、冷却システム内の負荷関連の熱バッファーを通じて必要な動作温度を維持していましたが、バッファーが使い果たされると、温度が上昇し、機器は自動的にシャットダウンしました。

シャットダウン前には、「多数のストレージサーバー」やその他のネットワーク機器、電源装置など、一部のハードウェアが損傷していた。オンサイト チームはインフラストラクチャの復旧を試み始めました。これは、故障したハードウェアの交換、正常なサーバーへの移行、データの破損の有無の確認を意味しました。

障害発生時に Microsoft のデータセンターがバックアップ サイトにフェールオーバーしない理由を疑問に思う方のために説明します。「フェールオーバーを行うと、地理的レプリケーションの非同期性により部分的なデータ損失が発生するため、別のデータセンターにフェールオーバーするのではなく、データを回復するという決定が当時下されました。」

データセンターをシャットダウンすると、そのデータセンター内のストレージ サーバーに依存する多くの Azure サービスに影響します。影響を受けるサービスには、ストレージ、Virtual Machines、Application Insights、Cognitive Services と Custom Vision API、バックアップ、App Service (および Linux 用 App Service とコンテナー用 Web アプリ)、Azure Database for MySQL、SQL Database、Azure Automation、Site Recovery、Redis Cache、Cosmos Database、Stream Analytics、Media Services、Azure Resource Manager、Azure VPN Gateway、PostgreSQL、Application Insights、Azure Machine Learning Studio、Azure Search、Data Factory、HDInsight、IoT Hub、Analysis Services、Key Vault、Log Analytics、Azure Monitor、Azure Scheduler、Logic Apps、Databricks、ExpressRoute、Container Registry、Application Gateway、Service Bus、Event Hub、Azure Portal IaaS エクスペリエンス - Bot Service、Azure Batch、Service Fabric、Visual Studio Team Services (VSTS) などがあります。

マイクロソフトは「これらのサービスの大部分は9月5日の11:00 UTCまでに復旧した」と述べたが、問題が完全に解決するまでに9月7日の8:40 UTCまでかかったことを認めた。

なぜ、米国中南部地域以外の顧客もこの一連の出来事の影響を受けたのでしょうか?投稿によると、これは「クラシック」リソース タイプで管理サービスを運用する「Azure Service Manager の回復力が不十分」なことが原因だったという。 Microsoft の幹部は、「ASM はグローバル サービスですが、自動フェイルオーバーはサポートしていません」と述べています。 ASM およびその他の関連サービスへのさまざまな依存関係により、米国中南部リージョン外の Azure Resource Manager サービスも影響を受けました。

<<:  強化された制御、統合、スケーラビリティ、コンテナサポートを備えた Red Hat Ansible Tower 3.3 がリリースされました

>>:  一般的に、クラウド コンピューティングのコストの主なカテゴリは何ですか?

推薦する

4 つのストレージ テクノロジが互いに競合します。次世代のスターは誰になるでしょうか?

現代の電子製品では、ストレージが不可欠かつ重要な役割を果たしています。半導体産業の生産額は2017年...

劉振宇氏との対話:MSN中国の興亡の真実

MSN が消滅するという噂もあるが、劉振宇氏はそれを笑い飛ばすだけだ。辛抱強く耳を傾けなければ、多く...

中国の共同購入は長い道のりを歩んできた:関係者の運命

共同購入の発展はサイクルのようなもので、大きな再編の後、誰もが必然的に出発点に戻り、同じ方法で次のラ...

ウェブサイトのホームページの掲載をスピードアップする6つの秘訣

私のような草の根ウェブマスターの多くは、常に問題に悩まされてきました。それは、なぜ Baidu が自...

301 リダイレクトが Baidu ランキングに与える影響の分析

ウェブサイトの SEO ランキングを行う際、301 リダイレクトの問題に遭遇します。多くの人は、30...

魅力的なタイトルと説明はランキングを向上させることができます

タイトルと説明は、ウェブサイトが提供するコンテンツの全体的な要約と紹介です。多くの SEO 担当者は...

企業が今 SEO を実施しなければ、将来も実施できなくなります。SEO には第一印象も必要です。

インターネットが急速に発展するにつれ、伝統的な国内企業は電子商取引の利点をますます認識するようになり...

「ビッグバン・セオリー」などのアメリカのテレビシリーズが棚から撤去された

新浪科技によると、「ビッグ・リボウスキ」や「グッド・ワイフ」など、いくつかのアメリカのテレビシリーズ...

取引方法の合理化によりウェブサイトをより高いレベルに導く

インターネットの拡大に​​伴い、今年のタオバオ11フェスティバルも取引高の記録を更新しました。しかし...

マイクロソフト リサーチ アジア インテリジェント オペレーション: クラウド サービスのインテリジェントな推進力

この疫病は人々の生産や生活の仕方を変えました。共同作業、リモートワーク、オンライン教育などのシナリオ...

Namecheap-新しいサーバー/E3-1240v3/最低99ドル/フェニックス

今日、Namecheap がサーバー サービスを全面的に更新したというニュースを受け取りました。最低...

クラウド サービス初心者のための SaaS コスト管理のヒント 3 つ

企業によるクラウドベースの SaaS 製品の導入が加速している理由は、世界的なパンデミックの拡大、ソ...

インターネットマーケティングの専門家、陳千万氏:精密マーケティングに必要な3つのステップ

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますマーケティ...

Expedia が AWS に全面的に参入

[51CTO.com からのオリジナル記事] AWS は本日、世界的なオンライン旅行会社 Exped...