マイクロソフト、クラウドサービスの停止に関する予備分析を発表

マイクロソフト、クラウドサービスの停止に関する予備分析を発表

Microsoft は、9 月 4 日に世界中の顧客に影響を与えた障害について、予備的な根本原因分析 (RCA) レポートを公開しました。Azure エンジニアリング チームはこのインシデントの調査を継続しており、「今後数週間以内に」より詳細な分析を提供すると述べています。

マイクロソフトの関係者は分析の中で、影響を受けた顧客はマイクロソフト・アジュール・サービス・レベル・アグリーメントに基づき、10月の請求書で払い戻しを受けると述べた。

9月4日、米国中南部のマイクロソフトのデータセンター付近で落雷が発生し、多くのAzureサービスに障害が発生しました。 Azure Active Directory を介した ID 認証を必要とする Office 365 も影響を受けました。この事件の影響は世界中の多くの Microsoft 顧客に影響を及ぼしました。

[[244179]]

マイクロソフトの分析では、嵐により「電力システムの供給に変動が生じ、電圧スパイクが発生した」と結論づけられた。電圧スパイクにより、Azure データセンターは発電機による電力供給に切り替えられ、データセンターの冷却システムが停止しましたが、センターにはサージ サプレッサーが装備されていました。データ センターは、冷却システム内の負荷関連の熱バッファーを通じて必要な動作温度を維持していましたが、バッファーが使い果たされると、温度が上昇し、機器は自動的にシャットダウンしました。

シャットダウン前には、「多数のストレージサーバー」やその他のネットワーク機器、電源装置など、一部のハードウェアが損傷していた。オンサイト チームはインフラストラクチャの復旧を試み始めました。これは、故障したハードウェアの交換、正常なサーバーへの移行、データの破損の有無の確認を意味しました。

障害発生時に Microsoft のデータセンターがバックアップ サイトにフェールオーバーしない理由を疑問に思う方のために説明します。「フェールオーバーを行うと、地理的レプリケーションの非同期性により部分的なデータ損失が発生するため、別のデータセンターにフェールオーバーするのではなく、データを回復するという決定が当時下されました。」

データセンターをシャットダウンすると、そのデータセンター内のストレージ サーバーに依存する多くの Azure サービスに影響します。影響を受けるサービスには、ストレージ、Virtual Machines、Application Insights、Cognitive Services と Custom Vision API、バックアップ、App Service (および Linux 用 App Service とコンテナー用 Web アプリ)、Azure Database for MySQL、SQL Database、Azure Automation、Site Recovery、Redis Cache、Cosmos Database、Stream Analytics、Media Services、Azure Resource Manager、Azure VPN Gateway、PostgreSQL、Application Insights、Azure Machine Learning Studio、Azure Search、Data Factory、HDInsight、IoT Hub、Analysis Services、Key Vault、Log Analytics、Azure Monitor、Azure Scheduler、Logic Apps、Databricks、ExpressRoute、Container Registry、Application Gateway、Service Bus、Event Hub、Azure Portal IaaS エクスペリエンス - Bot Service、Azure Batch、Service Fabric、Visual Studio Team Services (VSTS) などがあります。

マイクロソフトは「これらのサービスの大部分は9月5日の11:00 UTCまでに復旧した」と述べたが、問題が完全に解決するまでに9月7日の8:40 UTCまでかかったことを認めた。

なぜ、米国中南部地域以外の顧客もこの一連の出来事の影響を受けたのでしょうか?投稿によると、これは「クラシック」リソース タイプで管理サービスを運用する「Azure Service Manager の回復力が不十分」なことが原因だったという。 Microsoft の幹部は、「ASM はグローバル サービスですが、自動フェイルオーバーはサポートしていません」と述べています。 ASM およびその他の関連サービスへのさまざまな依存関係により、米国中南部リージョン外の Azure Resource Manager サービスも影響を受けました。

<<:  強化された制御、統合、スケーラビリティ、コンテナサポートを備えた Red Hat Ansible Tower 3.3 がリリースされました

>>:  一般的に、クラウド コンピューティングのコストの主なカテゴリは何ですか?

推薦する

クラウド コンピューティングの 5 つのすべきこととすべきでないこと

企業戦略を達成することが CIO の唯一の目標ではありません。 IT リーダーは、企業内の他の上級管...

Baiduのアップデートからトリックを見つける方法

最近、多くの草の根ウェブマスターが、Baidu が理由もなく自分たちのサイトをブロックした理由につい...

iQiyi が株式を公開しました。既存の動画サイトをどうやって凌駕したのでしょうか?

iQiyi は、100 近くの長編動画の競合相手から抜きん出て、その生涯を終えたばかりです。Youk...

Baidu Search、セキュリティアライアンス侵害報告センターを開設

百度は最近、検索結果に大幅な調整を加えた。同社は「Reputation V」製品を発表した後、インタ...

OnraHost - $5.5/Xen/1G メモリ/3CPU/50gSSD/2T トラフィック/ロサンゼルス/QuadNet

OnraHost.com は実際に以前にも安価な VPS をリリースしたことがありますが、いつも中途...

マイクロソフトの重大な脆弱性が大規模なワーム攻撃につながる可能性

[CCIDnet-IT テクノロジー ニュース] マイクロソフトは最新の情報セキュリティ速報で、リモ...

ドラゴンボートフェスティバルが今年もやって来ました。ブランドはこのようにマーケティング活動を活用します。

まず真面目な質問をさせてください。ドラゴンボートフェスティバルを活用するための創造的なマーケティング...

18歳の中国系アメリカ人の少年が「量子コンピューティングの分野における大きな進歩を無に帰した」!

わずか18歳のユーイン・タン氏は、一般的なコンピューターが量子コンピューターとほぼ同じ速さで「推奨問...

日々の話題:アリババがUCを完全買収。UCはタオバオのトラフィック転換プラットフォームになるのか?

A5ウェブマスターネットワーク(www.admin5.com)は6月13日、アリババグループとUCブ...

edis-ロシアのデータセンターKVM、最初の1か月は無料、1000Mポート

edis.at は長年の歴史があり、VPS、サーバーなどには多数の異なるデータセンターがあり、ほぼさ...

百度のインデックスデータ減少の理由分析

2012年8月31日、インデックスされたSEOブログの数は203に達し、その後9月1日から今日まで、...

動画サイトは利益を上げたいという隠れた願望を露呈:帯域幅とコンテンツコストが急落

動画業界全体の広告価格は、2013年上半期に30%上昇すると予想されています。今年、1~2社が利益を...

SUSE: マルチモードITインフラの実現に貢献

[51CTO.com からのオリジナル記事] 企業のデジタル変革のトレンドは疑う余地がありません。オ...