マイクロソフト、クラウドサービスの停止に関する予備分析を発表

マイクロソフト、クラウドサービスの停止に関する予備分析を発表

Microsoft は、9 月 4 日に世界中の顧客に影響を与えた障害について、予備的な根本原因分析 (RCA) レポートを公開しました。Azure エンジニアリング チームはこのインシデントの調査を継続しており、「今後数週間以内に」より詳細な分析を提供すると述べています。

マイクロソフトの関係者は分析の中で、影響を受けた顧客はマイクロソフト・アジュール・サービス・レベル・アグリーメントに基づき、10月の請求書で払い戻しを受けると述べた。

9月4日、米国中南部のマイクロソフトのデータセンター付近で落雷が発生し、多くのAzureサービスに障害が発生しました。 Azure Active Directory を介した ID 認証を必要とする Office 365 も影響を受けました。この事件の影響は世界中の多くの Microsoft 顧客に影響を及ぼしました。

[[244179]]

マイクロソフトの分析では、嵐により「電力システムの供給に変動が生じ、電圧スパイクが発生した」と結論づけられた。電圧スパイクにより、Azure データセンターは発電機による電力供給に切り替えられ、データセンターの冷却システムが停止しましたが、センターにはサージ サプレッサーが装備されていました。データ センターは、冷却システム内の負荷関連の熱バッファーを通じて必要な動作温度を維持していましたが、バッファーが使い果たされると、温度が上昇し、機器は自動的にシャットダウンしました。

シャットダウン前には、「多数のストレージサーバー」やその他のネットワーク機器、電源装置など、一部のハードウェアが損傷していた。オンサイト チームはインフラストラクチャの復旧を試み始めました。これは、故障したハードウェアの交換、正常なサーバーへの移行、データの破損の有無の確認を意味しました。

障害発生時に Microsoft のデータセンターがバックアップ サイトにフェールオーバーしない理由を疑問に思う方のために説明します。「フェールオーバーを行うと、地理的レプリケーションの非同期性により部分的なデータ損失が発生するため、別のデータセンターにフェールオーバーするのではなく、データを回復するという決定が当時下されました。」

データセンターをシャットダウンすると、そのデータセンター内のストレージ サーバーに依存する多くの Azure サービスに影響します。影響を受けるサービスには、ストレージ、Virtual Machines、Application Insights、Cognitive Services と Custom Vision API、バックアップ、App Service (および Linux 用 App Service とコンテナー用 Web アプリ)、Azure Database for MySQL、SQL Database、Azure Automation、Site Recovery、Redis Cache、Cosmos Database、Stream Analytics、Media Services、Azure Resource Manager、Azure VPN Gateway、PostgreSQL、Application Insights、Azure Machine Learning Studio、Azure Search、Data Factory、HDInsight、IoT Hub、Analysis Services、Key Vault、Log Analytics、Azure Monitor、Azure Scheduler、Logic Apps、Databricks、ExpressRoute、Container Registry、Application Gateway、Service Bus、Event Hub、Azure Portal IaaS エクスペリエンス - Bot Service、Azure Batch、Service Fabric、Visual Studio Team Services (VSTS) などがあります。

マイクロソフトは「これらのサービスの大部分は9月5日の11:00 UTCまでに復旧した」と述べたが、問題が完全に解決するまでに9月7日の8:40 UTCまでかかったことを認めた。

なぜ、米国中南部地域以外の顧客もこの一連の出来事の影響を受けたのでしょうか?投稿によると、これは「クラシック」リソース タイプで管理サービスを運用する「Azure Service Manager の回復力が不十分」なことが原因だったという。 Microsoft の幹部は、「ASM はグローバル サービスですが、自動フェイルオーバーはサポートしていません」と述べています。 ASM およびその他の関連サービスへのさまざまな依存関係により、米国中南部リージョン外の Azure Resource Manager サービスも影響を受けました。

<<:  強化された制御、統合、スケーラビリティ、コンテナサポートを備えた Red Hat Ansible Tower 3.3 がリリースされました

>>:  一般的に、クラウド コンピューティングのコストの主なカテゴリは何ですか?

推薦する

DevOpsレビュー

DevOps の出現は、「左シフト運動」の具体的な現れです。ソフトウェア製品とサービスを時間どおりに...

SEO には伝説はありません。他の人の足跡をたどらないでください。

何年も前、SEO 界では、牟達人が突然 SEO 最適化の秘密に気づき、業界の SEO 担当者が狂乱し...

Baidu インデックスのアップグレードによるウェブサイトコンテンツページのランキング優位性

Baidu の検索システムの全面的なアップグレードにより、大量の高品質コンテンツをより速く、より完全...

クラウドからクラウドレットへ: データ処理への新しいアプローチ?

重要なポイント端末デバイスからのデータがクラウドで処理されることが増えていますが、これはリソースを大...

SEO 最適化効果を最大限に高めるためのセカンダリ ディレクトリの扱い方

SEO 最適化を行うには、最適化する価値のあるサイトが必要です。Web サイトのアーキテクチャは骨組...

Ceph 分散ストレージ - 一般的な OSD のトラブルシューティング

[[264128]] 1. 一般的な OSD のトラブルシューティングOSD のトラブルシューティン...

嵐が来ている: クラウド大手を阻止するために、一部のオープンソースソフトウェア企業はオープンソースライセンスを制限し始めている

オープンソースソフトウェアの世界では、スタートアップ企業とクラウドコンピューティングの大手企業の間で...

分散サービス電流制限の実践、私たちはすでにあなたのためにピットを手配しました

1. 電流制限の役割API インターフェースは呼び出し側の動作を制御できないため、リクエスト数が瞬間...

UEO時代では、ユーザーのニーズに合わせて最適化する必要がある

一連の主要な検索エンジンのアップデートにより、UEO という言葉はインターネット上で徐々に人気が高ま...

SEOウェブサイト最適化オペレーション市場ポジショニングの簡単な分析

ウェブサイト構築の初期段階では、どのようなサイトを作るにしても、サイトの位置づけを明確にする必要があ...

24khost イースタープロモーション: 2G メモリ/160G ハードディスク/2T トラフィック/6.5 USD/月

2010 年に設立された 24khost は、豊富なリソース、特にハードディスクを備えた重要なローエ...

Kubernetes でのイベント収集とアラートの監視

Kubernetes でのイベント監視マイクロサービスとクラウドネイティブの発展に伴い、Kubern...

Douban FM: 無料ユーザーから広告料を稼ぎ、「気取った」ユーザーには料金を請求

Douban FMの有料版が最近リリースされ、月額10元で、ユーザー課金モデルの模索が正式に始まった...

Exabytes VPS の簡単なレビュー、米国データセンター

私は exabytes.com で 1G メモリの VPS を入手しました。exabytes.com...