重要なビジネスプロセスを実行する上でクラウド プラットフォーム テクノロジーがますます重要になるにつれ、あらゆる規模のテクノロジー大手やベンダーが今年、複数のクラウド障害を経験しました。 実際、サービス障害は非常に一般的になり、準備が非常に重要になったため、クラウド大手の AWS は 11 月に開催された AWS re:Invent カンファレンスで、障害注入サービス (FIS) の追加シナリオを発表しました。このシナリオを使用すると、顧客は AWS アベイラビリティ ゾーンで完全な停電が発生したり、別の AWS リージョンとの接続が失われたりした場合に、アプリケーションがどのように動作するかをテストできます。 Parametrix Insurance は今年、フォーチュン 500 企業のほとんどが依存するクラウド リージョンである AWS us-east-1 のミッション クリティカルなサービスが 24 時間停止すると、直接的な収益損失が 34 億ドルに上り、48 時間停止すると直接的な損失が 78 億ドルに上る可能性があるというレポートを発表しました。 報告書によると、AWS の East-1 と West-2 のサービスが 24 時間停止すると 82 億ドルの損失が発生し、48 時間停止すると 175 億ドルの損失が発生する可能性があるという。 脅威アクターによるサービス中断を懸念する IT プロフェッショナルにとって、1 月に発表予定の Aviatrix のレポートでは、「過去 1 年間で、ファイアウォールによって引き起こされたクラウド ネットワークの停止件数は、回答者の組織内でのサイバー攻撃によって引き起こされた停止件数の 2 倍以上であった」ことがわかっています。 2023 年最大のクラウド障害について詳しく見てみましょう。 2023年1月のMicrosoftサービス中断1 月 17 日、北米の Microsoft Teams および Microsoft 365 ユーザーは、午前 9 時 17 分頃から午後 2 時 18 分頃までサービス停止を経験しました。 ET。 障害追跡サイト「ダウンディテクター」は、午前10時ごろに504件、午前11時に503件の報告を含む、Teamsの問題に関する数千件の報告を示した。 このうち、約 66% はサーバー接続の問題、20% はアプリケーションの問題、14% はログインの問題でした。 ロイター通信は1月25日、ネットワークの問題により、南北アメリカ、ヨーロッパ、アジア太平洋、中東、アフリカでAzure、Teams、Outlookなどのサービスが停止したと報じた。システムが完全に復旧した後、午前中にサービスは復旧しました。 ロイター通信によると、マイクロソフトは、この問題は同社の広域ネットワーク(WAN)機器のネットワーク接続の問題によるものだと主張している。 Quest Software の Practical 365 によると、このインシデントは約 5 時間続き、問題は 1 台の WAN ルーターに他のルーターにメッセージを送信するように指示することで、近隣関係の再計算とテーブル転送が発生し、パケット転送が妨げられるというものでした。 2023年1月に接着剤が故障IT Glue は 1 月 18 日午前 8 時頃 (太平洋標準時)、「一部の顧客が経験している問題を解決するために、緊急のデータベース メンテナンスを実行する必要があった」と報告しました。 インシデント報告によると、Kaseya が所有する IT ドキュメント ソフトウェア ベンダーの IT Glue は、太平洋標準時午前 9 時 33 分まで読み取り専用モードだった。 IT Glue は 1 月 20 日までにすべてのパスワードと文書を復元しました。 IT Glue にはその後の日付入りのインシデントレポートはないが、Reddit ユーザーは 1 月 9 日と 1 月 11 日にこのプラットフォームに関する質問を投稿した。 IT Glue のユーザーベースには、世界中で 13,000 を超える組織と 350,000 人を超える個人が含まれます。 2023年2月のOracleとNetSuiteの障害Oracle の共同創設者兼 CTO である Larry Ellison 氏は、Oracle Cloud Infrastructure (OCI) は「ダウンすることはない」と公言していたが、今年 2 月にいくつかの問題が発生した。 Network World によると、OCI は 2 月に数日間にわたる停止を経験した。 障害は2月13日月曜日の午前10時30分(太平洋標準時)頃に始まり、午後3時30分頃まで続きました。 2 月 15 日水曜日の太平洋標準時で、南北アメリカ、オーストラリア、アジア太平洋、中東、ヨーロッパ、アジアのユーザーに影響があります。 この障害は、OCI のパブリック ドメイン ネーム システム API をサポートするバックエンド インフラストラクチャのパフォーマンスの問題に関係しており、その結果、特定の受信サービス要求を処理できなくなりました。 Oracle は、リアルタイムのバックエンド最適化と DNS 負荷管理の微調整を使用してこの問題を軽減します。 Network World の報道によると、OCI Vault、API Gateway、Oracle Digital Assistant、OCI Search with OpenSearch はすべて停止中に問題が発生したとのことです。 Data Center Dynamicsによると、マサチューセッツ州ウォルサムのCyxteraデータセンターで発生した火災により、オラクルの子会社NetSuiteは2月14日東部標準時正午頃から停電に見舞われ始めた。 マサチューセッツ州のデータセンターはサーバーの電源を切断し、午後10時26分頃にアカウントの復旧を開始した。 ET、レジスター紙が報じた。 少なくとも1人のRedditユーザーが、この事件の結果として自分のアカウントにポイントが付与されたと報告した。 2023年3月にDatadogが停止Datadog が 3 月 8 日に始まったサービス停止を解決するのに 2 日近くかかりました。 MarketWatchによると、ニューヨークに拠点を置くクラウド監視およびセキュリティツールベンダーであるDatadogは、東部標準時午前1時31分に、ウェブアプリケーションの問題をユーザーに通知した。ウェルズ・ファーゴのアナリストらは、この障害がデータドッグの収益に与える影響について懸念を表明するメモを発表した。 データドッグのオリビエ・ポメル最高経営責任者(CEO)は、同社の5月の四半期電話会議で、このインシデントによりデータドッグは約500万ドルの損害を被り、解決には3交代制で約500~600人のエンジニアの作業が必要だったと明らかにした。 記録によると、ポメル氏は「このようなことが再び起こることをあまり心配していない」と述べ、データドッグは「より早く回復する」方法と「このようなことが起こったときに顧客により良い緩和策を提供する」方法を学んだと語った。 テクノロジーコラムニストのゲルゲリー・オロス氏は、データドッグは「システムがダウンしている間、顧客にデータ転送料金を請求しない可能性が高い」とし、「同社は1日分の収益に相当する損失を被った」と書いている。 オロス氏は、オペレーティングシステムのアップデートが障害の一因であるとし、データドッグ社は今回の事件についてユーザーともっとうまくコミュニケーションをとることができたはずだと語った。 2023年4月のMicrosoftサービス中断4月20日、Microsoft ユーザーは、Microsoft 365 オンライン アプリケーションと Teams コラボレーション アプリで約 6 時間にわたって問題を経験しました。 マイクロソフトは太平洋夏時間午前6時56分に、「Microsoft 365 Online アプリと Teams 管理センターのアクセス問題を調査中」とツイートした。 マイクロソフトは午後1時10分にツイートした。同社は「社内テレメトリを通じて肯定的な確認を受け、影響を受けた顧客へのサービスが復旧したことを示した」と述べた。 Ookla の DownDetector ウェブサイトでは、M365 の障害に関する報告が 1 日を通して数千件に上り、PDT 午前 7 時頃には 3,000 件を超える報告があり、PDT 午前 9 時頃にピークに達したと報告されています。 The Register の報道によると、Teams、SharePoint Online、Outlook は 4 月 24 日に再び停止した。マイクロソフトは太平洋夏時間午前4時17分にこの問題についてツイートし、午前7時17分に再度ツイートして「影響の大部分」は解決したと述べた。 Bleeping Computer によると、Exchange Online は 4 月 25 日に再び停止した。Microsoft は午後 1 時 21 分にこの問題についてツイートした。そして、約1時間後に解決したと述べた。 2023 年 4 月の Google サービス停止The New Stackによると、午後5時20分頃、フランスのパリにあるデータセンターで火災が発生した。 4月25日の太平洋夏時間以降、Google Cloudとヨーロッパのユーザーは90以上のクラウドサービスが麻痺する事態に見舞われました。 IT Proによると、影響を受けるサービスには、Google Cloud Storage(GCS)、Cloud Key Management Service(KMS)、Cloud Identity and Access Management(IAM)、Google Kubernetes Engine(GKE)などが含まれる。 グーグルは5月10日、「データセンターの影響を受けていた部分の一部のインスタンスはまだ利用できない」と報告した。 2023年4月のOracle-Cernerの停止Federal News Networkによると、4月17日、米国退役軍人省のOracle-Cerner電子健康記録(EHR)システムが5時間にわたって停止した。 FNNによると、この障害はデータベース機能のアップグレードとフェイルオーバーが原因で発生したという。 その後、4月25日には、Oracle-Cernerシステムが再び4時間近く停止し、退役軍人局、米国国防総省、米国沿岸警備隊に影響を及ぼした。 EHR Intelligence によると、VA は、システムを使用している 5 つの施設がシステムの機能性に再び自信を持つまで、システムの追加導入を中止した。 2023年5月のCisco SD-WAN障害Cisco vEdge プラットフォームのパブリック ルート証明書の有効期限切れにより、Cisco は X (旧 Twitter) で公式に謝罪し、「この件で問題が発生したことをお詫び申し上げます」と投稿しました。 シスコはウェブサイトの投稿で、「この問題を恒久的に解決するためにソフトウェアアップグレードをリリースした」と述べている。 Cisco 社によると、vEdge ルーターは「Cisco SD-WAN ソリューションの広域ネットワーク、セキュリティ、およびマルチクラウド機能」を提供します。 「Cisco SD-WAN vEdge ルータは、リモート オフィス、ブランチ オフィス、キャンパス、データ センターなどのサイトの境界に配置されたハードウェア、ソフトウェア、クラウド、または仮想化コンポーネントとして利用できます。」 2023年6月にマイクロソフトのサービスが中断Teams や Outlook などの Microsoft 365 サービスは、6 月初旬に数日間連続して広範囲にわたる障害を経験し、その数日後には OneDrive で深刻な障害が発生しました。 そして翌日、数千人のユーザーが Microsoft Azure クラウド プラットフォーム ポータルの停止に見舞われました。 マイクロソフトは同月後半、この事件の原因は分散型サービス拒否(DDoS)攻撃であったことを認めた。 詳細には、6 月 5 日の朝にサービス停止が発生し、数万人の Microsoft 365 ユーザーに影響が出ました。マイクロソフトは、詳細不明の「アップデート」を中止したと述べた。 「Microsoft Teams、SharePoint Online、OneDrive for Businessへのダウンストリームの影響を確認しました」とMicrosoftは東部標準時午前11時45分頃にツイートした。 マイクロソフトは、「潜在的に問題のあるアップデート」が自社のサービス全体に広がるのを阻止し、アップデートを展開したインフラの一部を再調査して変更を迅速に元に戻していると述べた。 翌日、マイクロソフトはサービスの問題が「再発」したことを発見した。午後12時3分マイクロソフトは午後11時(東部標準時)、「新たな影響事例を特定した」とし、さらなる緩和策を講じていると述べた。 「検出結果から、これまで実施された緩和策により、以前のバージョンに比べて影響が軽減されていることが示された」とマイクロソフトは述べた。 東部標準時午前 11 時 22 分現在、3,118 人のダウン ディテクター ユーザーが Microsoft 365 の問題を報告しています。 6月8日、「Anonymous Sudan」と呼ばれるハッカー集団が、Microsoft OneDriveの障害を引き起こした責任を主張した。午後3時(東部標準時)に、マイクロソフトは「緩和策を提供するために監視を分析し、負荷分散プロセスを実行し続ける」と述べた。 その日のステータス ページへのその後の更新では、この障害は Web ブラウザー経由で OneDrive にアクセスしているユーザーのみに影響したことが示され、Microsoft は更新の中で「デスクトップ クライアント、同期クライアント、または Office クライアントを使用して OneDrive サービスにアクセスしている場合は影響を受けません」と述べています。 翌日の 6 月 9 日、Microsoft ユーザーは深刻な障害に見舞われ、Azure クラウド プラットフォーム ポータルがシャットダウンされました。 その日の午後までに、マイクロソフトは問題を解決したように見えた。東部標準時の午前 11 時過ぎ、DownDetector 上で Azure の可用性の問題に関するユーザー レポートが増加し始め、次の 2 時間で Azure の停止に関するユーザー レポートが数千件記録されました。 「Anonymous Sudan」は、Azure ポータルに対して DDoS 攻撃を実行したと主張しました。 マイクロソフトは6月12日月曜日、障害の原因として「ネットワークトラフィックの急増」が考えられると発表した。 「ネットワークトラフィックの急増により、これらのサイトのトラフィック管理能力に影響が及び、これらのサイトにアクセスする顧客に問題が発生している」とマイクロソフトは述べた。 2023年6月のAWS停止AWSのウェブサイト上の事故報告によると、AWSは6月に数時間にわたる停止を経験した。 報告書には次のように記されている。「2023年6月13日午前11時49分(PDT)より、北バージニア(US-EAST-1)リージョンのお客様は、Lambda関数呼び出しのエラー率とレイテンシーの増加を経験しました。Lambda関数呼び出しの劣化により、Amazon STS、AWSマネジメントコンソール、Amazon EKS、Amazon Connect、Amazon EventBridgeなどの他のAWSサービスでもエラー率とレイテンシーの増加を経験しました。Lambda関数呼び出しは午後1時45分(PDT)に通常レベルに戻り始め、影響を受けたすべてのサービスは午後3時37分(PDT)までに完全に復旧しました。」 このインシデントの再発を防ぐため、AWS は「問題の原因となった根本的なバグの解決に取り組んでいる間、インシデントを引き起こした Lambda フロントエンド キュー アクティビティのスケーリング アクティビティを直ちに無効にしました。バグは解決され、すべてのリージョンに展開されました」とレポートは述べています。 「このインシデントにより、Lambda フロントエンドのスケーリングに使用される Lambda セル アーキテクチャの脆弱性も明らかになり、影響を受けるセルがスケーリングされたときに潜在的なエラーが発生する可能性がありました」とレポートには記載されています。 「Lambda は、セル アーキテクチャのスケーリングに関する当面の問題に対処するために複数のアクション項目を完了しており、将来的に予期しないスケーリングの問題を回避するために、すべてのセルが十分にテストされたサイズに制限されるようにするためのより大規模な取り組みを今年後半に完了する予定です。」 DownDetectorによると、6月13日正午(太平洋夏時間)頃、数万人のユーザーがシアトルに拠点を置くAWSに障害を報告し、バーモント州運輸局、ボストン・グローブ紙、ニューヨーク都市圏交通局などの組織が、X(旧Twitter)でAWSが原因の障害を報告した。 2023年7月のSlackの障害セールスフォースが所有するコラボレーションプラットフォームであるSlackは、7月27日(太平洋夏時間)にシステムレベルの問題に遭遇し、約1時間続き、午前3時に解決しました。 Slackはオンライン投稿で、障害の間「ユーザーは複数のプラットフォーム間でメッセージを送受信できなかった」と述べた。 「当社のエンジニアリングチームは、社内システムの通信を管理するサービスに変更を加えた後に問題を発見しました。その結果、変更が元に戻されるまでSlackの機能が低下し、すべてのユーザーの問題が解決されました」と投稿には記されている。 2023年7月にITグルーが故障7 月に、約 1 時間続いた IT Glue の問題により、「502 Bad Gateway」エラーが発生しました。 IT Glue は 7 月 18 日午前 11 時 54 分 (PDT) に、このパフォーマンスの問題により「一部のパートナーが IT Glue にアクセスできなくなる可能性がある」というメッセージを投稿しました。事件は午後12時46分に解決した。 2023 年 9 月に Microsoft Teams が停止Microsoft Teams は 9 月中旬に 2 時間以上続く障害を経験しました。 9月13日午前7時10分(PDT)、マイクロソフトはX(旧Twitter)に、「Microsoft Teamsに影響するインシデントを調査中」であり、「ユーザーはメッセージの送受信に遅延や障害を経験する可能性がある」と投稿した。 マイクロソフトは「この問題は北米の影響を受けるインフラストラクチャによってサービスを受けている特定のユーザーに集中していると判断し」、影響を軽減するために「影響を受けるサービストラフィックを正常なインフラストラクチャにルーティングしている」という。 「この問題に関連する影響は解決されたことを確認しました」とマイクロソフトは太平洋夏時間午前9時43分の投稿で述べた。 「アプリケーションのフロントエンドにはアクセスできるが、システムにログインしたり、システムとやり取りしようとすると、500エラーが発生し、タイムアウトになる」とシスコが所有する情報会社ThousandEyesは投稿した。 同社は、これは「何らかのバックエンドシステムまたは配信層の問題」を示していると述べた。 2023年9月にSalesforceが停止Salesforceの報告によると、9月20日にSalesforceの製品とサービスで約2時間の障害が発生したが、MuleSoftとTableauの2社のサービスが約4時間中断された。 Salesforce の調査によると、同社のポリシー変更は「セキュリティ管理の継続的なレビューと更新のための標準運用手順の一部」であったため、誤って停止を引き起こしたという。 「この変更の目的は多層防御を強化することだったが、意図した範囲を超えて他の正当かつ必要なリソースへのアクセスを意図せずブロックしてしまった」と報告書は述べている。 「最終的には、アクセス不足によりサービス間の通信が失敗し、一部の顧客がログインしてサービスを利用できなくなるシステム障害が発生しました。」 Salesforce は、変更のレビューと承認のプロセスを変更し、Tableau の起動競合状態のバグを修正して、同じ問題が再発しないようにし、次のことを約束しました。
ワークデイ、2023年11月のCloudflareの障害はオレゴンのデータセンターのせいだと主張WorkdayとCloudflareは、11月2日に始まったこの障害の原因をオレゴン州の施設の問題としており、Cisco HundredEyesは両社が同じデータセンターで影響を受けたのではないかと推測している。 クラウドフレアのウェブサイトへの投稿によると、同社のマシュー・プリンス最高経営責任者(CEO)は、11月初旬の数日間に及ぶ事件について「申し訳なく、恥ずかしい」と述べ、オレゴン州にあるフレクセンシャルが運営するデータセンターに責任の一端があると主張した。 11 月 2 日、Cloudflare は顧客向けのコントロール プレーン インターフェイスと分析サービスで障害を経験し、11 月 4 日まで続きました。 「11月2日17時57分(UTC)時点で、当社の災害復旧施設内のコントロールプレーンの大部分を復旧することができました。災害復旧施設がオンラインになった後は、多くの顧客が製品に関するほとんどの問題を経験することはなくなるでしょう」とプリンス氏は述べた。 「ただし、他のサービスの復旧にはさらに時間がかかり、これらのサービスを使用している顧客は、インシデントが完全に解決されるまで問題が発生する可能性があります。インシデント発生中、ほとんどの顧客は当社の元のログ記録サービスを利用できませんでした。」 プリンス氏は、クラウドフレアは「たとえ当社の中核データセンタープロバイダーの1つに壊滅的な障害が発生したとしても、今回のような停止を防ぐ高可用性システムを導入していると確信している」として謝罪した。 「多くのシステムは設計どおりオンラインのままでしたが、一部の重要なシステムには明らかでない依存関係があり、使用できなくなっていました。」 Cloudflare が約束している変更点は次のとおりです。
ワークデイの報告によると、インシデントは3時間続いたが、報告書ではCloudflareやFlexentialについては触れられておらず、「オレゴン州ポートランドのデータセンターで停電が発生し、一部の顧客へのサービスが中断した」ことが原因であるとしている。 ワークデイは「バックアップ電源の故障問題と不安定な電力環境による追加の課題により、サービスの復旧には通常より時間がかかっている」と述べた。 KRON4によると、DownDetectorは一時、Workdayの障害に関連する報告を1,200件以上記録したという。 |
>>: 三位一体: クラウドネイティブ、DevOps、プラットフォームエンジニアリング
ramnodeはついに安定性を失い始めました。linode\vultr\などのプラットフォームが価格...
今年1月23日の夕方、ハッカー集団UGNaziが高級ブランドCoachのウェブサイトをハッキングした...
[51CTO.comより] 10月24日、CERNET株式会社(以下、「CERNET」)と元江盛邦ネ...
特にインテリジェント テクノロジーの需要が高い業界では、クラウド上で AI アプリケーションがますま...
ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスWeiboマーケティング...
中国人が運営するIDCブランドであるMegalayerは、米国、香港、シンガポールでフィリピンVPS...
月収10万元の起業の夢を実現するミニプログラム起業支援プラン近年、経済発展と消費のグレードアップに伴...
ドメイン名投資はインターネット投資の成熟した形態です。中国ではドメイン名投資が10年ほど前から発展し...
EC業界では、運営者としてPVやUVなどのデータを毎日監視し、レポートを毎日記入することが必須です。...
Hostodo は 4 月のプロモーションを発表しました。このプロモーションでは、米国ラスベガスのデ...
Nutanix は本日、非構造化データ ストレージ製品である Objects と Files 向けの...
ゲーム開発プラットフォームRobloxは、子どもに適したプログラミング言語を積極的に推進している(写...
backupsy、それに関する情報は見つかりませんでしたので... VPSについてお話ししましょう。...
KOC という用語は、最近非常に人気が高まり、私のマーケティング業界のグループや友人の輪のいたるとこ...
以下はChris.dlさんが翻訳した「GOOGLEランキング要因の詳細リスト」という記事です。非常に...