2018 年のクラウド ダウンタイム インシデントの一覧

2018 年のクラウド ダウンタイム インシデントの一覧

クラウド セキュリティは業界で最も懸念される問題であり、クラウド サービス プロバイダーはクラウド セキュリティに関して繰り返し努力してきましたが、障害を防ぐのは依然として困難です。

[[257110]]

1. 6月17日: Microsoft Azure アイルランド データセンターの停止

事故の詳細: 2018 年 6 月 17 日から 18 日にかけて、アイルランドのデータ センターの恒温システムに問題があったため、Microsoft Azure が高温の影響を受け、ストレージとネットワークが停止しました。

ダウンタイム: 5時間以上

2. 6月27日:Alibaba Cloudの停止

事故の詳細:2018年6月27日16時21分頃、Alibaba Cloudで重大な技術的障害が発生し、16時50分に回復し始めました。公式の障害時間は約 30 分、復旧時間は約 1 時間かかりました。アリババは技術検討の結果、エンジニアリングチームが新しい自動運用・保守機能の導入時に変更検証操作を実行したことが障害の原因であると説明した。この操作はテスト環境では問題は発生しませんでしたが、実行後に未知のバグを引き起こしました。

改善策: 問題を特定して解決するための手動介入。

ダウンタイム: 30 分、回復時間は約 1 時間かかりました。

3. 7月20日:テンセントクラウドのハードドライブ障害

事故の詳細:2018年8月5日、北京青波CNCテクノロジー株式会社(以下、「Frontier CNC」)は、公式Weiboアカウントに「テンセントクラウドがスタートアップ企業にもたらした災難」と題するブログ記事を公開した。投稿によると、2018年7月20日にTencent Cloudのクラウドハードディスクが故障し(Tencent Cloudは後に事故の原因について説明した)、その結果、同社が保管していたすべてのデータが失われ、データを回復することができなかったという。これは、長期にわたるプロモーションと転用を通じて蓄積された正確な登録ユーザーとコンテンツデータを含む、スタートアップ企業の約1,000万元のプラットフォームデータです。

改善策:テンセントクラウドは、異常を監視した後、できるだけ早くユーザーに障害状況を通知し、すぐにファイルシステムの専門家を組織し、メーカーの技術専門家と協力してデータの修復を試みたと述べました。しかし、何度も努力したにもかかわらず、一部のデータ整合性チェックは依然として失敗しました。

4. 7月24日: Tencent Cloudのダウンタイム

事故の詳細:2018年7月24日、ユーザーはTencent Cloudにログインする際にタイムアウトとログアウトを繰り返し経験した。オペレータを変更した後でも結果は同じでした。その後、テンセントクラウドは、事業者の光ケーブルが中断されたと暫定的に判断した旨の通知を出した。オペレーターはブレークポイントを見つけ、接続処理中でした。影響を受けた主なユーザーは、広州地域の一部のユーザーでした。

改善策: オペレーターが介入し、できるだけ早く問題を修復しました。

ダウンタイム: ダウンタイムは不明、回復には30~40分かかります

5. プライムデー: Amazon AWS の停止

事件の詳細: プライムデーは、Amazon が世界中で開催する 36 時間の会員プロモーション イベントです。事件が始まるとすぐに、Amazonのウェブサイトとアプリは同時に深刻な障害に見舞われ、電子商取引事業が被害を受けただけでなく、Amazonの他の製品やサービスもさまざまな程度で影響を受けました。 Amazon の説明によると、AWS マネジメントコンソールにグローバルな問題があったとのことです。

ダウンタイム: 停止は 6 時間近く続きました。

6. 9月4日:Microsoft Azureデータセンターが落雷によりオフラインに

事故の詳細:9月4日午前、Microsoft Azureの米国中南部データセンター付近で落雷を含む悪天候が発生し、冷却システムの電圧に影響を及ぼし、複数のAzureサービスに接続障害が発生したため、当該地域のデータセンターに保存されているリソースへのお客様のアクセスが困難になりました。影響を受けるサービスには、Office 365 Active Directory、Visual Studio Online、Visual Studio Team Services などがあります。

修復措置: 9 月 5 日の朝、マイクロソフトのエンジニアがデータ センター内の電源とほとんどのネットワーク機器を復旧し、その他のサービスも復旧中です。

ダウンタイム: 24時間以上

7. 11月9日: Google CloudのKubernetesサービス(GKE)がダウン

事象の詳細:11月9日、Googleのパブリッククラウド上で提供されるKubernetesサービス(GKE)のノードプール構築機能に異常が発生し、保守担当者がCloud Console UIから新規ノードを作成できなくなりました。

対策: Google はエンジニアリング チームを派遣して障害の原因を調査し、修復作業を開始しました。 Google は、影響を受ける企業ユーザーはまず GCP 組み込みの gcloud コマンドを使用して新しい Kubernetes ノードを構築できると述べています。

ダウンタイム: 約19時間

<<:  2018年にBATは組織構造を調整した。

>>:  「ハイブリッドクラウド産業推進アライアンス」が設立され、ZStackの強みが強化

推薦する

サードパーティのウェアハウスで Zadig パイプラインの自動トリガーを実現する方法

最近、同社の生産と研究の調整により、コードリポジトリをローカルの Gitlab から Yunxiao...

SEOの発展の道筋とSEOのキャリアプランの立て方について

大学を卒業したばかりの頃、通信業界で働いていたのですが、3か月後に通信業界を完全に諦めて、インターネ...

関連性の穴から抜け出し、SEOの視野を広げる方法

関連性を体系的に説明し、例示する記事をたくさん見てきましたが、私が言いたいのは、衣料品店は本当に衣料...

ブラック 5: solarvps-50% オフ/VPS クラウド/2.5 ドルから/512 MB メモリ/Windows 搭載

solarvps ブラックフライデー プロモーションがリリースされました: 割引コード: BLACK...

ゲーム業界の幹部がクラウドサービスでゲーマーの関心を維持する方法を共有

Akamai は、ビデオ ゲームの先駆者、革新者、リーダーにリアルタイムのサービスと保護を提供します...

事例 - Joyo と Dangdang が検索エンジンを使用して製品を宣伝する方法

この記事では、主に、2 大 B2C ウェブサイトである Joyo と Dangdang が検索エンジ...

所有ボックス - 24 ポンド/年/KVM/512m メモリ/10g SSD/3T トラフィック

Ownbox は、フランスと米国にホスティング マシンを持つ小規模なホスティング会社です。Ownbo...

2012年12月29日のBaiduランキングの変化についての私の個人的な意見

2012 年 1 か月間、Baidu には基本的に大きな変化はありませんでした。ランキングの変更は、...

オリジナルコンテンツの掲載に関する百度の3つの判断

「Baidu Original」の話題はよく取り上げられ、インターネット上では関連投稿が数多く出回っ...

クラウドストレージに隠されたデータを見つける方法

クラウド オブジェクト リポジトリが事実上のデータ レイクになるにつれ、企業は蓄積されるすべてのデー...

個人ブログの SEO 最適化に関する注意事項

これまで、私は SEO 最適化の作業に携わって 1 か月も経っていません。多くの熱心な SEO ファ...

SEO最適化におけるH1タグの重要性について

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています現在、多く...

ユーザーの立場に立ってウェブサイトのユーザーエクスペリエンスを向上させる

検索エンジンは、ウェブサイトのユーザー エクスペリエンスにますます注目しています。結局のところ、検索...

ブランドマーケティングを構築し、収益を上げるためのWeiboの合理的な使用

オンラインマーケティングには、オンラインマーケティングを実現する方法が数多くあります。Weiboマー...

微博の未来: コンテンツが王、ソーシャルネットワーキングが皇帝、そしてセレブが兵士

今日のWeiboは、コンテンツ、セレブリティ、ソーシャルの3つのカテゴリーに簡単に分けられます。We...