詳細な分析 | Alibaba Cloud の障害により 1 時間にわたるパニックが発生: 私たちは 0.1% なのでしょうか?

詳細な分析 | Alibaba Cloud の障害により 1 時間にわたるパニックが発生: 私たちは 0.1% なのでしょうか?

障害の影響はどの程度深刻ですか?

6月27日の夕方、北京国際貿易センターオフィスビル2号館に明かりが灯った。林暁宇は真剣な表情で、運営保守部門と研究開発部門の間の廊下を足早に行ったり来たりしていた。

アリババクラウドの障害によって引き起こされた緊急事態により、彼が勤務していたインターネット金融会社はほぼ麻痺状態に陥った。林暁宇さんは、運営保守部門で1年近く働いており、社内の各レベルのリーダーから多くの「注目」を受けています。

「多くの部署のリーダーたちが私に電話をかけてきて、何が起こっているのか尋ねてきました。」疑問に直面して、リン・シャオユウは無力でした。事件発生当時、業務データが読み取れず、取引が一時的に停止し、顧客サービスに関する苦情が急増したと振り返ります。運用保守部門と開発部門が自主点検を開始しました。サーバーにログインできず、ファイルストレージNASもサービスを提供できなかったため、問題はすぐに確認されました。Alibaba Cloudに問題があったのです。

ただ座って死を待つわけにはいかないのです!

Lin Xiaoyu 氏が勤務していた運用保守部門は緊急対策を開始しました。オンライン サービスに障害が発生したため、ローカル サービス用の Kubernetes コンテナ クラスターに切り替えましたが、これも障害が発生しました。手動で変更すると、オブジェクト ストレージ OSS が無効になり、SLS が無効になります...

彼に残されたのは待つことだけだった。

待っている間、リン・シャオユウは考え続けました。プロモーションでは「99.9%の信頼性を提供」と書かれていますが、私たちはその0.1%なのでしょうか?

恐怖の一時間

Alibaba Cloudの公式説明によると、中国のパブリッククラウド市場における同社の市場シェアは、上位2~5社の市場シェアの合計を上回っている。現在、中国のウェブサイトの 40% が Alibaba Cloud 上で運営されており、ユニコーン企業の半数も Alibaba Cloud を使用しています。この量から判断すると、0.1%のユーザーの間で説明のつかない「クラッシュ」が引き起こす不安だけでも、ソーシャル ネットワーク上で大騒ぎを引き起こすのに十分です。

午後4時30分より開始。その日、「アリババクラウドダウンタイム」のニュースはWeiboやWeChatのグループで広がり続けた。ユーザーは、障害の主な原因は公式サイトとコンソールにアクセスできないことだと指摘した。当時、アリババクラウドの社内担当者が新浪科技に提供した最初の回答は、アカウントのログインが異常であり、クラウドサーバーには影響がなく、障害はシャットダウンではなかったというものでした。

しかし、公式の対応はすぐに第二波の不満を引き起こした。 Sina TechnologyがWeiboに投稿した投稿では、多数のユーザーが他の機能にも影響が出ていると不満を述べている。Lin Xiaoyuさんによると、ログインできないだけでなく、OpenSearchが機能せず、ONSが機能せず、NASが機能せず、OSSも機能しなかったという。つまり、ログインプロセスの異常に加え、この期間中、Alibaba Cloudの多くの製品が利用できなかったのだ。

最終的に、アリババクラウドは午後に障害発表を行い、一部の管理・制御機能に加え、MQ、NAS、OSSなどの製品の一部機能にアクセス異常があったことを確認した。事故は16時21分から17時30分まで約1時間続いた。

あるユーザーはこうコメントした。「中国のインターネットユーザーの半分が1時間ショックを受けた!」

国の半分か0.1%か?

郭寧は明らかにもう半分にいる。 27日の夕方のラッシュアワー、彼は望京のオフィスビルから出て地下鉄に飛び乗り、ニュースをチェックするために携帯電話を開いて、その日の午後にアリババクラウドが「クラッシュ」したことを初めて知った。

「異常はありません。」 Guo Ningは現在、IT企業の開発チームを担当しています。すべての製品は、ESC と他の複数のクラウド サービスを含む Alibaba Cloud でホストされています。しかし彼はSina Technologyに対し、自社製品には何ら影響はなかったと語った。 「オンラインで遭遇したような問題は何も発生していません。」

実は、郭寧だけではない。 Sina Technologyが連絡を取った多くの開発者のうち、Guo Ning氏のように大半の人は停電中に何も感じなかった。 Alibaba Cloud を使用する Changba や eDaijia などのモバイル インターネット アプリケーションでは、苦情はほとんど寄せられていません。

しかし、1時間「驚かされた」ユーザーにとっては、問題は現実です。新浪科技の不完全な統計によると、この事故の影響を受けた業界の範囲は非常に広く、電子商取引、インターネット金融、通信音声、教育業界などが含まれる。アリババクラウドのカスタマーサービス担当者は「これは大規模な障害であり、基本的にプラットフォームの業務のほとんどがダウンしている」と述べたが、具体的な影響範囲やユーザー数は不明だ。

さらなるトラブルがまだ起こるだろう。

林暁宇氏は、その後障害は解消されたものの、部門は業務データを修復する必要があり、作業負荷が間違いなく増加したと述べた。

ある電子商取引会社の従業員は、その日にユーザー獲得キャンペーンを実施していたが、登録用のSMSインターフェースがすべて機能せず、1、2時間以内に新規ユーザー数がゼロになったとSina Technologyに語った。 「上司はサーバーの異常を気にしておらず、私たちが仕事をきちんとできなかったと思っているだけです。」

バグが引き起こした悲劇

翌日の早朝、アリババクラウドは障害の原因についての説明を発表した。エンジニアリングチームが新しい自動運用・保守機能を立ち上げる際に変更検証操作を実行したためだという。この機能は、テスト環境の検証中に問題は発生しませんでした。しかし、自動運用保守システムにオンライン化された後、未知のコードバグが発生しました。エラー コードにより一部の内部 IP アドレスが無効になり、一部の製品へのアクセス リンクがブロックされました。その後の手動介入により、エンジニアリング チームはすぐに問題を特定し、修復しました。

新浪科技はかつてアリババクラウドにバグの具体的な原因について問い合わせたが、相手側は回答を拒否した。

次回の配信では、様々なジョークのような憶測が加えられました。最も広く流布されているバージョンは、2 人のインターン生が雇用されたばかりで、ログイン サービスが誤って削除されたというものです。

「インターン生が誤ってログインサービスを削除したという話はあってはならない。」 IT分野の自主メディア「Linux高給トレーニングキャンプ」は、元美団点評の運用保守アーキテクトで、Mago Educationの共同創設者でもある張思彬氏の解釈を引用し、「一方で、大手インターネット企業、特にアリババクラウドのような企業は、エンジニアの権限を極めて厳しく管理している。アリババクラウドは数十万台のサーバーを保有し、全国のさまざまな業界で1000億元を超えるオンラインビジネスをサポートしているため、インターン生がそれに慣れていないのに過度な管理権限を与えることは不可能であり、極めて非専門的である」と伝えた。

張思氏はアリババから、この障害がアリババクラウド、アントファイナンシャル、天猫、フリギー、優酷などの事業グループを含むアリババグループ全体に影響を及ぼし、その中でアリババクラウドの障害レベルはS1だったことを知った。

Alibaba のオンライン ビジネスの障害レベルでは、S1 は次のように定義されます: コア ビジネスの重要な機能が利用できず、一部のユーザーに影響を与え、一定の損失が発生します。

「障害の深刻さは非常に高かった。アリババグループ全体の中核事業やアリババクラウドに依存している企業の多くが影響を受けた」と張思氏は述べた。

しかし、Sina Technologyは、その日、Tmall、Alipay、Fliggy、Youkuなどの関連製品へのアクセスは影響を受けなかったことを発見した。

具体的な原因としては、コアアプリケーションが仮想IPアドレス(VIP)リストを要求したときに空のリストが返されたため、数千のVIPが利用できなくなり、グループ全体の業務に影響が出ました。

「VIP はクラスター ビジネスへの入り口です。VIP アドレスを通じてビジネス グループにアクセスできます。数千の VIP が無効になると、数万のバックエンド サービス、アプリケーション、データベースなどに直接アクセスできなくなる可能性があります。」張先生は説明した。これは、Alibaba Cloud の公式説明「この障害テストは合格しましたが、本番環境で未知のバグがトリガーされました」とも一致しています。

アリババクラウドはこれについてコメントを控えた。

「卵を一つのカゴに盛ってはいけない」

実際、クラウド サービスの停止が多数のインターネット アプリケーションに影響を及ぼすことは珍しくありません。昨年2月28日、クラウドコンピューティングの先駆者であるAmazon AWSのクラウドストレージチームがデバッグ中に誤ったコマンドを入力し、誤って多数のサーバーを削除したため、AWS East 1サービスエリアのインフラストラクチャのトラフィックが瞬時に消失し、ダウンタイムが3時間続きました。

AWS は米国市場で主導的な地位を占めているため、 Adobe 、Airbnb、Github、 NasdaqNetflix 、Slack、 General Electric 、Quora など、著名なテクノロジー企業が影響を受けています。海外メディアの推計によると、停電により数千万ドルの損失が発生した。

「すべての卵を一つのカゴに入れることはできない、それが真実だ。」中国平安の運用保守部門責任者は、新浪科技とのインタビューで、クラウドサービスは「諸刃の剣」であると指摘した。確かに多くの企業、特に中小企業に利便性をもたらしている一方で、トラブルが発生した際の企業への影響や損失も甚大です。

担当者は「影響や損失は業種によって異なる」と話した。例えば、電子商取引企業の場合、クラウドコンピューティングの事故が発生すると、売上に直接影響を及ぼします。同時に、サプライヤーの利益が損なわれる可能性があり、企業の誠実性などの問題も潜在的に存在します。

ユーザーの観点から見ると、障害が発生するとリアルタイムの情報を取得できなくなり、ユーザーエクスペリエンスが低下します。ネットワーク上で取引を行うユーザーにとっては、損失はさらに大きくなります。

また昨年7月にはナスダックの相場情報伝達システムから送信されたテストデータが第三者機関によって不適切に使用され、重大なエラーが発生するという事態も起きている。 GoogleApple 、Amazonはかつて株価の不当な暴落を経験し、Amazonは87%も急落した。 2013年、ナスダックも同様のエラーを経験し、その日は3時間の取引停止に至った。

担当者は「大企業ではクラウド事業者を多角的に選ぶケースが多くなるだろう」と話す。一般的に、中小企業は資金や人員などの要因によって制限されており、すべてのサービスを同じブランドのクラウド サービスに配置する場合があります。ほとんどの中規模企業は、複数の製造業者に同時にサービスを提供することを選択します。ただし、メーカー間で製品属性が異なると、データ同期が失敗する可能性があります。

信頼性の問題は補償によってどのように解決できるのでしょうか?

数年前、Alibaba Cloudは100倍の故障補償を開始しました。つまり、Alibaba Cloudの障害により製品を正常に使用できない場合、Alibaba Cloudは故障時間の100倍の補償を提供します。

しかし、アリババクラウドの担当者は新浪科技に対し、補償問題は関連するサービス保証条件に従って処理されると語った。

「詳細なリストがあるはずです」とカスタマーサービススタッフは言った。事業損失状況に基づき、法務部門スタッフと事業専門家が確認を行い、確認が正しければ補償を行います。

Sina Technologyは、Alibaba Cloudの製品およびサービス契約条項を確認しました。現行の規定により、月額サービスまたはリソースパッケージサービスに障害が発生した場合、補償総額はサーバー障害に関連するサービス料金の合計額を超えません。支払額を基準として支払われる場合、賠償金の総額は、過去 12 か月間に当該障害に係るサービスに対して支払われた料金の総額を超えないものとします。

しかし、ダウンタイムの苦痛を経験した Alibaba Cloud ユーザーにとって、補償は現時点ではもはや最も重要な問題ではありません。かつて、アリババクラウドは、その「信頼性」ゆえに、多くのネットユーザーから、中国鉄道総公司が12306のチケット予約が困難な問題を解決するのに協力するよう要請されました。しかし、この時点で、リン・シャオユウはアリババクラウドが本当に信頼できるものなのかどうか疑問に思い始めていました。

クラウドコンピューティングの失敗の記録

<<:  高性能、高可用性の大規模分散Webサイトの構築方法を段階的に学習します

>>:  【AWSコミュニティディスカッション活動まとめ2】IoTクラウドプラットフォームについて語ろう

推薦する

123systems - 1g メモリ/50g ハードディスク/2T トラフィック/年間 25 ドル (セール中)

123systems は、低価格の openvz vps を非常に手頃な価格で販売しています。Hos...

NetSuiteの主要な技術革新は、さまざまな業界の企業の急速な成長に貢献しています。

Oracle NetSuite は本日、あらゆる業界の企業の収益増加、国際展開、ビジネス ユーザーの...

三国志を読んで探る;目立つように死ぬ;なぜ鍾馗は目立たずに生き残るのか

長江は東に流れ、波はすべての英雄を洗い流します。後漢末期、漢王朝は弱体化し、軍閥は権力を争いました。...

トラフィックとコンバージョン率を正確に予測する方法

職場では、上司が SEO 部門にレポートや計画の提出を求めたり、企業 Web サイトのトラフィックや...

理論から実践まで、Tmall は 2017 年の Double 11 でゲーミフィケーションをどのように活用したのでしょうか?

2017年の天猫ダブル11の幕が盛大に開かれた。WeChatは、トーチに火を灯すよう友人たちを誘う紅...

最適化プロセスにおけるA5ソフト記事の役割の実践的な共有

ご存知のように、ウェブサイトの重みはウェブサイトの最適化プロセスで非常に重要な役割を果たしています。...

SEO の考え方: リンクの位置とディレクトリ レベルのどちらがより重要ですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますSEO 最...

SEO最適化を行うには「勝つ」必要がある

中国文化は奥深く、長い歴史を持っています。漢字は深い文化的遺産を持ち、多くの意味を表しています。オン...

百度が決済ブランド「百度ウォレット」を立ち上げ、「検索して買う」ワンストップ決済サービスに注力

新浪科技新聞、4月15日午後、百度は本日記者会見を開き、決済事業ブランド「百度ウォレット」を正式に発...

ウェブサイト構築の間違った考え方を理解し、正しいウェブサイト構築スタイルを推進する

初心者ウェブマスターが初めてウェブサイトを構築するときは、いつも熱意に満ちて突き進みます。また、未熟...

xinix-$3.99/Xen/512m メモリ/20g ハードディスク/1T トラフィック

XiNiX™ InfoTech Pvt. Lt は 2005 年に設立されたホスティング会社で、主に...

高品質の外部リンクを掲載する以外に、SEO 最適化では何をすべきでしょうか?

過去の SEO 担当者、そして現在の SEO 担当者の中には、盲目的に最適化し、盲目的に外部リンクを...

DataCanvas が Gartner Cool Vendors に選出

最近、世界的に権威のあるITコンサルティングおよびリサーチ会社であるガートナーは、デジタルファイナン...

企業の評判構築のためにカスタマイズされた、必要なすべての情報を一回で検索

月収10万元の起業の夢を実現するミニプログラム起業支援プラン人々の生活水準が向上するにつれて、人々は...