コスト削減と笑顔の増加:滴滴P0レベルの失敗

コスト削減と笑顔の増加:滴滴P0レベルの失敗

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

2023年11月27日夕方、システム障害によりDidiアプリのサービスに異常が発生し、位置情報が表示されず、タクシーを呼ぶこともできなかった。 11月27日の夕方、Didi Chuxingは次のように返信した。「大変申し訳ございませんが、システム障害が発生しました。」

11月27日深夜、上海、北京、広州などのDidiユーザーから、Didi Chuxingアプリが使用できず、ネットワーク異常が発生し、地図が読み込まれず、ユーザーは位置情報機能を使用できず、タクシーを呼ぶこともできないとの報告があった。

「滴滴出行」という話題はすぐにWeiboで人気検索となった。ホットな検索トピックでは、多くのユーザーがDidiアプリの使用中に遭遇した「奇妙な」問題を表現する投稿をしました。

何人かのユーザーは、タクシーを捕まえることができたものの、同時に複数の車が現れたと報告した。 3 台の車に遭遇したユーザーもいれば、4 台の車に遭遇したユーザーもいました。乗車をキャンセルできず、カスタマーサービスに連絡することもできませんでした。

写真

さまざまなプラットフォームからのフィードバックから判断すると、Didiプラットフォームでは注文受付、ポジショニング、請求などの分野で問題が発生していました。

配車サービスの運転手は、昨夜アプリがクラッシュした際に注文を受け付けていたと語った。 「午後10時20分から何もできず、カスタマーサービスラインもつながらなかった。一部の機能は復旧したが、通常通りの使用はできない。間違った注文や、複数のドライバーが同じ注文を受け付けているケースも多い」

27日深夜、滴滴出行は滴滴アプリサービスの異常に対応した。 Didi Chuxingは次のように述べた。「大変申し訳ございません。」システム障害により、今夜、Didi アプリ サービスに異常が発生しました。現在、技術の復旧作業が進行中です。ユーザーおよびドライバーの皆様にご不便をおかけしましたことを改めてお詫び申し上げます。

写真

滴滴出行は2023年11月28日午前、オンライン配車サービスなどのサービスが復旧し、自転車サービスなどのサービスも徐々に修復中であると発表した。滴滴出行が発表した11月28日、記者らは滴滴出行を使って上海、深センなどのオンラインタクシーを呼んだが、オンラインタクシー機能は復旧しておらず、ネットワークの負荷が異常で、依然としてタクシーを呼ぶことができないことがわかった。滴滴出行は11月28日、記者団に対し、オンライン配車サービスが再開され、運転手と乗客の権利が次々と回復・再発行されていると回答した。

滴滴出行は11月29日、事故の原因は基盤となるシステムソフトウェアの障害であると暫定的に判断したとして、再度謝罪した

写真

出典: https://weibo.com/2838754010/NuMAAaUEl

Didi が正式にこの発表を行う前に、上級 IT 技術者は既に次のように分析していた。「パフォーマンスの観点から見ると、タクシー配車とシェアサイクルの両方がダウンしており、異なるビジネスセグメント間の分離が必要であるため、問題は基盤となるインフラストラクチャにあると考えられます。攻撃者は通常、アプリケーション層にしかアクセスできず、インフラストラクチャにはアクセスできません。攻撃者がシステムに侵入したか、システムが誤って操作されてクラッシュしたかのどちらかです。前者であっても、侵入可能なシステム欠陥です。」

360 のセキュリティ専門家は、Didi のフラッシュクラッシュの背後には 6 つの技術的な理由がある可能性があると考えています。

まず、システムの更新およびアップグレードのプロセス中に、プログラミング エラー、論理エラー、または未処理の例外が発生しました。通常、インターネット メーカーは夜間に更新をリリースしますが、これは Didi の障害が発生した時間と一致します。もちろん、業務のアップグレードやメンテナンスは大規模なアップデートですが、現在、Didiのプラットフォーム全体とすべての業務が失敗しており、それは「国内」の問題に違いありません。

2 つ目は、サーバー障害です。たとえば、Didi のコア コンピューター ルームの恒温恒湿環境に問題があり、サーバーが過熱したり、CPU が焼損したりする可能性があります。また、コア コンピューター ルームの所在地で地震、洪水、津波などの自然災害が発生した可能性もあります。この場合、ハードウェアを交換し、内部のサービス ソフトウェアを再構成する必要があります。回復期間は比較的長いですが、この可能性は比較的小さいです。

3 番目、サードパーティ サービスの障害: Didi のバックエンド アーキテクチャでは、サードパーティのサービスまたはコンポーネントが使用されている可能性があります。第三者に問題が発生した場合、Didiの正常な運営にも影響が出る可能性があります。ただし、セキュリティ上の理由から、Didi はコアビジネスを第三者に委託しない可能性がありますが、この可能性も小さいです。

4 番目は、DDOS 攻撃です。ハッカーは分散型サービス拒否攻撃を利用して大量のサーバー リソースを乗っ取り、ユーザーがシステムにアクセスできないようにします。しかし、DDos はデータ エラーを引き起こさないため、また Didi の規模を考えると、DDos に対抗するのに十分なコストと能力があるため、その可能性は低いです。

第 5 に、その他のサイバー攻撃: 一部のブラック グループやグレー グループがデータベースをドラッグしてデータを盗み、ダーク ウェブで販売する可能性があります。このプロセスでは、データベースを損傷する誤操作が発生する可能性があります。

6番目は、ランサムウェアです。サイバー攻撃のハッカーがDidiの基礎データとビジネスコードを暗号化しました。明らかになった現象によると、利用者の請求額やタクシー配車データが誤って計算されていた。滴滴出行がさらなる損失を避けるために自ら事業停止に踏み切った可能性は十分にある。最近、ランサムウェア攻撃が頻繁に発生しています。今月初め、ある金融機関がランサムウェア攻撃により業務停止となった。

しかし、サイバーセキュリティ企業の専門家の中には、外部のハッカーによる攻撃であれば、企業はできるだけ早く声明を出すのが一般的だと考える人もいる。同氏は、滴滴出行の主要な社内業務調整や、新規事業を元のシステムに接続することに重点を置いていたが、緊急時対応策が策定されていなかったため、関連事業や関連システムに重大な障害が発生したと推測した。これは大企業におけるシステム障害の最も一般的な原因です。

そのため、業界関係者の中には、コスト削減と効率性の向上も滴滴出行の大規模かつ長期にわたる停止の原因の一つかもしれないと考えている人もいる。

この人物は、インターネット企業の中核事業の頻繁かつ長期にわたるダウンタイムは、コスト削減と効率性向上の副産物の 1 つであると考えています。システムへの投資が少なくなり、メンテナンスリソースも少なくなるため、プログラマーの交代頻度が高まり、バグが増えることになります

彼は例を挙げて、一般的にビジネスの上向きの段階では余剰人員が発生すると述べた。いつでも注文の急増に対応できるように、負荷の上限を、通常時の 70% など、上昇局面では大きすぎないレベルに維持する必要があります。このように、小さなバーストに遭遇しても問題を心配する必要はなく、小さなピークに対処するだけで十分です。しかし、下降期のロジックは異なります。負荷が非常に高い場合は、それに耐えるだけで済みます。後で小さなピークに遭遇したときに不快に感じるかもしれませんが、全体的な負荷は時間の経過とともに減少します。

実は、2022年9月22日にも同様の障害が発生している。同日、滴滴出行の公式Weiboアカウントは、コンピューター室のネットワーク障害により滴滴の一部サービスに影響が出たと謝罪した。

しかし、今回のような大規模かつ長期にわたる失敗は、滴滴出行の歴史上おそらく稀なことだ。現状では、障害の原因はまだ確認できておりません。一部の技術専門家は、修復時間が長すぎることを嘆き、「マイクロサービスはもうやめるべき時だ。自分はそんなに優れているとは思わないで。今のDidiを見ればわかる」と語った。

しかし、この失敗は「コスト削減と効率向上」に関連していると考える人の方が多いようです。例えば、平常時は、いつでも突発的な注文の急増に対応できるよう十分な冗長性を確保していますが、現在は冗長性が十分でない可能性があります。関連情報によると、Didiは現在、Didi Cloudを通じてサービスを提供されている。 Didi Cloudの公式ウェブサイトによると、Didi Chuxingのクラウドコンピューティングサービスは、Didi Chuxingのビジネステクノロジーと蓄積された経験に基づいています。最先端のクラウドコンピューティングアーキテクチャ、高仕様のサーバークラスター構築、高性能なリソース割り当てメカニズム、洗練された運用モデルを採用しています。同社は、開発者にシンプル、高速、効率的、安定、費用対効果が高く、安全で信頼性の高い IT インフラストラクチャ クラウド サービスを提供することに尽力しています。今年2月、滴滴クラウドは製品ラインの調整により、2023年3月31日以降、外部にパブリッククラウドサービスを提供しないことを発表しました。

写真

大手インターネット企業の研究開発部門や設計者が頻繁に言及する高可用性に関して、この事故は人々をため息つかせています。同じ都市に複数のアクティブ サイトがあることや、異なる場所に複数のアクティブ サイトがあることは、PPT での単なるレトリックなのでしょうか?コストを削減し、効率を高めるいわゆるインターネット方式は、単に従業員を解雇し、システムを維持するために毎日 PPT を書く中間管理職の集団を残すためだけのものでしょうか?

コストを削減し、利益を増やすことによる結果は次のとおりです。
9月に、Boss Direct Hiring サーバーがクラッシュしました。 11月初旬、Alibaba Cloudサーバーがクラッシュしました。
11月末、Didiのサーバーがクラッシュした。

次は誰でしょうか?

最後に、インターネット上で流れているニュースを見てみましょう。同僚の中には、Didi の重大な障害は k8s バージョンのアップグレードによって引き起こされたと言う人もいます。当時、SRE エンジニアは問題の特定に 3 時間費やしましたが、見つけることはできませんでした。

写真

写真

Didi の公開技術共有によると、Didi Elastic Cloud は先月、k8s バージョンを k8s 1.12 から 1.20 にアップグレードしました。 (K8s 1.12 は 2018 年にリリースされ、K8s 1.20 は 2020 年にリリースされました。)

写真

出典: K8S に基づく Didi Elastic Cloud のスケジューリング プラクティス

また、Didiはすべてのユーザーに対して「お詫び補償クーポン」も配布しており、これは何の基準もなく使用でき、即時に10元を減額できる。

しかし、一部のユーザーから補償クーポンを受け取れなかったとの報告があり、百度で話題になったため、補償クーポンが限定されているのではないかと疑問視するユーザーもいた。

写真

これに対し、Didiカスタマーサービスは「補償クーポンの枚数に制限はありません」と回答した。現在、それを主張する人がたくさんいます。後でもう一度お試しください。

写真

オリジナルリンク: https://mp.weixin.qq.com/s/CkmK155WBVfYp_FTzhYyCg

<<:  インタビュアー: 2 フェーズ コミットと 3 フェーズ コミットの違いは何ですか?

>>:  インフレ圧力に対抗する手段としてのクラウドコスト最適化

推薦する

ピークサーバー - 3.99 USD/2GB メモリ/50GB ハードディスク/2TB トラフィック/

Peakservers は、仮想ホスティング、VPS、サーバーレンタルサービスを提供する新興ホスティ...

360度検索が百度を打倒する方法

百度は長年にわたり中国の検索分野のリーダーであり、そのルーツは深く、後発企業が百度の地位に挑戦するの...

SAPとSuningが戦略的提携を結び、スマートな小売ソリューションを創出

[51CTO.comよりオリジナル記事] 9月6日、SAP China Summitにおいて、Sun...

厳選: 今年最も安い米国 VPS のおすすめ!

安価な米国 VPS の推奨事項、最も安価な米国 VPS はどれですか?米国の VPS 市場における競...

国家工商行政管理総局は、タオバオには5つの大きな問題があると指摘する白書を発表した。

最近、国家工商行政管理総局が2014年版「アリババグループ行政指導白書」(以下、「白書」)を初めて公...

2018年にBATは組織構造を調整した。

2018年、BATのクラウドコンピューティングがアップグレードされ、戦略的地位が強化されました。 [...

ウェブサイト SEM: 電子商取引業界における複数製品ラインのアカウントの構築

著者: パン・ドンメイBaidu の検索エンジン マーケティング コンサルタント。主に電子商取引の顧...

ウェブサイト診断 - 新しいウェブサイトの分析

新しいウェブサイトの診断と分析には、一般的に 2 つの状況があります。1 つは新しいウェブサイトの運...

GenAI はクラウド コンピューティングの ROI を向上できますか?

既存の企業は、クラウド コンピューティングの導入を検討する際にジレンマに直面します。メリットは魅力的...

launchvps-Windows システム/3.5 USD/512 MB メモリ/25 GB SSD/1 TB トラフィック/Alipay

Alipay 支払いをサポートする別の海外 VPS 販売業者 launchvps.com を見つけま...

エンタープライズクラウドコンピューティングの選択: 行動する前によく考えてください

テクノロジーの世界では、クラウド コンピューティングが実際に何であるかについて議論が続いています。認...

2019年コンテンツ起業家年次レポート!

このレポートは、新しい主流、新しいプラットフォーム、新しい価値の 3 つの部分に分かれています。デー...

SEOにおける検索エンジンスパイダー技術の分析

検索エンジン技術は、インターネット上の膨大な量の情報をクロールします。情報が増えるにつれて、この技術...

ウェブマスターネットワークニュース:Xiaomiなどの携帯電話に抜け穴があることが発覚。Qvodの侵害訴訟は本日法廷で審理される

1. Xiaomiや他の携帯電話には、銀行のAlipayアカウントの盗難につながる脆弱性が存在してい...