Googleの障害事件からインターネットの動作原理を理解する

Googleの障害事件からインターネットの動作原理を理解する

本日、Google のサービスに約 27 分間の短時間の停止が発生し、一部の地域のインターネット ユーザーに影響が出ました。この事件の原因を理解するには、インターネットの奥深く暗い隅まで調べる必要があります。私は CloudFlare のネットワーク エンジニアであり、Google がこの障害から回復するのを支援しました。何が起こったか見てみましょう。

2012 年 11 月 5 日午後 6 時 24 分頃 (太平洋標準時) / 2012 年 11 月 6 日午前 2 時 24 分頃 (インド標準時)、CloudFlare の従業員は Google のサービスが停止していることを発見しました。私たちは Google のメールなどのサービスを使用しているので、それが機能していない場合は、オフィスの人々がすぐに気付くでしょう。私はネットワーク技術グループで働いているので、すぐにネットワークに接続して、ローカルエリアの問題なのかグローバルな問題なのか、何が起こっているのかを確認しました。

トラブルシューティング

すぐに、Google のパブリック DNS サーバーである 8.8.8.8 にも接続できないことに気づいたので、DNS を探し出すことから始めました。

$ dig +trace google.com

Google.com のネームサーバーを調べたところ、次のような応答が返ってきました。

google.com. 172800 IN NS ns2.google.com.

google.com. 172800 IN NS ns1.google.com.

google.com. 172800 IN NS ns3.google.com.

google.com. 172800 IN NS ns4.google.com.

;; 192.12.94.30#53(e.gtld-servers.net) から 152 ミリ秒で 164 バイトを受信

;; 接続がタイムアウトしました。サーバーにアクセスできませんでした

サーバーが検出できなかったという事実は、何かが間違っていることの証拠でした。具体的には、当社のオフィスから Google DNS サーバーに接続できなくなることを意味します。

この通信層に問題があるかどうかを確認するために、ネットワーク層での問題を探し始めました。

PING 216.239.32.10 (216.239.32.10): 56データバイト

icmp_seq 0 のリクエストタイムアウト

1-1-15.edge2-eqx-sin.moratelindo.co.id (202.43.176.217) からの 92 バイト: 有効期限が切れました

ここに奇妙なメッセージがあります。通常、Google のルーティング情報にはインドネシアの ISP (Moratel) の名前は表示されません。私はすぐに CloudFlare のルーターの 1 つにアクセスして、何が起こっているのかを確認しました。一方、Twitter 上の世界の他の地域からの報告によると、問題を抱えているのは私たちだけではないようです。

インターネットルーティング

何が問題だったのかを理解するには、インターネットの仕組みに関する基本事項をいくつか知っておく必要があります。インターネット全体は、「自律システム (AS)」と呼ばれる多数のネットワークで構成されています。各ネットワークには、AS 番号と呼ばれる、自身を識別するための一意の番号があります。 CloudFlare の AS 番号は 13335 で、Google の AS 番号は 15169 です。ネットワークは、Border Gateway Protocol (BGP) と呼ばれるテクノロジーを通じて相互に接続されます。エッジ ゲートウェイ プロトコルはインターネットの接着剤と呼ばれ、どの IP アドレスがどのネットワークに属しているかを宣言し、ある自律ネットワークから別の自律ネットワークへのルートを確立します。インターネットの「ルート」とは、その言葉が意味する通り、ある自律ネットワーク内の IP アドレスから別の自律ネットワーク内の別の IP アドレスへのパスを意味します。

Edge Gateway プロトコルは相互信頼システムに基づいています。各ネットワークは、信頼の原則に基づいて、どの IP アドレスがどのネットワークに属しているかを他のネットワークに伝えます。パケットを送信したり、インターネットを通過する要求を行うと、ISP は上流のプロバイダーまたはピア プロバイダーに連絡して、ISP からインターネットの宛先までの最短ルートを問い合わせます。

残念ながら、ネットワークが特定の IP アドレスまたはネットワークが内部にあるとアナウンスしたが、実際には内部になく、上流またはピア ネットワークがそれを信頼している場合、パケットは最終的に失われます。それがここで起こっている問題です。

Edge Gateway Protocol によって渡された Google IP のルーティング アドレスを確認したところ、ルーティングはインドネシアの ISP である Moratel (23947) を指していました。私たちのオフィスはカリフォルニアにあり、Google のデータセンターからそれほど遠くありません。そのため、データ パケットがインドネシアを通過することはありません。おそらく、Moratel は誤ったネットワーク ルートを宣言しました。

当時、エッジ ゲートウェイ プロトコルから見たルートは次のとおりでした。

[email protected]> ルート 216.239.34.10 を表示

inet.0: 422168 宛先、422168 ルート (422154 アクティブ、0 ホールドダウン、14 非表示)

+ = アクティブルート、- = 最後にアクティブ、* = 両方

216.239.34.0/24 *[BGP/170] 00:15:47、MED 18、ローカル設定 100

AS パス: 4436 3491 23947 15169 I

> ge-1/0/9.0経由で69.22.153.1へ

Google のパブリック DNS などの他のルートを確認しましたが、同じ (誤った) パスにハイジャックされていました。

[email protected]> ルート 8.8.8.8 を表示します

inet.0: 422196 宛先、422196 ルート (アクティブ 422182、ホールドダウン 0、非表示 14)

+ = アクティブルート、- = 最後にアクティブ、* = 両方

8.8.8.0/24 *[BGP/170] 00:27:02、MED 18、ローカル設定 100

AS パス: 4436 3491 23947 15169 I

> ge-1/0/9.0経由で69.22.153.1へ

ルートリーク

このような問題は業界では、通常のルートではなく「ルート リーク」から発生すると考えられています。これは前例がないわけではない。 Googleは以前にも同様の障害に見舞われたことがある。パキスタンがYouTubeの動画を禁止しているという憶測が流れ、パキスタンの国営ISPがYouTubeサイトのルーティング情報を削除したのだ。残念なことに、彼らの慣行は外部に伝わり、パキスタンテレコムの上流プロバイダーである PCCW はパキスタンテレコムの慣行を信頼し、このルーティング方法をインターネット全体に伝えました。この事件により、YouTubeのウェブサイトは約2時間アクセス不能となった。

今日起こったことは、同様の状況です。 Moratel の誰かが「指が太い」ため、間違ったインターネット ルーティングを入力しました。 Moratel の上流プロバイダーである PCCW は、Moratel が渡したルートを信頼していました。すぐに、誤ったルーティングがインターネット全体に広がりました。エッジ ゲートウェイ プロトコルの信頼モデルでは、これは悪意のある行為というよりも、誤操作や間違いです。

修理

解決策は、モラテルが間違ったルートを宣言するのをやめることだった。特に CloudFlare のような大規模なネットワーク企業でネットワーク エンジニアとして働く場合、世界中の他のネットワーク エンジニアとつながることが非常に重要です。問題を特定した後、私はモラテルの同僚に連絡し、何が起こったかを伝えました。彼は太平洋標準時午後6時50分/協定世界時午前2時50分頃に問題を修正しました。 3 分後、ルーティングは正常に復元され、Google サービスが再び機能するようになりました。

ネットワーク トラフィック グラフに基づいて、この障害によって世界中のインターネット ユーザーの 3 ~ 5% が影響を受けたと推定します。最も被害が大きいのは香港だ。なぜならそこに PCCW の本部があるからだ。当時 Google のサービスにアクセスできなかった地域にいた場合は、その理由がわかるでしょう。

より良いインターネットの構築

私がこう言うのは、私たちのインターネットが相互信頼のメカニズムの上に構築されていることを皆さんに知っていただくためです。今日の事件は、Google のような大企業であっても、制御できない外部要因がユーザーに影響を与え、アクセスを妨げる可能性があることを示しています。そのため、ルーティングを監視し、世界との接続を管理するネットワーク技術チームが非常に重要です。 CloudFlare は、お客様が可能な限り最適なルーティングを利用できるように日々取り組んでいます。当社はインターネット上のすべてのウェブサイトを管理し、可能な限り最速の速度で提供されるようにします。今日起こったことは私たちの仕事のほんの一部に過ぎません。

Google が今日オフラインになった理由とインターネットの仕組みについて


原題: Google の障害事件からインターネットの仕組みを理解する

キーワード: Google、ダウンタイム、インシデント、理解、インターネット、ネットワーク ワーカー、オリジナル作品、今日、サービス、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブデザインに手​​描きスタイルを使用すると、ウェブサイトのユーザーエクスペリエンスが向上します。

>>:  A5 Yuehuai: SEO最適化に有益な仮想ホストの選択について

推薦する

瞬きする間に、情報は 17 億回更新されます。 Alibaba Cloud オープンソースのリアルタイムコンピューティングプラットフォーム

Alibaba Cloud は、コンピューティングの「エベレスト」に挑戦するオープンソースのリアルタ...

プロフェッショナルなソーシャルネットワーキングサイトは、頻繁に資金提供を受け、多様な価値観で注目を集めています

現在、中国では、プロフェッショナル ソーシャル ネットワーキング サイトが資金調達を受けているという...

SEO のためにウェブサイトのナビゲーションを最適化するにはどうすればよいでしょうか?

ウェブサイトナビゲーションとは何ですか?一般的に、当サイトのコラムや記事のカテゴリーなどをウェブサイ...

クラウドコストを最適化する10の方法

データストレージ設備は大きな進歩を遂げてきました。進化するにつれて、磁気ドラム、テープ、ハードドライ...

ウェブデザインの観点からSEO最適化について語る

SEO 最適化ランキングの多くの人は完成品に触れますが、最適化担当者は以前の設計やプログラムには関与...

あなたの会社はクラウド コンピューティング運用を保護する準備ができていますか?

あらゆる規模の企業が業務の多くをクラウド プラットフォームに移行し続ける中、最も一般的で危険なクラウ...

良い医学記事を書く方法

Baiduアルゴリズムの継続的な更新により、Baiduは最近、緑のツタやザクロなどの動きを頻繁に行っ...

インタラクションデザイン: ページングか読み込みか? それが問題だ

【編集後記】この記事は@子木yoyoさんが個人ブログで公開したものです。 Web ページでもモバイル...

デルは上場企業VMwareに買収される可能性がある

[[219270]]金融メディアCNBCによると、1月30日、事情に詳しい関係者が、デルが同社が支配...

ホームページデザインでは、訪問者のニーズを正確に把握し、その心理を解釈する必要がある

運用や純粋な SEO を行っている人にとって、自分のサイトで何ができるのか、訪問者にどのようなサービ...

rethinkvps-$5.96/4IP/512m メモリ/1gSwap/30g ハードディスク/無制限 G ポート

rethinkvps はダラス データ センターで OVZ VPS をリリースしました。割引コードを...

クラウドコンピューティングでコスト超過を回避する方法

クラウド コンピューティング革命の初期には、組織は使用した分だけ支払うことで、IT 支出をより効率的...

新しい消費者市場における6つの主要なトレンド

不安定な過去に別れを告げ、新年を迎えたが、インターネット大手の日々は良くなる気配がない。百度のライブ...

gcore トルコ VPS はどうですか? gcore イスタンブール データセンターの VPS の簡単なレビュー

gcore トルコ VPS はどうですか? Gcore は、中東のトルコに、デフォルトで 200Mb...

raksmart: 米国 1Gbps 無制限トラフィック VPS - 月額 1.99 ドル、香港\日本 VPS\米国 cn2 - 月額 2.99 ドル

今から 9 月 5 日まで、raksmart はすべての VPS を大幅値下げいたします。 (1) ...