Googleの障害事件からインターネットの動作原理を理解する

Googleの障害事件からインターネットの動作原理を理解する

本日、Google のサービスに約 27 分間の短時間の停止が発生し、一部の地域のインターネット ユーザーに影響が出ました。この事件の原因を理解するには、インターネットの奥深く暗い隅まで調べる必要があります。私は CloudFlare のネットワーク エンジニアであり、Google がこの障害から回復するのを支援しました。何が起こったか見てみましょう。

2012 年 11 月 5 日午後 6 時 24 分頃 (太平洋標準時) / 2012 年 11 月 6 日午前 2 時 24 分頃 (インド標準時)、CloudFlare の従業員は Google のサービスが停止していることを発見しました。私たちは Google のメールなどのサービスを使用しているので、それが機能していない場合は、オフィスの人々がすぐに気付くでしょう。私はネットワーク技術グループで働いているので、すぐにネットワークに接続して、ローカルエリアの問題なのかグローバルな問題なのか、何が起こっているのかを確認しました。

トラブルシューティング

すぐに、Google のパブリック DNS サーバーである 8.8.8.8 にも接続できないことに気づいたので、DNS を探し出すことから始めました。

$ dig +trace google.com

Google.com のネームサーバーを調べたところ、次のような応答が返ってきました。

google.com. 172800 IN NS ns2.google.com.

google.com. 172800 IN NS ns1.google.com.

google.com. 172800 IN NS ns3.google.com.

google.com. 172800 IN NS ns4.google.com.

;; 192.12.94.30#53(e.gtld-servers.net) から 152 ミリ秒で 164 バイトを受信

;; 接続がタイムアウトしました。サーバーにアクセスできませんでした

サーバーが検出できなかったという事実は、何かが間違っていることの証拠でした。具体的には、当社のオフィスから Google DNS サーバーに接続できなくなることを意味します。

この通信層に問題があるかどうかを確認するために、ネットワーク層での問題を探し始めました。

PING 216.239.32.10 (216.239.32.10): 56データバイト

icmp_seq 0 のリクエストタイムアウト

1-1-15.edge2-eqx-sin.moratelindo.co.id (202.43.176.217) からの 92 バイト: 有効期限が切れました

ここに奇妙なメッセージがあります。通常、Google のルーティング情報にはインドネシアの ISP (Moratel) の名前は表示されません。私はすぐに CloudFlare のルーターの 1 つにアクセスして、何が起こっているのかを確認しました。一方、Twitter 上の世界の他の地域からの報告によると、問題を抱えているのは私たちだけではないようです。

インターネットルーティング

何が問題だったのかを理解するには、インターネットの仕組みに関する基本事項をいくつか知っておく必要があります。インターネット全体は、「自律システム (AS)」と呼ばれる多数のネットワークで構成されています。各ネットワークには、AS 番号と呼ばれる、自身を識別するための一意の番号があります。 CloudFlare の AS 番号は 13335 で、Google の AS 番号は 15169 です。ネットワークは、Border Gateway Protocol (BGP) と呼ばれるテクノロジーを通じて相互に接続されます。エッジ ゲートウェイ プロトコルはインターネットの接着剤と呼ばれ、どの IP アドレスがどのネットワークに属しているかを宣言し、ある自律ネットワークから別の自律ネットワークへのルートを確立します。インターネットの「ルート」とは、その言葉が意味する通り、ある自律ネットワーク内の IP アドレスから別の自律ネットワーク内の別の IP アドレスへのパスを意味します。

Edge Gateway プロトコルは相互信頼システムに基づいています。各ネットワークは、信頼の原則に基づいて、どの IP アドレスがどのネットワークに属しているかを他のネットワークに伝えます。パケットを送信したり、インターネットを通過する要求を行うと、ISP は上流のプロバイダーまたはピア プロバイダーに連絡して、ISP からインターネットの宛先までの最短ルートを問い合わせます。

残念ながら、ネットワークが特定の IP アドレスまたはネットワークが内部にあるとアナウンスしたが、実際には内部になく、上流またはピア ネットワークがそれを信頼している場合、パケットは最終的に失われます。それがここで起こっている問題です。

Edge Gateway Protocol によって渡された Google IP のルーティング アドレスを確認したところ、ルーティングはインドネシアの ISP である Moratel (23947) を指していました。私たちのオフィスはカリフォルニアにあり、Google のデータセンターからそれほど遠くありません。そのため、データ パケットがインドネシアを通過することはありません。おそらく、Moratel は誤ったネットワーク ルートを宣言しました。

当時、エッジ ゲートウェイ プロトコルから見たルートは次のとおりでした。

[email protected]> ルート 216.239.34.10 を表示

inet.0: 422168 宛先、422168 ルート (422154 アクティブ、0 ホールドダウン、14 非表示)

+ = アクティブルート、- = 最後にアクティブ、* = 両方

216.239.34.0/24 *[BGP/170] 00:15:47、MED 18、ローカル設定 100

AS パス: 4436 3491 23947 15169 I

> ge-1/0/9.0経由で69.22.153.1へ

Google のパブリック DNS などの他のルートを確認しましたが、同じ (誤った) パスにハイジャックされていました。

[email protected]> ルート 8.8.8.8 を表示します

inet.0: 422196 宛先、422196 ルート (アクティブ 422182、ホールドダウン 0、非表示 14)

+ = アクティブルート、- = 最後にアクティブ、* = 両方

8.8.8.0/24 *[BGP/170] 00:27:02、MED 18、ローカル設定 100

AS パス: 4436 3491 23947 15169 I

> ge-1/0/9.0経由で69.22.153.1へ

ルートリーク

このような問題は業界では、通常のルートではなく「ルート リーク」から発生すると考えられています。これは前例がないわけではない。 Googleは以前にも同様の障害に見舞われたことがある。パキスタンがYouTubeの動画を禁止しているという憶測が流れ、パキスタンの国営ISPがYouTubeサイトのルーティング情報を削除したのだ。残念なことに、彼らの慣行は外部に伝わり、パキスタンテレコムの上流プロバイダーである PCCW はパキスタンテレコムの慣行を信頼し、このルーティング方法をインターネット全体に伝えました。この事件により、YouTubeのウェブサイトは約2時間アクセス不能となった。

今日起こったことは、同様の状況です。 Moratel の誰かが「指が太い」ため、間違ったインターネット ルーティングを入力しました。 Moratel の上流プロバイダーである PCCW は、Moratel が渡したルートを信頼していました。すぐに、誤ったルーティングがインターネット全体に広がりました。エッジ ゲートウェイ プロトコルの信頼モデルでは、これは悪意のある行為というよりも、誤操作や間違いです。

修理

解決策は、モラテルが間違ったルートを宣言するのをやめることだった。特に CloudFlare のような大規模なネットワーク企業でネットワーク エンジニアとして働く場合、世界中の他のネットワーク エンジニアとつながることが非常に重要です。問題を特定した後、私はモラテルの同僚に連絡し、何が起こったかを伝えました。彼は太平洋標準時午後6時50分/協定世界時午前2時50分頃に問題を修正しました。 3 分後、ルーティングは正常に復元され、Google サービスが再び機能するようになりました。

ネットワーク トラフィック グラフに基づいて、この障害によって世界中のインターネット ユーザーの 3 ~ 5% が影響を受けたと推定します。最も被害が大きいのは香港だ。なぜならそこに PCCW の本部があるからだ。当時 Google のサービスにアクセスできなかった地域にいた場合は、その理由がわかるでしょう。

より良いインターネットの構築

私がこう言うのは、私たちのインターネットが相互信頼のメカニズムの上に構築されていることを皆さんに知っていただくためです。今日の事件は、Google のような大企業であっても、制御できない外部要因がユーザーに影響を与え、アクセスを妨げる可能性があることを示しています。そのため、ルーティングを監視し、世界との接続を管理するネットワーク技術チームが非常に重要です。 CloudFlare は、お客様が可能な限り最適なルーティングを利用できるように日々取り組んでいます。当社はインターネット上のすべてのウェブサイトを管理し、可能な限り最速の速度で提供されるようにします。今日起こったことは私たちの仕事のほんの一部に過ぎません。

Google が今日オフラインになった理由とインターネットの仕組みについて


原題: Google の障害事件からインターネットの仕組みを理解する

キーワード: Google、ダウンタイム、インシデント、理解、インターネット、ネットワーク ワーカー、オリジナル作品、今日、サービス、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化

<<:  ウェブデザインに手​​描きスタイルを使用すると、ウェブサイトのユーザーエクスペリエンスが向上します。

>>:  A5 Yuehuai: SEO最適化に有益な仮想ホストの選択について

推薦する

HostUS - クリスマスプロモーション/大容量メモリVPS+ストレージVPS+SSL証明書など/オプションのデータセンター9ヶ所

HostUS は現在、クリスマス プロモーションを開始しており、すべての KVM および OpenV...

素晴らしい貢献です。キーワードとタイトルの変更に関する私の経験を共有します

以前の記事でも述べたように、Naihe は、ウェブサイト上のキーワードランキング コラム ページ (...

DAMOアカデミーと国家気象センターは共同でAIアルゴリズムを開発し、広東省の多くの場所での激しい対流気象の予測を支援することに成功した。

6月22日午前5時50分、国家気象センターの悪天候予報センターはAIを活用し、広東省の多くの地域で対...

トラフィックを獲得するために間違ったキーワードを使用する方法

草の根ウェブマスターにとって、Baidu からより多くのトラフィックを獲得することは非常に困難になっ...

クラウドサーバー市場の需要は回復しているが、いつショックが起きてもおかしくない

最近、海外メディアの報道によると、クラウドサーバーの需要は第4四半期に入って回復しているが、サプライ...

企業のウェブサイトを最適化するためのキーワードの配置方法を巧みに解釈する

インターネットの発展は企業にますます大きな影響をもたらしています。インターネット販売プラットフォーム...

greenvaluehost-1g メモリ/100g ハードディスク/100M 無制限/月額 5 ドル

Greenvaluehost は 2003 年に設立されたアメリカの会社です。登録番号も調べてみまし...

OLTP と OLAP のハイパーコンバージェンス: 次世代クラウドネイティブ データベースの設計

MatrixOne は、将来志向のハイパーコンバージド異機種クラウドネイティブ データベース管理シス...

機械モールプラットフォームウェブサイトの運営において解決すべき問題点

モールサイトは一般的な企業サイトとは異なります。企業サイトは、多くの場合、いくつかのキーワードランキ...

サーバーレスによるソフトウェアパフォーマンスの向上

01. 研究開発効率向上の目標と課題1.1 研究開発効率管理の目的まず、典型的な SaaS ソフトウ...

A5マーケティングチームがZACにインタビュー: ZACがSEOの最近の動向について語ります

A5 Fangfang: 皆さん、こんにちは。今日、A5 マーケティング チームが招待したゲストは、...

クラウド コンピューティングのパフォーマンスを向上させる 6 つのテクノロジー

適切なサービスと設計により、エンタープライズ クラウド アプリケーションのパフォーマンスを向上させる...

1 か月でキーワードを Baidu のホームページに掲載する方法

私は A5 で 1 年以上働いていますが、SEO の経験を共有する記事をあまり書いていません。他に理...

データ主権への中道:独自のクラウドを導入する

従来のクラウド サービスでは、データ主権と完全に管理されたエクスペリエンスのどちらかを選択する必要が...

著作権フリー VPS: hostsolutions-2 ユーロ/2g メモリ/30g ハードディスク/30T トラフィック/ルーマニア

hostsolutions.ro は、おそらく最もよく知られているルーマニアのホスティング会社です ...