本日、Google のサービスに約 27 分間の短時間の停止が発生し、一部の地域のインターネット ユーザーに影響が出ました。この事件の原因を理解するには、インターネットの奥深く暗い隅まで調べる必要があります。私は CloudFlare のネットワーク エンジニアであり、Google がこの障害から回復するのを支援しました。何が起こったか見てみましょう。 2012 年 11 月 5 日午後 6 時 24 分頃 (太平洋標準時) / 2012 年 11 月 6 日午前 2 時 24 分頃 (インド標準時)、CloudFlare の従業員は Google のサービスが停止していることを発見しました。私たちは Google のメールなどのサービスを使用しているので、それが機能していない場合は、オフィスの人々がすぐに気付くでしょう。私はネットワーク技術グループで働いているので、すぐにネットワークに接続して、ローカルエリアの問題なのかグローバルな問題なのか、何が起こっているのかを確認しました。 トラブルシューティング すぐに、Google のパブリック DNS サーバーである 8.8.8.8 にも接続できないことに気づいたので、DNS を探し出すことから始めました。 $ dig +trace google.com Google.com のネームサーバーを調べたところ、次のような応答が返ってきました。 google.com. 172800 IN NS ns2.google.com. google.com. 172800 IN NS ns1.google.com. google.com. 172800 IN NS ns3.google.com. google.com. 172800 IN NS ns4.google.com. ;; 192.12.94.30#53(e.gtld-servers.net) から 152 ミリ秒で 164 バイトを受信 ;; 接続がタイムアウトしました。サーバーにアクセスできませんでした サーバーが検出できなかったという事実は、何かが間違っていることの証拠でした。具体的には、当社のオフィスから Google DNS サーバーに接続できなくなることを意味します。 この通信層に問題があるかどうかを確認するために、ネットワーク層での問題を探し始めました。 PING 216.239.32.10 (216.239.32.10): 56データバイト icmp_seq 0 のリクエストタイムアウト 1-1-15.edge2-eqx-sin.moratelindo.co.id (202.43.176.217) からの 92 バイト: 有効期限が切れました ここに奇妙なメッセージがあります。通常、Google のルーティング情報にはインドネシアの ISP (Moratel) の名前は表示されません。私はすぐに CloudFlare のルーターの 1 つにアクセスして、何が起こっているのかを確認しました。一方、Twitter 上の世界の他の地域からの報告によると、問題を抱えているのは私たちだけではないようです。 インターネットルーティング 何が問題だったのかを理解するには、インターネットの仕組みに関する基本事項をいくつか知っておく必要があります。インターネット全体は、「自律システム (AS)」と呼ばれる多数のネットワークで構成されています。各ネットワークには、AS 番号と呼ばれる、自身を識別するための一意の番号があります。 CloudFlare の AS 番号は 13335 で、Google の AS 番号は 15169 です。ネットワークは、Border Gateway Protocol (BGP) と呼ばれるテクノロジーを通じて相互に接続されます。エッジ ゲートウェイ プロトコルはインターネットの接着剤と呼ばれ、どの IP アドレスがどのネットワークに属しているかを宣言し、ある自律ネットワークから別の自律ネットワークへのルートを確立します。インターネットの「ルート」とは、その言葉が意味する通り、ある自律ネットワーク内の IP アドレスから別の自律ネットワーク内の別の IP アドレスへのパスを意味します。 Edge Gateway プロトコルは相互信頼システムに基づいています。各ネットワークは、信頼の原則に基づいて、どの IP アドレスがどのネットワークに属しているかを他のネットワークに伝えます。パケットを送信したり、インターネットを通過する要求を行うと、ISP は上流のプロバイダーまたはピア プロバイダーに連絡して、ISP からインターネットの宛先までの最短ルートを問い合わせます。 残念ながら、ネットワークが特定の IP アドレスまたはネットワークが内部にあるとアナウンスしたが、実際には内部になく、上流またはピア ネットワークがそれを信頼している場合、パケットは最終的に失われます。それがここで起こっている問題です。 Edge Gateway Protocol によって渡された Google IP のルーティング アドレスを確認したところ、ルーティングはインドネシアの ISP である Moratel (23947) を指していました。私たちのオフィスはカリフォルニアにあり、Google のデータセンターからそれほど遠くありません。そのため、データ パケットがインドネシアを通過することはありません。おそらく、Moratel は誤ったネットワーク ルートを宣言しました。 当時、エッジ ゲートウェイ プロトコルから見たルートは次のとおりでした。 [email protected]> ルート 216.239.34.10 を表示 inet.0: 422168 宛先、422168 ルート (422154 アクティブ、0 ホールドダウン、14 非表示) + = アクティブルート、- = 最後にアクティブ、* = 両方 216.239.34.0/24 *[BGP/170] 00:15:47、MED 18、ローカル設定 100 AS パス: 4436 3491 23947 15169 I > ge-1/0/9.0経由で69.22.153.1へ Google のパブリック DNS などの他のルートを確認しましたが、同じ (誤った) パスにハイジャックされていました。 [email protected]> ルート 8.8.8.8 を表示します inet.0: 422196 宛先、422196 ルート (アクティブ 422182、ホールドダウン 0、非表示 14) + = アクティブルート、- = 最後にアクティブ、* = 両方 8.8.8.0/24 *[BGP/170] 00:27:02、MED 18、ローカル設定 100 AS パス: 4436 3491 23947 15169 I > ge-1/0/9.0経由で69.22.153.1へ ルートリーク このような問題は業界では、通常のルートではなく「ルート リーク」から発生すると考えられています。これは前例がないわけではない。 Googleは以前にも同様の障害に見舞われたことがある。パキスタンがYouTubeの動画を禁止しているという憶測が流れ、パキスタンの国営ISPがYouTubeサイトのルーティング情報を削除したのだ。残念なことに、彼らの慣行は外部に伝わり、パキスタンテレコムの上流プロバイダーである PCCW はパキスタンテレコムの慣行を信頼し、このルーティング方法をインターネット全体に伝えました。この事件により、YouTubeのウェブサイトは約2時間アクセス不能となった。 今日起こったことは、同様の状況です。 Moratel の誰かが「指が太い」ため、間違ったインターネット ルーティングを入力しました。 Moratel の上流プロバイダーである PCCW は、Moratel が渡したルートを信頼していました。すぐに、誤ったルーティングがインターネット全体に広がりました。エッジ ゲートウェイ プロトコルの信頼モデルでは、これは悪意のある行為というよりも、誤操作や間違いです。 修理 解決策は、モラテルが間違ったルートを宣言するのをやめることだった。特に CloudFlare のような大規模なネットワーク企業でネットワーク エンジニアとして働く場合、世界中の他のネットワーク エンジニアとつながることが非常に重要です。問題を特定した後、私はモラテルの同僚に連絡し、何が起こったかを伝えました。彼は太平洋標準時午後6時50分/協定世界時午前2時50分頃に問題を修正しました。 3 分後、ルーティングは正常に復元され、Google サービスが再び機能するようになりました。 ネットワーク トラフィック グラフに基づいて、この障害によって世界中のインターネット ユーザーの 3 ~ 5% が影響を受けたと推定します。最も被害が大きいのは香港だ。なぜならそこに PCCW の本部があるからだ。当時 Google のサービスにアクセスできなかった地域にいた場合は、その理由がわかるでしょう。 より良いインターネットの構築 私がこう言うのは、私たちのインターネットが相互信頼のメカニズムの上に構築されていることを皆さんに知っていただくためです。今日の事件は、Google のような大企業であっても、制御できない外部要因がユーザーに影響を与え、アクセスを妨げる可能性があることを示しています。そのため、ルーティングを監視し、世界との接続を管理するネットワーク技術チームが非常に重要です。 CloudFlare は、お客様が可能な限り最適なルーティングを利用できるように日々取り組んでいます。当社はインターネット上のすべてのウェブサイトを管理し、可能な限り最速の速度で提供されるようにします。今日起こったことは私たちの仕事のほんの一部に過ぎません。 Google が今日オフラインになった理由とインターネットの仕組みについて 原題: Google の障害事件からインターネットの仕組みを理解する キーワード: Google、ダウンタイム、インシデント、理解、インターネット、ネットワーク ワーカー、オリジナル作品、今日、サービス、ウェブマスター、ウェブサイト、ウェブサイトのプロモーション、収益化 |
<<: ウェブデザインに手描きスタイルを使用すると、ウェブサイトのユーザーエクスペリエンスが向上します。
>>: A5 Yuehuai: SEO最適化に有益な仮想ホストの選択について
HostUS は現在、クリスマス プロモーションを開始しており、すべての KVM および OpenV...
以前の記事でも述べたように、Naihe は、ウェブサイト上のキーワードランキング コラム ページ (...
6月22日午前5時50分、国家気象センターの悪天候予報センターはAIを活用し、広東省の多くの地域で対...
草の根ウェブマスターにとって、Baidu からより多くのトラフィックを獲得することは非常に困難になっ...
最近、海外メディアの報道によると、クラウドサーバーの需要は第4四半期に入って回復しているが、サプライ...
インターネットの発展は企業にますます大きな影響をもたらしています。インターネット販売プラットフォーム...
Greenvaluehost は 2003 年に設立されたアメリカの会社です。登録番号も調べてみまし...
MatrixOne は、将来志向のハイパーコンバージド異機種クラウドネイティブ データベース管理シス...
モールサイトは一般的な企業サイトとは異なります。企業サイトは、多くの場合、いくつかのキーワードランキ...
01. 研究開発効率向上の目標と課題1.1 研究開発効率管理の目的まず、典型的な SaaS ソフトウ...
A5 Fangfang: 皆さん、こんにちは。今日、A5 マーケティング チームが招待したゲストは、...
適切なサービスと設計により、エンタープライズ クラウド アプリケーションのパフォーマンスを向上させる...
私は A5 で 1 年以上働いていますが、SEO の経験を共有する記事をあまり書いていません。他に理...
従来のクラウド サービスでは、データ主権と完全に管理されたエクスペリエンスのどちらかを選択する必要が...
hostsolutions.ro は、おそらく最もよく知られているルーマニアのホスティング会社です ...