ハイブリッド クラウド シナリオにおける BGP 冗長パス障害 - イベント レビュー

ハイブリッド クラウド シナリオにおける BGP 冗長パス障害 - イベント レビュー

1 問題の背景

これは、基本的なネットワーク運用と保守に関する事故レビューレポートです。

歴史的な理由により、当社のさまざまな環境間の相互接続はシリアル接続を採用しており、コアリンクと転送ノードは共有リソースを使用します。これは、下の図の赤い部分です。共有リソースの信頼性と安定性が低く、障害シナリオでの権限が不十分であったため、私は困惑し、この状況を変えようと決意しました。既存のリソースを整理した後、基本的なネットワーク アーキテクチャの移行プロセスは次のようになります。

写真

  • 相互接続モードが純粋な静的ルーティングから完全な BGP 環境に変更されました。ハイブリッド クラウド アーキテクチャであるため、すべてのネイバーは EBGP に基づいて接続され、サブインターフェイスが展開されます。ルーティング構造を次の図に示します。

写真

  • AS の分布は図に示されており、クローズド接続/デュアル アップリンク/EBGP と非常によく似ています。これらの機能は、BFD およびトリガーされた更新と組み合わせることで、異常な状況下でミリ秒レベルのルーティング収束を完全に実現し、障害のあるリンクを排除した後、トラフィックをバックアップ パスにすばやく切り替えることができます。
  • しかし、予想通り、予期せぬ事態に遭遇しました。カットオーバーはスムーズに進み、アーキテクチャの変更は計画どおりに完了しました。しかし、高可用性機能を検証する過程で光パスの中断が発生し、EBGP-5 ネイバーのステータスがアイドル状態になり、オフィス環境とホストされた IDC 間の接続が失われました。

写真

  • 問題のあるリンクの両端のモジュールの光パワーが適切な範囲内であることを確認します。これにより、基本的にモジュール障害の可能性が排除されます。マネージド IDC サイドマウント メーター テストでは、OTDR が近端減衰を示し、リンク ステータスが利用できないことが確認されました。位置を固定した後、パイプ井戸の仮設工事によりリンクが中断されたと報告されました。しかし、EBGP ネイバーはダウンしています。理論的には、ルートは冗長パスを通じて学習されるはずです。接続が失われるのはなぜですか?

2. 探索する

そのため、トラブルシューティングの焦点は高可用性に移りました。

2.1 近隣ステータスの確認

まず、すべての EBGP ネイバーの関係ステータスを確認し、それらがすべて確立されていることを確認します。

写真

写真

2.2 ルートの有効性チェック

次に、オフィス環境のルートアナウンスの詳細と管理対象 IDC イントラネットの出口方向を確認し、両側の BGP プロセス ルートアナウンスが成功していることを確認します。

写真

写真

2.3 ルートフィルタリング

次に、イントラネット出力方向のプレフィックス リストをチェックして、有効なフィルタリング ロジックに誤検知がないことを確認します。

2.4 ルーティング更新をトリガーするために手動で新しいネットワークセグメントを作成する

最後に、オフィス環境のイントラネット出力デバイスにループバックを追加し、新しいサブネットと対応するルートを設定して公開し、EBGP ネイバーのルート送受信ステータスを確認してみましたが、状況は同じままでした。

3. 原因を分析する

上記のテスト調査の結果、以下の特徴が判明しました————

  • 両端のデバイスは正しく構成されており、ルーティング通知は正常です。
  • クラウド ネットワーク コンポーネントの L3 ノードのローカル ルーティング テーブルには、直接接続されたネイバーによって通知されたルートが含まれており、正確で完全なルーティング更新を受信できることを示しています。
  • クラウド ネットワーク コンポーネントを通過した後、対応するルーティング情報がネクスト ホップ デバイス (つまり、この記事の問題のあるリンクのリモート デバイス) のルーティング テーブルに見つかりません。
  • さらに、マネージド IDC でデバッグを有効にしてルーティング更新をリアルタイムで印刷するテストを実行し、クラウド上の EBGP ネイバーから受信したルーティング更新に、オフィス環境が属するネットワーク セグメントのルーティング情報が含まれていないことを確認しました。

まとめると、オフィス環境とマネージド IDC イントラネットの出力方向では、両端のデバイスがクラウド上の L3 ノードへのローカル ルートを宣言し、クラウド上の L3 ノードもルーティング情報を正常に受信して独自のルーティング テーブルに追加できます。ただし、クラウド上の L3 ノードは、このルーティング情報をリモートのオフクラウド デバイスに転送しません。約 2 時間苦戦した後、私は古い概念である水平セグメンテーションについても考えました。しかし、私はプロダクトマネージャーが「専用回線アクセスポイントは単なるチャネルなので、リンクとして扱ってください」と明確に強調していたことを思い出しました。さらに、ソリューション設計中にサブインターフェースの構成が追加されました。結局、私はループ防止の落とし穴に陥ってしまいました。最終的に、クラウド サービス プロバイダーからのアフター アップグレードの確認により、問題は解決しました。わんわんめいはわおと思った、555555

4つの解決策

この問題に対して、アフターサービスとさまざまな詳細を確認し、解決策を確定しました————

  • クラウド上に別の L3 ノードを作成します。
  • この新しく作成された L3 ノードは、それぞれオフィス環境とホストされた IDC の専用アクセス ポイントを接続します。
  • 管理対象 IDC およびオフィス環境のイントラネット出力ノードはそれぞれサブインターフェイスを作成し、新しく追加された専用回線アクセス ポイントに接続し、クラウド上に新しく作成された L3 ノードと EBGP ネイバー EBGP-6 および EBGP-7 を確立します。
  • 管理対象 IDC およびオフィス環境のイントラネット出力ノードは、新しく作成されたサブインターフェイスを通じて、クラウド上の新しい EBGP ネイバーにローカル ルーティング情報を公開します。
  • 新しく追加された 2 セットのネイバー関係 (EBGP-6 と EBGP-7) は、EBGP-5 に冗長パスとルーティング更新チャネルを提供できます。調整されたソリューションは次の図に示されています。

写真

5 結論

全体的に見ると、問題は実は非常に単純です。異なる AS 間のサブインターフェイスと EBGP ネイバーを使用すれば、AS パスや水平分割などのループ防止ロジックによって制限されることはないと考えられていました。しかし、これは実際には考え方の誤解であり、その後の複雑さと時間の損失を引き起こしました。

BGPv4 が今でも現代のインターネットの基盤となっているのは事実ですが、クラウド サービスは新しいコンテンツをもたらしました。さまざまなクラウドベースの機能と製品は、エンタープライズ ネットワークとデータ通信の従来の技術的概念と比較して、大きな変化を遂げてきました。基礎をマスターすることを前提として、新製品や新機能のアップデートと反復を理解し、これらの違いに関連するシナリオとターゲットとなる問題点を真に理解する必要があります。この方法によってのみ、利点を正しく発揮し、価値を反映し、上位レベルのサービスに対する安定的かつ永続的なサポートを提供することができます。

著者について

万景瑞氏は、Zhuan Zhuan のインフラ運用・保守の責任者です。

<<:  インターフェース監視用の Prometheus エクスポーターを開発する

>>:  Kubernetes データ ストレージ: 理論から実践までの包括的なガイド

推薦する

アリババ:注目を集めるSEO

実のところ、この記事は 2013 年の終わりには書くべきだったのですが、今日まで延期されました。もち...

企業ウェブサイト構築における模倣・盗作の分析について語る

2011年が過ぎ、2012年の新年がちょうど1週間前に到来しました。仕事の初日、新しいクライアントが...

SEO会社が外部リンクスペシャリストの仕事への熱意を高める方法

SEO 専門職の中で最も一般的な職種として、外部リンク スペシャリストは SEO 会社の求人情報でよ...

Urpad特別VPSが利用可能: 128M年間支払い8米ドル/ 256Mメモリ12米ドル/ 768Mメモリ19米ドル/

買収後もウルパッドの事業は変わっていません。買収側がバカだとは思いません。自分で事業を起こすより、す...

SEO初心者は傲慢さを捨てなければならない

今、SEO業界に参入しようと言うと、他の人から強く思いとどまられるでしょう。なぜなら、現状では、情報...

SEOにおける検索エンジンスパイダー技術の分析

検索エンジン技術は、インターネット上の膨大な量の情報をクロールします。情報が増えるにつれて、この技術...

「Baiduのクローリングとページインデックス分析」を読んで、Baiduの価値の傾向を確認してください。

Baidu がウェブマスター プラットフォームを立ち上げて以来、ますます多くの人々がこのプラットフォ...

crissic-5 コア/2g メモリ/4g バースト/100g ハードドライブ/5T トラフィック/月額 7 ドル

ネットワークテスト: http://208.84.135.34/100MB.zip ► VPS コン...

50kvm-ロサンゼルス C3 コンピュータルーム KVM 仮想 VPS 簡易テスト

以前、「50kvm-ロサンゼルス/C3データセンター/3 USD/1gメモリ/30gハードドライブ/...

#blackfriday# LightCloud·LightCloud- KVM VPS、最低11元/高防御+Jingdun + CN2

LightCloud、ブラックフライデー特別セールがやって来ました。フランスの KVM VPS 2 ...

クラウドバックアップ戦略を検討すべき理由

企業としては、積極的に目標を設定し、それを SaaS ベンダーのサービス レベル契約 (SLA) と...

サーバーのCPUトレンドを分析する

本記事は「2022年国内サーバーCPU研究フレームワーク」から抜粋したもので、サーバー(AI、エッジ...

吐血共有SEO方法3日間重量1非ブラックハット

12月7日にドメイン名を購入し、アフィリエイト広告をしたいと思い、Dreamweaverプログラムを...

分散ストレージ - MySQL データベースのトランザクションとレプリケーション

「バックエンド分散」には、「分散ストレージ」と「分散コンピューティング」の 2 つのカテゴリが含まれ...