ハイブリッド クラウド シナリオにおける BGP 冗長パス障害 - イベント レビュー

ハイブリッド クラウド シナリオにおける BGP 冗長パス障害 - イベント レビュー

1 問題の背景

これは、基本的なネットワーク運用と保守に関する事故レビューレポートです。

歴史的な理由により、当社のさまざまな環境間の相互接続はシリアル接続を採用しており、コアリンクと転送ノードは共有リソースを使用します。これは、下の図の赤い部分です。共有リソースの信頼性と安定性が低く、障害シナリオでの権限が不十分であったため、私は困惑し、この状況を変えようと決意しました。既存のリソースを整理した後、基本的なネットワーク アーキテクチャの移行プロセスは次のようになります。

写真

  • 相互接続モードが純粋な静的ルーティングから完全な BGP 環境に変更されました。ハイブリッド クラウド アーキテクチャであるため、すべてのネイバーは EBGP に基づいて接続され、サブインターフェイスが展開されます。ルーティング構造を次の図に示します。

写真

  • AS の分布は図に示されており、クローズド接続/デュアル アップリンク/EBGP と非常によく似ています。これらの機能は、BFD およびトリガーされた更新と組み合わせることで、異常な状況下でミリ秒レベルのルーティング収束を完全に実現し、障害のあるリンクを排除した後、トラフィックをバックアップ パスにすばやく切り替えることができます。
  • しかし、予想通り、予期せぬ事態に遭遇しました。カットオーバーはスムーズに進み、アーキテクチャの変更は計画どおりに完了しました。しかし、高可用性機能を検証する過程で光パスの中断が発生し、EBGP-5 ネイバーのステータスがアイドル状態になり、オフィス環境とホストされた IDC 間の接続が失われました。

写真

  • 問題のあるリンクの両端のモジュールの光パワーが適切な範囲内であることを確認します。これにより、基本的にモジュール障害の可能性が排除されます。マネージド IDC サイドマウント メーター テストでは、OTDR が近端減衰を示し、リンク ステータスが利用できないことが確認されました。位置を固定した後、パイプ井戸の仮設工事によりリンクが中断されたと報告されました。しかし、EBGP ネイバーはダウンしています。理論的には、ルートは冗長パスを通じて学習されるはずです。接続が失われるのはなぜですか?

2. 探索する

そのため、トラブルシューティングの焦点は高可用性に移りました。

2.1 近隣ステータスの確認

まず、すべての EBGP ネイバーの関係ステータスを確認し、それらがすべて確立されていることを確認します。

写真

写真

2.2 ルートの有効性チェック

次に、オフィス環境のルートアナウンスの詳細と管理対象 IDC イントラネットの出口方向を確認し、両側の BGP プロセス ルートアナウンスが成功していることを確認します。

写真

写真

2.3 ルートフィルタリング

次に、イントラネット出力方向のプレフィックス リストをチェックして、有効なフィルタリング ロジックに誤検知がないことを確認します。

2.4 ルーティング更新をトリガーするために手動で新しいネットワークセグメントを作成する

最後に、オフィス環境のイントラネット出力デバイスにループバックを追加し、新しいサブネットと対応するルートを設定して公開し、EBGP ネイバーのルート送受信ステータスを確認してみましたが、状況は同じままでした。

3. 原因を分析する

上記のテスト調査の結果、以下の特徴が判明しました————

  • 両端のデバイスは正しく構成されており、ルーティング通知は正常です。
  • クラウド ネットワーク コンポーネントの L3 ノードのローカル ルーティング テーブルには、直接接続されたネイバーによって通知されたルートが含まれており、正確で完全なルーティング更新を受信できることを示しています。
  • クラウド ネットワーク コンポーネントを通過した後、対応するルーティング情報がネクスト ホップ デバイス (つまり、この記事の問題のあるリンクのリモート デバイス) のルーティング テーブルに見つかりません。
  • さらに、マネージド IDC でデバッグを有効にしてルーティング更新をリアルタイムで印刷するテストを実行し、クラウド上の EBGP ネイバーから受信したルーティング更新に、オフィス環境が属するネットワーク セグメントのルーティング情報が含まれていないことを確認しました。

まとめると、オフィス環境とマネージド IDC イントラネットの出力方向では、両端のデバイスがクラウド上の L3 ノードへのローカル ルートを宣言し、クラウド上の L3 ノードもルーティング情報を正常に受信して独自のルーティング テーブルに追加できます。ただし、クラウド上の L3 ノードは、このルーティング情報をリモートのオフクラウド デバイスに転送しません。約 2 時間苦戦した後、私は古い概念である水平セグメンテーションについても考えました。しかし、私はプロダクトマネージャーが「専用回線アクセスポイントは単なるチャネルなので、リンクとして扱ってください」と明確に強調していたことを思い出しました。さらに、ソリューション設計中にサブインターフェースの構成が追加されました。結局、私はループ防止の落とし穴に陥ってしまいました。最終的に、クラウド サービス プロバイダーからのアフター アップグレードの確認により、問題は解決しました。わんわんめいはわおと思った、555555

4つの解決策

この問題に対して、アフターサービスとさまざまな詳細を確認し、解決策を確定しました————

  • クラウド上に別の L3 ノードを作成します。
  • この新しく作成された L3 ノードは、それぞれオフィス環境とホストされた IDC の専用アクセス ポイントを接続します。
  • 管理対象 IDC およびオフィス環境のイントラネット出力ノードはそれぞれサブインターフェイスを作成し、新しく追加された専用回線アクセス ポイントに接続し、クラウド上に新しく作成された L3 ノードと EBGP ネイバー EBGP-6 および EBGP-7 を確立します。
  • 管理対象 IDC およびオフィス環境のイントラネット出力ノードは、新しく作成されたサブインターフェイスを通じて、クラウド上の新しい EBGP ネイバーにローカル ルーティング情報を公開します。
  • 新しく追加された 2 セットのネイバー関係 (EBGP-6 と EBGP-7) は、EBGP-5 に冗長パスとルーティング更新チャネルを提供できます。調整されたソリューションは次の図に示されています。

写真

5 結論

全体的に見ると、問題は実は非常に単純です。異なる AS 間のサブインターフェイスと EBGP ネイバーを使用すれば、AS パスや水平分割などのループ防止ロジックによって制限されることはないと考えられていました。しかし、これは実際には考え方の誤解であり、その後の複雑さと時間の損失を引き起こしました。

BGPv4 が今でも現代のインターネットの基盤となっているのは事実ですが、クラウド サービスは新しいコンテンツをもたらしました。さまざまなクラウドベースの機能と製品は、エンタープライズ ネットワークとデータ通信の従来の技術的概念と比較して、大きな変化を遂げてきました。基礎をマスターすることを前提として、新製品や新機能のアップデートと反復を理解し、これらの違いに関連するシナリオとターゲットとなる問題点を真に理解する必要があります。この方法によってのみ、利点を正しく発揮し、価値を反映し、上位レベルのサービスに対する安定的かつ永続的なサポートを提供することができます。

著者について

万景瑞氏は、Zhuan Zhuan のインフラ運用・保守の責任者です。

<<:  インターフェース監視用の Prometheus エクスポーターを開発する

>>:  Kubernetes データ ストレージ: 理論から実践までの包括的なガイド

推薦する

「百度スナップショット問題に関するいくつかの説明」の解釈

「Baidu スナップショットの問題に関するいくつかの説明」の元のテキストの一部: 「新しくクロール...

onetechcloud: 月額27元から、米国ネイティブIP + デュアルISPクラスIP(CN2 GIA/CUII/AS4837直接接続)、香港CN2/香港BGP大帯域幅

onetechcloudは、主に米国と香港のデータセンターを中心にVPS/クラウドサーバー事業を展開...

中国移動、実名登録のない携帯電話は停止されるという噂に反応

5月20日のInformation Timesの報道によると、あるネットユーザーがWeiboで、国の...

Hiformance: ロサンゼルス QN データセンター、2G メモリ VPS、年間 10 ドルから、Alipay

Hiformanceは、既存の5つのデータセンターに加えて、6番目のデータセンターであるquadra...

softshellweb: 年末プロモーション、台湾 VPS/米国 VPS/オランダ VPS、1Gbps 帯域幅、年間 34.99 ドルから

Softshellweb は年末プロモーションを開始しました。台湾 VPS、米国 VPS (カリフォ...

spinservers: 月額 199 ドル、米国のハイエンド サーバー、2*e5-2690v4 (28 コア/56 スレッド)/256G DDR4/3.84T U.2 NVMe/1Gbps 帯域幅、無制限のトラフィック

spinservers は最新の中秋節プロモーションを発表しました。米国中部のダラス データ センタ...

クラウド回帰がデジタル変革を推進する 5 つの方法

多くの企業にとって、デジタル変革の旅の次の目的地はクラウドへの回帰となる可能性があることが判明しまし...

hostmaze - $14/年/128M メモリ/10G ハードドライブ/1G ポート/無制限トラフィック/DDOS 保護

hostmaze を紹介します。2006 年に設立されたと言われています。これを追うのは面倒です。現...

Baidu 検索エンジンのウェブサイトインデックスの低下問題を解決する方法

ウェブマスターの友人は皆、検索エンジンが常に更新され、価値のあるページが常に追加され、価値のないペー...

雷軍のキングソフトクラウドは3億ドルを調達し、全面的に値下げして複数の垂直分野に進出

12月12日、雷軍氏が所有するKingsoft Cloudは、クラウド業界では単一ラウンドの資金調達...

Google が 2013 年のベスト Android アプリとゲームのリストを発表

Google Play App Store(香港)は昨日、2013年のベストアプリのリストを発表しま...

#站群サーバ# DediPath- $155/256IP/E3-1270v2/32G メモリ/2T ハードディスク

Dedipathは、いくつかの特別価格のサーバーを立ち上げました。[1] 256 IPのクラスターサ...

電子商取引インターネット広告素材のコンバージョン率の6つの法則

名詞の人気度: 「広告コンバージョン率」とは、広告をクリックして宣伝されているウェブサイトにアクセス...

トップレベルのウェブサイト外部リンクを作成する方法(パート 1)

ウェブサイトの外部リンクを構築することは、SEO 最適化に必要なタスクの 1 つです。ウェブマスター...

自動車オンラインメディア間の垂直戦争:データマーケティングによる集団的不安

何芳都佳月王希6月15日、北京国際会議センターを車で通り過ぎるほとんどの人は、「北京聯托」ディーラー...