G銀行のフルスタッククラウド環境負荷分散サービス機能の実践 - 負荷分散サービスの主要技術の紹介

クラウドコンピューティングとクラウドネイティブテクノロジーの発展に伴い、主要なクラウドコンピューティングベンダーは、クラウドコンピューティングデータセンターを導入して、より安全で効率的なコンピューティング、ストレージ、ネットワークリソース、アプリケーションサービスリソースをユーザーに提供しています。一部の大企業、特に金融業界の企業は、データのセキュリティと制御性を確保するために、独自のプライベートデータセンターを設立する必要があります。現在、すべてのデータセンターは、新興テクノロジの開発と急速なビジネス反復のニーズを満たすために、従来のデータセンターからクラウドコンピューティングデータセンターへと移行しています。金融業界におけるデジタル変革の探求者および実践者として、G銀行は、1つのスマートブレイン、クラウドコンピューティングとビッグデータという2つの主要なテクノロジープラットフォーム、モバイル、オープン、エコロジカルサービス機能という3つのサービス機能からなる「123+N」デジタル開発システムを提案しました。デジタル開発戦略の要件に従って、クラウドサービスを実現し、急速なビジネス反復のニーズを満たすために、従来のデータセンターのアプリケーションシステムをクラウドプラットフォームに徐々に移行する必要があります。同時に、クラウドプラットフォームは、高速で便利なリソース配信およびリソース拡張機能を提供し、リソースの使用率を向上させ、コストの削減と効率の向上という目標を達成できます。

アプリケーションをクラウドに移行するために、G 銀行はコンテナ化された展開の優先順位を重視した適切なクラウド移行戦略を策定しました。コンテナに変換できない製品コンポーネントは、さまざまなデプロイメント形式を使用して、仮想マシンまたはベアメタルを通じてクラウドに移行し、アプリケーションのクラウド移行の要件を満たすことができます。従来の環境とクラウドアプリケーションで使用されるビジネストラフィック負荷方法は異なります。従来の環境では主にハードウェア F5 ロードバランシングが使用されていますが、これは優れたパフォーマンスと強力な機能という利点がありますが、コストが高く、スケーラビリティが低く、情報技術革新の要件に準拠していないという欠点があります。クラウド環境では、クラウドプラットフォームによって提供されるサービスコンポーネントである Elastic Load Balancing サービスが使用されます。その利点は、低コスト、優れたスケーラビリティ、および情報技術要件への準拠です。欠点は、ハードウェア負荷分散よりもパフォーマンスがわずかに低いことです。この記事では主にクラウド上での負荷分散の実践についてまとめ、紹介します。

1. 負荷分散の定義

負荷分散テクノロジーは、ネットワークデバイスとサーバーの帯域幅を拡張し、スループットを向上させ、ネットワークデータ処理機能を強化し、ネットワークの柔軟性と可用性を向上させるハードウェアまたはソフトウェア定義の方法です。主な機能は以下の通りです。

1. 高い同時実行性

負荷分散では、負荷アルゴリズムを使用してアプリケーション要求を各バックエンド負荷ノードに可能な限り均等に分散し、アプリケーションクラスターの同時処理機能を向上させます。

2. 高可用性

負荷分散は、ヘルスチェックメカニズムを通じてバックエンドの負荷ノードを監視できます。ロードノードが使用できない場合、障害のあるノードを自動的に分離し、使用可能なロードノードに要求を分散して、アプリケーションクラスターの可用性を高めます。

3. 弾力的なスケーラビリティ

負荷ノードの数を動的に追加または削減し、負荷分散を通じて分散を制御することで、アプリケーションクラスターは弾力性と拡張性を備えます。

2. 負荷分散アルゴリズム

負荷分散の機能はトラフィック分散です。つまり、受信したトラフィック要求を特定のアルゴリズムルールに従ってバックエンドロードノードに転送し、バックエンドロードサーバーのリソースを最大限に活用しながら高い同時実行性を実現します。一般的に使用されるアルゴリズムは次のとおりです。

負荷分散アルゴリズム	説明する	使用シナリオ
rr ポーリングアルゴリズム	rr アルゴリズムは、外部要求をクラスター内の負荷ノードに順番に分散しますが、各負荷ノードの負荷状態は考慮しません。	このアルゴリズムは、バックエンドロードノードの構成が一貫しており、計算能力が同等であるシナリオに適しています。
wrr加重ポーリングアルゴリズム	wrr アルゴリズムは、rr アルゴリズムに基づいて各負荷ノードの負荷を調べ、負荷が軽いノードがより多くのリクエストを処理できるように試みます。	このアルゴリズムは、バックエンドロードノードの計算能力が不均一に構成されているシナリオに適しています。
LC 最小接続数アルゴリズム	LC アルゴリズムにより、負荷分散デバイスは、この負荷ノードの接続数が最小基準を満たさなくなるまで、現在の接続数が最も少ない負荷ノードに新しい要求を配信しようとします。	長時間接続のサービスシナリオでよく使用されます。
ソース IP アルゴリズム	リクエストの送信元 IP アドレスはハッシュされて特定の値を取得し、バックエンドサーバーに番号が付けられます。計算結果に応じて、対応する番号のサーバーにリクエストが分配されます。これにより、アクセスの負荷を異なるソース IP アドレスに分散しながら、同じクライアント IP アドレスからの要求が常に特定のサーバーに送信されるようになります。	この方法は、負荷分散における Cookie 機能のない TCP プロトコルに適しています。

3. 負荷分散ヘルスチェック

負荷分散システムは、ヘルスチェックを通じてバックエンドロードインスタンスのサービス可用性を判断します。バックエンドロードインスタンスのサービスが異常な場合、負荷分散システムはヘルス状態に基づいて異常なノードを自動的に分離し、トラフィックを分散しません。バックエンドのロードノードサービスが復元されると、負荷分散システムはヘルスステータスに基づいてノードを自動的にオンラインにし、フロントエンドサービスの全体的な可用性を向上させます。一般的に使用される 2 つのヘルスチェックメカニズムは次のとおりです。

1. レイヤー7 HTTPモニタリングヘルスチェックメカニズム

レイヤー 7 HTTP リスニングの場合、ヘルスチェックは HTTP HEAD 検出を通じてステータス情報を取得します。

図1 HTTPリスニングヘルスチェックメカニズム

ロードバランシングサーバーは、監視対象のヘルスチェック構成に基づいて、バックエンドロードノードに「IP + ヘルスチェックポート + チェックパス」の HTTP HEAD 要求を送信します。バックエンドロードは、リクエストを受信すると、対応するサービスの動作状態に基づいて HTTP ステータスコードを返します。

負荷分散サーバーが、応答タイムアウト期間内にバックエンドロードノードから返された情報を受信しない場合は、サービスが応答していないとみなされ、ヘルスチェックは失敗します。ロードバランシングサーバーがバックエンドロードノードから返されたステータスコードを正常に受信し、そのステータスコードが構成されたステータスコードと一致している場合は、ヘルスチェックは成功したと見なされます。それ以外の場合は、ヘルスチェックは失敗します。

2. TCPリスニングヘルスチェックメカニズム

図2 TCPリスニング監視および検査メカニズム

レイヤー 4 TCP 監視の場合、ロードバランシングサーバーは、TCP 3 ウェイハンドシェイクメカニズムを介してバックエンドロードノードで TCP 検出を実行し、監視対象のヘルスチェック構成に従って、「IP + ヘルスチェックポート」の TCP SYN パケットをバックエンドロードノードに送信します。バックエンドロードノードが要求を受信した後、対応するポートが正常にリッスンしている場合は、SYN+ACK パケットを返します。

負荷分散サーバーは、応答タイムアウト期間内にバックエンドロードノードから返されたデータパケットを受信すると、ヘルスチェックが成功したことを判断し、TCP 接続を確立するために ACK パケットを送信します。バックエンドロードノードから返されたデータパケットを受信しない場合、サービスが応答していないと見なし、ヘルスチェックが失敗したと判断し、バックエンドロードノードに RST パケットを送信して TCP 接続を終了します。

4. ヘルスチェックサイクル

ヘルスチェックメカニズムにより、ビジネスサービスの可用性が効果的に向上します。ただし、ヘルスチェックを頻繁に実行すると、バックエンドのロードノードへの負荷が増加する一方で、ヘルスチェックの失敗による頻繁な切り替えもシステムの可用性に一定の影響を与えます。そのため、頻繁なチェックや頻繁な切り替えを避けるために、ヘルスチェックのサイクルを設定する必要があります。ヘルスチェックのサイクルは、次の要因によって決まります。

1. 間隔を確認する

健康診断はどのくらいの頻度で受けるべきでしょうか?

2. タイムアウト

ヘルスチェック要求が返されるまで待機する時間。戻りタイムアウトが発生した場合は、チェック失敗とみなされます。

3. 不健康な閾値

ヘルスチェックの連続失敗回数。しきい値に達すると、バックエンドサービスはブロックされます。

4. 健康閾値

ヘルスチェックが連続して成功した回数。しきい値に達すると、バックエンドサービスが復元されます。

ヘルスチェック期間は次のように計算されます。

ヘルスチェック失敗サイクル = タイムアウト期間 × 不健全しきい値 + チェック間隔 × (不健全しきい値 - 1)

ヘルスチェック成功サイクル = (ヘルスチェック成功応答時間 x ヘルスしきい値) + チェック間隔 x (ヘルスしきい値 - 1)

たとえば、ヘルスチェック間隔が 2 秒、タイムアウト期間が 5 秒、異常しきい値と正常しきい値がどちらも 3 であるとします。ヘルスチェックのステータスが成功から失敗に変わるまでには 19 秒かかります (図 3 を参照)。ヘルスチェックの失敗からステータスチェックの成功までの最小時間は 7 秒です (図 3 に示すように、ヘルスチェックの OK 時間は 1 秒と想定されています)。ヘルスチェック成功応答時間とは、ヘルスチェック要求が送信されてから応答されるまでの時間です。 TCP ヘルスチェックを使用する場合、ポートの生存のみが検出されるため、時間は非常に短く、ほとんど無視できます。 HTTP ヘルスチェックを使用する場合、時間はアプリケーションサーバーのパフォーマンスと負荷、および対応するサービスインターフェイスの応答時間によって異なりますが、通常は数秒以内です。

図3 ヘルスチェック周期の計算方法

G 銀行のフルスタッククラウドアプリケーション移行は、仮想マシン移行とコンテナ化移行に分かれています。ロードバランシングは、さまざまなクラウドコンピューティング方法に対してトラフィックロードバランシングサービスを提供できます。アプリケーションは、負荷分散 ELB を介してバックエンドの複数の仮想マシンまたはコンテナアプリケーションに負荷トラフィックを転送し、TCP および HTTP ヘルスチェックを通じてバックエンド負荷の生存ステータスを検出します。 TCP ヘルスチェックでは、対応するアプリケーションポートが存在するかどうかのみを検出します。設定が簡単で、応答も速いです。 HTTP 検査では、提供されたポートと URL パスに基づいてアプリケーションの健全性状態を正確に判断できます。検査の精度は高く、より包括的な範囲をカバーします。具体的な使用方法は、ビジネスシナリオに応じて構成されます。トラフィック転送アルゴリズムに関しては、一般的な負荷分散のバックエンドの負荷ノードは同じ構成を持ち、ポーリングアルゴリズムを使用して負荷トラフィックを転送できます。

図 4. クラウド上の G 台の仮想マシンとコンテナの負荷分散図。

V. 結論

一方、フルスタックのクラウド負荷分散サービスは、従来のハードウェア負荷分散デバイスを置き換えて負荷容量を提供できます。一方、クラウド上の負荷分散デバイスはクラウド化されており、俊敏な配信と柔軟な拡張機能を備えています。バックエンドロードノードは、仮想マシンデバイスとコンテナノードの両方にすることができ、適用範囲が広く、情報技術革新の要件を満たすという利点もあります。銀行のアプリケーションシステムのクラウド移行では、負荷分散アーキテクチャアプリケーションコンポーネントの負荷容量コンポーネントと、コンテナアプリケーションの統一されたエントリアドレスの両方として機能し、統一された方法で固定アドレスを外部に公開します。クラウド環境において、ますます重要な役割を果たすことになります。

<<: IDC：中国のパブリッククラウド市場の成長率は今後30％～40％に回復すると予想

>>: 鄒聖林氏独占インタビュー：IT教育の最前線で活躍し、オープンソースの発展を推進