クラウドネイティブ ハイブリッド展開シナリオでリソース クォータを使用してクラスター リソースを効率的に割り当てる方法は?

クラウドネイティブ ハイブリッド展開シナリオでリソース クォータを使用してクラスター リソースを効率的に割り当てる方法は?

01 はじめに

アリババグループでは、オフラインコロケーション技術が2014年に初めて使用されました。双十一ショッピングフェスティバルでの7年間のテストの後、社内で広く推進され、アリババグループは毎年数十億ドルのリソースコストを節約しています。全体のリソース利用率は約70%と業界トップレベルです。過去2年間、当グループのコロケーション技術を製品化した形で業界に輸出し始めました。標準のネイティブ K8s クラスターにプラグイン方式でシームレスにインストールでき、コロケーション管理や運用保守機能と組み合わせることで、クラスター リソースの使用率と製品の全体的なユーザー エクスペリエンスが向上します。

コロケーションは、K8sのスケジューリング、OSの分離、可観測性などの技術を含む複雑な技術と運用保守システムであるため、以前の記事「   7 年間にわたる Double 11 運用を経て、Alibaba はクラウド ネイティブ コロケーションのスケジュール優先順位とサービス品質をどのように定義していますか?   ” では主に、スケジューリングの優先順位とサービス品質モデルに焦点を当てています。今日は、リソース クォータのマルチテナントに関連するコンテンツに焦点を当てます。

02 リソース割り当ての概要

まず、質問をしたいと思います。 K8s スケジューラは、リソースがない場合にポッドを保留状態にすることができるので、リソース割り当て設計が必要なのはなぜですか?

システムを研究するときは、設計そのものを学ぶだけでなく、なぜその設計が必要なのかを考える必要があります。この設計がシステムから削除されたらどうなるでしょうか?システムに機能設計を追加すると、システムを使用する人々の精神的負担など、いくつかの副作用が発生するため、システムのセキュリティ、高可用性、パフォーマンスをすべて考慮する必要があります。つまり、機能が多ければ多いほど良いのです。システムが優れているほど、提供される機能が少ないほど優れています。たとえば、C 言語には 32 個のキーワードしかありませんが、ユーザーはこれらの基本機能をカスタマイズして組み合わせることで、必要なあらゆるニーズを満たすことができます。

元の質問に戻ると、CPU、メモリ、物理マシン上のディスク、または GPU カードなどのその他のリソースなど、クラスターのリソースは制限される必要があります。スケジュール設定だけでこの問題は解決できるのでしょうか?このクラスターにユーザーが 1 人しかいない場合は、この問題はまだ許容できます。たとえば、ポッドが保留中であることがわかった場合、新しいポッドは作成されません。新しいポッドの方が重要な場合は、ユーザーは古いポッドを削除して新しいポッドを作成できます。ただし、実際のクラスターは複数のユーザーまたはチームによって同時に使用されます。チーム A のリソースが不足すると、チーム B がどのアプリケーションにスペースを作ることができるかを決定するまで待機する必要があります。現時点では、チーム間のコミュニケーションの効率は非常に低いです。したがって、スケジュールを設定する前に、別の手順を追加する必要があります。次の図に示すように:

このリンクでは、リソース クォータとテナントの 2 つの概念が紹介されています。テナントは、リソース割り当てを割り当てるチーム ユニットです。クォータとは、限られたクラスター リソースを使用する際に、複数のテナントによって事前に合意されたものです。事前にというのは非常に重要なキーワードです。つまり、ポッドがスケジュールされたり実行されたりするまで待ってから、割り当てが不十分なためにポッドを作成できないことを作成者に伝えることはできません。代わりに、ポッドを作成する前に、各チームにリソースに関する心理的な期待を与える必要があります。毎年初めにリソース割り当てを割り当てる際に、チーム A またはチーム B が今年使用できる合計割り当てを設定します。このように、チーム A の割り当てが使い果たされると、チーム A はまずリソースに優先順位を付け、重要でないポッドを削除することができます。それでも不十分な場合は、チーム B の割り当てから割り当てられるかどうかチーム B と話し合います。このように、どのような状況でも非効率的なポイントツーポイント通信を行う必要はありません。年初に、チーム A とチーム B は、ビジネスにおけるリソース使用量の大まかな見積もり (リソース予算と呼ばれる) を作成する必要があります。

したがって、この観点から見ると、リソース クォータは、複数のテナントが低頻度かつ高効率な方法で相互に通信し、協力するための手段です。クォータの概念を経済学に当てはめると、少し計画経済のような感じがしませんか?実際、中核となる考え方は同じです。つまり、限られたリソースの下で、さまざまな組織が事前に効率的な協力とコミュニケーションの計画を立てる必要があるということです。

K8s

経済

会社の財務

抽象概念の類似点

クォータ

計画経済

予算

少数の大規模組織間の低頻度のコミュニケーション

スケジュールの優先順位

市場経済

埋め込む

多数の小さな個体間の高頻度のコミュニケーション

サービス品質

最終決算

事後に計算された実際の値

03 低優先度リソースの割り当てはどこから来るのでしょうか?

 APIバージョン: v1
種類: ポッド
メタデータ:
注釈:
アリババクラウドcom / qosClass : BE # { LSRLSBE }
仕様:
コンテナ:
- リソース
制限:
アリババクラウドcom / reclaimed - cpu : 1000 #単位: ミリコア、1000 は 1 コアを意味します
alibabacloud.com/reclaimed-memory:2048 #単位: バイト 通常のメモリ同じです 単位はGi、 Mi、 Ki、 GB 、MB、 KBです。
リクエスト:
alibabacloud.com/reclaimed-cpu : 1000
alibabacloud.com/reclaimed-memory : 2048

今日議論したいトピックに戻りましょう。クラウドネイティブ ハイブリッド デプロイメントのリソース クォータと K8s コミュニティのネイティブ リソース クォータの違いは何ですか?上記の yaml 構成から、優先度の低いリソースを管理するためにコミュニティ拡張リソースを使用していることがわかります。したがって、低優先度 CPU と低優先度メモリの合計割り当てを制御することは当然であり、これらの合計はさまざまな部門間で事前に割り当てられます。このロジックはコミュニティのリソース割り当てロジックと同じなので、ここでは詳細には触れません。コミュニティの公式ドキュメント「リソースクォータ」を参照してください。

ただし、低優先度リソースの一部のロジックは、コミュニティ リソース割り当てのロジックとは異なります。さらに、CPU とメモリ リソースの固有の特性が異なるため、違いもあります。次の表はこの概念を説明します。

CPU

メモリ

クラスタマシンのすべてのリソースの合計量

100C

100G

コロケーションパラメータ

低いCPU過剰販売率: 60%

低最適メモリ割り当て率: 40%

Kubernetes ネイティブ リソースの合計割り当て (コロケーションの高品質と中品質の合計割り当てに相当)

100C

60G

コロケーションの低優先度割り当ての合計

60C

40G

ご覧のとおり、CPUは圧縮可能なリソースなので、   CPU過剰販売率が低い このパラメータは、すべての低優先度タスクに対して、元のクラスターの 100C に加えて 60C のリソースを過剰販売できます。メモリなどの非圧縮リソースの場合、合計サイズは 100G です。  最適なメモリ割り当て比率が低い このパラメータの 40G を割り当てた後、高、中、高優先度に残るのは 60G のみです。コロケーション クラスターの管理では、オンライン サービスの使用に影響を与えずに十分なメモリを確保できるように、クラスター マシンにさらに多くのメモリを構成する必要があるという結論が導き出されます。

注: 圧縮可能なリソース (CPU サイクル、ディスク I/O 帯域幅など) はレートに敏感であり、タスクを強制終了せずに再利用できます。また、圧縮できないリソース (メモリ、ディスク領域など) は、通常、タスクを強制終了しない限り再利用できません。

「Google 5-6 での大規模クラスタの管理に Borg を使用する」 - 6.2 パフォーマンス分離

ここで皆さんをハラハラさせておきます。これらのパラメータの具体的な適切な比率と合理的な設定については、Alibaba Cloud の商用製品 ACK Agile Edition Colocation に詳しく記載されています。

04 容量ベースの柔軟なクォータスケジューリング

クォータの観点から見たクラウド ネイティブ コロケーションとコミュニティ デプロイメントの 2 番目の違いは何ですか?コロケーションの導入により、多数のオフライン コンピューティング タスクが導入されることがわかります。比較的規則的なオンライン サービスと比較すると、オフライン タスクは洪水のように波のように押し寄せ、期間全体にわたってより不規則です。チーム A がビッグ データ計算を実行しており、低優先度の割り当てをすべて使い果たしているが、チーム B のビッグ データ計算はまだ実行されておらず、まだ余裕のある割り当てが残っている可能性があります。

では、この割り当ての一部を利用して、まずは A 部門に「貸し出す」ことは可能でしょうか?ここで、容量ベースのクォータ スケジューリングという別の機能を導入できます。

  1. さまざまなレベルでのリソース クォータの定義をサポートします。上図に示すように、特定の状況 (会社の組織構造など) に基づいて、複数レベルの柔軟なクォータを設定できます。エラスティック クォータ グループのリーフ ノードは複数の名前空間に対応できますが、同じ名前空間は 1 つのリーフ ノードにのみ属することができます。
  2. 異なる弾性クォータ間でのリソースの借用とリサイクルをサポートします。
  • 最小: 使用できる保証されたリソース。クラスター全体のリソースが不足している場合、すべてのユーザーが使用する Min の合計は、クラスターの合計リソースよりも小さくする必要があります。
  • 最大: 使用できるリソースの上限。

この柔軟な割り当てスケジュールを導入した後、組織内の複数のチームが優先度の低いリソースを使用する際に、より「柔軟」になっていることがわかりました。チーム B にアイドル クォータがある場合、チーム A から動的にそれを「借りる」ことができ、その逆も同様です。このようにして、期間全体にわたってクラスターの使用率がさらに向上し、クラスター リソースがより完全かつ効率的に使用されます。

05 関連ソリューションの紹介

2022年を迎えるにあたり、コロケーションはAlibaba内で非常に成熟した技術となり、Alibabaは毎年数十億ドルのコストを節約しており、Alibabaのデータセンターの基本的な機能となっています。 Alibaba Cloud は、これらの成熟したテクノロジーをコロケーション製品として開発するのに 2 年を費やし、さまざまな業界にサービスを提供し始めています。

Alibaba Cloudの製品ファミリーでは、コロケーション機能を統合します。   ACK アジャイルエディション   CNStack(CloudNative Stack)製品ファミリー  、OpenAnolisオペレーティングシステムと組み合わせることで、完全な クラウドネイティブデータセンターハイブリッド 部門 オールインワンソリューション  、お客様への出力。


<<:  UFIDA iuap は PaaS プラットフォームを再定義し、企業のデジタル化のための新しい基盤を構築します

>>:  江島クラウド:企業のデジタル革新を促進する普遍的な開発

推薦する

Bilibiliは積極的に収益化していますか?

Bilibiliは重大な岐路に立たされている。コンテンツに固執すべきか、それとも積極的に収益化すべき...

WordPress 4.9 最新バージョンのウェブサイトのセキュリティ脆弱性の詳細と修正

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますWordP...

HawkHost - VPS 60% オフ プロモーション/ダラス

HawkHost では、40% 割引コード vpsjuly40 による VPS プロモーションを実施...

COVID-19パンデミックにより分散化の傾向が強まり、ブロックチェーン技術はまだ完全に実現されていない。

COVID-19パンデミックはブロックチェーン技術の応用を促進する大惨事となると予測する人もいるが、...

百度Kステーションの3つの状況を大胆に推測

Baidu のこのメジャー アップデートの後、多くのウェブマスターは、自分の Web サイトを Ba...

SEO最適化の3つの要素とイノベーションの道を歩む方法の簡単な分析

近年、SEO最適化業界は活況を呈しており、コンテンツが王様であり、外部リンクが王様であるようです。著...

ウェブサイトの関連性は奇妙な花のようなものです。関連性をうまく保つことは、一枚板の橋を渡るようなもの (パート 2)

上記の記事では、ウェブサイトコンテンツ構築の観点から、ウェブサイトコンテンツ構築の関連性をどのように...

オンラインストアの商品売上を伸ばすための合法的な戦術の使用に関する研究

一部のオンラインストアの売上が特に良いのは、詐欺的な手段を使って他人を騙すからだと言う人が多い。しか...

オンラインマーケティングを行うには? Yunke.com SEOは企業のマーケティング業務を支援します

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますインターネ...

ハミルトン経路スプロケットの研究 パート 2

ハミルトン経路という話題自体がかなり厄介な主題であるため、この記事はかなり散漫になることをあらかじめ...

「ChinaSat 9」は私のウェブサイトに3万件のアクセスをもたらしました

A5に記事を投稿するのは初めてなので、応援してください(今日の午後、ADではなくドメイン名を使用して...

Hostodo: 年間 21 ドル / 4GB RAM / 50GB ハードドライブ / 2TB データ / ロサンゼルス

ホストドの移籍はここまでで終わったはず?具体的な状況については報道されていません。今日、Hostod...

Weiboマーケティング:企業Weibo向けコンテンツの企画方法(パート1)

導入: Weibo運営者は、企業Weiboにどのようなコンテンツを投稿するか、いつ投稿するか、ファン...

ウェブサイトの直帰率を下げる方法についての簡単な分析

インターネット時代において、ネットユーザーは検索エンジンで欲しいものを探すことに慣れています。しかし...