Alibabaのクラウドネイティブハイブリッド展開システムKoordinatorが正式にオープンソース化

Alibabaのクラウドネイティブハイブリッド展開システムKoordinatorが正式にオープンソース化

著者 |朱陵

ハイブリッド展開とは何ですか?

業界の多くのインターネット企業は、異なる特性タイプのワークロードを協調的にスケジュールするという技術的な方向性を多かれ少なかれ示しており、ワークロード間のピークシェービングと谷間フィリングの効果を最大限に活用して、ワークロードがより安定的、効率的、低コストでリソースを使用できるようにしています。このようなシステムやメカニズムは、業界では「コロケーション」と呼ばれることがよくあります。

Alibabaのコロケーション:

アリババは2011年にコンテナ技術の探求を開始し、2016年にコロケーション技術の研究開発を開始しました。それ以来、複数の技術アーキテクチャのアップグレードを経て、最終的に今日のクラウドネイティブコロケーションシステムアーキテクチャに進化し、1,000万コアを超える完全なビジネス規模のクラウドネイティブコロケーションを実現しました。コロケーションの平均 CPU 使用率は 1 日あたり 50% を超えており、Alibaba はリソース コストを大幅に節約できます。

コロケーションは、インターネット企業内で多額の費用をかけて構築されるコスト管理コアです。ビジネスの抽象化とリソース管理における多くの思考と最適化の経験を体現しています。したがって、コロケーションが徐々に安定し、生産価値を生み出すには通常、数年の経験が必要です。コロケーションを使用するには、すべての企業が高い基準を満たす必要があり、価値を生み出すには多額の投資が必要ですか?弊社のコーディネーターが回答させていただきます。

コーディネーターは、超大規模な共同制作実践における社内経験に基づいています。クラウドネイティブ シナリオでアクセス コストが最も低く、コロケーション効率が最も高いソリューションを作成し、ユーザー企業がクラウドネイティブの継続的なメリットを実現できるようにすることを目指しています。

コーディネーターとは何ですか?

コーディネーター: コーディネーターの K は Kubernetes の K で、発音も同じです。意味的には、これはプロジェクトが解決しようとしている問題に適合します。つまり、Kubernetes クラスター内のさまざまな種類のワークロードを調整およびオーケストレーションして、最適なレイアウトと姿勢でクラスターとノードで実行できるようにすることです。

Google には Borg と呼ばれる社内スケジューリング システムがあり、これはコンテナの共同配置のための最も古いシステムです。この論文が発表される前は、業界では非常に謎めいたシステムでした。クラウドネイティブのコンテナ スケジューリングおよびオーケストレーション システム Kubernetes は、Borg の設計コンセプトに触発され、クラウド時代のアプリケーション オーケストレーションのニーズに基づいて Borg システムの設計者によって再設計されました。 Kubernetes の優れたスケーラビリティにより、さまざまなワークロードに適応でき、ユーザーはワークロードの日常的な運用と保守の効率を効果的に解決できます。

Koordinator は Kubernetes 標準機能の拡張に完全に基づいており、クラスターとノードのシナリオに共存するさまざまなワークロードのスケジュール、実行時パフォーマンス、安定性の課題を解決することに取り組んでいます。このプロジェクトには、洗練されたリソース スケジューリング、タスク スケジューリング、差別化された SLO など、ハイブリッド ワークロード オーケストレーションのための完全なソリューションが含まれています。これは、次のようなソリューションを通じて実現されます。

企業ユーザーがより多くのワークロード、特にビッグデータやタスク処理に関連するワークロードをKubernetesに接続して、運用効率と安定性を向上できるように支援します。

オープンソース技術標準を通じて、企業ユーザーがクラウド内外で一貫した技術アーキテクチャを実現し、運用と保守の効率を向上できるよう支援します。

企業ユーザーがクラウドリソースを合理的に活用し、クラウド上で持続可能な開発を実現できるように支援します。

2. Koordinator の利点は何ですか?

コロケーションには、完全な自己閉ループ スケジューリング ループが必要です。しかし、企業におけるコロケーションの適用プロセスでは、2 つの大きな課題に直面します。

  • アプリケーションをコロケーションプラットフォームに接続する方法
  • アプリケーションをプラットフォーム上で安定して効率的に実行するにはどうすればよいでしょうか?

Koordinator は、Alibaba の長年にわたる生産実践の経験と教訓から学び、企業が自社の技術を単に披露するのではなく、コロケーションを真に活用し、Kubernetes を有効に活用できるようにすることを目指して、これら 2 つの課題に的を絞ったソリューションを設計しました。

Koordinator 1.0 の全体的なアーキテクチャを下図に示します。これは、コロケーション ワークロード オーケストレーション、コロケーション リソース スケジューリング、コロケーション リソース分離、およびパフォーマンス チューニングのための完全なソリューションをユーザーに提供します。これにより、ユーザーは、レイテンシの影響を受けやすいサービスの動作パフォーマンスを改善し、アイドル状態のノード リソースを活用して、本当に必要なコンピューティング タスクに割り当てることができるため、全体的なリソース利用効率が向上します。

1. 超大規模生産の実践から得た経験

2021年のダブル11の後、アリババは「アリババのダブル11ビジネスを全面的にサポートするために、初めて統合スケジュールシステムを大規模に実装しました」と発表しました。

Alibaba Cloud(コンテナチームとビッグデータチーム)は、Alibabaのコアプロジェクトとして、Alibabaリソース効率チームとAntコンテナオーケストレーションチームと共同で、研究開発と技術革新に1年以上を費やし、「コロケーション技術」から今日の「統一スケジューリング技術」への全面的なアップグレードを実現しました。

現在、統合スケジューリングは、アリババの電子商取引、検索とプロモーション、およびMaxComputeビッグデータのスケジューリングの完全な統一を実現し、ポッドスケジューリングとタスクの高性能スケジューリングの統一を実現し、完全なリソースビューの統一とスケジューリングの調整を実現し、さまざまな複雑なビジネス形態の共同展開と利用率の向上を実現し、世界中の数十のデータセンター、数百万のコンテナ、数千万のコアの大規模なリソーススケジューリングを全面的にサポートしています。

クラウドネイティブ コロケーションの実践者として、Alibaba は実稼働環境でのコロケーション テクノロジーの概念を積極的に推進しています。昨年のダブル11ショッピングフェスティバルでは、1,000万コア以上のコロケーションを完了しました。コロケーション技術により、Alibaba はプロモーションのリソースコストを 50% 以上節約し、プロモーションの高速オンボーディングおよびオフボーディング リンクの速度を 100% 向上させ、スムーズなユーザー エクスペリエンスを実現しました。

振り返ってみると、アリババがコロケーション技術を推進しようと決意したのは、主に以下の問題に基づいていました。

  • 不均衡な使用率: 非コロケーション時代では、複数のリソース プール間のリソース使用率は不均衡です。ビッグデータ リソース プールは利用率が非常に高く、長期的にコンピューティング能力が不足していますが、電子商取引リソース プールは 1 日の利用率が比較的低いため、大量のコンピューティング リソースがアイドル状態になっています。ただし、災害復旧設計では、オンライン密度を高めるためにマシンを直接削除することはできません。コロケーションの本来の目的は、グローバル リソースのスケジュールをより合理的にすることです。日常生活では、コロケーションは、これらのアイドル リソースを最大限に活用するために、ビッグ データ タスクを電子商取引リソース プールにスケジュールするために使用されます。
  • 大規模プロモーションの準備における効率の低さ: 大規模プロモーション中の大規模プロモーションリソースの購入を減らすために、ビッグデータリソースプールを使用して、トラフィックのピークをサポートする電子商取引タスクを展開できることが期待されます。非コロケーション時代においては、このような柔軟なリソース借用は、マシンの再配置によってのみ促進することができ、促進支援の効率性が低く、大規模に実施することが困難である。

ダブル11などのピークシナリオを背景に、アリババのコロケーションスケジューリング技術は進化を続け、豊富な生産実践経験を蓄積してきました。現在では、第 3 世代のクラウドネイティブ フルサービス コロケーション システムに到達しています。クラウドネイティブのコンセプトに基づくこのハイブリッド展開テクノロジー ソリューション セットは、Alibaba から生まれました。オープンソース コミュニティを通じて業界全体に波及し、企業がクラウドネイティブ コンテナ スケジューリングの進歩を加速できるようにしたいと考えています。

2. コロケーション技術に重点を置き、さまざまなシナリオをサポートする

ハイブリッド展開は、レイテンシの影響を受けやすいサービスのきめ細かいオーケストレーションとビッグ データ コンピューティング ワークロードのハイブリッド展開のためのリソース スケジューリング ソリューションです。コアテクノロジーは次のとおりです。

  • パフォーマンスとロングテールレイテンシの要件を満たすためのきめ細かなリソースオーケストレーション。鍵となるのは、優れたリソース スケジューリングとオーケストレーション戦略、および QoS 認識戦略です。
  • 遅延に敏感なサービスの応答時間に影響を与えずにコンピューティング効率を確保しながら、コンピューティングタスクのコンピューティングリソース要件を低コストで満たすインテリジェントなリソースオーバーセリング

上の図は、コーディネーターのコロケーション リソースの過剰販売モデルを示しています。これは、コロケーションの最も重要かつ中核的な部分でもあります。オーバーセリングの基本的な考え方は、割り当てられているが未使用のリソースを使用して、優先度の低いタスクを実行することです。図に示されている 4 つの線は次のとおりです。

  • 制限: 灰色、Kubernetes Podリクエストに対応する高優先度Podによって要求されるリソースの量
  • 使用状況: 赤はポッドが実際に使用したリソースの量、横軸はタイムライン、赤線は時間の経過に伴うポッド負荷の変動曲線です。
  • 短期予約: 濃い青色で、過去 (短期) の使用期間におけるリソース使用量に基づいた、将来のリソース使用量の見積もりです。予約と制限の間のリソースは割り当てられていますが、使用されていません (将来も使用されない見込み)。これらのリソースは、短期間のバッチ タスクを実行するために使用できます。
  • 長期予約: 水色、短期予約に似ていますが、推定使用履歴がより長くなります。予約と制限の間のリソースは、ライフサイクルがより長いタスクに使用できます。利用可能なリソースは短期的なものより少ないですが、より安定しています。

このリソース モデルは、Alibaba 内のすべてのビジネスの共同配置をサポートします。簡潔かつ柔軟性があります。コーディネーター コロケーション リソース スケジューリング システム全体は、このようなリソース モデルに基づいて構築され、優先度のプリエンプション、負荷認識、干渉識別、および QoS 保証テクノロジと組み合わせて、コロケーション リソース スケジューリングの基本的なコア システムを構築します。コーディネーターコミュニティはこの考えに基づいて構築に投資し、コロケーションシナリオのスケジュール機能を継続的に拡張し、アリババ社内の豊富なシナリオサポート経験をコミュニティにエクスポートし、企業が直面する実際のビジネスシナリオの問題を解決します。

3. ダブルゼロダンピング、超低アクセスコスト

企業がコロケーションを導入する際の最大の課題は、コロケーション プラットフォーム上でアプリケーションをどのように実行するかということです。この最初のステップが、しばしば最大の障害となります。この問題に対処するために、コーディネーターは社内の生産実践経験に基づいて「ダブルゼロ侵入」コロケーション スケジューリング システムを設計しました。

最初のゼロインジェクションは、Kubernetes プラットフォームへのゼロインジェクションを指します。業界のほとんどの人は、Kubernetes を企業内の複雑なシナリオに適用する場合、何らかの理由で、特にノード管理 (Kubelet) の部分で Kubernetes に特定の変更を加える必要があることを知っています。この変更自体には高い技術的ハードルがあり、その後の Kubernetes バージョンのアップグレードにも大きな課題をもたらします。この問題を解決するために、企業はこれらのカスタマイズされた変更を維持するための専任チームを必要とすることが多く、沈黙には大きなコストがかかります。オンラインで問題が発生したり、新しいバージョンにアップグレードする必要が生じたりする頃には、変更内容に精通している学生がいなくなっている可能性があります。これは企業に大きな技術的リスクをもたらし、コロケーション技術の推進を妨げることがよくあります。 Koordinator ハイブリッド デプロイメント システムは、コミュニティ ネイティブの Kubernetes に変更を加える必要がないように設計されています。 Kubernetes クラスターにハイブリッド デプロイメント機能を導入するには、構成なしで 1 回のクリックで Koordinator コンポーネントをクラスターにインストールするだけです。同時に、ユーザーがコロケーション機能を有効にしない場合、元の Kubernetes クラスターは中断されません。

2 番目のゼロ ダンプは、ワークロード オーケストレーション システムでのゼロ ダンプを指します。企業内の Kubernetes クラスターにコロケーション機能を提供した後、企業のワークロードを接続してコロケーション方式で実行する方法が問題となると想像してください。一般的に直面する状況は 2 つあります。

  • ワークロードは、民間企業の運用と保守の特性を備えています。これらのワークロードの日々のアップグレード、リリース、拡張、削減は、プラットフォームのシステムまたは運用保守チームによって管理されます。しかし、ハイブリッド展開を推進するコンテナまたは SRE チームと、プラットフォームの運用および保守チームの間には、組織的なギャップ (大小問わず) が存在します。プラットフォーム チームを促してワークロード管理メカニズムを変革し、ハイブリッド展開プロトコルに接続する方法も、大きな課題です。
  • ワークロードはネイティブの Deployment/StatefulSet/Job モードで管理されます。 Kubernetes を社内で設計、実装、または変更するコストはチームの予想を超えており、ハイブリッド展開を促進する上での課題となります。

アプリケーション アクセス レイヤーの変換コストを削減するために、Koordinator は、ユーザーがコロケーションでのワークロード アクセスの問題を解決できるように、個別のワークロード アクセス レイヤー (コロケーション プロファイル) を設計しました。ユーザーは、コロケーション構成 (YAML) を管理するだけで、コロケーション方式でクラスター内で実行するタスクを柔軟にスケジュールおよび調整できます。とてもシンプルで柔軟性があります。現在、Koordinator は、混合 Spark タスクの実行例をユーザーに提供しています。今後、コミュニティはワークロード アクセス レイヤーの機能を継続的に強化し、より多くのシナリオでゼロ侵入アクセスをサポートしていきます。

4. クラウド内外で一貫したユーザーエクスペリエンス

Koordinator オープンソース プロジェクトは、Alibaba Cloud Native 2.0 の重要なキャンペーンです。ユーザーは、Koordinator ハイブリッド展開によってもたらされる技術的な利点を自社の環境で体験できるだけでなく、任意のクラウド ベンダーに展開して、ハイブリッド クラウドとマルチクラウド アーキテクチャの一貫性を維持することもできます。もちろん、Alibaba が提供する複数のクラウド製品全体で一貫したユーザー エクスペリエンスを実現し、1 回限りの設計を使用して複数の場所に接続し、価値を最大化することもできます。

ご覧のとおり、Koordinator は大規模な社内ビジネス コロケーションをサポートするだけでなく、Alibaba Cloud コンテナ サービスの統合ソリューションでもあります。コミュニティは今後も活発に活動を続け、コロケーションを人気があり、普遍的で、標準化された技術的機能に変えていくことに尽力します。

なぜオープンソースなのか?

最も初期のコンテナ コロケーションは Borg であり、Google で 15 年以上稼働しています。最新の公開情報は「ボーグ:ザ・ネクスト・ジェネレーション」[1]です。国内のインターネット企業は10年近く前からコロケーションを推進してきた。アリババのコロケーション技術も、3世代にわたる技術アーキテクチャのアップグレードと変更を経て、ついにグローバルコロケーションの究極の形に到達しました。コロケーションにより、アリババの電子商取引、検索、ビッグデータ事業は、大規模なプロモーションの準備の効率を大幅に向上させることができ、長年にわたりダブル11プロモーションのためのコンピューティングリソースを大幅に節約してきました。

私たちは、クラウドネイティブのハイブリッド展開が、エンタープライズ コンテナ スケジューリング テクノロジーの開発の必然的な方向であると確信しています。ワークロードのハイブリッド オーケストレーションを通じてのみ、ビジネスのマルチ アベイラビリティ ゾーン ディザスタ リカバリ アーキテクチャの下でより優れたリソース利用効率を実現し、さまざまな種類の負荷のピーク シェービングと谷間フィリングの効果を十分に発揮し、コンピューティング リソースの潜在能力を十分に発揮してクラウド コンピューティングの価値を最大化できます。

Koordinator のオープンソース化により、より多くの企業がクラウド ネイティブ コロケーションの機能を理解して使用できるようになり、クラウド ネイティブ変革のプロセスを加速できるようになることが期待されています。技術的には、Koordinator は企業が Kubernetes プラットフォームにさらに多くの負荷を接続し、コンテナ スケジューリングのワークロードの種類を充実させ、ワークロードの段階的なタイムシェアリングの特性を十分に発揮できるようにすることで、効率性とコストのメリットを実現し、長期にわたる持続可能な開発の健全な形態を維持するのに役立ちます。

現在、Koordinator は Spark タスク シナリオのコロケーションをすでにサポートしており、コロケーション用の低コストのアクセス ソリューションも提供しています。皆様のコロケーションアプリケーション事例をご覧いただき、フィードバックをいただければ幸いです。今後も、Koordinatorコミュニティはコロケーションのシナリオやビジネス形態を充実させ、Flink、Hadoop、AIジョブ、オーディオおよびビデオタスクなどをサポートしていく予定ですので、ご期待ください。

参考リンク [1]: https://research.google/pubs/pub49065/

<<:  あなたのビジネスは次のクラウド コンピューティング イベントに備えていますか?

>>:  よくあるクラウドの問題 5 つとその解決方法

推薦する

Baidu スナップショットが更新されないと、Web ページに影響しますか?

最近、Baiduで「Baiduスナップショットが更新されない」と検索したところ、いわゆる「対処法」の...

ERPからクラウドコンピューティングへの移行には、ERPチャネルの適応が求められる

一部の企業では、ERP にクラウド コンピューティング導入モデルを採用し始めています。しかし、ここ数...

専用マインド - 7ドル/4コア/2IP/2gメモリ/100gハードディスク/2Tトラフィック

ヘンズは、Intel Xeon E5620 クアッドコア CPU、最低 64G のメモリ、RAID1...

新しいサイトに不可欠な4つの外部リンク公開プラットフォームについての簡単な説明

新しいサイトの場合、結局のところ、立ち上げたばかりで、重みも、包含も、ランキングもありません。非常に...

インターネット大手が銀行業に参入:テンセントとアリババは最初のライセンス取得を逃す可能性も

民間資本が銀行業界に参入できるという警鐘が鳴らされるやいなや、アリババ、テンセント、蘇寧などのネット...

Baidu 統計「SEO 提案」から Baidu の好みを分析する

Baidu Statisticsの新バージョンが使用され始めてから半月以上が経ちました。開発と設計に...

ポータルサイトのローカルサイトは「役に立たない」ものになりつつある。ローカルサイトはどこへ向かうのか?

「人員削減?局閉鎖?」最近、「捜狐が広東と上海の局を閉鎖し、関係する従業員を直接解雇する」というニュ...

ユーザー操作はウェブサイト運営の重要な要素です

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています多くの人は...

App.net: ウェブサイトの構築は広告の販売ではない

一般的に言えば、App.net と Twitter は同じ位置づけにあります。Web サイトにはソー...

Google Urchin 設定: 訪問者セグメントをカスタマイズする方法

Urchin では、定義済みのセグメント (地理的地域や言語など) 別にユーザーをグループ化するだけ...

301 リダイレクト後の Baidu と Google の重み転送サイクルに関する調査

経験豊富な SEO 担当者は、301 リダイレクトの問題をよく理解しており、その使い方も知っているの...

Baiduの資産を見てみましょう

百度の香港上場再開に関する重要な情報が公開された。百度は3月12日に世界規模の株式公開を開始し、公開...

raksmart: 新しい香港クラウドサーバー、プレミアムネットワーク (cn2+bgp)、最大 200Mbps の簡単なレビュー

Raksmartのクラウドサーバーシリーズは米国(サンノゼ、ロサンゼルス)で提供が開始されており、本...

業界アプリケーションの革新とアップグレードのコアビジネスクラウド実装

時が経つのは早いもので、第 8 回データ テクノロジー カーニバルでの素晴らしいスピーチは今でも私た...

Heirloom: VULTR の最新ニュース、月額 2.5 ドルで 512M メモリの VPS

Vultr が月額 2.50 ドルの VPS をキャンセルしたことに気づきましたか? 512M メモ...