GPU コンテナ仮想化の新機能のリリースとフルシナリオの実践

本日、皆さんにお伝えしたいトピックは、Baidu Smart Cloud の「GPU コンテナ仮想化」における最新の進歩とフルシナリオの実践です。この共有を通じて、GPU コンテナ仮想化テクノロジーを実際のビジネスシナリオにどのように適用すればより効果的かについて議論できれば幸いです。

この共有では、まずBaidu Smart Cloud GPU Container Virtualization 2.0のアップグレード変更点を紹介し、次に新バージョンでの技術的な実装方法を紹介して具体的な機能を実演し、最後にさまざまなビジネスシナリオでの実践と探求を紹介します。

1. デュアルエンジン GPU コンテナ仮想化 2.0

昨年、当社は業界初のデュアルエンジン GPU コンテナ仮想化アーキテクチャをリリースしました。これは、「ユーザーモード」エンジンと「カーネルモード」エンジンの両方を使用して、分離、パフォーマンス、効率性などのさまざまなユーザーのニーズを満たします。

分離エンジンの上にはリソースプーリングレイヤーがあり、主にリモート呼び出しに基づいてリソースの分離とプーリングを実装します。

リソースプーリング層の上には、K8s 統合リソーススケジューリング層があります。スケジューリングメカニズムに加えて、共有ハイブリッド配信、プリエンプティブハイブリッド配信、タイムシェアリングハイブリッド配信、潮汐ハイブリッド配信など、さまざまなビジネスシナリオに応じてさまざまなハイブリッド配信方法を抽象化します。

上記の技術力により、モデル開発、モデルトレーニング、オンライン推論など、さまざまな AI ビジネスの実現をサポートし、GPU リソースの利用率を大幅に向上させ、使用する GPU の数を削減します。

これらの内容についてのより詳細かつ包括的な説明は、昨年のシェアで紹介されました。本文原稿へのリンクは記事の最後にあります。

写真

バージョン 1.0 は、AI シナリオのビジネスニーズを非常によく満たしており、工場の内外で広く使用されています。

当社の技術的目標は、すべてのリソースを最大限に活用し、すべてのビジネスシナリオをカバーし、全体的なビジネスパフォーマンスを向上させることです。

そのため、バージョン 1.0 は十分に完璧ではなく、GPU の完全な機能を発揮していません。GPU 上のすべてのリソースがコンテナー仮想化環境で完全に有効化されておらず、より多くのシナリオで GPU コンテナー仮想化機能を使用できないため、今年は引き続きバージョン 2.0 をリリースしました。

写真

これは、デュアルエンジン GPU コンテナ仮想化 2.0 のアーキテクチャ図です。

バージョン2.0では、GPUのビデオメモリとAIコンピューティングパワーの分離に加えて、GPUのレンダリングコンピューティングパワーとコーデックの分離も実現されています。

これらの新しい機能に基づいて、混合レンダリングと混合エンコード/デコードをリソーススケジューリングレベルで提供できるようになり、AI コンピューティングパワー、レンダリングコンピューティングパワー、コーデックなどのすべての GPU リソースの統一されたスケジューリングが実現します。

同時に、バージョン 2.0 では、複数のスケジューラを通じて、お客様の既存のビジネスを当社のアーキテクチャにスムーズに統合することをサポートします。これは、顧客のビジネスが最新の GPU コンテナ仮想化機能を迅速に使用するために非常に重要です。

これらの新しい機能のサポートにより、ARM プラットフォーム上の自動運転シミュレーションやクラウドゲームなど、より多くのビジネスシナリオで、このプラットフォームを通じてリソースの使用率を向上させ、必要な GPU 使用量を大幅に削減できます。

さらに、基盤となるライブラリが更新されるたびに 2 つのコンテナ仮想化エンジンを継続的に反復し、ユーザーが業界の最新テクノロジーを利用できるようにします。ユーザー状態は最新バージョンの nvidia ドライバーと cuda 12.1 をサポートし、カーネル状態は最新バージョンの nvidia ドライバー 525/530/535 をサポートします。

写真

2. 新しい機能と技術の分析

次に、レンダリングの計算能力とコーデックの分離に関する技術的なソリューションについて詳しく紹介します。

まず、AIコンピューティングパワーとレンダリングコンピューティングパワーの違いを分析してみましょう。

NVIDIA GPU は、AI コンピューティングだけでなく、グラフィックスレンダリングコンピューティングも実行できます。 AI ワークロードは Cuda を介して GPU にアクセスし、レンダリングワークロードは OpenGL/Vulkan を介して GPU にアクセスします。どちらのタイプの計算でも同じコンピューティングリソースが使用されます。

では、AI コンピューティングの分離の実現に基づいて、レンダリング負荷は AI コンピューティングの分離された環境で正常に実行できるのでしょうか?

レンダリング負荷を正常に分離できる場合、どのタイプの GPU コンテナ仮想化エンジンが適切なソリューションでしょうか?

写真

次に、AIコンピューティングアーキテクチャを詳しく分析してみましょう。

上から下に向かって見ていくと、最上層は AI APP であり、cuda-x、cuda ランタイムなど、基盤となる Cuda シリーズライブラリに依存しており、上位層の AI APP に使いやすい高レベル API を提供しています。次は、cuda ドライバー、NVML などを含むアプリケーション層ドライバーライブラリです。これらは、デバイスファイルを介してカーネル状態ドライバーと通信し、最終的に GPU を使用する目的を達成します。

アーキテクチャ図の灰色の矢印はGPUを使用したAIプログラムの制御フロー、赤色の矢印はGPUを使用したAIプログラムのデータフローです。

では、AI コンピューティングアーキテクチャとレンダリングアーキテクチャの違いは何でしょうか?読み続けましょう。

写真

レンダリングコンピューティングアーキテクチャを上から下に向かって見てみると、最上層はゲームエンジンなどの UI/3D APP です。その基盤となるライブラリは、AI コンピューティングアーキテクチャよりも複雑です。基礎となるライブラリを呼び出すには、転送層 GLX を介して X11 サーバーを呼び出す方法と、EGL を直接呼び出す方法の 2 つの主な方法があります。

最終的には、AI コンピューティングの Cuda ライブラリに相当する、基盤となるグラフィックライブラリを OpenGL または Vulkan と呼ぶことになります。

さらに下には、libnvidia-glcore/libnvidia-eglcore/libdrm などを含むアプリケーション層ドライバーライブラリがあります。これらは、デバイスファイルを介してカーネル状態ドライバーとも通信し、最終的に GPU を使用する目的を達成します。

アーキテクチャ図の灰色の矢印は GPU を使用したレンダリングプログラムの制御フローであり、赤色の矢印は GPU を使用したレンダリングプログラムのデータフローです。

写真

上記の分析と比較を通じて、AI コンピューティングパワーアーキテクチャとレンダリングコンピューティングパワーアーキテクチャの上位ソフトウェアは異なりますが、制御フローは一貫しており、通信には同じデバイスファイルとカーネルモジュールを使用していることがわかります。

前の質問に戻りますが、レンダリングワークロードは AI コンピューティング用の分離された環境で正常に実行できますか?この分析結果に基づいて、レンダリングアプリケーションは AI コンピューティングパワーの分離された環境で実行できると予測されます。

しかし、実際に検証してみると、結論は否定的である。

逆分析の結果、2 つのソリューションの制御コマンドワードにいくつかの違いがあることが判明し、分離実装ではこれらの違いを区別する必要がありました。多くの実験を経て、ついにカーネルレベルでレンダリング計算能力の分離を実現しました。

なぜこのソリューションをユーザーモードで実装することを選択しなかったのでしょうか?

ユーザーモードの実装では、多くの上位レベルのライブラリ関数をインターセプトする必要があるため、実装が困難です。同時に、ソフトウェアはユーザーに対して透過的ではありません。したがって、ユーザーモードを通じてレンダリングコンピューティングパワーの分離を実装することは、適切なエンジニアリングソリューションではありません。

写真

次に、AIコンピューティングパワーとレンダリングコンピューティングパワーの分離効果を紹介します。デモのハードウェア環境は、NVIDIA V100 16G です。

この GPU で単一の AI ワークロード (pytorch resnet50 トレーニング) をバッチサイズ 32 で実行すると、100% の計算能力が割り当てられ、スループットは約 340 になります。GPUtest の Furmask テストを使用して単一のレンダリングロードを実行し、100% の計算能力と 550 FPS を割り当てます。混合負荷テストでは、1 つの AI 負荷と 1 つのレンダリング負荷にそれぞれ 50% の計算能力が割り当てられました。 AI負荷のスループットは170、レンダリングのFPSは260〜270でした。

単一の GPU 上で AI 負荷とレンダリング負荷の両方が分離され、約半分の計算能力が得られ、期待どおりのパフォーマンスが実現されていることがわかります。

写真

バージョン 2.0 で追加されたもう 1 つの新機能は、コーデック分離です。

ユーザーモードとカーネルモードの両方でエンコードおよびデコードのインスタンスを実装しました。

ユーザーモードコーデックインスタンスでは、コーデックは生の混合形式で使用されます。コーデックの計算能力の分離はサポートされておらず、各インスタンスはすべてのコーデックの計算能力を使用できます。

カーネル状態コーデックインスタンスでは、コーデックの分離を実装しました。この例では、エンコーダーの重みが AI コンピューティングパワーとレンダリングコンピューティングパワーの重みと共有され、統一されたコンピューティングパワーの割り当てが実現されます。

では、カーネルモードとユーザーモードの実装の違いは何でしょうか?ユーザー状態はインスタンス内のコーデックの計算能力をフルに活用し、カーネル状態はコーデックの計算能力の割り当てを実装します。たとえば、カーネル状態に計算能力の 20% を割り当てると、カーネル状態のエンコードおよびデコードインスタンスでエンコード機能とデコード機能の 20% を使用できます。

このようにして、統一されたコンピューティングパワーの割り当てと GPU リソースの有効化が完了し、リソースを最大限に活用できるようになりました。

写真

3. フルシナリオ練習

次に、これまでの技術を組み合わせて、さまざまなシナリオの実践を共有します。

まず、テクノロジとシナリオの観点から、ユーザーモードエンジンとカーネルモードエンジンの違いを見てみましょう。

技術的な機能の比較に関しては、ビジネスレイヤーでは通常、分離パフォーマンス、レイテンシ、リソース割り当ての粒度、マルチユーザーサポート機能などの観点から技術的な考慮を行い、アプリケーションに適した GPU コンテナー仮想化エンジンを一致させます。

これらの特性の分析に基づいて、さまざまなアプリケーションシナリオに適用可能な技術ソリューションをリストしました。

たとえば、オンライン推論ではレイテンシに対する要件が非常に高いため、通常はユーザーモードソリューションが推奨されます。オフライン推論の場合、両方のオプションが利用可能です。レンダリングシミュレーションシナリオでは、ユーザーモードではレンダリング分離がサポートされていないため、カーネルモードソリューションのみを使用できます。

写真

これは、データ処理、モデル開発、オンラインサービスを含む、典型的なインターネット推奨ビジネスです。データ処理やモデル開発はオンラインサービスを支えるオフライン業務であり、どの業務でも大量の GPU が利用されます。

GPU コンテナ仮想化ソリューションが使用される前は、各ビジネスインスタンスで GPU を使用していました。大量の監視データを通じて、オンライン推論サービスの全体的な GPU 使用率は 20% と高くないことがわかりました。これは業界ではよくある問題です。

オンラインサービスには高いレイテンシ要件があるため、このシナリオではユーザーモードソリューションを展開することを選択します。同じビジネス SLA を確保しながら、全体的な GPU リソース使用率が大幅に向上し、35% に達します。

ユーザーステートによってサポートされるプリエンプティブハイブリッドおよびタイムシェアリングハイブリッドと組み合わせることで、データ処理やモデル開発などのオフラインタスクを、オフラインでオンライン推論サービスと混在させることができます。オンラインビジネスが低調なときは、オフラインビジネスがビジネス処理のためにより多くの GPU アイドルリソースを取得し、全体的な GPU 使用量を節約します。

このシナリオは工場の内外で広く使用されており、多くのコストを節約しています。 GPU リソースが比較的不足している時代には、これは優れた技術的選択です。

写真

多くの顧客は、カスタマイズされたキューイングアルゴリズムやその他の機能を含む、独自のカスタマイズされたタスクスケジューラをプラットフォーム上にすでに持っています。サードパーティベンダーの GPU コンテナ仮想化プラットフォームを導入する場合は、対応するタスクスケジューラを使用する必要があります。

カスタマイズされたタスクスケジューラと Baidu Smart Cloud のタスクスケジューラを顧客のビジネスに共存させるにはどうすればよいでしょうか? 1 つの方法は、複数の K8s クラスターを使用することですが、管理が複雑になります。もう 1 つの方法は、Baidu Smart Cloud によって開発されたマルチスケジューラサポートソリューションを使用し、同じ K8s スケジューリングクラスターで複数のスケジューラを使用することです。

このソリューションでは、GPU リソースを 2 つのプールに分割し、ラベルを通じて 2 つの GPU プールのリソースを識別します。タスクの説明には異なるタグが使用され、K8s は対応するタスクスケジューラにタスクを割り当てるため、異なるタスクスケジューラが共存できるようになります。

顧客がタスクスケジューラのオープンソースバージョンを、大幅な変更を加えずに使用している場合、このソリューションを使用して、ビジネスのスムーズな移行を実現し、最終的にすべてのビジネスを Baidu Smart Cloud タスクスケジューラに移行できます。

写真

開発者は、デバッグ、検証、オペレータ開発などに小規模モデルを使用します。これらのモデルのパラメータスケールは、通常 15 億以内です。通常は A100 または A800 GPU を使用して実行され、2 ～ 4 人のユーザーをサポートします。

ただし、開発プロセス中は GPU がアイドル状態になる頻度が高くなり、全体的な GPU 使用率が低下します。

同時に、各開発者は独自のトレーニングデータとモデルデータを保存するために大量のストレージリソースを必要とし、それらを大容量のリモートファイルシステムを介して保存する必要があります。

リモートファイルシステムをクライアントコンテナーにマウントするには、異なるボリュームをマウントするために異なるパラメーターを使用する必要があります。これは、各ユーザーのユーザー ID を通じてユーザーを識別することによって実現されます。

ただし、ユーザーモード仮想化では、異なるユーザー ID を持つユーザーはサポートされません。つまり、マルチユーザーの分離はサポートされず、このシナリオでは使用できません。カーネルモード仮想化により、マルチユーザーの分離を実現し、異なるユーザーが同時に異なるリソースをマウントして使用できるようになります。

カーネルモード仮想化は、アクティブなコンテナ負荷に対してのみ重みに基づいて計算能力を割り当てることができるバーストスケジューリング戦略をサポートします。たとえば、GPU は 2 人のユーザーによって使用されるように仮想化され、計算能力の 50% が均等に共有されます。実際に GPU を使用するユーザーが 1 人だけの場合、スケジューリングポリシーによってすべての計算能力がこのユーザーに割り当てられます。 2 人のユーザーが使用する場合、各ユーザーは計算能力の 50% を使用します。

これにより、コンピューティング能力を共有できるようになるだけでなく、全体的な GPU 使用率とビジネスパフォーマンスも向上します。

写真

自動運転シミュレーションシナリオには 3 つのモジュールが含まれ、そのうちレンダリングシミュレーションエンコーディングモジュールと知覚推論モジュールは GPU を使用し、AI コンピューティング、グラフィックスレンダリング、コーデックなどのすべてのリソースタイプをカバーします。

GPU コンテナ仮想化ソリューションが使用される前は、レンダリングシミュレーションとエンコードシミュレーションでは、GPU を使用してゲームエンジンに似た環境を実行し、車両や道路状況をリアルタイムでレンダリングしていました。 1 ～ 2 秒ごとに画像がキャプチャされ、エンコードされ、認識および推論モジュールに出力されました。認識および推論モジュールは別の GPU を使用して画像認識や分類推論などの AI モデルを実行し、車線、歩行者、障害物などを識別して、そのデータを規制および制御モジュールに提供します。調整および制御モジュールは、認識データに基づいて車両の次の状態を計画および制御し、シミュレーションモジュールに制御コマンドを送信して次の操作を実行します。

現時点では、ビジネスの GPU 使用率は比較的低く、50% を超えていません。

カーネルモード仮想化テクノロジーを使用して、シミュレーションと推論のタスクを同じ GPU 上で同時に実行し、各タスクに計算能力の 50% を割り当てることで、1 つの GPU 上で 2 つの異なる負荷を同時に実行できるようになります。同時に、GPU のビデオメモリでデータが転送されるため、データ転送効率が向上し、ビジネスパフォーマンスが向上します。

これにより、シミュレーション環境での GPU 使用率が従来に比べて 100% 向上します。

写真

クラウドゲームでは通常、同じ GPU 上で複数のコンテナーが実行され、各コンテナーで完全な Android インスタンスが実行されます。このインスタンスには Android ランタイム環境が含まれており、Honor of Kings、Game for Peace、Genshin Impact などの Android ゲームがその上で実行されます。

クラウドゲームには実際の画面はなく、シミュレートされた仮想画面のみがあるため、各インスタンスは GPU レンダリングリソースを使用して、ゲームのグラフィカルインターフェイスを仮想画面にレンダリングします。これらの画像は、仮想画面のスクリーンショットとエンコードを通じて H.264 ビデオストリームとして出力され、ストリーミングメディアプロトコルを通じてユーザーのモバイルクライアントで再生されます。

GPU コンテナ仮想化ソリューションが使用される前は、複数のクラウドゲームインスタンスが、裸の混合競合方式で GPU レンダリングリソースを共有していました。サービス保証とリソース分離機能がなかったため、SLA を通じてゲーム体験を管理できなかったと言えます。

モバイルクラウドゲームは ARM プラットフォーム上で実行されるため、クラウドネイティブ AI プラットフォーム全体を ARM 上で実行できるようにするために、多くの新しいテクノロジ開発を行ってきました。

カーネルモードソリューションを使用して、各 Android インスタンスを管理し、レンダリングメモリを分離し、メモリ割り当ての QoS を確保します。

では、このシナリオでは、カーネルモードの仮想化を使用してレンダリング能力とコーデックを分離してみませんか?クラウドゲームではリアルタイム要件が高いため、カーネルモードの仮想化ではレイテンシ要件を満たすことができず、レンダリング分離はリアルタイム要件が低いシナリオに適しています。したがって、このシナリオでは、メモリ割り当ての QoS を確保するために、カーネル仮想化のメモリ分離機能のみが使用されます。

写真

本日私が皆さんにお伝えしたいのは以上です。

<<: ストレージコストはクラウドコンピューティングの TCO にどのように影響しますか?

>>: 5 分間の技術講演 | Xinchuang クラウドデスクトップについてどれくらいご存知ですか?

GPU コンテナ仮想化の新機能のリリースとフルシナリオの実践

1. デュアルエンジン GPU コンテナ仮想化 2.0

2. 新しい機能と技術の分析

3. フルシナリオ練習

ウェブサイトはスタートラインで勝利する：記事タイトルの最適化は非常に重要です

dwidc: 新規ユーザー特別、湖北データセンター、100G防御、20M帯域幅、クラウドサーバー9元/月、独立サーバー99元（更新199元）

家は遠く離れた道にあります。ウェブマスターは理想の自分であるべきです

短期間で百度のトップページにランクインする方法

v5.net: 韓国独立サーバー、30% 割引、最低 426 元、2*e5-2620/16g メモリ/240gSSD/10M 帯域幅、CN2+BGP ネットワーク

Vultrはどうですか?レビュー: VULTR オーストラリアシドニーデータセンタークラウドサーバー

たくさんの罠に陥った後でも、計画した活動がなぜ効果がないのかまだわかりませんか?

#中秋節/国慶節# zorocloud: 香港/韓国/日本/アメリカ、CN2/CU2/as4837/高防御ライン、無制限トラフィック、VPS+独立サーバー、TIKTOK海外電子商取引/chatgpt人工知能をサポート

ハイブリッドクラウドワークロードに最適な場所を見つける方法: セキュリティに関する 5 つの質問

SEO共有: Baiduウェブマスターツールは完全なガイドではない

推薦する

華瑞クラウド：香港双方向cn2 gia/内モンゴルBGP、クラウドサーバーのみ19元/月、299元/年、無制限トラフィック

WeChat で Taobao ページを開くことができます。また一緒になったのでしょうか?

2020年、わが国のクラウドコンピューティング市場の規模は1,781億元に達し、成長率は33.6%でした。

georgedatacenter: 年間 25 ドル、ロサンゼルス VPS、KVM/1G メモリ/1 コア/250G ハードディスク/2T トラフィック

高品質な外部リンクを判断する基準

vmbox-6.5 USD/3 GB RAM/75 GB HDD/3 TB トラフィック/シングルホップデータセンター

Docker の負荷分散とサービス検出の詳細な説明

ウェブサイトがブロックされた後の最新の回復方法について簡単に説明します

精密マーケティングとPPC広告のROI原則

「インターネット思考」の火をつけたのは何でしょうか?

技術革新はあらゆる産業に利益をもたらします。 Huawei Cloudは企業がデータの価値を引き出すことを支援します

SEO最適化によりサイト内の良好な接続が確立され、キーワードランキングが向上します。

SAP は、人事プロセスの簡素化と従業員エクスペリエンスの最適化を支援するクラウドベースの時間追跡ソリューションを発表しました。

2018年上半期の中国モバイルインターネット業界レポート！

#おすすめ# hostyun: 11.11 期間中、すべてのクラウドサーバーが 25% オフ、月額 13.5 元から、完全に最適化されたルート、香港/日本/韓国/米国/ロシア