VMwareインフラストラクチャ上でNvidia vGPUを実行できるようになりました

VMware と Nvidia のコラボレーションの新たな章である Project Monterey により、企業は AI や機械学習のワークロードなどのコンピューティング集約型アプリケーションを Nvidia vGPU 上で実行し、VMware vSphere を使用して管理できるようになりました。

[[347732]]

従来、AI、ディープラーニング (DL)、機械学習 (ML) のワークロードは CPU に限定されていましたが、Nvidia Virtual Compute Server (vCS) を使用すると、IT 管理者はこれらのワークロードを GPU または仮想 GPU (vGPU) に移動し、vSphere を通じて管理できるようになります。この戦略は、GPU の使用率を向上させ、セキュリティを強化し、管理を簡素化するように設計されています。

「AI、DL、ML はすべて計算負荷が非常に高いワークロードであり、大量のコンピューティングが必要です。通常のハードウェアではこれらの要件に対応できません」と、Nvidia の製品管理担当シニアディレクターである Raj Rao 氏は、「vSphere 上の Nvidia vGPU を使用して ML および計算ワークフローを実行するためのベストプラクティス」と題したセッションで述べています。

VMware は Project Monterey を通じて、vSphere 環境での機械学習の開発と提供を最終的に簡素化することを目指しています。現在、彼らは vCS と vGPU を使用してこれらの環境での計算を単純に高速化することを目指しています。

Nvidia GPU には、AI に必要な大規模な行列演算を可能にするテンソルコンピューティングコアが搭載されています。 GPU には、より汎用性の高いマルチタスクコンピューティングワークロードに対応する高度なコンピューティングコアも搭載されています。これらの GPU は、一般的にすべての一般的な OEM サーバーで利用可能です。企業はオンプレミスまたはクラウドに導入できます。仮想化された GPU は、ハードウェア GPU から機能、パフォーマンス、信頼性を抽出します。

「これは、仮想化のためのハードウェアアクセラレータへの一般的な傾向の一部であり、特殊な機能を専用ハードウェアに移行する傾向が高まっています」と、調査・コンサルティング会社 Gartner のリサーチディレクター、ポールデロリー氏は述べています。

vSphere による vGPU の管理

vSphere を通じて vGPU を管理できる新しい機能により、管理者は、同じホスト上で Windows VM と Linux VM を実行するなど、複数のワークロードを有効にすることができます。 VMware のお客様はエッジコンピューティングで vGPU をますます使用しており、5G GPU コンピューティングは vSphere によって管理される vGPU の新しいユースケースとなっています。

管理者は vSphere の vGPU を使用してグラフィックワークロードを高速化することもできます。 VMware Horizon ワークロードをエンコードおよびデコードします。機械学習、ディープラーニング、高性能コンピューティングのワークロードを実行します。拡張現実や仮想現実のアプリケーションを開発します。

vSphere によって管理される vGPU は、vGPU 対応 VM の vMotion などのプロセスの効率も向上させます。管理者は vSphere を使用して GPU と vGPU を管理し、それらの GPU と vGPU を使用して vMotion ワークロードをより効率的に管理できます。

「機械学習のトレーニングや高性能コンピューティングのジョブには数日かかることがあります」とVMwareのシニアエンジニア、Uday Kurkure氏は語る。

サーバーのメンテナンスを行っている場合は、ジョブを停止してサーバーをシャットダウンし、サーバーを再起動してジョブを再開する必要があります。しかし、ジョブをシャットダウンしてサーバーをシャットダウンする代わりに、vMotion を使用してその作業を別のホストに移動し、時間を節約できます。 vSphere 上で Nvidia vGPU を設定する場合は、ホストに Nvidia GPU をインストールします。基盤となる GPU を仮想化するには、ホスト上で実行されているハイパーバイザーに Nvidia vGPU Manager をインストールします。管理者は、同じ仮想 GPU にアクセスできる Windows や Linux などの同じオペレーティングシステムで複数の VM を実行できます。これらのホストは、高性能コンピューティングや機械学習のワークロードを迅速かつ効率的に実行できます。

vSphere および仮想環境における機械学習

vGPU を使用すると、より効率的な機械学習トレーニングを提供できます。管理者は、データセンターで他のワークロードを実行しながら機械学習アプリケーションをトレーニングできるため、機械学習アプリケーションのトレーニングに必要な時間が大幅に短縮されます。たとえば、Kurkure 氏によると、トレーニングに最大 56 時間かかる単語予測のための複雑な言語モデリングワークロードは、vGPU を使用するとわずか 8 時間でトレーニングできるとのことです。ローカル GPU と比較すると、vGPU のトレーニング時間はわずか 4% 短縮されます。しかし、ほとんどの企業にとって、機械学習はまだ初期段階にあります。

「AI や ML ワークロードにとって Project Monterey の利点は、GPU にアクセスできることです」と Delory 氏は述べています。「しかし現時点では、すべてのホストに GPU をインストールする必要があり、これはコストがかかります。あるいは、ハードウェアを AI または ML ワークロード専用にする必要がありますが、これは複雑でコストがかかります。」

<<: 2020年以降に注目すべきエッジコンピューティングの4つのトレンド

>>: Kafka の効率的なストレージ設計をコミックで解説