GPU仮想化技術の詳しい説明

GPU の英語名は Graphic Processing Unit で、中国語での正式名称は computer graphics processing unit であり、1999 年に NVIDIA によって提案されました。

[[262683]]

1. GPUの概要

GPU の概念は、コンピュータシステム内の CPU に関連します。特に家庭用システムやゲーム愛好家の間ではグラフィックスに対する需要が高まり、従来の CPU では現状に対応できないため、グラフィックス処理専用のコアプロセッサを提供する必要があります。

ハードウェアグラフィックカードの「心臓部」である GPU は、コンピュータシステム内の CPU と同じ役割を果たします。同時に、GPU は 2D ハードウェアグラフィックスカードと 3D ハードウェアグラフィックスカードを区別するための重要な基準としても使用できます。 2D ハードウェアグラフィックスでは、主に CPU を使用して機能と 3D グラフィックスを処理します。これは「ソフトアクセラレーション」と呼ばれます。

3D ハードウェアグラフィックスカードは、機能と 3D 画像処理能力をハードウェアグラフィックスカードに集中させます。これを「ハードウェアアクセラレーション」と呼びます。市場で人気のあるグラフィックカードのほとんどは、NVIDIA と ATI の 2 つの会社によって製造されています。

1.1.グラフィックタスクを処理するために GPU が必要なのはなぜですか? CPU は同じことができないのはなぜですか?

GPU は並列プログラミングモデルであり、CPU のシリアルプログラミングモデルとはまったく異なります。その結果、CPU 上の優れたアルゴリズムの多くは GPU に直接マッピングできません。また、GPU の構造は共有メモリマルチプロセッシング構造と同等です。したがって、GPU 上で設計された並列プログラムは、CPU 上のシリアルプログラムとは大きく異なります。 GPU は主に、キュービック環境マテリアルマッピング、ハードウェア T&L、頂点ブレンディング、バンプマッピングとテクスチャ圧縮、デュアルテクスチャ 4 ピクセル 256 ビットレンダリングエンジンなどの重要なテクノロジを使用します。

グラフィックスレンダリングタスクは高度に並列化されているため、GPU は並列処理ユニットとメモリ制御ユニットを追加するだけで、処理能力とメモリ帯域幅を効果的に向上できます。

GPU の設計目的は CPU とはまったく異なります。 CPU は一般的なタスクを処理するように設計されているため、複雑な制御ユニットを備えていますが、GPU は主に、計算負荷は高いがあまり論理的ではないコンピューティングタスクを処理するために使用されます。 GPU で利用可能な処理ユニットは、実行ユニットとしてさらに活用できます。したがって、大規模な繰り返しデータセットの計算や頻繁なメモリアクセスなどの特性を持つアプリケーションシナリオでは、CPU と比較して GPU には比類のない利点があります。

1.2. GPU の使い方は?

GPU を使用する方法は 2 つあります。 1 つは、開発されたアプリケーションが一般的なグラフィックスライブラリインターフェイスを介して GPU デバイスを呼び出すことです。もう 1 つは、GPU 自体が API プログラミングインターフェイスを提供し、アプリケーションが GPU が提供する API プログラミングインターフェイスを介して GPU デバイスを直接呼び出すというものです。

1.2.1 一般的なグラフィックライブラリ

一般的なグラフィックスライブラリを介して GPU を使用するには、OpenGL や Direct3D などの既存のグラフィックス関数ライブラリを使用してシェーディング言語を記述し、GPU 内のレンダラー (シェーダー) を制御して必要な計算を完了します。

現在、業界で認められている 2 つの主要なグラフィックプログラミングインターフェイスは、OpenGL と DirectX です。 OpenGL は現在、インタラクティブでポータブルな 2D および 3D グラフィックスアプリケーションを開発するための最適な環境であり、グラフィックスアプリケーションで最も広く使用されている標準でもあります。 OpenGL は、SGI によって開発されたコンピュータグラフィックス処理システムです。グラフィックハードウェア用のソフトウェアインターフェイスです。 GL はグラフィックスライブラリの略です。 OpenGL アプリケーションでは、オペレーティングシステムや動作環境のプラットフォームを気にする必要はありません。

OpenGL 標準に準拠した環境であれば、同様の視覚効果が得られます。 OpenGL と同様に、DirectX (Directe Xtension) もグラフィックス API です。これは、Microsoft によって作成されたマルチメディアプログラミングインターフェイスであり、Microsoft Windows の標準となっています。 DirectX は、GPU アプリケーションのニーズを満たすために、新しい GPU 製品機能の拡張と進歩に基づいてタイムリーに新しいバージョンを定義しており、それが提供する機能は GPU によって提供される機能とほぼ同期しています。

1.2.2 GPUプログラミングインターフェース

GPU自体が提供するプログラミングインターフェースは、主にGPUデバイスを提供する2社、NVIDIAのCUDAフレームワークと、2006年に提案されたAMD(ATI)のCTM(Close To Metal)フレームワークによって提供されています(注: ATIはもともとGPUデバイスを製造しており、後にAMDに買収されました)。 AMD の CTM フレームワークは現在使用されていません。主な理由は、AMD (ATI) が 2007 年に ATI Stream SDK アーキテクチャを開始し、2008 年にパブリック OpenCL 標準に完全に切り替えたためです。したがって、AMD (ATI) には現在、独立したプライベートな汎用コンピューティングフレームワークはありません。

2007 年、NVIDIA は CUDA (Compute Unified Device Architecture) 専用の汎用コンピューティングフレームワークをリリースしました。一般的なコンピューティングプログラミングに CUDA を使用する場合、グラフィックス API を使用する必要はなくなり、代わりに C 言語に非常によく似た開発アプローチが使用されます。 CUDA プログラミングモデルには、ホストと呼ばれる CPU と、デバイスまたはコプロセッサと呼ばれる複数の GPU があります。

このモデルでは、CPU と GPU が連携して、それぞれが独自の機能を実行します。 CPU は論理トランザクション処理とシリアル計算を担当し、GPU はスレッド化された並列処理タスクの実行に重点を置いています。 CPU と GPU にはそれぞれ、ホスト側メモリとデバイス側ビデオメモリという独立したメモリアドレス空間があります。一般的に、石油探査、流体力学シミュレーション、分子動力学シミュレーション、生物学的コンピューティング、オーディオおよびビデオのエンコードとデコード、天文学的コンピューティングなどの分野など、一部の大規模なアプリケーションは CUDA フレームワークを使用してプログラムされます。

ただし、開発コストと互換性の理由により、一般的なエンタープライズレベルのアプリケーションのほとんどは、一般的なグラフィックスライブラリを使用して GPU デバイスを開発および呼び出します。

1.3. GPUはどのように機能しますか?

一般的なコンピューティングとグラフィック処理用の GPU の内部コンポーネントは、主に頂点プロセッサとフラグメントプロセッサの 2 つの部分で構成されます。このプロセッサにはストリーム処理モードがあり、読み取りと書き込み用の大容量のキャッシュ/メモリは搭載されておらず、チップ上の一時レジスタのみを使用してストリームデータを操作します。

GPU をグラフィック処理に使用する場合、GPU 内の頂点レンダリング、ピクセルレンダリング、ジオメトリレンダリング操作はすべて、ストリームプロセッサを通じて完了できます。図からわかるように、現時点では GPU 内のすべてのストリームプロセッサはマルチコアプロセッサに相当します。異なるストリームプロセッサの入力と出力間でデータを簡単に移動できます。同時に、ストリームプロセッサは汎用的であるため、GPU ディスパッチャと制御ロジックは、対応する頂点、ピクセル、ジオメトリ、およびその他の操作を実行するためにストリームプロセッサを動的に割り当てることができます。

2. GPU仮想化

話題から始めましょう。現在、仮想マシンシステムでのグラフィック処理には、仮想グラフィックカードを使用する方法、物理グラフィックカードを直接使用する方法、GPU 仮想化を使用する方法の 3 つの方法があります。

2.1.仮想グラフィックカード

1 つ目は、仮想グラフィックカードを使用することです。これは、プロ仕様のグラフィックカードハードウェアが高価なため、現在では仮想化システムの主流の選択肢となっています。現在仮想グラフィックカードを使用しているテクノロジには、次のものがあります。

VNC (仮想ネットワークコンピューティング)
Xen 仮想フレームバッファ
VMware 仮想グラフィックディスプレイプロセッサ GPU (グラフィックスプロセッシングユニット)
VMGL (VMM 独立グラフィックアクセラレーション) は、仮想マシンマネージャーから独立したグラフィックアクセラレーションシステムです。

VNC (Virtual Network Computing) は基本的に表示システムであり、完全なウィンドウインターフェイスをネットワーク経由で別のコンピューターの画面に送信できます。 Windows Server に含まれる「ターミナルサーバー」は、この原則に基づいて設計されています。 VNC は AT&T Labs によって開発され、GPL (General Public License) ライセンス条項を使用しているため、誰でも無料でソフトウェアを入手できます。 VNC ソフトウェアは、VNC サーバーと VNC ビューアーの 2 つの部分で構成されています。ユーザーは、ホスト上で VNC ビューアを実行してリモートコントロールを実行する前に、リモートコントロールするコンピューターに VNC サーバーをインストールする必要があります。

XEN 仮想フレームバッファは、XEN によって提供される仮想ディスプレイデバイスを指します。仮想ディスプレイデバイスは特権ドメインの VNC サーバーを使用するため、仮想ディスプレイデバイスには同様の VNC インターフェイスがあります。クライアントは XEN 仮想フレームバッファにデータを書き込み、変更されたイメージを VNC プロトコル経由で送信し、最後にフロントエンドに通知して対応する領域を更新します。この仮想フレームバッファーデバイスのソースコードは、オープンソースの Qemu から取得されます。 XenServer 上に表示される仮想マシンのオペレーティングシステムデスクトップインターフェイスは、このテクノロジの表示です。

仮想ネットワークコンピュータ (VNC) と XEN 仮想フレームバッファは、仮想マシンで特定のハードウェアグラフィックアクセラレーション機能をまだ提供していない 2 つのモードです。現在、仮想マシンがグラフィックハードウェアにアクセスできるようにするメカニズムはないため、これらの仮想ディスプレイデバイスは CPU とメモリを使用してグラフィックデータを処理します。物理的なディスプレイデバイスの機能は活用されません。

ただし、VMGL モデルでは、通常フロントエンド仮想化と呼ばれるこのメカニズムがすでに実装されています。 VMGL モードでは、このメカニズムを使用して、グラフィックス処理を必要とするデータを、対応するグラフィックスデータ処理のためのハードウェアグラフィックスアクセラレーション機能を備えた仮想モニターに送信します。現在、GPU アプリケーション開発に使用できる主流のグラフィック処理インターフェイスは、OpenGL と Direct3D の 2 つです。

これら 2 種類のグラフィックス処理インターフェイスのうち、OpenGL は、主流のオペレーティングシステムのプラットフォーム間で動作できる唯一のグラフィックス API インターフェイスです。仮想マシンプラットフォームにおいて、VMGL は OpenGL API を仮想化する最初のプロジェクトです。 VMGL の動作原理は、クライアントオペレーティングシステムに偽のライブラリを展開して、標準の OpenGL ライブラリを置き換えることです。偽のライブラリは、標準の OpenGL ライブラリと同じインターフェースを備えています。クライアントオペレーティングシステム内の偽のライブラリは、リモートサーバーのホストオペレーティングシステムへのリモート呼び出しも実装します。

この方法では、すべてのローカル OPENGL 呼び出しは、リモートサーバーへのサービス要求として解釈されます。リモートサーバーのホストオペレーティングシステムには、実際の OPENGL ライブラリ、グラフィックスドライバー、物理ハードウェア GPU があり、OPENGL 要求を完了して実行結果を画面に表示する役割を担っています。 VMGL はプロセス全体を通じて完全に透過的であるため、OPENGL を呼び出すアプリケーションはソースコードを変更したりバイナリを書き換えたりする必要がなく、仮想マシンプラットフォームに変更を加える必要もありません。

2.2 グラフィックカードパススルー

グラフィックカードパススルーは、グラフィックカードペネトレーション (Pass-Through) とも呼ばれ、仮想マシン管理システムをバイパスして GPU を仮想マシンに割り当てることを意味します。 GPU を使用する権限があるのは仮想マシンのみです。この排他的なデバイス割り当て方法により、GPU の整合性と独立性が維持され、そのパフォーマンスは非仮想化条件でのパフォーマンスに近くなり、一般的なコンピューティングに使用できます。ただし、グラフィックカードパススルーでは、グラフィックカードの特殊な詳細を使用する必要があり、互換性が低いため、一部の GPU デバイスでしか使用できません。

Xen 4.0 では VGA パススルーテクノロジが追加されたため、XenServer にもこのテクノロジが搭載されています。 XenServer のパススルーは、Intel Device Virtualization (Intel VT-d) テクノロジを使用して、ディスプレイデバイスを特定のクライアント仮想マシンに公開します。他のクライアント仮想マシンがアクセスできなくなるだけでなく、ホスト仮想マシンも GPU を使用できなくなります。直接アクセスをサポートするために、VGA BIOS、テキストモード、IO ポート、メモリマッピング、VESA モードなど、ゲスト仮想マシンのグラフィックカードのいくつかの特別な詳細を実装します。 Xen Server の VGA パススルーテクノロジを使用する GPU は、実行効率が高く、機能が充実していますが、単一のシステムでのみ排他的に使用でき、デバイスの多重化機能が失われます。 VMware ESXi には VM Direct Path I/O フレームワークが含まれており、これを使用してグラフィックカードデバイスを仮想マシンに直接渡して使用することができます。

XenServer と VMware は異なるテクノロジを使用しますが、同じ効果を実現します。つまり、物理グラフィックカードデバイスを仮想マシンの 1 つに直接渡して、仮想マシンの 3D 表示とレンダリングの効果を実現します。

グラフィックスパススルーは、実際にはネイティブドライバーとハードウェアを使用してクライアントオペレーティングシステムによって実装されるため、GPU の状態を追跡および維持するために必要な中間層が不足しており、ライブマイグレーションなどの高度な仮想マシン機能はサポートされていません。たとえば、XenServer Passthrough では、保存/復元/移行などの操作の実行が禁止されます。 VMware 仮想マシンでは、VMDirectPath I/O 機能を有効にすると、対応する仮想マシンはサスペンド/再開およびライブマイグレーションを実行できなくなります。

2.3 グラフィックカード仮想化（GPU仮想化）

グラフィックカードの仮想化は、グラフィックカードをスライスし、これらのグラフィックカードのタイムスライスを仮想マシンに割り当てて使用するプロセスです。グラフィックカード仮想化をサポートするグラフィックカードは、一般的に必要に応じて異なる仕様のタイムスライスに分割できるため、複数の仮想マシンに割り当てて使用することができます。実際の実装原則は、アプリケーション層インターフェイス仮想化 (API リモート処理) を使用することです。 API リダイレクトとは、アプリケーション層で GPU 関連のアプリケーションプログラミングインターフェイス (API) をインターセプトし、リダイレクトを通じて対応する機能を完了し (GPU を引き続き使用)、実行結果をアプリケーションに返すことを指します。

現在 Citrix が使用している 3D デスクトップ仮想化ソリューションのほとんどは、NVIDIA が提供するグラフィックカード仮想化テクノロジ、つまり vCUDA (仮想 CUDA) テクノロジを使用しています。 CUDA フレームワークについては以前に説明したので、ここでは説明しません。 vCUDA は、ユーザーレベルで CUDA API をインターセプトしてリダイレクトする方法を使用して、仮想マシン内の物理 GPU の論理イメージ (仮想 GPU) を確立し、GPU リソースのきめ細かい分割、再編成、再利用を実現し、マルチマシンの同時実行や一時停止と再開などの高度な仮想マシン機能をサポートします。

vCUDA の実装原理には、大まかに CUDA クライアント、CUDA サーバー、CUDA マネージャーの 3 つのモジュールが含まれます。 XenServer を例にとると、物理ハードウェアリソース上で VMM が実行され、上位層にハードウェアイメージが提供され、VMM 上で複数の仮想マシンが実行されます。仮想マシンの 1 つは特権仮想マシン (ホスト VM) であり、XenServer のドメイン 0 です。仮想マシンで実行されるオペレーティングシステムはホスト OS と呼ばれます。

ホスト OS はハードウェアを直接制御できます。ネイティブ CUDA ライブラリと GPU ドライバーがシステムにインストールされ、ホスト OS が GPU に直接アクセスして CUDA を使用できるようになります。その他の仮想マシンは非特権仮想マシン (ゲスト VM) であり、その上で実行されているオペレーティングシステム (ゲスト OS) は GPU を直接操作することはできません。ここでは、CUDA クライアントをクライアントドライバー、CUDA サーバーをホストドライバー、CUDA マネージャーを GPU マネージャーと呼びます。

2.3.1、クライアント

クライアントドライバーの本質は、Windows 7 などの仮想マシンにインストールするグラフィックドライバーです。主な機能は、ユーザーレベルで CUDA API のライブラリと、CUDA 関連のソフトウェアおよびハードウェアの状態を維持する仮想 GPU (vGPU) を提供することです。クライアントドライバーは CUDA アプリケーションを直接ターゲットとし、その機能には次のものが含まれます。

1) アプリケーション内の CUDA API 呼び出しをインターセプトします。
2) 仮想化に対するより高レベルのセマンティックサポートを提供するための通信戦略を選択します。
3) 呼び出されたインターフェースとパラメータをカプセル化してエンコードします。
4) サーバーから返されたデータをデコードし、アプリケーションに返します。

さらに、最初の API 呼び出しが到着する前に、クライアントドライバーはまず管理側から GPU リソースを要求します。 GPU リソースとタスクのリアルタイムスケジューリングを実現するには、各独立した呼び出しプロセスがホスト管理ドライバーからリソースを申請する必要があります。

さらに、クライアントドライバーは、グラフィックカードに関連するハードウェアとソフトウェアの状態を維持するために vGPU もセットアップします。 vGPU 自体は本質的には単なるキー値データ構造であり、現在使用されているアドレス空間、ビデオメモリオブジェクト、メモリオブジェクトなどを格納し、API 呼び出しの順序も記録します。計算結果が返されると、クライアントドライバーは結果に基づいて vGPU を更新します。

2.3.2 サーバー

サーバー側コンポーネントは、特権仮想マシン (XenServer 用語: 特権ドメイン) のアプリケーション層に存在します。特権仮想マシンはハードウェアと直接対話できるため、サーバー側のコンポーネントは物理 GPU を直接操作して一般的なコンピューティングタスクを完了できます。

サーバーは実際の GPU を対象としており、その機能には以下が含まれます。

1) クライアントのデータグラムを受信し、呼び出しとパラメータを解析します。
2) 呼び出しとパラメータを確認します。
3) CUDA と物理 GPU を使用して承認された呼び出しを計算します。
4) 結果をエンコードしてクライアントに返します。
5) コンピューティングシステム内の CUDA 対応 GPU を管理します。

また、サーバーが最初に実行するタスクは、自身の CUDA 対応 GPU デバイスの情報を管理側に登録することです。サーバーはクライアントの要求に応答するときに、各アプリケーションに独立したサービススレッドを割り当てます。サーバーは、ローカル GPU リソースを統一的に管理し、特定の戦略に従って GPU リソースを提供し、vGPU への API 呼び出しによって変更された関連するソフトウェアおよびハードウェアのステータスを更新します。

2.3.3 管理側

管理コンポーネントは特権ドメインに配置されます。 CUDA プログラミングインターフェイスの仮想化に基づいて、GPU の強力なコンピューティング能力とコンピューティングリソースが分離、分割され、より高い論理レベルでスケジュールされます。 CUDA サーバー側でコンピューティングスレッドとワーカースレッドを使用すると、同じ物理マシン上の GPU 間の負荷をある程度分散できます。 CUDA 管理側コンポーネントは、同じ GPU 仮想クラスター内の GPU の負荷を分散するために、より高い論理レベルで負荷分散を実行するように設定されています。

管理側コンポーネントスケジューリングの原則は、同じ物理マシン上の GPU 需要を可能な限り自給自足にすることです。物理マシンに条件を満たす GPU リソースがある場合、通常、物理マシン上の仮想マシンの GPU 要求は、物理マシンの CUDA サーバーにリダイレクトされます。

管理側では、集中化された柔軟なメカニズムを使用して GPU リソースを統一的に管理し、次のことを実現します。

1) 動的スケジューリング: ユーザーが占有しているリソースのアイドル時間が一定のしきい値を超えるか、タスクが完了すると、管理側がリソースを回収します。ユーザーがコンピューティングタスクを再度公開すると、GPU リソースがタスクに再割り当てされます。
2) 負荷分散: ローカルのコンピューティング負荷が高すぎる場合は、動的スケジューリング中に適切な GPU リソースを選択してコンピューティング負荷を調整し、コンピューティング負荷を分散します。
3) 障害回復: 障害が発生すると、タスクは新しい利用可能な GPU リソースに転送されます。

<<: マルチクラウド時代において、ハードウェアはテクノロジーベンダーにとって資産でしょうか、それとも負債でしょうか?

>>: HPEとGoogle Cloudが協力してハイブリッドクラウドソリューションを提供