メモリ仮想化は具体的にどのように機能するのでしょうか?

1. 一言でまとめる

メモリ仮想化は、仮想マシン内のプロセスが物理マシン上のメモリにアクセスする方法の問題を解決します。

GuestOS 自体には、GVA で表される仮想アドレス空間があります。仮想マシンは、GPA で表されるメモリ空間全体を排他的に使用しているとみなします。

HostOS 自体には、HVA で表される仮想マシンアドレス空間があります。ホストマシン自体には、HPA で表される物理メモリ空間があります。

つまり、メモリ仮想化の問題は、GVA -> HPA マッピングの問題になります。

[[228006]]

GVA->GPA は、GuestOS ページテーブルを介してマップされます。 HVA->HPA は HostOS ページテーブルを介してマップされます。したがって、GPA->HVA のマッピング関係が確立されていれば、メモリ仮想化の問題を解決できます。ただし、3 つのセグメントを 1 つずつマッピングするのは非効率的です。

ソフトウェアでシミュレートされたシャドウページテーブルとハードウェア支援の EPT ページテーブルを導入します。

シャドウページテーブル: GuestOS が GVA->GPA ページテーブルを作成すると、kvm は GVA に対応する HPA を認識し、マッピング関係 GVA->HPA を秘密に記録します。後で GVA から GPA へのマッピングが必要になった場合は、シャドウページテーブルに基づいて HPA を見つけることができます。

EPT ページテーブル: EPTP レジスタはハードウェアレベルで導入されます。ゲストの CR3 をホストの MMU に直接ロードします。同時に、EPT ページテーブルが専用の EPT ページテーブルポインタレジスタ EPTP にロードされます。つまり、GVA->GPA->HPA の両方のアドレス変換はハードウェアによって実装されます。

2. 概要

80386 で保護モードが導入された後、メモリ空間が仮想アドレス空間と物理アドレス空間に分割されたことがわかっています。次に、仮想マシンアドレスを MMU に送信するためにページテーブルメカニズムが導入されます。 MMU が TLB の検索に失敗した場合、ページテーブルを順番に検索することで、対応する物理アドレスを見つけることができます。

仮想化シナリオでは状況は少し複雑になり、次のカテゴリに分類できます。

①ゲストOS仮想アドレス（GVA）

簡単に言えば、ゲストOS のプロセスによって使用される仮想アドレスは GVA であり、これは論理メモリにアクセスするプログラムのアドレスです。

②ゲストOS物理アドレス（GPA）

GuestOS が考慮する物理アドレスも、仮想マシンの mmu がページテーブルを検索して取得したアドレスですが、本質的には論理アドレスであり、仮想化の導入後に生成された論理概念です。メモリにアクセスするには、メモリ仮想化を使用してホストマシンの物理アドレスにマッピングする必要があります。

③ホスト仮想アドレス（HVA）

ホストマシン内の仮想アドレス、ホストプロセスによって使用される仮想アドレス空間。

④ホスト物理アドレス（HPA）

ホストマシンの実際のメモリアドレス、つまり実際にアクセス可能な物理メモリ空間。

これまでのところ、仮想マシンのシナリオでは、GVA->HPA に移行する方法がメモリ仮想化の作業です。このうち、Qemu は仮想マシンのメモリサイズの管理と、メモリに対応する HVA アドレスの記録を担当します (Qemu はユーザーモードプロセスであり、HPA を管理できないため)。 HPAに変換するには、KVMカーネル、つまりシャドウページテーブルSPT（シャドウページテーブル）とEPT（エクステントページテーブル）を使用する必要があります。

2.1 シャドウページテーブル

GuestOS がページテーブルを作成すると、KVM はホストマシンの物理アドレスを指すページテーブルのセットを秘密裏に作成します。ゲスト内の各ページテーブルエントリには、そのシャドウと同様に、対応するシャドウページテーブルエントリがあります。

クライアントがメモリにアクセスすると、ホストマシンの MMU に実際にロードされるのは、クライアントの現在のページテーブルに対応するシャドウページテーブルです。このようにして、シャドウページテーブルを通じて実際のメモリアクセスを実現できます。仮想マシンページテーブルとシャドウページテーブルは、ハッシュテーブルを通じて関連付けられます。このようにして、ページディレクトリ/ページテーブルのクライアントの物理アドレスを通じて、ハッシュリスト内で対応するシャドウページディレクトリ/ページテーブルをすばやく見つけることができます。クライアントがプロセスを切り替えると、クライアントのオペレーティングシステムは、切り替えるプロセスのページテーブルベースアドレスを CR3 にロードし、KVM はこの特権命令をインターセプトして新しい処理を実行します。つまり、このページテーブルベースアドレスに対応するシャドウページテーブルベースアドレスをハッシュテーブルで見つけ、それをクライアントの CR3 にロードします。これにより、クライアントが操作を再開すると、CR3 は実際に新しく切り替えられたプロセスに対応するシャドウページテーブルを指します。

2.2 EP

EPT テクノロジーは、クライアント仮想アドレスをクライアント物理アドレスにマッピングする元のクライアントページテーブルに基づいて EPT ページテーブルを導入し、クライアント物理アドレスからホスト物理アドレスへの別のマッピングを実現します。両方のアドレスマッピングはハードウェアによって自動的に完了します。クライアントが実行中の場合、クライアントページテーブルは CR3 にロードされ、EPT ページテーブルは専用の EPT ページテーブルポインターレジスタ EPTP にロードされます。

クライアントの物理アドレスをホストの物理アドレスに変換するプロセス中に、ページの欠落、書き込み権限の不足などによりクライアントが終了し、EPT 例外が発生する可能性があります。 EPT ページフォールト例外の場合、KVM はまず例外の原因となったクライアントの物理アドレスを対応するホストの仮想アドレスにマッピングし、次にこの仮想アドレスに新しい物理ページを割り当て、最後に EPT ページテーブルを更新して例外の原因となったクライアントの物理アドレスとホストの物理アドレス間のマッピングを確立します。 EPT 書き込み権限によって発生した例外については、KVM は対応する EPT ページテーブルを更新することで解決します。

このことから、EPT ページテーブルの実装は、前述のシャドウページテーブルと比較して大幅に簡素化されていることがわかります。さらに、クライアント内部でページフォールト例外が発生してもクライアントが終了しないため、クライアント操作のパフォーマンスが向上します。さらに、KVM はクライアントごとに 1 セットの EPT ページテーブルを維持するだけで済むため、追加のメモリオーバーヘッドが大幅に削減されます。

3. Qemu から KVM へのメモリ管理

3.1 フックの設定

main(vl.c)==>configure_accelerator==>kvm_init(kvm_all.c)==>memory_listener_register(&kvm_memory_listener,NULL);kvm_memory_listener を memory_listeners リストに追加し、address_spaces をリスナーに関連付けます

3.2 メモリオブジェクトの初期化

main(vl.c)==>cpu_exec_init_all(exec.c)==>memory_map_init(exec.c) Qemu では、システムメモリは system_memory によって管理され、io メモリは system_io によって管理されます。 static MemoryRegion *system_memory.MemoryRegion にはサブ領域を含めることができます。 memory_lister は、メモリ領域の追加と削除の管理を担当します。

3.3 メモリのインスタンス化

pc_init1 (hw\pc_piix.c) ==> pc_memory_init ここでは主にメモリ領域全体を割り当てます。memory_region_init_ram メソッドに注目してください。memory_region_init_ram ==> qemu_ram_alloc (メモリの HVA レコードを取得します) ==> qemu_ram_alloc_internal ==> ram_block_add (RAMBlock を生成して ram_list に追加します。hva はホストフィールドに配置されます) ==> phys_mem_alloc ==> qemu_anon_ram_alloc ==> mmap

3.4 VM終了処理

mmio による終了のため、関連する処理は次のようになります kvm_cpu_exec==> case KVM_EXIT_MMIO==> cpu_physical_memory_rw==> address_space_rw==> io_mem_write

3.5 qemu から kvm へのメモリ呼び出しインターフェース

前述したように、メモリを設定するときに呼び出されるリスナーを登録しました。

静的メモリリスナー kvm_memory_listener = {

.region_add = kvm_region_add、

リージョンの追加==>kvm_region_add==>kvm_set_phys_mem

① 物理開始アドレスと長さ、kvm_stateで確立されたKVMSlot *mem領域を検索

②スロットが見つからない場合は作成する

==>kvm_set_user_memory_region (メモリ領域を確立するためにカーネル状態を通知する) ==>kvm_vm_ioctl(s, KVM_SET_USER_MEMORY_REGION, &mem)

3.6 KVM メモリ処理

kvm_vm_ioctl==>kvm_vm_ioctl_set_memory_region==>kvm_set_memory_region==>__kvm_set_memory_region カーネル状態もスロットを維持します。カーネル状態スロットの管理戦略は、ユーザー空間スロットの slot_id =id_to_memslot(kvm->memslots, mem->slot); に 1 つずつ対応させることです。

① ユーザー状態のスロットを介してカーネル状態の対応する構造を取得する

②スロット内の値と設定する値から操作するカテゴリーを決定する

③2のアクションを実行する

a.KVM_MR_CREATE: kvm_arch_create_memslot (3 レベルのページテーブルを作成します)

b.KVM_MR_DELETE または KVM_MR_MOVE:

スロットを申請し、kvm->memslots をここに一時的に保存します。まず、id_to_memslot を使用して、挿入する kvm スロットに対応するスロットを取得します。削除または移動する場合は、まず KVM_MEMSLOT_INVALID としてマークします。次に install_new_memslots が実行されます。これは実際に slots->generation の値を更新します。

4. EPT関連

4.1 EPTの初期化

kvm_arch_init==> kvm_mmu_module_init

① pte_list_desc_cacheキャッシュ構造を確立する

② kvm_mmu_pageに使用されるmmu_page_header_cacheキャッシュ構造を確立する

③register_shrinker(&mmu_shrinker);システムメモリリカバリが呼び出されたときにフックする

vcpu_create==>vmx_create_vcpu==>init_rmode_identity_map==>alloc_identity_pagetable==>__x86_set_memory_region

4.2 EPTの読み込み

vcpu_enter_guest(struct kvm_vcpu *vcpu)==> kvm_mmu_reload (ゲストの MMU 初期化、メモリ仮想化の準備)==> kvm_mmu_load==>mmu_topup_memory_caches==>mmu_alloc_roots-->mmu_alloc_direct_roots (現在の vcpu ページングモードに従って ept トップレベルページテーブルの管理構造を確立)==>kvm_mmu_sync_roots

4.3 gfn_to_page

この関数は、GPA のページ番号を HPA のページ構造に処理します。

 gfn_to_page==>gfn_to_pfn==>gfn_to_pfn_memslot==>__gfn_to_pfn_memslot==>__gfn_to_hva_many|hva_to_pfn==>hva_to_pfn_fast|hva_to_pfn_slow

4.4 ページテーブルの割り当て

mmu_alloc_roots -->mmu_alloc_direct_roots-->kvm_mmu_get_page-->kvm_mmu_alloc_page

4.5 EPT VMエントリ

①KVM_REQ_MMU_RELOAD-->kvm_mmu_unload-->mmu_free_roots

②KVM_REQ_MMU_SYNC-->kvm_mmu_sync_roots-->mmu_sync_roots-->mmu_sync_children-->kvm_sync_page-->__kvm_sync_page

③KVM_REQ_TLB_FLUSH-->kvm_vcpu_flush_tlb-->tlb_flush-->vmx_flush_tlb-->__vmx_flush_tlb-->ept_sync_context-->__invept

非ルートモードに入り、さまざまなイベントに応じてメモリ上で関連する処理を実行します。

4.6 EPT VM終了

①cr3をセットする

mmu_alloc_direct_roots で arch.mmu.root_hpavcpu_enter_guest が割り当てられると、ルートページテーブルとして使用するためのメモリを申請するために kvm_mmu_load==> vcpu->arch.mmu.set_cr3(vcpu,vcpu->arch.mmu.root_hpa) が呼び出されます。同時に、root_hpa はルートページテーブルの物理アドレスを指します。すると、vcpu の cr3 レジスタのアドレスがこのルートページテーブルの物理アドレスを指していることがわかります。

②違反を処理する

-->kvm_mmu_page_fault-->arch.mmu.page_fault-->tdp_page_fault

__direct_map 関数は、渡された gpa に基づいて、レベル 4 のページテーブルページから計算し、対応するページテーブルエントリを 1 レベルずつ入力します。これらはすべて、マクロ定義 for_each_shadow_entry(vcpu, (u64)gfn << PAGE_SHIFT, iterator) で実装されています。 2つのケースは以下のとおりです。

a.現在のページテーブルページのレベル (iterator.level) がページテーブルページの最後のレベル (level) である場合は、mmu_set_spte (後で詳しく説明します) を呼び出してページテーブルエントリを直接設定します。

b.現在のページテーブルページAが最後のレベルではなく、中間のレベル（レベル4、レベル3、レベル2）である場合

ページテーブルエントリが以前に初期化されていない場合 (!is_shadow_present_pte(*iterator.sptep))、kvm_mmu_get_page を呼び出して新しいページテーブルページ B を取得または作成し、link_shadow_page を介してページテーブルページ A に対応するページテーブルエントリにリンクする必要があります。

4.7 EPTトラバーサル操作

for_each_shadow_entry は mmu.c で定義されたマクロであり、ページテーブルのレベルを継続的に移動するために使用されます。

4.8 シャドウページテーブル

init_kvm_mmu==>init_kvm_softmmu

上記の ept プロセスでは、パラメータに応じて異なる分岐が発生しますが、言うまでもなく、一般的なロジックは同じです。

<<: Docker コンテナと仮想マシンの違いは何ですか?

>>: クラウドストレージの 8 つの問題を回避する方法