クラウド コンピューティング環境で VMware 仮想マシンのバックアップの課題に対処するにはどうすればよいでしょうか?

クラウド コンピューティング環境で VMware 仮想マシンのバックアップの課題に対処するにはどうすればよいでしょうか?

1. 実現可能性評価

1.1 背景

2016年初頭、政府は「中国金融産業情報化発展のための第13次5カ年計画(意見募集稿)」[1]を発表し、「金融サービスの能力と効率性を向上させるためのクラウドサービスの科学的利用」を強調した。同年7月、「中国銀行業情報化発展第13次5カ年計画監督指導」[2]では、クラウドコンピューティングアーキテクチャ計画を積極的に実行し、アーキテクチャ移行を積極的かつ着実に実施することが明記された。中国情報通信研究院の2018年金融業界クラウドコンピューティング技術調査報告書によると、調査に参加した金融機関の約90%がすでにクラウドコンピューティング技術を適用しているか、適用を計画しています。そのうち約 3 分の 1 が小規模以上 (>500) の仮想サーバーを導入しています。 VMware と OpenStack の比率は 2.67:1 です。 OpenStackは実稼働環境で使用されており、全体の環境の20%未満を占めています[3]。 VMware アーキテクチャは、金融業界の実稼働環境における主流のアーキテクチャです。

一方、金融業界における競争はますます激化しており、企業はIT技術に大きく依存しており、ITシステムの可用性、継続性、セキュリティに対する要求は高まっています。完全な高可用性システムを VMware 環境に合理的なコストで構築することによってのみ、新しい状況の要件に適応できます。 VMware は、ある程度のビジネス継続性を確保するために FT や HA などの機能を提供していますが、誤った削除、誤った上書き、ストレージ メディアの破損などの偶発的なデータ損失には対応できません。したがって、バックアップ コピーからデータを回復することが特に重要です。

VMware 仮想化環境でのバックアップ システムの構築に関して、金融企業は主に次のような課題に直面しています。

1. バックアップウィンドウと帯域幅が限られている: 小規模な仮想マシン (ハードディスク構成 50 GB) を基準にすると、現在主流の仮想データセンターの規模は 1,000 台で、必要な毎日のバックアップデータは 50 TB です。データセンターで一般的に使用されているギガビット ネットワーク環境では、十分なバックアップ ウィンドウを予約することは不可能です。 10 ギガビットの帯域幅であっても、完全バックアップには 1 日あたり少なくとも 14 時間かかるため、ビジネス ニーズを満たすのは困難です。

2. バックアップ メディア ストレージのオーバーヘッド: バックアップが 1 日に 1 回実行され、各コピーが 7 日間保持されると仮定すると、合計 7 つのコピーが保存され、350 TB (50 TB * 7) のストレージ容量が必要になります。バックアップデータを保存すると、大きなオーバーヘッドが発生します。

3. 追加の運用・保守コスト:運用対応を高速化するために、業務システム仮想マシンの追加、削除、移行、名前変更などの変更を頻繁に行う必要があります。バックアップ戦略はタイムリーに変更する必要があり、追加の運用および保守費用が増加します。

4. 回復期間が限られている: 金融業界では、事業継続性に関して極めて厳しい要件が課せられています。部分的なデータ損失が発生した場合、データ全体を復元する必要があり、長い復旧時間は金融業界にとって受け入れられません。

限られた帯域幅とストレージ容量の下で大規模な VMware 仮想マシン クラスターを迅速にバックアップすることは、金融業界の緊急のニーズの一つとなっています。

1.2 プロジェクトの価値

データは金融ビジネスシステムの中核です。現在の環境では、多数の本番業務システムが VMware 仮想マシン上で稼働しています。 VMware 仮想化バックエンド ストレージは、集中ストレージ、分散ストレージ、ローカル ストレージに分かれています。ストレージ リソース プーリングにより、リソースの使用率が向上しますが、障害のリスクも集中化されます。ストレージ障害が発生すると、数十台、あるいは数百台の仮想マシンのデータが失われ、金融会社に計り知れない損失をもたらします。 VMware 仮想マシン全体をバックアップすると、人為的な操作ミス、ソフトウェアの欠陥、ハードウェアの異常、自然災害など、多くの予期しない状況でもデータの整合性と有効性を確保できます。

1.3 プロジェクトの期待

既存のギガビット ネットワーク帯域幅の条件下では、すべての実稼働仮想マシンは 8 時間のバックアップ ウィンドウに従って自動的にバックアップされます。バックアップ頻度は1日1回です。バックアップデータは業務システムレベルに応じて複数のコピーを保持します。システム障害が発生した場合には迅速な業務復旧を、データ損失が発生した場合にはマシンまたはファイル単位での迅速なデータ復旧を保証します。 VMware 環境が変更されたときに、新しい環境に適応するためにバックアップ戦略を自動的に変更するソリューションが必要です。既存のネットワーク アーキテクチャを変更することなく、大規模なエンタープライズ ネットワーク アーキテクチャの調整によって発生する追加費用を回避します。重複排除アルゴリズムを使用すると、ストレージ バックアップ メディアの消費量が数十倍削減され、ストレージ リソースが節約されます。

1.4 主要なリスクの開示と管理:

ソリューション実装プロセスでは、エンタープライズ仮想化環境に複数のバージョンと構成が存在する場合があります。これにより、バックアップ タスクのパフォーマンスに悪影響が及ぶことになります。事前に企業の仮想化環境を調査し、各コンポーネントのバージョン情報や各仮想マシンの構成情報を収集して確認します。バックアップ ソリューションを実装する前に、各コンポーネントをアップグレードして既知のバグを解決するか、構成を変更して効率を最適化します。最終バックアップは長時間かかるフルバックアップとなるため、既存のネットワーク帯域幅に応じて初期バックアップタスクをバッチで計画し、最終バックアップ時間を事前に調整します。

1.5 予算評価:

予算構成は、ソフトウェアライセンス料とハードウェア費用の 2 つの部分に分かれています。

ソフトウェア ライセンス料金には、少なくとも次のものが含まれます。

1. 重複排除容量ライセンス

2. 仮想マシン バックアップ ライセンス。

ハードウェアコストには以下が含まれます。

ビジネスの種類、ネットワークの種類、規制要件に応じて、仮想マシンをさまざまなバックアップ タスク セットに分割します。将来の成長を考慮し、重複排除率 1:50 に基づいて、同等の容量のバックアップ メディア ストレージ デバイスの購入を見積もります。

コストを抑えるには、バックアップ システムを仮想化環境で実行することを検討してください。各サーバーは複数のネットワーク カードで構成され、バックアップ メディア サーバーは帯域幅を独占するために別の物理ネットワーク カードにバインドされます。

1.6 主要技術ルートの選択

現在、市場にはVeeam、Networker、nbu、VMwareのvdp(将来のVMware製品では利用できなくなります[4])など、さまざまな仮想化バックアップソフトウェアが存在します。バックエンド ストレージは、集中型ブロック ストレージ、データドメイン、または msdp にすることができます。すべての主要メーカーは基本的に、Vsphere-Api テクノロジーを使用してバックアップを実装します。ソリューションは、Veeam、avamar、NBU オールインワンなどの統合ハードウェアおよびソフトウェア ソリューション、または Nbu+msdp/datadomain、Networker+datadomain などのバックアップ ソフトウェア + 重複排除ディスク アレイ ソリューションに分かれています。

選択する前に、まず、10 ギガビット ネットワークが含まれているかどうか、SAN ネットワークが含まれているかどうかなど、企業の VMware 仮想化環境の現在の運用アーキテクチャを考慮し、適切なソリューションを選択する必要があります。選択プロセスでは、バックアップの効率を考慮するだけでなく、バ​​ックアップ タスクの管理にも重点を置く必要があります。たとえば、バックアップ戦略の確立と維持、バックアップ レポートの生成、会社の既存のバックアップ アーキテクチャとの統合などです。最終的な製品選択を行うには、他の機能とコストを参照してください。

2 ソリューション設計

2.1 プロジェクトの目的

プロジェクトの目的には、次の 4 つの側面が含まれます。

1. 指定されたバックアップ時間枠内にバックアップ タスクを完了します。

2. スマートなバックアップ戦略を確立します。

3. レポートを自動的に生成します。

4. 即時回復を実現します。

2.2 プロジェクトの全体構造とその構成要素

以下は、NBU ソリューションを使用した一般的な VMware 仮想化論理アーキテクチャです。アーキテクチャ図では、各ホスト マシンは、ギガビット データ ネットワーク、ギガビット管理ネットワーク、および SAN ネットワークの 3 つのネットワークで構成されています。これにより、管理トラフィック、ビジネス トラフィック、およびストレージ トラフィックが分離され、相互の影響が回避されます。管理ネットワークは主にデータの監視、障害切り替え、Vmotion に使用されるため、通常、トラフィックは大きくありません。バックアップ トラフィックはタスク開始時に大量の管理帯域幅を占有しますが、バックアップ タスクは通常、業務のオフピーク時間帯に開始されるため、管理ネットワークへの影響は限定的です。一方、管理トラフィックを業務トラフィックおよびストレージトラフィックから分離する設計により、業務帯域とストレージ帯域が確保され、業務の可用性に影響が出ません。このアーキテクチャには、バックアップ データの重複排除を完了し、同時バックアップ ストリームを増やし、バックアップ速度を向上させるための NBU-MSDP サーバーのセットが複数含まれています。

コンプライアンスとセキュリティの要件に従い、金融機関には複数の分離された領域があり、バックアップ セットは異なるパーティションに保存する必要があります。実際には、バックアップ データの重複排除率は約 99.1% に達します。仮想マシン1,000台あたり平均200GB、1日1回のバックアップを7日間保持する計算で合計1,400TB必要となり、必要なストレージ容量は12.6TBとなります。市場で主流の 2U-X86 サーバーは、最大 48 TB の物理容量を持つ 24 台の 2.5 インチ ハード ディスクを収容できます。したがって、規制の強力な分離規則に準拠し、管理とスケーラビリティを考慮するために、仮想マシンの形式で異なる重複排除プールを構築することをお勧めします。また、バックアップは多くの帯域幅を消費するため、スイッチのアップリンク帯域幅を節約するために、バックアップ メディア サーバーと必要なバックアップ クラスターを可能な限り同じスイッチ内に計画することをお勧めします。

2.3 主要技術

VMware CBT:

ESX/ESXi ホスト上で実行されている仮想マシンは、変更されたディスク セクターを追跡できます。この機能はブロック変更トラッキングと呼ばれ、変更されたブロックを記録します(CBT)[5]。 CBT は、バックアップ システムを効率的にバックアップするための鍵です。バックアップ速度を大幅に向上し、バックアップデータの保存スペースを削減できます。多くのファイル システムでは、CBT は 2 つの変更セット ID 間の変更されたディスク セクターを識別します。 VMFS パーティションでは、CBT は使用中のすべてのディスク セクターを識別することもできます。仮想ディスクへのブロックの変更は、仮想マシンの外部から仮想化レイヤーに追跡できます。ソフトウェアがバックアップを実行するときに、前回のバックアップ以降に変更されたデータ ブロックまたは使用中のデータ ブロックのみを転送するように要求できます。この機能はサードパーティのアプリケーションからアクセスできます。 VADP を呼び出すことにより、アプリケーションは VMkernel に、最後のバックアップ スナップショット以降に変更された仮想ディスク上のデータ ブロックを返すように要求します。

CBT が最後の ID 変更以降に変更されたディスク セクターを認識するには、次の条件を満たす必要があります。

1. ホストは ESX/ESXi 4.0 以降である必要があります。

2. 追跡対象のディスクを含む仮想マシンのハードウェア バージョンは 7 以上である必要があります。

3. I/O 操作は ESX/ESXi ストレージ スタックを経由する必要があります。したがって、仮想互換モードの NFS と RDM はサポートされますが、物理互換モードの RDM はサポートされません。 VMFS、SAN、iSCSI、またはローカル ディスクがすべてサポートされています。

4. 仮想マシンで CBT を有効にする必要があります。バックアップ ログに次のメッセージが含まれている場合: 変更ブロック追跡構成が正しくありません、ディスク「ハード ディスク #」の変更ブロック追跡構成が正しくありません、または 1 つ以上の VM ディスクの変更ブロック追跡構成が正しくありません、そのような VM の CBT 機能が有効になっていない可能性があります。 [6]に示すように有効にする必要があります。

5. VMストレージは独立したディスク(永続的または非永続的)にはならない

仮想マシンの起動中に電源障害やハードシャットダウンが発生するなど、場合によっては、CBT がリセットされ、増分変更が追跡されなくなることがあります。 vSphere 4.1 以前では、コールド移行 (Storage vMotion ではない) によって CBT がリセットされますが、無効にはなりません。 vSphere 5.5 Update 2 より前の vSphere 5.x バージョンでは、Storage vMotion によって CBT がリセットされます。このような事態が発生した場合は、十分な準備を行うために十分な時間を確保する必要があります。

実際には、一部の ESXI バージョンでは CBT 機能が失敗することが判明しています。例えば[7]では、CBTヒープ枯渇によりバックアップ効率が低下します。この時点で、/var/log/vmkernel.logに表示されます。 T。したがって、ESXI を対応するバージョンにアップグレードする必要があります。

重複排除プール:

VMware バックアップ ソリューションでは重複排除機能を使用する必要があります。これは、Veeam、Vdp、NBU-MSDP ソフトウェアを通じて、または NBU オールインワン、Avamar、Datadomain などのバックエンド重複排除プールを使用して実装できます。

重複排除デバイスを使用すると、次のことが可能になります。

  • 保存されるデータの量を減らします。
  • バックアップ帯域幅を削減します。
  • バックアップウィンドウを短縮します。
  • インフラストラクチャを削減します。

MSDP を展開する最適な方法は次のとおりです。詳細については[8]を参照されたい。

1. 宿題の量を徐々に増やします。

2. クライアント側の重複排除を使用して重複排除処理を拡張し、パフォーマンスを向上させます。

3. バックアップ メディア サーバーを拡張して同時フローを増やし、バックアップ効率を向上させます。

スマートな戦略の構築:

仮想化プラットフォーム内の仮想マシンは頻繁に変更されるため、自動検出のためのインテリジェントなポリシーを構成し、バックアップ タスクを追加することは、金融企業の運用および保守担当者の負担を軽減するために特に重要です。金融企業では、異なるクラスターが異なるビジネス領域を表すことがよくあります。以下では、自動検出戦略を説明するために NBU を例として使用します。

仮想マシン バックアップ ポリシーに自動フィールドを追加します。

クラスター anyof “1-Admin Area” AND NOT [backneed] equal “0”

「1-Management Area」はクラスター名を表し、[backneed] は VM 内のカスタム フィールドを表します。これは、大量の読み取りおよび書き込み IO 特性を持つ VM など、バックアップする必要のない VM を除外するために使用されます (サイレント スナップショットは VM をフリーズします)。

これらの条件を組み合わせることで、バックアップ仮想マシンを自動的にフィルタリングして分離できます。

その他の前提条件:

各バックアップソフトウェアには、NBUバックアップvmwareの前提条件など、バックアップ環境に対する独自の特別な要件があります(詳細については[9]を参照してください)

1. バックアップする予定の仮想マシンに VMware Tools をインストールします。

2. NBUの下位バージョンでは、VMに中国語の名前を付けることはできません。

3. Linux 仮想マシンでは、スナップショットを作成する準備として、NetBackup にファイルシステムを静止するための特別なユーティリティ (SYMCquiesce) が必要です。 SYMCquiesce がないと、NetBackup はスナップショットの作成時にそのファイルシステム内のデータが一貫した状態であることを保証できません。

2.4 機器リスト(オプション)

VMware 製品を除き、バックアップ プロジェクトで購入する必要がある製品は、主にバックアップ ソフトウェアとバックエンド重複排除ストレージの 2 つに分けられます。具体的な装備は選定計画に従って決定されます。

2.5 主要機器の選択(スケーラビリティの問題)

選択する際には、以下の点を考慮してください。

1. バックアップ効率

VMware の規模はデータセンターの規模に合わせて急速に拡大するため、バックアップ システムの並列処理能力は特に重要です。したがって、バックアップ ソフトウェアはマルチノード展開をサポートする必要があります。

2. 経営効率

VMware クラスタがオンラインになると、頻繁に変更が発生します。効率的な管理機能により、運用および保守担当者の負担が大幅に軽減されます。たとえば、この記事で前述した自動検出、レポート、その他の機能などです。

3. 回収効率

ほとんどのデータ復旧では、VM の完全な復旧は必要ありません。バックアップイメージをNAS経由でマウントし、必要なファイルを一時的に復元するだけで、ファイルレベルでのきめ細かな復元が可能となり、運用・保守の効率が大幅に向上します。

4. その他の新機能

バックアップ製品は継続的に更新されており、常により優れた機能を提供することができます。各製品の新機能を考慮し、最適な製品をお選びください。

参考資料:

[1] 「中国金融産業情報化発展のための第13次5カ年計画(意見募集稿)」

[2] 「中国銀行業情報化発展第13次5カ年計画監督指導(意見募集稿)」

[3] 「金融業界クラウドコンピューティング技術調査報告書」、中国情報通信科学院、2018年3月

[4] https://kb.vmware.com/s/article/2149614

[5] https://kb.vmware.com/s/article/2076678

[6] https://kb.vmware.com/s/article/2078214

[7] https://kb.vmware.com/s/article/2116126

[8] Symantec NetBackup™重複排除ガイド

[9] Symantec NetBackup™ for VMware 管理者ガイド

この記事の著者:Shen Zhixin、主にプライベートクラウドとバックアップシステムの構築と運用保守サポートに従事。 x86 サーバー、さまざまなストレージ アーキテクチャ、VMWARE、NBU、BMC などのプラットフォームの操作、保守、管理に精通しています。

<<:  実践的なヒント: エッジコンピューティングの成功

>>:  次の Kubernetes プロジェクトをアップグレードするための 5 つのオープンソース ツール

推薦する

個人ウェブマスターの解決策: 個人ウェブサイトはニッチ産業の征服を検討できる

インターネットの発展は個人のウェブサイトと切り離せないものですが、インターネットの発展はもはや個人の...

ブランドマーケティングのシーディング方法論!

多くの場合、ブランドが小紅書やDouyinに掲載するコンテンツの露出や閲覧数は数十万、あるいは数百万...

マルチクラウドアーキテクチャ:マルチクラウド環境のシームレスな統合を実現

今日の情報化時代において、クラウドコンピューティングは企業や組織にとって欠かせない技術サポートとなり...

深刻なサーバースペース切断に対処する方法の例

サーバースペースの安定性は非常に重要であり、深刻な切断はウェブサイトの掲載とランキングに直接影響しま...

数学理論の助けを借りてSEOとSMOの違いを分析する

注意深く分析すれば、多くのマーケティング手法が数学理論から特定の結論を導き出せることがわかります。著...

「自動運転でハンドルをなくそう」——イーステクノロジーの実用化への道

「無人運転車ではハンドルが不要になるのか?」この文は少し奇妙に思えます。自動運転車とハンドルは矛盾し...

第4世代検索エンジンの外部リンクを最も効果的にする方法

Baidu Green Radish Algorithm(第4世代の検索と呼んでいます)のリリース後...

クラウドコンピューティングのコストを効果的に管理するための複数の対策

クラウド コンピューティングが新たな標準となり、組織がデジタル ビジネス イニシアチブへと移行するに...

Canalys:米国のクラウドインフラ支出は第1四半期に29%増加

Canalysの最新データによると、米国市場におけるクラウドインフラサービス支出は2021年第1四半...

タオバオシェアリングとWeChatが「相互運用可能」に

朗報です。Taobao からWeChatでアイテムを共有するために、 Taobao パスワードは必要...

電子商取引代理店の運営は沈黙のスパイラルに陥り、リーダーは控えめな態度を取る

電子商取引代理店業界は沈黙のスパイラルに陥りつつある。従来の企業が電子商取引の業務に慣れてきたため、...

クラウドエクスペリエンスを深く解き放ちましょう! Volcano Engine パブリック クラウド シティ共有セッションがクラウドの新たな未来を切り開く

デジタル時代の到来は、業界のクラウド コンピューティング リソースの需要を刺激しただけでなく、クラウ...

2つのQunarウェブサイトがQunarドメイン名をめぐって争い、300万元を要求

12月26日、先週12月22日、北京登録のウェブサイトQunar.comが広東登録のウェブサイトqu...

vortexunit-年払い$12/512mメモリ/10g SSD/1Tトラフィック/Gポート/ダラス

vortexunit は 2009 年に設立された VPS ビジネスで、まったく新しい会社です。主に...

JD CloudとAI:緊急支援を提供するための無料製品とサービスを多数提供し、企業と一般市民の流行との闘いを支援

旧暦の1月6日は、店舗開店の重要な日です。疫病に覆われた春節は、多くのことを中断させました。しかし、...