CIO 向けハイパフォーマンス コンピューティング ワークロードをクラウドに移行するためのガイド

CIO 向けハイパフォーマンス コンピューティング ワークロードをクラウドに移行するためのガイド

英国気象庁は、従来とは異なるベンダーの従来型スーパーコンピューター、Azure 上の Cray EX システム 4 台を選択しました。これにより、「スーパーコンピューターの購入に費やす時間が減り、使用に費やす時間が増える」と英国気象庁の IT 研究者 Richard Lawrence 氏は述べています。

これにより、通常の複数年にわたる調達サイクルを省略できるだけでなく、柔軟性も得られ、独自のハードウェアを購入するよりもはるかに早く、将来のハイパフォーマンス コンピューティング (HPC) ワークロードに対してさまざまな選択を行うことが容易になります。市場調査およびアドバイザリ企業の Gartner は、HPC をクラウドに移行することで、データ分析を処理する社内のサイロから脱却し、20 年以上も続いている慣行を近代化する機会が得られる可能性があると示唆しています。

クラウド HPC の利点と欠点

パブリック クラウド プロバイダーが Cray ハードウェアへのアクセスを提供できるということは、パブリック クラウド プロバイダーが HPC ユーザーの中でも最も要求の厳しいセグメントのニーズを理解しているという信頼性を与えることになります。しかし、これはクラウド HPC の利点への足がかりにもなります。クラウド HPC では、Linux サーバーのクラスターを使用して、要求の厳しいスケールアウトされたワークロードを処理しますが、柔軟性、俊敏性、参入障壁の低さなど、クラウドのより一般的な利点も備えています。

「最も重要なのは、同種のインフラストラクチャではなく異種のインフラストラクチャを選択できることだ」とフォレスター社のシニアアナリスト、トレイシー・ウー氏はブルームバーグに語った。 「HPC インフラストラクチャのコストが高いため、ほとんどの購入者は契約を交渉できるように単一のブランドを選択し、その構成が適切かどうかに関係なく、すべてのワークロードをそのブランドで実行する必要があります。特に必要なものでなくても、持っているものを使用します。パブリック クラウドを使用すると、特定のユース ケースを満たすために必要なすべてのインフラストラクチャ オプションを利用できます。」

Cloud HPC を使用すると、高速 CPU と GPU、高密度コア数、高メモリ コアを備えた、使い慣れた Intel および AMD プロセッサと低価格の Arm プロセッサを組み合わせて提供し、アプリケーションのニーズを正確に指定できます。また、ほとんどの組織には予算や専門知識がないハードウェア アクセラレータも利用できるため、すぐに実験することが容易になります。

「インフラ設備に数十万ドル、場合によっては数百万ドルを費やす代わりに、クレジットカードだけを使用して、HPC を必要とする計算や特定の分析を数時間で実行できます」と Woo 氏は指摘します。また、各ワークロードや各タスクに適したインフラストラクチャを選択したり、次の更新サイクルを待たずに、新しいハードウェアが市場に登場するとすぐにベンチマークしたりすることもできます。

しかし、この柔軟性は混乱を招く可能性もあり、ウー氏は複数の選択肢が「分析麻痺」を引き起こす可能性があると警告している。組織がこうした選択を行うのを支援するツールとプラットフォームの業界が出現しています。

Nvidia の HPC および量子製品担当ディレクターの Timothy Costa 氏もこれに同意し、次のように述べています。「管理者には選択の自由度が非常に高いものの、選択したクラウド ベンダーの独自のアーキテクチャを深く理解する必要もあります。たとえば、高速ネットワーク上でさまざまなコンピューティング ハードウェアを組み合わせてインフラストラクチャ設計を最適化することはできますが、すべての種類のハードウェアがすべての地域で利用できるわけではありません。」

クラウド コンピューティングに適した HPC ワークロードを特定する

Hyperion Research によると、クラウドで実行される HPC ワークロードの割合は 2019 年に 10% から 20% に倍増しました。 Gartner は、クラウド HPC を、主流として採用されるまでにわずか 2 ~ 5 年しかかからない高収益オプションとしてランク付けしています。

製造業とライフサイエンスは、HPC をクラウドに移行した最初の業界であり、最も急速に成長しているサブマーケットであり続けています。コスタ氏は、これらのワークロードは「個々のタスクの失敗に対する許容度が高く、実行の局所性要件が低い、高度に並列化されたコードまたは作業の組み合わせ」である傾向があると述べた。同氏は、金融、気象学、航空宇宙、政府の研究所、そして高等教育機関でもクラウド HPC の利用が増えていると述べた。

クラウド HPC は、パフォーマンスとコストの関係が絶対的な実行時間よりも重要であり、コストを最小限に抑えるためにクラウド インフラストラクチャの設定に時間を費やすことができる一部のロングテール HPC ワークロード (またはオンプレミスで利用できないハードウェアで実行することで大きなメリットが得られるコード) に特に適しています。

クラウド コンピューティング IaaS 用に構築された一部のハイパースケール データ センターでは、HPC スーパーコンピューターとは異なる最適化対策が優先されます。ハイパースケール データ センターでは、回復力とフェイルオーバーを実現するために仮想マシンをデータ センター全体に分散しますが、HPC では、パフォーマンスを向上させるために最速のネットワーク接続を実現するために仮想マシンを緊密にグループ化します。コスタ氏は、クラウド HPC は疎結合で非常に並列化されたワークロードに最適であり、クラウド ネットワーキングは「コンポーザブル ワークロードやパラメータ スイープなどの HPC ワークロードのニーズを容易に満たす」と述べました。

仮想化されたパフォーマンスは、ベアメタル HPC に慣れている人には馴染みがないかもしれませんが、2021 年 11 月のトップ 500 リストでは、Azure 上に構築された仮想スーパーコンピューターが、すべて Hyper-V ベースの仮想マシンを使用した世界最速マシンのトップ 10 にランクインしました。 Google Cloud の主任 HPC テクノロジストである Bill Magro 氏は、次のように述べています。「クラウド内のコンピューティング最適化 VM はベアメタルに近い低ジッターのパフォーマンスを提供し、クラウド ネットワークは 200Gbs を超える帯域幅と 10µs 未満のレイテンシを提供でき、並列ファイル システムはテラバイト単位のデータ速度を提供できます。」

一般的なワークロードは次のとおりです。

  • コンピュータ支援エンジニアリング(流体力学、燃焼、衝突安全性、構造力学など)
  • 電子設計自動化
  • 計算物理学と化学
  • 特殊効果レンダリング
  • 定量分析
  • リスク分析

クラウドアーキテクチャのオプションを調べる

一部のワークロードでは、一貫して低レイテンシの高性能相互接続が必要ですが、これは従来のクラウド コンピューティングでは珍しいことです。クラウド プロバイダーがこれらを提供していない場合は、独自のインフラストラクチャを使用する方が高性能な相互接続に適していると Woo 氏はアドバイスします。ただし、AI とクラウド ゲームのワークロードはどちらも高速相互接続の恩恵を受けるため、クラウドでは高速ファブリックが登場し始めています。 Azure は、すべての H シリーズ クラスター (CPU ベースの HPC 用) とほとんどの N シリーズ クラスター (GPU ベースの HPC 用) で使い慣れた HPC InfiniBand 相互接続を提供し、Lustre 並列ファイル システムには AWS Elastic Fabric Adapter が使用されます。

AWS は最近、InfiniBand の代替としてカスタム Nitro ネットワーク アダプタで使用するために設計された新しいネットワーク トランスポート プロトコルを使用して、独自の Elastic Network Adapter を拡張し始めました。Elastic Network Adapter Express は、TCP の代わりに Scalable Reliable Datagram (SRD) を使用して、マルチテナント データセンターの多数のネットワーク パスを制限ではなく利点に変えようとしています。

「ネットワーク インフラストラクチャはクラウド HPC の妨げとなっており、ボトルネックになっています。そのため、ハイパースケーラーは現在、この点に重点を置いています」と Woo 氏は語ります。

HPC クラウドのコストを理解するための鍵

クラウド HPC の場合、必要なものだけを使用 (および支払い) しますが、少し余分に支払う場合があります。クラウド HPC のコストは独自のインフラストラクチャを実行する場合の 5 倍になるという推定もありますが、予約済みインスタンスまたはアイドル インスタンスを使用すると、コストは他のオプションとほぼ同等に下がります。

コスタ氏も同意し、「クラウドの柔軟性は全体的なコストを最小限に抑えるのに役立ちますが、クラウドでホストされるリソースの絶対的な単位コストはオンプレミスのリソースよりも高くなります。」つまり、長時間実行される HPC ワークロードは、リソースを最大限に活用できるオンプレミスのリソースに配置するのが合理的です。一方、Incredibuild の CTO である Dori Exterman 氏は、「小さなフットプリントで大容量を必要とする、頻繁に実行されないワークロードは、オンプレミス環境を構築するよりもクラウドの方がはるかに安価になる可能性がある」と考えています。

HPC クラウド自動化プラットフォーム Rescale は、多くの組織が Rescale ベンチマークを使用して、最も適切なクラウド ハードウェアを選択し、パフォーマンスを向上させ、ワークロードのコストを削減できることを示唆しています。ワークロードに最適なクラウドはすぐに変わる可能性がありますが、オプションに注意を払っていれば柔軟に切り替えることもできます。

何らかの課金慣行を実装していないか、明確なリソース使用ポリシーがない限り、HPC ユーザーはオンプレミス インフラストラクチャが事実上無料であると考えたり、ワークロードの実行時間や必要なインスタンスの数を見積もるのが困難になる可能性があります。これらの習慣をクラウド HPC に引き継ぐには多大なコストがかかる可能性があるため、ワークロードの予算をどのように組むかについて明確なポリシーとガイドラインが必要です。

クラウド HPC は、通常、リソース管理キューに長時間留まる小規模な HPC タスクのオフロードに特に役立ちます。これは、大規模で長時間実行されるタスクは通常、多くのリソースを消費し、HPC インフラストラクチャがこれらのタスクによって占有されることが多いためです。これは利用率と ROI の点では素晴らしいことですが、タスクを時間どおりに完了したり、より大規模で複雑なシミュレーションを実行してより良い結果を得たりするのに役立つ HPC インフラストラクチャの使用を待っているチームにとってはイライラするものです。

クラウド内のハイブリッド HPC にバースト モード アプローチを採用する場合は、どのワークロードをいつクラウドに移行するかを決定するためのフレームワークを開発します。

たとえば、Hyperion Research のクラウド アプリケーション評価ツールは、さまざまなワークロードにスコアを付け、クラウドでの実行に適しているかどうかを評価できます。

データの重力とデータエクスポートのコストを考慮する

また、データの重力とデータのエクスポートのコストも考慮する必要があります。データがオンプレミスで生成される場合は、データをクラウドに移行する方法を計画する必要があります。 HPC ジョブでペタバイト単位のデータが生成される場合は、結果を得るために追加料金を支払わないように、後続の処理や分析をクラウドで実行することを検討してください。 「ストレージコストはクラウド料金の中で驚くほど大きな割合を占める可能性がある」とコスタ氏は指摘する。

クラウド リソースを使用するには、適切なコスト管理と FinOps ツールが必要です。これは、請求額が非常に高額になる可能性があり、インフラストラクチャの選択を少し変更するだけで多額の費用を節約できるクラウド HPC の場合、さらに重要です。

しかし、クラウドコンピューティングは主にコスト削減が目的ではないとウー氏は指摘した。 「それは、能力を拡大する能力、俊敏性、そしてこれらすべてのさまざまなサービスを使用する能力に関するものです。」これは、より早く結果を得ること、同じ時間内により多くのシミュレーションを実行してより良い結果を得ること、あるいは単に IT チームと HPC ユーザーの生産性を向上させることを意味する可能性があります。

コスタ氏は、「HPC は通常、IP 開発の主なツールであるため、HPC をオフラインにすることはできません。クラウドでは、バックアップ、移行、地域フェイルオーバーをすべて組み込むことができます」と指摘しました。

クラウドライセンスの考慮事項

クラウド ライセンスは、次のような使い慣れた HPC ソフトウェアを使用して管理できます。

  • コンパイラ、ジョブ送信ツール、スケジューラ (Altair PBSPro、SchedMD Slurm、IBM Platform LSF、Altair GridEngine、HT Condor など)。
  • 管理および監視ツール
  • オペレーティングシステム、アプリケーション、メッセージング、数学ライブラリ
  • NVIDIA Bright Cluster ManagerやCloud OpenHPCなどのツールなどの完全なソリューション

Magro 氏は、「HPC ユーザー (通常は科学者、エンジニア、クオンツ、アーティスト) は、同じオンプレミスのアプリケーションとインターフェースを使用してクラウド HPC システムにアクセスします」と述べています。同氏は、「低レベルの物理プラットフォーム インターフェイス (IPMI、Redfish、vPro など) に依存する管理ツールは、ツールの作成者が関連する機能を明示的に有効にしない限り、通常はクラウド リソースと互換性がありません」と警告しました。しかし、彼は、Nagios などの代替手段をクラウドで使用できると指摘しました。

FinOps ツールが期待に沿わない可能性がある領域は次のとおりです。すでに所有しているソフトウェア ライセンスを管理し、それをクラウドで使用したい場合、オンプレミス ライセンスを扱う ITAM チームにはクラウドの専門知識が不足していることがよくあります。

「自分のライセンスを持ち込む」ことでクラウド HPC のコストを節約できる場合があります。また、ソフトウェア ベンダーがクラウド向けに異なるライセンス モデルを提供している場合もあります。これは難しい領域だと彼女は警告した。たとえば、Oracle はパブリック クラウド外での運用を非常に困難にしていることで知られています。

スキルギャップも考慮する必要があります。 「パブリック クラウドを理解している人を雇うのも大変ですが、ハイ パフォーマンス コンピューティングとパブリック クラウドを理解している人を雇うのはさらに困難です。」

従来とは異なるHPCの探求

しかし、クラウド HPC はスタックのもう少し上位に移動する機会にもなり得ます。

Google の HPC Cloud Toolkit などのクラウド HPC サービスは、Terraform、Ansible、Packer などの使い慣れたクラウド ツールによって定義されたインフラストラクチャを使用して、一般的なワークロードの青写真を提供します。

シミュレーションは典型的な HPC ワークロードであり、AWS SimSpace Weaver、Siemens Simcenter Cloud HPC (従来の HPC ソフトウェアを AWS 上でサービスとして実行)、Microsoft の Project AirSim (自律航空機の構築、トレーニング、テスト用) などのクラウド サービスによってシミュレーションが容易になり、インフラストラクチャを直接構成および管理することなく、十分な規模でシミュレーションを実行できます。

もう 1 つのオプションは、API を呼び出すか、コンテナーまたはサーバーレス プラットフォームを使用してコンピューティングを分散およびオーケストレーションするかに関係なく、HPC をネイティブ クラウド サービスで置き換えるか、補完することです。米国のサンディエゴ スーパーコンピュータ センターは、Google Kubernetes Engine のアイドル状態の仮想マシンで GPU 共有を使用して、南極の IceCube ニ​​ュートリノ観測所での光子コードの動作を高速化しています。

予測や高度な分析などの AI ワークロードの場合、新しい OpenAI モデルを含む Azure Cognitive Services などの事前構築済みだがカスタマイズ可能なオプションを使用して API を呼び出すことで、HPC インフラストラクチャがなくても同様のレベルの分析情報を得ることができます。

Red Hat のチーフ ソリューション アーキテクトである James Read 氏は、データ駆動型の大規模な意思決定に使用される人工知能ワークロードには複雑な統合要件があり、エンタープライズ アプリケーションと並行して導入されることが多いと指摘しました。 「これにより、従来のベアメタル展開からコンテナベースのKubernetesオーケストレーションされたハイブリッドクラウドプラットフォームへの移行が促進され、エッジとクラウドにHPCソリューションを展開できるようになりました。」

これらのクラウド サービスを既存の HPC ソリューションの補足として使用している場合、このタイプのワークロードをクラウドに移行すると統合が簡素化されます。

<<:  大規模エンタープライズクラウド移行における4つの重要な問題と解決策

>>:  Kubernetes Podの排除に関する詳細な説明

推薦する

Oracle、Oracle Autonomous Transaction Processingを発表

オラクルの会長兼 CTO ラリー・エリソンは本日、Oracle Autonomous Transac...

Mituoウェブサイト画像クリーニングツールアプリケーションがオンラインでリリースされました

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますソフトウェ...

テンセントクラウドとソウル観光体育局がスマート観光プラットフォームの構築で協力

テンセントクラウドは5月18日、韓国ソウル観光体育局との提携を発表した。 Tencent Cloud...

モバイル エッジ コンピューティングと 5G の利点は何ですか?

5G の高速性と低遅延性をエッジ コンピューティングの処理能力と組み合わせることで、IoT とモバイ...

統合インターネットマーケティング計画: 企業のウェブサイトマーケティングに不可欠なウェブサイトコンテンツ

ウェブサイトマーケティングは、企業がオンラインマーケティングを実施するための重要な方法であり、オンラ...

Zhihuの自社運営eコマースがスタート!

今年春のナスダック上場以来、設立10周年を迎えた知乎は新たな章を開き、この中国最大のインターネット質...

クラウドコンピューティングベンダーはアップグレードの転換点を迎えており、エッジコンピューティングの導入が決定的な要因となる可能性がある。

さまざまなアプリケーションにおける総合的なインテリジェンスのトレンドにより、クラウド コンピューティ...

digital-vm: シンガポールの 10Gbps 帯域幅 VPS レビュー、月間 20T トラフィック、データ更新予定

digital-vm の日本のデータセンターで 10Gbps 帯域幅の VPS をテストした後 (d...

米国の無制限トラフィックサーバー:dedipath、月額39ドルから、e3-1240v2/16gメモリ/2Tハードディスク/5IP/1Gbps無制限トラフィック/20G防御

dedipath は、米国サーバー向けに特別プロモーションを実施しており、月額 39 ドルという低価...

2019 APP トラフィック価値評価レポート

2019 APP トラフィック価値評価レポート 2019 APP トラフィック価値評価レポート..著...

簡単な分析:SEOをうまくやりたいなら、まず義母とうまく付き合う必要がある

ご存知のとおり、SEO はキーワードのランキングを向上させ、ターゲット トラフィックを追求し、最終的...

アメリカ西海岸サンタクララのVPSをレビュー。不人気商人カマテラが経営。

約 1 週間前、香港で 1Gbps 帯域幅の Kamatera の VPS をテストしました。価格が...

2023 年の成長を牽引する 5 つの主要なデジタル トレンド

今日、あらゆる業界の企業は、厳しい労働環境と予測不可能な経済情勢の中で繁栄するために、大きな課題に直...

広東省最大の政府ウェブサイトハッキングと偽造事件の判決:金額は3億ドルに達する

昨日午後、広東省掲陽市栄成区人民法院は、政府ウェブサイトへの侵入と国家機関文書偽造にかかわる国内の重...