CIO 向けハイパフォーマンス コンピューティング ワークロードをクラウドに移行するためのガイド

CIO 向けハイパフォーマンス コンピューティング ワークロードをクラウドに移行するためのガイド

英国気象庁は、従来とは異なるベンダーの従来型スーパーコンピューター、Azure 上の Cray EX システム 4 台を選択しました。これにより、「スーパーコンピューターの購入に費やす時間が減り、使用に費やす時間が増える」と英国気象庁の IT 研究者 Richard Lawrence 氏は述べています。

これにより、通常の複数年にわたる調達サイクルを省略できるだけでなく、柔軟性も得られ、独自のハードウェアを購入するよりもはるかに早く、将来のハイパフォーマンス コンピューティング (HPC) ワークロードに対してさまざまな選択を行うことが容易になります。市場調査およびアドバイザリ企業の Gartner は、HPC をクラウドに移行することで、データ分析を処理する社内のサイロから脱却し、20 年以上も続いている慣行を近代化する機会が得られる可能性があると示唆しています。

クラウド HPC の利点と欠点

パブリック クラウド プロバイダーが Cray ハードウェアへのアクセスを提供できるということは、パブリック クラウド プロバイダーが HPC ユーザーの中でも最も要求の厳しいセグメントのニーズを理解しているという信頼性を与えることになります。しかし、これはクラウド HPC の利点への足がかりにもなります。クラウド HPC では、Linux サーバーのクラスターを使用して、要求の厳しいスケールアウトされたワークロードを処理しますが、柔軟性、俊敏性、参入障壁の低さなど、クラウドのより一般的な利点も備えています。

「最も重要なのは、同種のインフラストラクチャではなく異種のインフラストラクチャを選択できることだ」とフォレスター社のシニアアナリスト、トレイシー・ウー氏はブルームバーグに語った。 「HPC インフラストラクチャのコストが高いため、ほとんどの購入者は契約を交渉できるように単一のブランドを選択し、その構成が適切かどうかに関係なく、すべてのワークロードをそのブランドで実行する必要があります。特に必要なものでなくても、持っているものを使用します。パブリック クラウドを使用すると、特定のユース ケースを満たすために必要なすべてのインフラストラクチャ オプションを利用できます。」

Cloud HPC を使用すると、高速 CPU と GPU、高密度コア数、高メモリ コアを備えた、使い慣れた Intel および AMD プロセッサと低価格の Arm プロセッサを組み合わせて提供し、アプリケーションのニーズを正確に指定できます。また、ほとんどの組織には予算や専門知識がないハードウェア アクセラレータも利用できるため、すぐに実験することが容易になります。

「インフラ設備に数十万ドル、場合によっては数百万ドルを費やす代わりに、クレジットカードだけを使用して、HPC を必要とする計算や特定の分析を数時間で実行できます」と Woo 氏は指摘します。また、各ワークロードや各タスクに適したインフラストラクチャを選択したり、次の更新サイクルを待たずに、新しいハードウェアが市場に登場するとすぐにベンチマークしたりすることもできます。

しかし、この柔軟性は混乱を招く可能性もあり、ウー氏は複数の選択肢が「分析麻痺」を引き起こす可能性があると警告している。組織がこうした選択を行うのを支援するツールとプラットフォームの業界が出現しています。

Nvidia の HPC および量子製品担当ディレクターの Timothy Costa 氏もこれに同意し、次のように述べています。「管理者には選択の自由度が非常に高いものの、選択したクラウド ベンダーの独自のアーキテクチャを深く理解する必要もあります。たとえば、高速ネットワーク上でさまざまなコンピューティング ハードウェアを組み合わせてインフラストラクチャ設計を最適化することはできますが、すべての種類のハードウェアがすべての地域で利用できるわけではありません。」

クラウド コンピューティングに適した HPC ワークロードを特定する

Hyperion Research によると、クラウドで実行される HPC ワークロードの割合は 2019 年に 10% から 20% に倍増しました。 Gartner は、クラウド HPC を、主流として採用されるまでにわずか 2 ~ 5 年しかかからない高収益オプションとしてランク付けしています。

製造業とライフサイエンスは、HPC をクラウドに移行した最初の業界であり、最も急速に成長しているサブマーケットであり続けています。コスタ氏は、これらのワークロードは「個々のタスクの失敗に対する許容度が高く、実行の局所性要件が低い、高度に並列化されたコードまたは作業の組み合わせ」である傾向があると述べた。同氏は、金融、気象学、航空宇宙、政府の研究所、そして高等教育機関でもクラウド HPC の利用が増えていると述べた。

クラウド HPC は、パフォーマンスとコストの関係が絶対的な実行時間よりも重要であり、コストを最小限に抑えるためにクラウド インフラストラクチャの設定に時間を費やすことができる一部のロングテール HPC ワークロード (またはオンプレミスで利用できないハードウェアで実行することで大きなメリットが得られるコード) に特に適しています。

クラウド コンピューティング IaaS 用に構築された一部のハイパースケール データ センターでは、HPC スーパーコンピューターとは異なる最適化対策が優先されます。ハイパースケール データ センターでは、回復力とフェイルオーバーを実現するために仮想マシンをデータ センター全体に分散しますが、HPC では、パフォーマンスを向上させるために最速のネットワーク接続を実現するために仮想マシンを緊密にグループ化します。コスタ氏は、クラウド HPC は疎結合で非常に並列化されたワークロードに最適であり、クラウド ネットワーキングは「コンポーザブル ワークロードやパラメータ スイープなどの HPC ワークロードのニーズを容易に満たす」と述べました。

仮想化されたパフォーマンスは、ベアメタル HPC に慣れている人には馴染みがないかもしれませんが、2021 年 11 月のトップ 500 リストでは、Azure 上に構築された仮想スーパーコンピューターが、すべて Hyper-V ベースの仮想マシンを使用した世界最速マシンのトップ 10 にランクインしました。 Google Cloud の主任 HPC テクノロジストである Bill Magro 氏は、次のように述べています。「クラウド内のコンピューティング最適化 VM はベアメタルに近い低ジッターのパフォーマンスを提供し、クラウド ネットワークは 200Gbs を超える帯域幅と 10µs 未満のレイテンシを提供でき、並列ファイル システムはテラバイト単位のデータ速度を提供できます。」

一般的なワークロードは次のとおりです。

  • コンピュータ支援エンジニアリング(流体力学、燃焼、衝突安全性、構造力学など)
  • 電子設計自動化
  • 計算物理学と化学
  • 特殊効果レンダリング
  • 定量分析
  • リスク分析

クラウドアーキテクチャのオプションを調べる

一部のワークロードでは、一貫して低レイテンシの高性能相互接続が必要ですが、これは従来のクラウド コンピューティングでは珍しいことです。クラウド プロバイダーがこれらを提供していない場合は、独自のインフラストラクチャを使用する方が高性能な相互接続に適していると Woo 氏はアドバイスします。ただし、AI とクラウド ゲームのワークロードはどちらも高速相互接続の恩恵を受けるため、クラウドでは高速ファブリックが登場し始めています。 Azure は、すべての H シリーズ クラスター (CPU ベースの HPC 用) とほとんどの N シリーズ クラスター (GPU ベースの HPC 用) で使い慣れた HPC InfiniBand 相互接続を提供し、Lustre 並列ファイル システムには AWS Elastic Fabric Adapter が使用されます。

AWS は最近、InfiniBand の代替としてカスタム Nitro ネットワーク アダプタで使用するために設計された新しいネットワーク トランスポート プロトコルを使用して、独自の Elastic Network Adapter を拡張し始めました。Elastic Network Adapter Express は、TCP の代わりに Scalable Reliable Datagram (SRD) を使用して、マルチテナント データセンターの多数のネットワーク パスを制限ではなく利点に変えようとしています。

「ネットワーク インフラストラクチャはクラウド HPC の妨げとなっており、ボトルネックになっています。そのため、ハイパースケーラーは現在、この点に重点を置いています」と Woo 氏は語ります。

HPC クラウドのコストを理解するための鍵

クラウド HPC の場合、必要なものだけを使用 (および支払い) しますが、少し余分に支払う場合があります。クラウド HPC のコストは独自のインフラストラクチャを実行する場合の 5 倍になるという推定もありますが、予約済みインスタンスまたはアイドル インスタンスを使用すると、コストは他のオプションとほぼ同等に下がります。

コスタ氏も同意し、「クラウドの柔軟性は全体的なコストを最小限に抑えるのに役立ちますが、クラウドでホストされるリソースの絶対的な単位コストはオンプレミスのリソースよりも高くなります。」つまり、長時間実行される HPC ワークロードは、リソースを最大限に活用できるオンプレミスのリソースに配置するのが合理的です。一方、Incredibuild の CTO である Dori Exterman 氏は、「小さなフットプリントで大容量を必要とする、頻繁に実行されないワークロードは、オンプレミス環境を構築するよりもクラウドの方がはるかに安価になる可能性がある」と考えています。

HPC クラウド自動化プラットフォーム Rescale は、多くの組織が Rescale ベンチマークを使用して、最も適切なクラウド ハードウェアを選択し、パフォーマンスを向上させ、ワークロードのコストを削減できることを示唆しています。ワークロードに最適なクラウドはすぐに変わる可能性がありますが、オプションに注意を払っていれば柔軟に切り替えることもできます。

何らかの課金慣行を実装していないか、明確なリソース使用ポリシーがない限り、HPC ユーザーはオンプレミス インフラストラクチャが事実上無料であると考えたり、ワークロードの実行時間や必要なインスタンスの数を見積もるのが困難になる可能性があります。これらの習慣をクラウド HPC に引き継ぐには多大なコストがかかる可能性があるため、ワークロードの予算をどのように組むかについて明確なポリシーとガイドラインが必要です。

クラウド HPC は、通常、リソース管理キューに長時間留まる小規模な HPC タスクのオフロードに特に役立ちます。これは、大規模で長時間実行されるタスクは通常、多くのリソースを消費し、HPC インフラストラクチャがこれらのタスクによって占有されることが多いためです。これは利用率と ROI の点では素晴らしいことですが、タスクを時間どおりに完了したり、より大規模で複雑なシミュレーションを実行してより良い結果を得たりするのに役立つ HPC インフラストラクチャの使用を待っているチームにとってはイライラするものです。

クラウド内のハイブリッド HPC にバースト モード アプローチを採用する場合は、どのワークロードをいつクラウドに移行するかを決定するためのフレームワークを開発します。

たとえば、Hyperion Research のクラウド アプリケーション評価ツールは、さまざまなワークロードにスコアを付け、クラウドでの実行に適しているかどうかを評価できます。

データの重力とデータエクスポートのコストを考慮する

また、データの重力とデータのエクスポートのコストも考慮する必要があります。データがオンプレミスで生成される場合は、データをクラウドに移行する方法を計画する必要があります。 HPC ジョブでペタバイト単位のデータが生成される場合は、結果を得るために追加料金を支払わないように、後続の処理や分析をクラウドで実行することを検討してください。 「ストレージコストはクラウド料金の中で驚くほど大きな割合を占める可能性がある」とコスタ氏は指摘する。

クラウド リソースを使用するには、適切なコスト管理と FinOps ツールが必要です。これは、請求額が非常に高額になる可能性があり、インフラストラクチャの選択を少し変更するだけで多額の費用を節約できるクラウド HPC の場合、さらに重要です。

しかし、クラウドコンピューティングは主にコスト削減が目的ではないとウー氏は指摘した。 「それは、能力を拡大する能力、俊敏性、そしてこれらすべてのさまざまなサービスを使用する能力に関するものです。」これは、より早く結果を得ること、同じ時間内により多くのシミュレーションを実行してより良い結果を得ること、あるいは単に IT チームと HPC ユーザーの生産性を向上させることを意味する可能性があります。

コスタ氏は、「HPC は通常、IP 開発の主なツールであるため、HPC をオフラインにすることはできません。クラウドでは、バックアップ、移行、地域フェイルオーバーをすべて組み込むことができます」と指摘しました。

クラウドライセンスの考慮事項

クラウド ライセンスは、次のような使い慣れた HPC ソフトウェアを使用して管理できます。

  • コンパイラ、ジョブ送信ツール、スケジューラ (Altair PBSPro、SchedMD Slurm、IBM Platform LSF、Altair GridEngine、HT Condor など)。
  • 管理および監視ツール
  • オペレーティングシステム、アプリケーション、メッセージング、数学ライブラリ
  • NVIDIA Bright Cluster ManagerやCloud OpenHPCなどのツールなどの完全なソリューション

Magro 氏は、「HPC ユーザー (通常は科学者、エンジニア、クオンツ、アーティスト) は、同じオンプレミスのアプリケーションとインターフェースを使用してクラウド HPC システムにアクセスします」と述べています。同氏は、「低レベルの物理プラットフォーム インターフェイス (IPMI、Redfish、vPro など) に依存する管理ツールは、ツールの作成者が関連する機能を明示的に有効にしない限り、通常はクラウド リソースと互換性がありません」と警告しました。しかし、彼は、Nagios などの代替手段をクラウドで使用できると指摘しました。

FinOps ツールが期待に沿わない可能性がある領域は次のとおりです。すでに所有しているソフトウェア ライセンスを管理し、それをクラウドで使用したい場合、オンプレミス ライセンスを扱う ITAM チームにはクラウドの専門知識が不足していることがよくあります。

「自分のライセンスを持ち込む」ことでクラウド HPC のコストを節約できる場合があります。また、ソフトウェア ベンダーがクラウド向けに異なるライセンス モデルを提供している場合もあります。これは難しい領域だと彼女は警告した。たとえば、Oracle はパブリック クラウド外での運用を非常に困難にしていることで知られています。

スキルギャップも考慮する必要があります。 「パブリック クラウドを理解している人を雇うのも大変ですが、ハイ パフォーマンス コンピューティングとパブリック クラウドを理解している人を雇うのはさらに困難です。」

従来とは異なるHPCの探求

しかし、クラウド HPC はスタックのもう少し上位に移動する機会にもなり得ます。

Google の HPC Cloud Toolkit などのクラウド HPC サービスは、Terraform、Ansible、Packer などの使い慣れたクラウド ツールによって定義されたインフラストラクチャを使用して、一般的なワークロードの青写真を提供します。

シミュレーションは典型的な HPC ワークロードであり、AWS SimSpace Weaver、Siemens Simcenter Cloud HPC (従来の HPC ソフトウェアを AWS 上でサービスとして実行)、Microsoft の Project AirSim (自律航空機の構築、トレーニング、テスト用) などのクラウド サービスによってシミュレーションが容易になり、インフラストラクチャを直接構成および管理することなく、十分な規模でシミュレーションを実行できます。

もう 1 つのオプションは、API を呼び出すか、コンテナーまたはサーバーレス プラットフォームを使用してコンピューティングを分散およびオーケストレーションするかに関係なく、HPC をネイティブ クラウド サービスで置き換えるか、補完することです。米国のサンディエゴ スーパーコンピュータ センターは、Google Kubernetes Engine のアイドル状態の仮想マシンで GPU 共有を使用して、南極の IceCube ニ​​ュートリノ観測所での光子コードの動作を高速化しています。

予測や高度な分析などの AI ワークロードの場合、新しい OpenAI モデルを含む Azure Cognitive Services などの事前構築済みだがカスタマイズ可能なオプションを使用して API を呼び出すことで、HPC インフラストラクチャがなくても同様のレベルの分析情報を得ることができます。

Red Hat のチーフ ソリューション アーキテクトである James Read 氏は、データ駆動型の大規模な意思決定に使用される人工知能ワークロードには複雑な統合要件があり、エンタープライズ アプリケーションと並行して導入されることが多いと指摘しました。 「これにより、従来のベアメタル展開からコンテナベースのKubernetesオーケストレーションされたハイブリッドクラウドプラットフォームへの移行が促進され、エッジとクラウドにHPCソリューションを展開できるようになりました。」

これらのクラウド サービスを既存の HPC ソリューションの補足として使用している場合、このタイプのワークロードをクラウドに移行すると統合が簡素化されます。

<<:  大規模エンタープライズクラウド移行における4つの重要な問題と解決策

>>:  Kubernetes Podの排除に関する詳細な説明

推薦する

日刊トピック:父を頼りにするアリババの動画業界参入は、動画業界の様相を変えることができるのか?

A5ウェブマスターネットワーク(www.admin5.com)は4月30日、アリババが最近とても忙し...

racknerd: 専用サーバー、月額 30 ドル、e3-1270v6/32gDDR4/1t SSD/1Gbps 帯域幅、ロサンゼルス データ センター、Alipay 対応

Racknerd の最新の専用サーバー プロモーションでは、クーポン コードを使用すると毎月 30 ...

VeryCD はすべての共有リソースリンクを削除し、eMule は変革の過程にある可能性があります

最近、多くのネットユーザーが、いつも利用しているダウンロード Web サイト VeryCD のすべて...

クラウド事業の収益を偽造したとして、何社の企業が関与することになるのでしょうか?

先月、主要メーカーの業績報告が発表されましたが、その中でも特に目を引いたのはクラウド事業の急成長で、...

#送钱Linode-17ドルを送るための最新の割引コード

聖パトリックデーを祝して、Linode は 17 ドルのアカウント クレジットが付与される割引コード...

マーケティングとは何ですか?消費者の「欲」をつかみ、「良い」商品を見せる

ブログを閉鎖して再開してから、長い間ブログを書いていませんでした。一方で、Web サイトの構築テクニ...

知乎の第2カーブは職業教育に依存しているのでしょうか?

ユーザートラフィックがピークに達し、ビジネス市場が飽和状態になる中、「大航海時代」を生き抜いてきたイ...

Terraform を使用してマルチクラウドを管理する方法を学びますか?

[51CTO.com クイック翻訳] マルチクラウド戦略は、企業の IT チームに多くの複雑さをもた...

ウェブマスターがBaidu K-stationを心配する理由の分析

K-station事件を経験した後、ほとんどのウェブマスターはBaiduの自然なランキングに疑問を抱...

SimpleNode: ダラス ストレージ VPS、月額 5 ドル、KVM/1G メモリ/1 コア/500g ハード ドライブ/1T トラフィック

SimpleNode をまだ覚えていますか?ニュージーランドに登録された会社。2000年に設立された...

Salesforce、Oracle、IBMの三角関係

「永遠の友も永遠の敵も存在しない。あるのは永遠の利益だけだ。」元英国首相パーマストン氏のこの発言は多...

開始から1年で、健康コードの表示累計数は240億を超え、健康コードは日常の移動に重要な電子証明書となっている。

テンセントは2月7日、テンセントの防疫・健康規範1年間の報告書を発表した。データによると、過去1年間...

世界の医療クラウドコンピューティング市場規模は2026年に768億ドルに達すると予想されている

11月29日、市場調査会社ResearchAndMarketsが発表した最新のレポートによると、ヘル...

グレープシティは2018年のマイクロソフトテクノロジー&エコシステムカンファレンスに登場し、「開発者を支援する」という使命を果たし続けています。

2018年マイクロソフトテクノロジー&エコシステムカンファレンス(マイクロソフトテックサミット201...