IBMは、数百億のパラメータを持つモデルを柔軟に展開およびトレーニングするためのクラウドネイティブAIスーパーコンピューターVelaを開発しました。

IBMは、数百億のパラメータを持つモデルを柔軟に展開およびトレーニングするためのクラウドネイティブAIスーパーコンピューターVelaを開発しました。

ChatGPTはインターネット上で人気を博しており、その背後にあるAIモデルのトレーニングも広く注目を集めています。 IBM Research は最近、クラウドネイティブのスーパーコンピューター Vela を迅速に導入し、基本的な AI モデルのトレーニングに使用できると発表しました。 2022年5月以来、同社の何十人もの研究者がこのスーパーコンピューターを使用して、数百億のパラメータを持つAIモデルのトレーニングを行っている。

ベースモデルは、大量のラベルなしデータでトレーニングされた AI モデルであり、その汎用性により、わずかな調整を行うだけでさまざまなタスクに使用できます。これらは非常に大規模に拡張され、膨大で高価な計算能力を必要とします。そのため、専門家が言うように、次世代の大規模基本モデルの開発においてはコンピューティング能力が最大のボトルネックとなり、そのトレーニングには多大なコンピューティング能力と時間が必要になるだろう。

数百億から数千億のパラメータを実行できるモデルのトレーニングには、ネットワーク、並列ファイルシステム、ベアメタルノードなどの高性能コンピューティング ハードウェアが必要です。このハードウェアは導入が難しく、運用コストもかかります。 Microsoft は 2020 年 5 月に OpenAI 向けの AI スーパーコンピューターを構築し、Azure クラウド プラットフォームでホストしました。しかし、これらはハードウェア駆動型であるため、コストが増大し、柔軟性が制限されるとIBMは述べている。

クラウドAIスーパーコンピュータ

そこでIBMは、「特に大規模なAIに焦点を当てた」Velaと呼ばれるシステムを開発した。

Vela は、必要に応じて任意の IBM クラウド データ センターに導入でき、それ自体が「仮想クラウド」です。このアプローチでは、物理的なスーパーコンピューターを構築する場合と比べて計算能力が多少低下しますが、より柔軟なソリューションが作成されます。クラウド コンピューティング ソリューションは、API インターフェースを通じてエンジニアにリソースを提供し、より深い統合のための広範な IBM クラウド エコシステムへの容易なアクセスと、必要に応じてパフォーマンスを拡張する機能を提供します。

IBM のエンジニアは、Vela はカスタム ストレージ バックエンドを構築するのではなく、IBM Cloud Object Storage 上のデータ セットにアクセスできると説明しました。これまでは、このインフラストラクチャをスーパーコンピューターに別途構築する必要がありました。

あらゆる AI スーパーコンピューターの主要コンポーネントは、多数の GPU とそれらを接続するノードです。 Vela は実際には各ノードを(ベアメタル マシンではなく)仮想マシンとして構成します。これは最も一般的な方法であり、AI トレーニングに最も理想的な方法であると広く考えられています。

Vela はどのように構築されていますか?

クラウド仮想コンピュータの欠点の 1 つは、パフォーマンスが保証されないことです。パフォーマンスの低下に対処し、仮想マシン内でベアメタル パフォーマンスを提供するために、IBM のエンジニアは、ノード (GPU、CPU、ネットワーク、ストレージを含む) のパフォーマンスを最大限に引き出し、負荷損失を 5% 未満に抑える方法を見つけました。

これには、仮想化用のベアメタル ホストの構成、VM 拡張機能、ラージ ページ、シングル ルート IO 仮想化のサポート、VM 内のすべてのデバイスと接続のリアルな表現が含まれます。これには、ネットワーク カードを CPU および GPU に一致させること、およびそれらを相互にブリッジする方法も含まれます。作業が完了すると、VM ノードのパフォーマンスが「ベアメタルに近い」ことがわかりました。

さらに、AI トレーニング データ、モデル、完成品をキャッシュするための大容量 GPU メモリと豊富なローカル ストレージを備えた AI ノードの設計にも取り組んでいます。 PyTorch を使用したテストでは、ワークロードの通信パターンを最適化することで、スーパーコンピューティングで使用される Infiniband などの高速ネットワークと比較して、比較的低速なイーサネット ネットワークのボトルネックも補うことができることがわかりました。

構成に関しては、各 Vela は 8 つの 80 GB A100 GPU、2 つの第 2 世代 Intel Xeon スケーラブル プロセッサー、1.5 TB のメモリ、4 つの 3.2 TB NVMe ハード ドライブを使用し、世界中の IBM クラウド データ センターにあらゆる規模で導入できます。

IBMのエンジニアは次のように述べている。「適切なツールとインフラストラクチャを持つことは、研究開発の効率を向上させるための重要な要素です。多くのチームは、AI向けに従来のスーパーコンピューターを構築するという実証済みの方法を選択しています...私たちは、高性能コンピューティングとハイエンドユーザーの生産性という2つの利点を提供する、より優れたソリューションに取り組んできました。」

<<:  エッジコンピューティングの導入を成功させるための 5 つの戦略

>>:  アリババクラウドの孫成浩氏:クラウドネットワーク統合の未来はインテリジェントクラウドネットワークにある

推薦する

業界レビュー: こんにちは、テクノロジーブログは収益を生むのでしょうか?まだ早すぎる

「テクノロジーブログを読んでいますか?」「テクノロジーブログを高く評価していますか?」といった議論が...

モンドーズはどうですか?マレーシアの無制限データ VPS レビュー、Netflix/ネットワーク バックホールのブロック解除に優れたパフォーマンス

マレーシアのサーバープロバイダーmondozeは10年の歴史があると言われています。主にマレーシアの...

あなたにとって、そして私にとって SEO とは何を意味しますか? それは最適化ですか、それとも共有ですか?

正直に言うと、今日では個人のウェブマスターが多すぎます。彼らのうちの 1 人が 1 つまたは 2 つ...

リンク販売で失われたPR価値を回復する方法

ウェブサイトを運営している人なら誰でも、Google の PR 値の役割を知っています。Baidu ...

飛天から易天まで、アリババクラウドの基盤となる自社開発技術が爆発的に成長

10月20日、2021年雲旗カンファレンスにおいて、アリババクラウドはYitian、Panjiu、S...

Youmi.com CEO 王立文氏:人々の競争力の半分は緊急でないことから生まれる

ビジネスを始めるということは、誰も歩んだことのない道を歩むことを意味し、ビジネスを始めるには洞察力、...

ステーション全体の最適化のパフォーマンスと効果

ユーザーから「サイト全体の最適化とは何ですか?料金はどのようにかかりますか?」という問い合わせをよく...

外部リンクに関する個人的な見解についての簡単な議論

私は長年 SEO に携わってきましたが、多くのウェブマスターが私と同じように、外部リンクへの道がます...

Liziqi を「貪っている」のは誰ですか?

Liziqiは「消去」されています。 7月14日、李子奇は主要プラットフォームでビデオ「米、油、塩、...

コンテナ テクノロジーと K8S の次の目的地はどこでしょうか?

コンテナが将来どこに向かっているのか全体像を把握したいのであれば、資金の流れを追跡し、どこに投資され...

タオバオモバイルは12の印刷メディアと提携し、メディア電子商取引の分野をテストするためにタオバオを立ち上げた。

新浪科技は4月1日午前、アリババが本日、タオバオモバイルと全国12の主流新聞社との戦略的提携「馬商淘...

tmhhostはどうですか? 「ロサンゼルス CERA CN2 GIA」シリーズVPSの簡単なレビュー

tmhhostはどうですか? tmhhost のロサンゼルス cera cn2 gia シリーズ v...

「Eastern Data and Western Computing」がクラウド市場の爆発的な成長を加速します。事業者はチャンスを掴むために「3つの軸」に頼る必要がある

国家の新インフラプロジェクト「東データ西コンピューティング」が本格的に始動したことで、わが国のクラウ...

チケット販売サイト向けネットワークチーム構築のリスク評価について

チームのリスク評価は、資金が十分でない場合に実行する必要があるものです。友人の中には、これは不必要だ...

マルチクラウドアーキテクチャを最適化および管理し、効率的にビジネス継続性を確保します。

株式会社銀行の金融技術革新への道現在、モバイルインターネット、デジタル決済、新興銀行の影響を受けて、...