クラウド ネイティブは、大規模モデルの「コスト削減と効率性の向上」に対する解毒剤となるのでしょうか?

クラウド ネイティブは、大規模モデルの「コスト削減と効率性の向上」に対する解毒剤となるのでしょうか?

過去 1 ~ 2 年で、GPT や拡散モデルに代表される大規模言語モデルと生成 AI は、AI に対する人々の期待を新たな高みに押し上げ、何千もの業界が大規模モデルをビジネスに活用しようとするようになりました。

国内の大手メーカーは、文心大型モデル、同義千文、渾源大型モデル、盤古大型モデルなど、大型モデルの分野で熾烈な軍拡競争を繰り広げています。これらの超大規模モデルのトレーニングパラメータはいずれも1000億を超え、中には1兆を超えるものもあります。

数千億のパラメータを持つモデルをトレーニングするコストは数百万ドルにも達する可能性がありますが、大企業は依然として最善を尽くしています。さらに、多くの業界企業も自社専用の大型モデルを持つことを望んでいます。

企業がビッグモデルの競争に勝ち抜くためには、コンピューティングパワーを最大限に活用し、効率的で安定したサービス運用環境を構築する必要があり、ITインフラストラクチャ機能に対する要求がさらに高まります。

そして、クラウド ネイティブは競争の重要な部分です。クラウドネイティブ テクノロジーの自動展開と管理、柔軟なスケーリングなどの機能により、大規模なモデル アプリケーションの効率を効果的に向上させ、コストを削減できます。

ガートナーの予測によると、2023年にはAIアプリケーションの70%がコンテナとサーバーレス技術に基づいて開発される見込みです。実際の運用では、自動運転やNLPなど、ますます多くのAIビジネスがコンテナ化されたデプロイメントに移行しています。

では、クラウド ネイティブはどのようにして大規模モデルのコスト削減と効率性の向上に役立つのでしょうか。また、その過程でどのような課題に直面したのでしょうか。

1. クラウドネイティブが大規模モデルの標準になる

近年、コンテナと Kubernetes は、ますます多くの AI アプリケーションで好まれる動作環境およびプラットフォームになっています。

一方では、Kubernetes は、ユーザーが異種リソースとランタイム環境を標準化し、運用および保守プロセスを簡素化するのに役立ちます。一方、GPU に大きく依存する AI などのシナリオでは、K8s の弾力性を活用してリソース コストを節約できます。

ビッグモデルの波の到来により、クラウドネイティブ環境で AI アプリケーションを実行することが事実上の標準になりつつあります。

  • 弾力的なスケーリングとリソース管理

大規模なモデルのトレーニングには、多くの場合、大量のコンピューティング リソースが必要になりますが、クラウド ネイティブ環境では、コンテナ化とオーケストレーション ツールを通じて、リソースの柔軟なスケジューリングと自動スケーリングを実現できます。

つまり、大規模モデルのトレーニング中に必要なリソースを迅速に取得し、タスクの完了後に解放することで、アイドル コストを削減できます。

  • 分散コンピューティングのサポート

クラウドネイティブ アーキテクチャは、当然のことながら分散システムをサポートします。大規模モデルのトレーニング中の並列コンピューティング要件は、クラウド上の分散クラスターを通じて簡単に達成できるため、モデルの収束が加速されます。

  • マイクロサービスアーキテクチャとモジュール設計

大規模なモデル推論サービスは、前処理サービス、モデル読み込みサービス、後処理サービスなど、複数のマイクロサービスに分解できます。これらのサービスは、クラウド ネイティブ環境で個別に展開、アップグレード、拡張できるため、システムの保守性と反復効率が向上します。

  • 継続的インテグレーション/継続的デプロイメント (CI/CD)

クラウド ネイティブのコンセプトでは、迅速な反復と自動化された運用と保守が重視されます。 CI/CD プロセスを利用することで、大規模モデルの R&D チームは、モデル更新の俊敏性を確保するために、より効率的な方法でモデル バージョンを構築、テスト、展開できます。

  • ストレージとデータ処理

クラウド ネイティブは、大規模なモデルに必要な大規模なデータの読み取りと書き込みの問題を解決するために、さまざまなデータ永続性および一時ストレージ ソリューションを提供します。

同時に、クラウド上のビッグデータ処理機能とストリーミングコンピューティング機能を使用して、大規模データの前処理と後処理を効果的に行うことができます。

  • 可観測性と障害回復

クラウドネイティブ環境では、監視、ログ、トレース機能が向上し、大規模なモデル サービスの状態がより透明化されます。問題が発生した場合、より迅速に問題を特定して修復できるため、高いサービス可用性が確保されます。

一般に、クラウド ネイティブ アーキテクチャの多くの利点は、計算量、データ駆動型、頻繁な反復という点で、大規模モデルの要件を満たします。大規模モデルにコスト、パフォーマンス、効率などの面で価値をもたらすことができるため、大規模モデルの開発の標準となります。

2. 大規模モデルはクラウドネイティブ機能に新たな課題をもたらす

クラウド ネイティブは大規模モデルには当然の利点がありますが、LLM や AIGC などの新しい分野では、クラウド ネイティブ機能にさらなる課題が生じています。

トレーニング段階では、大規模なモデルではコンピューティング、ストレージ、ネットワーク、その他のインフラストラクチャに対する要件が高くなります。

規模の点では、広範な知識と専門的なドメイン理解および推論機能を備えた大規模な言語モデルをトレーニングするには、多くの場合、最大 10,000 枚のカードの GPU クラスター、PB レベルのデータ ストレージ、TB レベルのデータ スループットが必要になります。

さらに、高性能ネットワークでは、1 台のマシンで 800Gbps、さらには 3.2Tbps の RDMA 相互接続も実現します。

パフォーマンスの面では、モデルのサイズとパラメータの数が増えると、単一のグラフィック カードではモデル全体をサポートできなくなります。したがって、分散トレーニングには複数のグラフィック カードを使用し、高速化のためにさまざまなハイブリッド並列戦略を採用する必要があります。

これらの戦略には、データ並列性、モデル並列性、パイプライン並列性、言語モデルのシーケンス並列性、およびさまざまな複雑な組み合わせ戦略が含まれます。

推論フェーズでは、大規模モデルは効率的で安定した推論サービスを提供する必要があり、そのためにはパフォーマンスを継続的に最適化し、サービス品質 (QoS) を保証することが必要です。

これを踏まえて、最も重要な目標は、リソース効率とエンジニアリング効率を向上させることです。一方で、リソースの利用効率を継続的に向上させ、突発的なコンピューティングニーズに対応するためにリソース規模を弾力的に拡大していきます。

一方で、アルゴリズム担当者の作業効率を最適化し、モデルの反復の速度と品質を向上させる必要があります。

これは、大規模なモデルがクラウド ネイティブ テクノロジーに新しい機能要件を提示していることを示しています。

まず、異種リソースを統合管理してリソースの利用率を向上させます。

異種リソース管理の観点からは、IaaS クラウド サービスや IDC 内のさまざまな異種コンピューティング (CPU、GPU、NPU、VPU、FPGA、ASIC など)、ストレージ (OSS、NAS、CPFS、HDFS)、ネットワーク (TCP、RDMA) リソースを抽象化し、管理、運用、保守、割り当てを統一し、弾力性とソフトウェアとハ​​ードウェアの連携最適化を通じてリソース使用率を継続的に向上させます。

運用および保守プロセスでは、監視、ヘルスチェック、アラーム、自己修復などの自動化された運用および保守機能を含む、異種リソースの多次元的な観測可能性が必要です。

GPU や NPU などのアクセラレータなどの貴重なコンピューティング リソースについては、さまざまなスケジューリング、分離、共有の方法を通じて、その使用率を最大化する必要があります。

このプロセスでは、クラウド リソースの弾力的な特性を継続的に活用し、リソースの配信と利用の効率を継続的に向上させることも必要です。

第二に、統一されたワークフローとスケジューリングにより、AIやビッグデータなどのさまざまな複雑なタスクの効率的な管理が可能になります。

大規模な分散 AI タスクでは、ギャング スケジューリング、キャパシティ スケジューリング、トポロジ認識スケジューリング、優先キューなどのさまざまなタスク スケジューリング戦略を提供し、ワークフローまたはデータ フローを使用してタスク パイプライン全体を接続する必要があります。

同時に、さまざまな異種ワークロードプロセスを均一に実行し、ジョブライフサイクルを均一に管理し、タスクのスケールとパフォーマンスを確保するためにタスクワークフローを均一にスケジュールするために、Tensorflow、Pytorch、Horovod、ONNX、Spark、Flinkなどのさまざまなコンピューティングエンジンやランタイムと互換性がある必要があります。

一方で、実行中のタスクのコスト効率を継続的に改善し、他方では、開発および運用の経験とエンジニアリングの効率を継続的に改善しています。

さらに、コンピューティング フレームワークとアルゴリズム レベルでリソースの弾力性機能を適応させ、弾力性のあるトレーニングと弾力性のある推論サービスを提供して、タスクの全体的な運用コストを最適化します。

コンピューティング タスクの最適化に加えて、データ使用効率の最適化にも注意を払う必要があります。そのためには、統合されたデータセット管理、モデル管理、アクセスパフォーマンス最適化機能が必要であり、標準 API とオープンアーキテクチャを通じてビジネスアプリケーションに簡単に統合できる必要があります。

大規模モデルのもう 1 つの主要な機能は、開発環境とクラスター テスト環境を数分以内に準備し、アルゴリズム エンジニアがディープラーニング タスクの実行を開始できるようにすることです。

同じプログラミング モデルと運用および保守方法を通じて、エンドツーエンドの AI 制作プロセスを実現します。

3. 結論

ビッグモデルなどの AI テクノロジーの継続的な発展に伴い、クラウド ネイティブ テクノロジーはいくつかの新たな課題と要求に直面することになります。たとえば、新しいオープンソースの大規模モデルトレーニング方法に迅速に適応する方法や、大規模モデルの推論パフォーマンスを向上させてその品質と安定性を確保する方法などです。

同時に、最先端のテクノロジーと革新的な機能にも注目し、標準化されたプログラム可能な方法を通じてそれらを統合し、ビジネス アプリケーションを継続的に反復し、AI + または LLM + の新しいアプリケーション開発モードとプログラミング モデルを形成する必要があります。

しかし、テクノロジーがどのように発展しても、大規模モデルに対して高速、正確、安定的かつコスト管理されたサービスを提供し、大規模モデルのトレーニングと推論のコスト、パフォーマンス、効率性を確保することが、企業がその価値に支払う基準となるでしょう。

<<:  Microsoft Sustainability Cloud が新たなデータと AI 機能を追加

>>:  トマゴ・アルミニウムがクラウドへの取り組みで方針を変えた理由

推薦する

azzavps-1.5g メモリ/15g SSD/1T トラフィック/ニューヨーク/月額 5.5 ドル

ニュージーランドの VPS 業者である azzavps は、同社初の SSD ハード ドライブ VP...

万科クラウド戦略発表:共有コンピューティングが一般ユーザーに開放される

10月31日、Xunleiの新世代シェアリングエコノミースマートハードウェア「One Cloud」の...

タオバオオンラインストアが新しいメディアを活用して運営を支援する方法について簡単に説明します。

今は新メディア時代です。4つの伝統的なメディアの発展はインターネットの影響で疲労の兆候を見せており、...

豆板は明確な方向性を持った新製品で再び商業化に挑戦する。芸術と商業はウィンウィンの関係を築くことができるのか?

つい先日の2014年5月7日は、Douban Readingの有料書店が正式にオープンしてから2周年...

iwf: 月額 399 ドル、40 コア、384G メモリ、6 SSD、10Gbps 帯域幅、スライスなどの高負荷タスクに適しています。

多くの上司は、スライス サーバー、ダウンロード サーバー、CDN サーバー、仮想マシン、超高性能タス...

ウェブサイトのマーケティング機能を向上させる新しいオンラインプロモーション方法

企業がネットワーク運用モデルに参加し、マーケティング Web サイトを構築した後は、プロモーションと...

bacloud: 月額 33.33 ユーロ、e3-1230v2、8G メモリ、2*1T ハードディスク、50T トラフィック、PayPal/Alipay

リトアニアの老舗企業であるbacloudは、主に独立サーバーとVPS事業を運営しています。現在、リト...

2021 年のハイブリッド クラウド市場の発展について楽観的なのはなぜですか?

世界的な流行が続く中、産業の情報化と企業のクラウドコンピューティングの潮流に伴い、どのようにクラウド...

クロスリンクの詳細: クロスリンクとは何ですか?

最近は相互リンクの交換をしています。リンク交換用のグループを 75 個、リンク交換用の QQ グルー...

HelmはHarborに保存されたチャートに基づいてサービスを迅速に公開します

概要Harbor はバージョン v1.6 で Helm Chart リポジトリ機能のサポートを開始し...

バックリンクについてお話ししましょう。これらの方法をすべて使用しましたか?

これは繰り返し提起されてきた質問なので、私の記事のタイトルは「バックリンクについてもう一度話しましょ...

あらゆるクラウド | Dell + Microsoft: リファレンス アーキテクチャから Azure ハイブリッド クラウド プラットフォームへ

オープン アーキテクチャに基づき、Microsoft と連携した Dell のハイブリッド クラウド...

エッジコンピューティングがモノのインターネットにとって重要な3つの理由

今日のモノのインターネット モデルが情報技術、特にデータ センターに大きな影響を与えていることはよく...

hostbuybd: 著作権のない VPS、DMCA 関連の苦情は無視、ロシア\オランダ\ルーマニアはオプション

バングラデシュのホスティング会社であるhostbuybdは、仮想ホスティング、VPS、専用サーバーな...