過去 1 ~ 2 年で、GPT や拡散モデルに代表される大規模言語モデルと生成 AI は、AI に対する人々の期待を新たな高みに押し上げ、何千もの業界が大規模モデルをビジネスに活用しようとするようになりました。 国内の大手メーカーは、文心大型モデル、同義千文、渾源大型モデル、盤古大型モデルなど、大型モデルの分野で熾烈な軍拡競争を繰り広げています。これらの超大規模モデルのトレーニングパラメータはいずれも1000億を超え、中には1兆を超えるものもあります。 数千億のパラメータを持つモデルをトレーニングするコストは数百万ドルにも達する可能性がありますが、大企業は依然として最善を尽くしています。さらに、多くの業界企業も自社専用の大型モデルを持つことを望んでいます。 企業がビッグモデルの競争に勝ち抜くためには、コンピューティングパワーを最大限に活用し、効率的で安定したサービス運用環境を構築する必要があり、ITインフラストラクチャ機能に対する要求がさらに高まります。 そして、クラウド ネイティブは競争の重要な部分です。クラウドネイティブ テクノロジーの自動展開と管理、柔軟なスケーリングなどの機能により、大規模なモデル アプリケーションの効率を効果的に向上させ、コストを削減できます。 ガートナーの予測によると、2023年にはAIアプリケーションの70%がコンテナとサーバーレス技術に基づいて開発される見込みです。実際の運用では、自動運転やNLPなど、ますます多くのAIビジネスがコンテナ化されたデプロイメントに移行しています。 では、クラウド ネイティブはどのようにして大規模モデルのコスト削減と効率性の向上に役立つのでしょうか。また、その過程でどのような課題に直面したのでしょうか。 1. クラウドネイティブが大規模モデルの標準になる近年、コンテナと Kubernetes は、ますます多くの AI アプリケーションで好まれる動作環境およびプラットフォームになっています。 一方では、Kubernetes は、ユーザーが異種リソースとランタイム環境を標準化し、運用および保守プロセスを簡素化するのに役立ちます。一方、GPU に大きく依存する AI などのシナリオでは、K8s の弾力性を活用してリソース コストを節約できます。 ビッグモデルの波の到来により、クラウドネイティブ環境で AI アプリケーションを実行することが事実上の標準になりつつあります。
大規模なモデルのトレーニングには、多くの場合、大量のコンピューティング リソースが必要になりますが、クラウド ネイティブ環境では、コンテナ化とオーケストレーション ツールを通じて、リソースの柔軟なスケジューリングと自動スケーリングを実現できます。 つまり、大規模モデルのトレーニング中に必要なリソースを迅速に取得し、タスクの完了後に解放することで、アイドル コストを削減できます。
クラウドネイティブ アーキテクチャは、当然のことながら分散システムをサポートします。大規模モデルのトレーニング中の並列コンピューティング要件は、クラウド上の分散クラスターを通じて簡単に達成できるため、モデルの収束が加速されます。
大規模なモデル推論サービスは、前処理サービス、モデル読み込みサービス、後処理サービスなど、複数のマイクロサービスに分解できます。これらのサービスは、クラウド ネイティブ環境で個別に展開、アップグレード、拡張できるため、システムの保守性と反復効率が向上します。
クラウド ネイティブのコンセプトでは、迅速な反復と自動化された運用と保守が重視されます。 CI/CD プロセスを利用することで、大規模モデルの R&D チームは、モデル更新の俊敏性を確保するために、より効率的な方法でモデル バージョンを構築、テスト、展開できます。
クラウド ネイティブは、大規模なモデルに必要な大規模なデータの読み取りと書き込みの問題を解決するために、さまざまなデータ永続性および一時ストレージ ソリューションを提供します。 同時に、クラウド上のビッグデータ処理機能とストリーミングコンピューティング機能を使用して、大規模データの前処理と後処理を効果的に行うことができます。
クラウドネイティブ環境では、監視、ログ、トレース機能が向上し、大規模なモデル サービスの状態がより透明化されます。問題が発生した場合、より迅速に問題を特定して修復できるため、高いサービス可用性が確保されます。 一般に、クラウド ネイティブ アーキテクチャの多くの利点は、計算量、データ駆動型、頻繁な反復という点で、大規模モデルの要件を満たします。大規模モデルにコスト、パフォーマンス、効率などの面で価値をもたらすことができるため、大規模モデルの開発の標準となります。 2. 大規模モデルはクラウドネイティブ機能に新たな課題をもたらすクラウド ネイティブは大規模モデルには当然の利点がありますが、LLM や AIGC などの新しい分野では、クラウド ネイティブ機能にさらなる課題が生じています。 トレーニング段階では、大規模なモデルではコンピューティング、ストレージ、ネットワーク、その他のインフラストラクチャに対する要件が高くなります。 規模の点では、広範な知識と専門的なドメイン理解および推論機能を備えた大規模な言語モデルをトレーニングするには、多くの場合、最大 10,000 枚のカードの GPU クラスター、PB レベルのデータ ストレージ、TB レベルのデータ スループットが必要になります。 さらに、高性能ネットワークでは、1 台のマシンで 800Gbps、さらには 3.2Tbps の RDMA 相互接続も実現します。 パフォーマンスの面では、モデルのサイズとパラメータの数が増えると、単一のグラフィック カードではモデル全体をサポートできなくなります。したがって、分散トレーニングには複数のグラフィック カードを使用し、高速化のためにさまざまなハイブリッド並列戦略を採用する必要があります。 これらの戦略には、データ並列性、モデル並列性、パイプライン並列性、言語モデルのシーケンス並列性、およびさまざまな複雑な組み合わせ戦略が含まれます。 推論フェーズでは、大規模モデルは効率的で安定した推論サービスを提供する必要があり、そのためにはパフォーマンスを継続的に最適化し、サービス品質 (QoS) を保証することが必要です。 これを踏まえて、最も重要な目標は、リソース効率とエンジニアリング効率を向上させることです。一方で、リソースの利用効率を継続的に向上させ、突発的なコンピューティングニーズに対応するためにリソース規模を弾力的に拡大していきます。 一方で、アルゴリズム担当者の作業効率を最適化し、モデルの反復の速度と品質を向上させる必要があります。 これは、大規模なモデルがクラウド ネイティブ テクノロジーに新しい機能要件を提示していることを示しています。 まず、異種リソースを統合管理してリソースの利用率を向上させます。 異種リソース管理の観点からは、IaaS クラウド サービスや IDC 内のさまざまな異種コンピューティング (CPU、GPU、NPU、VPU、FPGA、ASIC など)、ストレージ (OSS、NAS、CPFS、HDFS)、ネットワーク (TCP、RDMA) リソースを抽象化し、管理、運用、保守、割り当てを統一し、弾力性とソフトウェアとハードウェアの連携最適化を通じてリソース使用率を継続的に向上させます。 運用および保守プロセスでは、監視、ヘルスチェック、アラーム、自己修復などの自動化された運用および保守機能を含む、異種リソースの多次元的な観測可能性が必要です。 GPU や NPU などのアクセラレータなどの貴重なコンピューティング リソースについては、さまざまなスケジューリング、分離、共有の方法を通じて、その使用率を最大化する必要があります。 このプロセスでは、クラウド リソースの弾力的な特性を継続的に活用し、リソースの配信と利用の効率を継続的に向上させることも必要です。 第二に、統一されたワークフローとスケジューリングにより、AIやビッグデータなどのさまざまな複雑なタスクの効率的な管理が可能になります。 大規模な分散 AI タスクでは、ギャング スケジューリング、キャパシティ スケジューリング、トポロジ認識スケジューリング、優先キューなどのさまざまなタスク スケジューリング戦略を提供し、ワークフローまたはデータ フローを使用してタスク パイプライン全体を接続する必要があります。 同時に、さまざまな異種ワークロードプロセスを均一に実行し、ジョブライフサイクルを均一に管理し、タスクのスケールとパフォーマンスを確保するためにタスクワークフローを均一にスケジュールするために、Tensorflow、Pytorch、Horovod、ONNX、Spark、Flinkなどのさまざまなコンピューティングエンジンやランタイムと互換性がある必要があります。 一方で、実行中のタスクのコスト効率を継続的に改善し、他方では、開発および運用の経験とエンジニアリングの効率を継続的に改善しています。 さらに、コンピューティング フレームワークとアルゴリズム レベルでリソースの弾力性機能を適応させ、弾力性のあるトレーニングと弾力性のある推論サービスを提供して、タスクの全体的な運用コストを最適化します。 コンピューティング タスクの最適化に加えて、データ使用効率の最適化にも注意を払う必要があります。そのためには、統合されたデータセット管理、モデル管理、アクセスパフォーマンス最適化機能が必要であり、標準 API とオープンアーキテクチャを通じてビジネスアプリケーションに簡単に統合できる必要があります。 大規模モデルのもう 1 つの主要な機能は、開発環境とクラスター テスト環境を数分以内に準備し、アルゴリズム エンジニアがディープラーニング タスクの実行を開始できるようにすることです。 同じプログラミング モデルと運用および保守方法を通じて、エンドツーエンドの AI 制作プロセスを実現します。 3. 結論ビッグモデルなどの AI テクノロジーの継続的な発展に伴い、クラウド ネイティブ テクノロジーはいくつかの新たな課題と要求に直面することになります。たとえば、新しいオープンソースの大規模モデルトレーニング方法に迅速に適応する方法や、大規模モデルの推論パフォーマンスを向上させてその品質と安定性を確保する方法などです。 同時に、最先端のテクノロジーと革新的な機能にも注目し、標準化されたプログラム可能な方法を通じてそれらを統合し、ビジネス アプリケーションを継続的に反復し、AI + または LLM + の新しいアプリケーション開発モードとプログラミング モデルを形成する必要があります。 しかし、テクノロジーがどのように発展しても、大規模モデルに対して高速、正確、安定的かつコスト管理されたサービスを提供し、大規模モデルのトレーニングと推論のコスト、パフォーマンス、効率性を確保することが、企業がその価値に支払う基準となるでしょう。 |
<<: Microsoft Sustainability Cloud が新たなデータと AI 機能を追加
>>: トマゴ・アルミニウムがクラウドへの取り組みで方針を変えた理由
2013 年 11 月 5 日、OPPO のモバイル インターネットへの変革に関するセミナーで、主催...
1. 音楽ウェブサイトは著作権者から5日以内に有料サービスを試すよう促されている新浪科技は6月3日朝...
SEO 実践者は皆、2 つのことを繰り返しています。1 つ目は、Web サイトと記事を更新することで...
IDC Review Network (idcps.com) は 4 月 15 日に次のように報告し...
SEO に携わる人なら、トラフィックがどのように発生するかを知っています。ユーザーがキーワードを検索...
【TechWeb Report】昨日、米国の金融ウェブサイトiposcoopによると、Weiboは米...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています2018年...
コンテンツ1. 実際には、「コア」という言葉には統一された基準はなく、コアである必要すらありません。...
中国の四大伝統祭りの一つである中秋節は、昔から中国文化を継承する良い日とされてきました。もちろん、フ...
はじめに: メイクアップ写真ウェブサイトのプロモーションと最適化に2年近く携わってきて、私が得た最も...
私はこの会社でほぼ2年間働いています。多くの成功事例があり、多くの代替クライアントと出会いました。こ...
justhost.asia は最近、トルコのイスタンブールに VPS サービスを追加しました。これは...
5Gの速度はどれくらいですか? 4G から 5G にアップグレードする感覚は、1G から 4G への...
北京時間5月17日、海外メディアの報道によると、Shoes of Preyはオーストラリアの新興...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています4年に一度...