最近、アリババクラウドPAIチームとDAMOアカデミーインテリジェントコンピューティングラボは、巨大モデルM6の「低炭素バージョン」を共同でリリースしました。これにより、数兆個のパラメータを持つ超大規模モデルのトレーニングのエネルギー消費が大幅に削減されます。当社が独自に開発した Whale フレームワークの助けを借りて、わずか 480 枚の GPU カードを使用して、人間のニューロンの 10 倍の大きさである 1 兆パラメータのマルチモーダル大規模モデル M6 をトレーニングしました。従来の海外企業が達成した兆パラメータ規模と比較すると、エネルギー消費量は80%以上削減され、効率は11倍近く向上しました。 M6は中国で商品化された初の大型マルチモーダルモデルです。 M6 は従来の AI を超える認知能力と創造力を備えています。絵を描くこと、書くこと、質疑応答が得意です。電子商取引、製造、文学、芸術など、多くの分野で幅広い応用が期待されています。 ここでは、1兆パラメータのモデルトレーニングをサポートするWhaleフレームワークの設計を紹介します。 1. モデル開発の動向と課題1. モデル開発動向ディープラーニングの普及に伴い、モデルのパラメータサイズも急速に増加しました。 OpenAI のデータは次のことを示しています:
過去 1 年間で、モデル パラメータの規模は急速に拡大しました。 Google、NVIDIA、Alibaba、ARIはいずれも兆単位のパラメータを持つモデルをリリースしており、大手企業の中には数百億、数千億のパラメータを持つモデルをリリースしているところもあります。同時に、モデルパラメータの規模が大きくなるにつれて、モデル効果も徐々に向上しています。 Nvidia は Bert モデルのさまざまなパラメータ スケールをテストし、モデル パラメータのスケールが増加するにつれてモデルの困惑度が減少することを発見しました。 Google は GShard の論文で、MoETransformer モデルのパラメータが大きいほど翻訳の品質が高くなることを発見しました。 2. 大規模モデルトレーニングの課題大規模なモデルはモデルのパフォーマンスを向上させますが、トレーニング フレームワークに大きな課題をもたらします。たとえば、1兆規模のモデルをトレーニングする場合、次のような課題に直面します。
現在、Horovod、Tensorflow Estimator、PyTorch DDP など、データ並列処理をサポートする分散トレーニング フレームワークがいくつかあります。パイプラインの並列処理をサポートする Gpipe、PipeDream、PipeMare など。演算子分割をサポートする Mesh Tensorflow、FlexFlow、OneFlow、MindSpore など。ただし、これらのフレームワークにはまだいくつかの欠点があります。
分散トレーニングの現在の課題に対処するために、私たちは以下の主な目標を掲げて分散トレーニング フレームワーク Whale を開発しました。
2. PAIが独自に開発したWhaleフレームワーク1. クジラの建築私たちは、複数の並列戦略を統合し、次のような観点から分散トレーニングの課題に対処する高性能な分散トレーニング フレームワークである Whale をリリースしました。
Whale フレームワークは下図のとおりで、主に 4 つのモジュールに分かれています。
2. クジラの紹介 使いやすいインターフェースWhale は、さまざまな並列戦略を記述するための簡潔で使いやすいインターフェースを提供します。主なプリミティブは次のとおりです。
これらのインターフェースを使用すると、次のようなさまざまな並列戦略を組み合わせることができます。
パイプライン並列処理 + データ並列処理: その他の並列戦略の例: 3. クジラの訓練プロセスWhale を使用した分散トレーニング プロセス:
3. 兆M6モデルの事前トレーニング1兆ドルモデルには膨大な計算能力が必要です。計算能力の要件を削減するために、Whale は MoE (Mixture-of-Experts) 構造を実装します。 MoE の主な特徴はスパース活性化です。ゲーティング (ルーター) は、入力計算の上位 k 人のエキスパート (k は通常 1 または 2) を選択するために使用され、計算能力の要件が大幅に削減されます。 Whale は MoE (Mixture-of-Experts) レイヤーを実装し、エキスパートの並列処理をサポートし、エキスパートを複数のデバイスに分割して、単一デバイスのメモリと計算能力の要件を削減します。同時に、データの並列処理はトレーニングの同時実行性の向上に役立ちます。そのため、M6 モデルのトレーニングには、データ並列処理とエキスパート並列処理を組み合わせたハイブリッド並列戦略が採用されています。MoElayer はエキスパート並列処理を採用し、他のレイヤーはデータ並列処理を採用しています。 Whale は、モデルのハイブリッド並列トレーニングのためのシンプルで使いやすいインターフェースを提供します。並列戦略を構成するには、数行の注釈を追加するだけでよく、モデル自体を変更する必要はありません。 M6モデルは、データ並列処理+エキスパート並列処理の戦略を採用しています。次の注釈を追加するだけです。 同時に、トレーニング リソースを節約し、トレーニング効率を向上させるために、Whale はさまざまな最適化テクノロジを提供します。 ビデオメモリの最適化:
コンピューティングと通信の高速化:
IV.結論モデルパラメータの規模はますます大きくなり、大規模モデルが開発トレンドとなってきました。超大規模モデルのトレーニングの課題に対処するために、私たちは独自の Whale フレームワークを開発しました。このフレームワークは、さまざまな並列化戦略を統一された方法で抽象化およびカプセル化し、分散トレーニング フレームワークで複数の並列化戦略をサポートします。 Whale はシンプルで使いやすいインターフェースを提供します。ユーザーは、モデル自体を変更することなく、数行の注釈を追加するだけでさまざまな並列戦略を実装できます。同時に、ハードウェア リソース、ネットワーク トポロジ、モデルを組み合わせてハードウェアとソフトウェアを最適化し、効率的な分散トレーニング フレームワークを提供します。 Whaleフレームワークを通じて、480枚のV100 GPUカードを使用して1兆規模のモデルをトレーニングし、3日以内にモデルトレーニングの収束を完了し、超大規模モデルトレーニングの実装を可能にしました。今後はWhaleフレームワークをさらに改良し、大規模化、高速化、コスト効率の向上という3つの側面から機能を拡張していきます。同時に、より多くのビジネス シナリオで Whale 機能の実装を促進し、技術機能から製品機能への変革を可能にします。 |
<<: クラウドネイティブの進化のトレンドにおける従来のデータベースアップグレードの実践
>>: Longhorn クラウドネイティブ分散ブロックストレージソリューションの設計アーキテクチャとコンセプト
Google は 10 年前に SRE という職種を創設しました。 SRE は Site Reli...
SEO テクノロジー(検索エンジン最適化テクノロジー)は、今日のインターネット マーケティングとプロ...
なぜウェブサイト上のオリジナル記事をサイト上のソフト記事として扱うべきなのでしょうか?その目的は、こ...
クラウド ネイティブは文化であり、トレンドでもあります。クラウド コンピューティングの時代において、...
fapvps、この VPS プロバイダーに関して、Hostcat は関連する紹介情報を見つけることが...
私のような草の根ウェブマスターの多くは、常に問題に悩まされてきました。それは、なぜ Baidu が自...
アナリスト会社 451 Research によると、2019 年までに企業の 69% がハイブリッド...
11月3日、アリババクラウドインテリジェンスの張建鋒社長は2022年雲奇カンファレンスで、DingT...
SEO 業界は本質的にサービス業界です。サービス業は第三次産業であり、利用者に金銭を支払ったり、直接...
ウェブマスターは皆、高品質の外部リンクを追求しています。外部リンクの品質が高ければ高いほど、ウェブサ...
Sitegroundは10周年を記念して、今月22日(米国時間)から48時間70%オフのプロモーショ...
網易科技新聞、12月5日、海外メディアの報道によると、Googleは本日、Android版Googl...
はじめに:現在も将来も、海外マーケティングには一定の市場があります。国内の機械設備業界、製造業、サー...
ウェブサイトを選択する際、人々は通常、ウェブサイトのトラフィック データ、広告スペースのサイズなど、...
デジタル企業は、ビジネス目標との整合性を高めるために、IT インフラストラクチャの変革と進化を続けて...