最近、アリババクラウドPAIチームとDAMOアカデミーインテリジェントコンピューティングラボは、巨大モデルM6の「低炭素バージョン」を共同でリリースしました。これにより、数兆個のパラメータを持つ超大規模モデルのトレーニングのエネルギー消費が大幅に削減されます。当社が独自に開発した Whale フレームワークの助けを借りて、わずか 480 枚の GPU カードを使用して、人間のニューロンの 10 倍の大きさである 1 兆パラメータのマルチモーダル大規模モデル M6 をトレーニングしました。従来の海外企業が達成した兆パラメータ規模と比較すると、エネルギー消費量は80%以上削減され、効率は11倍近く向上しました。 M6は中国で商品化された初の大型マルチモーダルモデルです。 M6 は従来の AI を超える認知能力と創造力を備えています。絵を描くこと、書くこと、質疑応答が得意です。電子商取引、製造、文学、芸術など、多くの分野で幅広い応用が期待されています。 ここでは、1兆パラメータのモデルトレーニングをサポートするWhaleフレームワークの設計を紹介します。 1. モデル開発の動向と課題1. モデル開発動向ディープラーニングの普及に伴い、モデルのパラメータサイズも急速に増加しました。 OpenAI のデータは次のことを示しています:
過去 1 年間で、モデル パラメータの規模は急速に拡大しました。 Google、NVIDIA、Alibaba、ARIはいずれも兆単位のパラメータを持つモデルをリリースしており、大手企業の中には数百億、数千億のパラメータを持つモデルをリリースしているところもあります。同時に、モデルパラメータの規模が大きくなるにつれて、モデル効果も徐々に向上しています。 Nvidia は Bert モデルのさまざまなパラメータ スケールをテストし、モデル パラメータのスケールが増加するにつれてモデルの困惑度が減少することを発見しました。 Google は GShard の論文で、MoETransformer モデルのパラメータが大きいほど翻訳の品質が高くなることを発見しました。 2. 大規模モデルトレーニングの課題大規模なモデルはモデルのパフォーマンスを向上させますが、トレーニング フレームワークに大きな課題をもたらします。たとえば、1兆規模のモデルをトレーニングする場合、次のような課題に直面します。
現在、Horovod、Tensorflow Estimator、PyTorch DDP など、データ並列処理をサポートする分散トレーニング フレームワークがいくつかあります。パイプラインの並列処理をサポートする Gpipe、PipeDream、PipeMare など。演算子分割をサポートする Mesh Tensorflow、FlexFlow、OneFlow、MindSpore など。ただし、これらのフレームワークにはまだいくつかの欠点があります。
分散トレーニングの現在の課題に対処するために、私たちは以下の主な目標を掲げて分散トレーニング フレームワーク Whale を開発しました。
2. PAIが独自に開発したWhaleフレームワーク1. クジラの建築私たちは、複数の並列戦略を統合し、次のような観点から分散トレーニングの課題に対処する高性能な分散トレーニング フレームワークである Whale をリリースしました。
Whale フレームワークは下図のとおりで、主に 4 つのモジュールに分かれています。
2. クジラの紹介 使いやすいインターフェースWhale は、さまざまな並列戦略を記述するための簡潔で使いやすいインターフェースを提供します。主なプリミティブは次のとおりです。
これらのインターフェースを使用すると、次のようなさまざまな並列戦略を組み合わせることができます。
パイプライン並列処理 + データ並列処理: その他の並列戦略の例: 3. クジラの訓練プロセスWhale を使用した分散トレーニング プロセス:
3. 兆M6モデルの事前トレーニング1兆ドルモデルには膨大な計算能力が必要です。計算能力の要件を削減するために、Whale は MoE (Mixture-of-Experts) 構造を実装します。 MoE の主な特徴はスパース活性化です。ゲーティング (ルーター) は、入力計算の上位 k 人のエキスパート (k は通常 1 または 2) を選択するために使用され、計算能力の要件が大幅に削減されます。 Whale は MoE (Mixture-of-Experts) レイヤーを実装し、エキスパートの並列処理をサポートし、エキスパートを複数のデバイスに分割して、単一デバイスのメモリと計算能力の要件を削減します。同時に、データの並列処理はトレーニングの同時実行性の向上に役立ちます。そのため、M6 モデルのトレーニングには、データ並列処理とエキスパート並列処理を組み合わせたハイブリッド並列戦略が採用されています。MoElayer はエキスパート並列処理を採用し、他のレイヤーはデータ並列処理を採用しています。 Whale は、モデルのハイブリッド並列トレーニングのためのシンプルで使いやすいインターフェースを提供します。並列戦略を構成するには、数行の注釈を追加するだけでよく、モデル自体を変更する必要はありません。 M6モデルは、データ並列処理+エキスパート並列処理の戦略を採用しています。次の注釈を追加するだけです。 同時に、トレーニング リソースを節約し、トレーニング効率を向上させるために、Whale はさまざまな最適化テクノロジを提供します。 ビデオメモリの最適化:
コンピューティングと通信の高速化:
IV.結論モデルパラメータの規模はますます大きくなり、大規模モデルが開発トレンドとなってきました。超大規模モデルのトレーニングの課題に対処するために、私たちは独自の Whale フレームワークを開発しました。このフレームワークは、さまざまな並列化戦略を統一された方法で抽象化およびカプセル化し、分散トレーニング フレームワークで複数の並列化戦略をサポートします。 Whale はシンプルで使いやすいインターフェースを提供します。ユーザーは、モデル自体を変更することなく、数行の注釈を追加するだけでさまざまな並列戦略を実装できます。同時に、ハードウェア リソース、ネットワーク トポロジ、モデルを組み合わせてハードウェアとソフトウェアを最適化し、効率的な分散トレーニング フレームワークを提供します。 Whaleフレームワークを通じて、480枚のV100 GPUカードを使用して1兆規模のモデルをトレーニングし、3日以内にモデルトレーニングの収束を完了し、超大規模モデルトレーニングの実装を可能にしました。今後はWhaleフレームワークをさらに改良し、大規模化、高速化、コスト効率の向上という3つの側面から機能を拡張していきます。同時に、より多くのビジネス シナリオで Whale 機能の実装を促進し、技術機能から製品機能への変革を可能にします。 |
<<: クラウドネイティブの進化のトレンドにおける従来のデータベースアップグレードの実践
>>: Longhorn クラウドネイティブ分散ブロックストレージソリューションの設計アーキテクチャとコンセプト
Google 更新時間<br /> 更新時間は7日ごとに更新されます(ランキングへの影響...
pq.hosting は 2008 年から運営されています。同社はモルドバに登録されており、RIPE...
北京時間5日早朝、米国のテクノロジーニュースサイトInformationは、Googleが早ければ今...
ウェブサイトのランキング最適化にはどのような能力が必要ですか? 先ほど、企業のオンラインマーケティン...
最近、みんなが知乎を開く衝動は何でしょうか?ソウルジョークの作者たちは次のように答えた。知乎といえば...
電子商取引の運営には442ルールがあります。つまり、成功の 40% はマーケティングターゲット、40...
今年初め、BandwagonHostは米国西海岸のフリーモントデータセンターにChina Unico...
一般的な SEO の見解では、静的ページは SEO に有益であるため、多くの SEO 担当者が We...
ISO 27018 規制は、クラウド コンピューティング業界の参加者が個人データを適切に処理している...
李雪玲が登場する以前、6年前でさえ、テンセントからインスタントメッセージングのおいしい料理を奪い取ろ...
コンテナ内のすべてをバックアップする必要はありませんが、災害発生時にコンテナを実行および管理する構成...
プロメテウスは再び取り組みを始めました。今回は、openvz、KVM、XEN、ダラス、ミラノのデータ...
最近、セキュリティ アライアンス ウェブマスター プラットフォームの「エキスパート脆弱性修復センター...
テンセントが先週、6つの主要事業グループとテンセント電子商取引ホールディングス社を設立する組織再編を...
北京時間2月26日、海外メディアの報道によると、有名な市場調査機関ByteMobileが発表した20...