最近、アリババクラウドPAIチームとDAMOアカデミーインテリジェントコンピューティングラボは、巨大モデルM6の「低炭素バージョン」を共同でリリースしました。これにより、数兆個のパラメータを持つ超大規模モデルのトレーニングのエネルギー消費が大幅に削減されます。当社が独自に開発した Whale フレームワークの助けを借りて、わずか 480 枚の GPU カードを使用して、人間のニューロンの 10 倍の大きさである 1 兆パラメータのマルチモーダル大規模モデル M6 をトレーニングしました。従来の海外企業が達成した兆パラメータ規模と比較すると、エネルギー消費量は80%以上削減され、効率は11倍近く向上しました。 M6は中国で商品化された初の大型マルチモーダルモデルです。 M6 は従来の AI を超える認知能力と創造力を備えています。絵を描くこと、書くこと、質疑応答が得意です。電子商取引、製造、文学、芸術など、多くの分野で幅広い応用が期待されています。 ここでは、1兆パラメータのモデルトレーニングをサポートするWhaleフレームワークの設計を紹介します。 1. モデル開発の動向と課題1. モデル開発動向ディープラーニングの普及に伴い、モデルのパラメータサイズも急速に増加しました。 OpenAI のデータは次のことを示しています:
過去 1 年間で、モデル パラメータの規模は急速に拡大しました。 Google、NVIDIA、Alibaba、ARIはいずれも兆単位のパラメータを持つモデルをリリースしており、大手企業の中には数百億、数千億のパラメータを持つモデルをリリースしているところもあります。同時に、モデルパラメータの規模が大きくなるにつれて、モデル効果も徐々に向上しています。 Nvidia は Bert モデルのさまざまなパラメータ スケールをテストし、モデル パラメータのスケールが増加するにつれてモデルの困惑度が減少することを発見しました。 Google は GShard の論文で、MoETransformer モデルのパラメータが大きいほど翻訳の品質が高くなることを発見しました。 2. 大規模モデルトレーニングの課題大規模なモデルはモデルのパフォーマンスを向上させますが、トレーニング フレームワークに大きな課題をもたらします。たとえば、1兆規模のモデルをトレーニングする場合、次のような課題に直面します。
現在、Horovod、Tensorflow Estimator、PyTorch DDP など、データ並列処理をサポートする分散トレーニング フレームワークがいくつかあります。パイプラインの並列処理をサポートする Gpipe、PipeDream、PipeMare など。演算子分割をサポートする Mesh Tensorflow、FlexFlow、OneFlow、MindSpore など。ただし、これらのフレームワークにはまだいくつかの欠点があります。
分散トレーニングの現在の課題に対処するために、私たちは以下の主な目標を掲げて分散トレーニング フレームワーク Whale を開発しました。
2. PAIが独自に開発したWhaleフレームワーク1. クジラの建築私たちは、複数の並列戦略を統合し、次のような観点から分散トレーニングの課題に対処する高性能な分散トレーニング フレームワークである Whale をリリースしました。
Whale フレームワークは下図のとおりで、主に 4 つのモジュールに分かれています。
2. クジラの紹介 使いやすいインターフェースWhale は、さまざまな並列戦略を記述するための簡潔で使いやすいインターフェースを提供します。主なプリミティブは次のとおりです。
これらのインターフェースを使用すると、次のようなさまざまな並列戦略を組み合わせることができます。
パイプライン並列処理 + データ並列処理: その他の並列戦略の例: 3. クジラの訓練プロセスWhale を使用した分散トレーニング プロセス:
3. 兆M6モデルの事前トレーニング1兆ドルモデルには膨大な計算能力が必要です。計算能力の要件を削減するために、Whale は MoE (Mixture-of-Experts) 構造を実装します。 MoE の主な特徴はスパース活性化です。ゲーティング (ルーター) は、入力計算の上位 k 人のエキスパート (k は通常 1 または 2) を選択するために使用され、計算能力の要件が大幅に削減されます。 Whale は MoE (Mixture-of-Experts) レイヤーを実装し、エキスパートの並列処理をサポートし、エキスパートを複数のデバイスに分割して、単一デバイスのメモリと計算能力の要件を削減します。同時に、データの並列処理はトレーニングの同時実行性の向上に役立ちます。そのため、M6 モデルのトレーニングには、データ並列処理とエキスパート並列処理を組み合わせたハイブリッド並列戦略が採用されています。MoElayer はエキスパート並列処理を採用し、他のレイヤーはデータ並列処理を採用しています。 Whale は、モデルのハイブリッド並列トレーニングのためのシンプルで使いやすいインターフェースを提供します。並列戦略を構成するには、数行の注釈を追加するだけでよく、モデル自体を変更する必要はありません。 M6モデルは、データ並列処理+エキスパート並列処理の戦略を採用しています。次の注釈を追加するだけです。 同時に、トレーニング リソースを節約し、トレーニング効率を向上させるために、Whale はさまざまな最適化テクノロジを提供します。 ビデオメモリの最適化:
コンピューティングと通信の高速化:
IV.結論モデルパラメータの規模はますます大きくなり、大規模モデルが開発トレンドとなってきました。超大規模モデルのトレーニングの課題に対処するために、私たちは独自の Whale フレームワークを開発しました。このフレームワークは、さまざまな並列化戦略を統一された方法で抽象化およびカプセル化し、分散トレーニング フレームワークで複数の並列化戦略をサポートします。 Whale はシンプルで使いやすいインターフェースを提供します。ユーザーは、モデル自体を変更することなく、数行の注釈を追加するだけでさまざまな並列戦略を実装できます。同時に、ハードウェア リソース、ネットワーク トポロジ、モデルを組み合わせてハードウェアとソフトウェアを最適化し、効率的な分散トレーニング フレームワークを提供します。 Whaleフレームワークを通じて、480枚のV100 GPUカードを使用して1兆規模のモデルをトレーニングし、3日以内にモデルトレーニングの収束を完了し、超大規模モデルトレーニングの実装を可能にしました。今後はWhaleフレームワークをさらに改良し、大規模化、高速化、コスト効率の向上という3つの側面から機能を拡張していきます。同時に、より多くのビジネス シナリオで Whale 機能の実装を促進し、技術機能から製品機能への変革を可能にします。 |
<<: クラウドネイティブの進化のトレンドにおける従来のデータベースアップグレードの実践
>>: Longhorn クラウドネイティブ分散ブロックストレージソリューションの設計アーキテクチャとコンセプト
5月8日から9日まで、中国情報協会主催の年次顧客サービス業界カンファレンス「2019年(第3回)中国...
小紅書が厳選したブランドの「白くてお金持ちで美しい」セレブたちは、華やかなアウターを脱ぐと、実は潜在...
たとえウェブサイトが大々的に宣伝されていても、コンテンツがなければユーザーを維持できず、宣伝は無駄に...
SEO 最適化に関しては、「コンテンツが王様、外部リンクが女王様」とよく言われます。ウェブサイトでは...
ウェブサイト分析では、ウェブサイト最適化テストを実行して、直帰率、注文購入率、ボタンクリック率など、...
anynode は、OpenVZ7 仮想 VPS をベースにした新しい製品シリーズをリリースしました...
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますモバイルフ...
バーチャルアイドルやデジタルヒューマンライブストリーミングなどの新しいライブストリーミングモードが人...
最近、鉄道省の「新世代乗車券システム」をめぐって多くのニュースやコメントが出ています。実は、私は長い...
Dedecms は中国で最も広く使用されている CMS システムです。オープンソース、使いやすさ、強...
現代社会は消費社会の段階に入っています。これは軽蔑的な言葉ではなく、消費が社会の主な活動となっている...
millenial.host は hosthongkong のサブブランドのようです。現在、香港 N...
SEOに取り組む過程で、誰もが何らかの問題に遭遇します。誰もがこれらの一般的なSEOの問題をより明確...
404 ページはウェブサイトの中で非常に重要なページであり、すべてのウェブサイトに 404 ページが...
今日、経済のグローバル化は不可逆的な流れとなっている。中国企業も経済のグローバル化の流れの中でますま...