大規模モデル分散並列技術 - データ並列最適化

大規模モデル分散並列技術 - データ並列最適化

コミュニケーションの融合

上記から、各モデル勾配はデータ並列処理で同期される必要があることがわかります。これは、プロセス間の Allreduce 通信を通じて実現されます。モデルに多数のパラメータがある場合、データ並列トレーニングの各ステップで多くの Allreduce 通信が発生します。次の図は、融合勾配同期の例です。

融合勾配同期の例

通信の時間消費は、通信遅延(ランテンシー)とデータ伝送時間消費の 2 つの側面から考えることができます。単一の通信の遅延時間は比較的固定されていますが、送信時間は通信のデータ量と帯域幅によって決まります。通信頻度を減らすことで、総通信消費量を削減できます。コミュニケーションの融合は実現可能な手段です。 N 勾配の Allreduce 通信を 1 つの Allreduce 通信にマージすることで、通信遅延時間を N-1 倍短縮できます。

一般的に使用される Allreduce 融合実装方法は、通信前に複数の勾配テンソルを連続したメモリ アドレスを持つ大きなテンソルに結合します。勾配同期中は、結合された大きなテンソルに対して 1 つの Allreduce 操作のみが実行されます。パラメータを更新する場合、大きなテンソルが分割され、複数の小さなテンソルに復元されて、各勾配に対応するパラメータの更新が完了します。

通信計算の重複

絶対的な通信時間消費を削減するだけでなく、全体的なトレーニング時間消費を削減するという観点から最適化することも可能です。通信とコンピューティングの非同期パイプライン実装を検討できます。データ並列処理における勾配同期 Allreduce 通信は、トレーニングの逆プロセスで実行され、Allreduce 後に得られた同期勾配はトレーニングの更新プロセスで使用されますが、逆プロセスでは使用されません。つまり、前の勾配の通信と次の勾配の計算の間には依存関係はありません。通信と計算を並行して実行できるため、両者の消費時間が重なり合ってカバーされ、逆方向の消費時間が短縮されます。次の図は、通信と計算が重なり合う並列処理の例を示しています

通信計算の並列オーバーラップの例。

通信と計算のオーバーラップは通常、通信演算子と計算演算子を異なるストリームにスケジュールすることによって実現されます。通信演算子は通信ストリームにスケジュールされ、計算演算子は計算ストリームにスケジュールされます。同じストリーム上の演算子は順番に実行されますが、異なるストリーム上の演算子は並列に実行できるため、勾配通信と逆方向の計算の並列オーバーラップが実現します。通信と計算が異なるストリームで実行されるようにスケジュールされている場合、2 つのストリーム間の依存関係と同期関係を考慮する必要があることに注意してください。

  • 勾配の Allreduce 通信が実行される前に、勾配の逆計算が完了しています。
  • 勾配に対応するパラメータの更新計算が開始される前に、勾配の Allreduce 通信が完了しています。

勾配同期のデータ並列シナリオでは、開発者はストリーム間の同期機能を使用して次の点を保証する必要があります。

上記の 2 つの方法は、通信時間の消費を削減し、並列加速率を向上させるために、データ並列処理で一般的に使用される最適化戦略です。通信とコンピューティングの重複が大きい​​ほど、データ並列加速率は 100% に近づき、トレーニング スループットの向上におけるマルチカード並列処理の効率が高まります。

<<:  クラウドって、何がそんなに高いんですか?

>>:  KEDA: K8Sアプリケーションのイベント駆動型拡張の徹底的な実践

推薦する

初心者のタオバオエージェントのウェブサイト構築体験:良いつながりは回り道を避けるのに役立ちます

著者はかつてインターネット企業のプロモーションに携わっていたが、今年、伝統的な企業に入社し、突然時間...

マルチクラウド環境のセキュリティを確保するには、まず問題があることを認識する必要がある

マルチクラウド環境は急速に変化しています。企業には、クラウド専用に構築され、デジタル変革戦略に沿った...

ライブクイズやゲームのライブストリーミングは人気がありますが、eコマースのライブストリーミングのパフォーマンスがそれほど良くないのはなぜでしょうか?

最近、中国エンターテインメントシンクタンクが共同で発表した「2017年中国オンライン実績(生放送)発...

電子書籍のマーケティングとプロモーションの方法を共有する

オンラインでのプロモーションの手段は豊富で多様です。プロモーションの深さだけでなく、プロモーションの...

Ramnode は少なくとも 3 つの無料 IP を取得できることをご存知ですか?

Ramnode では最近、最大 58% オフの割引コード [おすすめ: Ramnode - 4 月は...

高いスコアのBaidu SEO提案を簡単に作成

同社のウェブサイトは開設から1か月以上が経過しており、百度のインデックスとクロール量はかなり多い。し...

機械モールプラットフォームウェブサイトの運営において解決すべき問題点

モールサイトは一般的な企業サイトとは異なります。企業サイトは、多くの場合、いくつかのキーワードランキ...

BandwagonHost CN2 を選択するには?どちらの Bricklayer コンピュータ ルームの方が高速ですか?

BandwagonHost CN2 を選択するには? BandwagonHost CN2 のどれが速...

Rfchost-US DCS コンピュータ ルーム/CN2/Xen/ネットワーク爆発/簡易テスト

今日は役に立つ情報がないのでどうやって更新するか悩んでいたので、Cyyzaid の VPS (rfc...

中国の.BIZドメイン名は63,433のドメイン名で6位にランクされ、948の純増となった。

IDC Review Network (idcps.com) は 3 月 19 日に次のように報告し...

開発者に優しい DevSecOps のヒント 5 つ

ここでは、セキュリティ ツールを使いやすくして、より安全な製品をより早くリリースできるようにすること...

生鮮食品電子商取引会社TuoTu Gongsheの「前例のない」成長の物語

16世紀後半の大航海時代に、オランダは西アジア半島からチューリップを持ち込みました。その後、チューリ...

ウェブサイトへのユーザーの定着率を高める3つの方法

ウェブサイトの粘着性を確認するには、サイトの PV と IP の比率を確認します。 PV と IP ...

ヒット商品の鍵は、オフサイトトラフィック+オンサイトガイダンス=売上というシンプルなものです。

はじめに: 小売業者の販売判断は、一般的には自身の販売経験から来ています。販売傾向グラフに基づいて直...

マイクロマーケティングの実践スキル

私は個人的にWeChatにあまり興味がありませんが、WeChatが本当に強力であることは事実です。W...