大規模モデル分散並列技術 - データ並列最適化

大規模モデル分散並列技術 - データ並列最適化

コミュニケーションの融合

上記から、各モデル勾配はデータ並列処理で同期される必要があることがわかります。これは、プロセス間の Allreduce 通信を通じて実現されます。モデルに多数のパラメータがある場合、データ並列トレーニングの各ステップで多くの Allreduce 通信が発生します。次の図は、融合勾配同期の例です。

融合勾配同期の例

通信の時間消費は、通信遅延(ランテンシー)とデータ伝送時間消費の 2 つの側面から考えることができます。単一の通信の遅延時間は比較的固定されていますが、送信時間は通信のデータ量と帯域幅によって決まります。通信頻度を減らすことで、総通信消費量を削減できます。コミュニケーションの融合は実現可能な手段です。 N 勾配の Allreduce 通信を 1 つの Allreduce 通信にマージすることで、通信遅延時間を N-1 倍短縮できます。

一般的に使用される Allreduce 融合実装方法は、通信前に複数の勾配テンソルを連続したメモリ アドレスを持つ大きなテンソルに結合します。勾配同期中は、結合された大きなテンソルに対して 1 つの Allreduce 操作のみが実行されます。パラメータを更新する場合、大きなテンソルが分割され、複数の小さなテンソルに復元されて、各勾配に対応するパラメータの更新が完了します。

通信計算の重複

絶対的な通信時間消費を削減するだけでなく、全体的なトレーニング時間消費を削減するという観点から最適化することも可能です。通信とコンピューティングの非同期パイプライン実装を検討できます。データ並列処理における勾配同期 Allreduce 通信は、トレーニングの逆プロセスで実行され、Allreduce 後に得られた同期勾配はトレーニングの更新プロセスで使用されますが、逆プロセスでは使用されません。つまり、前の勾配の通信と次の勾配の計算の間には依存関係はありません。通信と計算を並行して実行できるため、両者の消費時間が重なり合ってカバーされ、逆方向の消費時間が短縮されます。次の図は、通信と計算が重なり合う並列処理の例を示しています

通信計算の並列オーバーラップの例。

通信と計算のオーバーラップは通常、通信演算子と計算演算子を異なるストリームにスケジュールすることによって実現されます。通信演算子は通信ストリームにスケジュールされ、計算演算子は計算ストリームにスケジュールされます。同じストリーム上の演算子は順番に実行されますが、異なるストリーム上の演算子は並列に実行できるため、勾配通信と逆方向の計算の並列オーバーラップが実現します。通信と計算が異なるストリームで実行されるようにスケジュールされている場合、2 つのストリーム間の依存関係と同期関係を考慮する必要があることに注意してください。

  • 勾配の Allreduce 通信が実行される前に、勾配の逆計算が完了しています。
  • 勾配に対応するパラメータの更新計算が開始される前に、勾配の Allreduce 通信が完了しています。

勾配同期のデータ並列シナリオでは、開発者はストリーム間の同期機能を使用して次の点を保証する必要があります。

上記の 2 つの方法は、通信時間の消費を削減し、並列加速率を向上させるために、データ並列処理で一般的に使用される最適化戦略です。通信とコンピューティングの重複が大きい​​ほど、データ並列加速率は 100% に近づき、トレーニング スループットの向上におけるマルチカード並列処理の効率が高まります。

<<:  クラウドって、何がそんなに高いんですか?

>>:  KEDA: K8Sアプリケーションのイベント駆動型拡張の徹底的な実践

推薦する

2020 年のクラウド移行の最大の課題

クラウド コンピューティングの人気は高まり続けていますが、競争で優位に立つためには、2020 年にク...

よく使われる 4 つの HTML5 モバイル アプリケーション フレームワークの比較

[編集者注] この記事の翻訳者は Fan Xiaohu です。モバイル Web にとって、今は急成長...

Amazon Cloud は、「コンピューティングパワーの爆発的増加 + グローバルレイアウト」の課題に対応するために、技術革新を続けています。

今日の世界を見ると、前例のない課題が存在します。イノベーションに注力することによってのみ、さらなる成...

友情のつながりの重要性と形態を分析する

SEO を行う人にとって、最も価値のあるリソースは外部リンクです。 Baidu や Soso などの...

企業ウェブサイトの SEO コンテンツを最適化する方法

SEO 業界では、「コンテンツは王様、外部リンクは女王」という格言があり、SEO コンテンツの最適化...

ウェブサイトのSEOを行う際に特に注意が必要な5つの側面

認めるかどうかは別として、ランキングが良くないのは検索エンジンの調子が悪いとかそういう理由ではなく、...

weloveservers-50G ハードディスク/無制限のウェブサイト構築/1T トラフィック/仮想ホスト/年間 5 USD の支払い

weloveservers は、ほぼ 1 年前からある新しい VPS プロバイダーです。最も有名なの...

CAP定理 - 不可能な選択

「安い、早い、良い、2つ選んでください」? CAP 定理: ケーキを食べて、それをまた手に入れること...

インターネットマーケティングの本質:訪問者に信頼してもらう

インターネットは、多くの草の根起業家にとって人気のプラットフォームです。誰もが、インターネットでビジ...

エッジコンピューティングはクラウドコンピューティングベンダーにとって決定的な要素となる

トレンドフォースが23日に発表した解説によると、モノのインターネットや人工知能などの新興技術が普及し...

モバイルアプリケーションがモバイル広告収入の主な成長源となる

新浪科技ニュース:北京時間4月22日朝のニュース、市場調査会社Strategy Analyticsが...

テンセントクラウドデータベースが国信証券に上陸、1日平均取引量が数十億に上る

3月7日、テンセントクラウドデータベースTDSQLが国森証券の業務システムに導入され、システムが3ヶ...

私の国はクラウド分野では依然として後進国であるが、米国は依然として主導的な地位を維持している。

世界各国の技術競争が激化する中、企業のデジタル変革の基盤となるクラウドコンピューティングは、その強力...

ftech: 月額 20 ドル、ベトナム VPS、1Gbps 帯域幅、無制限トラフィック、4G メモリ/2 コア/25g SSD、Windows/Linux

ftechはベトナム企業で、2009年に設立され、2009年から運営されています。主な事業は、仮想ホ...

#11.11# 加速クラウド:1週間900元、国内独立サーバー、50M専用BGP帯域幅、100G DDoS高防御+ CC攻撃無視、このサイトと同じ

加速クラウドは、棗荘の伝説的な最大のコンピュータルームでもある山東省魯南ビッグデータセンターのコンピ...