8月21日、テンセントクラウドは、128枚のImageNetトレーニングで業界新記録を樹立し、2分31秒というタイムでこの分野の世界記録を更新したと正式に発表した。マシン間のネットワーク帯域幅を変更すると、結果はさらに 2 分 2 秒に改善され、この記録は新たな高さに到達します。 この記録は、パブリック クラウドの 25Gbps VPC ネットワーク環境をベースに、128 個の V100 GPU と、新たに開発された Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを使用して作成されました。最終結果は、ImageNet 28 エポックのトレーニングに 2 分 31 秒かかり、TOP5 の精度は 93% でした。これまでの業界最高記録は2分38秒でした。この記録の背後には、テンセントクラウドインテリジェントチタンチーム、テンセントインテリジェンスチーム、テンセントYoutuラボ、香港バプテスト大学コンピュータサイエンス学部のチュー・シャオウェン教授のチームがいると理解されている。 人工知能の最も重要な基礎技術の一つとして、ディープラーニングの応用はスマートシティやスマート製造など多くのシナリオに急速に拡大しています。しかし、需要の高まりと並行して、膨大なデータと長いトレーニング時間、ますます複雑化するコンピューティング モデル/構造、多数のパラメーター、幅広いハイパーパラメーターなど、ディープラーニングのトレーニングでは多くの問題が発生しています。これらの問題により、ディープラーニングアプリケーション開発の進歩が妨げられてきました。高性能 AI のトレーニングとコンピューティングをどのように実行するかは、AI の生産と研究開発の効率に関係するだけでなく、AI 製品の反復効率と成功した発売にも重要な影響を及ぼします。効率的なトレーニングのための非常に重要なベンチマークは、大規模なビジュアル データベース ImageNet をより短時間でトレーニングする方法です。 このような背景から、Tencent Cloud は複数のチームと協力し、Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを開発し、ディープラーニング トレーニングの速度、マルチマシンおよびマルチカードのスケーラビリティ、バッチ コンバージェンスなどの点で業界に新しいトレーニング ソリューション セットを提供しています。 単一マシンのトレーニング速度に関しては、Tencent Cloud はまず GPU クラウド サーバーのメモリと SSD クラウド ディスクを使用して、トレーニング プロセス中にトレーニング プログラムのデータのプリフェッチとキャッシュを提供し、リモートに保存されたデータへのアクセスを高速化します。多数のスレッドが競合することでCPU効率が低下する問題を解決するため、Tencent Cloudはデータ前処理スレッドの最適な数を自動的に調整してCPU切り替えの負担を軽減し、データ前処理とGPUコンピューティングを並行して実行できるようにすることで、全体的なトレーニング速度を向上させます。 マルチマシン拡張トレーニングでは、従来の TCP 環境では、マシン間通信データをビデオメモリからメインメモリにコピーし、CPU でデータの送受信を行う必要がありました。計算時間が短く、通信時間が長いため、複数のマシンと複数のカードのスケーラビリティが大きな課題となりました。 Tencent Cloud は、Light によってマルチマシントレーニングを効率的に拡張しました。適応勾配融合技術、階層型通信+マルチストリーム手段、階層型TopK圧縮通信アルゴリズムなどにより、通信中のネットワーク帯域幅を最大限に活用し、マシン間通信の時間を最適化します。 さらに、大規模クラスターの計算能力を最大限に活用するために、業界では現在、主にトレーニングのバッチサイズを継続的に増やすことでトレーニング速度を向上させていますが、バッチサイズの増加は精度に影響を与え、損失をもたらします。この問題を解決するために、Tencent Cloud は、大規模バッチパラメータ調整戦略、勾配圧縮精度補正、AutoML パラメータ調整などの方法を通じて、バッチサイズを効果的に増やしながら、精度への影響を最小限に抑えました。 Light 大規模分散マルチマシンおよびマルチカード トレーニング フレームワークとプラットフォームなどの一連の完全なソリューションを通じて、ImageNet トレーニングの結果は新たなブレークスルーを達成しました。効率的なトレーニングを実現するとともに、その機能は Tencent Cloud Intelligent Titanium Machine Learning プラットフォームにも統合され、Tencent の社内外のビジネスで広く使用されています。 次に、共同プロジェクトチームは、機械学習プラットフォームの使いやすさ、トレーニング、推論パフォーマンスをさらに向上させ、安定的で使いやすく、便利で効率的なプラットフォームとサービスを構築し、アルゴリズムエンジニアに強力な機械学習ツールを提供し、各分野のユーザーのビジネス発展を支援します。 |
<<: 2020年テンセントグローバルデジタルエコシステムカンファレンスが9月に開催予定:クラウドへの移行は初めて、デジタル経済の新たなトレンドを解釈
>>: アリババクラウドの収益は上半期に急増し、ディントークとクラウドは化学反応を起こした
Pacificrack は一昨日 80% 割引をリリースしましたが、提供された構成は 2 つだけでし...
少し前に Pangu と Jikesou が合併するという噂を耳にしたことがあるでしょうか。まだ結論...
DoNews 6月5日のニュース: ニュースクライアント「今日頭条」が新たな高額資金調達ラウンドの完...
1. 複数の宅配会社の顧客情報が販売された:注文番号ごとに0.5元のみ最近、宅配便の番号情報が大規模...
前書き: ウェブマスターは、Baidu の重みについてよく知っていると同時に、よく知らないこともあり...
はじめに: 雷軍はインターネットの考え方を「集中、極限、口コミ、高速」という 7 つの単語に凝縮しま...
ハイパースケール パブリック クラウドの台頭、複数のハイブリッド クラウド導入戦略の出現、アプリケー...
最近、International Data Corporation(IDC)が発表した「中国エッジク...
[[429331]]私はcloud3です。少し前に、仮想マシンにメモリの問題が発生しました。今日は、...
過去 2 年間で、多くのインターネット製品が、さまざまなデバイスやブラウザの制限を克服するためにレス...
百度は以前、「外部リンクの判定について」という記事を発表し、不正行為とみなされる外部リンクを多数詳細...
SEOスキルを向上させる3つのステップSEO は運用スキルではなく、思考の角度を改善することだと多く...
多くのウェブサイトのホームページが Baidu に含まれているのに、ウェブサイトの内部ページがまだ含...
中国文化は奥深く、長い歴史を持っています。漢字は深い文化的遺産を持ち、多くの意味を表しています。オン...
今日はイベント駆動型メッシュであるEventMeshについてお話します。実際、クラウド ネイティブ ...