8月21日、テンセントクラウドは、128枚のImageNetトレーニングで業界新記録を樹立し、2分31秒というタイムでこの分野の世界記録を更新したと正式に発表した。マシン間のネットワーク帯域幅を変更すると、結果はさらに 2 分 2 秒に改善され、この記録は新たな高さに到達します。 この記録は、パブリック クラウドの 25Gbps VPC ネットワーク環境をベースに、128 個の V100 GPU と、新たに開発された Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを使用して作成されました。最終結果は、ImageNet 28 エポックのトレーニングに 2 分 31 秒かかり、TOP5 の精度は 93% でした。これまでの業界最高記録は2分38秒でした。この記録の背後には、テンセントクラウドインテリジェントチタンチーム、テンセントインテリジェンスチーム、テンセントYoutuラボ、香港バプテスト大学コンピュータサイエンス学部のチュー・シャオウェン教授のチームがいると理解されている。 人工知能の最も重要な基礎技術の一つとして、ディープラーニングの応用はスマートシティやスマート製造など多くのシナリオに急速に拡大しています。しかし、需要の高まりと並行して、膨大なデータと長いトレーニング時間、ますます複雑化するコンピューティング モデル/構造、多数のパラメーター、幅広いハイパーパラメーターなど、ディープラーニングのトレーニングでは多くの問題が発生しています。これらの問題により、ディープラーニングアプリケーション開発の進歩が妨げられてきました。高性能 AI のトレーニングとコンピューティングをどのように実行するかは、AI の生産と研究開発の効率に関係するだけでなく、AI 製品の反復効率と成功した発売にも重要な影響を及ぼします。効率的なトレーニングのための非常に重要なベンチマークは、大規模なビジュアル データベース ImageNet をより短時間でトレーニングする方法です。 このような背景から、Tencent Cloud は複数のチームと協力し、Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを開発し、ディープラーニング トレーニングの速度、マルチマシンおよびマルチカードのスケーラビリティ、バッチ コンバージェンスなどの点で業界に新しいトレーニング ソリューション セットを提供しています。 単一マシンのトレーニング速度に関しては、Tencent Cloud はまず GPU クラウド サーバーのメモリと SSD クラウド ディスクを使用して、トレーニング プロセス中にトレーニング プログラムのデータのプリフェッチとキャッシュを提供し、リモートに保存されたデータへのアクセスを高速化します。多数のスレッドが競合することでCPU効率が低下する問題を解決するため、Tencent Cloudはデータ前処理スレッドの最適な数を自動的に調整してCPU切り替えの負担を軽減し、データ前処理とGPUコンピューティングを並行して実行できるようにすることで、全体的なトレーニング速度を向上させます。 マルチマシン拡張トレーニングでは、従来の TCP 環境では、マシン間通信データをビデオメモリからメインメモリにコピーし、CPU でデータの送受信を行う必要がありました。計算時間が短く、通信時間が長いため、複数のマシンと複数のカードのスケーラビリティが大きな課題となりました。 Tencent Cloud は、Light によってマルチマシントレーニングを効率的に拡張しました。適応勾配融合技術、階層型通信+マルチストリーム手段、階層型TopK圧縮通信アルゴリズムなどにより、通信中のネットワーク帯域幅を最大限に活用し、マシン間通信の時間を最適化します。 さらに、大規模クラスターの計算能力を最大限に活用するために、業界では現在、主にトレーニングのバッチサイズを継続的に増やすことでトレーニング速度を向上させていますが、バッチサイズの増加は精度に影響を与え、損失をもたらします。この問題を解決するために、Tencent Cloud は、大規模バッチパラメータ調整戦略、勾配圧縮精度補正、AutoML パラメータ調整などの方法を通じて、バッチサイズを効果的に増やしながら、精度への影響を最小限に抑えました。 Light 大規模分散マルチマシンおよびマルチカード トレーニング フレームワークとプラットフォームなどの一連の完全なソリューションを通じて、ImageNet トレーニングの結果は新たなブレークスルーを達成しました。効率的なトレーニングを実現するとともに、その機能は Tencent Cloud Intelligent Titanium Machine Learning プラットフォームにも統合され、Tencent の社内外のビジネスで広く使用されています。 次に、共同プロジェクトチームは、機械学習プラットフォームの使いやすさ、トレーニング、推論パフォーマンスをさらに向上させ、安定的で使いやすく、便利で効率的なプラットフォームとサービスを構築し、アルゴリズムエンジニアに強力な機械学習ツールを提供し、各分野のユーザーのビジネス発展を支援します。 |
<<: 2020年テンセントグローバルデジタルエコシステムカンファレンスが9月に開催予定:クラウドへの移行は初めて、デジタル経済の新たなトレンドを解釈
>>: アリババクラウドの収益は上半期に急増し、ディントークとクラウドは化学反応を起こした
2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています1. 貿易...
「当社のウェブサイトは通常、2、3日に1回しかアクセスがありません。ですから、当社の売上高は世界中の...
アリババクラウドは5月29日、エンタープライズレベルのクラウド災害復旧ソリューションをリリースした。...
今日のクラウド セキュリティを理解するのは難しい場合があります。多くのセキュリティ専門家は、「クラウ...
私たちの日常業務はますますデジタル化しており、リモート サーバー ファームに基づくツールやサービスに...
A5 Webmaster Network (www.admin5.com) は12月30日、北京市海...
raksmart は、米国サンノゼの自社データセンターとロサンゼルスのホスティングデータセンターにベ...
Linux の bash の脆弱性が最近大きな話題になっています。この問題はかなり深刻です。できるだ...
サンドボックス期間とは、以下の期間を指します。新しいウェブサイトが立ち上げられると、検索エンジンはそ...
トラフィック配当が消滅したことで、無数のブランドの壮大な野望も消え去り、あるいは歴史の舞台から完全に...
Baidu ウェブサイトの「Baidu とウェブマスター」セクションの内容が更新され、調べる価値のあ...
今後、extravm は米国データセンターの VPS を 30% 割引で提供し、ダラス、マイアミ、ロ...
テンセントテクノロジー胡向報が6月7日に報じた。同社は赤字で上場し、株価は発行価格を下回り、機関投資...
長い間、私はさまざまな SEO グループに参加したり、経験豊富な SEO 担当者とコミュニケーション...
世界の終わりは予想通りには来ず、2012 年も終わりに近づいています。2013 年が近づいています。...