テンセントクラウドがImageNetのトレーニング記録を2分31秒で破り、新たな記録が樹立された。

テンセントクラウドがImageNetのトレーニング記録を2分31秒で破り、新たな記録が樹立された。

8月21日、テンセントクラウドは、128枚のImageNetトレーニングで業界新記録を樹立し、2分31秒というタイムでこの分野の世界記録を更新したと正式に発表した。マシン間のネットワーク帯域幅を変更すると、結果はさらに 2 分 2 秒に改善され、この記録は新たな高さに到達します。

この記録は、パブリック クラウドの 25Gbps VPC ネットワーク環境をベースに、128 個の V100 GPU と、新たに開発された Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを使用して作成されました。最終結果は、ImageNet 28 エポックのトレーニングに 2 分 31 秒かかり、TOP5 の精度は 93% でした。これまでの業界最高記録は2分38秒でした。この記録の背後には、テンセントクラウドインテリジェントチタンチーム、テンセントインテリジェンスチーム、テンセントYoutuラボ、香港バプテスト大学コンピュータサイエンス学部のチュー・シャオウェン教授のチームがいると理解されている。

人工知能の最も重要な基礎技術の一つとして、ディープラーニングの応用はスマートシティやスマート製造など多くのシナリオに急速に拡大しています。しかし、需要の高まりと並行して、膨大なデータと長いトレーニング時間、ますます複雑化するコンピューティング モデル/構造、多数のパラメーター、幅広いハイパーパラメーターなど、ディープラーニングのトレーニングでは多くの問題が発生しています。これらの問題により、ディープラーニングアプリケーション開発の進歩が妨げられてきました。高性能 AI のトレーニングとコンピューティングをどのように実行するかは、AI の生産と研究開発の効率に関係するだけでなく、AI 製品の反復効率と成功した発売にも重要な影響を及ぼします。効率的なトレーニングのための非常に重要なベンチマークは、大規模なビジュアル データベース ImageNet をより短時間でトレーニングする方法です。

このような背景から、Tencent Cloud は複数のチームと協力し、Light 大規模分散型マルチマシンおよびマルチカード トレーニング フレームワークを開発し、ディープラーニング トレーニングの速度、マルチマシンおよびマルチカードのスケーラビリティ、バッチ コンバージェンスなどの点で業界に新しいトレーニング ソリューション セットを提供しています。

単一マシンのトレーニング速度に関しては、Tencent Cloud はまず GPU クラウド サーバーのメモリと SSD クラウド ディスクを使用して、トレーニング プロセス中にトレーニング プログラムのデータのプリフェッチとキャッシュを提供し、リモートに保存されたデータへのアクセスを高速化します。多数のスレッドが競合することでCPU効率が低下する問題を解決するため、Tencent Cloudはデータ前処理スレッドの最適な数を自動的に調整してCPU切り替えの負担を軽減し、データ前処理とGPUコンピューティングを並行して実行できるようにすることで、全体的なトレーニング速度を向上させます。

マルチマシン拡張トレーニングでは、従来の TCP 環境では、マシン間通信データをビデオメモリからメインメモリにコピーし、CPU でデータの送受信を行う必要がありました。計算時間が短く、通信時間が長いため、複数のマシンと複数のカードのスケーラビリティが大きな課題となりました。 Tencent Cloud は、Light によってマルチマシントレーニングを効率的に拡張しました。適応勾配融合技術、階層型通信+マルチストリーム手段、階層型TopK圧縮通信アルゴリズムなどにより、通信中のネットワーク帯域幅を最大限に活用し、マシン間通信の時間を最適化します。

さらに、大規模クラスターの計算能力を最大限に活用するために、業界では現在、主にトレーニングのバッチサイズを継続的に増やすことでトレーニング速度を向上させていますが、バッチサイズの増加は精度に影響を与え、損失をもたらします。この問題を解決するために、Tencent Cloud は、大規模バッチパラメータ調整戦略、勾配圧縮精度補正、AutoML パラメータ調整などの方法を通じて、バッチサイズを効果的に増やしながら、精度への影響を最小限に抑えました。

Light 大規模分散マルチマシンおよびマルチカード トレーニング フレームワークとプラットフォームなどの一連の完全なソリューションを通じて、ImageNet トレーニングの結果は新たなブレークスルーを達成しました。効率的なトレーニングを実現するとともに、その機能は Tencent Cloud Intelligent Titanium Machine Learning プラットフォームにも統合され、Tencent の社内外のビジネスで広く使用されています。

次に、共同プロジェクトチームは、機械学習プラットフォームの使いやすさ、トレーニング、推論パフォーマンスをさらに向上させ、安定的で使いやすく、便利で効率的なプラットフォームとサービスを構築し、アルゴリズムエンジニアに強力な機械学習ツールを提供し、各分野のユーザーのビジネス発展を支援します。

<<:  2020年テンセントグローバルデジタルエコシステムカンファレンスが9月に開催予定:クラウドへの移行は初めて、デジタル経済の新たなトレンドを解釈

>>:  アリババクラウドの収益は上半期に急増し、ディントークとクラウドは化学反応を起こした

推薦する

タオバオの婦人服をより強力かつ大規模にするための鍵はサプライチェーンにある

淘宝網で婦人服を販売すると、十分な規模の消費者基盤が得られますが、同時に競争も倍増します。新しい店舗...

インテル: データセンターはたった 1 つのチップで動く

[[7040]]インテル最高技術責任者、ジャスティン・ライトナー1980 年代、インテルの最高技術責...

Java プログラムでよく使用されるメモリ モジュールは何ですか?

序文コードを書くときは通常、コードとオブジェクト間のフローに重点を置きます。しかし実際のところ、Ja...

マルチクラウド導入のためのエンタープライズガイド

企業の IT リーダーと専門家は、組織におけるマルチクラウドの導入についてさらに学ぶ必要があります。...

ウェブマスターネットワークニュース: 12306 がチケット盗用ソフトウェアをブロック、Alipay ウォレットが財務管理セクションを改善

1.12306はオンラインチケット取得ソフトウェアをブロックします昨日、鉄道旅客乗車券システム監視セ...

ガートナーの予測: 世界のパブリッククラウドの規模は2019年に2,143億ドルに達する

最近、世界有数の情報技術調査・コンサルティング会社であるガートナーは、世界のパブリッククラウドサービ...

Baidu アルゴリズムは継続的に更新されます。Web サイトを最適化するにはどうすればよいでしょうか?

数日前、SEO 最適化の終焉に関する記事をオンラインで目にし、とても感動しました。最近では、「百度緑...

Googleウェブマスターツールはより正確なバックリンクデータを提供する

既存の Google バックリンク ツールでは、約 100,000 件のクエリ可能なバックリンク デ...

五英クラウドコンピュータは、アリババクラウドのグローバルリソースにワンストップで接続し、企業のリモート業務再開を24時間365日サポートします。

世界の産業チェーンの注目の下、深センは秩序正しく業務を再開している。多くの地元テクノロジー企業が、新...

これらを実行すればクラウド移行の準備は完了です

デジタル経済の活発な発展は、デジタル変革と切り離せないものです。現在、90% 以上の企業がクラウドへ...

Yituan.comはダブル12期間中も中小企業の発展を支援し続けます

アリペイの取引額は350億元で、ダイヤモンドは1個あたり2050万元、寝具は1個あたり300万元、資...

Raysync: プロフェッショナルな大容量ファイル転送ソリューション

転送速度が遅い、接続が切れる、プライバシーが漏れる、操作が不便... 個人でも企業でも、ファイル(特...

VirMach-$1/128m メモリ/5g SSD/100g フロー/10m ポート/ニューヨーク

VirMach のサーバーはバッファロー (ニューヨーク) でホストされており、将来的には他のデータ...

ASOキーワード選定スキル!

誰もが知っているように、新しい携帯電話を入手した後の最初のステップは、アプリ ストアにアクセスし、推...

市場規模は1300億元に達し、わが国のクラウドコンピューティングの発展は黄金期に入った

私の国は主要な製造国であるだけでなく、クラウド コンピューティングの発展に肥沃な土壌を提供する主要な...