アリババはAI分野で4つの「オスカー」賞を受賞した。 AIはビデオターゲットの位置を正確に予測できる

アリババはAI分野で4つの「オスカー」賞を受賞した。 AIはビデオターゲットの位置を正確に予測できる

先日、世界最高峰のコンピュータービジョンカンファレンスであるCVPR 2020が主要なチャレンジの結果を発表しました。アリババは4つの大会で世界選手権に優勝した。その中で、最も難しかったDAVISチャレンジにおいて、アリババは映像ターゲットの位置を正確に予測できる手法を提案し、80点以上の得点で初めて1位を獲得した。

CVPR は AI 分野における最大のカンファレンスであり、コンピューター ビジョン分野の「オスカー賞」として知られています。コンピューター ビジョンの分野における将来を見据えた学術研究と産業アプリケーションを取り上げます。会議の研究結果は、ビジュアル AI 分野の研究動向を反映しています。ビデオ会議やライブストリーミングなどのアプリケーションがますます普及するにつれて、トップテクノロジー企業の今年の研究成果は、画像からビデオ分野へと徐々に広がり、ビデオ圧縮、ビデオセグメンテーション、3次元ビジョンなどの領域をカバーしています。

画像認識とは異なり、AI がビデオを分析して理解するための技術的なハードルは高くなります。長い間、ビデオ AI 技術の研究において業界で大きな進歩が見られることはほとんどありませんでした。 CVPR カンファレンスで最も難しい競技の 1 つである DAVIS (Densely Annotated Video Segmentation) を例に挙げてみましょう。このコンテストでは、参加チームは複雑なビデオ内の急速な動き、外観の変化、オブジェクトの遮蔽などの情報を正確に処理する必要があります。過去数年間、世界トップクラスのテクノロジーがこの競争で80点以上を獲得したことは一度もありません。

アリババが参加した4つのコンテストはいずれもビデオ技術分野のものだと報じられている。デイビスチャレンジでは、アリ選手が初の躍進を遂げ、昨年の1位より7.4ポイント高い84.1点で優勝した。

Alibaba AIはDAVISコンペティションで84.1点を獲得し、優勝した。

公開情報によると、アリババは従来のSTM方式における時間的順序の欠如というボトルネックを打破する新しい空間制約方式を提供し、システムがビデオの前のフレームに基づいて次のフレームの対象オブジェクトの位置を予測できるようにしています。さらに、アリババはセマンティックセグメンテーションにおいて洗練されたセグメンテーション微調整モジュールも導入し、セグメンテーションのレベルを大幅に向上させました。最後に、動的ターゲットの輪郭境界が正確に識別され、背景から分離されて、ピクセルレベルのターゲットセグメンテーションが実現されます。

Alibaba AI は、ビデオの前のフレームに基づいて、次のフレームの対象オブジェクトの位置を正確に予測できます。

業界関係者は一般的に、ビデオセグメンテーション技術がオンライン会議、ライブストリーミング、自動運転、映画やテレビ番組の制作などのシナリオの標準になると考えています。たとえば、ライブ放送のシナリオでは、Alibaba AI アルゴリズムを使用して 1 秒で背景を置き換えることができます。自動運転では、ビデオセグメンテーションは自動運転システムが障害物を識別するための重要な技術でもあります。

アリババは4つのコンテストで優勝したほか、自動運転分野の研究成果を含む17本の論文がCVPR 2020に選ばれたと報じられている。本論文では、3D物体検出の精度と速度の両方を初めて実現し、自動運転システムの安全性能を効果的に向上させる汎用的で高性能な自動運転検出器を提案しています。

現在、アリババのビジュアルAI技術は、世界で大規模な実装を実現する上で先頭に立っています。例えば、この技術は、City Brain、Pailitao、Youku Video など、Alibaba グループの内部ビジネス シナリオで大規模に使用されています。アリババのCT画像AIは、世界中の600以上の医療機関にサービスを提供しており、流行期間中に50万件以上の症例の臨床診断を完了した。

<<:  クラウドコンピューティング: 5G と IoT の未来

>>:  ファーウェイの石耀宏氏:産業のアップグレードの重要な10年、ファーウェイのクラウドとコンピューティングは企業の追い越し達成を支援する

推薦する

gfrack: 安価な米国 VPS、月額 25 元、4G メモリ/2 コア/50g SSD/2T トラフィック

gfrack は、米国ロサンゼルスの QN データセンターにサーバーを追加しました。新しい VPS ...

AWS、COVID-19の薬物検査を加速

[51CTO.comよりオリジナル記事] 庚子年の初めに新型コロナウイルスが流行し、人々の仕事や生活...

Diggの失敗の暴露:ソーシャルメディアの価値はユーザーにある

アトランティック・マンスリーのオンライン版は本日、かつて人気を博したソーシャルニュースサイト「ディグ...

従来の運用とメンテナンス、なくなるまでどれくらいかかりますか?

[[330394]] 「仮想化」、「パブリッククラウド」、「ハイブリッドクラウド」、「コンテナ」、「...

コンテンツキーワードレイアウトがランキングに与える影響の分析

みなさんこんにちは。私は徐子宇です。ウェブサイトはユーザー中心なので、ウェブサイトの最適化の過程でよ...

百度はウェブサイトを更新し、「毛抜き」の理由について推測している。

最近、Baidu のアルゴリズムが更新されました。残念ながら、私の小さなウェブサイトの 1 つが B...

Red Hat、ソフトウェアサプライチェーンからエッジまでのセキュリティを強化する新機能をリリース

オープンソース ソリューションの世界的大手プロバイダーである Red Hat は最近、オープン ハイ...

卵と 30 セントではどちらがユーザー エクスペリエンスが向上するでしょうか?

生鮮食品スーパーは、これまでも一部の電子商取引企業の夢であり、一部の電子商取引大手もこの分野に参入し...

ミニプログラム遺伝子理論:BATはどんな世界につながるのか?

現在、WeChat、Alipay、Baidu APPはいずれもミニプログラムの「補助」モードを開始し...

WeChatは電子商取引を通じてトラフィックを収益化したいと考えています。それでも美しく見えます

先日、各自メディアがひっそりと「偶然」にWeChat 5.0の新バージョンを公開しました。公衆アカウ...

世界最大のドメイン名サービスプロバイダーGoDaddyが1億ドルの資金調達の目論見書を提出

世界最大のドメイン名サービスプロバイダーGoDaddyが目論見書を提出新浪科技ニュース:北京時間6月...

Bo Baiyou コンペティションの分析からどのような洞察が得られましたか?

まず、第4回「博百有」ウェブマスターコンテストが成功裏に開催されたことをお祝い申し上げます。これはも...

エッジコンピューティング クラウドネイティブ オープンソース ソリューションの比較

Kubernetes はコンテナ オーケストレーションとスケジューリングの事実上の標準となっているた...

QingCloud が正式に発表: ジャカルタ パブリック クラウド ゾーンが正式にオープン

[元記事は51CTO.comより] 12月25日、 QingCloud副社長の林元氏はメディアに対し...