ビデオ検索は必要ですか?

ビデオ検索は必要ですか?

このクリップはどこから来たのですか?この問題は、掻くことのできない背中のかゆみのようなものです。

ほとんどの場合、このような状況に遭遇したときにできることは、ビデオ内の黄金の文章を拾い出して、オンラインでテキストで質問することです。それ以外の場合は、スクリーンショットを撮って、検索エンジンまたはビデオ プラットフォームで検索します。どちらの前提も、表示されるビデオ クリップのサイズを縮小し、より単純なものに抽象化することです。しかし、人気のない動画に遭遇したり、動画内の言語が理解できない場合には、問題が発生します。

では、ビデオ機能を使用してビデオを直接検索することは可能ですか?

テキスト検索

現在、人々が議論している「ビデオ検索」は、検索を完了するためにテキストを入力するという従来の方法に大きく依存しています。

Douyin は以前、Douyin 検索はテクノロジーの面でマルチモーダル信号補完に重点を置くと発表しました。これによると、この従来のビデオ検索の精度をサポートするテクノロジーは 2 つあります。OCR (光学文字認識) と ASR (音声認識) です。

OCR は光学文字認識の略です。簡単に言えば、画像内 (またはビデオのいくつかのフレーム内) に表示されるテキストを認識できます。ナンバープレートを読み取るための交通監視、写真の撮影、銀行カードの券面をアップロードしてカード番号を読み取ることなど、この技術は日常的に使用されています。現在一般的に使用されている OCR ライブラリには、Google のオープンソース プロジェクト tesseract や Microsoft の Azure API などがあります。中国でトップクラスの機械学習技術を持つ百度も、昨年独自のOCRライブラリ「PaddleOCR」をオープンソース化した。

ASR(自動音声認識)はOCRに相当し、動画コンテンツから音声コンテンツを抽出し、検索可能なタグに変換することができます。 SIRI と WeChat の音声テキスト変換はどちらもこの技術の応用です。

しかし、これら 2 つのテクノロジーは、実際には「見たいものの名前がわかっている」という条件に基づいた最も表面的なビデオ検索シナリオしか実行できず、ビデオ自体に事前に作成されたテキスト タグが付いている場合が最適です。

OCR と ASR の技術だけに頼る場合、理論的には同じトラを探し出すには、そのトラの首に「トラ」という言葉が書かれた標識を掛ける必要があります。そして、首に「私は虎ではありません」と書かれた人も検索結果に表示される可能性が非常に高いです。

しかし、例えば映画「ウォーリー」の「ウォーリー」を検索したいが、映画の名前もロボットの名前も知らない場合、「ゴミ箱のようなロボット」を検索することしかできないかもしれません。そして、膨大な群衆の中の誰かが「ウォーリー」を「ゴミ箱」とラベル付けしてくれることを期待し、それを素晴らしい機械学習に委ねるのです。

そして私にとって、R2-D2 はルーク・スカイウォーカーの次に来る可能性が依然として高いです。

実際、Google は 2017 年にすでにビデオ検索技術の進歩を遂げています。

Google Cloud Next カンファレンスで、Google はディープラーニングに基づいた Cloud Video Intelligence API と呼ばれるビデオ テクノロジー アプリケーションをリリースしました。当時グーグル副社長だったフェイフェイ・リー氏は、ディープラーニングに基づき、グーグルが動画内で物体が映る時間を正確に特定できるようになったことを現場で実演した。

ビデオ検索におけるこの技術の重要性は、純粋な画像情報を分類して検索できることです。たとえば、「トラ」を検索すると、ビデオ データベース内のトラに関連するすべてのビデオがマークされ、関連性に応じてリストされます。この技術は、すべてをテキストに変換してから機械学習やマッチングを行うという、検索プロセスの一般的なロジックを解決します。フェイフェイ・リー氏はこれを「デジタル世界の暗闇に灯りをともすもの」とも考えています。

また、2017年には、アリババエンターテインメントとDAMOアカデミーが、言語や音声を含むマルチモーダル動画検索の実践を行った。技術的な解決策の1つは、顔認識技術を使用して、黄子韶や易洋千熙など、ビデオに登場している人物を識別し、「OCR/ASR技術を使用して各ビデオの会話内容を識別してテキストに変換し、テキストに基づいて構造化理解を行う」ことです。

2019年、事態はさらに前進しました。 Google は、YouTube を含む英語の動画検索で、動画の真ん中に関連コンテンツを直接表示する実験を開始しました。 Engadget の報道によると、これは特定の曲を検索すると、検索結果にその曲を含むコンサートが表示され、進行状況バーがその曲の位置に直接移動することを意味します。

しかし、現在のところ、この技術では、アップロード者が動画にタイムスタンプを手動で追加する必要がある。さらに、このような技術は本質的には、他のモーダル形式の情報をテキストに変換するものであり、テキスト入力に基づく従来の検索モードの基本的な形式を揺るがすものではありません。

テキストを捨ててビデオを検索しますか?

冒頭の質問に戻りますが、手元にビデオ クリップが 1 つしかない場合、どのように検索すればよいでしょうか?テキスト入力に依存する検索機能は、このタスクには適していません。現時点では、ビデオごとにのみビデオを検索できます。

現実には、ビデオ全体を検索の基準として使用するのはまだ少し難しいですが、特定のフレームでビデオをフリーズすることはできます。これは、現在どこにでもある画像検索です。

画像検索の歴史は28年前に遡ります。

1992年、日本の学者である加藤孝文氏が論文の中で初めてコンテンツベース画像検索(CBIR)の概念を提案しました。 CBIR技術は一般的にマッチング技術です。サンプル画像ファイルを入力すると、画像内の色(色ヒストグラム、色一貫性ベクトルなどのパラメータ)、形状(面積、曲率など)、テクスチャ情報が特徴抽出され、エンコードされた後、画像コードが情報ライブラリに配置され、類似画像が検索されます。

これを基に、IBM愛知県研究所は初の商用CBIRシステムQBICを開発しました。 Google も 2001 年に画像検索サービスを開始しました。精度の向上はディープラーニング技術に託されています。

Douyinは2019年にDouyin画像認識機能を開始し、ユーザーはこれを通じて、短い動画に人物が登場するすべてのDouyin動画を検索できるようになりました。しかし、Douyin が画像認識機能を導入した主な動機は、電子商取引におけるその可能性です。この技術を利用することで、Douyinブロガー自身が宣伝する衣服を直接識別し、商品にリンクすることができるため、中間のジャンプステップをさらに省くことができます。

2018年、アリババ淘宝技術部は北京大学フロンティアコンピューティング研究センターCVDA実験室、英国エディンバラ大学などと協力し、業界初の大規模マルチモーダルライブ放送衣料品検索データセット(Watch and Buy)を正式にオープンソース化しました。 PixelAI 製品認識アルゴリズムの助けを借りて、製品画像認識はすでにライブ放送環境に適用できます。

しかし、画像検索はテキスト検索よりも高いリスクに直面している。アメリカのメディアDIGITAL TRENDはTikTokの画像認識機能のリリース直後にプライベート動画情報の安全性について疑問を表明し、この実験的な機能は現在TikTokのサイドバーから削除されている。

ただし、これらのテクノロジーは基本的にほとんどのビデオ検索ニーズを満たすことができます。現在の検索ロジックは、低次元から高次元(画像の場合はテキスト検索、ビデオの場合は画像検索)へと進んでいることがわかります。さまざまなメディア形式の中で、ビデオは最も複雑です。一方、ビデオ形式は、あらゆるものが混在しているため、ユーザーにとっては完成度が高すぎます。検索機能を使用して、動画に関連するテキストと画像の検索結果を分類することができれば、動画メディアがますます主流になるにつれて、動画検索に期待されるものになるかもしれません。

しかし、ビデオの保存とフォー​​マットの統一に対するハードルが高いことを考えると、検索入力としての価値は高くありません。また、著作権制限により、今後はビデオ素材がさまざまなプラットフォームによって保護されることが多くなり、ビデオ検索はオンサイト検索の形式のみになり、オープン検索プラットフォームのコンテンツの広さが失われることになります。

したがって、どのように考えても、ビデオを使用してコンテンツを検索するというのは、まだ遠い夢である可能性があります。

著者: オイルと酢

出典: 「Pinwan」(ID:pinwancool)

元のタイトル: ビデオ検索は必要ですか?

キーワード: ビデオ検索

<<:  低価格がなければ、Viya と Li Jiaqi はどうやってユーザーを維持するのでしょうか?

>>:  知虎は左に行き、豆班は右に行く

推薦する

より低コストでより便利な方法でプライベート クラウドを構築するにはどうすればよいでしょうか?

パブリック クラウドでもプライベート クラウドでも、基盤となるインフラストラクチャを考慮する必要はな...

おすすめの米国高防御VPS、おすすめの米国高防御クラウド、最後までこだわる、安い

推奨される米国高防御 VPS、推奨される米国高防御クラウド サーバー...米国国際 BGP-500G...

Godaddy バレンタインデードメイン名割引コード $3.99 で登録 com (無料のプライバシー保護付き)

Godaddy バレンタインデー ドメイン名割引コード: com を 3.99 ドルで登録 (プライ...

検索エンジンのブラックハット不正行為から逃れ、サイトランキングの自然な向上を促す(パート 1)

ブラックハット検索エンジン不正行為は、異常な最適化手法とも呼ばれます。検索エンジンの観点から見ると、...

RightScaleの2018年クラウド状況調査:AWSはもはやトップではない

2018 年 1 月、RightScale は 7 回目となる年次クラウド状況調査を実施し、インフラ...

HR 邱永勝: SEO初心者のための就職活動雑談

9月と10月は、通常、採用のピークシーズンです。ここで人材を採用しようとしている人事担当者はいつも悲...

エッジコンピューティングがトレンドである理由

[[259759]]エッジ コンピューティングのコンセプト株はしばらく前に大いに宣伝され、多くの本物...

自研 Pulsar Starter:Winfun-Pulsar-Spring-Boot-Starter

[[420613]]マイルストーンバージョン機能ポイント著者仕上げる 1.0.0 メッセージを送信す...

母子電子商取引企業は、どのようにルールを再構築し、苦境から抜け出すことができるのでしょうか?

[要約] 現実には、製品カテゴリが常に国内の母子電子商取引の発展を制限してきました。テンセントテクノ...

Citrix iForum サミットが中国で初めて開催されます

Citrix Systems は、8 月 17 日に初めて北京で iForum 仮想コンピューティン...

ウェブサイト取引を行う際に注意すべきことは何ですか?

ウェブサイト構築のペースが加速するにつれ、さまざまな理由から、一部のウェブマスターが一生懸命運営して...

モバイルウェブサイトを最適化するには、SEOREはこれらの詳細に注意を払う必要があります。

月収10万元の起業の夢を実現するミニプログラム起業支援プランモバイルインターネットの急速な発展とモバ...

電子商取引のライブストリーミングトラフィックをめぐる戦い

ライブストリーミングeコマースは急速に後半に突入しています。今年6月18日、トップキャスターがひっそ...

2019 年の新しい消費者ブランドトレンドを理解するための 5 つのキーワード

今年も年末になりました。年末にあたり、新たな消費者ブランドエコシステムのトレンドのキーワードを皆さん...

企業はクラウドコンピューティングの「黄金時代」に突入

過去 200 年にわたり、テクノロジー主導のイノベーションは社会と経済の進歩を推進する重要な力となり...