ビデオ検索は必要ですか?

このクリップはどこから来たのですか?この問題は、掻くことのできない背中のかゆみのようなものです。

ほとんどの場合、このような状況に遭遇したときにできることは、ビデオ内の黄金の文章を拾い出して、オンラインでテキストで質問することです。それ以外の場合は、スクリーンショットを撮って、検索エンジンまたはビデオプラットフォームで検索します。どちらの前提も、表示されるビデオクリップのサイズを縮小し、より単純なものに抽象化することです。しかし、人気のない動画に遭遇したり、動画内の言語が理解できない場合には、問題が発生します。

では、ビデオ機能を使用してビデオを直接検索することは可能ですか?

テキスト検索

現在、人々が議論している「ビデオ検索」は、検索を完了するためにテキストを入力するという従来の方法に大きく依存しています。

Douyin は以前、Douyin 検索はテクノロジーの面でマルチモーダル信号補完に重点を置くと発表しました。これによると、この従来のビデオ検索の精度をサポートするテクノロジーは 2 つあります。OCR (光学文字認識) と ASR (音声認識) です。

OCR は光学文字認識の略です。簡単に言えば、画像内 (またはビデオのいくつかのフレーム内) に表示されるテキストを認識できます。ナンバープレートを読み取るための交通監視、写真の撮影、銀行カードの券面をアップロードしてカード番号を読み取ることなど、この技術は日常的に使用されています。現在一般的に使用されている OCR ライブラリには、Google のオープンソースプロジェクト tesseract や Microsoft の Azure API などがあります。中国でトップクラスの機械学習技術を持つ百度も、昨年独自のOCRライブラリ「PaddleOCR」をオープンソース化した。

ASR（自動音声認識）はOCRに相当し、動画コンテンツから音声コンテンツを抽出し、検索可能なタグに変換することができます。 SIRI と WeChat の音声テキスト変換はどちらもこの技術の応用です。

しかし、これら 2 つのテクノロジーは、実際には「見たいものの名前がわかっている」という条件に基づいた最も表面的なビデオ検索シナリオしか実行できず、ビデオ自体に事前に作成されたテキストタグが付いている場合が最適です。

OCR と ASR の技術だけに頼る場合、理論的には同じトラを探し出すには、そのトラの首に「トラ」という言葉が書かれた標識を掛ける必要があります。そして、首に「私は虎ではありません」と書かれた人も検索結果に表示される可能性が非常に高いです。

しかし、例えば映画「ウォーリー」の「ウォーリー」を検索したいが、映画の名前もロボットの名前も知らない場合、「ゴミ箱のようなロボット」を検索することしかできないかもしれません。そして、膨大な群衆の中の誰かが「ウォーリー」を「ゴミ箱」とラベル付けしてくれることを期待し、それを素晴らしい機械学習に委ねるのです。

そして私にとって、R2-D2 はルーク・スカイウォーカーの次に来る可能性が依然として高いです。

実際、Google は 2017 年にすでにビデオ検索技術の進歩を遂げています。

Google Cloud Next カンファレンスで、Google はディープラーニングに基づいた Cloud Video Intelligence API と呼ばれるビデオテクノロジーアプリケーションをリリースしました。当時グーグル副社長だったフェイフェイ・リー氏は、ディープラーニングに基づき、グーグルが動画内で物体が映る時間を正確に特定できるようになったことを現場で実演した。

ビデオ検索におけるこの技術の重要性は、純粋な画像情報を分類して検索できることです。たとえば、「トラ」を検索すると、ビデオデータベース内のトラに関連するすべてのビデオがマークされ、関連性に応じてリストされます。この技術は、すべてをテキストに変換してから機械学習やマッチングを行うという、検索プロセスの一般的なロジックを解決します。フェイフェイ・リー氏はこれを「デジタル世界の暗闇に灯りをともすもの」とも考えています。

また、2017年には、アリババエンターテインメントとDAMOアカデミーが、言語や音声を含むマルチモーダル動画検索の実践を行った。技術的な解決策の1つは、顔認識技術を使用して、黄子韶や易洋千熙など、ビデオに登場している人物を識別し、「OCR/ASR技術を使用して各ビデオの会話内容を識別してテキストに変換し、テキストに基づいて構造化理解を行う」ことです。

2019年、事態はさらに前進しました。 Google は、YouTube を含む英語の動画検索で、動画の真ん中に関連コンテンツを直接表示する実験を開始しました。 Engadget の報道によると、これは特定の曲を検索すると、検索結果にその曲を含むコンサートが表示され、進行状況バーがその曲の位置に直接移動することを意味します。

しかし、現在のところ、この技術では、アップロード者が動画にタイムスタンプを手動で追加する必要がある。さらに、このような技術は本質的には、他のモーダル形式の情報をテキストに変換するものであり、テキスト入力に基づく従来の検索モードの基本的な形式を揺るがすものではありません。

テキストを捨ててビデオを検索しますか?

冒頭の質問に戻りますが、手元にビデオクリップが 1 つしかない場合、どのように検索すればよいでしょうか?テキスト入力に依存する検索機能は、このタスクには適していません。現時点では、ビデオごとにのみビデオを検索できます。

現実には、ビデオ全体を検索の基準として使用するのはまだ少し難しいですが、特定のフレームでビデオをフリーズすることはできます。これは、現在どこにでもある画像検索です。

画像検索の歴史は28年前に遡ります。

1992年、日本の学者である加藤孝文氏が論文の中で初めてコンテンツベース画像検索（CBIR）の概念を提案しました。 CBIR技術は一般的にマッチング技術です。サンプル画像ファイルを入力すると、画像内の色（色ヒストグラム、色一貫性ベクトルなどのパラメータ）、形状（面積、曲率など）、テクスチャ情報が特徴抽出され、エンコードされた後、画像コードが情報ライブラリに配置され、類似画像が検索されます。

これを基に、IBM愛知県研究所は初の商用CBIRシステムQBICを開発しました。 Google も 2001 年に画像検索サービスを開始しました。精度の向上はディープラーニング技術に託されています。

Douyinは2019年にDouyin画像認識機能を開始し、ユーザーはこれを通じて、短い動画に人物が登場するすべてのDouyin動画を検索できるようになりました。しかし、Douyin が画像認識機能を導入した主な動機は、電子商取引におけるその可能性です。この技術を利用することで、Douyinブロガー自身が宣伝する衣服を直接識別し、商品にリンクすることができるため、中間のジャンプステップをさらに省くことができます。

2018年、アリババ淘宝技術部は北京大学フロンティアコンピューティング研究センターCVDA実験室、英国エディンバラ大学などと協力し、業界初の大規模マルチモーダルライブ放送衣料品検索データセット（Watch and Buy）を正式にオープンソース化しました。 PixelAI 製品認識アルゴリズムの助けを借りて、製品画像認識はすでにライブ放送環境に適用できます。

しかし、画像検索はテキスト検索よりも高いリスクに直面している。アメリカのメディアDIGITAL TRENDはTikTokの画像認識機能のリリース直後にプライベート動画情報の安全性について疑問を表明し、この実験的な機能は現在TikTokのサイドバーから削除されている。

ただし、これらのテクノロジーは基本的にほとんどのビデオ検索ニーズを満たすことができます。現在の検索ロジックは、低次元から高次元（画像の場合はテキスト検索、ビデオの場合は画像検索）へと進んでいることがわかります。さまざまなメディア形式の中で、ビデオは最も複雑です。一方、ビデオ形式は、あらゆるものが混在しているため、ユーザーにとっては完成度が高すぎます。検索機能を使用して、動画に関連するテキストと画像の検索結果を分類することができれば、動画メディアがますます主流になるにつれて、動画検索に期待されるものになるかもしれません。

しかし、ビデオの保存とフォーマットの統一に対するハードルが高いことを考えると、検索入力としての価値は高くありません。また、著作権制限により、今後はビデオ素材がさまざまなプラットフォームによって保護されることが多くなり、ビデオ検索はオンサイト検索の形式のみになり、オープン検索プラットフォームのコンテンツの広さが失われることになります。

したがって、どのように考えても、ビデオを使用してコンテンツを検索するというのは、まだ遠い夢である可能性があります。

著者: オイルと酢

出典: 「Pinwan」(ID:pinwancool)

元のタイトル: ビデオ検索は必要ですか?

キーワード: ビデオ検索

<<: 低価格がなければ、Viya と Li Jiaqi はどうやってユーザーを維持するのでしょうか?

>>: 知虎は左に行き、豆班は右に行く