ディープラーニングの技術的原理とコンピュータービジョンへの応用についての簡単な説明

ディープラーニングの技術的原理とコンピュータービジョンへの応用についての簡単な説明

現在、ディープラーニングはコンピュータービジョンの分野ではほぼ標準となっており、人工知能の分野でも最もホットな研究方向となっています。コンピュータービジョンの応用シナリオとディープラーニングの背後にある技術原理は何ですか?以下で見てみましょう。

コンピュータビジョンの応用

コンピュータービジョンとは何ですか?比喩的に言えば、コンピューター ビジョンとは、コンピューターに目 (カメラ) と脳 (アルゴリズム) を装備して、周囲の環境を認識できるようにすることです。現在、コンピューター ビジョンの研究は、主に画像分類、オブジェクト認識、顔の 3D モデリングなどの基本的なアプリケーション シナリオに焦点を当てています。

オブジェクトの識別は、画像分類の一般的な用途です。たとえば、単純な猫認識モデルの場合、まずコンピューター用のモデルを定義し、次に大量の猫の写真を用意してモデルをトレーニングし、写真を入力したときにコンピューターが画像が猫であるかどうかを認識できるようにする必要があります。通常の状況では、コンピュータ モデルはそれを比較的正確に認識できます。しかし、遮蔽物、さまざまな形状、角度や照明が異なる画像を入力すると、以前に構築したモデルではそれを認識できません。これがコンピュータービジョンの応用における難しさです。

ディープラーニングの技術的原理

機械学習

ディープラーニングはコンピュータービジョンの分野で問題を解決するためにどのように使用されますか?ディープラーニングは機械学習の一種です。ここで機械学習について簡単に紹介します。

機械学習の本質は、実際にはさまざまな分野でさまざまな役割を果たすことができる機能を見つけることです。たとえば、音声認識の分野では、この機能は音声をテキストとして認識します。画像認識の分野では、この機能は画像をカテゴリにマッピングします。囲碁をするときは、盤とルールに従ってゲームを進めます。会話では、現在の会話に基づいて次の会話が生成されます。

機械学習は「学習」という言葉と切り離せないものです。学習方法の違いにより、 教師あり学習教師なし学習に分けられます。

教師あり学習では、アルゴリズムとデータがモデルの中核となります。教師あり学習で最も重要な点は、各トレーニング データにラベルを付け、繰り返しトレーニングを行った後にこれらのトレーニング データをアルゴリズム モデルに入力する必要があることです。各トレーニングにより、アルゴリズム モデルの予想される出力とラベル データ間のギャップが縮小されます。十分なトレーニングを経て、アルゴリズム モデルが基本的に安定したら、テスト データ セットでモデルの精度を検証できます。これが教師あり学習のプロセス全体です。教師あり学習は現在、画像分類で広く使用されています。

それでは、教師なし学習について見てみましょう。教師あり学習とは異なり、教師なし学習ではすべてのトレーニング データにラベルを付ける必要はありません。教師なし学習は主に 2 つのカテゴリで使用されます。 1 つ目はクラスター分析です。これは、一見無秩序なデータの集合を分類してグループ化し、理解を深めることです。もう一つは自動エンコーダです。データを分析する場合、元のデータの量が多くなることがよくあります。冗長なデータに加えて、分析結果にとって重要ではないデータも含まれています。自動エンコーダは主に元のデータに対して次元削減操作を実行し、冗長データを削除して、後続のデータ分析の効率を向上させます。

さまざまな学習方法を通じてデータを取得した後、アルゴリズムは次に非常に重要なステップとなります。アルゴリズムはコンピュータにとって、人間にとっての脳と同じであり、適切なアルゴリズムを選択することも非常に重要です。

上記はImaegNetコンテストの結果です。 2012 年以前は、画像分類に使用されていた機械学習モデルは、特徴 + サポート ベクター マシン モデルでした。 2012年以降は畳み込みニューラルネットワークモデルでした。畳み込みニューラル ネットワークは、コンピューター ビジョンの分野で重要な役割を果たします。畳み込みニューラル ネットワークが役割を果たし始めたのはなぜ 2014 年以降なのでしょうか?まずニューラルネットワークについて見てみましょう。

ニューラルネットワーク

ニューラル ネットワークは、人間の脳内のニューロンの構造にヒントを得ています。研究者たちは、人間の脳内のすべてのニューロンは階層化されており、さまざまなレベルを通じてさまざまな機能を学習し、単純なものから複雑なものまでさまざまな機能をシミュレートできると考えています。

上の図は、コンピューターが数学を適用して人間の脳内のニューロンをシミュレートする方法を示した概略図です。 a1 から ak は入力信号であり、ニューロンは入力信号を 2 回変換します。最初の部分は線形変換です。ニューロンが対象の信号に重みを追加するためです。 2 番目の部分は非線形変換です。

ニューラル ネットワークは、多数のニューロンのカスケードによって形成されます。各ニューロンは線形および非線形の変換を受けます。非線形変換はなぜ起こるのでしょうか?数学的に言えば、非線形変換がなければ、ニューラル ネットワークがどれだけ深くても、それは 1 つのニューロンに相当します。非線形変換がなければ、ニューラル ネットワークの深さの概念は無意味になります。

これは誰もが知っているニューラルネットワークの全体モデルです。ニューラル ネットワークを具体的にどのようにトレーニングするのでしょうか?

最初のステップは、ネットワーク モデルを定義し、すべてのニューラル ネットワークの重みとバイアスを初期化することです。ネットワーク モデルを定義した後、このモデルのコスト関数を定義する必要があります。コスト関数は、予測データとラベル データ間のギャップです。ギャップが小さいほど、モデルのトレーニングは成功します。すべてのニューロンのパラメータは最初のトレーニング中に初期化されます。すべてのトレーニング データを入力すると、現在のモデルを通じてすべての予測値が計算されます。予測値を計算した後、ラベルデータと比較して、予測値と実際の値のギャップがどれくらい大きいかを確認します。

2 番目のステップは、ギャップがどんどん小さくなるように継続的に最適化することです。ニューラル ネットワークは、微分原理に基づいてバックプロパゲーションと勾配降下法のアルゴリズムを発明しました。 N 回のトレーニング後、ラベル データと予測値のギャップは極値に達するまでどんどん小さくなります。このようにして、すべてのニューロンの重みとバイアス パラメータがトレーニングされ、モデルが完成します。次に、テスト セットのテスト データを使用して、モデルの精度を検証できます。

畳み込みニューラルネットワーク

上記で説明したのはすべて、一般的な完全接続ニューラル ネットワークです。次に、畳み込みニューラル ネットワークに入ります。畳み込みニューラル ネットワークは、画像処理用に特別に設計されたニューラル ネットワークです。畳み込みニューラル ネットワークは、まず 30×30 で 3 つのカラー チャネルにデータがある画像を入力します。これは入力層です。以下は畳み込み層です。畳み込みカーネルの概念があり、それぞれが画像の異なる特徴を抽出します。

抽出後、プーリング層に送られ、畳み込み層のデータ規模が縮小され、データの複雑さが軽減されます。畳み込みとプーリングの組み合わせは、隠れ層と呼ばれます。畳み込みニューラル ネットワークには多くの隠れ層が含まれます。隠し層の次は完全接続層です。完全接続層の目的は、複数の畳み込みプーリング層を通過したデータを平坦化して特徴ベクトルを形成することです。特徴ベクトルを分類器に入力して画像を分類します。

簡単に言えば、畳み込みニューラル ネットワークがコンピューター ビジョンに適している主な理由は 2 つあります。1 つはパラメーターの共有であり、もう 1 つはスパース接続です。

ディープラーニングに基づく顔認識アルゴリズムモデル

上記は、コンピューター ビジョンの分野におけるディープラーニングの関連アプリケーションとその背後にある技術原理です。次に、ディープラーニングをベースにした顔認識アルゴリズムモデルを見てみましょう。

まず顔認識の応用シナリオを見てみましょう。これは主に3つの側面に分かれています。1 つ目は1:1のシナリオで、セキュリティチェックや証券口座開設時のIDカードと顔の比較などです。 2つ目は1:Nのシナリオです。たとえば、公安部が大量のビデオから犯罪容疑者を捜索する必要がある場合などです。 3つ目はビッグデータ分析のシナリオで、主に表情分類と医療分析です。

上の図は主に顔認識の簡単なプロセスを示しています。右側はトレーニング モデルで、顔の大規模なデータベースが含まれています。特徴モデルは、ガボールや LBP などの経験的記述子、またはディープラーニング アルゴリズムを通じて抽出されます。このモデルはアプリケーションにデプロイされます。アプリケーションはカメラとビデオを通じて顔を取得した後、前処理、特徴抽出、特徴比較を実行し、最終的に結果を出力します。これは比較的一般的な顔認識プロセスです。

DeepIDアルゴリズム

DeepID アルゴリズムの目的は 2 つの画像を識別することであり、最終的な出力は 2 つの画像間の類似性です。画像 A と B を入力すると、DeepID 畳み込みニューラル ネットワーク モデルがベクトル A と B を計算し、それらをベクトル AB に結合します。次に、ベクトル AB を分類器に入力し、ベクトル AB の類似度を計算し、最後にこの類似度を使用して 2 つの画像が同じカテゴリに属する​​かどうかを区別します。

ここで言及する 2 つのモデルは、DeepID モデルと分類器モデルです。 DeepID モデルは、畳み込みニューラル ネットワーク アルゴリズムを使用してトレーニングされます。最後のアプリケーションは、畳み込みニューラル ネットワークの背後にあるソフトマックス分類レイヤーを削除して、ソフトマックスの前の特徴ベクトルを取得することです。分類器モデルは、サポートベクターマシン/ジョイントベイズ分類などの比較的古典的なものです。トレーニング プロセス中に、トレーニング サンプルは 5 つの部分に分割され、そのうち 4 つは畳み込みニューラル ネットワークのトレーニングに使用され、1 つは分類器のトレーニングに使用され、相互に検証できます。

ネットワーク モデルで行われる作業に加えて、DeepID は画像の前処理も行います。パッチ処理と同様に、顔の特定の部分を中心に固定サイズの画像が生成され、特定のパッチごとに畳み込みニューラル ネットワークがトレーニングされます。画像が入力されると、複数のパッチに分割され、それぞれ対応する畳み込みニューラル ネットワークに入力されます。各畳み込みニューラル ネットワークはベクトルを出力します。次元削減アルゴリズムにより、すべてのパッチに対応する出力ベクトルが処理され、冗長な情報が削除され、顔のベクトル表現が得られます。

最後に、2 つの顔を比較する場合、2 つの顔のベクトルが分類器に入力され、類似性の結果が得られます。ここでは、マルチパッチセグメンテーションが有利です。たとえば、実際のアプリケーションでは、一部の人の顔が隠れてしまいます。異なるパッチに分割されているため、このようなシナリオでは堅牢性が向上します。

DeepFaceアルゴリズム

DeepFace アルゴリズムをもう一度見てみましょう。これが顔の位置合わせのプロセスです。この写真はスタローンの横顔の写真です。最初のステップは、顔を撮影し、顔にある 68 個の基本的なポイントを記述することです。次に、68 個の基本ポイントが三角測量アルゴリズムを使用して接続されます。次に、標準の顔モデルを三角測量に適用します。このように、標準の顔モデルにはこのような奥行きがあります。

アフィン変形後、横顔モデルは正面顔モデルに変換され、最後にこのモデルを特定の写真に適用して人物の正面顔写真が得られます。このアルゴリズムの主な機能は、いくつかのモデルを通じて人物の横顔を正面顔に変換し、さらに顔認識/顔分類を行うことです。

DeepFace ニューラル ネットワークを図に示します。最初の 3 つの畳み込み層は比較的一般的であり、顔のいくつかの基本的な特徴を抽出するために使用されます。最後の 3 つの畳み込み層にはいくつかの改良が加えられており、共有されないパラメータを持つ畳み込みカーネルが使用されます。畳み込みカーネルの基本的な特徴の 1 つは、パラメータが共有されることであると述べました。これは、画像のさまざまな部分のいくつかの基本的な特徴が類似していると研究で考えられているためです。

しかし、このアルゴリズムでは、顔の位置合わせ後、顔のさまざまな領域にさまざまな基本的な特徴があるため、ここでは共有されていないパラメータを持つ畳み込みカーネルが使用されます。パラメータが共有されない場合、畳み込みカーネルパラメータが少ないことの利点が発揮されず、トレーニングの複雑さが増す可能性があります。

FaceNetアルゴリズム

FaceNet アルゴリズムは、Google の顔認識アルゴリズムです。 FaceNet アルゴリズムは、トリプレットの概念を提案しています。3 枚の写真が組み合わされ、2 枚の写真は同じ人物であり、1 枚の写真は同じ人物ではありません。 3 枚組画像内の同じ人物の写真間の距離が、異なる人物の写真間の距離よりも大きい場合、学習後は、3 枚組画像内の同じ人物の写真間の距離は、異なる人物の写真間の距離よりも小さくなります。分類を行う必要はなく、2 つの画像間の距離を直接計算します。

その他のアルゴリズム

FR+FCN などの他のアルゴリズムは、ニューラル ネットワークを通じてトレーニングされます。人物の横顔写真を取得すると、ニューラルネットワークを通じて正面写真を生成することができます。 Face+baidu は、ビッグデータに基づいて構築され、何百万もの顔でトレーニングされた従来の畳み込みネットワークです。

ポーズ+形状+表情の拡張により、この論文ではデータ収集を容易にするために 3 つの変数を通じてデータ セットを拡張しています。 CNN-3DMM は、標準の 3D 顔モデルに基づいてニューラル ネットワークをトレーニングし、標準の 3D モデルのさまざまなパラメータを生成します。このニューラル ネットワークは、さまざまな画像に応じてさまざまなパラメータを生成し、個人ごとに異なる 3D モデルを確立します。

DeepIDアルゴリズムに基づく顔検索プロジェクト

最後に、私たちが行った顔認識モデルプロジェクトを紹介します。イベント写真撮影業者は、会場での活動、スポーツイベント、その他のイベントの写真を撮影し、自社の Web サイトにアップロードする必要があります。写真が数百、数千枚あるため、イベント参加者が自分の写真を探すのは困難です。顔認識モデルを使用すると、自分の顔の写真を撮ってアップロードし、写真コレクションで自分の写真をすぐに見つけることができます。

全体的なアーキテクチャを見てみましょう。右は顔ライブラリのインポートで、イベント撮影業者の表彰式会場で撮影した写真1000枚を検索対象ライブラリにインポートしています。インポート後、マルチパッチ前処理を実行し、DeepID アルゴリズムを使用して各画像の各パッチの特徴ベクトルを計算し、それを特徴ベクトル ライブラリに格納し、特徴ベクトルから元の画像へのインデックスを確立します。

左側はユーザー検索です。自分のアバターの写真を撮ったら、検索用にアップロードします。バックグラウンドでは、ユーザーアバターを複数のパッチに分割し、DeepIDモデルを通じてユーザーアバターの特徴ベクトルを計算し、特徴ベクトルライブラリ内の対象特徴ベクトルを段階的に比較し、類似度が最も高いN個の特徴ベクトルを取得し、最後にインデックスを通じて元の画像を見つけてユーザーに返します。

上記は、ディープラーニングの背後にある技術原理と、コンピューター ビジョンの分野におけるその一般的な応用です。これらの原理とその応用を分析し、共有することで、誰もが人工知能技術の基本概念をより直感的かつ迅速に理解し、人工知能技術の学習と応用に刺激を受けることを願っています。

<<:  データセンターネットワーク仮想化技術の進化

>>:  ローカルストレージデバイスと比較したクラウドストレージの利点は何ですか?

推薦する

中国のクラウド サービス プロバイダーの 4 大企業を評価すると、次の 10 年間を支配するのはどの企業でしょうか?

[[342930]]この記事はWeChat公式アカウント「悲しくて傷ついたシロサイ」から転載したもの...

v.psはどうですか?アメリカ西海岸シアトルデータセンターのVPSレビュー

アメリカ西海岸のシアトルとサンノゼのデータセンターも、中国人が集まる人気の場所です。v.psはシアト...

racknerd: 「新年フラッシュセール」第 2 弾、200 台限定、年間 15.6 ドル、KVM/1.25g メモリ/18g ハードディスク/3T トラフィック

Racknerd は、新年に向けて第 2 波のフラッシュ セールを準備しており、合計 2 つの安価な...

Meizu公式サイトと公式フォーラムが本日10時に再開

本日午前10時、約1か月間閉鎖されていたMeizu公式サイトと公式フォーラムが再開した。 Meizu...

losangelesvps: 新年のプロモーション、無制限のトラフィック VPS が年間 19.5 ドルから、KVM/1G メモリ/25gSSD/1Gbps 帯域幅

losangelesvps の新年プロモーションは数日前にリリースされたため、少し遅れています。時期...

第1回「中国モノのインターネットデータインフラベストケース選定」の結果が発表されました

IoT 技術の成熟と普及により、今日の世界はすでに Internet of Everything の...

お金を稼ぎたいなら、SEOブログサイトを選ばないでください

月収10万元の起業の夢を実現するミニプログラム起業支援プランSEO ブログ サイトは、多くの新しいウ...

5G広告業界に関する22の予測

6月6日に最初の5Gライセンスが発行されて以来、私は何日も続けてよく眠れず、精神的に興奮し、肉体的に...

コンテナ管理のための 7 つの Docker コマンド

Docker入門Docker は、コンテナ内でアプリケーションを構築、デプロイ、実行するためのオープ...

検索プロモーションにおけるマーケティング戦略についての簡単な説明

オンライン マーケティング プロモーションの実践において、SEM を行う人の多くはアカウント操作に力...

A5SEO 診断: ウェブサイトの外部リンクを購入していますか?ルーティンだけが人々の心を掴むことができるのです!

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますSEO は...

中小企業はまだSEO採用を行っていますか?プロセス全体をカバーするトップSEOソリューション

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています昨今、オン...

cometvps-2.5USD/VPS/1GB RAM/100GB HDD/1TB Flow/シカゴ/ニューヨーク

Cometvps が初めて私の前に現れたのは、おそらく昨年のブラックフライデーだったと思います。Co...

パブリッククラウドにおけるサーバーレスツールとサービスの比較

企業は、インフラストラクチャ管理タスクで IT チームに負担をかけるべきではありません。一部のサーバ...

ZJiNet: 香港独立サーバー 50% 割引、500 元/月、2*e5-2630L/32g メモリ/1TSSD/20M 帯域幅/2IP

zji.netは現在、香港葵湾データセンターの3種類の香港独立サーバーを対象に、特別50%オフキャン...