2018年グローバル人工知能・ロボットサミット(CCF-GAIR)が深センで開催されました。このサミットは、中国コンピューター連盟(CCF)が主催し、Leiphone.comと香港中文大学(深圳)が共催し、宝安区政府の強力な指導を受けた。これは、中国の人工知能とロボット工学の3つの主要分野、すなわち学術、産業、投資におけるトップクラスの交流イベントです。中国における人工知能分野で最強の実力を持つ国境を越えた交流・協力プラットフォームの構築を目指します。 6月30日、2018年グローバル人工知能・ロボットサミット(CCF-GAIR)が継続されました。午前中のコンピュータービジョンセッションでは、Zhenshi Technologyの共同創設者兼CEOであるRen Peng氏が「エッジコンピューティングがスマートシティを強化する」と題した基調講演を行いました。
Zhenshi Technologyは、組み込み画像システム設計技術における自社の有利な経験とAIアルゴリズムにおける長年の蓄積を頼りに、エッジコンピューティング技術(スマートカメラ)の製品変革を通じて、インテリジェント交通(ITS)、インテリジェントセキュリティ(IVS)、スマートビジネス、スマート製造(FA)など、スマートシティシステムの主要な垂直応用分野向けに、よりインテリジェントなフロントエンド画像機器とソリューションを提供することに取り組んでいます。 任鵬氏はスピーチの中で、振世科技のスマートカメラを紹介した。完全にインテリジェントなカメラとは何ですか?レン・ペン氏は、業界によってスマートカメラに対する要件は異なり、シーンアプリケーションの認識ニーズを満たすカメラだけが完全なインテリジェントカメラであると考えています。完全にインテリジェントなカメラを作成するには多くの困難に直面することになりますが、Ren Peng 氏はそれをイメージング、アルゴリズム、製造という 3 つの側面にまとめました。 イメージングに関して言えば、Ren Peng 氏は、より困難な問題はスマート カメラのイメージング評価の標準が欠如していることであると考えていますが、イメージングはアルゴリズムのニーズを満たし、さらに人間の感覚のニーズも満たす必要があります。 アルゴリズムの面では、Zhenshi Technology のアプローチは、まずニーズを明確にし、データセット、パフォーマンス指標、コスト指標を決定し、同時に組み込みプラットフォームのソリューションを選択して評価することです。次に、PC シミュレーションとアルゴリズムの実装を行い、最後に組み込みプラットフォームを移植して最適化し、アルゴリズムを実装します。 製造面では、Zhenshi Technology は「インテリジェンス」を活用し、視覚と制御の組み合わせを通じて「スマートカメラ」を製造しています。現在、Zhenshi Technology のカメラ生産ラインは部分的な自動化を実現しています。任鵬氏は今後もこの分野への投資を続けると述べた。 以下は任鵬氏のライブスピーチの書き起こしです。 任鵬:皆さん、おはようございます!今日は主に、スマートカメラを作る過程で私たちが遭遇した困難と試みについてお話ししたいと思います。 私たちの製品はシンプルで、スマートカメラです。おそらくここにいらっしゃる皆様は弊社の製品を使用したことがあると思います。当社の製品は小型ですが、市内のさまざまなエリアに配備されており、人々の駐車体験を向上させ、駐車プロセス全体をより便利にします。これは、人間中心のスマートシティのコンセプトにも沿っています。 しかし、概念を実用的なものにするにはどうすればいいのでしょうか?これには認識能力の向上が必要であり、クラウド コンピューティングとエッジ コンピューティングの概念が生まれます。フロントエンドのスマートカメラはエッジコンピューティングの重要な部分です。 スマートカメラとは何ですか?当社のカメラはさまざまなシナリオで使用できるという提案があります。私たちの理解では、これは理想的な状態かもしれませんが、業界全体の発展の道筋のニーズを満たすものではありません。 例えば、インテリジェント交通の分野では、駐車場にどのようなカメラが必要でしょうか?支払いを伴うため、車両の識別には 99.9% 近くの精度が求められる可能性があり、認識率の要件は比較的高く、制限速度も比較的高くなります。チェックポイントの場合はその逆で、認識率の要件が低く、速度制限も比較的低くなります。交通流制御や信号機の計画などの分野では、車両識別に関するその他の要件もあります。輸送の分野だけでも、多くのシナリオに細分化されています。 もう 1 つの例は、安全な都市、雪が輝くプロジェクト、コミュニティ ビルディング、建設現場、キャンパス、病院などのシナリオを含むセキュリティ分野です。実際、それぞれのシナリオにおけるカメラの要件は異なります。したがって、私たちの定義では、シーン アプリケーションの認識ニーズを満たすカメラは、完全にインテリジェントなカメラです。ここでの認識は主に、人間のニーズを満たす、またはそれを超える能力を表します。 これはピラミッドの説明です。最上層はピクセル、中間層はオブジェクト、その上の層は動作です。 現在、スマートシティの分野では、ほとんどのアプリケーションがまだ中間層、つまりオブジェクト層にあり、多くのシナリオにおける基礎となるアプリケーション(ピクセル層)の問題は完全に解決されていません。前のゲストが挙げた例、たとえばフロントエンドの顔キャプチャとクラウドベースの認識の応用では、フロントエンドが顔をキャプチャすると不明瞭でぼやけたものになり、システムの認識に大きな負担がかかります。たとえば、一部のアプリケーションはフロントエンドの顔認識であり、クラウドは認識結果に基づいて決定を下します。フロントエンドの認識に常に問題や誤報が発生すると、スマートシティ全体の運用効率や意思決定の精度にも影響を及ぼします。 もちろん、このような完全にインテリジェントなカメラを実現するには多くの困難があります。私たちの経験に基づいて、イメージング、アルゴリズム、製造の3つのポイントから始めます。 イメージングに関して、さらに難しい問題は、スマートカメラのイメージング評価の標準が存在しないことです。標準がある場合、私たちはその標準に向けて取り組むことになります。たとえば、携帯電話のカメラには標準を定めた専門の評価機関がいくつかあり、防犯カメラにも解像度、グレースケール、ホワイトバランスなどの指標があります。しかし、スマートカメラの標準は何でしょうか?良いとされる画像とはどのようなものでしょうか? ***私たちは基準を設定しました。まず、私の画像処理はアルゴリズムのニーズを満たす必要があり、次に人間の感覚のニーズを満たす必要があります。これは非常に主観的な概念です。 カメラを作るときは、まずハードウェア、構造、熱設計、光学などの問題を解決する必要があります。これらを解決した後、カメラの ISP が中心的な問題となります。通常のシーンにおける ISP の核となるのは、写真や映像を撮影するときに、そのシーンがどのようなものかを認識することです。最近、一部の携帯電話メーカーはカメラにシーン認識機能を追加しました。目的は、シーンを識別し、そのシーンに適した ISP パラメータのセットを選択して、イメージングを向上させることです。 しかし、スマートカメラの目的は、シーン内で注目しているすべてのオブジェクトの鮮明な画像を撮影することです。これはオブジェクトに基づいているため、スマートカメラの ISP の中核はオブジェクトの認識に基づいています。これは鶏が先か卵が先かという問題になります。シーン内にオブジェクトが 1 つだけであれば問題ありませんが、オブジェクトが複数ある場合は、現在の多くの ISP のアーキテクチャ設計を変更する必要があります。 セキュリティ シナリオでは、多くのアプリケーションで低シャッター スピードの実装が必要になります。モーションブラーのため、より鮮明なターゲットをキャプチャする必要があるため、シャッター速度の制限は比較的低く、多くの場合 5 ミリ秒未満になります。シナリオによっては、グローバルシャッター付きのカメラを使用する場合もあります。このシナリオでは、シーンの照明が比較的低く、コントラストが比較的大きい状況にも直面する必要があります。これは実は非常に難しいです。たとえば、私がここに立ってドアを見ると、強い光が当たっているため、外で何が起こっているのか見えません。カメラでも同じことが言えます。 したがって、現在これらの問題を解決する際には、シーンのセグメンテーションとオブジェクト認識を使用し、経験に基づいて ISP の設計を導き、理想的な効果を達成する傾向があります。これも段階的なバランス効果です。 上の行は同じシーンを示していますが、異なるカメラと異なる ISP によって結果が調整されています。下の写真はワイドダイナミックシーンキャプチャーエフェクトです。これら 2 つのシーンのシャッター速度はどちらも 5 ミリ秒未満ですが、これは実際にはかなり困難です。 これは顔キャプチャのシーンですが、顔のキャプチャと認識は非常に困難です。もちろん、Megvii と CloudWalk の両社が先に述べたように、その認識アルゴリズムは非常に強力ですが、異なる照明条件や異なる姿勢の下で、わずか 20 ~ 30 ピクセルの画像を認識するのは非常に困難です。システム全体の認識率は実は高くありません。これはまだ日中だ。夜になると、このシーンの要件はさらに高くなります。 当社の顔キャプチャカメラでキャプチャされた顔画像がすべて 1 インチの標準 ID 写真のようなものであれば、認識の問題は実際にははるかに簡単になります。 上の 2 つの写真のうち、どちらの方が認識しやすいと思いますか?左の写真の方が認識しやすいと思われるかもしれませんが、実際その通りです。左の写真は当社製品の効果です。私たちの努力により、カメラで撮影した写真を通じて、多くのシナリオで顔認識システムの認識率が直接的に 5% ~ 10% 向上しました。もちろん、当社のカメラもフルフレームレート、フルフレームです。 イメージングについて話した後は、アルゴリズムについて話しましょう。アルゴリズムは、すべてのシナリオに対して異なるアルゴリズムではありません。本日お話しするのは主に、組み込みデバイス上のスマート カメラの開発中にアルゴリズムが解決する必要のあるいくつかの問題です。 まず、基本的なプロセスがあります。スマートカメラを作る際には、まず要件を明確にし、データセット、パフォーマンス指標、コスト指標を決定します。同時に、組み込みプラットフォームソリューションの選択と評価も行います。次に、PC をシミュレートしてアルゴリズムを実装します。最後に、組み込みプラットフォームの移植最適化を行い、アルゴリズムを実装します。基本的にはこれがルーチンです。 困難はたくさんあります。 1つ目はデータです。私たちは多くのデータ損失に見舞われました。たとえば、カメラ製品をアップグレードする際、センサーが製造中止になったためアップグレードしました。センサーの変更により ISP が変更され、イメージング スタイルが変更され、最終的にシステム全体の認識率が低下しました。実際、これはネットワークの過剰適合によって引き起こされる問題としても理解できます。 データの多様性、バランス、シーンに適応する能力、そしてハードウェア自体のセンサーイメージングとのつながりは、すべて非常に重要です。また、企業自身のデータ管理レベルは、そのアルゴリズムのレベルとシナリオの理解レベルを直接反映するという結論も示しました。 たとえば、学術分野の一部のテストでは、データ セットが明確に定義されており、実施が容易です。ただし、実際のシナリオでは、データ セットは不確実であり、プロジェクトの実装中に常に変化するため、データ セットに対する要件が高くなります。 2番目はソリューションの選択です。私たちのチームは、市場にあるチップ ソリューションの約 80% を評価しました。チップ ソリューションには 2 つの定義があります。 1つは、5ワット未満の消費電力を満たすことです。消費電力が高すぎると、システム全体の熱設計に大きな課題が生じます。 2つ目は、リアルタイムのビジネスを行っていることです。今年市場に出回っている主流のチップ ソリューションの計算能力は、およそ 50 ~ 150 GFLOPS です。この指標は来年までに200~500Gに達すると予測しています。これは多くのチップメーカーが宣伝している内容とは異なります。チップメーカーは自社のチップの計算能力が強力であると宣伝しているものの、実際にテストしてみると結果が満足のいくものではないことが判明したため、R&D の同僚から苦情が多く寄せられるようになりました。ここには確かに多くの問題があります。 組み込みシステムを実装するときに、このルーチンをよく使用します。アルゴリズムが実装されたら、それをボードに合わせて最適化する必要があります。一般的には、まずアルゴリズムを近似し、次に命令セット、メモリ、キャッシュなどを最適化します。しかし、ディープラーニングの分野では、メモリ帯域幅のボトルネックが非常に大きな問題となっています。革命的なブレークスルーがなければ、チップの開発は依然としてムーアの法則に従い、能力は年間 10 倍や 20 倍に増加することはありません。 実際、チップメーカーがアルゴリズムメーカーのペースに追いつくのは困難です。たとえば、アルゴリズムメーカーがアルゴリズムを開発している場合、毎月何らかの変更、革新、試行が行われることがあります。しかし、チップは難しいですね。チップの生産サイクルから正式な大量生産、そして成熟した製品化までには 1 年かかる場合があります。サイクルが非常に長いため、長期的なボトルネックとなります。 製品は業界の普遍的なニーズを満たす必要があります。これはお客様の製品専用に作られるものではないため、多くの独自のネットワーク構造が、パフォーマンスを大幅に向上させるために特別に最適化されます。このパフォーマンスの向上は 50% または 100% になる可能性がありますが、現在のチップではこのような柔軟な適応を実現するのは困難です。 データが増え、チップの計算能力が強くなるにつれて、製品を作るのが簡単になると言う人もいます。私たちはそのように判断しません。例えば、当社製品がシナリオに実装されると、顧客のニーズは常に昇華され、洗練されますが、これは当然のことながら、より人間の本質に沿ったものになります。長い間、コンピューティング能力は需要の増加に対応できませんでした。したがって、ネットワークに注目します。もちろん、ここではネットワークの構造について詳しく説明するつもりはありません。この種の組み込み製品を作成する際のネットワークに関する理解についてのみ説明します。 コンピューティング能力が不十分でパフォーマンスが限られているため、私たちは 2 つの仮定を立てています。1 つは、パフォーマンス機能をよりよく学習して十分に活用し、製品上でこれらの機能をさまざまなリンクでより適切に再利用できるようにすることで、計算の複雑さを大幅に軽減することです。もう 1 つは、エンドツーエンドではないアーキテクチャです。製品では、すべてのステップとすべてのリンクを制御し、この制御可能な基盤に基づいて、ネットワーク パフォーマンスの限界を段階的に最適化して活用します。これらはアルゴリズムに関する私たちの試みと経験の一部です。 3つ目は、その製造方法です。これを設計するだけでは不十分で、構築する必要もあります。 サプライチェーンはかなり厄介な問題です。私たちは以前は製造業に携わっていませんでしたが、始めてからは、多くの携帯電話メーカーのいわゆるハンガーマーケティングが、実際には彼らの制御を超えていることを深く理解できるようになりました。サプライチェーンの問題が解決したら、次のステップは製品の製造方法です。 私たちは現在、「インテリジェンス」を活用して、視覚と制御を組み合わせた「スマートカメラ」を作成しています。これは当社の現在のカメラ生産ラインにおける自動化されたプロセスです。もちろん、まだ組立ライン全体を完全に自動化したわけではありませんが、これが私たちが目指している方向です。 ***今後の方向性について述べます。 両眼視が非常に重要な方向性になると考えています。 2017年10月のセキュリティ展で発表した駐車場業界向け「瞾」シリーズの製品です。深度情報と物体検知を組み合わせ、駐車場で100%に近い車両検知率を実現し、業界に衝撃を与えているのが本製品の特徴です。 セキュリティ分野では、詳細なアプリケーションに加えて、複数のセンサーを統合することで、非常に暗い場所でもより優れた画像効果を実現し、人間の知覚能力を突破することを目指しています。 |
>>: Xunleiはブロックチェーンに最適なファイルシステムTCFSをリリースしました
単純にSEO受注の観点から言えば、SEOサイクルを正確に見積もるのはかなり面倒な作業です。現在有名な...
Teraswitch は、米国ペンシルバニア州に登録されているホスティング会社です。同社は 2003...
優れたケース分析事例名: [Keyoubi & babycare & Pigeon]...
多くのウェブマスターは、ウェブサイトの構築が難しいのは初期段階だけだということを知っています。「貧乏...
おそらく、古い VPS hostigation.com (acrosvm.com、highspeed...
servarica はプロモーション用に別の大容量ハードドライブ VPS をリリースしました。今回の...
今日では、ハイブリッド クラウドについて語らずにクラウドについて語ることは不正行為に等しい時代です。...
KubernetesとはKubernetes (K8s とも呼ばれる) は、コンテナ化されたアプリケ...
2017年11月7日、インダストリー4.0の中心地であるドイツ・ベルリンで、ヨーロッパのメーカー、研...
議論された内容は専門的なものではなく、間違っている可能性があります。何か見つかったら訂正してください...
[[267639]]目次:分散アーキテクチャとは何ですか?分散アーキテクチャの進化分散型サービスが...
360プライベートクラウドコンテナサービスチームと人工知能研究所チームは協力して、クラウドでの機械学...
最近、Xiaobai は QQ でよく質問を受けます: なぜ私のウェブサイトはいつも Baidu に...
インターネット市場が細分化され、徐々に地方都市へと移行し始めると、ますます多くの個人ウェブマスターが...
多くの中国人はhostdimeに馴染みがないかもしれません。同社は2001年に設立され、2003年に...