OCR業界の発展動向を総合的に検討し、国内初のOCR白書が正式に発表されました

OCR業界の発展動向を総合的に検討し、国内初のOCR白書が正式に発表されました

9月28日、工業情報化部、北京市人民政府、国際電気通信連合ITU-Tの主催による2020年AIIA人工知能開発者会議で、主催者は中国初のインテリジェントテキスト認識(OCR)機能評価および応用白書を正式に発表した。この白書は、OCR 開発の背景、技術の進化、業界の発展状況、技術の標準化、開発動向など、さまざまな側面から現在の国内 OCR 業界を詳細にレビューし、OCR 技術の産業化の加速的な実施と持続可能な発展を総合的に推進します。

OCR は光学文字認識の略称で、画像内の手書きまたは印刷されたテキストをコンピューターで直接処理できる形式に変換する機械の使用を指します。コンピューター ビジョンの重要な分野である OCR の典型的な用途は、画像とテキストの認識を通じて情報の入力を実現することです。同時に、テキストと記号には豊富な意味情報が含まれているため、OCR に基づいてテキスト情報を抽出し、それを分析することで、機械が画像をよりよく理解できるようになります。

このホワイトペーパーは、中国情報通信科学院、中国人工知能産業発展連盟、テンセントクラウドAIコンピュータービジョンセンター、テンセントセキュリティ戦略研究部、テンセントYoutuラボが共同で起草したと理解されています。

新しいインフラが新しい機会をもたらす、OCR技術開発の3つの大きなトレンド

近年、人工知能技術の助けを借りて、OCR パフォーマンスが継続的に向上し、産業のデジタル化によって生まれた、より複雑な OCR アプリケーション シナリオをしっかりとサポートできるようになりました。同時に、携帯電話、電子製品、クラウドサービスなど、より多様化したサービスキャリアにより、OCRの普及がさらに加速し、社会生産と生活のより多くの分野に浸透し続けています。

特に、今年4月、国家発展改革委員会は人工知能インフラを「新型インフラ」の範囲に明確に含めた。 OCR 業界は、人工知能の応用分野の中で最も現実的で商業的に成熟した分野であるため、間違いなく「新インフラ」を背景に新たな発展の機会をもたらし、関連技術も新たな変化をもたらすでしょう。

報告書では、OCR技術の今後の発展の3つの主要な方向性として、統合されたエンドツーエンドのOCRモデル、高性能と高効率を兼ね備えたOCR、知覚から認知までのインテリジェントOCRを挙げています。

具体的には、統合されたエンドツーエンドのネットワークを構築し、同時にテキストの検出と認識をトレーニングすることが、OCR テクノロジの開発における重要なトレンドの 1 つになります。エンドツーエンドのネットワーク設計により、繰り返し計算を削減できるだけでなく、機能の品質が向上し、タスクのパフォーマンスの向上が促進されます。同時に、多数の OCR アプリケーションを、リソースが制限されたモバイル デバイス上で実行する必要があります。現在のモバイル OCR アルゴリズムのほとんどは、実行速度と引き換えに、ある程度のアルゴリズムの精度を犠牲にしています。モバイルデバイスのパフォーマンスと効率の両方を考慮した軽量 OCR モデルを設計することは、将来の開発の重要な方向性となります。

さらに、知覚から認知までのインテリジェント OCR の場合、OCR テクノロジは通常、コンピューター ビジョンの分野から始まります。今後は、自然言語処理技術やナレッジグラフなどのより幅広い分野とクロス統合し、セマンティクスと知識のディープマイニングを通じてOCRのパフォーマンスを向上させることが重要なトレンドとなるでしょう。さらに、強化学習やメタ学習などの新しい学習パラダイムを OCR に導入して、機械がテキストの認識方法を自律的に学習できるようにすることも研究のホットスポットになるでしょう。

市場規模は133億8100万ドルに達し、OCRはテクノロジー大手の標準機能となった。

現在、OCR 技術は、金融、保険、医療、運輸、教育など、多くの業界で深く成熟して応用されています。今後、伝統産業のデジタル変革に伴い、OCRの適用範囲とシナリオはさらに拡大し、市場規模はさらに拡大するでしょう。権威ある組織は、世界の OCR 市場規模が 2025 年に 133 億 8,100 万米ドルに達すると予測しています。

初期の頃は、技術開発の限界により、OCR メーカーは通常、ナンバープレート認識システムなどの特定のアプリケーションに焦点を合わせ、一連の専用機器を形成していました。近年、OCR 技術が組み込まれた端末デバイスやアプリケーションがますます増え、インフラストラクチャ、基本機能から端末アプリケーションに至るまで、完全な産業チェーン エコシステムが徐々に形成されてきました。カード、証明書、請求書などのセグメント化された一連の OCR 機能も派生しており、組み合わせたアプローチを通じてさまざまな業界にサービスを提供しています。

OCR 業界エコシステムマップ

OCR テクノロジが徐々に基本的な機能として「定着」し、さまざまな上位レベルのビジネス アプリケーションに基礎的な技術サポートを提供していることは容易に理解できます。 Tencent Cloud に代表されるテクノロジー大手とクラウド コンピューティング ベンダーは、OCR の導入を加速しています。社内のビジネスニーズを満たしながら、高度な OCR 機能を継続的に外部に公開しています。 OCR はテクノロジー大手にとって標準的な機能となっています。

複数の業界シナリオでの成熟した実装とOCR評価標準の最初のリリース

具体的な応用面では、カードや紙幣の認識など標準的なシナリオでのテキスト認識はすでに比較的成熟しており、教育や物流などの業界での手書きテキスト認識の応用も拡大しています。複雑で動的なシーンにおける OCR 技術とアプリケーションは、過去 2 年間で注目されている研究分野となっています。たとえば、OCR は、無人運転やロボットなどのシナリオで視野内に表示されるテキストを認識するために使用されます。

今回公開されたホワイトペーパーでは、Tencent Cloud は OCR 分野における代表的な実装事例も多数発表しました。

テンセントクラウドとテンセントYoutu研究所が提供するIDカードOCR技術を使用することで、FengchaoエクスプレスロッカーはIDカードフィールドの認識精度が最大99%になり、ユーザーの荷物の発送と受け取りの効率が大幅に向上します。寧波銀行は、テンセントクラウドとテンセントYoutu研究所が開発したインテリジェントな紙幣OCRソリューションを採用することで、認識フィールドの精度を90%以上に高め、銀行業務のシナリオのニーズをよりよく満たしています。 Sogou の広告画像テキストレビューでは、OCR 製品サービスを使用して、顧客が大量の画像テキストコンテンツを自動的に識別できるようにし、広告画像内の違法コンテンツを効率的に識別して、顧客のビジネスにおける違反のリスクを軽減します。

特筆すべきは、OCR関連分野における応用の敷居を総合的に下げ、混在状況を回避するために、ホワイトペーパーでは初めてOCRの評価基準と仕様も発表されたことである。

今年4月、中国人工知能産業発展連盟は「OCRサービスのインテリジェントグレーディングの技術要件と評価方法」を策定し、機能、性能、セキュリティなどの観点からOCRサービスの技術要件と評価方法を規定しました。7月には、OCRサービスの要件と評価方法が国際電気通信連合ITU-T SG16グループによって承認され、ディープラーニングに基づくOCR評価方法が国際標準化機構に徐々に受け入れられていることを示しています。

このプロセスにおいて、テンセントは OCR 分野における技術革新と標準設定の推進に深く関与し、企業がさまざまな OCR サービスの機能を客観的かつ総合的に評価できるように支援しています。現在、テンセントクラウドが中国人工知能産業発展連盟の指導の下で開発した天江OCRサービスエンジン自動評価プラットフォームは、OCR技術サプライヤーに技術テストサービスを提供できるだけでなく、OCR技術や製品のテスト結果を公開して、需要者に客観的で公平な選択基準を提供することもできます。

<<:  クラウド コンピューティング セキュリティのリーダーシップを発揮する方法

>>:  クラウドコンピューティング: 20 年の簡単な歴史

推薦する

Docker はクリーンな Ubuntu システムを作成し、Android ソースコードをコンパイルします

序文イントラネット上のサーバーは通常、多くのプログラムを実行する Ubuntu です。 Androi...

週刊ニュースレビュー:Sina WeiboがWeiboに名前を変更、Alipayが4大銀行と競争して冷静に

1. Ctripの脆弱性は、インターネット業界全体のセキュリティ意識の欠如を露呈しているユーザーの支...

RamNode - 38% オフ/シアトル/アトランタ オンライン

LEBで2位にランクされたRamnodeは、安定したサーバー+高性能+Gポートを備えています。後に純...

マイクロソフト、人工知能をベースにした2つのクラウドツールのプレビューを開始

これらのサービスは、Microsoft の Azure クラウド プラットフォームの機能を活用してい...

Vultr、(新データセンター)シンガポールVPS、簡単なレビュー/月額5ドル/768MBのメモリ

Vultr はシンガポールのデータセンターにあるため、Host Cat が Vultr シンガポール...

Kubernetes API を拡張するにはどうすればいいですか?

Django は汎用 Web フレームワークですが、Kubernetes はコンテナ オーケストレー...

静的、動的、疑似静的の URL 構造のうち、どれが SEO に効果的ですか?

静的、動的、疑似静的の URL 構造のうち、どれが SEO に効果的ですか? SEO に詳しい人なら...

「百度のアルゴリズム変更分析とSEO対策」を読んでの感想

6.28、7.13、過去30日間、百度の行為は確かに多くの人を怒らせました。百度に依存している「イン...

マルチクラウド時代に向けてどのように移行していくのでしょうか?

近年、クラウド コンピューティングの利点を最大限に活用し、アプリケーションの柔軟性、信頼性、効率性を...

キーワードに焦点を当ててウェブサイトのコンテンツを作成することは無駄ではない

検索エンジンの大幅な拡大に伴い、キーワードの役割はますます重要になってきました。人間の社会生活のペー...

ウェブマスターネットワークからの毎日のレポート:Juhuasuanが香港と台湾で事業を拡大、Baiduが「マイクロショッピング」を開始

1. 工商省は個々のオンラインストアを監督する予定:5年以内に営業許可証を発行するタオバオへの課税は...

企業のブランドマーケティングに関する簡単な説明

2012年に「電子商取引」が急速に発展した時、多くの中小企業は、規模を拡大するには自社ブランドのマー...

デスクトップ仮想化: 集中型か分散型か?

[[216241]]仮想デスクトップが必要な理由は何ですか? 10 年以上前、デスクトップ仮想化技...

シャンダゲームズ元社長リンハイ氏のスタートアップボイスコミュニティ「議論」が暴露される

「フォーカス」と「論壇」のインターフェースである凌海が今年2月に山大ゲームズの社長を退任すると発表し...

2019年に役に立つSEOランキング手法、絶対に知りたくないとは思わない

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービスこれは非常に奇妙な質問で...