[原文は51CTO.comより] 9月11日、「オーディオとビデオ技術の探求と実践」をテーマにしたテンセントクラウドテクノハブテクノロジーツアー北京ステーションイベントが開幕しました。疫病の影響により、リモートオフィス、ビデオ会議、オンライン教育などのモードの応用がますます一般的になり、オーディオおよびビデオ技術に対する市場の需要が大幅に増加しました。このイベントではオーディオとビデオの分野に焦点が当てられ、多くの技術専門家や開発者が、テクノロジーによってクラウドで新しい「ビジュアル」の世界を実現する方法を探りました。 エンターテインメント業界におけるリアルタイムオーディオとビデオの実装 10年間の発展を経て、モバイルインターネットは本格的なインターネットの時代を迎えようとしています。本格的なインターネットのインフラストラクチャとして、リアルタイムオーディオとビデオは、高同時性、低遅延、高解像度、スムーズ、安全で信頼性の高いフルシナリオ、完全インタラクティブ、完全リアルタイムのオーディオとビデオサービスをユーザーに提供します。 Tencent Real-Time Communication (TRTC) は、Tencent の 21 年にわたるネットワーク、オーディオ、ビデオ技術の蓄積に基づいています。複数人での音声およびビデオ通話と、低遅延のインタラクティブなライブ ブロードキャストという 2 つのシナリオ ベースのソリューションを提供します。これは Tencent Cloud Services を通じて開発者に公開されており、開発者が低コスト、低遅延、高品質のオーディオおよびビデオ インタラクティブ ソリューションを迅速に構築できるように支援することに取り組んでいます。エンターテイメントやソーシャルネットワーキング、オンライン教育、インタラクティブゲーム、共同コミュニケーション、オンライン医療、オンライン金融などのシナリオで広く使用されています。 テンセントクラウドのTRTCアーキテクチャ責任者、崔立鵬氏 テンセントクラウドのTRTC製品アーキテクチャ責任者である崔立鵬氏は、スピーチの中で、TRTCには低遅延と低ラグ、高音質、高画質、完全なプラットフォームカバレッジという3つの大きな利点があると述べた。 TRTC 全体のアーキテクチャ 総合エンターテインメントのシナリオでは、ユーザーは画質と音質に対して非常に高い要求を持っています。画質に関しては、TRTC はフルリンク H.265 をサポートしており、同じビットレートで画質が向上します。音質の面では、TRTC には「Tencent Tianlai」オーディオ エンジンが組み込まれており、複数人、複数シナリオのリアルタイム通信システムにおける 3A 問題 (ノイズ低減、エコー抑制、ゲイン制御) に対して、複雑性が低く堅牢性の高いソリューションを提供し、ユーザーが「明瞭に、かつ正確に聞く」ことができるように取り組んでいます。 弱いネットワーク環境でも通話品質をより確実に保証 今年6月1日に新しい著作権法が施行されたことにより、生放送における音楽の著作権が業界の焦点となっている。 TRTCはTencent Cloudと提携し、5月にライブインタラクティブ音楽ライブラリを開発しリリースした。
オーディオおよびビデオコンテンツのリスク管理アプリケーションの実践 近年、国はインターネットコンテンツのセキュリティに引き続き注目しており、一連の法律や規制が制定され、インターネット企業に安全で健全なネットワーク環境を確保するための技術的手段を採用することを明確に要求しています。コンテンツセキュリティの問題は企業にとって生命線となっています。オーディオとビデオの分野では、ポルノ、流血、テロなどの違法で不法なコンテンツを効果的に発見し、対処することが、企業の健全な発展にとって非常に重要です。
テンセントクラウドのシニアR&Dエンジニアである蔡飛氏は、現在のオーディオとビデオの分野ではコンテンツのセキュリティリスク管理にまだ多くの課題が残っていると指摘した。たとえば、コンテンツレビューにはますます多くの側面があり、より洗練された運用上のニーズを満たす必要があります。コンテンツレビューの基準は統一されておらず、ビジネスシナリオごとに異なるレビュー戦略が必要になります。同時に、新しいリスクの種類では膨大な履歴データの再レビューが必要となり、レビュー システムに対する要件がさらに高まります。
Tencent Cloud のコンテンツリスク管理製品は、22 年にわたる業界監査の経験を蓄積してきました。数億のサンプルデータを使用したトレーニングを通じて、300 を超える監査ラベルの認識をサポートし、精度は 95% を超えます。また、大規模な認識ニーズをサポートするために、24時間365日のポリシー調整と柔軟な拡張を提供し、Tencent Cloudユーザーにリアルタイムで正確、効率的、使いやすいコンテンツ監査総合ソリューションを提供します。 クラウドオンデマンドメディア処理プラットフォームの技術実践 クラウド オンデマンドは、オーディオとビデオのアップロード、メディア リソース管理、メディア処理、配信の高速化、ビデオ配信を統合したソリューションです。その中で、メディア処理はクラウドオンデマンドの中核機能であり、トランスコーディング、スクリーンショット、ビデオ AI、ビデオ暗号化などの機能をサポートしています。
Tencent CloudのシニアR&DエンジニアであるYan Chuxiong氏は、メディア処理におけるオフラインタスクの特徴を紹介しました。モジュール設計、アルゴリズム設計、キュー選択の観点から、クラウドオンデマンドが公平で信頼性が高く、効率的にスケジュールされたメディア処理プラットフォームを実現する方法を紹介しました。
Xe GPUの革新的なマイクロアーキテクチャが境界のないクラウドゲーム体験を実現 5Gや光ファイバーなどの高速ネットワークの発展と普及により、クラウドゲームはゲーム業界の避けられないトレンドとなり、オーディオとビデオ技術を応用した次の市場となっています。
Intel の第 1 世代 GPU 製品はゲームに重点を置いており、Android モバイル ゲームとクラウド ゲームを市場構築のブレークスルーとして活用しています。インテル(中国)研究センター株式会社のビジュアルクラウドのチーフアーキテクトであるYu Zhihong氏は、「極端な性能を追求したGPUではなく、低消費電力と高密度というアイデアから始まり、1枚のボードに複数のGPUを積み重ねています。モバイルゲームは非常にコストに敏感なビジネスです。インテルの第1世代GPUは、1枚のカードでより多くのルートをサポートできるため、コストをさらに削減できます」と述べています。 Intel は、わずか 150 ワットの電力しか消費しない 4 つの小型 GPU を搭載したカードを開発しました。クラウド ゲームのシナリオでは、Intel と Tencent が緊密に協力し、特定のシナリオ要件をカスタマイズし、エンコードとデコードの密度に関して対応するマッチングを行っています。
Yu Zhihong氏は、Intelが最近、新しい高性能グラフィックカード製品ブランドであるIntel® Arcをリリースし、2022年に発売されることを明らかにしました。Intel® Arcグラフィックス製品は、Xe HPGマイクロアーキテクチャに基づいて設計されています。同社のハードウェア製品には、Xe HPG マイクロアーキテクチャに基づく第 1 世代の Alchemist グラフィック カードだけでなく、Battlemage、Celestial、Druid というコード名の後継世代の製品も含め、複数の世代が含まれます。 次世代オーバーレイネットワークアーキテクチャの探究 インターネット後半、産業インターネット時代、モノのインターネット時代、データ中心時代に入り、人口ボーナスの終焉、トラフィックボーナスの終焉など、これまで以上に困難な課題に直面していますが、それは異常な高速成長の終焉を意味するものではありません。これまでの成功したインターネット インフラストラクチャは、インターネットの急速な発展を支えてきました。その成功は、OSI 階層化モデルと TCP-HTTP プロトコルの成功として要約できます。しかし、産業インターネットの時代においては、データ量の増加、配信効率の低下、ユーザーのデータ主権意識の高まりなどの要因により、クライアントのみがサーバーにアクセスできるC/SおよびB/Sアーキテクチャは産業インターネットに適さなくなり、それをサポートする新しいネットワークアーキテクチャが必要になっています。
Tencent Cloud の専門エンジニアである張鵬氏は、新しいネットワーク アーキテクチャは、まず (B2B 分野にとって) より安価で、より効率的で、より使いやすく、またアーキテクチャ上の制約を打ち破る必要があると考えています。今日、すべてのデジタル化は基本的にクラウドを通じて生成されるデジタル化です。クラウドを介して転送されるデータは、現実世界のすべてのシナリオをカバーすることはできません。世界は非常に複雑であり、リレーショナル データで実行できることは実際にはごくわずかです。振り返ってみると、最も適用可能な業界は、ソーシャル、電子商取引、コンテンツ配信、データ入力/管理だけです。アーキテクチャはクラウドのみのアプローチから脱却し、より分散化されたネットワークを実現する必要があります。新しいネットワーク アーキテクチャも 5G と組み合わせる必要がありますが、エッジ サーバーをすべての 5G 基地局に展開することはできないため、接続のさらなる解放に依存します。同じ5G基地局にあるデバイス同士が接続してアクセスし、近くのサービスを提供できるようにします。これにより、5G の大きな利点が最大限に発揮されます。これが 5G の正しい使い方であり、ピアツーピア ネットワーク テクノロジーはまさにこの点において最適です。 張鵬氏は、将来的にはデータは同社のクラウドデータセンターに保存されるのではなく、さまざまな小さな銀行の金庫やコミュニティの保管ボックスに保管される可能性が高いと述べた。保存されたデータには独占禁止法が適用され、アプリケーションによって生成されたデータの主権はアプリケーション自体ではなく個人に属することになります。さらに、配信とアクセスの速度が速くなり、ストレージコストが低くなります。ライブ ブロードキャスト形式は非常に代表的なもので、画像、テキスト、ビデオ、その他の素材などのメディア コンテンツはクラウドに保存され、クラウド サービス プロバイダーがそれらを完全に制御します。ただし、ライブ ブロードキャスト形式では、クラウド サービス プロバイダーはライブ ブロードキャストを完全に制御できなくなります。ホストがオフラインになると、ホストもオフラインになり、クラウドはライブ ブロードキャスト コンテンツを続行できなくなります。ホストはライブ放送コンテンツに対して絶対的な主権を持ちます。 最後に、張鵬教授がネットワーク、ストレージ、コンピューティングの 3 つの主要な実装方法について詳しく説明しました。もちろん、それらは最終的には基盤としてのクラウドから切り離すことはできません。このため、Tencent Cloud は 3 in 1 ネットワークである RT-ONE を立ち上げました。
RT-one は、Tencent Cloud リアルタイム通信ネットワーク (TRTC)、インスタント メッセージング ネットワーク (IM)、ストリーミング メディア配信ネットワーク (CDN) を統合し、完全なオーディオおよびビデオ通信 PaaS プラットフォームを構築するための基盤となります。 新興住宅地におけるインテリジェント音声技術の応用 インテリジェント音声とは、音声信号認識をベースに、自然言語処理および対話管理技術と組み合わせ、言語入力情報を抽出して分析し、最終的に音声合成またはテキストを通じて出力および応答する、人間とコンピュータの言語インタラクション技術を指します。インテリジェント音声技術は人工知能の中核となる基礎技術の一つであり、人工知能技術において重要な位置を占めています。権威あるデータによると、2019年にインテリジェント音声は我が国の人工知能市場シェアの22%を占め、大規模に商業化されたマシンビジョンに次ぐシェアとなった。長年の開発を経て、インテリジェント音声技術は実装段階に入り、インテリジェント音声アシスタントやスマートスピーカーなどの製品も次々と発売されています。消費者市場では、音声アプリケーションは個人の日常生活に基づいており、主なアプリケーションシナリオには、スマートライフ、スマートホーム、スマートオフィス、スマートドライビングなどが含まれます。エンタープライズ市場では、音声アプリケーションは、スマートヘルスケア、スマート教育、スマート通信/金融/電子商取引などの特定のシナリオに役立ちます。新しい生活分野では、音声アプリケーションは主にスマートホームとスマートカスタマーサービスのシナリオで使用されます。 Beikeの音声技術責任者であるZou Wei氏はスピーチの中で、スマートホームの目標は家にあるすべての製品の知能化を実現することだと述べた。スマートスピーカー、掃除ロボット、スマートテレビなどは、人々の生活の中でよく使われる製品です。これらの製品は音声で対話し、インテリジェントな集中制御を実現します。これらのスマート製品とスマートハードウェアは、まず情報オーディオを通じて音声処理と音声ウェイクアップを実行し、次に音声認識を実行します。音声理解を使用して天気を尋ねるなどのリクエストを識別し、対話管理を通じてユーザーと対話します。その後、音声合成を実行し、音声を通じてユーザーと通信して、完全な音声リンクを形成します。 次に、ゾウ・ウェイ氏はインテリジェント顧客サービスの応用についても詳しく紹介しました。
テンセントビデオクラウドミンモテクノロジーの進化 ディスプレイデバイスの解像度が高くなるにつれて、超高精細ビデオに対する一般の需要はますます高まっていますが、ビデオ制作や制作における一般的な解像度は依然として 1080P です。放送・テレビ業界では、AI技術を活用して元の不鮮明な映像を超高精細映像に変換し、人間の目の知覚を真に4Kに近づけることが急務となっています。ほとんどのインターネット企業にとって、ライブストリーミングや短編動画が飛躍的に発展するにつれ、帯域幅とストレージコストの急激な増加は大きな問題となっています。同時に、インターネット業界の顧客にとって、ビデオ再生のスムーズさもユーザーエクスペリエンスの重要な尺度です。そのため、高精細ローコードや画質向上などの AI ベースの機能は、業界の顧客の注目を集めるようになっています。
Tencent のオーディオおよびビデオ AI 製品ソリューションである Tencent Mingmu は、ビデオ ストリームをリアルタイムで認識し、AI 処理を実行できます。 Tencent Mingmouには、「Ultra-Speed HD」や「Video Super Resolution」などの製品が含まれています。中でもUltra-Speed HDは、映像の鮮明さを保ちながら、通常のトランスコードに比べて圧縮率を40%向上させることができます。画質の復元により、人間の目のビデオ認識が大幅に向上し、オンラインビデオ、総合エンターテインメント生放送、ショートビデオなどの業界に役立ち、帯域幅リソースを効果的に節約して視聴体験を向上させることができます。 次に、テンセントクラウドのシニアR&Dエンジニアである劉兆睿氏が、超高速HDと画質復元の進化について詳しく紹介しました。 オーディオおよびビデオコンテンツのリスク管理における AI の実践 情報爆発の時代では、毎日大量のデジタル情報が生成されますが、その中には多くの悪質なコンテンツが含まれており、社会の健全な発展に大きな影響を与えています。コンテンツの浄化が差し迫っています。コンテンツリスク管理の分野で AI 技術を活用することで、人的投資を大幅に削減し、企業のコスト削減と効率化に貢献し、健全なコンテンツを保護することができます。 テンセント セキュリティの上級アプリケーション研究者、周 衛瓚氏 さまざまなシナリオによって生成された情報は、最終的にオーディオ、ビデオ、画像、テキストの形式で提示され、コンテンツ リスク管理製品は、オーディオ、ビデオ、画像、テキストのテクノロジに基づいて全体的なレビュー機能を構築します。コンテンツリスク管理が直面する課題と困難には、強い対立、さまざまな形式のコンテンツに多数の対立のバリエーションとマルチモーダルの組み合わせがあることなどが挙げられます。さまざまなビジネス シナリオにおけるさまざまな標準には、さまざまなシナリオに柔軟に対応できる戦略が必要です。一部のビジネス シナリオは複雑で、長期にわたる問題を抱えています。適時性、新たなリスクに迅速に対応する能力。 テンセントセキュリティの上級アプリケーション研究員である周衛崑氏は講演の中で、画像・動画リスク管理、音声リスク管理、テキストリスク管理の具体的な実施方法について詳しく説明しました。周衛瓊氏は、コンテンツリスク管理においては、モジュール間の適応と接続を最適化する必要があり、ノイズ、背景音、遠距離でのASR精度向上などの難しい問題を解決する必要があると述べた。マルチモーダル技術の応用を探求することで、さまざまな監査の有効性を向上させることができます。同時に、敵対的サンプルの監査機能を強化するために、敵対的生成技術の適用も必要です。 現時点で、北京でのTencent Cloud Techo Hubテクノロジーツアーは成功裏に終了しました。次回は成都、杭州、上海でもイベントが開催され、より多くの開発者に学びとコミュニケーションの機会が提供されます。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: VMware イノベーション ネットワーク: オープンソース コラボレーションから真の Win-Win へ
>>: Xuan Jing Zhou Xing が「クラウド ネイティブでの IAST 実装の実践」について説明します。
ウェブマスターなら誰でも、このような経験をしたことがあるでしょう。一生懸命ウェブサイトを構築した後、...
中小企業、特に私たちのような個人タオバオストアにとって、フォーラムのプロモーションはますます役に立た...
インターネット技術の継続的な普及に伴い、ますます多くの企業が電子商取引へと移行し始めています。タオバ...
ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス私はウェブサイトのストア...
みなさんこんにちは。私はHongtu Internetです。ウェブサイトのテーマの決定と比較すると、...
ガートナーは、2025 年までに、パブリック クラウド コンピューティング分野の有効市場セグメントに...
5月30日、UCloud ホスト侵入検知製品 (UHIDS) はパブリックベータ版を終了し、商用バー...
新しい統合ソリューションにより、企業はOracle Cloud Infrastructure、マルチ...
動画はSERPに含まれるVimeo や Youtube でホストされている場合でも、主要な検索エンジ...
v5.netは今月、CN2+BGP回線に接続された韓国データセンターを新たに開設しました。速度が速く...
1. ウェブサイトリンクの販売によって誰のチーズが動かされているのでしょうか?最近、百度がウェブサイ...
編集者注:このセルフメディアでは今週、共同購入ウェブサイトGaopeng.com、Ftuan、Gro...
休暇中は、さまざまな営業プロモーション活動が星雲のように出現します。数ある活動の中で、イベントページ...
マルチアクセス エッジ コンピューティング (MEC) は、クラウド コンピューティングに続くもう ...
組織は、IoT によって生成されたデータを効率的に保存および管理するために、IoT 向けのクラウド ...