NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

2018 年 10 月 19 日、毎年恒例のオーディオおよびビデオ技術カンファレンス LiveVideoStackCon が北京で開催されました。今年のカンファレンスのテーマは「テクノロジーが新しい「視覚」の世界を切り開く」で、上級オーディオおよびビデオ技術エンジニアが集まり、オーディオ、ビデオ、イメージング、その他のテクノロジーの実践と考え方について議論します。教育セッションの基調講演では、NetEase Cloudの上級オーディオアルゴリズムエンジニアであるLi Bei氏が、ソフトウェアレベルのリアルタイムオーディオソリューションにおけるWebRTCネイティブアルゴリズムの欠陥に対するNetEase Cloud NRTCの最適化や、音楽コンテンツの特殊なシナリオにおける新しい考え方について語りました。

[[247165]]


NetEase CloudのシニアオーディオアルゴリズムエンジニアであるLi Bei氏が基調講演を行った。

市場の急成長により、オーディオとビデオのアプリケーションシナリオが増えています。
インターネット製品からのリアルタイムオーディオおよびビデオ技術に対する需要は、数千億ドルから数百億ドル規模の市場で爆発的に増加しており、徐々に重要なインフラストラクチャ技術になりつつあります。 Li Bei 氏は、将来的にプレイアビリティがさらに探求されるにつれて、オーディオとビデオのアプリケーションにはまだまだ成長の余地があると考えています。さらに、リアルタイムオーディオおよびビデオ技術は、インターネット製品の革新と進化を促進し、製品に豊かで効率的なシーン表現を与えるとともに、リアルタイムオーディオおよびビデオ技術自体の進化も促進しました。
リアルタイムのオーディオおよびビデオ技術は、業界やアプリケーション シナリオと密接に統合する必要があります。現在そして将来的には、安定性や効率性といった技術的なパフォーマンスに対する要件に加えて、パーソナライゼーションの面でも顧客のコアな要求が高まっています。 Li Bei氏は、NetEase Cloudが自社開発のフル機能の産業グレードのオーディオおよびビデオ技術フレームワークNRTCに基づいて、多くのシナリオベースおよびターゲットを絞った技術最適化を実行し、リアルタイムオーディオアプリケーションに関する観察と考察を形成してきたことを紹介しました。

NetEase Cloud NRTC最適化アルゴリズムはWebRTCネイティブアルゴリズムの限界を補う
Li Bei 氏は、一般産業向けの現在のソフトウェア レイヤー リアルタイム オーディオ フレームワークはますます成熟しているものの、解決すべき明らかな問題点が 2 つ残っていることを強調しました。1 つは、複雑で変化するネットワーク状況における弱い信号やネットワークの混雑によって引き起こされる遅延やパケット損失です。もう 1 つは、端末の種類とアプリケーション シナリオの増加に伴い、端末デバイスの種類と使用環境間の大きな違いにより、全体的なソリューションの適応性に対する要件が高まっていることです。コミュニケーションの目的から、一般業界ではリアルタイム オーディオに対する要件が多数あり、まず重視されるのはフレームワークのスムーズさ、低遅延、そして明らかなエコー、ノイズ、中断のない十分な音量です。上記の要件を満たすことに加えて、ほとんどの人は音質、デュアルトーク体験、その他のパフォーマンスに注目します。
では、上記の問題点を解決し、安定した動作を保証するオーディオ フレームワークをどのように設計すればよいのでしょうか? WEBRTC のオーディオ フレームワーク図を例に挙げます。

(図: WebRTC のスレッド モデルとデータ駆動型アプローチ。異なる色は異なるスレッドを表し、青い矢印はデータ駆動型アプローチを表します)

しかし、リアルタイムオーディオの安定性を確保するためには、各モジュールで注意すべき多くの問題があります。たとえば、収集されたエコーの非線形性、音量、遅延におけるシステム固有の遅延の大きさと変化などです。これらは、プラットフォームでのオーディオ収集と再生でよく見られる問題です。
オーディオの前処理の課題と WebRTC ネイティブ アルゴリズムのいくつかの欠陥により、技術者はフレームワーク全体の技術的パフォーマンスを向上させ、エンド ユーザーの製品エクスペリエンスを確保するために、さらに最適化を行う必要があります。 NetEase Cloud のフル機能の産業グレードのオーディオおよびビデオ技術フレームワーク NRTC は、これらの欠点を解決するために一連の最適化を行いました。たとえば、収集されたエコーの非線形性は、現在オンライン収集が直面している一般的な問題であり、その安定性はエコーの除去と処理効果に直接影響します。この点における WebRTC の欠点により、一部のベンダーはエコーキャンセル サービスを提供するために音量を下げざるを得なくなりました。ネイティブ WebRTC 遅延推定の安定性の問題に対応して、NetEase Cloud Communication の NRTC は遠端と近端の遅延の調整を最適化し、エコー、ノイズ、ノイズ除去における全体的なフレームワークのパフォーマンスを向上させました。
たとえば、コミュニケーション中にユーザーが発する呼吸音の収集と処理も、オーディオ フレームワークが直面する一般的な課題の 1 つです。息遣いの音はエネルギーが低く、エコーが大きく、エネルギーが中周波数と高周波数の範囲に集中しているため、通常のアルゴリズムでは処理要件を満たすことができません。 iPhone6P の気息発音におけるネイティブ WebRTC AEC と NRTC のパフォーマンスを比較すると、NRTC フレームワークを使用したアルゴリズム最適化後の効果が大幅に優れています。


iPhone6p の息切れ発音でのネイティブ WebRTC AEC と NRTC のパフォーマンス

音楽シーンにおけるリアルタイムオーディオソリューションの選択方法に関するNetEase Cloudの新しい考え方
一般的な通信シナリオにおけるオーディオおよびビデオのアプリケーションに加えて、音楽コンテンツとそのアプリケーション シナリオには、テクノロジに対するより特殊な要件があります。 Li Bei氏は、通常のシーンと比較して、音楽コンテンツのシーンにおけるサウンドに対する要件はかなり異なると紹介しました。たとえば、人間の耳は音楽に対して敏感で、音質のわずかな低下も感知できるため、サウンド処理に対する要求が高くなります。コミュニケーションを目的とした一般的なシナリオと比較すると、リアルタイム オーディオ技術の要件に対する音楽コンテンツの優先順位も異なります。安定性と音質が最優先の要件となり、ノイズ低減と低遅延は二次的な要件に格下げされます。
音楽コンテンツ シナリオの上記のような特殊性により、一般的なリアルタイム オーディオ フレームワークでは、音楽コンテンツ シナリオに一定の制限が見られます。たとえば、一般的なシナリオに適したオーディオ フレームワークの低いサンプリング レート、非フルバンド処理、近端音とダブル トークの粗い処理、低いビット レート設定、シンプルなオーディオ QoS は、音楽コンテンツの特殊なシナリオをサポートするには不十分です。たとえば、より高いビット レートを採用するときに一般的な戦略を引き続き使用すると、より深刻な輻輳やパケット損失が発生します。では、こうした新たな要求、問題点、制限に直面して、限られたリソースでどのように選択を行えばよいのでしょうか? Li Bei氏はNetEase Cloud Communicationに関する4つの新たな考えを共有した。
• AGC(自動ゲインコントロール)は、音楽コンテンツに新たな需要をもたらします。音楽シーンには、感情が落ち着くときには音量を下げ、感情が激しいときには音量を上げるなど、感情の注入に対する特別な需要があるためです。したがって、AGC アルゴリズムでエネルギーが同様に処理されると、音楽コンテンツの送信に非常に悪影響を及ぼします。
• 音楽シナリオにおけるハウリング制御の弊害:音楽デモを処理する際に、特定の周波数帯域のエコーが過度に除去されると、人々の聴覚に大きな影響を与えます。
• 音楽コンテンツにおける NS (ノイズ抑制) の問題点 -音楽シーンによっては楽器が多く、NS 処理によって特定のサウンドに損傷が生じる可能性があります。元の音の最高の体験を追求するために、一部のエンジニアは音楽効果を失うよりもノイズに耐えることを好み、NS モジュールをオフにします。李北氏は、NetEase Cloudはこの技術的問題が製品とユーザーに引き起こしたトラブルを十分に認識しており、実際にNSアルゴリズムを継続的に最適化し、顧客により良い技術サービスを提供するよう努めていると紹介しました。
• 音楽シナリオにおける TSM (タイムスケール変更) の影響 -一般的なシナリオで使用される TSM アルゴリズムを音楽コンテンツのシナリオに直接コピーすると、音楽コンテンツのビートが送信中に変化するため、音楽シナリオに特化して適合した TSM アルゴリズムを作成する必要があります。

「今日、垂直分野がますます多様化するにつれて、さまざまなシナリオに合わせて戦略を調整することは、すべての基礎技術プロバイダーが考えるべきことです。それはまた、NetEase Cloudが目指してきた方向でもあります」とLi Bei氏は結論付けた。テクノロジーと顧客をマッチングさせ、サービスをよりきめ細かくすることは、業界エコシステム全体の追求の結果であるだけでなく、業界エコシステムの進歩の原動力でもあります。

<<:  Kafka から Hadoop にデータを素早くインポートするにはどうすればよいでしょうか?

>>:  「マルチクラウド」時代を理解するための1つの記事:企業がクラウドを通じて変革を成功させる方法

推薦する

ソースコードを使って初心者向けのウェブサイトを構築する方法

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますウェブサイ...

百度は分かりにくく、キーワードランキングも不明瞭

Baidu 10.23 アルゴリズムアップデート以来、私は「Jieyitong」というキーワードのホ...

cheapwindowsvps-7USD/1.15GB RAM/45GB SSD/2TB データ/G ポート/Windows 2003

cheapwindowsvps と ssdvps は同じ会社のものです。私の記憶が正しければ、おそら...

サービスメッシュ: Kubernetes の使用コストに影響を与える諸刃の剣

翻訳者 |崔浩この記事では主に、Service Mesh が Kubernetes のコストにどのよ...

ウェブサイトのホームページが降格されたのはなぜですか?

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っていますXiaox...

SEOの究極の進化には、マーケティングレベルから問題を見ることが必要です

私は、SEO のレベルは 3 つのレベルに分けられると常に信じています。最初のレベルは SEO を学...

ECサイト構築時に注意すべきこと

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています独自の電子...

革新か誇大広告か?ローコードに関する10の質問:UFIDAの見解

[元記事は51CTO.comより] 2020年以降、ローコードは業界で話題となり、資本市場と企業ユー...

いわゆるSEO専門家によるいわゆるインスタントコレクションチュートリアル

【はじめに】今日は突然フォーラムで遊んでみたくなりました。そこで私は Discuz の公式ウェブサイ...

Rackdは年間20ドルの仮想ホスティングで無料のドメイン名を提供します

5G ハードドライブ、月間トラフィック 100G、独立した Web サイト 5 つ、cpanel11...

SEOネットワークのプロモーションには蓄積と沈殿が必要

SEO オンラインプロモーションを行うには、蓄積と沈殿が必要です。蓄積とは、将来の発展のニーズに合わ...

Baiduの最適化に関する個人的な意見

Baidu は現在、世界最大の中国の検索エンジンであり、ほとんどのウェブマスターにとって非常に重要な...

クラウド移行の5つの課題

クラウド コンピューティングの登場により、企業はクラウド コンピューティングを利用してビジネスの革新...

推奨: Kazila-$45/E3-1230V2/8G メモリ/1T ハードディスク/5IP/100M 無制限/IPMI

Kazila が朗報を発表しました。E3 シリーズ サーバーの特別価格、8G メモリ、SSD、100...

どちらの検索結果がより公平でしょうか?マイクロソフト、グーグルの「有料ランキング」を非難

[はじめに] Microsoft: Google に対し、「有料ランキング」の慣行をやめ、消費者が本...