NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

2018 年 10 月 19 日、毎年恒例のオーディオおよびビデオ技術カンファレンス LiveVideoStackCon が北京で開催されました。今年のカンファレンスのテーマは「テクノロジーが新しい「視覚」の世界を切り開く」で、上級オーディオおよびビデオ技術エンジニアが集まり、オーディオ、ビデオ、イメージング、その他のテクノロジーの実践と考え方について議論します。教育セッションの基調講演では、NetEase Cloudの上級オーディオアルゴリズムエンジニアであるLi Bei氏が、ソフトウェアレベルのリアルタイムオーディオソリューションにおけるWebRTCネイティブアルゴリズムの欠陥に対するNetEase Cloud NRTCの最適化や、音楽コンテンツの特殊なシナリオにおける新しい考え方について語りました。

[[247165]]


NetEase CloudのシニアオーディオアルゴリズムエンジニアであるLi Bei氏が基調講演を行った。

市場の急成長により、オーディオとビデオのアプリケーションシナリオが増えています。
インターネット製品からのリアルタイムオーディオおよびビデオ技術に対する需要は、数千億ドルから数百億ドル規模の市場で爆発的に増加しており、徐々に重要なインフラストラクチャ技術になりつつあります。 Li Bei 氏は、将来的にプレイアビリティがさらに探求されるにつれて、オーディオとビデオのアプリケーションにはまだまだ成長の余地があると考えています。さらに、リアルタイムオーディオおよびビデオ技術は、インターネット製品の革新と進化を促進し、製品に豊かで効率的なシーン表現を与えるとともに、リアルタイムオーディオおよびビデオ技術自体の進化も促進しました。
リアルタイムのオーディオおよびビデオ技術は、業界やアプリケーション シナリオと密接に統合する必要があります。現在そして将来的には、安定性や効率性といった技術的なパフォーマンスに対する要件に加えて、パーソナライゼーションの面でも顧客のコアな要求が高まっています。 Li Bei氏は、NetEase Cloudが自社開発のフル機能の産業グレードのオーディオおよびビデオ技術フレームワークNRTCに基づいて、多くのシナリオベースおよびターゲットを絞った技術最適化を実行し、リアルタイムオーディオアプリケーションに関する観察と考察を形成してきたことを紹介しました。

NetEase Cloud NRTC最適化アルゴリズムはWebRTCネイティブアルゴリズムの限界を補う
Li Bei 氏は、一般産業向けの現在のソフトウェア レイヤー リアルタイム オーディオ フレームワークはますます成熟しているものの、解決すべき明らかな問題点が 2 つ残っていることを強調しました。1 つは、複雑で変化するネットワーク状況における弱い信号やネットワークの混雑によって引き起こされる遅延やパケット損失です。もう 1 つは、端末の種類とアプリケーション シナリオの増加に伴い、端末デバイスの種類と使用環境間の大きな違いにより、全体的なソリューションの適応性に対する要件が高まっていることです。コミュニケーションの目的から、一般業界ではリアルタイム オーディオに対する要件が多数あり、まず重視されるのはフレームワークのスムーズさ、低遅延、そして明らかなエコー、ノイズ、中断のない十分な音量です。上記の要件を満たすことに加えて、ほとんどの人は音質、デュアルトーク体験、その他のパフォーマンスに注目します。
では、上記の問題点を解決し、安定した動作を保証するオーディオ フレームワークをどのように設計すればよいのでしょうか? WEBRTC のオーディオ フレームワーク図を例に挙げます。

(図: WebRTC のスレッド モデルとデータ駆動型アプローチ。異なる色は異なるスレッドを表し、青い矢印はデータ駆動型アプローチを表します)

しかし、リアルタイムオーディオの安定性を確保するためには、各モジュールで注意すべき多くの問題があります。たとえば、収集されたエコーの非線形性、音量、遅延におけるシステム固有の遅延の大きさと変化などです。これらは、プラットフォームでのオーディオ収集と再生でよく見られる問題です。
オーディオの前処理の課題と WebRTC ネイティブ アルゴリズムのいくつかの欠陥により、技術者はフレームワーク全体の技術的パフォーマンスを向上させ、エンド ユーザーの製品エクスペリエンスを確保するために、さらに最適化を行う必要があります。 NetEase Cloud のフル機能の産業グレードのオーディオおよびビデオ技術フレームワーク NRTC は、これらの欠点を解決するために一連の最適化を行いました。たとえば、収集されたエコーの非線形性は、現在オンライン収集が直面している一般的な問題であり、その安定性はエコーの除去と処理効果に直接影響します。この点における WebRTC の欠点により、一部のベンダーはエコーキャンセル サービスを提供するために音量を下げざるを得なくなりました。ネイティブ WebRTC 遅延推定の安定性の問題に対応して、NetEase Cloud Communication の NRTC は遠端と近端の遅延の調整を最適化し、エコー、ノイズ、ノイズ除去における全体的なフレームワークのパフォーマンスを向上させました。
たとえば、コミュニケーション中にユーザーが発する呼吸音の収集と処理も、オーディオ フレームワークが直面する一般的な課題の 1 つです。息遣いの音はエネルギーが低く、エコーが大きく、エネルギーが中周波数と高周波数の範囲に集中しているため、通常のアルゴリズムでは処理要件を満たすことができません。 iPhone6P の気息発音におけるネイティブ WebRTC AEC と NRTC のパフォーマンスを比較すると、NRTC フレームワークを使用したアルゴリズム最適化後の効果が大幅に優れています。


iPhone6p の息切れ発音でのネイティブ WebRTC AEC と NRTC のパフォーマンス

音楽シーンにおけるリアルタイムオーディオソリューションの選択方法に関するNetEase Cloudの新しい考え方
一般的な通信シナリオにおけるオーディオおよびビデオのアプリケーションに加えて、音楽コンテンツとそのアプリケーション シナリオには、テクノロジに対するより特殊な要件があります。 Li Bei氏は、通常のシーンと比較して、音楽コンテンツのシーンにおけるサウンドに対する要件はかなり異なると紹介しました。たとえば、人間の耳は音楽に対して敏感で、音質のわずかな低下も感知できるため、サウンド処理に対する要求が高くなります。コミュニケーションを目的とした一般的なシナリオと比較すると、リアルタイム オーディオ技術の要件に対する音楽コンテンツの優先順位も異なります。安定性と音質が最優先の要件となり、ノイズ低減と低遅延は二次的な要件に格下げされます。
音楽コンテンツ シナリオの上記のような特殊性により、一般的なリアルタイム オーディオ フレームワークでは、音楽コンテンツ シナリオに一定の制限が見られます。たとえば、一般的なシナリオに適したオーディオ フレームワークの低いサンプリング レート、非フルバンド処理、近端音とダブル トークの粗い処理、低いビット レート設定、シンプルなオーディオ QoS は、音楽コンテンツの特殊なシナリオをサポートするには不十分です。たとえば、より高いビット レートを採用するときに一般的な戦略を引き続き使用すると、より深刻な輻輳やパケット損失が発生します。では、こうした新たな要求、問題点、制限に直面して、限られたリソースでどのように選択を行えばよいのでしょうか? Li Bei氏はNetEase Cloud Communicationに関する4つの新たな考えを共有した。
• AGC(自動ゲインコントロール)は、音楽コンテンツに新たな需要をもたらします。音楽シーンには、感情が落ち着くときには音量を下げ、感情が激しいときには音量を上げるなど、感情の注入に対する特別な需要があるためです。したがって、AGC アルゴリズムでエネルギーが同様に処理されると、音楽コンテンツの送信に非常に悪影響を及ぼします。
• 音楽シナリオにおけるハウリング制御の弊害:音楽デモを処理する際に、特定の周波数帯域のエコーが過度に除去されると、人々の聴覚に大きな影響を与えます。
• 音楽コンテンツにおける NS (ノイズ抑制) の問題点 -音楽シーンによっては楽器が多く、NS 処理によって特定のサウンドに損傷が生じる可能性があります。元の音の最高の体験を追求するために、一部のエンジニアは音楽効果を失うよりもノイズに耐えることを好み、NS モジュールをオフにします。李北氏は、NetEase Cloudはこの技術的問題が製品とユーザーに引き起こしたトラブルを十分に認識しており、実際にNSアルゴリズムを継続的に最適化し、顧客により良い技術サービスを提供するよう努めていると紹介しました。
• 音楽シナリオにおける TSM (タイムスケール変更) の影響 -一般的なシナリオで使用される TSM アルゴリズムを音楽コンテンツのシナリオに直接コピーすると、音楽コンテンツのビートが送信中に変化するため、音楽シナリオに特化して適合した TSM アルゴリズムを作成する必要があります。

「今日、垂直分野がますます多様化するにつれて、さまざまなシナリオに合わせて戦略を調整することは、すべての基礎技術プロバイダーが考えるべきことです。それはまた、NetEase Cloudが目指してきた方向でもあります」とLi Bei氏は結論付けた。テクノロジーと顧客をマッチングさせ、サービスをよりきめ細かくすることは、業界エコシステム全体の追求の結果であるだけでなく、業界エコシステムの進歩の原動力でもあります。

<<:  Kafka から Hadoop にデータを素早くインポートするにはどうすればよいでしょうか?

>>:  「マルチクラウド」時代を理解するための1つの記事:企業がクラウドを通じて変革を成功させる方法

推薦する

SRE と DevOps は味方でしょうか、それとも敵でしょうか?未来をリードするのは誰でしょうか?

[[278068]]序文サイト信頼性エンジニアリング (SRE) と DevOps は現在非常に人気...

Godaddy - .xxx ドメイン名 $14.99

.xxx ドメイン名はしばらく前から出回っていますが、その価格は高止まりしており、ドメイン名で遊ぶの...

欧陽春:ホームページのみをインデックスするSEOソリューション

インデックスを検索すると、検索エンジンはウェブサイトのホームページのみをインデックスし、他のページは...

企業サイト構築の3つのステップの簡単な分析

今日のインターネット時代は変化の時代です。1 秒に起こったことは次の 1 秒で変化します。もちろん、...

#中秋国庆# edgenat: 韓国 cn2+香港 cn2、VPS 20% 割引、8G メモリ/8 コア/50gSSD/4Mbpscn2、Windows をサポート

edgenat は、中秋節と国慶節の期間中、新しい 20% 割引を提供します。香港 VPS (沙田デ...

コンテナは本当に万能なのでしょうか?これを読んだらあなたは黙ってしまうでしょう

マクリーン氏がコンテナを発明したとき、彼はおそらくこの輸送手段が経済のグローバル化を促進するとは考え...

リンク交換の過程でのコツやテクニックを共有する

Baidu は時々本当に残酷です。たとえば、6 月 28 日頃のアップデートです。私のウェブサイトの...

A5マーケティング7月のアルゴリズム警告:Baidu Xiyuアルゴリズムの解釈

2018年最もホットなプロジェクト:テレマーケティングロボットがあなたの参加を待っています百度公式リ...

ウェブサイトのスナップショットに影響を与えるいくつかの主要な要因

当社では、ウェブサイトが検索エンジンにさらに多く含まれるようにネットワークの最適化を行っていますが、...

タオバオはFanli.comの禁止を否定:中国語は体育教師が教える

5月20日、タオバオは「リベートサイトの禁止」に関する最近のメディア報道を受けて、「リベートタオバオ...

APPユーザー増加のためのチャンネルプロモーション!

アプリの成功は、常にユーザー数の増加にかかっています。ユーザー数を増やす効率的な手段がなければ、ただ...

現在の状況で医療ウェブサイトはどのようにして Baidu でのランキングを最適化できるでしょうか?

検索エンジンのアルゴリズムが更新されて以来、多くの業界のウェブサイト、特に医療ウェブサイトはさまざま...

Ammann Cloud の最高戦略責任者 Yu Xiaohui 氏: 分散型クラウド コンピューティングが Web3.0 の世界を構築します

5月28日、51CTO主催の「Web3.0クラウドパワー、新世代クラウドコンピューティングカンファレ...

クラウドコンピューティングの導入の急速な成長を示す 5 つのグラフ

クラウド コンピューティングの定義は 10 年前から導入されており、企業がより優れた技術的パフォーマ...