CVPR 2024 フルスコアペーパー |変形可能な3Dガウス分布:変形可能な3Dガウス分布に基づく高品質の単眼動画像再構成のための新しい方法

CVPR 2024 フルスコアペーパー |変形可能な3Dガウス分布:変形可能な3Dガウス分布に基づく高品質の単眼動画像再構成のための新しい方法

プロジェクトのホームページ: https://ingra14m.github.io/Deformable-Gaussians/

論文リンク: https://arxiv.org/abs/2309.13101

コード: https://github.com/ingra14m/Deformable-3D-Gaussians

単眼動的シーンとは、単眼カメラを使用して観察および分析される動的環境のことであり、シーン内のオブジェクトは自由に移動できます。単眼による動的シーンの再構築は、環境の動的な変化の理解、オブジェクトの移動軌跡の予測、動的なデジタル資産の生成などのタスクに不可欠です。

Neural Radiance Field (NeRF) に代表されるニューラル レンダリングの台頭により、動的シーンの 3D 再構築に暗黙的表現を使用する研究が増えています。 D-NeRF、Nerfies、K-planes など、NeRF をベースにした代表的な作品は、満足のいくレンダリング品質を実現していますが、真にフォトリアリスティックなレンダリングにはまだ程遠いものです。根本的な原因は、レイキャスティングベースの NeRF パイプラインが、逆フローを通じて観測空間から標準空間への正確でクリーンなマッピングを実現できないことにあると考えています。逆マッピングは学習可能な構造の収束には役立たないため、現在の方法では D-NeRF データセットで PSNR レンダリング インデックス 30 以上しか達成できません。

この問題を解決するために、私たちはラスタライゼーションに基づく単眼の動的シーンモデリング パイプラインを提案しました。これは、変形フィールドと 3D ガウス スプラッティングを初めて組み合わせて、高品質の再構成と新しい遠近法のレンダリングを実現しました。実験結果によると、変形フィールドは、標準空間の 3D ガウス分布を観測空間に正確に転送することができ、D-NeRF データセットで PSNR が 10 以上向上するだけでなく、カメラのポーズが不正確な実際のシーンでのレンダリングの詳細も向上します。

HyperNeRF実シーンの実験結果

研究論文「高忠実度単眼動的シーン再構成のための変形可能な 3D ガウス分布」が、コンピュータビジョンに関する最高峰の国際学術会議 CVPR 2024 に採択されました。この論文は、変形場を使用して 3D ガウスを単眼の動的シーンに拡張し、公開データセットで SOTA 結果を達成した最初の研究であることは注目に値します。

関連研究

動的シーンの再構築は、3D 再構築において常に重要な問題となっています。 NeRFに代表されるニューラルレンダリングが高品質なレンダリングを実現するにつれ、動的再構成の分野では暗黙的表現に基づく一連の研究が登場しました。 D-NeRF と Nerfies は、NeRF レイ キャスティング パイプラインに基づく変形フィールドを導入し、堅牢な動的シーン再構築を実現します。 TiNeuVox、K-Planes、Hexplanes はこれに基づいてグリッド構造を導入し、モデルのトレーニング プロセスを大幅に加速し、レンダリング速度をある程度向上させました。しかし、これらの方法はすべて逆マッピングに基づいており、正準空間と変形場の高品質な分離を真に実現することはできません。

3D ガウス スプラッタは、ラスタライゼーションに基づくポイント クラウド レンダリング パイプラインです。 CUDA カスタマイズされた微分可能ガウス ラスタライゼーション パイプラインと革新的な高密度化により、3D ガウスは SOTA レンダリング品質だけでなくリアルタイム レンダリングも実現できます。動的 3D ガウスは、まず静的 3D ガウスを動的フィールドに拡張します。ただし、マルチビュー シーンのみを処理できるため、携帯電話での写真撮影などの単眼シーンなど、より一般的な状況での適用は大幅に制限されます。

研究のアイデア

Deformable-GS の中核は、静的 3D ガウスを単眼の動的シーンに拡張することです。各 3D ガウス分布は、画像レベルのレンダリング用の位置、回転、スケール、不透明度、および SH 係数を保持します。 3D ガウス アルファ ブレンドの式によれば、時間の経過とともに変化する位置、およびガウス形状を制御する回転とスケーリングが、動的 3D ガウスを決定する決定的なパラメーターであることは容易にわかります。ただし、従来のポイント クラウド ベースのレンダリング方法とは異なり、3D ガウス分布が初期化された後、位置や透明度などのパラメータは最適化の進行に合わせて継続的に更新されます。これにより、動的ガウス分布の学習がより困難になります。

本研究では、変形場と3D​​ガウス分布を共同で最適化する動的シーンレンダリングフレームワークを革新的に提案しました。 COLMAP またはランダム ポイント クラウドによって初期化された 3D ガウス分布を標準空間と見なし、標準空間内の 3D ガウス分布の座標情報を入力として、変形フィールドを使用して、時間の経過に伴う各 3D ガウス分布の位置と形状パラメータを予測します。変形フィールドを使用すると、標準空間の 3D ガウス分布をラスタライズ レンダリング用の観測空間に変換できます。この戦略は 3D ガウスの微分可能なラスタライズ パイプラインには影響せず、これによって計算された勾配は標準空間 3D ガウスのパラメータを更新するために使用できます。さらに、変形場の導入は、運動振幅の大部分のガウス密度化に有益です。これは、移動振幅が大きい領域での変形場の勾配も比較的高くなるため、緻密化プロセス中に対応する領域がより細かく調整されるように誘導されるためです。初期段階では、正準空間内の 3D ガウス分布の数と位置のパラメータが常に更新されますが、実験結果では、この共同最適化戦略によって最終的に堅牢な収束結果を達成できることを示しています。約 20,000 回の反復後、正準空間内の 3D ガウス分布の位置パラメータはほとんど変化しません。

実際のシーンでは、カメラのポーズが十分に正確でないことが多く、動的なシーンではこの問題が悪化することがわかります。これは、ニューラル放射フィールドに基づく構造に大きな影響を与えません。ニューラル放射フィールドは、非常に滑らかな構造である多層パーセプトロン (MLP) に基づいているためです。しかし、3D ガウスはポイント クラウドの明示的な構造に基づいており、わずかに不正確なカメラ ポーズをガウス スプラッティングで確実に修正することは困難です。そこで、この問題を軽減するために、革新的なアニーリング スムーズ トレーニング (AST) を導入しました。このトレーニング メカニズムは、初期段階で 3D ガウスの学習をスムーズにし、後期段階でレンダリングの詳細を増やすことを目的としています。このメカニズムの導入により、レンダリング品質が向上するだけでなく、時間補間タスクの安定性とスムーズさも大幅に向上します。

図2に研究のフローチャートを示します。詳細については原論文を参照してください。

フローチャート

結果

本研究では、まず、動的再構成の分野で広く使用されているD-NeRFデータセットの合成データセットで実験を行いました。図 3 の視覚化結果から、Deformable-GS では従来の方法に比べてレンダリング品質が大幅に向上していることが容易にわかります。

D-NeRFデータセットにおける本研究の定性的な実験比較結果

私たちの方法は、視覚効果の大幅な改善を実現するだけでなく、定量的なレンダリング指標にも対応したサポートを提供します。 D-NeRF データセット内のレゴ シーンが正しくないこと、つまりトレーニング セットとテスト セットのシーンにわずかな違いがあることがわかったことは注目に値します。これは、レゴモデルのシャベルの反転角度が一貫していないことに反映されています。これは、以前の方法ではレゴ シーンの指標を改善できなかった根本的な理由でもあります。意味のある比較を可能にするために、メトリック測定のベースラインとしてレゴ検証セットを使用しました。

方法の比較

CVPR 2020 の D-NeRF、Sig Asia 2022 の TiNeuVox、CVPR2023 の Tensor4D、K 平面など、SOTA 手法をフル解像度 (800x800) で比較しました。私たちの方法は、さまざまなレンダリング指標 (PSNR、SSIM、LPIPS) とさまざまなシナリオで大幅な改善を達成しました。

私たちの方法は合成シーンに適用できるだけでなく、カメラのポーズが十分に正確でない実際のシーンでも SOTA 結果を達成します。図5に示すように、NeRF-DSデータセットでSOTA法と比較します。実験結果によると、私たちの方法は鏡面反射面に対して特別な処理を行わないにもかかわらず、鏡面反射シーン専用に設計された NeRF-DS を上回り、最良のレンダリング結果を達成できることがわかりました。

現実世界のシナリオの比較

MLP の導入によりレンダリングのオーバーヘッドは増加しますが、3D Gaussian の非常に効率的な CUDA 実装とコンパクトな MLP 構造のおかげで、リアルタイム レンダリングを実現できます。 3090 では、D-NeRF データセットの平均 FPS は 85 (400x400) および 68 (800x800) に達します。

さらに、この研究では、前方および後方深度伝播を備えた微分可能なガウスラスタライゼーションパイプラインも初めて適用しました。図 6 に示すように、この深さは、Deformable-GS が堅牢な幾何学的表現も取得できることを証明しています。ディープバックプロパゲーションは、逆レンダリング、SLAM、自動運転など、将来的に深い監視を必要とする多くのタスクを促進することができます。

ディープビジュアライゼーション

火山エンジンマルチメディアラボの紹介

Volcano Engine Multimedia Lab は、ByteDance 傘下の研究チームであり、マルチメディア分野の最先端技術の探求と国際標準化作業への参加に取り組んでいます。同社の数多くの革新的なアルゴリズムとソフトウェアおよびハードウェアソリューションは、TikTokやXigua Videoなどの製品のマルチメディア事業で広く使用されており、Volcano Engineのエンタープライズレベルの顧客に技術サービスを提供しています。研究室設立以来、数多くの論文がトップクラスの国際会議や主要ジャーナルに選ばれ、数々の国際技術競争優勝、業界イノベーション賞、最優秀論文賞を受賞しています。

Volcano Engine は、ByteDance 傘下のクラウド サービス プラットフォームです。同社は、ByteDanceが急速な発展の中で蓄積した成長手法、技術力、ツールを外部企業に公開し、クラウドインフラ、動画・コンテンツ配信、ビッグデータ、人工知能、開発・運用・保守サービスを提供し、企業がデジタルアップグレードで持続的な成長を実現できるよう支援します。

<<:  クラウドネイティブデータウェアハウスByteHouseで高性能なベクトル検索を構築する方法の分析

>>:  テンセントクラウドとサウジアラビアの通信事業者モビリーが協力を深め、世界企業の中東での事業展開を支援

推薦する

「2拠点3拠点」から「分散マルチアクティブ」へ

大規模なデータ集中化により、企業のビジネス活動はデータセンターやネットワークなどの IT インフラス...

ファーウェイクラウドはEIインテリジェントボディを構築し、「包括的AI」の進化を促進

[51CTO.com からのオリジナル記事] クラウド コンピューティングが非常に広範囲に影響を及ぼ...

プラットフォームの選択とSEO最適化技術

すべてのものには常に 2 つの反対の要素があるようです。これは自然の法則かもしれません。SEO にも...

Kubernetes リソース制限を調整する方法

Kubernetes のリソース制限は、制限が厳しすぎることと緩すぎることの間の適切なバランスを見つ...

SEOで重要なのはあなたの考え方です

最近の Baidu のアップデートにより、多くの人が何らかの影響を受けたと思いますが、私が引き継いだ...

Hudong Encyclopedia 内のリンクが高品質のリンクであるかどうかについて議論します。

最近、私は自分のウェブサイトの外部リンクの構築に取り組んでいます。百度百科事典のリンクは比較的高品質...

Veeble は、Windows 2003 に無制限のトラフィックを提供する VPS サービス プロバイダーです。

Server 2003 システムをサポートする海外の VPS を見つけるのは簡単ではありません。結局...

済南武装警察病院とその競合他社がどのように最適化しているかについての簡単な議論

私は、ほぼ半年にわたってチャンネルの最適化に取り組んできました。当初は、多くのウェブマスターと同様に...

重複ページの原因とその対処方法について簡単に説明します。

SEO 担当者として、日々の最適化を行う中で、サイト上の重複コンテンツが原因で検索エンジンからペナル...

企業がビジネスをクラウドに移行する新たな理由

ポストエピデミック時代において、クラウド コンピューティングが企業にもたらすメリットは、設備投資の節...

SaaSに関する10のよくある質問

インターネット サービスに対する人々の認識が変化するにつれて、SaaS ソフトウェアが従来のソフトウ...

最近、一部のウェブサイトのキーワードライブラリが急激に減少した理由

月収10万元の起業の夢を実現するミニプログラム起業支援プラン最近、一部のウェブサイトの記事のランキン...

SEO サービスのアウトソーシングを検討したことがありますか?

新しいクライアントが私と初めて協力関係を築くときはいつでも、私はクライアントに「本当にSEOをやりた...

なぜ人々はクラウド コンピューティングを十分に信頼しないのでしょうか?

[51CTO.com クイック翻訳] 今日、顧客の重要な情報やファイルを保存するためにクラウド コン...

中央銀行がQRコード決済を規制:当面は合法性を認めず

テンセントテクノロジーニュース(楽天)3月19日のニュースによると、中央銀行は最近、第三者決済の管理...