クラウド上でのインテリジェント運転の 3D 再構築のベストプラクティス

インテリジェント運転技術の継続的な発展により、私たちの移動方法や交通システムは変化しています。 3D 再構築は、重要な技術の 1 つとして、インテリジェント運転システムにおいて重要な役割を果たします。自動運転技術の実装と開発には、車両側の認識および再構築アルゴリズムに加えて、クラウドベースの膨大な再構築機能が必要です。 Volcano Engine マルチメディアラボは、業界をリードする自社開発の 3D 再構築テクノロジーと強力なクラウドプラットフォームのリソースおよび機能を組み合わせて、大規模な再構築、自動ラベル付け、クラウドでのリアルなシミュレーションなどのシナリオにおける関連テクノロジーの実装と応用を支援します。

この記事は、Volcano Engine Multimedia Laboratory の動的および静的シーンにおける 3D 再構築技術の原理と実践に焦点を当て、高度なライトフィールド再構築技術と組み合わせて、クラウドベースのインテリジェント 3D 再構築がインテリジェント運転の分野にどのように役立ち、業界の発展を促進できるかをすべての人がよりよく理解し認識できるようにします。

1. 技術的な課題と困難

運転シーンの再構築には、道路環境のポイントクラウドレベルの 3D 再構築が必要です。従来の 3D 再構築技術の応用シナリオと比較すると、運転シーン再構築技術には次のような困難があります。

車両運転中の環境要因は複雑であり、制御できません。さまざまな天候、照明、車速、道路状況などが車載センサーによって収集されるデータに影響を与え、再構築技術の堅牢性に課題をもたらします。
道路のシーンでは、特徴の劣化やテクスチャの損失が頻繁に発生します。たとえば、カメラは視覚的特徴の乏しい画像情報を取得し、LIDAR は類似性が高いシーン構造情報を取得します。同時に、再構築における重要な要素の 1 つである路面は単色であり、十分なテクスチャ情報が不足しているため、再構築技術に対する要求は高くなります。
車載センサーはカメラ、ライダー、ミリ波レーダー、慣性航法、GPS測位システム、車輪速計など多数あり、複数のセンサーからのデータを統合してより正確な再構築結果を得る方法が再構築技術の課題となっています。
道路上の移動車両、非自動車、歩行者などの動的オブジェクトの存在は、従来の再構築アルゴリズムにとって課題となります。静的シーンの再構築において動的オブジェクトの干渉を排除し、動的オブジェクトの位置、サイズ、速度を推定する方法も、プロジェクトの難しさの 1 つです。

2. 運転シーン再現技術の紹介

自動運転分野における再構築アルゴリズムは、通常、LIDARとカメラを主に使用し、GPSと慣性航法で補完する技術的なルートを採用しています。 LiDAR は高精度の測距情報を直接取得し、シーン構造を素早く取得できます。事前に実行された LiDAR カメラのジョイントキャリブレーションにより、カメラで取得した画像からレーザーポイントクラウドの色、セマンティクス、その他の情報を得ることができます。同時に、GPS と慣性航法は、再構築プロセス中の特徴の劣化によって生じるドリフトを軽減するための補助的な測位を提供できます。しかし、マルチラインLIDARは価格が高いため、通常はエンジニアリング車両で使用され、量産車両に大規模に使用することは困難です。

これに対応して、火山エンジンマルチメディア研究所は、静的シーン再構成、動的オブジェクト再構成、神経放射場再構成技術を含む、純粋に視覚的な運転シーン再構成技術セットを独自に開発しました。シーン内の動的オブジェクトと静的オブジェクトを区別し、静的シーンの高密度ポイントクラウドを復元し、路面、標識、信号機などの主要な要素を強調表示できます。シーン内の移動物体の位置、サイズ、方向、速度を効果的に推定し、その後の 4D 注釈に使用できます。神経放射場を利用して静的シーン再構成に基づいてシーンを再構成・再現し、自由視点ローミングを実現し、シーン編集やシミュレーションレンダリングに使用できます。この技術的ソリューションは、LIDAR に依存せず、デシメートルレベルの相対誤差を実現し、最小限のハードウェアコストで LIDAR に近い再構成効果を実現します。

2.1 静的シーン再構成技術：動的干渉を排除し、静的シーンを復元する

視覚再構成技術は、マルチビュージオメトリの理論に基づいており、再構成するシーンまたはオブジェクトがフレーム間の一貫性を持つこと、つまり異なる画像フレームで静的な状態にあることが必要です。したがって、再構築プロセス中に動的オブジェクトを除去する必要があります。シーン内のさまざまな要素の重要度に応じて、密なポイントクラウドから重要でないポイントクラウドを削除し、いくつかの重要な要素のポイントクラウドを保持する必要があるため、事前に画像に対してセマンティックセグメンテーションを実行する必要があります。この点について、 火山エンジン マルチメディアラボでは、AI テクノロジーとマルチビュージオメトリの基本原理を組み合わせて、高度で堅牢、正確かつ完全なビジュアル再構築アルゴリズムフレームワークを構築します。復興プロセスは3つの主要なステップから構成される : 画像前処理、スパース再構成、密再構成 。

撮影中は車載カメラが動いています。露出時間により、車両の速度が増加すると、収集された画像に深刻なモーションブラーが発生します。さらに、帯域幅とストレージスペースを節約するために、送信プロセス中に画像は不可逆的に圧縮され、画質がさらに低下します。この目的のために、Volcano Engine Multimedia Lab は、エンドツーエンドのニューラルネットワークを使用して画像のぼかしを除去し、モーションブラーを抑制しながら画質を向上させることができました。ぼかし除去前後の比較を下の図に示します。

ぼかし除去前（左）ぼかし除去後（右）

動的オブジェクトを区別するために、Volcano Engine Multimedia Laboratory は、ピクセルレベルの動的オブジェクトマスクを取得できるオプティカルフローに基づく動的オブジェクト認識テクノロジを使用しました。その後の静的シーン再構築プロセスでは、動的オブジェクト領域にある特徴点が削除され、静的シーンとオブジェクトのみが保持されます。

オプティカルフロー（左）移動物体（右）

スパース再構築プロセスでは、カメラの位置、方向、シーンのポイントクラウドを同時に計算する必要があります。一般的に使用されるアルゴリズムには、SLAM (Simultaneous Localization and Mapping) や SFM (Structure from Motion、略して SfM) などがあります。リアルタイムのパフォーマンスが要求されない場合、SFM アルゴリズムはより高い再構築精度を実現できます。ただし、従来の SFM アルゴリズムでは通常、各カメラを独立したカメラとして扱いますが、車両には通常、前後左右の異なる方向に複数のカメラが配置されています。これらのカメラの相対的な位置は実際には固定されています (車両の振動による微妙な変化は無視されます)。カメラ間の相対的な位置制約を無視すると、各カメラの計算された位置誤差は比較的大きくなります。さらに、遮蔽がひどい場合、個々のカメラの姿勢を計算することが難しくなります。これを受けて、ボルケーノエンジンマルチメディア研究所では、カメラ群全体をベースにしたSFMアルゴリズムを独自に開発しました。カメラ間の事前の相対的なポーズ制約を利用して、カメラグループ全体のポーズを計算できます。同時に、GPSと慣性航法の融合測位結果を使用してカメラグループの中心位置を制約することで、姿勢推定の成功率と精度を効果的に向上させ、異なるカメラ間の点群の不一致を改善し、点群の層別化を減らすことができます。

従来のSFM（左）カメラグループSFM（右）

地面が単色で質感が欠けているため、従来の視覚的復元では地面全体を復元することが困難です。ただし、車線、矢印、地面上の文字/標識などの重要な要素があります。そのため、Volcano Engine Multimedia Laboratory では、地面をフィットさせるために二次曲面を使用し、地面領域の深度推定とポイントクラウドの融合を支援します。実際の道路表面は理想的な平面ではないことが多いため、平面フィッティングと比較すると、二次曲面は実際の道路のシーンにより近くなります。以下は、平面方程式と二次曲面方程式を使用して地面をフィッティングした場合の効果の比較です。

平面方程式（左）二次曲面方程式（右）

レーザーポイントクラウドを真値として考え、その上に視覚的な再構築結果を重ね合わせることで、再構築されたポイントクラウドの精度を直感的に測定できます。下の図からわかるように、再構築された点群と実際の点群は非常に一致しています。測定後、再構成結果の相対誤差は約15cmです。

Volcano Engine Multimedia Laboratoryの再構築結果（カラー）と実際の点群（白）

以下は、Volcano Engine Multimedia Laboratory の視覚再構築アルゴリズムと主流の商用再構築ソフトウェアの比較です。市販のソフトウェアと比較すると、Volcano Engine Multimedia Laboratory の独自開発アルゴリズムの方が、再構築効果がより優れ、より完全であることがわかります。道路標識、信号機、電柱、車線、路面の矢印、その他のシーン内の特徴は高度に復元されていますが、商用ソフトウェアで再構築されたポイントクラウドは非常にまばらで、路面の広い領域が欠落しています。

主流の商用ソフトウェア（左） Volcano Engine Multimedia Laboratory アルゴリズム（右）

2.2 ダイナミック再構築技術

画像内のオブジェクトに 3D 注釈を付けるのは非常に難しく、ポイントクラウドが必要になります。車両に視覚センサーしか搭載されていない場合、シーン内の対象物体の完全な点群を取得することは非常に困難です。特に動的オブジェクトの場合、従来の 3D 再構築技術を使用して高密度のポイントクラウドを取得することは不可能です。移動するオブジェクトの表現と 4D 注釈を提供するために、3D バウンディングボックス (以下、3D bbox と呼びます) を使用して動的オブジェクトを表します。独自に開発した動的再構築アルゴリズムにより、シーン内の動的オブジェクトの各瞬間の 3D bbox の姿勢、サイズ、速度などを取得し、動的オブジェクト再構築機能を完成させます。

パイプラインを動的に再構築する

車両によって収集された画像の各フレームについて、まずシーン内の動的ターゲットを抽出し、3D bbox の初期提案を生成します。 2D ターゲット検出を使用し、カメラのポーズを通じて対応する 3D bbox を推定するという 2 つの方法が提供されます。または 3D ターゲット検出を直接使用します。 2 つの方法は、さまざまなデータに応じて柔軟に選択できます。 2D 検出は一般化が良好で、3D 検出ではより優れた初期値を取得できます。同時に、画像の動的領域内の特徴点が抽出されます。単一フレーム画像の初期 3D bbox 提案と特徴点を取得した後、複数のフレーム間のデータ関連付けを確立します。つまり、独自に開発したマルチターゲット追跡アルゴリズムを通じてオブジェクトマッチングを確立し、特徴マッチング技術を通じて画像の特徴をマッチングします。マッチング関係を取得した後、共視聴関係にある画像フレームをローカルマップとして作成し、グローバルに一貫したターゲット bbox 推定を解決するための最適化問題を構築します。具体的には、特徴点マッチングと動的三角測量技術により、動的な 3D ポイントが復元されます。車両の動きがモデル化され、オブジェクト、3D ポイント、カメラ間の観測が共同で最適化され、動的オブジェクトの最適な推定 3D bbox が得られます。

2Dから3D（左から2番目）3Dオブジェクト検出の例

2.3 ネールフ再構成: フォトリアリスティックレンダリング、自由視点

ニューラルネットワークを使用して暗黙的な再構築を行い、微分可能なレンダリングモデルを活用して、既存のビューから新しい視点で画像をレンダリングする方法を学習することで、フォトリアリスティックな画像レンダリング、つまりニューラル放射場 (NeRF) テクノロジを実現します。同時に、暗黙的な再構築は編集可能でクエリ可能な連続空間という特性があり、自動運転シナリオにおける自動ラベル付けやシミュレーションデータ構築などのタスクに使用できます。 NeRF テクノロジーを使用してシーンを再構築することは非常に価値があります。

Volcano Engine マルチメディアラボは、神経放射場技術と大規模シーンモデリング技術を統合します。具体的な実践では、まずデータが処理されます。シーン内の動的オブジェクトは、NeRF 再構成でアーティファクトを引き起こします。独自に開発した動的および静的セグメンテーション、影検出、その他のアルゴリズムを利用して、シーン内の幾何学的に矛盾する領域を抽出し、マスクを生成します。同時に、ビデオ修復アルゴリズムを使用して、削除された領域を修復します。自社開発の 3D 再構築機能を利用して、カメラパラメータの推定や疎および密なポイントクラウドの生成など、シーンの高精度な幾何学的再構築が実行されます。さらに、シナリオを分割して単一のトレーニングセッションのリソース消費を削減し、分散トレーニングとメンテナンスを実行することもできます。ニューラル放射線場トレーニングプロセス中、境界のない大規模な屋外シーンに対して、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、トレーニング中のポーズを最適化することで再構築精度を向上させ、ハッシュコーディングの階層的表現に基づいてモデルのトレーニング速度を向上させ、外観コーディングを利用して異なる時間に収集されたシーンの外観の一貫性を向上させ、MVS高密度深度情報を利用して幾何学的精度を向上させました。チームはHaomo AIと協力して、シングルチャネル取得とマルチチャネル統合NeRF再構築を完了し、関連する結果がHaomo AI Dayで発表されました。

動的オブジェクト/シャドウカリング、パディング

<<: Kubernetes での gRPC トラフィック負荷分散の実装

>>: ハイブリッドクラウドとは何ですか?