3D ポイントクラウド認識は安全ですか?ミシガン大学は、深刻な歪みに対処するためにデータセットの堅牢な分析を提案している

3D ポイントクラウドは、3D 認識技術で広く使用されています。自動運転や医療画像処理など、一部の特殊なアプリケーション領域では、3D ポイントクラウド認識のセキュリティに対する要件が厳しくなることがよくあります。ポイントクラウドセキュリティに関する現在の学術研究は、敵対的攻撃に対する堅牢性に重点を置いています。敵対的な攻撃と比較すると、現実の世界では自然な歪みや摂動の方が一般的です。しかし、3D ポイントクラウドの歪みに対する堅牢性に関する体系的な研究は行われていません。

論文アドレス: https://arxiv.org/abs/2201.12296
プロジェクトのホームページ: https://sites.google.com/umich.edu/modelnet40c
オープンソース Github: https://github.com/jiachens/ModelNet40-C

最近、ミシガン大学などの研究者らは、点群認識モデルの歪みに対する堅牢性を体系的にテストし、さらに改善するための新しい包括的なデータセット ModelNet40-C を提案しました。 ModelNet40-C には、それぞれ 5 つの異なる重大度レベルを持つ 15 種類の異なるポイントクラウド歪みタイプからの 185,000 個のポイントクラウドデータが含まれています。これらのポイントクラウドの歪みは、密度歪み、ノイズ歪み、変換歪みの 3 つのカテゴリに分類されます。

実験では、ModelNet40-C 上の現在の代表的な 3D ポイントクラウド認識モデル (PointNet、PointNet++、DGCNN、PCT など) のエラー率が、下の図 1 に示すように、元の ModelNet40 データセットのエラー率よりも 3 倍以上高いことが示されています。これは、ポイントクラウドディープモデルフレームワークが依然として一般的な歪みの影響を非常に受けやすいことを示しています。

図 1. ModelNet40 および ModelNet40-C データセットにおける深層点群認識の代表的なモデルのエラー率。

この調査結果に基づいて、研究ではさらに多数のテストを行い、さまざまなモデルアーキテクチャ、データ拡張、適応方法が歪みの堅牢性に与える影響を調査しました。研究者らは実験結果に基づいて、3D ポイントクラウド認識テクノロジの開発者がより堅牢なモデルとトレーニングスキームを設計するのに役立ついくつかの調査結果をまとめました。たとえば、研究者は、Transformer ベースのポイントクラウド認識アーキテクチャが、モデルの歪みに対する堅牢性を向上させる上で大きな利点があることを発見しました。異なるタイプのデータ拡張戦略は、さまざまな種類の歪みに対して異なる利点を持っています。テスト中の適応型メソッドは、いくつかの非常に深刻な歪みなどに対して優れた堅牢性を備えています。

ModelNet40-Cデータセットの構築

図 2. ModelNet40-C データセットの歪みの種類の図解。

歪みの堅牢性は 2D 画像で広く注目されており、CIFAR-C と ImageNet-C はさまざまな天候、ノイズ、ぼかしをシミュレートして歪みデータセットを構築します。しかし、この研究の研究者たちは、3D ポイントクラウドの歪みは 2D 画像の歪みとは根本的に異なることを発見しました。その理由は、ポイントクラウドのデータ構造がより柔軟で不規則だからです。たとえば、ポイントクラウド内のポイントの数は変更でき、3D ポイントクラウドの位置の変更は、セマンティック情報に簡単に影響を与える可能性があります。研究者らは、ModelNet40-C を構築するための 3 つの原則を提案しました。1) 意味的不変性、2) 歪みの真正性、3) データセットの品質を確保するための歪みの多様性です。

ModelNet40-C の歪みは、密度歪み、ノイズ歪み、変換歪みの 3 つのカテゴリに分類されます。

密度の歪みには、「オクルージョン」、「LiDAR」、「局所的な密度の増加」、「局所的な密度の減少」、「局所的な欠落」の 5 種類があります。これらは、現実のさまざまなセンサーによって生成される点群密度のさまざまな特性をシミュレートします。たとえば、「オクルージョン」は、3D オブジェクトをスキャンするときに角度制限によりセンサーがポイントクラウドの一部しか生成できないことをシミュレートします。

ノイズ歪みには、「均一」、「ガウス」、「インパルス」、「アップサンプル」、および「バックグラウンド」ノイズがあり、実際のセンサーやプログラムの前処理中に生成される避けられないデジタルノイズとエラーをシミュレートします。

変換歪みには、「回転」、「位置ずれ」、「自由変形」、「ラジアル基底変形」、「逆ラジアル基底変形」が含まれます。最初の 2 つは、ポイントクラウドデータを処理し、データを動的に収集する際の歪みをシミュレートし、最後の 3 つは、AR/VR ゲームと生成モデル (GAN) によって生成されるポイントクラウドの歪みを表します。

図 3. ModelNet40-C 上の 6 つのモデルの平均混同行列。

研究者らは、これらの歪みはポイントクラウドアプリケーションでは非常に一般的であり、生成されたデータセットが図 2 に示すように元のセマンティクスを保持することを確認したと説明しています。図 3 は、ModelNet40-C 上の 6 つのモデルの平均混同行列を示しています。対角線上の割合は依然として非常に高く、ModelNet40-C の意味的不変性も相互検証されます。

ModelNet40-Cのベンチマーク結果と分析

ModelNet40-C を構築した後、この研究では、さまざまなモデルアーキテクチャ設計、さまざまなデータ拡張方法、さまざまな適応方法の実験設定を含む多数のベンチマークテストを実施しました。

さまざまな歪みとモデルアーキテクチャ設計の比較

表 1. 標準トレーニングにおける ModelNet40-C 上のさまざまなモデルのエラー率。

表 1 に示すように、本研究では、PointNet、PointNet++、DGCNN、RSCNN、PCT、SimpleView の 6 つのモデルに対してベンチマークテストを実施しました。研究者らはいくつかの調査結果をまとめました: 1)「オクルージョン」と「LiDAR」により、点群認識モデルで極めて高いエラー率が引き起こされました。 2) 小さな角度の「回転」は、依然としてポイントクラウド認識のパフォーマンスに大きな影響を与えます。 3) 「バックグラウンド」ノイズと「インパルス」ノイズは、ほとんどのモデルにとって予期せぬ課題となります。

研究者らは、これらの発見はモデル設計にも反映できると結論付けた。 1) PointNet は密度の歪みに対してより堅牢ですが、全体的なパフォーマンスは劣ります。これは、PointNet がグローバルな特徴のみをエンコードし、ローカルな特徴はエンコードしないためであり、これが長い間 PointNet の主な欠点であると考えられてきました。ただし、密度の歪みは局所的な特徴の損失であり、PointNet への影響は限定的ですが、このメカニズムにより、PointNet は他の種類の歪みに対して非常に敏感になります。研究者らは、PointNet の将来の使用ではアプリケーションシナリオを考慮に入れる必要があると提案しています。

2) ボールクエリクラスタリング方法は、「バックグラウンド」および「インパルス」ノイズに対してより堅牢です。これは、ボールクラスタリングでは、kNN クラスタリングに比べて最大クラスタ半径が制限されるためです。この設計により、モデルは遠く離れた外れ値の影響を取り除くことができます。

3) Transformer ベースのポイントクラウド認識モデルは、変換歪みに対してより堅牢です。これは、自己注意メカニズムにより、モデルがより堅牢で包括的なグローバル機能を学習できるようになり、Transformer アーキテクチャによってモデル容量も大きくなり、グローバルな変形歪みに対してより堅牢になるためです。

さまざまなデータ拡張方法の比較

表 2. 標準トレーニングにおける ModelNet40-C 上のさまざまなモデルのエラー率。

表2に示すように、本研究では、PointCutMix-R、PointCutMix-K、PointMixup、RSMix、およびAdversarial Trainingの5つのデータ拡張トレーニング手法を使用しています。研究者らは、次のことを発見しました。1) これらのデータ拡張スキームは、クリーンなデータセットでのモデルパフォーマンスの改善には限界があるものの、ポイントクラウド歪みシナリオでのモデルの堅牢性は大幅に向上しました。 2) すべての歪みタイプに対応できる単一のデータ拡張方式は存在しません。

PointCutMix-R は、異なるカテゴリの 2 つのポイントクラウドをランダムにサンプリングして直接合成するため、ノイズ歪みに対して非常に堅牢です。生成されたポイントクラウドは、既存の 2 つのダウンサンプリングされたポイントクラウドの「オーバーラップ」であり、ダウンサンプリングされた各ポイントクラウドは、残りの半分のノイズ歪みに相当します。したがって、このようなデータ拡張モードは、ノイズ歪みの堅牢性を大幅に向上させることができます。

PointMixup は、2 つの異なるカテゴリのポイントクラウドに対して最小距離ペアリングと「補間」サンプリングを実行するため、変換歪みに対してより優れたパフォーマンスを発揮します。そのため、生成されたポイントクラウドの形状は 2 つのカテゴリの中間になり、変換歪みの全体的な変形に近くなり、変換歪みに対してより堅牢になります。

RSMix は密度歪みに対して堅牢です。 RSMix の全体的な考え方は PointCutMix と似ていますが、厳密に厳密な合成を規定しています。つまり、2 つの異なるカテゴリのポイントクラウドは、サンプリング後も 3D 空間で独立したままであり、「重ね合わせ」はありません。このような合成は、部分的に欠落した 2 つの独立したポイントクラウドに相当するため、密度の歪みに対してより堅牢になります。

さまざまな適応方法の比較

表 3. 標準トレーニングにおける ModelNet40-C 上のさまざまなモデルのエラー率。

この研究は、テスト時間適応型手法をポイントクラウド認識タスクに適用した初めての研究です。研究者らは、BN 法と TENT 法を使用して、モデルのバッチ正規化層のパラメータを更新しました。彼らは次のことを発見しました: 1) 適応型手法はテスト中にモデルの堅牢性を安定的に向上させることができますが、全体的にはデータ拡張ほど効果的ではありません。 2) テスト適応法は、いくつかの難しい歪みタイプに対して予想外にうまく機能します。

たとえば、平均すると、TENT は歪みの種類「オクルージョン」（エラー率 = 47.6%）、「LIDAR」（エラー率 = 54.1%）、「回転」（エラー率 = 19.8%）において最も強力な堅牢性を実現し、最良のデータ拡張方法よりもそれぞれ 6.7%、1.9%、7.9% 優れています。これは、歪みのある状況での点群認識の堅牢性を向上させる適応型手法の大きな可能性を示しています。

研究者らは最終的に、データ拡張において総合的なパフォーマンスが最も優れていた PointCutMix-R と適応型手法 TENT を組み合わせ、Transformer アーキテクチャに基づく PCT モデルが総合的な歪み堅牢性 (エラー率 = 13.9%) において最も優れていることを発見しました。この発見は、モデルの堅牢性におけるTransformerの成功を検証するものであり、これは基本的に、2D画像に対するTransformerに関する以前の研究（Bai、Yutong、et al.、2021）の結論と一致しています。

要約する

この研究では、新しい包括的な 3D ポイントクラウド認識堅牢性分析データセット ModelNet40-C を提案します。研究者らは、物理的な制限、センサーの精度の制限、実際のシーンでの処理によって引き起こされるポイントクラウドの歪みと損傷をシミュレートするために、75 種類の異なる歪みの種類と度合いを提案し、構築しました。 ModelNet40-C には 185,000 個の異なるポイントクラウドデータが含まれています。

実験では、ModelNet40-C 上の現在の代表モデルのエラー率は、元の ModelNet40 データセットのエラー率よりも約 3 倍高いことが示されています。この研究では、多数のベンチマークを通じて、ModelNet40-C 上のさまざまなモデルアーキテクチャ、さまざまなデータ拡張戦略、および適応型メソッドのパフォーマンスを実証し、3D ポイントクラウドコミュニティがより堅牢な認識モデルを設計するのに役立つ有用な調査結果をまとめています。今後、ModelNet40-C データセットによって、ポイントクラウド認識の堅牢性に関する研究がさらに加速されることを期待しています。

<<: この冬季オリンピックのブラックテクノロジーは毛細血管にまで届くほど精巧だ

>>: 企業はどのようにしてクラウド移行を成功させることができるのでしょうか?