SpaRC:疎なレーダー・カメラ融合による3次元物体検知
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2411.19860v2発表。概要:本研究では、マルチビュー画像セマンティクスとレーダーおよびカメラの点特徴を統合した、3D認識のための新規なスパース融合トランスフォーマーであるSpaRCを提案する。レーダーとカメラのモダリティ融合は、自動運転システムにおける効率的な認識パラダイムとして台頭している。従来のアプローチは、深度推定に密なバードアイビュー(BEV)ベースのアーキテクチャを利用する一方、現代のクエリベースのトランスフォーマーは、オブジェクト中心の方法論を通じてカメラのみの検出において優れている。しかし、これらのクエリベースのアプローチは、暗黙的な深度モデリングにより、偽陽性検出と位置決め精度に限界を示す。本研究では、(1)クロスモーダル特徴アラインメントのためのスパースフラストラム融合(SFF)、(2)正確なオブジェクト位置決めのためのレンジアダプティブレーダー集約(RAR)、(3)集中クエリ集約のためのローカルセルフアテンション(LSA)という3つの主要な貢献を通じてこれらの課題に対処する。計算集約的なBEVグリッドレンダリングを必要とする既存の方法とは対照的に、SpaRCはエンコードされた点特徴に直接作用し、効率性と精度の著しい向上をもたらす。nuScenesおよびTruckScenesベンチマークにおける経験的評価により、SpaRCは既存の密なBEVベースおよびスパースクエリベースの検出器を大幅に上回ることが示された。本手法は、67.1 NDSおよび63.1 AMOTAという最先端の性能指標を達成した。コードと事前学習済みモデルはhttps://github.com/phi-wol/sparcで公開されている。
原文(英語)を表示
Title (EN): SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection
arXiv:2411.19860v2 Announce Type: replace-cross
Abstract: In this work, we present SpaRC, a novel Sparse fusion transformer for 3D perception that integrates multi-view image semantics with Radar and Camera point features. The fusion of radar and camera modalities has emerged as an efficient perception paradigm for autonomous driving systems. While conventional approaches utilize dense Bird’s Eye View (BEV)-based architectures for depth estimation, contemporary query-based transformers excel in camera-only detection through object-centric methodology. However, these query-based approaches exhibit limitations in false positive detections and localization precision due to implicit depth modeling. We address these challenges through three key contributions: (1) sparse frustum fusion (SFF) for cross-modal feature alignment, (2) range-adaptive radar aggregation (RAR) for precise object localization, and (3) local self-attention (LSA) for focused query aggregation. In contrast to existing methods requiring computationally intensive BEV-grid rendering, SpaRC operates directly on encoded point features, yielding substantial improvements in efficiency and accuracy. Empirical evaluations on the nuScenes and TruckScenes benchmarks demonstrate that SpaRC significantly outperforms existing dense BEV-based and sparse query-based detectors. Our method achieves state-of-the-art performance metrics of 67.1 NDS and 63.1 AMOTA. The code and pretrained models are available at https://github.com/phi-wol/sparc.
Published: 2025-09-24 19:00 UTC