SpaRC:疎なレーダー・カメラ融合による3次元物体検知
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2411.19860v2発表。種類:置換。
概要:本稿では、マルチビュー画像セマンティクスとレーダーおよびカメラの点特徴を統合した3D認識のための新規なスパース融合トランスフォーマーであるSpaRCを提示する。レーダーとカメラのモダリティの融合は、自動運転システムにおける効率的な認識パラダイムとして台頭している。従来のアプローチは、深度推定に密なバードアイビュー(BEV)ベースのアーキテクチャを利用する一方、現代のクエリベースのトランスフォーマーは、オブジェクト中心の方法論を通じてカメラのみの検出において優れている。しかし、これらのクエリベースのアプローチは、暗黙的な深度モデリングにより、誤検知と局在化精度に限界を示す。我々は、3つの主要な貢献を通してこれらの課題に対処する:(1)クロスモーダル特徴アライメントのためのスパースフラストラム融合(SFF)、(2)正確なオブジェクト局在化のための範囲適応レーダー集約(RAR)、(3)集中的なクエリ集約のための局所的自己注意(LSA)。計算集約的なBEVグリッドレンダリングを必要とする既存の方法とは対照的に、SpaRCはエンコードされた点特徴を直接操作し、効率と精度の著しい向上を実現する。nuScenesおよびTruckScenesベンチマークにおける経験的評価は、SpaRCが既存の密なBEVベースおよびスパースクエリベースの検出器を大幅に凌駕することを示している。本手法は、67.1 NDSおよび63.1 AMOTAの最先端性能指標を達成する。コードと事前学習済みモデルはhttps://github.com/phi-wol/sparcで公開されている。
原文(英語)を表示
Title (EN): SpaRC: Sparse Radar-Camera Fusion for 3D Object Detection
arXiv:2411.19860v2 Announce Type: replace-cross
Abstract: In this work, we present SpaRC, a novel Sparse fusion transformer for 3D perception that integrates multi-view image semantics with Radar and Camera point features. The fusion of radar and camera modalities has emerged as an efficient perception paradigm for autonomous driving systems. While conventional approaches utilize dense Bird’s Eye View (BEV)-based architectures for depth estimation, contemporary query-based transformers excel in camera-only detection through object-centric methodology. However, these query-based approaches exhibit limitations in false positive detections and localization precision due to implicit depth modeling. We address these challenges through three key contributions: (1) sparse frustum fusion (SFF) for cross-modal feature alignment, (2) range-adaptive radar aggregation (RAR) for precise object localization, and (3) local self-attention (LSA) for focused query aggregation. In contrast to existing methods requiring computationally intensive BEV-grid rendering, SpaRC operates directly on encoded point features, yielding substantial improvements in efficiency and accuracy. Empirical evaluations on the nuScenes and TruckScenes benchmarks demonstrate that SpaRC significantly outperforms existing dense BEV-based and sparse query-based detectors. Our method achieves state-of-the-art performance metrics of 67.1 NDS and 63.1 AMOTA. The code and pretrained models are available at https://github.com/phi-wol/sparc.
Published: 2025-09-24 19:00 UTC