ビジョン基礎モデルを用いたセマンティックセグメンテーションのためのハイパースペクトルアダプター
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20107v1発表形式:クロス
概要:ハイパースペクトルイメージング(HSI)は、多数の狭い波長帯域にわたる高密度なスペクトル測定とともに空間情報を取得します。この豊富なスペクトル情報は、特に複雑な材料組成、変化する照明、その他の視覚的に困難な条件下にある環境において、堅牢なロボット知覚を促進する可能性を秘めています。しかし、現在のHSIセマンティックセグメンテーション手法は、RGB入力用に最適化されたアーキテクチャと学習フレームワークに依存しているため、性能が不十分です。本研究では、事前学習済みのビジョン基盤モデルを活用してハイパースペクトルデータから効果的に学習する、新規のハイパースペクトルアダプターを提案します。提案手法のアーキテクチャは、スペクトル変換器とスペクトル認識空間事前モジュールを含み、豊富な空間スペクトル特徴を抽出します。さらに、専用の抽出および注入メカニズムを通じて、ハイパースペクトル表現と固定されたビジョンTransformer特徴の効果的な統合を促進する、モダリティ認識相互作用ブロックを導入します。3つのベンチマークとなる自動運転データセットにおける広範な評価により、提案手法のアーキテクチャは、HSI入力を直接使用しながら、最先端のセマンティックセグメンテーション性能を達成し、ビジョンベースおよびハイパースペクトルセグメンテーション手法の両方よりも優れた性能を示すことが実証されました。コードはhttps://hyperspectraladapter.cs.uni-freiburg.deで公開しています。
原文(英語)を表示
Title (EN): Hyperspectral Adapter for Semantic Segmentation with Vision Foundation Models
arXiv:2509.20107v1 Announce Type: cross
Abstract: Hyperspectral imaging (HSI) captures spatial information along with dense spectral measurements across numerous narrow wavelength bands. This rich spectral content has the potential to facilitate robust robotic perception, particularly in environments with complex material compositions, varying illumination, or other visually challenging conditions. However, current HSI semantic segmentation methods underperform due to their reliance on architectures and learning frameworks optimized for RGB inputs. In this work, we propose a novel hyperspectral adapter that leverages pretrained vision foundation models to effectively learn from hyperspectral data. Our architecture incorporates a spectral transformer and a spectrum-aware spatial prior module to extract rich spatial-spectral features. Additionally, we introduce a modality-aware interaction block that facilitates effective integration of hyperspectral representations and frozen vision Transformer features through dedicated extraction and injection mechanisms. Extensive evaluations on three benchmark autonomous driving datasets demonstrate that our architecture achieves state-of-the-art semantic segmentation performance while directly using HSI inputs, outperforming both vision-based and hyperspectral segmentation methods. We make the code available at https://hyperspectraladapter.cs.uni-freiburg.de.
Published: 2025-09-24 19:00 UTC