CLOSP:リモートセンシングにおけるSAR、MSI、テキストの統一された意味空間

CLOSP:リモートセンシングにおけるSAR、MSI、テキストの統一された意味空間

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2507.10403v2発表タイプ: replace-cross

要旨:膨大な衛星アーカイブから関連画像を検索することは、災害対応や長期的な気候モニタリングなどの用途に不可欠です。しかし、ほとんどのテキストから画像への検索システムはRGBデータに限定されており、Synthetic Aperture Radar(SAR)の全天候型の構造感度や、光学マルチスペクトルデータのスペクトル特性など、他のセンサが捉えた独自の物理情報を活用できていません。このギャップを埋めるため、私たちは、64万7千枚以上のSentinel-1 SAR画像とSentinel-2マルチスペクトル画像を、信頼できる土地被覆システム(CORINEとDynamic World)と危機特有の情報源から調和された土地被覆、土地利用、危機事象に関する構造化されたテキスト注釈とペアにした、新しい大規模コーパスCrisisLandMarkを紹介します。そして、テキストを橋渡しとして、非対照的な光学画像とSAR画像を統一された埋め込み空間へ整列させる新しいフレームワークCLOSP(Contrastive Language Optical SAR Pretraining)を提示します。実験の結果、CLOSPは既存モデルよりも検索nDGC@1000を54%向上させ、新たな最先端技術を実現しました。さらに、統一されたトレーニング戦略は、間接的な相互作用によって光学ドメインから豊富な意味情報を転送することで、SAR画像の解釈という固有の困難を克服できることが分かりました。また、地理座標をフレームワークに統合したGeoCLOSPは、汎用性と特異性の強力なトレードオフを生み出します。CLOSPが一般的な意味論的タスクに優れている一方、GeoCLOSPは場所依存の危機事象や稀な地理的特徴の検索に特化した専門家となります。この研究は、多様なセンサデータと地理的文脈の統合が、リモートセンシングアーカイブの可能性を最大限に引き出すために不可欠であることを示しています。

原文(英語)を表示

Title (EN): CLOSP: A Unified Semantic Space for SAR, MSI, and Text in Remote Sensing

arXiv:2507.10403v2 Announce Type: replace-cross
Abstract: Retrieving relevant imagery from vast satellite archives is crucial for applications like disaster response and long-term climate monitoring. However, most text-to-image retrieval systems are limited to RGB data, failing to exploit the unique physical information captured by other sensors, such as the all-weather structural sensitivity of Synthetic Aperture Radar (SAR) or the spectral signatures in optical multispectral data. To bridge this gap, we introduce CrisisLandMark, a new large-scale corpus of over 647,000 Sentinel-1 SAR and Sentinel-2 multispectral images paired with structured textual annotations for land cover, land use, and crisis events harmonized from authoritative land cover systems (CORINE and Dynamic World) and crisis-specific sources. We then present CLOSP (Contrastive Language Optical SAR Pretraining), a novel framework that uses text as a bridge to align unpaired optical and SAR images into a unified embedding space. Our experiments show that CLOSP achieves a new state-of-the-art, improving retrieval nDGC@1000 by 54% over existing models. Additionally, we find that the unified training strategy overcomes the inherent difficulty of interpreting SAR imagery by transferring rich semantic knowledge from the optical domain with indirect interaction. Furthermore, GeoCLOSP, which integrates geographic coordinates into our framework, creates a powerful trade-off between generality and specificity: while the CLOSP excels at general semantic tasks, the GeoCLOSP becomes a specialized expert for retrieving location-dependent crisis events and rare geographic features. This work highlights that the integration of diverse sensor data and geographic context is essential for unlocking the full potential of remote sensing archives.

Published: 2025-09-24 19:00 UTC


コメントする