OmniSpatial:ビジョン言語モデルのための包括的な空間推論ベンチマークを目指して
なぜ重要か: パフォーマンス指標が更新され、選定・置換の判断材料になります。
arXiv:2506.03135v2 発表種別:差し替え
要約:空間推論は認知心理学の重要な側面であり、現在のVision-Language Model(VLM)のボトルネックとなっています。左右、遠近、物体カウントといった基本的な空間関係の理解を評価・改善することを目的とした広範な研究が行われてきましたが、これらのタスクは空間推論の最も初歩的な層しかカバーしておらず、最新の推論モデルでは飽和状態に近づいています。本研究では、認知心理学に基づいた包括的で挑戦的な空間推論ベンチマーク、OmniSpatialを紹介します。OmniSpatialは、動的推論、複雑な空間論理、空間相互作用、視点取得という4つの主要なカテゴリと、50個の細粒度のサブカテゴリを網羅しています。慎重な手動アノテーションを通じて、8,400件以上の質問と回答のペアを作成しました。広範な実験により、オープンソースとクローズドソースの両方のVLMにおいて、包括的な空間推論に大きな限界があることが示されました。また、空間推論を強化するための2つの戦略、PointGraph(明示的なシーングラフの手掛かり)とSpatialCoT(新規ビューの思考連鎖)についても探求します。
原文(英語)を表示
Title (EN): OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models
arXiv:2506.03135v2 Announce Type: replace-cross
Abstract: Spatial reasoning is a key aspect of cognitive psychology and remains a bottleneck for current vision-language models (VLMs). While extensive research has aimed to evaluate or improve VLMs’ understanding of basic spatial relations, such as distinguishing left from right, near from far, and object counting, these tasks cover only the most elementary layer of spatial reasoning and are largely approaching saturation in the latest reasoning models. In this work, we introduce OmniSpatial, a comprehensive and challenging benchmark for spatial reasoning, grounded in cognitive psychology. OmniSpatial covers four major categories: dynamic reasoning, complex spatial logic, spatial interaction, and perspective-taking, with 50 fine-grained subcategories. Through careful manual annotation, we construct over 8.4K question-answer pairs. Extensive experiments show that both open- and closed-source VLMs exhibit significant limitations in comprehensive spatial reasoning. We also explore two strategies-PointGraph (explicit scene graph cues) and SpatialCoT (novel-view chain-of-thought)-to bolster spatial reasoning.
Published: 2025-09-24 19:00 UTC