SoFar:言語に基づいた方向付けが空間推論と物体操作を繋ぐ

SoFar:言語に基づいた方向付けが空間推論と物体操作を繋ぐ

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2502.13143v2 発表種別:差し替え
要旨:空間推論は物体局在関係において進歩を遂げているものの、6自由度微細操作における重要な要素である物体の向きをしばしば見過ごしている。従来の姿勢表現は、事前に定義されたフレームまたはテンプレートに依存しており、汎化と意味的根拠付けを制限する。本論文では、参照フレームフリーの方法で自然言語を用いて物体の向きを定義する意味的向きという概念を導入する(例:USBの「差し込み」方向、カップの「取っ手」方向)。これを支援するため、意味的向きでアノテーションされた3次元物体の大規模データセットOrienText300Kを構築し、ゼロショット意味的向き予測のための汎用モデルPointSOを開発する。意味的向きをVLMエージェントに統合することで、SoFarフレームワークは6自由度空間推論を可能にし、ロボット動作を生成する。広範な実験により、SoFarの有効性と汎化性能が実証された(例:Open6DORにおいてゼロショット48.7%の成功率、SIMPLER-Envにおいてゼロショット74.9%の成功率)。

原文(英語)を表示

Title (EN): SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

arXiv:2502.13143v2 Announce Type: replace-cross
Abstract: While spatial reasoning has made progress in object localization relationships, it often overlooks object orientation-a key factor in 6-DoF fine-grained manipulation. Traditional pose representations rely on pre-defined frames or templates, limiting generalization and semantic grounding. In this paper, we introduce the concept of semantic orientation, which defines object orientations using natural language in a reference-frame-free manner (e.g., the “plug-in” direction of a USB or the “handle” direction of a cup). To support this, we construct OrienText300K, a large-scale dataset of 3D objects annotated with semantic orientations, and develop PointSO, a general model for zero-shot semantic orientation prediction. By integrating semantic orientation into VLM agents, our SoFar framework enables 6-DoF spatial reasoning and generates robotic actions. Extensive experiments demonstrated the effectiveness and generalization of our SoFar, e.g., zero-shot 48.7% successful rate on Open6DOR and zero-shot 74.9% successful rate on SIMPLER-Env.

Published: 2025-09-24 19:00 UTC


コメントする