SEM:堅牢なロボット操作のための空間理解の向上
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2505.16196v3発表種別:差し替えクロス
要旨:ロボット操作における主要な課題は、空間理解、3次元幾何学的推論能力、物体関係、およびロボットの身体性を備えた強力なポリシーモデルを開発することにある。既存の手法は多くの場合、不十分である。3次元点群モデルは意味的な抽象化が不足しており、2次元画像エンコーダは空間推論に苦労する。これに対処するため、我々は、2つの補完的な視点から空間理解を明示的に強化する、新たな拡散ベースポリシーフレームワークであるSEM(Spatial Enhanced Manipulation model)を提案する。空間エンハンサーは、3次元幾何学的コンテキストを用いて視覚表現を拡張し、ロボット状態エンコーダは、関節依存関係のグラフベースモデリングを通じて、身体性認識構造を捉える。これらのモジュールを統合することにより、SEMは空間理解を大幅に改善し、既存のベースラインを凌駕する堅牢で汎化可能な操作を様々なタスクで実現する。
原文(英語)を表示
Title (EN): SEM: Enhancing Spatial Understanding for Robust Robot Manipulation
arXiv:2505.16196v3 Announce Type: replace-cross
Abstract: A key challenge in robot manipulation lies in developing policy models with strong spatial understanding, the ability to reason about 3D geometry, object relations, and robot embodiment. Existing methods often fall short: 3D point cloud models lack semantic abstraction, while 2D image encoders struggle with spatial reasoning. To address this, we propose SEM (Spatial Enhanced Manipulation model), a novel diffusion-based policy framework that explicitly enhances spatial understanding from two complementary perspectives. A spatial enhancer augments visual representations with 3D geometric context, while a robot state encoder captures embodiment-aware structure through graphbased modeling of joint dependencies. By integrating these modules, SEM significantly improves spatial understanding, leading to robust and generalizable manipulation across diverse tasks that outperform existing baselines.
Published: 2025-09-24 19:00 UTC