VisualMimic:モーショントラッキングとジェネレーションによる視覚的ヒューマノイド・ロコモーション操作
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20322v1 発表種別:クロス
要旨:非構造化環境におけるヒューマノイドのloco-manipulationは、自己中心的知覚と全身制御の緊密な統合を必要とする。しかし、既存のアプローチは、外部モーションキャプチャシステムに依存するか、様々なタスクへの汎化に失敗する。本稿では、ヒューマノイドロボットのための自己中心的視覚と階層的全身制御を統合する、視覚的シミュレーションから現実へのフレームワークであるVisualMimicを紹介する。VisualMimicは、教師-生徒スキームを通じて人間の動作データから学習されたタスク非依存的な低レベルキーポイントトラッカーと、視覚的および固有受容的入力からキーポイントコマンドを生成するタスク依存的な高レベルポリシーを組み合わせる。安定した訓練を保証するために、低レベルポリシーにノイズを注入し、人間の動作統計を使用して高レベルの行動をクリップする。VisualMimicは、シミュレーションで訓練された視覚運動ポリシーを現実のヒューマノイドロボットにゼロショット転移することを可能にし、箱を持ち上げること、押すこと、サッカーボールをドリブルすること、蹴ることなど、幅広いloco-manipulationタスクを達成する。制御された実験室環境を超えて、我々のポリシーは屋外環境にも堅牢に一般化する。動画はhttps://visualmimic.github.ioで公開している。
原文(英語)を表示
Title (EN): VisualMimic: Visual Humanoid Loco-Manipulation via Motion Tracking and Generation
arXiv:2509.20322v1 Announce Type: cross
Abstract: Humanoid loco-manipulation in unstructured environments demands tight integration of egocentric perception and whole-body control. However, existing approaches either depend on external motion capture systems or fail to generalize across diverse tasks. We introduce VisualMimic, a visual sim-to-real framework that unifies egocentric vision with hierarchical whole-body control for humanoid robots. VisualMimic combines a task-agnostic low-level keypoint tracker — trained from human motion data via a teacher-student scheme — with a task-specific high-level policy that generates keypoint commands from visual and proprioceptive input. To ensure stable training, we inject noise into the low-level policy and clip high-level actions using human motion statistics. VisualMimic enables zero-shot transfer of visuomotor policies trained in simulation to real humanoid robots, accomplishing a wide range of loco-manipulation tasks such as box lifting, pushing, football dribbling, and kicking. Beyond controlled laboratory settings, our policies also generalize robustly to outdoor environments. Videos are available at: https://visualmimic.github.io .
Published: 2025-09-24 19:00 UTC