ROPA:RGB-D二腕データ拡張のための合成ロボット姿勢生成
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19454v1発表タイプ:クロス
要旨:模倣学習による堅牢な両手操作ポリシーの訓練には、ロボットの姿勢、接触、シーンコンテキストを広く網羅したデモデータが必要です。しかし、多様で正確な現実世界のデモデータを収集するには費用と時間がかかり、スケーラビリティを阻害します。先行研究ではデータ拡張によってこの問題に対処していますが、通常はRGB入力を使用したハンドアイ(手首カメラ)設定、またはペアとなる動作のない新規画像の生成に限定されており、新しい動作ラベル付きのハンドトゥアイ(三人称視点)RGB-Dトレーニングのための拡張はあまり検討されていません。本論文では、RGB-D両手データ拡張のための合成ロボット姿勢生成(ROPA)を提案します。これは、Stable Diffusionをファインチューニングして、新規ロボット姿勢の三人称視点RGBおよびRGB-D観測を合成するオフライン模倣学習データ拡張手法です。本手法は、両手操作シナリオにおいて適切なグリッパと物体の接触制約を通じて物理的な整合性を強制する制約付き最適化を用いる一方で、対応する関節空間動作ラベルを同時に生成します。5つのシミュレーションタスクと3つの現実世界タスクで本手法を評価しました。2625回のシミュレーション試行と300回の現実世界試行にわたる結果から、ROPAはベースラインおよびアブレーション手法を上回り、ハンドトゥアイ両手操作におけるスケーラブルなRGBおよびRGB-Dデータ拡張の可能性を示しています。プロジェクトウェブサイトはhttps://ropaaug.github.io/をご覧ください。
原文(英語)を表示
Title (EN): ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation
arXiv:2509.19454v1 Announce Type: cross
Abstract: Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-to-hand (third-person) RGB-D training with new action labels less explored. In this paper, we propose Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation (ROPA), an offline imitation learning data augmentation method that fine-tunes Stable Diffusion to synthesize third-person RGB and RGB-D observations of novel robot poses. Our approach simultaneously generates corresponding joint-space action labels while employing constrained optimization to enforce physical consistency through appropriate gripper-to-object contact constraints in bimanual scenarios. We evaluate our method on 5 simulated and 3 real-world tasks. Our results across 2625 simulation trials and 300 real-world trials demonstrate that ROPA outperforms baselines and ablations, showing its potential for scalable RGB and RGB-D data augmentation in eye-to-hand bimanual manipulation. Our project website is available at: https://ropaaug.github.io/.
Published: 2025-09-24 19:00 UTC