CUPID:Influence Functionsを用いたロボット向けデータキュレーション
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2506.19121v2発表、種類:置換クロス
概要:ロボット模倣学習において、ポリシーのパフォーマンスは、デモデータの質と構成と密接に関連している。しかし、個々のデモが、閉ループタスクの成功または失敗といった下流の結果にどのように寄与するかについての正確な理解を深めることは、依然として困難な課題である。本稿では、模倣学習ポリシーに対する新規な影響関数理論に基づくロボットデータキュレーション手法CUPIDを提案する。評価ロールアウトの集合が与えられると、CUPIDは各訓練デモのポリシーの期待リターンへの影響を推定する。これにより、ポリシーの閉ループパフォーマンスへの影響に基づいて、デモのランク付けと選択が可能となる。CUPIDを用いて、1)ポリシーのパフォーマンスを阻害する訓練デモを除外すること、および2)ポリシーを最も改善する新規に収集された軌跡をサブ選択することにより、データをキュレーションする。広範なシミュレーション実験とハードウェア実験により、本手法がテスト時のパフォーマンスを決定付けるデータを常に特定することを示す。例えば、キュレーションされたデータの33%未満で学習させることで、シミュレートされたRoboMimicベンチマークにおいて最先端の拡散ポリシーを実現でき、ハードウェアにおいても同様の成果が得られる。さらに、ハードウェア実験により、本手法は分布シフト下で堅牢な戦略を特定し、見せかけの相関関係を分離し、汎用ロボットポリシーの学習後も強化できることを示す。動画とコードはhttps://cupid-curation.github.ioで公開している。
原文(英語)を表示
Title (EN): CUPID: Curating Data your Robot Loves with Influence Functions
arXiv:2506.19121v2 Announce Type: replace-cross
Abstract: In robot imitation learning, policy performance is tightly coupled with the quality and composition of the demonstration data. Yet, developing a precise understanding of how individual demonstrations contribute to downstream outcomes – such as closed-loop task success or failure – remains a persistent challenge. We propose CUPID, a robot data curation method based on a novel influence function-theoretic formulation for imitation learning policies. Given a set of evaluation rollouts, CUPID estimates the influence of each training demonstration on the policy’s expected return. This enables ranking and selection of demonstrations according to their impact on the policy’s closed-loop performance. We use CUPID to curate data by 1) filtering out training demonstrations that harm policy performance and 2) subselecting newly collected trajectories that will most improve the policy. Extensive simulated and hardware experiments show that our approach consistently identifies which data drives test-time performance. For example, training with less than 33% of curated data can yield state-of-the-art diffusion policies on the simulated RoboMimic benchmark, with similar gains observed in hardware. Furthermore, hardware experiments show that our method can identify robust strategies under distribution shift, isolate spurious correlations, and even enhance the post-training of generalist robot policies. Videos and code are made available at: https://cupid-curation.github.io.
Published: 2025-09-24 19:00 UTC