シミュレーション環境における自己進化模倣学習

シミュレーション環境における自己進化模倣学習

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19460v1発表形式:クロス

概要:模倣学習は近年注目を集めていますが、複数のタスクにわたる汎化能力を持つエージェントを訓練するには、依然として大規模な専門家のデモンストレーションが必要であり、その収集には多大な費用と労力がかかります。限られた教師データという課題に対処するため、本稿では、シミュレータとの相互作用を通じて、少数のサンプルで学習するモデルを段階的に改善するフレームワークであるSelf-Evolved Imitation Learning (SEIL)を提案します。このモデルはまずシミュレータ内でタスクを実行し、成功した軌跡を新たなデモンストレーションとして収集して反復的に改良します。これらのデモンストレーションの多様性を高めるために、SEILは二段階のデータ拡張を採用しています。(i) 指数移動平均(EMA)モデルを用いたモデルレベルと、(ii) 初期オブジェクト位置にわずかな変化を与える環境レベルです。さらに、生成された軌跡プールから補足的な情報量の多い軌跡をフィルタリングする軽量なセレクタを導入することで、デモンストレーションの質を確保します。これらの厳選されたサンプルにより、モデルははるかに少ない訓練例で競争力のある性能を達成できます。LIBEROベンチマークに関する広範な実験により、SEILが少数のサンプルによる模倣学習シナリオにおいて新たな最先端の性能を達成することが示されました。コードはhttps://github.com/Jasper-aaa/SEIL.gitで公開しています。

原文(英語)を表示

Title (EN): Self-evolved Imitation Learning in Simulated World

arXiv:2509.19460v1 Announce Type: cross
Abstract: Imitation learning has been a trend recently, yet training a generalist agent across multiple tasks still requires large-scale expert demonstrations, which are costly and labor-intensive to collect. To address the challenge of limited supervision, we propose Self-Evolved Imitation Learning (SEIL), a framework that progressively improves a few-shot model through simulator interactions. The model first attempts tasksin the simulator, from which successful trajectories are collected as new demonstrations for iterative refinement. To enhance the diversity of these demonstrations, SEIL employs dual-level augmentation: (i) Model-level, using an Exponential Moving Average (EMA) model to collaborate with the primary model, and (ii) Environment-level, introducing slight variations in initial object positions. We further introduce a lightweight selector that filters complementary and informative trajectories from the generated pool to ensure demonstration quality. These curated samples enable the model to achieve competitive performance with far fewer training examples. Extensive experiments on the LIBERO benchmark show that SEIL achieves a new state-of-the-art performance in few-shot imitation learning scenarios. Code is available at https://github.com/Jasper-aaa/SEIL.git.

Published: 2025-09-24 19:00 UTC


コメントする