強化学習による対話型ユーザー中心エージェントの訓練

強化学習による対話型ユーザー中心エージェントの訓練

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19736v1発表。発表種別:新規。

要約:強化学習(RL)は、静的なベンチマークを超えて動的な複数ターン対話に従事するエージェントモデルの訓練において有望性を示している。しかし、そのようなエージェントの究極的な価値はユーザーを支援する能力にあり、ユーザーインタラクションの多様性とダイナミクスは課題となる。本研究では、標準化されたGym環境とシミュレートされたユーザーを組み合わせることで、ユーザー中心の能力を訓練および評価するための統一フレームワークであるUserRLを提案する。GRPOアルゴリズム下での学習に異なる定式化がどのように影響するかを分析するために、ターンレベルの報酬割り当てと軌跡レベルのスコア計算を体系的に変動させる。Qwen3モデルにおける実験から、以下の3つの重要な発見が得られた。(i) SFTコールドスタートは、初期のインタラクション能力を解き放ち、持続的なRLの改善を可能にする上で重要である。(ii) 慎重な軌跡スコアリングは、より効率的で効果的な複数ターン対話を生み出す。(iii) より強力なシミュレートされたユーザー(例:GPT-4o)は訓練を促進するが、オープンソースシミュレータ(例:Qwen3-32B)は費用対効果が高く、転送可能な選択肢として残る。これらの結果は、報酬シェイピングとユーザーシミュレーションの選択の慎重な設計がモデル規模と同じくらい重要であることを強調し、UserRLを堅牢なユーザー中心のエージェントモデルを開発するための実際的な経路として確立する。全てのコードとデータは将来の研究のために公開されている。

原文(英語)を表示

Title (EN): UserRL: Training Interactive User-Centric Agent via Reinforcement Learning

arXiv:2509.19736v1 Announce Type: new
Abstract: Reinforcement learning (RL) has shown promise in training agentic models that move beyond static benchmarks to engage in dynamic, multi-turn interactions. Yet, the ultimate value of such agents lies in their ability to assist users, a setting where diversity and dynamics of user interaction pose challenges. In this work, we propose UserRL, a unified framework for training and evaluating user-centric abilities through standardized gym environments paired with simulated users. We systematically vary turn-level reward assignment and trajectory-level score calculation to analyze how different formulations affect learning under the GRPO algorithm. Our experiments across Qwen3 models reveal three key findings: (i) SFT cold start is critical for unlocking initial interaction ability and enabling sustained RL improvements; (ii) deliberate trajectory scoring yields more efficient and effective multi-turn interactions; and (iii) while stronger simulated users (e.g., GPT-4o) facilitates training, open-source simulators (e.g., Qwen3-32B) remain a cost-effective and transferable option. Together, these results highlight that careful design of reward shaping and user simulation choice is as crucial as model scale, and establish UserRL as a practical pathway for developing robust user-centric agentic models. All codes and data are public for future research.

Published: 2025-09-24 19:00 UTC


コメントする