ツール使用エージェントのためのプロシージャル環境生成

ツール使用エージェントのためのプロシージャル環境生成

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2506.11045v2 発表種別:差し替え

要約:大規模言語モデル(LLM)ツール使用エージェントの能力が、この分野における最近の研究を活発化させている一方、特にオンライン強化学習(RL)トレーニングにおけるツール使用トレーニングデータのキュレーションは未解決の問題です。既存の合成ツール使用データ生成アプローチは、非インタラクティブであるか、非構成的である傾向があります。本研究では、インタラクティブなツールと構成的なツール使用データを手続き的に生成するためのパイプラインであるRandomWorldを導入します。合成RandomWorldデータを用いたSFTおよびRLによるモデル調整が、様々なツール使用ベンチマークにおいて性能を向上させ、NESTFULデータセットの2つの指標において新たな最先端技術(SoTA)を達成したことを示します。更なる実験により、下流の性能はRandomWorldで生成されたトレーニングデータの量に比例して向上し、完全に合成データを用いた更なる改善の可能性が開かれることが示唆されました。

原文(英語)を表示

Title (EN): Procedural Environment Generation for Tool-Use Agents

arXiv:2506.11045v2 Announce Type: replace
Abstract: Although the power of LLM tool-use agents has ignited a flurry of recent research in this area, the curation of tool-use training data remains an open problem$-$especially for online RL training. Existing approaches to synthetic tool-use data generation tend to be non-interactive, and/or non-compositional. We introduce RandomWorld, a pipeline for the procedural generation of interactive tools and compositional tool-use data. We show that models tuned via SFT and RL on synthetic RandomWorld data improve on a range of tool-use benchmarks, and set the new SoTA for two metrics on the NESTFUL dataset. Further experiments show that downstream performance scales with the amount of RandomWorld-generated training data, opening up the possibility of further improvement through the use of entirely synthetic data.

Published: 2025-09-24 19:00 UTC


コメントする