Playpen:会話型インタラクションを通じた学習探求のための環境
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2504.08590v3 発表種別:差し替え
概要: 大規模言語モデル(LLM)の訓練後学習において、モデルの応答の適切性を判断する報酬モデルを用いた学習者とフィードバック提供者間の相互作用が近年注目されている。本論文では、目標指向型かつ規則に基づいた、主に言語行動によって駆動される対話ゲームが、学習のためのフィードバックシグナルの源泉となり得るかを調査する。対話ゲーム自己対戦を通じたオフラインおよびオンライン学習のための環境であるPlaypenを紹介し、教師あり微調整、直接アライメント(DPO)、GRPOを用いた強化学習という代表的な訓練後学習手法を調査する。小規模LLM (Llama-3.1-8B-Instruct) の訓練後学習実験を行い、訓練ゲームの未見インスタンス、未見ゲーム、標準ベンチマークにおける性能を評価する。SFTによる模倣学習は未見インスタンスにおける性能を向上させるが、他のスキルに悪影響を与える一方、GRPOを用いたインタラクティブ学習は、スキルの損失なしにバランスの取れた改善を示す。この有望な(合成)相互作用における学習という新たな方向性の研究を促進するため、フレームワークとベースラインの訓練設定を公開する。
原文(英語)を表示
Title (EN): Playpen: An Environment for Exploring Learning Through Conversational Interaction
arXiv:2504.08590v3 Announce Type: replace
Abstract: Interaction between learner and feedback-giver has come into focus recently for post-training of Large Language Models (LLMs), through the use of reward models that judge the appropriateness of a model’s response. In this paper, we investigate whether Dialogue Games — goal-directed and rule-governed activities driven predominantly by verbal actions — can also serve as a source of feedback signals for learning. We introduce Playpen, an environment for off- and online learning through Dialogue Game self-play, and investigate a representative set of post-training methods: supervised fine-tuning; direct alignment (DPO); and reinforcement learning with GRPO. We experiment with post-training a small LLM (Llama-3.1-8B-Instruct), evaluating performance on unseen instances of training games as well as unseen games, and on standard benchmarks. We find that imitation learning through SFT improves performance on unseen instances, but negatively impacts other skills, while interactive learning with GRPO shows balanced improvements without loss of skills. We release the framework and the baseline training setups to foster research in the promising new direction of learning in (synthetic) interaction.
Published: 2025-09-24 19:00 UTC