VCRL:大規模言語モデルのための分散ベースカリキュラム強化学習
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19803v1発表種別:クロス
概要:方策ベースの強化学習は現在、数学的推論タスクにおける大規模言語モデル(LLM)の性能向上において重要な役割を果たしている。しかしながら、既存のロールアウトベースの強化学習手法(GRPO、DAPO、GSPOなど)は、異なる難易度レベルのサンプルに対するLLMの学習能力を明示的に考慮しておらず、これは簡単な問題から難しい問題へと段階的に取り組む人間の数学的推論過程とは矛盾する。直感的に、RLVRにおけるロールアウトグループの報酬の分散は、LLMにとっての現在のサンプルの難易度を部分的に反映していることが分かる。非常に簡単または非常に難しいサンプルは分散が低く、中程度の難易度のサンプルは分散が高い。これに基づき、我々はグループ報酬の分散に基づいて訓練サンプルの難易度を動的に制御するカリキュラム強化学習フレームワーク、VCRLを提案する。5つの数学的ベンチマークと2つのモデルに関する実験により、VCRLが現在のLLM RLベースラインを上回る利点を明らかにした。
原文(英語)を表示
Title (EN): VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
arXiv:2509.19803v1 Announce Type: cross
Abstract: Policy-based reinforcement learning currently plays an important role in improving LLMs on mathematical reasoning tasks. However, existing rollout-based reinforcement learning methods (GRPO, DAPO, GSPO, etc.) fail to explicitly consider LLMs’ learning ability for samples of different difficulty levels, which is contrary to the human cognitive process of mathematical reasoning tasks from easy to difficult. Intuitively, we find that the variance of the rollout group’s reward in RLVR partly reflects the difficulty of the current sample for LLMs. Samples that are too easy or too difficult have a lower variance, while samples with moderate difficulty have a higher variance. Based on this, we propose VCRL, a curriculum reinforcement learning framework that dynamically controls the difficulty of training samples based on the variance of group rewards. Experiments on five mathematical benchmarks and two models reveal the advantages of VCRL over the current LLM RL baselines.
Published: 2025-09-24 19:00 UTC