段階的誘導方策最適化:GRPOにおける誤った推論の色分け
なぜ重要か: 法規制・制度面での動きが企業のAI活用に直接影響する可能性があります。
arXiv:2505.11595v2 発表種別: replace-cross
要約:強化学習(RL)は、大規模言語モデル(LLM)の推論能力強化において有効性を示している。広く採用されている手法であるGroup Relative Policy Optimization(GRPO)は、DeepSeek-R1の訓練において強力な実験結果を示している。しかし、GRPOは、グループ内の全ての回答が不正解である場合(すなわち、*all-negative-sample* グループ)、ポリシーを更新できない。この限界は、人工知能と人間の知能の重要な違いを浮き彫りにしている。人間は間違いから学ぶことができるのに対し、GRPOはこれらのシグナルを無視する。我々の最初の貢献は、*step-wise* ジャッジモデルを用いてグループ内の回答の多様性を組み込むことで、all-negative-sample問題を軽減する単純なフレームワークを導入することである。このジャッジモデルは、直接訓練することも、既存のLLMから適応させることもできる。この多様化が、簡略化された設定においてGRPOの学習ダイナミクスを加速できることを証明する。また、提案する段階的誘導ポリシー最適化(SGPO)手法を実験的に検証し、9つのベンチマーク(ベースと蒸留バリアントを含む)におけるオフラインおよびオンライン訓練で、モデルサイズ(7B、14B、32B)全体にわたって一貫した向上を示す。我々の結果は、以下の2つの利点を強調している。(i) SGPOは、特にall-negative-sampleグループが蔓延する訓練の初期および中期において、GRPOを上回る。(ii) SGPOは、知識蒸留法とは異なり、ジャッジモデルが正しい答えを生成する必要がない。
原文(英語)を表示
Title (EN): Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO
arXiv:2505.11595v2 Announce Type: replace-cross
Abstract: Reinforcement learning (RL) has proven effective in strengthening the reasoning capabilities of large language models (LLMs). A widely adopted method, Group Relative Policy Optimization (GRPO), has shown strong empirical results in training DeepSeek-R1. However, GRPO fails to update the policy when all responses within a group are incorrect (i.e., \emph{all-negative-sample} groups). This limitation underscores a key gap between artificial and human intelligence: unlike humans, who can learn from mistakes, GRPO discards these signals. Our first contribution is to introduce a simple framework that mitigates the all-negative-sample issue by incorporating response diversity within groups using a \textit{step-wise} judge model, which can be either directly trained or adapted from existing LLMs. We prove that this diversification can accelerate GRPO’s learning dynamics in a simplified setting. We also empirically validate the proposed stepwise guided policy optimization (SGPO) method, demonstrating consistent gains across model sizes (7B, 14B, 32B) in offline and online training on 9 benchmarks, including base and distilled variants. Our results highlight two advantages: (i) SGPO surpasses GRPO, especially in the early and mid-training stages where all-negative-sample groups are prevalent; and (ii) SGPO does not require judge models to generate correct answers, differentiating it from knowledge distillation methods.
Published: 2025-09-24 19:00 UTC