AAPO:アドバンテージ・モーメンタムによるLLMの推論能力向上

AAPO:アドバンテージ・モーメンタムによるLLMの推論能力向上

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.14264v2 発表種別: replace-cross

要約: 強化学習(RL)は大規模言語モデル(LLM)の推論能力向上において、特に思考連鎖(CoT)データが限られているため教師ありファインチューニング(SFT)が不十分な状況で効果的なアプローチとして台頭している。RLベースの学習後手法の中でも、Group Relative Policy Optimization(GRPO)に代表されるグループ相対的優位性推定は、価値モデルへの依存性を排除することで、Proximal Policy Optimization(PPO)などの従来手法と比較して学習を簡素化することから、大きな注目を集めている。しかしながら、既存のグループ相対的優位性推定手法は、推定された優位性がゼロに近づく場合に特に学習効率が低いという課題があることを我々は確認した。この課題に対処するため、本稿ではモーメンタムベースの推定スキームを用いて強化された優位性でクロスエントロピー(CE)損失を最適化する、新たなRLアルゴリズムであるAdvantage-Augmented Policy Optimization(AAPO)を提案する。このアプローチは、グループ相対的優位性推定に伴う非効率性を効果的に軽減する。複数の数学的推論ベンチマークにおける実験結果から、AAPOの優れた性能を実証する。

原文(英語)を表示

Title (EN): AAPO: Enhancing the Reasoning Capabilities of LLMs with Advantage Momentum

arXiv:2505.14264v2 Announce Type: replace-cross
Abstract: Reinforcement learning (RL) has emerged as an effective approach for enhancing the reasoning capabilities of large language models (LLMs), especially in scenarios where supervised fine-tuning (SFT) falls short due to limited chain-of-thought (CoT) data. Among RL-based post-training methods, group relative advantage estimation, as exemplified by Group Relative Policy Optimization (GRPO), has attracted considerable attention for eliminating the dependency on the value model, thereby simplifying training compared to traditional approaches like Proximal Policy Optimization (PPO). However, we observe that exsiting group relative advantage estimation method still suffers from training inefficiencies, particularly when the estimated advantage approaches zero. To address this limitation, we propose Advantage-Augmented Policy Optimization (AAPO), a novel RL algorithm that optimizes the cross-entropy (CE) loss using advantages enhanced through a momentum-based estimation scheme. This approach effectively mitigates the inefficiencies associated with group relative advantage estimation. Experimental results on multiple mathematical reasoning benchmarks demonstrate the superior performance of AAPO.

Published: 2025-09-24 19:00 UTC


コメントする