MAPO:複合的利点政策最適化
なぜ重要か: 法規制・制度面での動きが企業のAI活用に直接影響する可能性があります。
arXiv:2509.18849v2 発表種別: 置換
要旨: Group Relative Policy Optimization (GRPO)などの基盤モデルに対する強化学習の最近の進歩により、推論タスクにおける基盤モデルのパフォーマンスが大幅に向上しました。特に、アドバンテージ関数は、GRPOにおいて軌跡の重要度をランク付けする中心的なメカニズムとして機能します。しかし、既存の探索では、アドバンテージ逆転問題とアドバンテージミラー問題の両方に遭遇し、異なるクエリサンプル間での合理的なアドバンテージ配分を妨げています。本研究では、簡潔ながらも効果的なGRPO戦略であるMixed Advantage Policy Optimization (MAPO)を提案します。軌跡は異なる確実性で現れることを明らかにし、高確実性軌跡を持つサンプルに対してアドバンテージパーセント偏差を提案します。さらに、軌跡の確実性が異なるサンプルに対してアドバンテージ関数を動的に再重み付けすることで、サンプル固有の特性を考慮したアドバンテージ関数を適応的に構成します。関連する最先端の方法との比較、および異なるアドバンテージバリアントに関する除去実験により、提案手法の有効性を検証します。
原文(英語)を表示
Title (EN): MAPO: Mixed Advantage Policy Optimization
arXiv:2509.18849v2 Announce Type: replace
Abstract: Recent advances in reinforcement learning for foundation models, such as Group Relative Policy Optimization (GRPO), have significantly improved the performance of foundation models on reasoning tasks. Notably, the advantage function serves as a central mechanism in GRPO for ranking the trajectory importance. However, existing explorations encounter both advantage reversion and advantage mirror problems, which hinder the reasonable advantage allocation across different query samples. In this work, we propose an easy but effective GRPO strategy, Mixed Advantage Policy Optimization (MAPO). We reveal that the trajectory appears with different certainty and propose the advantage percent deviation for samples with high-certainty trajectories. Furthermore, we dynamically reweight the advantage function for samples with varying trajectory certainty, thereby adaptively configuring the advantage function to account for sample-specific characteristics. Comparison with related state-of-the-art methods, along with ablation studies on different advantage variants, validates the effectiveness of our approach.
Published: 2025-09-24 19:00 UTC