強化学習に基づく言語モデル推論のためのカルマンフィルタ拡張GRPO

強化学習に基づく言語モデル推論のためのカルマンフィルタ拡張GRPO

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2505.07527v3 発表種別:差し替え

概要:アドバンテージ関数は、強化学習における中心的な概念であり、方策勾配推定の分散を低減するのに役立ちます。近年、言語モデリングにおいて、グループごとの平均報酬を基準線として各出力のアドバンテージを計算するGroup Relative Policy Optimization (GRPO)が提案されました。しかし、報酬アドバンテージの予測が不正確な場合、高分散につながる可能性があります。本研究では、軽量なカルマンフィルタリングを用いて潜在報酬基準線とその不確実性を動的に推定することにより、Kalman Filter Enhanced Group Relative Policy Optimization (KRPO)モデルを提案します。このフィルタリング手法は単純なグループ平均に取って代わり、より適応的なアドバンテージ正規化を可能にします。本手法は、GRPOに対して追加の学習パラメータを必要としません。本アプローチは、高度に動的な報酬シグナルが言語モデルでモデル化しにくい状況において、方策最適化を改善するためのシンプルながらも効果的な方法を提供します。数学の問題解答と推論から得られた正解率と報酬を通して、より適応的なアドバンテージ推定モデルであるKRPOが、GRPOの安定性と性能を向上させることを示します。コードはhttps://github.com/billhhh/KRPO_LLMs_RLで公開しています。

原文(英語)を表示

Title (EN): Kalman Filter Enhanced GRPO for Reinforcement Learning-Based Language Model Reasoning

arXiv:2505.07527v3 Announce Type: replace
Abstract: The advantage function is a central concept in RL that helps reduce variance in policy gradient estimates. Recently, for language modeling, Group Relative Policy Optimization (GRPO) was proposed to compute the advantage for each output by subtracting the mean reward, as the baseline, for all outputs in the group. However, it can lead to high variance when the reward advantage is inaccurately predicted. In this work, we propose Kalman Filter Enhanced Group Relative Policy Optimization (KRPO) model, by using lightweight Kalman filtering to dynamically estimate the latent reward baseline and uncertainty. This filtering technique replaces the naive group mean, enabling more adaptive advantage normalization. Our method does not require additional learned parameters over GRPO. This approach offers a simple yet effective way to incorporate multiple outputs of GRPO into advantage estimation, improving policy optimization in settings where highly dynamic reward signals are difficult to model for language models. Through the accuracies and rewards obtained from math question answering and reasoning, we show that using a more adaptive advantage estimation model, KRPO can improve the stability and performance of GRPO. The code is available at https://github.com/billhhh/KRPO_LLMs_RL.

Published: 2025-09-24 19:00 UTC


コメントする