最大エントロピー強化学習からのフィードバックによる調整の失敗モード
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.20265v1発表形式:クロス
概要:本論文では、Simple Preference Optimization (SimPO)が長さ正規化温度を用いた最大エントロピー強化学習として導出できることを示し、この参照フリー手法に対する理論的基盤を提供する。オフライン選好最適化におけるSimPOの高い性能に着想を得て、最大エントロピー強化学習がオンラインRLHF設定において同様の結果を達成できるかどうかを調査した。実験の結果、最大エントロピー強化学習は、非常に低い学習率においても、一貫して過最適化と不安定なKLダイナミクスを示すことが分かった。安定した学習を維持するKL制約法とは異なり、エントロピー正則化は報酬ハッキングを防ぐことができず、過最適化と相関しているように見える。最後に、SimPOがオフライン設定で成功する一方、最大エントロピー強化学習がオンラインシナリオで苦戦する理由について考えられる説明を議論する。我々の知見は、参照フリー手法がオンラインまたはオフラインの選好学習に適用されるときに異なる課題に直面する可能性を示唆している。
原文(英語)を表示
Title (EN): Failure Modes of Maximum Entropy RLHF
arXiv:2509.20265v1 Announce Type: cross
Abstract: In this paper, we show that Simple Preference Optimization (SimPO) can be derived as Maximum Entropy Reinforcement Learning with length-normalized temperature, providing a theoretical foundation for this reference-free method. Motivated by SimPO’s strong performance in offline preference optimization, we investigate whether Maximum Entropy RL can achieve similar results in online RLHF settings. Our experiments find that Maximum Entropy RL consistently exhibits overoptimization and unstable KL dynamics, even at very low learning rates. Unlike KL-constrained methods that maintain stable training, entropy regularization fails to prevent reward hacking and appears to correlate with overoptimization. Lastly, we discuss possible explanations for why SimPO succeeds in offline settings while Maximum Entropy RL struggles in online scenarios. Our findings suggest that reference-free approaches may face distinct challenges when applied to online or offline preference learning.
Published: 2025-09-24 19:00 UTC