動的報酬スケーリングを用いた大規模言語モデル調整のための逆強化学習
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2503.18991v4 発表種別:差し替え
要約:大規模言語モデル(LLM)の安全な展開には、アライメントが不可欠である。既存の手法は、報酬ベース(選好ペアで報酬モデルを訓練し、強化学習で最適化する)か、報酬フリー(ランク付けされた出力で直接微調整する)かのいずれかである。最近の研究では、適切に調整された報酬ベースのパイプラインは堅牢性を維持し、単一応答のデモはペアワイズ選好データよりも優れた性能を示すことが明らかになっている。しかしながら、(1) 一般的な危険を過剰に表現し、ロングテール脅威を無視する不均衡な安全データセット、(2) タスクの難易度を無視し、最適化効率と達成可能な利益を制限する静的な報酬モデル、という2つの課題が残っている。本稿では、DR-IRL(動的逆強化学習による報酬調整)を提案する。まず、IRLを用いて、7つの有害なカテゴリを網羅するバランスのとれた安全データセットを用いて、カテゴリ固有の報酬モデルを訓練する。次に、タスク難易度による報酬スケーリングの導入——テキストエンコーダの余弦類似度によるデータレベルの難易度、報酬ギャップによるモデルレベルの応答性——によって、Group Relative Policy Optimization (GRPO)を強化する。様々なベンチマークとLLMを用いた広範な実験により、DR-IRLは有用性を維持しながら、安全アライメントにおいてすべてのベースライン手法を凌駕することが示された。
原文(英語)を表示
Title (EN): Inverse Reinforcement Learning with Dynamic Reward Scaling for LLM Alignment
arXiv:2503.18991v4 Announce Type: replace-cross
Abstract: Alignment is vital for safely deploying large language models (LLMs). Existing techniques are either reward-based (train a reward model on preference pairs and optimize with reinforcement learning) or reward-free (directly fine-tune on ranked outputs). Recent research shows that well-tuned reward-based pipelines remain robust, and single-response demonstrations can outperform pairwise preference data. However, two challenges persist: (1) imbalanced safety datasets that overrepresent common hazards while neglecting long-tail threats; and (2) static reward models that ignore task difficulty, limiting optimization efficiency and attainable gains. We propose DR-IRL (Dynamically adjusting Rewards through Inverse Reinforcement Learning). We first train category-specific reward models using a balanced safety dataset covering seven harmful categories via IRL. Then we enhance Group Relative Policy Optimization (GRPO) by introducing dynamic reward scaling–adjusting rewards by task difficulty–data-level hardness by text encoder cosine similarity, model-level responsiveness by reward gaps. Extensive experiments across various benchmarks and LLMs demonstrate that DR-IRL outperforms all baseline methods in safety alignment while maintaining usefulness.
Published: 2025-09-24 19:00 UTC