評価意識型強化学習
なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。
arXiv:2509.19464v1 発表種別:新規
要約:政策評価は、安全性とパフォーマンスが重要なシステムを展開するための前提条件となることが多い。既存の評価アプローチは、データの制限と長期的なタスクによる分散が大きいか、不均衡なサポートや不正確な環境モデルによるバイアスが大きいという問題を抱えていることが多い。これらの課題は、評価を明示的に考慮せずにポリシー学習を行う標準的な強化学習(RL)のパラダイムから、部分的に生じていると我々は考える。代替案として、我々は評価を意識した強化学習(EvA-RL)を提案する。これは、ポリシーが期待収益を最大化しつつ、所与の価値予測スキームの下で期待評価誤差を同時に最小化するように訓練される、言い換えれば「評価しやすい」ように訓練される手法である。我々はEvA-RLの枠組みを形式化し、展開環境とは異なる評価環境において、少数のロールアウトを条件として正確なポリシー評価を可能にするインスタンスを設計する。しかし、我々の理論的分析と経験的結果から、EvA-RL内で固定された価値予測スキームを使用する場合、評価精度とポリシーのパフォーマンスの間にトレードオフが存在することが多いことが示された。このトレードオフを軽減するために、我々はポリシーとともに評価条件付き状態価値予測器を共同学習するアプローチへと拡張する。様々な離散的および連続的行動領域における経験的結果から、EvA-RLは競争力のある収益を維持しながら、評価誤差を大幅に削減できることが示された。本研究は、信頼できる評価を訓練中の第一級の原則として扱う、幅広い新しいクラスのRL手法の基礎を築くものである。
原文(英語)を表示
Title (EN): Evaluation-Aware Reinforcement Learning
arXiv:2509.19464v1 Announce Type: new
Abstract: Policy evaluation is often a prerequisite for deploying safety- and performance-critical systems. Existing evaluation approaches frequently suffer from high variance due to limited data and long-horizon tasks, or high bias due to unequal support or inaccurate environmental models. We posit that these challenges arise, in part, from the standard reinforcement learning (RL) paradigm of policy learning without explicit consideration of evaluation. As an alternative, we propose evaluation-aware reinforcement learning (EvA-RL), in which a policy is trained to maximize expected return while simultaneously minimizing expected evaluation error under a given value prediction scheme — in other words, being “easy” to evaluate. We formalize a framework for EvA-RL and design an instantiation that enables accurate policy evaluation, conditioned on a small number of rollouts in an assessment environment that can be different than the deployment environment. However, our theoretical analysis and empirical results show that there is often a tradeoff between evaluation accuracy and policy performance when using a fixed value-prediction scheme within EvA-RL. To mitigate this tradeoff, we extend our approach to co-learn an assessment-conditioned state-value predictor alongside the policy. Empirical results across diverse discrete and continuous action domains demonstrate that EvA-RL can substantially reduce evaluation error while maintaining competitive returns. This work lays the foundation for a broad new class of RL methods that treat reliable evaluation as a first-class principle during training.
Published: 2025-09-24 19:00 UTC