摩擦型Q学習

摩擦型Q学習

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2509.19771v1発表タイプ:クロス

要約:本研究では、古典力学における静摩擦とオフポリシー強化学習における外挿誤差とのアナロジーを引き、ポリシーがサポートされていない行動へと逸脱するのを防ぐ制約を定式化します。本稿では、バッチ制約強化学習を拡張した連続制御のための深層強化学習アルゴリズムであるFrictional Q-learningを提案します。本アルゴリズムは、再生バッファ内の行動と類似した行動を促すようエージェントの行動空間を制約しつつ、正規直交行動空間の多様体からの距離を維持します。この制約はバッチ制約の簡潔さを維持し、外挿誤差の直感的な物理的解釈を提供します。実験的に、本アルゴリズムは堅牢に学習され、標準的な連続制御ベンチマークにおいて競争力のある性能を達成することを示します。

原文(英語)を表示

Title (EN): Frictional Q-Learning

arXiv:2509.19771v1 Announce Type: cross
Abstract: We draw an analogy between static friction in classical mechanics and extrapolation error in off-policy RL, and use it to formulate a constraint that prevents the policy from drifting toward unsupported actions. In this study, we present Frictional Q-learning, a deep reinforcement learning algorithm for continuous control, which extends batch-constrained reinforcement learning. Our algorithm constrains the agent’s action space to encourage behavior similar to that in the replay buffer, while maintaining a distance from the manifold of the orthonormal action space. The constraint preserves the simplicity of batch-constrained, and provides an intuitive physical interpretation of extrapolation error. Empirically, we further demonstrate that our algorithm is robustly trained and achieves competitive performance across standard continuous control benchmarks.

Published: 2025-09-24 19:00 UTC


コメントする