外部時間過程下におけるマルコフ決定過程

外部時間過程下におけるマルコフ決定過程

なぜ重要か: 企業や社会への影響が見込まれ、一般メディアにも波及する可能性があります。

ソースを読む(export.arxiv.org)

arXiv:2305.16056v4発表タイプ:置換クロス

概要:強化学習アルゴリズムは、主に定常環境向けに開発されており、非定常環境を考慮した限られた文献では、遷移確率行列と報酬関数に起こりうる変化に関する特定の仮定が含まれることが多い。現実世界の応用には、様々な外部イベントによって継続的に進化する環境が含まれ、人間は過去の出来事のパターンを識別することで意思決定を行うことを考慮すると、本研究は外部時間的プロセスの影響下にあるマルコフ決定過程を調査する。我々は、外生プロセスによって導入された摂動の特性に基づき、有限のイベント履歴のみを考慮することで問題が扱いやすくなる条件を確立する。我々は、この問題に対処するための方策反復アルゴリズムを提案し、理論的に分析する。このアルゴリズムは、環境の現在の状態と、外生プロセスの過去の有限履歴を考慮した方策を学習する。このようなアルゴリズムが必ずしも収束するとは限らないことを示す。しかし、扱いやすい方策と価値関数によって誘起される近似誤差によって決定される状態空間の領域において、方策改善を保証する。また、有限の履歴の時間的イベントの組み込みによる近似を考慮した最小二乗方策評価と方策改善アルゴリズムのサンプル複雑度も確立する。我々の結果は、イベントの影響の減衰率に関する特定の条件を満たす一般的な離散時間プロセスに適用できるが、ガウス型マークを持つ離散時間Hawkesプロセスについてもさらに分析する。従来の制御環境における方策評価と展開について、我々の知見を実証する実験を行った。

原文(英語)を表示

Title (EN): Markov Decision Processes under External Temporal Processes

arXiv:2305.16056v4 Announce Type: replace-cross
Abstract: Reinforcement Learning Algorithms are predominantly developed for stationary environments, and the limited literature that considers nonstationary environments often involves specific assumptions about changes that can occur in transition probability matrices and reward functions. Considering that real-world applications involve environments that continuously evolve due to various external events, and humans make decisions by discerning patterns in historical events, this study investigates Markov Decision Processes under the influence of an external temporal process. We establish the conditions under which the problem becomes tractable, allowing it to be addressed by considering only a finite history of events, based on the properties of the perturbations introduced by the exogenous process. We propose and theoretically analyze a policy iteration algorithm to tackle this problem, which learns policies contingent upon the current state of the environment, as well as a finite history of prior events of the exogenous process. We show that such an algorithm is not guaranteed to converge. However, we provide a guarantee for policy improvement in regions of the state space determined by the approximation error induced by considering tractable policies and value functions. We also establish the sample complexity of least-squares policy evaluation and policy improvement algorithms that consider approximations due to the incorporation of only a finite history of temporal events. While our results are applicable to general discrete-time processes satisfying certain conditions on the rate of decay of the influence of their events, we further analyze the case of discrete-time Hawkes processes with Gaussian marks. We performed experiments to demonstrate our findings for policy evaluation and deployment in traditional control environments.

Published: 2025-09-24 19:00 UTC


コメントする